PHPAnalysis中文分词类详解


Posted in PHP onJune 13, 2014

PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:

一、比较重要的成员变量

$resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文)
                                    这个变量一般用 SetResultType( $rstype ) 这方法进行设置。
$notSplitLen  = 5        切分句子最短长度
$toLower      = false    把英文单词全部转小写
$differMax    = false    使用最大切分模式对二元词进行消岐
$unitWord     = true     尝试合并单字(即是新词识别)
$differFreq   = false    使用热门词优先模式进行消岐

二、主要成员函数列表

1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')
函数说明:构造函数
参数列表:
$source_charset      源字符串编码
$target_charset      目录字符串编码
$load_all            是否完全加载词典(此参数已经作废)
$source              源字符串
如果输入输出都是utf-8,实际上可以不必使用任何参数进行初始化,而是通过 SetSource 方法设置要操作的文本

2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )
函数说明:设置源字符串
参数列表:
$source              源字符串
$source_charset      源字符串编码
$target_charset      目录字符串编码
返回值:bool

3、public function StartAnalysis($optimize=true)
函数说明:开始执行分词操作
参数列表:
$optimize            分词后是否尝试优化结果
返回值:void
一个基本的分词过程:
//////////////////////////////////////
$pa = new PhpAnalysis();

$pa->SetSource('需要进行分词的字符串');

//设置分词属性
$pa->resultType = 2;
$pa->differMax  = true;

$pa->StartAnalysis();

//获取你想要的结果
$pa->GetFinallyIndex();
////////////////////////////////////////

4、public function SetResultType( $rstype )
函数说明:设置返回结果的类型
实际是对成员变量$resultType的操作
参数 $rstype 值为:
1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文
返回值:void

5、public function GetFinallyKeywords( $num = 10 )
函数说明:获取出现频率最高的指定词条数(通常用于提取文档关键字)
参数列表:
$num = 10  返回词条个数
返回值:用","分隔的关键字列表

6、public function GetFinallyResult($spword=' ')
函数说明:获得最终分词结果
参数列表:
$spword    词条之间的分隔符
返回值:string

7、public function GetSimpleResult()
函数说明:获得粗分结果
返回值:array

8、public function GetSimpleResultAll()
函数说明:获得包含属性信息的粗分结果
属性(1中文词句、2 ANSI词汇(包括全角),3 ANSI标点符号(包括全角),4数字(包括全角),5 中文标点或无法识别字符)
返回值:array

9、public function GetFinallyIndex()
函数说明:获取hash索引数组
返回值:array('word'=>count,...) 按出现频率排序

10、public function MakeDict( $source_file, $target_file='' )
函数说明:把文本文件词库编译成词典
参数列表:
$source_file   源文本文件
$target_file   目标文件(如果不指定,则为当前词典)
返回值:void

11、public function ExportDict( $targetfile )
函数说明:导出当前词典全部词条为文本文件
参数列表:
$targetfile  目标文件
返回值:void

PHP 相关文章推荐
用PHP实现图象锐化代码
Jun 14 PHP
将一维或多维的数组连接成一个字符串的php代码
Aug 08 PHP
php数组函数序列之in_array() 查找数组值是否存在
Oct 29 PHP
浅析PHP程序防止ddos,dns,集群服务器攻击的解决办法
Jun 18 PHP
PHP中array_map与array_column之间的关系分析
Aug 19 PHP
php中Array2xml类实现数组转化成XML实例
Dec 08 PHP
PHP函数超时处理方法
Feb 14 PHP
PHP socket 模拟POST 请求实例代码
Jul 18 PHP
PHP接口并发测试的方法(推荐)
Dec 15 PHP
PHP实现文件上传功能实例代码
May 18 PHP
php框架CodeIgniter主从数据库配置方法分析
May 25 PHP
PHP正则验证字符串是否为数字的两种方法并附常用正则
Feb 27 PHP
ThinkPHP缓存方法S()概述
Jun 13 #PHP
采用ThinkPHP中F方法实现快速缓存实例
Jun 13 #PHP
浅析ThinkPHP中execute和query方法的区别
Jun 13 #PHP
采用thinkphp自带方法生成静态html文件详解
Jun 13 #PHP
PHP中使用gettext解决国际化问题的例子(i18n)
Jun 13 #PHP
Yii结合CKEditor实现图片上传功能
Jun 13 #PHP
在Yii框架中使用PHP模板引擎Twig的例子
Jun 13 #PHP
You might like
第十四节--命名空间
2006/11/16 PHP
ThinkPHP打开验证码页面显示乱码的解决方法
2014/12/18 PHP
php+mysqli使用面向对象方式查询数据库实例
2015/01/29 PHP
php中mysql操作buffer用法详解
2015/03/19 PHP
使用GD库生成带阴影文字的图片
2015/03/27 PHP
javascript 框架小结 个人工作经验
2009/06/13 Javascript
javascript 一段左右两边随屏滚动的代码
2009/06/18 Javascript
jquery控制listbox中项的移动并排序
2009/11/12 Javascript
本地对象Array的原型扩展实现代码
2010/12/04 Javascript
Jquery实现三层遍历删除功能代码
2013/04/23 Javascript
js插件方式打开pdf文件(浏览器pdf插件分享)
2013/12/20 Javascript
JavaScript基础语法、dom操作树及document对象
2014/12/02 Javascript
jQuery实现仿腾讯微博滑出效果报告每日天气的方法
2015/05/11 Javascript
基于javascript实现图片预加载
2016/01/05 Javascript
javascript自动恢复文本框点击清除后的默认文本
2016/01/12 Javascript
jQuery+ajax简单实现文件上传的方法
2016/06/03 Javascript
JavaScript数组去重的几种方法效率测试
2016/10/23 Javascript
JavaScript结合HTML DOM实现联动菜单
2017/04/05 Javascript
Nodejs实现多房间简易聊天室功能
2017/06/20 NodeJs
Angular js 实现添加用户、修改密码、敏感字、下拉菜单的综合操作方法
2017/10/24 Javascript
JavaScript进阶(四)原型与原型链用法实例分析
2020/05/09 Javascript
使用纯前端JavaScript实现Excel导入导出方法过程详解
2020/08/07 Javascript
[01:00:06]加油DOTA_EP01_网络版
2014/08/09 DOTA
Python写的PHPMyAdmin暴力破解工具代码
2014/08/06 Python
Python的Django REST框架中的序列化及请求和返回
2016/04/11 Python
Python设计模式之命令模式简单示例
2018/01/10 Python
Python 生成器,迭代,yield关键字,send()传参给yield语句操作示例
2019/10/12 Python
Python可变参数会自动填充前面的默认同名参数实例
2019/11/18 Python
Python Pandas 转换unix时间戳方式
2019/12/07 Python
HTML5 直播疯狂点赞动画实现代码 附源码
2020/04/14 HTML / CSS
意大利时尚精品店:Nugnes 1920
2020/02/10 全球购物
机电专业大学生求职信
2013/10/04 职场文书
善意的谎言事例
2014/02/15 职场文书
2015年派出所工作总结
2015/04/24 职场文书
聘任书格式及范文
2015/09/21 职场文书
Python开发工具Pycharm的安装以及使用步骤总结
2021/06/24 Python