PHPAnalysis中文分词类详解


Posted in PHP onJune 13, 2014

PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:

一、比较重要的成员变量

$resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文)
                                    这个变量一般用 SetResultType( $rstype ) 这方法进行设置。
$notSplitLen  = 5        切分句子最短长度
$toLower      = false    把英文单词全部转小写
$differMax    = false    使用最大切分模式对二元词进行消岐
$unitWord     = true     尝试合并单字(即是新词识别)
$differFreq   = false    使用热门词优先模式进行消岐

二、主要成员函数列表

1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')
函数说明:构造函数
参数列表:
$source_charset      源字符串编码
$target_charset      目录字符串编码
$load_all            是否完全加载词典(此参数已经作废)
$source              源字符串
如果输入输出都是utf-8,实际上可以不必使用任何参数进行初始化,而是通过 SetSource 方法设置要操作的文本

2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )
函数说明:设置源字符串
参数列表:
$source              源字符串
$source_charset      源字符串编码
$target_charset      目录字符串编码
返回值:bool

3、public function StartAnalysis($optimize=true)
函数说明:开始执行分词操作
参数列表:
$optimize            分词后是否尝试优化结果
返回值:void
一个基本的分词过程:
//////////////////////////////////////
$pa = new PhpAnalysis();

$pa->SetSource('需要进行分词的字符串');

//设置分词属性
$pa->resultType = 2;
$pa->differMax  = true;

$pa->StartAnalysis();

//获取你想要的结果
$pa->GetFinallyIndex();
////////////////////////////////////////

4、public function SetResultType( $rstype )
函数说明:设置返回结果的类型
实际是对成员变量$resultType的操作
参数 $rstype 值为:
1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文
返回值:void

5、public function GetFinallyKeywords( $num = 10 )
函数说明:获取出现频率最高的指定词条数(通常用于提取文档关键字)
参数列表:
$num = 10  返回词条个数
返回值:用","分隔的关键字列表

6、public function GetFinallyResult($spword=' ')
函数说明:获得最终分词结果
参数列表:
$spword    词条之间的分隔符
返回值:string

7、public function GetSimpleResult()
函数说明:获得粗分结果
返回值:array

8、public function GetSimpleResultAll()
函数说明:获得包含属性信息的粗分结果
属性(1中文词句、2 ANSI词汇(包括全角),3 ANSI标点符号(包括全角),4数字(包括全角),5 中文标点或无法识别字符)
返回值:array

9、public function GetFinallyIndex()
函数说明:获取hash索引数组
返回值:array('word'=>count,...) 按出现频率排序

10、public function MakeDict( $source_file, $target_file='' )
函数说明:把文本文件词库编译成词典
参数列表:
$source_file   源文本文件
$target_file   目标文件(如果不指定,则为当前词典)
返回值:void

11、public function ExportDict( $targetfile )
函数说明:导出当前词典全部词条为文本文件
参数列表:
$targetfile  目标文件
返回值:void

PHP 相关文章推荐
连接到txt文本的超链接,不直接打开而是点击后下载的处理方法
Jul 01 PHP
PHP教程 预定义变量
Oct 23 PHP
php 中文和编码判断代码
May 16 PHP
浅析PHP substr,mb_substr以及mb_strcut的区别和用法
Jun 21 PHP
php简单生成随机数的方法
Jul 30 PHP
Yii中表单用法实例详解
Jan 05 PHP
yii2带搜索功能的下拉框实例详解
May 12 PHP
基于php实现的php代码加密解密类完整实例
Oct 12 PHP
微信自定义分享php代码分析
Nov 24 PHP
php魔法函数与魔法常量使用介绍
Jul 23 PHP
分享5个非常有用的Laravel Blade指令
May 30 PHP
php实现每日签到功能
Nov 29 PHP
ThinkPHP缓存方法S()概述
Jun 13 #PHP
采用ThinkPHP中F方法实现快速缓存实例
Jun 13 #PHP
浅析ThinkPHP中execute和query方法的区别
Jun 13 #PHP
采用thinkphp自带方法生成静态html文件详解
Jun 13 #PHP
PHP中使用gettext解决国际化问题的例子(i18n)
Jun 13 #PHP
Yii结合CKEditor实现图片上传功能
Jun 13 #PHP
在Yii框架中使用PHP模板引擎Twig的例子
Jun 13 #PHP
You might like
PHP中ini_set和ini_get函数的用法小结
2014/02/18 PHP
php数组索引与键值操作技巧实例分析
2015/06/24 PHP
简明json介绍
2008/09/28 Javascript
不同浏览器对回车提交表单的处理办法
2010/02/13 Javascript
快速查找数组中的某个元素并返回下标示例
2013/09/03 Javascript
jquery操作select详解(取值,设置选中)
2014/02/07 Javascript
JavaScript实现的一个日期格式化函数分享
2014/12/06 Javascript
原生js和jquery实现图片轮播淡入淡出效果
2015/04/23 Javascript
JavaScript中数据结构与算法(二):队列
2015/06/19 Javascript
使用JS代码实现点击按钮下载文件
2016/11/12 Javascript
JS判断是否为JSON对象及是否存在某字段的方法(推荐)
2016/11/29 Javascript
使用nodejs下载风景壁纸
2017/02/05 NodeJs
JavaScript函数节流和函数防抖之间的区别
2017/02/15 Javascript
使用vue.js编写蓝色拼图小游戏
2017/03/17 Javascript
vue router自动判断左右翻页转场动画效果
2017/10/10 Javascript
在Vue项目中引入腾讯验证码服务的教程
2018/04/03 Javascript
JS使用队列对数组排列,基数排序算法示例
2019/03/02 Javascript
9102了,你还不会移动端真机调试吗
2019/03/25 Javascript
Vue.extend 编程式插入组件的实现
2019/11/18 Javascript
ptyhon实现sitemap生成示例
2014/03/30 Python
同时安装Python2 & Python3 cmd下版本自由选择的方法
2017/12/09 Python
django基础学习之send_mail功能
2019/08/07 Python
关于Python形参打包与解包小技巧分享
2019/08/24 Python
计算Python Numpy向量之间的欧氏距离实例
2020/05/22 Python
英国男女奢华内衣和泳装购物网站:Figleaves
2017/01/28 全球购物
英国手机壳购买网站:Case Hut
2019/04/11 全球购物
德国咖啡批发商:Coffeefair
2019/08/26 全球购物
经贸日语专业个人求职信
2013/12/13 职场文书
高中运动会入场词
2014/02/14 职场文书
个人授权委托书范文
2014/09/21 职场文书
2015年小学英语教师工作总结
2015/05/12 职场文书
回复函格式及范文
2015/07/14 职场文书
小学数学教师研修日志
2015/11/13 职场文书
2016年学校禁毒宣传活动工作总结
2016/04/05 职场文书
七年级写作指导之游记作文
2019/10/07 职场文书
Java实现给Word文件添加文字水印
2022/02/15 Java/Android