PHPAnalysis中文分词类详解


Posted in PHP onJune 13, 2014

PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:

一、比较重要的成员变量

$resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文)
                                    这个变量一般用 SetResultType( $rstype ) 这方法进行设置。
$notSplitLen  = 5        切分句子最短长度
$toLower      = false    把英文单词全部转小写
$differMax    = false    使用最大切分模式对二元词进行消岐
$unitWord     = true     尝试合并单字(即是新词识别)
$differFreq   = false    使用热门词优先模式进行消岐

二、主要成员函数列表

1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')
函数说明:构造函数
参数列表:
$source_charset      源字符串编码
$target_charset      目录字符串编码
$load_all            是否完全加载词典(此参数已经作废)
$source              源字符串
如果输入输出都是utf-8,实际上可以不必使用任何参数进行初始化,而是通过 SetSource 方法设置要操作的文本

2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )
函数说明:设置源字符串
参数列表:
$source              源字符串
$source_charset      源字符串编码
$target_charset      目录字符串编码
返回值:bool

3、public function StartAnalysis($optimize=true)
函数说明:开始执行分词操作
参数列表:
$optimize            分词后是否尝试优化结果
返回值:void
一个基本的分词过程:
//////////////////////////////////////
$pa = new PhpAnalysis();

$pa->SetSource('需要进行分词的字符串');

//设置分词属性
$pa->resultType = 2;
$pa->differMax  = true;

$pa->StartAnalysis();

//获取你想要的结果
$pa->GetFinallyIndex();
////////////////////////////////////////

4、public function SetResultType( $rstype )
函数说明:设置返回结果的类型
实际是对成员变量$resultType的操作
参数 $rstype 值为:
1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文
返回值:void

5、public function GetFinallyKeywords( $num = 10 )
函数说明:获取出现频率最高的指定词条数(通常用于提取文档关键字)
参数列表:
$num = 10  返回词条个数
返回值:用","分隔的关键字列表

6、public function GetFinallyResult($spword=' ')
函数说明:获得最终分词结果
参数列表:
$spword    词条之间的分隔符
返回值:string

7、public function GetSimpleResult()
函数说明:获得粗分结果
返回值:array

8、public function GetSimpleResultAll()
函数说明:获得包含属性信息的粗分结果
属性(1中文词句、2 ANSI词汇(包括全角),3 ANSI标点符号(包括全角),4数字(包括全角),5 中文标点或无法识别字符)
返回值:array

9、public function GetFinallyIndex()
函数说明:获取hash索引数组
返回值:array('word'=>count,...) 按出现频率排序

10、public function MakeDict( $source_file, $target_file='' )
函数说明:把文本文件词库编译成词典
参数列表:
$source_file   源文本文件
$target_file   目标文件(如果不指定,则为当前词典)
返回值:void

11、public function ExportDict( $targetfile )
函数说明:导出当前词典全部词条为文本文件
参数列表:
$targetfile  目标文件
返回值:void

PHP 相关文章推荐
php中处理mysql_fetch_assoc返回来的数组 不用foreach----echo
May 04 PHP
解析php框架codeigniter中如何使用框架的session
Jun 24 PHP
php pki加密技术(openssl)详解
Jul 01 PHP
php计算当前程序执行时间示例
Apr 24 PHP
PHP解决URL中文GBK乱码问题的两种方法
Jun 03 PHP
php修改指定文件后缀的方法
Sep 11 PHP
Laravel中扩展Memcached缓存驱动实现使用阿里云OCS缓存
Feb 10 PHP
yii2整合百度编辑器umeditor及umeditor图片上传问题的解决办法
Apr 20 PHP
PHP序列化操作方法分析
Sep 28 PHP
Laravel Memcached缓存驱动的配置与应用方法分析
Oct 08 PHP
基于Laravel实现的用户动态模块开发
Sep 21 PHP
Yii框架的路由配置方法分析
Sep 09 PHP
ThinkPHP缓存方法S()概述
Jun 13 #PHP
采用ThinkPHP中F方法实现快速缓存实例
Jun 13 #PHP
浅析ThinkPHP中execute和query方法的区别
Jun 13 #PHP
采用thinkphp自带方法生成静态html文件详解
Jun 13 #PHP
PHP中使用gettext解决国际化问题的例子(i18n)
Jun 13 #PHP
Yii结合CKEditor实现图片上传功能
Jun 13 #PHP
在Yii框架中使用PHP模板引擎Twig的例子
Jun 13 #PHP
You might like
简单的PHP图片上传程序
2008/03/27 PHP
php设计模式 Factory(工厂模式)
2011/06/26 PHP
CodeIgniter表单验证方法实例详解
2016/03/03 PHP
JS清除文本框内容离开在恢复及鼠标离开文本框时触发js的方法
2016/01/12 Javascript
Backbone.js框架中简单的View视图编写学习笔记
2016/02/14 Javascript
Bootstrap布局组件教程之Bootstrap下拉菜单
2016/06/12 Javascript
JS基于构造函数实现的菜单滑动显隐效果【测试可用】
2016/06/21 Javascript
JS中使用DOM来控制HTML元素
2016/07/31 Javascript
jQuery版AJAX简易封装代码
2016/09/14 Javascript
动态加载css方法实现和深入解析
2017/01/18 Javascript
JQuery 进入页面默认给已赋值的复选框打钩
2017/03/23 jQuery
vue.js框架实现表单排序和分页效果
2017/08/09 Javascript
vue mint-ui 实现省市区街道4级联动示例(仿淘宝京东收货地址4级联动)
2017/10/16 Javascript
three.js中文文档学习之如何本地运行详解
2017/11/20 Javascript
Vue二次封装axios为插件使用详解
2018/05/21 Javascript
js实现通过开始结束控制的计时器
2019/02/25 Javascript
Angular脚手架开发的实现步骤
2019/04/09 Javascript
你不知道的Vue技巧之--开发一个可以通过方法调用的组件(推荐)
2019/04/15 Javascript
微信小程序实现搜索指定景点周边美食、酒店
2019/05/18 Javascript
Python使用Paramiko模块编写脚本进行远程服务器操作
2016/05/05 Python
Python 异常处理的实例详解
2017/09/11 Python
pytorch使用指定GPU训练的实例
2019/08/19 Python
python 将视频 通过视频帧转换成时间实例
2020/04/23 Python
JAVA及PYTHON质数计算代码对比解析
2020/06/10 Python
virtualenv介绍及简明教程
2020/06/23 Python
Django:使用filter的pk进行多值查询操作
2020/07/15 Python
python中的垃圾回收(GC)机制
2020/09/21 Python
Prototype中如何为一个元素添加一个方法
2014/12/08 面试题
JavaScript实现前端网页版倒计时
2021/03/24 Javascript
母亲七十大寿答谢词
2014/01/18 职场文书
环保建议书300字
2014/05/14 职场文书
大学生职业生涯规划大赛作品(精品)
2014/09/17 职场文书
学习党章的体会
2014/11/07 职场文书
小学英语教师2015年度个人工作总结
2015/10/14 职场文书
Python+Appium实现自动抢微信红包
2021/05/21 Python
使用pd.merge表连接出现多余行的问题解决
2022/06/16 Python