PHPAnalysis中文分词类详解


Posted in PHP onJune 13, 2014

PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:

一、比较重要的成员变量

$resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文)
                                    这个变量一般用 SetResultType( $rstype ) 这方法进行设置。
$notSplitLen  = 5        切分句子最短长度
$toLower      = false    把英文单词全部转小写
$differMax    = false    使用最大切分模式对二元词进行消岐
$unitWord     = true     尝试合并单字(即是新词识别)
$differFreq   = false    使用热门词优先模式进行消岐

二、主要成员函数列表

1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')
函数说明:构造函数
参数列表:
$source_charset      源字符串编码
$target_charset      目录字符串编码
$load_all            是否完全加载词典(此参数已经作废)
$source              源字符串
如果输入输出都是utf-8,实际上可以不必使用任何参数进行初始化,而是通过 SetSource 方法设置要操作的文本

2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )
函数说明:设置源字符串
参数列表:
$source              源字符串
$source_charset      源字符串编码
$target_charset      目录字符串编码
返回值:bool

3、public function StartAnalysis($optimize=true)
函数说明:开始执行分词操作
参数列表:
$optimize            分词后是否尝试优化结果
返回值:void
一个基本的分词过程:
//////////////////////////////////////
$pa = new PhpAnalysis();

$pa->SetSource('需要进行分词的字符串');

//设置分词属性
$pa->resultType = 2;
$pa->differMax  = true;

$pa->StartAnalysis();

//获取你想要的结果
$pa->GetFinallyIndex();
////////////////////////////////////////

4、public function SetResultType( $rstype )
函数说明:设置返回结果的类型
实际是对成员变量$resultType的操作
参数 $rstype 值为:
1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文
返回值:void

5、public function GetFinallyKeywords( $num = 10 )
函数说明:获取出现频率最高的指定词条数(通常用于提取文档关键字)
参数列表:
$num = 10  返回词条个数
返回值:用","分隔的关键字列表

6、public function GetFinallyResult($spword=' ')
函数说明:获得最终分词结果
参数列表:
$spword    词条之间的分隔符
返回值:string

7、public function GetSimpleResult()
函数说明:获得粗分结果
返回值:array

8、public function GetSimpleResultAll()
函数说明:获得包含属性信息的粗分结果
属性(1中文词句、2 ANSI词汇(包括全角),3 ANSI标点符号(包括全角),4数字(包括全角),5 中文标点或无法识别字符)
返回值:array

9、public function GetFinallyIndex()
函数说明:获取hash索引数组
返回值:array('word'=>count,...) 按出现频率排序

10、public function MakeDict( $source_file, $target_file='' )
函数说明:把文本文件词库编译成词典
参数列表:
$source_file   源文本文件
$target_file   目标文件(如果不指定,则为当前词典)
返回值:void

11、public function ExportDict( $targetfile )
函数说明:导出当前词典全部词条为文本文件
参数列表:
$targetfile  目标文件
返回值:void

PHP 相关文章推荐
PHP 高手之路(三)
Oct 09 PHP
PHP安装攻略:常见问题解答(二)
Oct 09 PHP
需要注意的几个PHP漏洞小结
Feb 05 PHP
CURL的学习和应用(附多线程实现)
Jun 03 PHP
php实现文件下载实例分享
Jun 02 PHP
PHP中调用SVN命令更新网站方法
Jan 07 PHP
php页面缓存方法小结
Jan 10 PHP
PHP SPL标准库之接口(Interface)详解
May 11 PHP
PHP读取PPT文件的方法
Dec 10 PHP
PHP/ThinkPHP实现批量打包下载文件的方法示例
Jul 31 PHP
CI框架(CodeIgniter)公共模型类定义与用法示例
Aug 10 PHP
php获取用户真实IP和防刷机制的实例代码
Nov 28 PHP
ThinkPHP缓存方法S()概述
Jun 13 #PHP
采用ThinkPHP中F方法实现快速缓存实例
Jun 13 #PHP
浅析ThinkPHP中execute和query方法的区别
Jun 13 #PHP
采用thinkphp自带方法生成静态html文件详解
Jun 13 #PHP
PHP中使用gettext解决国际化问题的例子(i18n)
Jun 13 #PHP
Yii结合CKEditor实现图片上传功能
Jun 13 #PHP
在Yii框架中使用PHP模板引擎Twig的例子
Jun 13 #PHP
You might like
php 图片上添加透明度渐变的效果
2009/06/29 PHP
ThinkPHP表单自动验证实例
2014/10/13 PHP
php查看网页源代码的方法
2015/03/13 PHP
php框架CI(codeigniter)自动加载与自主创建对象操作实例分析
2020/06/06 PHP
在JavaScript中通过URL传递汉字的方法
2007/04/09 Javascript
基于jquery的设置页面文本框 只能输入数字的实现代码
2011/04/19 Javascript
jquery 清空file域示例(兼容个浏览器)
2013/10/11 Javascript
基于JavaScript怎么实现让歌词滚动播放
2015/11/03 Javascript
基于jQuery实现仿51job城市选择功能实例代码
2016/03/02 Javascript
基于javascript实现九宫格大转盘效果
2020/05/28 Javascript
javascript运算符语法全面概述
2016/07/14 Javascript
Highcharts入门之基本属性
2016/08/02 Javascript
原生的强大DOM选择器querySelector介绍
2016/12/21 Javascript
ES6知识点整理之函数数组参数的默认值及其解构应用示例
2019/04/17 Javascript
js实现图片上传即时显示效果
2019/09/30 Javascript
vue使用recorder.js实现录音功能
2019/11/22 Javascript
原生js实现瀑布流效果
2020/03/09 Javascript
解决antd日期选择组件,添加value就无法点击下一年和下一月问题
2020/10/29 Javascript
python实现将元祖转换成数组的方法
2015/05/04 Python
Numpy 将二维图像矩阵转换为一维向量的方法
2018/06/05 Python
python 实现GUI(图形用户界面)编程详解
2019/07/17 Python
Django ORM 查询管理器源码解析
2019/08/05 Python
Python 网络编程之UDP发送接收数据功能示例【基于socket套接字】
2019/10/11 Python
如何使用python传入不确定个数参数
2020/02/18 Python
使用pygame编写Flappy bird小游戏
2020/03/14 Python
Python脚本破解压缩文件口令实例教程(zipfile)
2020/06/14 Python
python 读取.nii格式图像实例
2020/07/01 Python
keras.utils.to_categorical和one hot格式解析
2020/07/02 Python
Infababy英国:婴儿推车、Travel System婴儿车和婴儿汽车座椅销售
2018/05/23 全球购物
绿化工程实施方案
2014/03/17 职场文书
2014年国庆节演讲稿
2014/09/02 职场文书
四风查摆问题及整改措施
2014/10/10 职场文书
2014财务年终工作总结
2014/12/08 职场文书
倡议书格式及范文
2015/04/29 职场文书
电影圆明园观后感
2015/06/03 职场文书
MySQL创建定时任务
2022/01/22 MySQL