PHPAnalysis中文分词类详解


Posted in PHP onJune 13, 2014

PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:

一、比较重要的成员变量

$resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文)
                                    这个变量一般用 SetResultType( $rstype ) 这方法进行设置。
$notSplitLen  = 5        切分句子最短长度
$toLower      = false    把英文单词全部转小写
$differMax    = false    使用最大切分模式对二元词进行消岐
$unitWord     = true     尝试合并单字(即是新词识别)
$differFreq   = false    使用热门词优先模式进行消岐

二、主要成员函数列表

1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')
函数说明:构造函数
参数列表:
$source_charset      源字符串编码
$target_charset      目录字符串编码
$load_all            是否完全加载词典(此参数已经作废)
$source              源字符串
如果输入输出都是utf-8,实际上可以不必使用任何参数进行初始化,而是通过 SetSource 方法设置要操作的文本

2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )
函数说明:设置源字符串
参数列表:
$source              源字符串
$source_charset      源字符串编码
$target_charset      目录字符串编码
返回值:bool

3、public function StartAnalysis($optimize=true)
函数说明:开始执行分词操作
参数列表:
$optimize            分词后是否尝试优化结果
返回值:void
一个基本的分词过程:
//////////////////////////////////////
$pa = new PhpAnalysis();

$pa->SetSource('需要进行分词的字符串');

//设置分词属性
$pa->resultType = 2;
$pa->differMax  = true;

$pa->StartAnalysis();

//获取你想要的结果
$pa->GetFinallyIndex();
////////////////////////////////////////

4、public function SetResultType( $rstype )
函数说明:设置返回结果的类型
实际是对成员变量$resultType的操作
参数 $rstype 值为:
1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文
返回值:void

5、public function GetFinallyKeywords( $num = 10 )
函数说明:获取出现频率最高的指定词条数(通常用于提取文档关键字)
参数列表:
$num = 10  返回词条个数
返回值:用","分隔的关键字列表

6、public function GetFinallyResult($spword=' ')
函数说明:获得最终分词结果
参数列表:
$spword    词条之间的分隔符
返回值:string

7、public function GetSimpleResult()
函数说明:获得粗分结果
返回值:array

8、public function GetSimpleResultAll()
函数说明:获得包含属性信息的粗分结果
属性(1中文词句、2 ANSI词汇(包括全角),3 ANSI标点符号(包括全角),4数字(包括全角),5 中文标点或无法识别字符)
返回值:array

9、public function GetFinallyIndex()
函数说明:获取hash索引数组
返回值:array('word'=>count,...) 按出现频率排序

10、public function MakeDict( $source_file, $target_file='' )
函数说明:把文本文件词库编译成词典
参数列表:
$source_file   源文本文件
$target_file   目标文件(如果不指定,则为当前词典)
返回值:void

11、public function ExportDict( $targetfile )
函数说明:导出当前词典全部词条为文本文件
参数列表:
$targetfile  目标文件
返回值:void

PHP 相关文章推荐
如何将数据从文本导入到mysql
Oct 09 PHP
JS中encodeURIComponent函数用php解码的代码
Mar 01 PHP
php 对输入信息的进行安全过滤的函数代码
Jun 29 PHP
PHP实现下载功能的代码
Sep 29 PHP
ThinkPHP3.1新特性之对Ajax的支持更加完善
Jun 19 PHP
Thinkphp的volist标签嵌套循环使用教程
Jul 08 PHP
set_exception_handler函数在ThinkPHP中的用法
Oct 31 PHP
Yii不依赖Model的表单生成器用法实例
Dec 04 PHP
10个超级有用的PHP代码片段果断收藏
Sep 23 PHP
PHP多维数组转一维数组的简单实现方法
Dec 23 PHP
PHP巧妙利用位运算实现网站权限管理的方法
Mar 12 PHP
php验证码生成器
May 24 PHP
ThinkPHP缓存方法S()概述
Jun 13 #PHP
采用ThinkPHP中F方法实现快速缓存实例
Jun 13 #PHP
浅析ThinkPHP中execute和query方法的区别
Jun 13 #PHP
采用thinkphp自带方法生成静态html文件详解
Jun 13 #PHP
PHP中使用gettext解决国际化问题的例子(i18n)
Jun 13 #PHP
Yii结合CKEditor实现图片上传功能
Jun 13 #PHP
在Yii框架中使用PHP模板引擎Twig的例子
Jun 13 #PHP
You might like
重量级动漫纷纷停播!唯独OVERLORD第四季正在英魂之刃继续更新
2020/05/06 日漫
详细解读PHP中接口的应用
2015/08/12 PHP
Yii数据模型中rules类验证器用法分析
2016/07/15 PHP
laravel5.4利用163邮箱发送邮件的步骤详解
2017/09/22 PHP
PHP pthreads v3下worker和pool的使用方法示例
2020/02/21 PHP
Code: write(s,d) 输出连续字符串
2007/08/19 Javascript
jQuery中与toggleClass等价的程序段 以及未来学习的方向
2010/03/18 Javascript
读jQuery之九 一些瑕疵说明
2011/06/21 Javascript
JavaScript中将一个值转换为字符串的方法分析[译]
2012/09/21 Javascript
引用 js在IE与FF之间的区别详细解析
2013/11/20 Javascript
jquery左边浮动到一定位置时显示返回顶部按钮
2014/06/05 Javascript
javascript限制文本框输入值类型的方法
2015/05/07 Javascript
javascript实现动态导入js与css等静态资源文件的方法
2015/07/25 Javascript
jquery插件jquery.nicescroll实现图片无滚动条左右拖拽的方法
2015/08/10 Javascript
jQuery 3.0中存在问题及解决办法
2016/07/15 Javascript
零基础轻松学JavaScript闭包
2016/12/30 Javascript
原生javascript实现图片放大镜效果
2017/01/18 Javascript
js canvas实现适用于移动端的百分比仪表盘dashboard
2017/07/18 Javascript
JS兼容所有浏览器的DOMContentLoaded事件
2018/01/12 Javascript
JQuery+drag.js上传图片并且实现图片拖曳
2020/11/18 jQuery
[47:26]完美世界DOTA2联赛 LBZS vs Forest 第二场 11.07
2020/11/09 DOTA
python将每个单词按空格分开并保存到文件中
2018/03/19 Python
解决jupyter notebook显示不全出现框框或者乱码问题
2020/04/09 Python
python中plt.imshow与cv2.imshow显示颜色问题
2020/07/16 Python
纽约现代艺术博物馆商店:MoMA STORE(室内家具和杂货商品)
2016/08/02 全球购物
俄罗斯小米家用电器、电子产品和智能家居商店:Poood.ru
2020/04/03 全球购物
一套VC试题
2015/01/23 面试题
Java语言程序设计测试题选择题部分
2014/04/03 面试题
党旗在我心中演讲稿
2014/09/15 职场文书
学生党员批评与自我批评
2014/10/15 职场文书
转让协议书
2015/01/27 职场文书
如何计划开一家便利店?
2019/07/31 职场文书
2019中秋节祝福语大全,提前收藏啦
2019/09/10 职场文书
Python数据分析入门之数据读取与存储
2021/05/13 Python
MySQL 聚合函数排序
2021/07/16 MySQL
Python 匹配文本并在其上一行追加文本
2022/05/11 Python