PHPAnalysis中文分词类详解


Posted in PHP onJune 13, 2014

PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:

一、比较重要的成员变量

$resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文)
                                    这个变量一般用 SetResultType( $rstype ) 这方法进行设置。
$notSplitLen  = 5        切分句子最短长度
$toLower      = false    把英文单词全部转小写
$differMax    = false    使用最大切分模式对二元词进行消岐
$unitWord     = true     尝试合并单字(即是新词识别)
$differFreq   = false    使用热门词优先模式进行消岐

二、主要成员函数列表

1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')
函数说明:构造函数
参数列表:
$source_charset      源字符串编码
$target_charset      目录字符串编码
$load_all            是否完全加载词典(此参数已经作废)
$source              源字符串
如果输入输出都是utf-8,实际上可以不必使用任何参数进行初始化,而是通过 SetSource 方法设置要操作的文本

2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )
函数说明:设置源字符串
参数列表:
$source              源字符串
$source_charset      源字符串编码
$target_charset      目录字符串编码
返回值:bool

3、public function StartAnalysis($optimize=true)
函数说明:开始执行分词操作
参数列表:
$optimize            分词后是否尝试优化结果
返回值:void
一个基本的分词过程:
//////////////////////////////////////
$pa = new PhpAnalysis();

$pa->SetSource('需要进行分词的字符串');

//设置分词属性
$pa->resultType = 2;
$pa->differMax  = true;

$pa->StartAnalysis();

//获取你想要的结果
$pa->GetFinallyIndex();
////////////////////////////////////////

4、public function SetResultType( $rstype )
函数说明:设置返回结果的类型
实际是对成员变量$resultType的操作
参数 $rstype 值为:
1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文
返回值:void

5、public function GetFinallyKeywords( $num = 10 )
函数说明:获取出现频率最高的指定词条数(通常用于提取文档关键字)
参数列表:
$num = 10  返回词条个数
返回值:用","分隔的关键字列表

6、public function GetFinallyResult($spword=' ')
函数说明:获得最终分词结果
参数列表:
$spword    词条之间的分隔符
返回值:string

7、public function GetSimpleResult()
函数说明:获得粗分结果
返回值:array

8、public function GetSimpleResultAll()
函数说明:获得包含属性信息的粗分结果
属性(1中文词句、2 ANSI词汇(包括全角),3 ANSI标点符号(包括全角),4数字(包括全角),5 中文标点或无法识别字符)
返回值:array

9、public function GetFinallyIndex()
函数说明:获取hash索引数组
返回值:array('word'=>count,...) 按出现频率排序

10、public function MakeDict( $source_file, $target_file='' )
函数说明:把文本文件词库编译成词典
参数列表:
$source_file   源文本文件
$target_file   目标文件(如果不指定,则为当前词典)
返回值:void

11、public function ExportDict( $targetfile )
函数说明:导出当前词典全部词条为文本文件
参数列表:
$targetfile  目标文件
返回值:void

PHP 相关文章推荐
php完全过滤HTML,JS,CSS等标签
Jan 16 PHP
PHP写杨辉三角实例代码
Jul 17 PHP
深入探讨PHP中的内存管理问题
Aug 31 PHP
如何使用“PHP” 彩蛋进行敏感信息获取
Aug 07 PHP
PHP遍历数组的三种方法及效率对比分析
Feb 12 PHP
[原创]php逐行读取txt文件写入数组的方法
Jul 02 PHP
教你在header中隐藏php的版本信息
Aug 10 PHP
CI框架中类的自动加载问题分析
Nov 21 PHP
php json相关函数用法示例
Mar 28 PHP
用php+ajax新建流程(请假、进货、出货等)
Jun 11 PHP
PHP判断json格式是否正确的实现代码
Sep 20 PHP
PHP设计模式之适配器模式定义与用法详解
Apr 03 PHP
ThinkPHP缓存方法S()概述
Jun 13 #PHP
采用ThinkPHP中F方法实现快速缓存实例
Jun 13 #PHP
浅析ThinkPHP中execute和query方法的区别
Jun 13 #PHP
采用thinkphp自带方法生成静态html文件详解
Jun 13 #PHP
PHP中使用gettext解决国际化问题的例子(i18n)
Jun 13 #PHP
Yii结合CKEditor实现图片上传功能
Jun 13 #PHP
在Yii框架中使用PHP模板引擎Twig的例子
Jun 13 #PHP
You might like
人大复印资料处理程序_补充篇
2006/10/09 PHP
如何在HTML 中嵌入 PHP 代码
2015/05/13 PHP
php strftime函数获取日期时间(switch用法)
2018/05/16 PHP
PHP图像处理 imagestring添加图片水印与文字水印操作示例
2020/02/06 PHP
ThinkPHP5与单元测试PHPUnit使用详解
2020/02/23 PHP
Nigma vs AM BO3 第一场2.13
2021/03/10 DOTA
比较详细的关于javascript中void(0)的具体含义解释
2007/08/02 Javascript
通过jquery还原含有rowspan、colspan的table的实现方法
2012/02/10 Javascript
getAsDataURL在Firefox7.0下无法预览本地图片的解决方法
2013/11/15 Javascript
深入理解javascript严格模式(Strict Mode)
2014/11/28 Javascript
jQuery实现为图片添加镜头放大效果的方法
2015/06/25 Javascript
jquery获取url参数及url加参数的方法
2015/10/26 Javascript
javascript:void(0)是什么意思及href=#与href=javascriptvoid(0)的区别
2015/11/13 Javascript
jQuery弹出遮罩层效果完整示例
2016/09/13 Javascript
JavaScript获取服务器时间的方法详解
2016/12/11 Javascript
canvas学习之API整理笔记(二)
2016/12/29 Javascript
如何为vue的项目添加单元测试
2018/12/19 Javascript
实例说明Python中比较运算符的使用
2015/05/13 Python
Python虚拟环境virtualenv的安装与使用详解
2017/05/28 Python
Django 实现下载文件功能的示例
2018/03/06 Python
python计算日期之间的放假日期
2018/06/05 Python
Python 实现某个功能每隔一段时间被执行一次的功能方法
2018/10/14 Python
详解python项目实战:模拟登陆CSDN
2019/04/04 Python
Python中字典与恒等运算符的用法分析
2019/08/22 Python
Python之Numpy的超实用基础详细教程
2019/10/23 Python
Matplotlib使用Cursor实现UI定位的示例代码
2020/03/12 Python
Pytorch数据拼接与拆分操作实现图解
2020/04/30 Python
Pandas的数据过滤实现
2021/01/15 Python
CSS3实现swap交换动画
2016/01/19 HTML / CSS
CSS3 文字动画效果
2020/11/12 HTML / CSS
伦敦剧院门票:London Theatre Direct
2018/11/21 全球购物
有趣的睡衣和礼物:LazyOne
2019/11/27 全球购物
个人委托书怎么写
2014/04/04 职场文书
党的生日活动方案
2014/08/15 职场文书
解决SpringBoot文件上传临时目录找不到的问题
2021/07/01 Java/Android
JavaScript正则表达式实现注册信息校验功能
2022/05/30 Java/Android