PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
redis 队列操作的例子(php)
Apr 12 PHP
php的$_FILES的临时储存文件与回收机制实测过程
Jul 12 PHP
ThinkPHP的L方法使用简介
Jun 18 PHP
PHP实现克鲁斯卡尔算法实例解析
Aug 22 PHP
PHP实现将科学计数法转换为原始数字字符串的方法
Dec 16 PHP
PHP可变函数学习小结
Nov 29 PHP
php实现的简单数据库操作Model类
Nov 16 PHP
YII2框架中excel表格导出的方法详解
Jul 21 PHP
PHP实现数组的笛卡尔积运算示例
Dec 15 PHP
Yii2压缩PHP中模板代码的输出问题
Aug 28 PHP
php中加密解密DES类的简单使用方法示例
Mar 26 PHP
php中yii框架实例用法
Dec 22 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
thinkphp框架实现删除和批量删除
2016/06/29 PHP
TP5框架model常见操作示例小结【增删改查、聚合、时间戳、软删除等】
2020/04/05 PHP
浅析PHP中json_encode与json_decode的区别
2020/07/15 PHP
删除重复数据的算法
2006/11/23 Javascript
JQuery1.6 使用方法三
2011/11/23 Javascript
左右悬浮可分组的网站QQ在线客服代码(可谓经典)
2012/12/21 Javascript
可以用鼠标拖动的DIV实现思路及代码
2013/10/21 Javascript
javascript常见操作汇总
2014/09/03 Javascript
js插件YprogressBar实现漂亮的进度条效果
2015/04/20 Javascript
基于Javascript倒计时效果
2016/12/22 Javascript
JavaScript表单即时验证 验证不成功不能提交
2017/08/31 Javascript
web前端vue之vuex单独一文件使用方式实例详解
2018/01/11 Javascript
详解vuex的简单使用
2018/03/12 Javascript
JavaScript的console命令使用实例
2019/12/03 Javascript
再也不怕 JavaScript 报错了,怎么看怎么处理都在这儿
2020/12/09 Javascript
Python中unittest用法实例
2014/09/25 Python
Python新手在作用域方面经常容易碰到的问题
2015/04/03 Python
Python之Web框架Django项目搭建全过程
2017/05/02 Python
对Python中9种生成新对象的方法总结
2018/05/23 Python
解决安装tensorflow遇到无法卸载numpy 1.8.0rc1的问题
2018/06/13 Python
python使用百度文字识别功能方法详解
2019/07/23 Python
Django 权限认证(根据不同的用户,设置不同的显示和访问权限)
2019/07/24 Python
Python 寻找局部最高点的实现
2019/12/05 Python
TensorFLow 不同大小图片的TFrecords存取实例
2020/01/20 Python
使用python-pptx包批量修改ppt格式的实现
2020/02/14 Python
django model的update时auto_now不被更新的原因及解决方式
2020/04/01 Python
windows10 pycharm下安装pyltp库和加载模型实现语义角色标注的示例代码
2020/05/07 Python
python 操作mysql数据中fetchone()和fetchall()方式
2020/05/15 Python
KIKO比利时官网:意大利彩妆品牌
2017/07/23 全球购物
美国地毯购买网站:Rugs USA
2019/02/23 全球购物
自学考试自我鉴定范文
2013/09/26 职场文书
计算机学生的自我评价分享
2014/02/18 职场文书
应届生求职自荐信范文
2014/04/07 职场文书
2014年残疾人工作总结
2014/12/06 职场文书
Python数据可视化之绘制柱状图和条形图
2021/05/25 Python
Python中time标准库的使用教程
2022/04/13 Python