PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
php中在PDO中使用事务(Transaction)
May 14 PHP
使用PHP遍历文件夹与子目录的函数代码
Sep 26 PHP
PHP最常用的2种设计模式工厂模式和单例模式介绍
Aug 14 PHP
php json与xml序列化/反序列化
Oct 28 PHP
php使用strtotime和date函数判断日期是否有效代码分享
Dec 25 PHP
变量在 PHP7 内部的实现(二)
Dec 21 PHP
php 流程控制switch的简单实例
Jun 07 PHP
PHP中如何判断exec函数执行成功?
Aug 04 PHP
基于PHP常用文件函数和目录函数整理
Aug 17 PHP
php获取ajax的headers方法与内容实例
Dec 27 PHP
php+ajax实现无刷新文件上传功能(ajaxuploadfile)
Feb 11 PHP
解决Laravel自定义类引入和命名空间的问题
Oct 15 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
PHP 快速排序算法详解
2014/11/10 PHP
Zend Framework实现多文件上传功能实例
2016/03/21 PHP
div移动 输入框不能输入的问题
2009/11/19 Javascript
JQuery,Extjs,YUI,Prototype,Dojo 等JS框架的区别和应用场景简述
2010/04/15 Javascript
javscript对象原型的一些看法
2010/09/19 Javascript
JavaScript 实现类的多种方法实例
2013/05/01 Javascript
js实现的复制兼容chrome和IE
2014/04/03 Javascript
jQuery基于图层模仿五星星评价功能的方法
2015/05/07 Javascript
JS实现从连接中获取youtube的key实例
2015/07/02 Javascript
jQuery移动web开发中的页面初始化与加载事件
2015/12/03 Javascript
使用OpenLayers3 添加地图鼠标右键菜单
2015/12/29 Javascript
通过npm引用的vue组件使用详解
2017/03/02 Javascript
Vue中的字符串模板的使用
2018/05/17 Javascript
实现Vue的markdown文档可以在线运行的方法示例
2018/12/11 Javascript
解决前后端分离 vue+springboot 跨域 session+cookie失效问题
2019/05/13 Javascript
js实现坦克移动小游戏
2019/10/28 Javascript
微信js-sdk 录音功能的示例代码
2019/11/01 Javascript
JavaScript多种滤镜算法实现代码实例
2019/12/10 Javascript
javascript设计模式 ? 建造者模式原理与应用实例分析
2020/04/10 Javascript
深入浅析ImageMagick命令执行漏洞
2016/10/11 Python
如何在python中使用selenium的示例
2017/12/26 Python
python实现五子棋程序
2020/04/24 Python
python语言中有算法吗
2020/06/16 Python
时尚孕妇装:Ingrid & Isabel
2019/05/08 全球购物
会计专业推荐信
2013/10/29 职场文书
英语自荐信常用语句
2013/12/13 职场文书
社会实践心得体会
2014/01/03 职场文书
初一学生评语大全
2014/04/24 职场文书
2014年社区民政工作总结
2014/12/02 职场文书
先进教师个人事迹材料
2014/12/15 职场文书
2016年春节慰问信息
2015/03/25 职场文书
红白喜事主持词
2015/07/06 职场文书
2016年度员工工作表现评语
2015/12/02 职场文书
Android开发 使用文件储存的方式保存QQ密码
2022/04/24 Java/Android
SQL Server一个字符串拆分多行显示或者多行数据合并成一个字符串
2022/05/25 SQL Server
pd.DataFrame中的几种索引变换的实现
2022/06/16 Python