PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
用PHP和ACCESS写聊天室(九)
Oct 09 PHP
php的ajax简单实例
Feb 27 PHP
ThinkPHP提交表单时默认自动转义的解决方法
Nov 25 PHP
PHP-FPM之Chroot执行环境详解
Aug 03 PHP
php脚本运行时的超时机制详解
Feb 17 PHP
实现PHP搜索加分页
Oct 12 PHP
thinkphp3.2实现跨控制器调用其他模块的方法
Mar 14 PHP
PHP编程中的Session阻塞问题与解决方法分析
Aug 07 PHP
PHP实现的随机红包算法示例
Aug 14 PHP
PHP下 Mongodb 连接远程数据库的实例代码
Aug 30 PHP
ajax+php实现无刷新验证手机号的实例
Dec 22 PHP
可兼容php5与php7的cURL文件上传功能实例分析
May 11 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
codeigniter教程之上传视频并使用ffmpeg转flv示例
2014/02/13 PHP
微信公众号点击菜单即可打开并登录微站的实现方法
2014/11/14 PHP
PHP基于GD库实现的生成图片缩略图函数示例
2017/07/05 PHP
js textarea自动增高并隐藏滚动条
2009/12/16 Javascript
jquery.boxy插件的iframe扩展代码
2010/07/02 Javascript
js判断undefined类型,undefined,null, 的区别详细解析
2013/12/16 Javascript
Google Maps API地图应用示例分享
2014/10/23 Javascript
JavaScript声明变量名的语法规则
2015/07/10 Javascript
js判断手机访问或者PC的几个例子(常用于手机跳转)
2015/12/15 Javascript
JSON 的正确用法探讨:Pyhong、MongoDB、JavaScript与Ajax
2016/05/15 Javascript
BootStrap Validator使用注意事项(必看篇)
2016/09/28 Javascript
利用JQuery阻止事件冒泡
2016/12/01 Javascript
干货!教大家如何选择Vue和React
2017/03/13 Javascript
JS排序之快速排序详解
2017/04/08 Javascript
Angular2安装angular-cli
2017/05/21 Javascript
vue axios 表单提交上传图片的实例
2018/03/16 Javascript
详解微信小程序的 request 封装示例
2018/08/21 Javascript
决策树的python实现方法
2014/11/18 Python
python中pandas.DataFrame排除特定行方法示例
2017/03/12 Python
python  创建一个保留重复值的列表的补码
2018/10/15 Python
python遍历文件目录、批量处理同类文件
2019/08/31 Python
Python ellipsis 的用法详解
2020/11/20 Python
python使用yaml 管理selenium元素的示例
2020/12/01 Python
全球第二大家装零售商:Lowe’s
2018/01/13 全球购物
GoPro摄像机美国官网:美国运动相机厂商
2018/07/03 全球购物
广告学专业应届生求职信
2013/10/01 职场文书
自荐信范文
2013/12/10 职场文书
数学教学随笔感言
2014/02/17 职场文书
我爱我的祖国演讲稿
2014/05/04 职场文书
专家推荐信模板
2014/05/09 职场文书
2015年元旦演讲稿
2014/09/12 职场文书
2015年国庆节慰问信
2015/03/23 职场文书
2016年寒假社会实践活动总结
2015/10/10 职场文书
spring cloud 配置中心native配置方式
2021/09/25 Java/Android
Vue2.0搭建脚手架
2022/03/13 Vue.js
MySQL的表级锁,行级锁,排它锁和共享锁
2022/07/15 MySQL