PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
Can't create/write to file 'C:\WINDOWS\TEMP\...MYSQL报错解决方法
Jun 30 PHP
PHP Global变量定义当前页面的全局变量实现探讨
Jun 05 PHP
完美的2个php检测字符串是否是utf-8编码函数分享
Jul 28 PHP
Zend Framework教程之Zend_Registry对象用法分析
Mar 22 PHP
PHP+Ajax 检测网络是否正常实例详解
Dec 16 PHP
php实现和c#一致的DES加密解密实例
Jul 24 PHP
Laravel学习教程之request validation的编写
Oct 25 PHP
php大小写转换函数(strtolower、strtoupper)用法介绍
Nov 17 PHP
php记录搜索引擎爬行记录的实现代码
Mar 02 PHP
php实现微信原生支付(扫码支付)功能
May 30 PHP
PHP一致性hash分布式算法封装类定义与用法示例
Aug 04 PHP
laravel 5.3 单用户登录简单实现方法
Oct 14 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
基于mysql的bbs设计(四)
2006/10/09 PHP
PHP使用CURL实现多线程抓取网页
2015/04/30 PHP
Android AsyncTack 异步任务实例详解
2016/11/02 PHP
jQuery 创建Dom元素
2010/05/07 Javascript
Jquery实现三层遍历删除功能代码
2013/04/23 Javascript
使用jQueryMobile实现滑动翻页效果的方法
2015/02/04 Javascript
JavaScript保存并运算页面中数字类型变量的写法
2015/07/06 Javascript
js实现下拉列表选中某个值的方法(3种方法)
2015/12/17 Javascript
bootstrap-treeview自定义双击事件实现方法
2016/01/09 Javascript
Angularjs中controller的三种写法分享
2016/09/21 Javascript
微信小程序页面传值实例分析
2017/04/19 Javascript
判断div滑动到底部的scroll实例代码
2017/11/15 Javascript
详解layui中的树形关于取值传值问题
2018/01/16 Javascript
使用淘宝镜像cnpm安装Vue.js的图文教程
2018/05/17 Javascript
详解angular2如何手动点击特定元素上的点击事件
2018/10/16 Javascript
细述Javascript的加法运算符的具体使用
2019/10/18 Javascript
使用Vue实现调用接口加载页面初始数据
2019/10/28 Javascript
JS获取当前时间的年月日时分秒及时间的格式化的方法
2019/12/18 Javascript
JS实现公告上线滚动效果
2021/01/10 Javascript
[01:02:30]Mineski vs Secret 2019国际邀请赛淘汰赛 败者组 BO3 第三场 8.22
2019/09/05 DOTA
Python+Django在windows下的开发环境配置图解
2009/11/11 Python
布同自制Python函数帮助查询小工具
2011/03/13 Python
python获取文件扩展名的方法
2015/07/06 Python
Python实现的计算马氏距离算法示例
2018/04/03 Python
Python实现求解括号匹配问题的方法
2018/04/17 Python
Python Socket编程之多线程聊天室
2018/07/28 Python
TensorFlow2.0矩阵与向量的加减乘实例
2020/02/07 Python
python实现简单的购物程序代码实例
2020/03/03 Python
OpenCV Python实现图像指定区域裁剪
2021/03/12 Python
Bailey帽子官方商店:Bailey Hats
2018/09/25 全球购物
单位人事专员介绍信
2014/01/11 职场文书
早读迟到检讨书
2014/01/24 职场文书
销售助理岗位职责
2014/02/21 职场文书
法制教育观后感
2015/06/17 职场文书
《将心比心》教学反思
2016/02/23 职场文书
公司转让协议书
2016/03/19 职场文书