PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
xml+php动态载入与分页
Oct 09 PHP
php 网页播放器用来播放在线视频的代码(自动判断并选择视频文件类型)
Jun 03 PHP
基于php缓存的详解
May 15 PHP
php源代码安装常见错误与解决办法分享
May 28 PHP
教你如何用php实现LOL数据远程获取
Jun 10 PHP
PHP导入导出Excel代码
Jul 07 PHP
php构造方法中析构方法在继承中的表现
Apr 12 PHP
PHP url的pathinfo模式加载不同控制器的简单实现
Aug 12 PHP
php array_values 返回数组的所有值详解及实例
Nov 12 PHP
php+ajax实现无刷新文件上传功能(ajaxuploadfile)
Feb 11 PHP
Laravel利用gulp如何构建前端资源详解
Jun 03 PHP
PHP命名空间简单用法示例
Dec 28 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
一个SQL管理员的web接口
2006/10/09 PHP
使用php实现快钱支付功能(涉及到接口)
2013/07/01 PHP
php使用pdo连接报错Connection failed SQLSTATE的解决方法
2014/12/15 PHP
php绘制一个矩形的方法
2015/01/24 PHP
php文件上传、下载和删除示例
2020/08/28 PHP
php获取今日开始时间和结束时间的方法
2017/02/27 PHP
老生常谈PHP数组函数array_merge(必看篇)
2017/05/25 PHP
php的RSA加密解密算法原理与用法分析
2020/01/23 PHP
javascript textarea光标定位方法(兼容IE和FF)
2011/03/12 Javascript
基于JQuery实现异步刷新的代码(转载)
2011/03/29 Javascript
JavaScript取得键盘按下方向键是哪个的方法
2015/08/04 Javascript
javascript图片预加载完整实例
2015/12/10 Javascript
关于微信jssdk实现多图片上传的一点心得分享
2016/12/13 Javascript
使用snowfall.jquery.js实现爱心满屏飞的效果
2017/01/05 Javascript
jQuery实现淡入淡出的模态框
2017/02/09 Javascript
JS滚动到指定位置导航栏固定顶部
2017/07/03 Javascript
vant(ZanUi)结合async-validator实现表单验证的方法
2018/12/06 Javascript
解决Layui数据表格的宽高问题
2019/09/28 Javascript
JS如何生成随机验证码
2020/03/02 Javascript
Python实现多线程下载文件的代码实例
2014/06/01 Python
整理Python最基本的操作字典的方法
2015/04/24 Python
详解设计模式中的工厂方法模式在Python程序中的运用
2016/03/02 Python
Python通用循环的构造方法实例分析
2018/12/19 Python
Python3.5以上版本lxml导入etree报错的解决方案
2019/06/26 Python
python多线程共享变量的使用和效率方法
2019/07/16 Python
PyQt5基本控件使用详解:单选按钮、复选框、下拉框
2019/08/05 Python
Python 中@property的用法详解
2020/01/15 Python
简单了解python列表和元组的区别
2020/05/14 Python
Python pymsql模块的使用
2020/09/07 Python
CSS3中:nth-child和:nth-of-type的区别深入理解
2014/03/10 HTML / CSS
一款利用纯css3实现的win8加载动画的实例分析
2014/12/11 HTML / CSS
传播学毕业生求职信
2013/10/11 职场文书
进修护士自我鉴定
2013/10/14 职场文书
师德建设实施方案
2014/03/21 职场文书
2015年世界环境日活动总结
2015/02/11 职场文书
台积电称即便经济低迷也没有降价的计划
2022/04/21 数码科技