PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
PHP - Html Transfer Code
Oct 09 PHP
php+javascript的日历控件
Nov 19 PHP
php 日期和时间的处理-郑阿奇(续)
Jul 04 PHP
php程序的国际化实现方法(利用gettext)
Aug 14 PHP
PHP修改session_id示例代码
Jan 08 PHP
php保存二进制原始数据为图片的程序代码
Oct 14 PHP
PHP 使用redis简单示例分享
Mar 05 PHP
ThinkPHP文件缓存类代码分享
Apr 22 PHP
php通过获取头信息判断图片类型的方法
Jun 26 PHP
PHP获取二维数组中某一列的值集合
Dec 25 PHP
php7安装yar扩展的方法详解
Aug 03 PHP
PHP实现唤起微信支付功能
Feb 18 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
ThinkPHP3.1新特性之动态设置自动完成及自动验证示例代码
2014/06/23 PHP
Yii不依赖Model的表单生成器用法实例
2014/12/04 PHP
php实现的debug log日志操作类实例
2016/07/12 PHP
YII2框架中日志的配置与使用方法实例分析
2020/03/18 PHP
20个最新的jQuery插件
2012/01/13 Javascript
通过jQuery源码学习javascript(二)
2012/12/27 Javascript
利用了jquery的ajax实现二级联互动菜单
2013/12/02 Javascript
如何实现修改密码时密码框显示保存到cookie的密码
2013/12/10 Javascript
jQuery防止click双击多次提交及传递动态函数或多参数
2014/04/02 Javascript
JavaScript对象之深度克隆介绍
2014/12/08 Javascript
jQuery中:input选择器用法实例
2015/01/03 Javascript
jQuery代码实现对话框右上角菜单带关闭×
2016/05/03 Javascript
Javascript必知必会(四)js类型转换
2016/06/08 Javascript
JS实现控制文本框的内容
2016/07/10 Javascript
jQuery简单实现中间浮窗效果
2016/09/04 Javascript
javascript和jQuery中的AJAX技术详解【包含AJAX各种跨域技术】
2016/12/15 Javascript
详解webpack性能优化——DLL
2017/10/20 Javascript
Angular 4.x+Ionic3踩坑之Ionic3.x pop反向传值详解
2018/03/13 Javascript
vue项目部署到Apache服务器中遇到的问题解决
2018/08/24 Javascript
使vue实现jQuery调用的两种方法
2019/05/12 jQuery
JavaScript实现的联动菜单特效示例
2019/07/08 Javascript
简单了解vue中父子组件如何相互传递值(基础向)
2019/07/12 Javascript
详解element-ui表格中勾选checkbox,高亮当前行
2019/09/02 Javascript
Python实现ssh批量登录并执行命令
2016/10/25 Python
python Crypto模块的安装与使用方法
2017/12/21 Python
python实现在遍历列表时,直接对dict元素增加字段的方法
2019/01/15 Python
python 日期排序的实例代码
2019/07/11 Python
pyenv虚拟环境管理python多版本和软件库的方法
2019/12/26 Python
Python实现代码块儿折叠
2020/04/15 Python
Django模板标签{% for %}循环,获取制定条数据实例
2020/05/14 Python
基于python判断字符串括号是否闭合{}[]()
2020/09/21 Python
白俄罗斯在线大型超市:e-dostavka.by
2019/07/25 全球购物
描述内存分配方式以及它们的区别
2016/10/15 面试题
群众路线党课主持词
2014/04/01 职场文书
个人作风纪律整顿整改措施
2014/10/25 职场文书
自愿离婚协议书范本
2015/01/26 职场文书