PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
组合算法的PHP解答方法
Feb 04 PHP
CI使用Tank Auth转移数据库导致密码用户错误的解决办法
Jun 12 PHP
PHP产生不重复随机数的5个方法总结
Nov 12 PHP
php提示Failed to write session data错误的解决方法
Dec 17 PHP
PHP实现文件上传与下载实例与总结
Mar 13 PHP
php解析xml 的四种简单方法(附实例)
Jul 11 PHP
PHP基于DOM创建xml文档的方法示例
Feb 08 PHP
完美的php分页类
Oct 24 PHP
php记录搜索引擎爬行记录的实现代码
Mar 02 PHP
PHP数组去重的更快实现方式分析
May 09 PHP
PHP7新功能总结
Apr 14 PHP
Laravel 已登陆用户再次查看登陆页面的自动跳转设置方法
Sep 30 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
C# Assembly类访问程序集信息
2009/06/13 PHP
c#中的实现php中的preg_replace
2009/12/21 PHP
PHP针对JSON操作实例分析
2015/01/12 PHP
smarty内置函数capture用法分析
2015/01/22 PHP
解决Laravel 使用insert插入数据,字段created_at为0000的问题
2019/10/11 PHP
jQuery中用dom操作替代正则表达式
2014/12/29 Javascript
jQuery中$this和$(this)的区别介绍(一看就懂)
2015/07/06 Javascript
轻松实现javascript图片轮播特效
2016/01/13 Javascript
轻松掌握JavaScript代理模式
2016/08/26 Javascript
jQuery为动态生成的select元素添加事件的方法
2016/08/29 Javascript
BootStrap入门教程(三)之响应式原理
2016/09/19 Javascript
关于Jquery中的事件绑定总结
2016/10/26 Javascript
jquery表单提交带错误信息提示效果
2017/03/09 Javascript
Vue.js鼠标悬浮更换图片功能
2017/05/17 Javascript
jQuery日期范围选择器附源码下载
2017/05/23 jQuery
Vue实现web分页组件详解
2017/11/28 Javascript
Bootstrap Fileinput 4.4.7文件上传实例详解
2018/07/25 Javascript
layer.confirm取消按钮绑定事件的方法
2018/08/17 Javascript
js实现的订阅发布者模式简单示例
2020/03/14 Javascript
vue render函数动态加载img的src路径操作
2020/10/26 Javascript
Python实战小程序利用matplotlib模块画图代码分享
2017/12/09 Python
十分钟利用Python制作属于你自己的个性logo
2018/05/07 Python
浅谈利用numpy对矩阵进行归一化处理的方法
2018/07/11 Python
Python实现的批量修改文件后缀名操作示例
2018/12/07 Python
anaconda中更改python版本的方法步骤
2019/07/14 Python
关于Pytorch MaxUnpool2d中size操作方式
2020/01/03 Python
HTML5中外部浏览器唤起微信分享
2020/01/02 HTML / CSS
土耳其新趋势女装购物网站:Addax
2020/01/07 全球购物
大学生自我评价范文分享
2014/02/21 职场文书
四风问题个人对照检查材料
2014/09/26 职场文书
公司财务会计主管应聘求职信
2014/09/26 职场文书
小学教师教育随笔
2015/08/14 职场文书
升学宴学生致辞
2015/09/29 职场文书
2016年大学迎新晚会工作总结
2015/10/15 职场文书
导游词之塘栖古镇
2019/12/04 职场文书
python实现socket简单通信的示例代码
2021/04/13 Python