PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
PHP与javascript对多项选择的处理
Oct 09 PHP
php xfocus防注入资料
Apr 27 PHP
PHP is_dir() 判断给定文件名是否是一个目录
May 10 PHP
PHP 获取文件权限函数介绍
Jul 11 PHP
discuz目录文件资料汇总
Dec 30 PHP
PHP针对JSON操作实例分析
Jan 12 PHP
PHP基于MySQL数据库实现对象持久层的方法
Jun 17 PHP
wamp服务器访问php非常缓慢的解决过程
Jul 01 PHP
PHP chr()函数讲解
Feb 11 PHP
使用laravel和ajax实现整个页面无刷新的操作方法
Oct 03 PHP
laravel在中间件内生成参数并且传递到控制器中的2种姿势
Oct 15 PHP
使用php的mail()函数实现发送邮件功能
Jun 03 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
php约瑟夫问题解决关于处死犯人的算法
2015/03/23 PHP
php下载文件,添加响应头的简单实例
2016/09/22 PHP
PHP如何使用JWT做Api接口身份认证的实现
2020/02/03 PHP
javascript测试题练习代码
2012/10/10 Javascript
js自动下载文件到本地的实现代码
2013/04/28 Javascript
jQuery Animation实现CSS3动画示例介绍
2013/08/14 Javascript
js实现的map方法示例代码
2014/01/13 Javascript
javascript判断是否按回车键并解决浏览器之间的差异
2014/05/13 Javascript
如何书写高质量jQuery代码(使用jquery性能问题)
2014/06/30 Javascript
jQuery 仿百度输入标签插件附效果图
2014/07/04 Javascript
javaScript中push函数用法实例分析
2015/06/08 Javascript
Angular实现form自动布局
2016/01/28 Javascript
ES6记录异步函数的执行时间详解
2016/08/31 Javascript
AngularJS中如何使用echart插件示例详解
2016/10/26 Javascript
angular directive的简单使用总结
2017/05/24 Javascript
前后端如何实现登录token拦截校验详解
2018/09/03 Javascript
ES6知识点整理之对象解构赋值应用示例
2019/04/17 Javascript
Vue注册组件命名时不能用大写的原因浅析
2019/04/25 Javascript
node-red File读取好保存实例讲解
2019/09/11 Javascript
Vue的生命周期操作示例
2019/09/17 Javascript
python实现倒计时的示例
2014/02/14 Python
python装饰器与递归算法详解
2016/02/18 Python
对Python3 * 和 ** 运算符详解
2019/02/16 Python
详解python uiautomator2 watcher的使用方法
2019/09/09 Python
pandas将多个dataframe以多个sheet的形式保存到一个excel文件中
2019/10/10 Python
numpy:找到指定元素的索引示例
2019/11/26 Python
python 常见的排序算法实现汇总
2020/08/21 Python
HTML5 常见面试题之PC端和移动端区别介绍
2018/01/22 HTML / CSS
英国领先的在线药房:Pharmacy First
2017/09/10 全球购物
共产党员岗位承诺书
2014/05/29 职场文书
2015年小学体育教师工作总结
2015/10/23 职场文书
Python基础之教你怎么在M1系统上使用pandas
2021/05/08 Python
Python 如何实现文件自动去重
2021/06/02 Python
Vue实现跑马灯样式文字横向滚动
2021/11/23 Vue.js
提高系统的吞吐量解决数据库重复写入问题
2022/04/23 MySQL
详解apache编译安装httpd-2.4.54及三种风格的init程序特点和区别
2022/07/15 Servers