PHP中文分词 自动获取关键词介绍


Posted in PHP onNovember 13, 2012
<?php 
header("Content-Type:text/html; charset=utf-8"); 
define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); 
$test = '这里是一段中文测试代码!'; 
function get_tags_arr($title) 
{ 
require(APP_ROOT.'/pscws4.class.php'); 
$pscws = new PSCWS4(); 
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb'); 
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini'); 
$pscws->set_ignore(true); 
$pscws->send_text($title); 
$words = $pscws->get_tops(5); 
$tags = array(); 
foreach ($words as $val) { 
$tags[] = $val['word']; 
} 
$pscws->close(); 
return $tags; 
} 
print_r(get_tags_arr($test)); 
//============================================================ 
function get_keywords_str($content){ 
require(APP_ROOT.'/phpanalysis.class.php'); 
PhpAnalysis::$loadInit = false; 
$pa = new PhpAnalysis('utf-8', 'utf-8', false); 
$pa->LoadDict(); 
$pa->SetSource($content); 
$pa->StartAnalysis( false ); 
$tags = $pa->GetFinallyResult(); 
return $tags; 
} 
print(get_keywords_str($test));

相关下载地址

SCWS ? 简易中文分词系统

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix
开发语言:C
使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php
开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/
开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。

https://3water.com/codes/40139.html

PHP 相关文章推荐
mysql+php分页类(已测)
Mar 31 PHP
PHP显示今天、今月、上月、今年的起点/终点时间戳的代码
May 25 PHP
深入php多态的实现详解
Jun 09 PHP
php一些错误处理的方法与技巧总结
Aug 10 PHP
PHP封装的一个支持HTML、JS、PHP重定向的多功能跳转函数
Jun 19 PHP
phpstorm配置Xdebug进行调试PHP教程
Dec 01 PHP
php源码分析之DZX1.5字符串截断函数cutstr用法
Jun 17 PHP
php抓取并保存网站图片的实现代码
Oct 28 PHP
php如何执行非缓冲查询API
Jul 22 PHP
Yii全局函数用法示例
Jan 22 PHP
PHP implode()函数用法讲解
Mar 08 PHP
laravel多条件查询方法(and,or嵌套查询)
Oct 09 PHP
PHP gbk环境下json_dencode传送来的汉字
Nov 13 #PHP
PHP漏洞全解(详细介绍)
Nov 13 #PHP
thinkphp3.0 模板中函数的使用
Nov 13 #PHP
thinkPHP的Html模板标签使用方法
Nov 13 #PHP
PHP数组及条件,循环语句学习
Nov 11 #PHP
php对mongodb的扩展(初出茅庐)
Nov 11 #PHP
PHP面向对象——访问修饰符介绍
Nov 08 #PHP
You might like
PHP无法访问远程mysql的问题分析及解决
2013/05/16 PHP
PHP+MySQL实现无极限分类栏目的方法
2015/12/23 PHP
php简单处理XML数据的方法示例
2017/05/19 PHP
Prototype PeriodicalExecuter对象 学习
2009/07/19 Javascript
利用js实现在浏览器状态栏显示访问者在本页停留的时间
2013/12/29 Javascript
轻松学习jQuery插件EasyUI EasyUI实现拖动基本操作
2015/11/30 Javascript
详解Bootstrap四种图片样式
2016/01/04 Javascript
JavaScript弹窗基础篇
2016/04/27 Javascript
js H5 canvas投篮小游戏
2016/08/18 Javascript
vue.js实现简单轮播图效果
2017/10/10 Javascript
echarts多条折线图动态分层的实现方法
2019/05/24 Javascript
mock.js模拟前后台交互
2019/07/25 Javascript
微信小程序学习总结(四)事件与冒泡实例分析
2020/06/04 Javascript
vue祖孙组件之间的数据传递案例
2020/12/07 Vue.js
Python中sort和sorted函数代码解析
2018/01/25 Python
Python统计纯文本文件中英文单词出现个数的方法总结【测试可用】
2018/07/25 Python
Python静态类型检查新工具之pyright 使用指南
2019/04/26 Python
Python时间序列缺失值的处理方法(日期缺失填充)
2019/08/11 Python
pytorch标签转onehot形式实例
2020/01/02 Python
pytorch 状态字典:state_dict使用详解
2020/01/17 Python
python super用法及原理详解
2020/01/20 Python
Python 3.8 新功能大揭秘【新手必学】
2020/02/05 Python
详解Python设计模式之策略模式
2020/06/15 Python
Python如何优雅删除字符列表空字符及None元素
2020/06/25 Python
解决python便携版无法直接运行py文件的问题
2020/09/01 Python
美国东北部户外服装和设备零售商:Eastern Mountain Sports
2016/10/05 全球购物
英国Amara家居法国网站:家居装饰,现代装饰和豪华礼品
2016/12/15 全球购物
荷叶圆圆教学反思
2014/02/01 职场文书
幼儿园小班植树节活动方案
2014/03/04 职场文书
环境建设实施方案
2014/03/14 职场文书
原料仓管员岗位职责
2014/04/12 职场文书
2014中考励志标语
2014/06/05 职场文书
2014年小学安全工作总结
2014/12/04 职场文书
教师党员个人总结
2015/02/10 职场文书
2015银行年终工作总结范文
2015/05/26 职场文书
门卫管理制度范本
2015/08/05 职场文书