浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别


Posted in PHP onDecember 15, 2016

Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站

Sphinx的特性如下:

a)  高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);

b)  高性能的搜索(在2 ? 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);

c)  可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

Sphinx本身对中文的支持并不好。

主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。

分词在两个地方会用到;

1、索引时,根据分词索引原始数据

2、搜索时,对用户输入分词,到索引中查询

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1、Coreseek 为国人基于Sphinx开发的方案,目前最稳定版,是基于经典的Sphinx0.9.9版

优点:有成熟的文档、以及社区;其分词mmseg为目前国内最为好用分词,索引和搜索分词都可以用到;

缺点:深度开发、版本更新较慢;索引较慢

策略:一个词库管理后台,维护词库;定期生成字典;此套件会自动分词索引;

适用场景:普通青年、搭建差不多的搜索,适用于普遍网站

2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版

优点:部署简单,易操作,内嵌分词和词库,索引和搜索分词都可以用到;

缺点:版本更新较慢;分词较弱;索引相对较慢

策略:同一

适用场景:普通青年、快速搭建搜索的小站

3、Sphinx+Scws 为两套独立系统,单独部署,所谓高内聚低耦合,强烈推荐

优点:两套系统,相对独立,各自单独Server;分词可以做其他用途;版本更新较快;

缺点:部署稍复杂,使用稍复杂;索引分词只能用一元分词,数据量较大

策略:词库管理外;使用时,先调用分词服务,后调用搜索

适用场景:文艺青年、搭建像样点的搜索;好吧文艺青年

以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

PHP 相关文章推荐
如何删除多级目录
Oct 09 PHP
PHP动态创建Web站点的方法
Aug 14 PHP
PHP中usort在值相同时改变原始位置问题的解决方法
Nov 27 PHP
使用php统计字符串中中英文字符的个数
Jun 23 PHP
yii2.0使用Plupload实现带缩放功能的多图上传
Dec 22 PHP
weiphp微信公众平台授权设置
Jan 04 PHP
详解PHP的Yii框架中扩展的安装与使用
Apr 01 PHP
PHP实现的DES加密解密实例代码
Apr 06 PHP
PHP封装的数据库保存session功能类
Jul 11 PHP
php PDO实现的事务回滚示例
Mar 23 PHP
PHP设计模式之装饰器模式定义与用法详解
Apr 02 PHP
PHP程序员必须知道的两种日志实例分析
May 14 PHP
浅谈socket同步和异步、阻塞和非阻塞、I/O模型
Dec 15 #PHP
PHP接口并发测试的方法(推荐)
Dec 15 #PHP
浅谈PHP的反射机制
Dec 15 #PHP
php 三元运算符实例详细介绍
Dec 15 #PHP
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
Dec 14 #PHP
使用PHP下载CSS文件中的所有图片【几行代码即可实现】
Dec 14 #PHP
Thinkphp 中 distinct 的用法解析
Dec 14 #PHP
You might like
雄兵连三大错觉:凯莎没了,凉冰阵亡了,华烨觉得自己又行了
2020/04/09 国漫
用PHP编程开发“虚拟域名”系统
2006/10/09 PHP
php对csv文件的读取,写入,输出下载操作详解
2013/08/10 PHP
javaScript parseInt字符转化为数字函数使用小结
2009/11/05 Javascript
JSuggest自动匹配下拉框使用方法(示例代码)
2013/12/27 Javascript
node.js中的console.dir方法使用说明
2014/12/10 Javascript
如何减少浏览器的reflow和repaint
2015/02/26 Javascript
JavaScript字符串常用类使用方法汇总
2015/04/14 Javascript
JQuery实现简单的图片滑动切换特效
2015/11/22 Javascript
Js的Array数组对象详解
2016/02/22 Javascript
全面解析Bootstrap中tooltip、popover的使用方法
2016/06/13 Javascript
原生JS实现图片翻书效果
2017/02/16 Javascript
基于nodejs+express4.X实现文件下载的实例代码
2017/07/13 NodeJs
bootstrap fileinput实现文件上传功能
2017/08/23 Javascript
Mac中安装nvm的教程分享
2017/12/11 Javascript
详解vue项目中使用token的身份验证的简单实践
2019/03/08 Javascript
Vue 中 filter 与 computed 的区别与用法解析
2019/11/21 Javascript
微信小程序swiper使用网络图片不显示问题解决
2019/12/13 Javascript
vue制作抓娃娃机的示例代码
2020/04/17 Javascript
sqlalchemy对象转dict的示例
2014/04/22 Python
pandas.loc 选取指定列进行操作的实例
2018/05/18 Python
Python实现的读取电脑硬件信息功能示例
2018/05/30 Python
Python时间和字符串转换操作实例分析
2019/03/16 Python
Python装饰器使用你可能不知道的几种姿势
2019/10/25 Python
Tensorflow 实现分批量读取数据
2020/01/04 Python
python数据预处理 :数据抽样解析
2020/02/24 Python
Anaconda+spyder+pycharm的pytorch配置详解(GPU)
2020/10/18 Python
详解pycharm的python包opencv(cv2)无代码提示问题的解决
2021/01/29 Python
CSS3属性box-shadow使用详细教程
2012/01/21 HTML / CSS
英国时尚运动品牌的合集:The Sports Edit
2017/12/20 全球购物
橄榄树药房:OLIVEDA
2019/09/01 全球购物
九年级物理教学反思
2014/01/29 职场文书
小区推广策划方案
2014/06/06 职场文书
2016新春团拜会致辞
2015/08/01 职场文书
Python机器学习之逻辑回归
2021/05/11 Python
Python OpenCV 彩色与灰度图像的转换实现
2021/06/05 Python