浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别


Posted in PHP onDecember 15, 2016

Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站

Sphinx的特性如下:

a)  高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);

b)  高性能的搜索(在2 ? 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);

c)  可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

Sphinx本身对中文的支持并不好。

主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。

分词在两个地方会用到;

1、索引时,根据分词索引原始数据

2、搜索时,对用户输入分词,到索引中查询

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1、Coreseek 为国人基于Sphinx开发的方案,目前最稳定版,是基于经典的Sphinx0.9.9版

优点:有成熟的文档、以及社区;其分词mmseg为目前国内最为好用分词,索引和搜索分词都可以用到;

缺点:深度开发、版本更新较慢;索引较慢

策略:一个词库管理后台,维护词库;定期生成字典;此套件会自动分词索引;

适用场景:普通青年、搭建差不多的搜索,适用于普遍网站

2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版

优点:部署简单,易操作,内嵌分词和词库,索引和搜索分词都可以用到;

缺点:版本更新较慢;分词较弱;索引相对较慢

策略:同一

适用场景:普通青年、快速搭建搜索的小站

3、Sphinx+Scws 为两套独立系统,单独部署,所谓高内聚低耦合,强烈推荐

优点:两套系统,相对独立,各自单独Server;分词可以做其他用途;版本更新较快;

缺点:部署稍复杂,使用稍复杂;索引分词只能用一元分词,数据量较大

策略:词库管理外;使用时,先调用分词服务,后调用搜索

适用场景:文艺青年、搭建像样点的搜索;好吧文艺青年

以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

PHP 相关文章推荐
php多层数组与对象的转换实例代码
Aug 05 PHP
PHP数据库操作之基于Mysqli的数据库操作类库
Apr 19 PHP
php多个文件及图片上传实例详解
Nov 10 PHP
PHP多文件上传类实例
Mar 07 PHP
Zend Framework动作助手(Zend_Controller_Action_Helper)用法详解
Mar 05 PHP
ThinkPHP模板Volist标签嵌套循环输出多维数组的方法
Mar 23 PHP
PHP实现基于mysqli的Model基类完整实例
Apr 08 PHP
功能强大的php分页函数
Jul 20 PHP
PHP实现的各类hash算法长度及性能测试实例
Aug 27 PHP
Laravel框架路由设置与使用示例
Jun 12 PHP
PHP设计模式之 策略模式Strategy详解【对象行为型】
May 01 PHP
浅谈Laravel中使用Slack进行异常通知
May 29 PHP
浅谈socket同步和异步、阻塞和非阻塞、I/O模型
Dec 15 #PHP
PHP接口并发测试的方法(推荐)
Dec 15 #PHP
浅谈PHP的反射机制
Dec 15 #PHP
php 三元运算符实例详细介绍
Dec 15 #PHP
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
Dec 14 #PHP
使用PHP下载CSS文件中的所有图片【几行代码即可实现】
Dec 14 #PHP
Thinkphp 中 distinct 的用法解析
Dec 14 #PHP
You might like
php array_merge下进行数组合并的代码
2008/07/22 PHP
PHP中的string类型使用说明
2010/07/27 PHP
php笔记之:初探PHPcms模块开发介绍
2013/04/26 PHP
php获取客户端电脑屏幕参数的方法
2015/01/09 PHP
codeigniter实现get分页的方法
2015/07/10 PHP
微信网页授权(OAuth2.0) PHP 源码简单实现
2016/08/29 PHP
javascript十个最常用的自定义函数(中文版)
2009/09/07 Javascript
javascript 流畅动画实现原理
2009/09/08 Javascript
js遍历、动态的添加数据的小例子
2013/06/22 Javascript
javascript自定义startWith()和endWith()的两种方法
2013/11/11 Javascript
使用JavaScript+canvas实现图片裁剪
2015/01/30 Javascript
javascript中slice(),splice(),split(),substring(),substr()使用方法
2015/03/13 Javascript
包含中国城市的javascript对象实例
2015/08/03 Javascript
node.js中module.exports与exports用法上的区别
2016/09/02 Javascript
js Canvas实现圆形时钟教程
2016/09/19 Javascript
JQuery和HTML5 Canvas实现弹幕效果
2017/01/04 Javascript
JS对象序列化成json数据和json数据转化为JS对象的代码
2017/08/23 Javascript
JavaScript实现左侧菜单效果
2017/12/14 Javascript
webpack分离css单独打包的方法
2018/06/12 Javascript
jQuery轻量级表单模型验证插件
2018/10/15 jQuery
vue中$nextTick的用法讲解
2019/01/17 Javascript
自定义Vue组件打包、发布到npm及使用教程
2019/05/22 Javascript
Vue页面渲染中key的应用实例教程
2021/01/12 Vue.js
[09:33]2015国际邀请赛第四日TOP10
2015/08/08 DOTA
wx.CheckBox创建复选框控件并响应鼠标点击事件
2018/04/25 Python
Python实现压缩文件夹与解压缩zip文件的方法
2018/09/01 Python
Python字典循环添加一键多值的用法实例
2019/01/20 Python
python机器人运动范围问题的解答
2019/04/29 Python
Pyinstaller加密打包应用的示例代码
2020/06/11 Python
python基于selenium爬取斗鱼弹幕
2021/02/20 Python
Sasa莎莎海外旗舰店:香港莎莎美妆平台
2018/03/21 全球购物
学校领导班子对照检查材料
2014/09/24 职场文书
离退休人员聘用协议书
2014/11/24 职场文书
高中政治教师教学反思
2016/02/23 职场文书
Python实现双向链表基本操作
2022/05/25 Python
nginx rewrite功能使用场景分析
2022/05/30 Servers