浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别


Posted in PHP onDecember 15, 2016

Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站

Sphinx的特性如下:

a)  高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);

b)  高性能的搜索(在2 ? 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);

c)  可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

Sphinx本身对中文的支持并不好。

主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。

分词在两个地方会用到;

1、索引时,根据分词索引原始数据

2、搜索时,对用户输入分词,到索引中查询

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1、Coreseek 为国人基于Sphinx开发的方案,目前最稳定版,是基于经典的Sphinx0.9.9版

优点:有成熟的文档、以及社区;其分词mmseg为目前国内最为好用分词,索引和搜索分词都可以用到;

缺点:深度开发、版本更新较慢;索引较慢

策略:一个词库管理后台,维护词库;定期生成字典;此套件会自动分词索引;

适用场景:普通青年、搭建差不多的搜索,适用于普遍网站

2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版

优点:部署简单,易操作,内嵌分词和词库,索引和搜索分词都可以用到;

缺点:版本更新较慢;分词较弱;索引相对较慢

策略:同一

适用场景:普通青年、快速搭建搜索的小站

3、Sphinx+Scws 为两套独立系统,单独部署,所谓高内聚低耦合,强烈推荐

优点:两套系统,相对独立,各自单独Server;分词可以做其他用途;版本更新较快;

缺点:部署稍复杂,使用稍复杂;索引分词只能用一元分词,数据量较大

策略:词库管理外;使用时,先调用分词服务,后调用搜索

适用场景:文艺青年、搭建像样点的搜索;好吧文艺青年

以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

PHP 相关文章推荐
发布一个用PHP fsockopen写的HTTP下载的类
Feb 22 PHP
劣质的PHP代码简化
Feb 08 PHP
收藏的PHP常用函数 推荐收藏保存
Feb 21 PHP
nginx+php-fpm配置文件的组织结构介绍
Nov 07 PHP
php中使用preg_match_all匹配文章中的图片
Feb 06 PHP
2014年10个最佳的PHP图像操作库
Jul 14 PHP
跟我学Laravel之安装Laravel
Oct 15 PHP
CI框架验证码CAPTCHA辅助函数用法实例
Nov 05 PHP
laravel自定义分页效果
Jul 23 PHP
PHP实现的贪婪算法实例
Oct 17 PHP
PHP使用星号替代用户名手机和邮箱的实现代码
Feb 07 PHP
PHP共享内存使用与信号控制实例分析
May 09 PHP
浅谈socket同步和异步、阻塞和非阻塞、I/O模型
Dec 15 #PHP
PHP接口并发测试的方法(推荐)
Dec 15 #PHP
浅谈PHP的反射机制
Dec 15 #PHP
php 三元运算符实例详细介绍
Dec 15 #PHP
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
Dec 14 #PHP
使用PHP下载CSS文件中的所有图片【几行代码即可实现】
Dec 14 #PHP
Thinkphp 中 distinct 的用法解析
Dec 14 #PHP
You might like
PHP 冒泡排序算法的实现代码
2010/08/08 PHP
PHP 获取远程网页内容的代码(fopen,curl已测)
2011/06/06 PHP
使用array_map简单搞定PHP删除文件、删除目录
2014/10/29 PHP
jquery京东商城双11焦点图多图广告特效代码分享
2015/09/06 Javascript
JavaScript事件类型中UI事件详解
2016/01/14 Javascript
浅析BootStrap栅格系统
2016/06/07 Javascript
JavaScript实现阿拉伯数字和中文数字互相转换
2016/06/12 Javascript
在localStorage中存储对象数组并读取的方法
2016/09/24 Javascript
Easyui的组合框的取值与赋值
2016/10/28 Javascript
微信公众号支付H5调用支付解析
2016/11/04 Javascript
JS中Select下拉列表类(支持输入模糊查询)功能
2017/01/17 Javascript
Vue computed计算属性的使用方法
2017/07/14 Javascript
node实现简单的反向代理服务器
2017/07/26 Javascript
mpvue 单文件页面配置详解
2018/12/02 Javascript
详解VUE里子组件如何获取父组件动态变化的值
2018/12/26 Javascript
JavaScript实现字符串与HTML格式相互转换
2020/03/17 Javascript
详解vue v-model
2020/08/31 Javascript
python算法学习之计数排序实例
2013/12/18 Python
python实现人人网登录示例分享
2014/01/19 Python
安装Python的web.py框架并从hello world开始编程
2015/04/25 Python
浅谈python中截取字符函数strip,lstrip,rstrip
2015/07/17 Python
Python二叉搜索树与双向链表转换实现方法
2016/04/29 Python
Python+OpenCv制作证件图片生成器的操作方法
2019/08/21 Python
Django 后台带有字典的列表数据与页面js交互实例
2020/04/03 Python
使用Pycharm分段执行代码
2020/04/15 Python
CSS3制作炫酷带方向感应的鼠标滑过图片3D动画
2016/03/16 HTML / CSS
html5指南-2.如何操作document metadata
2013/01/07 HTML / CSS
canvas压缩图片以及卡片制作的方法示例
2018/12/04 HTML / CSS
欧克利英国官网:Oakley英国
2019/08/24 全球购物
do you have any Best Practice for testing
2016/06/04 面试题
最受欢迎的自我评价
2013/12/22 职场文书
公务员上班玩游戏检讨书
2014/09/17 职场文书
法学专业求职信范文
2015/03/19 职场文书
组织委员竞选稿
2015/11/21 职场文书
创业计划书之校园超市
2019/09/12 职场文书
redis三种高可用方式部署的实现
2021/05/11 Redis