浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别


Posted in PHP onDecember 15, 2016

Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站

Sphinx的特性如下:

a)  高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);

b)  高性能的搜索(在2 ? 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);

c)  可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

Sphinx本身对中文的支持并不好。

主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。

分词在两个地方会用到;

1、索引时,根据分词索引原始数据

2、搜索时,对用户输入分词,到索引中查询

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1、Coreseek 为国人基于Sphinx开发的方案,目前最稳定版,是基于经典的Sphinx0.9.9版

优点:有成熟的文档、以及社区;其分词mmseg为目前国内最为好用分词,索引和搜索分词都可以用到;

缺点:深度开发、版本更新较慢;索引较慢

策略:一个词库管理后台,维护词库;定期生成字典;此套件会自动分词索引;

适用场景:普通青年、搭建差不多的搜索,适用于普遍网站

2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版

优点:部署简单,易操作,内嵌分词和词库,索引和搜索分词都可以用到;

缺点:版本更新较慢;分词较弱;索引相对较慢

策略:同一

适用场景:普通青年、快速搭建搜索的小站

3、Sphinx+Scws 为两套独立系统,单独部署,所谓高内聚低耦合,强烈推荐

优点:两套系统,相对独立,各自单独Server;分词可以做其他用途;版本更新较快;

缺点:部署稍复杂,使用稍复杂;索引分词只能用一元分词,数据量较大

策略:词库管理外;使用时,先调用分词服务,后调用搜索

适用场景:文艺青年、搭建像样点的搜索;好吧文艺青年

以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

PHP 相关文章推荐
从零开始 教你如何搭建Discuz!4.1论坛
Jul 07 PHP
PHP nl2br函数 将换行字符转成 <br>
Aug 21 PHP
phpMyAdmin链接MySql错误 个人解决方案
Dec 28 PHP
php新浪微博登录接口用法实例
Dec 23 PHP
php将12小时制转换成24小时制的方法
Mar 31 PHP
php获得网站访问统计信息类Compete API用法实例
Apr 02 PHP
Laravel 5框架学习之路由、控制器和视图简介
Apr 07 PHP
UTF-8正则表达式如何匹配汉字
Aug 03 PHP
php实现的debug log日志操作类实例
Jul 12 PHP
Yii2框架dropDownList下拉菜单用法实例分析
Jul 18 PHP
PHP使用PhpSpreadsheet操作Excel实例详解
Mar 26 PHP
Thinkphp5框架中引入Markdown编辑器操作示例
Jun 03 PHP
浅谈socket同步和异步、阻塞和非阻塞、I/O模型
Dec 15 #PHP
PHP接口并发测试的方法(推荐)
Dec 15 #PHP
浅谈PHP的反射机制
Dec 15 #PHP
php 三元运算符实例详细介绍
Dec 15 #PHP
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
Dec 14 #PHP
使用PHP下载CSS文件中的所有图片【几行代码即可实现】
Dec 14 #PHP
Thinkphp 中 distinct 的用法解析
Dec 14 #PHP
You might like
Windows中使用计划任务自动执行PHP程序实例
2014/05/09 PHP
nginx+thinkphp下解决不支持pathinfo模式
2015/07/01 PHP
php实现给一张图片加上水印效果
2016/01/02 PHP
PHP将字符串首字母大小写转换的实例
2017/01/21 PHP
ThinkPHP框架整合微信支付之Native 扫码支付模式二图文详解
2019/04/09 PHP
jquery插件jbox使用iframe关闭问题
2009/02/09 Javascript
IE的有条件注释判定IE版本详解(附实例代码)
2012/01/04 Javascript
js获取GridView中行数据的两种方法 分享
2013/07/13 Javascript
利用jQuery实现可输入搜索文字的下拉框
2013/10/23 Javascript
js 获取时间间隔实现代码
2014/05/12 Javascript
JavaScript设计模式之装饰者模式介绍
2014/12/28 Javascript
jQuery Easyui实现左右布局
2016/01/26 Javascript
值得分享的轻量级Bootstrap Table表格插件
2016/05/30 Javascript
微信小程序 Storage API实例详解
2016/10/02 Javascript
基于BootStrap的前端分页带省略号和上下页效果
2017/05/18 Javascript
angularjs项目的页面跳转如何实现(5种方法)
2017/05/25 Javascript
移动端效果之Swiper详解
2017/10/09 Javascript
详解vue.js根据不同环境(正式、测试)打包到不同目录
2018/07/13 Javascript
vue项目每30秒刷新1次接口的实现方法
2018/12/04 Javascript
详解小程序如何改变onLoad的执行时机
2019/11/01 Javascript
python中xrange和range的区别
2014/05/13 Python
python通过opencv实现批量剪切图片
2017/11/13 Python
Python中GeoJson和bokeh-1的使用讲解
2019/01/03 Python
python读写配置文件操作示例
2019/07/03 Python
将python2.7添加进64位系统的注册表方式
2019/11/20 Python
python3用urllib抓取贴吧邮箱和QQ实例
2020/03/10 Python
Casadei卡萨蒂官网:意大利奢侈鞋履品牌
2017/10/28 全球购物
墨西哥皇宫度假村预订:Palace Resorts
2018/06/16 全球购物
 Alo Yoga官网:购买瑜伽服装
2018/06/17 全球购物
幼师自我鉴定范文
2013/10/01 职场文书
中英双版中文教师求职信
2013/10/27 职场文书
《美丽的田园》教学反思
2014/03/01 职场文书
学校党员对照检查材料
2014/08/28 职场文书
地球上的星星观后感
2015/06/02 职场文书
简历中的自我评价应该这样写!
2019/07/12 职场文书
理解python中装饰器的作用
2021/07/21 Python