浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别


Posted in PHP onDecember 15, 2016

Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站

Sphinx的特性如下:

a)  高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);

b)  高性能的搜索(在2 ? 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);

c)  可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

Sphinx本身对中文的支持并不好。

主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。

分词在两个地方会用到;

1、索引时,根据分词索引原始数据

2、搜索时,对用户输入分词,到索引中查询

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1、Coreseek 为国人基于Sphinx开发的方案,目前最稳定版,是基于经典的Sphinx0.9.9版

优点:有成熟的文档、以及社区;其分词mmseg为目前国内最为好用分词,索引和搜索分词都可以用到;

缺点:深度开发、版本更新较慢;索引较慢

策略:一个词库管理后台,维护词库;定期生成字典;此套件会自动分词索引;

适用场景:普通青年、搭建差不多的搜索,适用于普遍网站

2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版

优点:部署简单,易操作,内嵌分词和词库,索引和搜索分词都可以用到;

缺点:版本更新较慢;分词较弱;索引相对较慢

策略:同一

适用场景:普通青年、快速搭建搜索的小站

3、Sphinx+Scws 为两套独立系统,单独部署,所谓高内聚低耦合,强烈推荐

优点:两套系统,相对独立,各自单独Server;分词可以做其他用途;版本更新较快;

缺点:部署稍复杂,使用稍复杂;索引分词只能用一元分词,数据量较大

策略:词库管理外;使用时,先调用分词服务,后调用搜索

适用场景:文艺青年、搭建像样点的搜索;好吧文艺青年

以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

PHP 相关文章推荐
php 获取客户端的真实ip
Nov 30 PHP
php性能优化分析工具XDebug 大型网站调试工具
May 22 PHP
MySQL连接数超过限制的解决方法
Jul 17 PHP
PHP的MVC模式实现原理分析(一相简单的MVC框架范例)
Apr 29 PHP
Laravel 4 初级教程之安装及入门
Oct 30 PHP
php检索或者复制远程文件的方法
Mar 13 PHP
thinkphp3.2中Lite文件替换框架入口文件或应用入口文件的方法
May 21 PHP
thinkPHP使用post方式查询时分页失效的解决方法
Dec 09 PHP
php while循环控制的简单实例
May 30 PHP
PHP 数组遍历foreach语法结构及实例
Jun 13 PHP
Yii框架用户登录session丢失问题解决方法
Jan 07 PHP
PHP程序员学习使用Swoole的理由
Jun 24 PHP
浅谈socket同步和异步、阻塞和非阻塞、I/O模型
Dec 15 #PHP
PHP接口并发测试的方法(推荐)
Dec 15 #PHP
浅谈PHP的反射机制
Dec 15 #PHP
php 三元运算符实例详细介绍
Dec 15 #PHP
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
Dec 14 #PHP
使用PHP下载CSS文件中的所有图片【几行代码即可实现】
Dec 14 #PHP
Thinkphp 中 distinct 的用法解析
Dec 14 #PHP
You might like
ubuntu下编译安装xcache for php5.3 的具体操作步骤
2013/06/18 PHP
php根据日期显示所在星座的方法
2015/07/13 PHP
php curl优化下载微信头像的方法总结
2018/09/07 PHP
php数组和链表的区别总结
2019/09/20 PHP
jquery实现excel导出的方法
2013/04/04 Javascript
深入理解javascript中的立即执行函数(function(){…})()
2014/06/12 Javascript
AngularJs根据访问的页面动态加载Controller的解决方案
2015/02/04 Javascript
Jquery中$.post和$.ajax的用法小结
2015/04/28 Javascript
基于JavaScript实现自定义滚动条
2017/01/25 Javascript
详解vue组件通信的三种方式
2017/06/30 Javascript
详解Vue单元测试case写法
2018/05/24 Javascript
JavaScript数组去重实现方法小结
2020/01/17 Javascript
Vue中import from的来源及省略后缀与加载文件夹问题
2020/02/09 Javascript
详解node.js 事件循环
2020/07/22 Javascript
JavaScript实现与web通信的方法详解
2020/08/07 Javascript
Vant+postcss-pxtorem 实现浏览器适配功能
2021/02/05 Javascript
python创建和删除目录的方法
2015/04/29 Python
不可错过的十本Python好书
2017/07/06 Python
python生成多个只含0,1元素的随机数组或列表的实例
2018/11/12 Python
PyTorch中常用的激活函数的方法示例
2019/08/20 Python
使用Python给头像加上圣诞帽或圣诞老人小图标附源码
2019/12/25 Python
python数据库开发之MongoDB安装及Python3操作MongoDB数据库详细方法与实例
2020/03/18 Python
PyQt5.6+pycharm配置以及pyinstaller生成exe(小白教程)
2020/06/02 Python
python 装饰器的使用示例
2020/10/10 Python
HTML5 拖放(Drag 和 Drop)详解与实例代码
2017/09/14 HTML / CSS
土耳其国际性时尚购物网站:Modanisa
2018/01/19 全球购物
新加坡第一大健康与美容零售商:屈臣氏新加坡(Watsons Singapore)
2020/12/11 全球购物
毕业生物理教师求职信
2013/10/17 职场文书
土木工程建筑专业毕业生求职信
2013/10/21 职场文书
高考励志标语
2014/06/05 职场文书
党的作风建设心得体会
2014/10/22 职场文书
2014年学校食堂工作总结
2014/11/25 职场文书
2014年电教工作总结
2014/12/19 职场文书
2015年度个人业务工作总结
2015/04/27 职场文书
VS2019连接MySQL数据库的过程及常见问题总结
2021/11/27 MySQL
redis 解决库存并发问题实现数量控制
2022/04/08 Redis