浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别


Posted in PHP onDecember 15, 2016

Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站

Sphinx的特性如下:

a)  高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);

b)  高性能的搜索(在2 ? 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);

c)  可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

Sphinx本身对中文的支持并不好。

主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。

分词在两个地方会用到;

1、索引时,根据分词索引原始数据

2、搜索时,对用户输入分词,到索引中查询

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1、Coreseek 为国人基于Sphinx开发的方案,目前最稳定版,是基于经典的Sphinx0.9.9版

优点:有成熟的文档、以及社区;其分词mmseg为目前国内最为好用分词,索引和搜索分词都可以用到;

缺点:深度开发、版本更新较慢;索引较慢

策略:一个词库管理后台,维护词库;定期生成字典;此套件会自动分词索引;

适用场景:普通青年、搭建差不多的搜索,适用于普遍网站

2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版

优点:部署简单,易操作,内嵌分词和词库,索引和搜索分词都可以用到;

缺点:版本更新较慢;分词较弱;索引相对较慢

策略:同一

适用场景:普通青年、快速搭建搜索的小站

3、Sphinx+Scws 为两套独立系统,单独部署,所谓高内聚低耦合,强烈推荐

优点:两套系统,相对独立,各自单独Server;分词可以做其他用途;版本更新较快;

缺点:部署稍复杂,使用稍复杂;索引分词只能用一元分词,数据量较大

策略:词库管理外;使用时,先调用分词服务,后调用搜索

适用场景:文艺青年、搭建像样点的搜索;好吧文艺青年

以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

PHP 相关文章推荐
php ci框架中加载css和js文件失败的解决方法
Mar 03 PHP
常用PHP框架功能对照表
Oct 23 PHP
php数组操作之键名比较与差集、交集赋值的方法
Nov 10 PHP
Yii实现多数据库主从读写分离的方法
Dec 29 PHP
浅谈PHP中output_buffering
Jul 13 PHP
微信随机生成红包金额算法php版
Jul 21 PHP
php实现压缩合并js的方法【附demo源码下载】
Sep 22 PHP
php 生成Tab键或逗号分隔的CSV
Sep 24 PHP
php实现博客,论坛图片防盗链的方法
Oct 15 PHP
php实现替换手机号中间数字为*号及隐藏IP最后几位的方法
Nov 16 PHP
利用PHP访问带有密码的Redis方法示例
Feb 09 PHP
php操作redis命令及代码实例大全
Nov 19 PHP
浅谈socket同步和异步、阻塞和非阻塞、I/O模型
Dec 15 #PHP
PHP接口并发测试的方法(推荐)
Dec 15 #PHP
浅谈PHP的反射机制
Dec 15 #PHP
php 三元运算符实例详细介绍
Dec 15 #PHP
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
Dec 14 #PHP
使用PHP下载CSS文件中的所有图片【几行代码即可实现】
Dec 14 #PHP
Thinkphp 中 distinct 的用法解析
Dec 14 #PHP
You might like
PHP连接access数据库
2008/03/27 PHP
PHP+javascript制作带提示的验证码源码分享
2014/05/28 PHP
php事件驱动化设计详解
2016/11/10 PHP
深入研究PHP中的preg_replace和代码执行
2018/08/15 PHP
对laravel的csrf 防御机制详解,及form中csrf_token()的存在介绍
2019/10/24 PHP
Javascript技术技巧大全(五)
2007/01/22 Javascript
jQuery html() in Firefox (uses .innerHTML) ignores DOM changes
2010/03/05 Javascript
jquery ajax属性async(同步异步)示例
2013/11/05 Javascript
js简单实现交换Li的值
2014/05/22 Javascript
轻松实现js图片预览功能
2016/01/18 Javascript
JavaScript对象数组如何按指定属性和排序方向进行排序
2016/06/15 Javascript
jQuery的Cookie封装,与PHP交互的简单实现
2016/10/05 Javascript
详解使用vue脚手架工具搭建vue-webpack项目
2017/05/10 Javascript
React学习笔记之列表渲染示例详解
2017/08/22 Javascript
基于 flexible 的 Vue 组件:Toast -- 显示框效果
2017/12/26 Javascript
详解vue中axios的使用与封装
2019/03/20 Javascript
[02:47]DOTA2亚洲邀请赛 HR战队出场宣传片
2015/02/07 DOTA
使用python获取CPU和内存信息的思路与实现(linux系统)
2014/01/03 Python
python网络编程学习笔记(四):域名系统
2014/06/09 Python
跟老齐学Python之复习if语句
2014/10/02 Python
Python对List中的元素排序的方法
2018/04/01 Python
Python网络编程之TCP套接字简单用法示例
2018/04/09 Python
Python实现通过继承覆盖方法示例
2018/07/02 Python
Django 多语言教程的实现(i18n)
2018/07/07 Python
pycharm运行和调试不显示结果的解决方法
2018/11/30 Python
Python 实现子类获取父类的类成员方法
2019/01/11 Python
Python实现的排列组合、破解密码算法示例
2019/04/12 Python
Python yield生成器和return对比代码实例
2020/04/20 Python
Python list和str互转的实现示例
2020/11/16 Python
美国踏板车和轻便摩托车销售网站:Mega Motor Madness
2020/02/26 全球购物
是否有自动比较结构的方法
2015/06/03 面试题
幼儿园教师师德师风演讲稿:爱我所爱 无悔青春
2014/09/10 职场文书
公司给客户的感谢信
2015/01/23 职场文书
2016春季小学开学寄语
2015/12/03 职场文书
详解nginx进程锁的实现
2021/06/14 Servers
详解Spring Security如何在权限中使用通配符
2022/06/28 Java/Android