django使用haystack调用Elasticsearch实现索引搜索


Posted in Python onJuly 24, 2019

前言:

在做一个商城项目的时候,需要实现商品搜索功能。

说到搜索,第一时间想到的是数据库的 select * from tb_sku where name like %苹果手机%

或者django的 SKU.objects.filter(name__contains="苹果手机")

但是,假如你的数据库有几千万条数据,name字段没有索引,可能查询需要十几分钟,用户可能会等你?那为什么不给name字段增加索引?商品表不仅仅是用来查询,也会经常修改数据,新增删除数据等。建立索引后,做增删改操作时也会大大占用数据库资源。所以应该怎么解决呢?

Elasticsearch!

一个强大的基于Lucene的全文搜索服务器!维基百科、Stack Overflow、Github都在用。

如果想详细了解其原理的话,可以参考:Elasticsearch 基础介绍及索引原理分析

这里只是简单说一下他的原理。

Elasticsearch原理:

django使用haystack调用Elasticsearch实现索引搜索

部署好ElasticSearch服务器后,刚开始需要创建索引,ES索引库会对数据库中的数据进行一遍预处理,单独建立起一份索引结构数据。

理解:

假如你的商品表里有这几个字段。id,名字,副标题,价格,商品图片链接地址,评论数,是否上架。

一般用户会根据名字或者副标题来搜索。此时名字、副标题这个字段就需要建立索引(当然,id也要,人家在mysql那里是主键总要给点面子吧)。但是后端返回给前端的数据,不仅仅是需要名字、副标题啊。你还要价格什么的呢!所以我们还要指定需要的字段,不然直接找个名字或者副标题出来有什么用?

所以刚开始创建索引库时,ElasticSearch服务端会根据我们指定要作为索引的字段(名字、副标题、id)、要返回的字段(价格...),同步一份到ES索引库里面。为什么要同步到elasticsearch?因为查找快呀。至于为什么ElasticSearch查找这么快,可以参考一下上面链接的原理。

注意上面的图,ElasticSearch是C/S架构的软件。下面说一下,服务端怎么搭建?

ElasticSearch服务端的搭建:

在搭建前说下,ElasticSearch建立索引时会分词。什么是分词呢?例如“我今天吃了一个汉堡包”。分词后是“我”、“今天”、“吃了”、“一个”、“汉堡包”。你以为ElasticSearch会这么智能?没错,它对英文是这么智能,但是对我们的中文,只会分成“我”、“今”、“天”、“吃”、“了”、“一”、“个”、“汉”、“堡”、“包”。这样用户还怎么搜索啊。。。所以我们需要一个在ElasticSearch服务端集成一个插件,ElasticSearch-ik插件。有了这个插件,真的可以这么智能了。

所以,带有-ik插件的ElasticSearch服务端怎么装呢?

太麻烦了,所以我选择docker(滑稽.jpg)

(1)加载docker镜像

sudo docker load -i elasticsearch-ik-2.4.6_docker.tar

(2)修改配置文件

elasticsearc-2.4.6/config/elasticsearch.yml第54行,更改ip地址为本机ip地址:

network.host: xxx.xxx.xxx.xxx

如果docker不是运行在开发环境的本机,可以设为0.0.0.0。表示允许所有ip访问此服务器。

(3)运行容器

docker run -d -p 9200:9200 --network=host --name=elasticsearch -v /var/elasticsearch-2.4.6/config:/usr/share/elasticsearch/config delron/elasticsearch-ik:2.4.6-1.0

(4)测试ElasticSearch是否安装成功

curl 'http://xxx.xxx.xxx.xxx:9200/' # IP地址是ElasticSearch的IP

如果测试成功,那么ElasticSearch服务器就已经全部搭建完毕啦,而且这个镜像集中了-ik插件,支持中文分词。搭建完服务端后,就要用客户端了。

使用Haystack对接Elasticsearch客户端:

如果直接在Django项目直接编写代码作为ElasticSearch的客户端,比较复杂,所以借助第三方包Haystack来对接ELasticSearch的客户端。而且使用了Haystack后,以后你换其他的全文搜索服务器时(虽然不太可能换),也不用修改Django项目已经写好的代码。

(1)安装Haystack和ElasticSearch客户端。

pip install drf-haystack # 因为该项目是用DRF写的前后端分离,所以安装的是drf-haystack。如果不用DRF的话,安装的是django-haystack
pip install elasticsearch==2.4.1

(2)配置

1.注册应用

INSTALLED_APPS = [
    ...
    'haystack',
    ...
  ]

2.在项目的配置文件中配置haystack

# 配置haystack全文检索框架
  HAYSTACK_CONNECTIONS = {
    'default': {
      'ENGINE': 'haystack.backends.elasticsearch_backend.ElasticsearchSearchEngine',
      # 此处为elasticsearch运行的服务器ip地址,端口号默认为9200
      'URL': 'http://xxx.xxx.xxx.xxx:9200/', 
      # 指定elasticsearch建立的索引库的名称
      'INDEX_NAME': 'meiduo', 
    },
  }
  # 当添加、修改、删除数据时,自动更新索引
  HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'

(3)创建索引类

创建索引类的目的是指定要保存的字段,ElasticSearch服务器会把mysql的这些字段的数据进行同步。方便查询出来时进行返回。

# goods(应用名)/search_indexes.py  # search_indexes名字不能改,固定
from haystack import indexes
from .models import SKU

class SKUIndex(indexes.SearchIndex, indexes.Indexable):
  """
  SKU索引类
  """  # text表示被查询的字段,用户搜索的是这些字段的值,具体被索引的字段写在另一个文件里。
  text = indexes.CharField(document=True, use_template=True)

  # 保存在索引库中的字段
  id = indexes.IntegerField(model_attr='id')
  name = indexes.CharField(model_attr='name')
  price = indexes.DecimalField(model_attr='price')
  default_image_url = indexes.CharField(model_attr='default_image_url')
  comments = indexes.IntegerField(model_attr='comments')

  def get_model(self):
    """返回建立索引的模型类"""
    return SKU

  def index_queryset(self, using=None):
    """返回要建立索引的数据查询集"""
    return self.get_model().objects.filter(is_launched=True)

(4)指定被索引的字段

# templates/search/indexes/goods(应用名)/sku_text.txt  # 路径和名字是固定的
{{ object.name }}
{{ object.caption }}
{{ object.id }}

(5)生成索引库

python manage.py rebuild_index

此时,索引库成功生成了。接下来就是后端接受用户存过来的查询参数,并返回相应的字段了。

完善后端:

django使用haystack调用Elasticsearch实现索引搜索

刚刚写的SKUIndex可以当做是我们平时写DRF时的model类,接下来还要写序列化器,视图,注册路由。

(1)Haystack序列化器类

from drf_haystack.serializers import HaystackSerializer

class SKUIndexSerializer(HaystackSerializer):
  """
  SKU索引结果数据序列化器
  """
  class Meta:
    index_classes = [SKUIndex]
    fields = ('text', 'id', 'name', 'price', 'default_image_url', 'comments')

(2)Haystack视图

from drf_haystack.viewsets import HaystackViewSet

class SKUSearchViewSet(HaystackViewSet):  # HaystackViewSet继承了RetrieveModelMixin, ListModelMixin, ViewSetMixin, HaystackGenericAPIView,所以可以查一条或多条数据
  """
  SKU搜索
  HaystackViewSet: 查一条,查多条
  """
  index_models = [SKU]
  serializer_class = SKUIndexSerializer

(3)注册路由

router = DefaultRouter()
router.register('skus/search', views.SKUSearchViewSet, base_name='skus_search')
...
urlpatterns += router.urls

(4)访问:127.0.0.1:8080/skus/search/?text=Apple

就可以查询出带有Apple的数据了~

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python获取beautifulphoto随机某图片代码实例
Dec 18 Python
python list元素为tuple时的排序方法
Apr 18 Python
pyqt5的QComboBox 使用模板的具体方法
Sep 06 Python
python 利用文件锁单例执行脚本的方法
Feb 19 Python
解决.ui文件生成的.py文件运行不出现界面的方法
Jun 19 Python
python买卖股票的最佳时机(基于贪心/蛮力算法)
Jul 05 Python
python 获取sqlite3数据库的表名和表字段名的实例
Jul 17 Python
django ajax发送post请求的两种方法
Jan 05 Python
Python读取文件内容为字符串的方法(多种方法详解)
Mar 04 Python
如何导出python安装的所有模块名称和版本号到文件中
Jun 05 Python
使用python-cv2实现视频的分解与合成的示例代码
Oct 26 Python
多个版本的python共存时使用pip的正确做法
Oct 26 Python
python 判断三个数字中的最大值实例代码
Jul 24 #Python
Django Celery异步任务队列的实现
Jul 24 #Python
python如何统计代码运行的时长
Jul 24 #Python
Django时区详解
Jul 24 #Python
详解Django定时任务模块设计与实践
Jul 24 #Python
Python3中urlencode和urldecode的用法详解
Jul 23 #Python
对python3中的RE(正则表达式)-详细总结
Jul 23 #Python
You might like
PHP连接MySQL数据的操作要点
2015/03/20 PHP
PHP统计目录中文件以及目录中目录大小的方法
2016/01/09 PHP
yii2实现根据时间搜索的方法
2016/05/25 PHP
基于yaf框架和uploadify插件,做的一个导入excel文件,查看并保存数据的功能
2017/01/24 PHP
基于jQuery的简单九宫格实现代码
2012/08/09 Javascript
jquery.qrcode在线生成二维码使用示例
2013/08/21 Javascript
js导出table到excel同时兼容FF和IE示例
2013/09/03 Javascript
jQuery实现列表自动滚动循环滚动展示新闻
2014/08/22 Javascript
小米公司JavaScript面试题
2014/12/29 Javascript
JavaScript 变量、作用域及内存
2015/04/08 Javascript
分分钟玩转Vue.js组件(二)
2017/03/01 Javascript
基于JQuery的购物车添加删除以及结算功能示例
2017/03/08 Javascript
easyui-edatagrid.js实现回车键结束编辑功能的实例
2017/04/12 Javascript
Vue多种方法实现表头和首列固定的示例代码
2018/02/02 Javascript
详解Angular系列之变化检测(Change Detection)
2018/02/26 Javascript
JS 音频可视化插件Wavesurfer.js的使用教程
2018/10/31 Javascript
IE浏览器下JS脚本提交表单后,不能自动提示问题解决方法
2019/06/04 Javascript
微信小程序文章详情页跳转案例详解
2019/07/09 Javascript
浅析webpack-bundle-analyzer在vue-cli3中的使用
2019/10/23 Javascript
Django查找网站项目根目录和对正则表达式的支持
2015/07/15 Python
python3监控CentOS磁盘空间脚本
2018/06/21 Python
基于Python实现定时自动给微信好友发送天气预报
2018/10/25 Python
python实现大文本文件分割
2019/07/22 Python
使用NumPy读取MNIST数据的实现代码示例
2019/11/20 Python
python实现批量处理将图片粘贴到另一张图片上并保存
2019/12/12 Python
python基于celery实现异步任务周期任务定时任务
2019/12/30 Python
pyqt5 textEdit、lineEdit操作的示例代码
2020/08/12 Python
tensorflow2.0教程之Keras快速入门
2021/02/20 Python
计算机专业学生求职信分享
2013/12/15 职场文书
打架检讨书100字
2014/01/08 职场文书
学期自我评价
2014/01/27 职场文书
老公保证书
2015/01/17 职场文书
2015年乡镇残联工作总结
2015/05/13 职场文书
民事答辩状范本
2015/05/21 职场文书
创业计划书之物流运送
2019/09/17 职场文书
前端JS获取URL参数的4种方法总结
2022/04/05 Javascript