python 使用elasticsearch 实现翻页的三种方式


Posted in Python onJuly 31, 2020

python 使用elasticsearch 实现翻页的三种方式

使用ES做搜索引擎拉取数据的时候,如果数据量太大,通过传统的from + size的方式并不能获取所有的数据(默认最大记录数10000),因为随着页数的增加,会消耗大量的内存,导致ES集群不稳定。因此延伸出了scroll,search_after等翻页方式。

一、from + size 浅分页

"浅"分页可以理解为简单意义上的分页。它的原理很简单,就是查询前20条数据,然后截断前10条,只返回10-20的数据。这样其实白白浪费了前10条的查询。

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 10,
 "from": 20,
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

from定义了目标数据的偏移值,size定义当前返回的数目。默认from为0,size为10,即所有的查询默认仅仅返回前10条数据。

在这里有必要了解一下from/size的原理:
因为es是基于分片的,假设有5个分片,from=100,size=10。则会根据排序规则从5个分片中各取回100条数据数据,然后汇总成500条数据后选择最后面的10条数据。

做过测试,越往后的分页,执行的效率越低。总体上会随着from的增加,消耗时间也会增加。而且数据量越大,就越明显!

二、scroll 深分页

 from+size查询在10000-50000条数据(1000到5000页)以内的时候还是可以的,但是如果数据过多的话,就会出现深分页问题。为了解决上面的问题,elasticsearch提出了一个scroll滚动的方式。
scroll 类似于sql中的cursor,使用scroll,每次只能获取一页的内容,然后会返回一个scroll_id。根据返回的这个scroll_id可以不断地获取下一页的内容,所以scroll并不适用于有跳页的情景。

# -*- coding: utf-8 -*-
# @Time : 
# @Author :
 
from elasticsearch import Elasticsearch
 
es = Elasticsearch(hosts="ip:9200", timeout=20, max_retries=10, retry_on_timeout=True)
 
# Elasticsearch 需要保持搜索的上下文环境多久 游标查询过期时间为10分钟(10m)
page = es.search(
    index="source_keyword_message", doc_type="source_keyword_message",
    scroll='10m',
    size=100,
    body={
     "query": {"match_all": {}},
    }
   )
# 游标用于输出es查询出的所有结果
sid = page['_scroll_id']
# es查询出的结果总量
scroll_size = page['hits']['total']
# es查询出的结果第一页
datas = page.get('hits').get('hits')
 
while (scroll_size > 0):
  page = es.scroll(scroll_id=sid, scroll='5m')
  sid = page['_scroll_id']
  scroll_size = len(page['hits']['hits'])
  datas = page.get('hits').get('hits')
  1. scroll=5m表示设置scroll_id保留5分钟可用。
  2. 使用scroll必须要将from设置为0。默认0
  3. size决定后面每次调用_search搜索返回的数量

三、search_after 深分页

scroll 的方式,官方的建议不用于实时的请求(一般用于数据导出),因为每一个 scroll_id 不仅会占用大量的资源,而且会生成历史快照,对于数据的变更不会反映到快照上。

search_after 分页的方式是根据上一页的最后一条数据来确定下一页的位置,同时在分页请求的过程中,如果有索引数据的增删改查,这些变更也会实时的反映到游标上。但是需要注意,因为每一页的数据依赖于上一页最后一条数据,所以无法跳页请求。

为了找到每一页最后一条数据,每个文档必须有一个全局唯一值,官方推荐使用 _uid 作为全局唯一值,其实使用业务层的 id 也可以。

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 20,
 "from": 0,
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}
  1. 使用search_after必须要设置from=0。
  2. 这里我使用timestamp和_id作为唯一值排序。
  3. 我们在返回的最后一条数据里拿到sort属性的值传入到search_after。

使用sort返回的值搜索下一页:

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 10,
 "from": 0,
 "search_after": [
 1541495312521,
 "d0xH6GYBBtbwbQSP0j1A"
 ],
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

 到此这篇关于python 使用elasticsearch 实现翻页的三种方式的文章就介绍到这了,更多相关python elasticsearch 翻页内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python之父谈Python的未来形式
Jul 01 Python
numpy自动生成数组详解
Dec 15 Python
Python Paramiko模块的使用实际案例
Feb 01 Python
python画一个玫瑰和一个爱心
Aug 18 Python
python 多个参数不为空校验方法
Feb 14 Python
python+mysql实现学生信息查询系统
Feb 21 Python
Python3.4学习笔记之常用操作符,条件分支和循环用法示例
Mar 01 Python
使用Python和Prometheus跟踪天气的使用方法
May 06 Python
Python中的 sort 和 sorted的用法与区别
Aug 10 Python
python进程间通信Queue工作过程详解
Nov 01 Python
python tornado使用流生成图片的例子
Nov 18 Python
关于tf.reverse_sequence()简述
Jan 20 Python
Python爬虫获取豆瓣电影并写入excel
Jul 31 #Python
深入浅析Python代码规范性检测
Jul 31 #Python
python使用Word2Vec进行情感分析解析
Jul 31 #Python
Python爬虫基于lxml解决数据编码乱码问题
Jul 31 #Python
Python如何定义有可选参数的元类
Jul 31 #Python
Python爬虫爬取糗事百科段子实例分享
Jul 31 #Python
Python如何对齐字符串
Jul 30 #Python
You might like
php imagecreatetruecolor 创建高清和透明图片代码小结
2010/05/15 PHP
laravel框架数据库配置及操作数据库示例
2019/10/10 PHP
JavaScript CSS修改学习第六章 拖拽
2010/02/19 Javascript
腾讯与新浪的通过IP地址获取当前地理位置(省份)的接口
2010/07/26 Javascript
基于jquery的无缝循环新闻列表插件
2011/03/07 Javascript
Node.js实战 建立简单的Web服务器
2012/03/08 Javascript
JS中自定义定时器让它在某一时刻执行
2014/09/02 Javascript
3种Jquery限制文本框只能输入数字字母的方法
2014/12/03 Javascript
js实现简单div拖拽功能实例
2015/05/12 Javascript
四种参数传递的形式——URL,超链接,js,form表单
2015/07/24 Javascript
基于jQuery全屏焦点图左右切换插件responsiveslides
2015/09/07 Javascript
使用vue.js开发时一些注意事项
2016/04/27 Javascript
AngularJS基础 ng-srcset 指令简单示例
2016/08/03 Javascript
Vue学习笔记进阶篇之过渡状态详解
2017/07/14 Javascript
基于Vue.js 2.0实现百度搜索框效果
2020/12/28 Javascript
详解JS函数防抖
2020/06/05 Javascript
Python中的anydbm模版和shelve模版使用指南
2015/07/09 Python
Python中将字典转换为列表的方法
2016/09/21 Python
基于python批量处理dat文件及科学计算方法详解
2018/05/08 Python
Pandas中DataFrame的分组/分割/合并的实现
2019/07/16 Python
python gdal安装与简单使用
2019/08/01 Python
Python获取对象属性的几种方式小结
2020/03/12 Python
python中np是做什么的
2020/07/21 Python
耐克美国官网:Nike.com
2016/08/01 全球购物
办理居住证介绍信
2014/01/15 职场文书
大学自我评价
2014/02/12 职场文书
学习雷锋演讲稿
2014/05/10 职场文书
国家机关领导干部民主生活会对照检查材料思想汇报
2014/09/17 职场文书
地雷战观后感
2015/06/09 职场文书
员工考勤管理制度
2015/08/06 职场文书
只需要12页,掌握撰写一流商业计划书的技巧
2019/05/07 职场文书
Mysql忘记密码解决方法
2022/02/12 MySQL
警用民用对讲机找不同
2022/02/18 无线电
Python装饰器详细介绍
2022/03/25 Python
《艾尔登法环》发布最新「战技」宣传片
2022/04/03 其他游戏
Consul在linux环境的集群部署
2022/04/08 Servers