python 使用elasticsearch 实现翻页的三种方式


Posted in Python onJuly 31, 2020

python 使用elasticsearch 实现翻页的三种方式

使用ES做搜索引擎拉取数据的时候,如果数据量太大,通过传统的from + size的方式并不能获取所有的数据(默认最大记录数10000),因为随着页数的增加,会消耗大量的内存,导致ES集群不稳定。因此延伸出了scroll,search_after等翻页方式。

一、from + size 浅分页

"浅"分页可以理解为简单意义上的分页。它的原理很简单,就是查询前20条数据,然后截断前10条,只返回10-20的数据。这样其实白白浪费了前10条的查询。

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 10,
 "from": 20,
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

from定义了目标数据的偏移值,size定义当前返回的数目。默认from为0,size为10,即所有的查询默认仅仅返回前10条数据。

在这里有必要了解一下from/size的原理:
因为es是基于分片的,假设有5个分片,from=100,size=10。则会根据排序规则从5个分片中各取回100条数据数据,然后汇总成500条数据后选择最后面的10条数据。

做过测试,越往后的分页,执行的效率越低。总体上会随着from的增加,消耗时间也会增加。而且数据量越大,就越明显!

二、scroll 深分页

 from+size查询在10000-50000条数据(1000到5000页)以内的时候还是可以的,但是如果数据过多的话,就会出现深分页问题。为了解决上面的问题,elasticsearch提出了一个scroll滚动的方式。
scroll 类似于sql中的cursor,使用scroll,每次只能获取一页的内容,然后会返回一个scroll_id。根据返回的这个scroll_id可以不断地获取下一页的内容,所以scroll并不适用于有跳页的情景。

# -*- coding: utf-8 -*-
# @Time : 
# @Author :
 
from elasticsearch import Elasticsearch
 
es = Elasticsearch(hosts="ip:9200", timeout=20, max_retries=10, retry_on_timeout=True)
 
# Elasticsearch 需要保持搜索的上下文环境多久 游标查询过期时间为10分钟(10m)
page = es.search(
    index="source_keyword_message", doc_type="source_keyword_message",
    scroll='10m',
    size=100,
    body={
     "query": {"match_all": {}},
    }
   )
# 游标用于输出es查询出的所有结果
sid = page['_scroll_id']
# es查询出的结果总量
scroll_size = page['hits']['total']
# es查询出的结果第一页
datas = page.get('hits').get('hits')
 
while (scroll_size > 0):
  page = es.scroll(scroll_id=sid, scroll='5m')
  sid = page['_scroll_id']
  scroll_size = len(page['hits']['hits'])
  datas = page.get('hits').get('hits')
  1. scroll=5m表示设置scroll_id保留5分钟可用。
  2. 使用scroll必须要将from设置为0。默认0
  3. size决定后面每次调用_search搜索返回的数量

三、search_after 深分页

scroll 的方式,官方的建议不用于实时的请求(一般用于数据导出),因为每一个 scroll_id 不仅会占用大量的资源,而且会生成历史快照,对于数据的变更不会反映到快照上。

search_after 分页的方式是根据上一页的最后一条数据来确定下一页的位置,同时在分页请求的过程中,如果有索引数据的增删改查,这些变更也会实时的反映到游标上。但是需要注意,因为每一页的数据依赖于上一页最后一条数据,所以无法跳页请求。

为了找到每一页最后一条数据,每个文档必须有一个全局唯一值,官方推荐使用 _uid 作为全局唯一值,其实使用业务层的 id 也可以。

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 20,
 "from": 0,
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}
  1. 使用search_after必须要设置from=0。
  2. 这里我使用timestamp和_id作为唯一值排序。
  3. 我们在返回的最后一条数据里拿到sort属性的值传入到search_after。

使用sort返回的值搜索下一页:

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 10,
 "from": 0,
 "search_after": [
 1541495312521,
 "d0xH6GYBBtbwbQSP0j1A"
 ],
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

 到此这篇关于python 使用elasticsearch 实现翻页的三种方式的文章就介绍到这了,更多相关python elasticsearch 翻页内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现简单状态框架的方法
Mar 19 Python
Python3使用requests发闪存的方法
May 11 Python
Python递归函数定义与用法示例
Jun 02 Python
Django中login_required装饰器的深入介绍
Nov 24 Python
Python爬虫包BeautifulSoup异常处理(二)
Jun 17 Python
解决Python内层for循环如何break出外层的循环的问题
Jun 24 Python
python 三元运算符使用解析
Sep 16 Python
Python configparser模块配置文件过程解析
Mar 03 Python
Python OpenCV读取中文路径图像的方法
Jul 02 Python
python中K-means算法基础知识点
Jan 25 Python
如何在C++中调用Python
May 21 Python
再谈python_tkinter弹出对话框创建
Mar 20 Python
Python爬虫获取豆瓣电影并写入excel
Jul 31 #Python
深入浅析Python代码规范性检测
Jul 31 #Python
python使用Word2Vec进行情感分析解析
Jul 31 #Python
Python爬虫基于lxml解决数据编码乱码问题
Jul 31 #Python
Python如何定义有可选参数的元类
Jul 31 #Python
Python爬虫爬取糗事百科段子实例分享
Jul 31 #Python
Python如何对齐字符串
Jul 30 #Python
You might like
PHP中MD5函数使用实例代码
2008/06/07 PHP
PHP 页面编码声明方法详解(header或meta)
2010/03/12 PHP
解析用PHP实现var_export的详细介绍
2013/06/20 PHP
php判断用户是否手机访问代码
2015/06/08 PHP
PHP实现单文件、多个单文件、多文件上传函数的封装示例
2019/09/02 PHP
JavaScript 学习笔记(十三)Dom创建表格
2010/01/21 Javascript
Jquery实现搜索框提示功能示例代码
2013/08/13 Javascript
javascript数据类型示例分享
2015/01/19 Javascript
利用jquery制作滚动到指定位置触发动画
2016/03/26 Javascript
基于JavaScript实现鼠标箭头移动图片跟着移动
2016/08/30 Javascript
vue实现可增删查改的成绩单
2016/10/27 Javascript
微信小程序 实战实例开发流程详细介绍
2017/01/05 Javascript
Vue动态面包屑功能的实现方法
2019/07/01 Javascript
浅谈JS中this在各个场景下的指向
2019/08/14 Javascript
python类装饰器用法实例
2015/06/04 Python
使用Django的模版来配合字符串翻译工作
2015/07/27 Python
Python与Java间Socket通信实例代码
2017/03/06 Python
python交互式图形编程实例(三)
2017/11/17 Python
python SMTP实现发送带附件电子邮件
2018/05/22 Python
使用python批量修改文件名的方法(视频合并时)
2020/03/24 Python
pytorch 修改预训练model实例
2020/01/18 Python
Python3+Flask安装使用教程详解
2021/02/16 Python
纯css3无js实现的Android Logo(有简单动画)
2013/01/21 HTML / CSS
Julep官网:美容产品和指甲油
2017/02/25 全球购物
Ajax的优点和缺点
2014/11/21 面试题
会计自我鉴定范文
2013/10/06 职场文书
应届毕业生自我评价分享
2013/12/15 职场文书
怎样写好自荐信和推荐信
2013/12/26 职场文书
宿舍卫生检讨书
2014/01/16 职场文书
校庆筹备方案
2014/03/30 职场文书
小学科学教学计划
2015/01/21 职场文书
三八妇女节致辞
2015/07/31 职场文书
大学生支教感言
2015/08/01 职场文书
Python并发编程实例教程之线程的玩法
2021/06/20 Python
Python 发送SMTP邮件的简单教程
2021/06/24 Python
zabbix如何添加监控主机和自定义监控项
2022/08/14 Servers