python 使用elasticsearch 实现翻页的三种方式


Posted in Python onJuly 31, 2020

python 使用elasticsearch 实现翻页的三种方式

使用ES做搜索引擎拉取数据的时候,如果数据量太大,通过传统的from + size的方式并不能获取所有的数据(默认最大记录数10000),因为随着页数的增加,会消耗大量的内存,导致ES集群不稳定。因此延伸出了scroll,search_after等翻页方式。

一、from + size 浅分页

"浅"分页可以理解为简单意义上的分页。它的原理很简单,就是查询前20条数据,然后截断前10条,只返回10-20的数据。这样其实白白浪费了前10条的查询。

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 10,
 "from": 20,
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

from定义了目标数据的偏移值,size定义当前返回的数目。默认from为0,size为10,即所有的查询默认仅仅返回前10条数据。

在这里有必要了解一下from/size的原理:
因为es是基于分片的,假设有5个分片,from=100,size=10。则会根据排序规则从5个分片中各取回100条数据数据,然后汇总成500条数据后选择最后面的10条数据。

做过测试,越往后的分页,执行的效率越低。总体上会随着from的增加,消耗时间也会增加。而且数据量越大,就越明显!

二、scroll 深分页

 from+size查询在10000-50000条数据(1000到5000页)以内的时候还是可以的,但是如果数据过多的话,就会出现深分页问题。为了解决上面的问题,elasticsearch提出了一个scroll滚动的方式。
scroll 类似于sql中的cursor,使用scroll,每次只能获取一页的内容,然后会返回一个scroll_id。根据返回的这个scroll_id可以不断地获取下一页的内容,所以scroll并不适用于有跳页的情景。

# -*- coding: utf-8 -*-
# @Time : 
# @Author :
 
from elasticsearch import Elasticsearch
 
es = Elasticsearch(hosts="ip:9200", timeout=20, max_retries=10, retry_on_timeout=True)
 
# Elasticsearch 需要保持搜索的上下文环境多久 游标查询过期时间为10分钟(10m)
page = es.search(
    index="source_keyword_message", doc_type="source_keyword_message",
    scroll='10m',
    size=100,
    body={
     "query": {"match_all": {}},
    }
   )
# 游标用于输出es查询出的所有结果
sid = page['_scroll_id']
# es查询出的结果总量
scroll_size = page['hits']['total']
# es查询出的结果第一页
datas = page.get('hits').get('hits')
 
while (scroll_size > 0):
  page = es.scroll(scroll_id=sid, scroll='5m')
  sid = page['_scroll_id']
  scroll_size = len(page['hits']['hits'])
  datas = page.get('hits').get('hits')
  1. scroll=5m表示设置scroll_id保留5分钟可用。
  2. 使用scroll必须要将from设置为0。默认0
  3. size决定后面每次调用_search搜索返回的数量

三、search_after 深分页

scroll 的方式,官方的建议不用于实时的请求(一般用于数据导出),因为每一个 scroll_id 不仅会占用大量的资源,而且会生成历史快照,对于数据的变更不会反映到快照上。

search_after 分页的方式是根据上一页的最后一条数据来确定下一页的位置,同时在分页请求的过程中,如果有索引数据的增删改查,这些变更也会实时的反映到游标上。但是需要注意,因为每一页的数据依赖于上一页最后一条数据,所以无法跳页请求。

为了找到每一页最后一条数据,每个文档必须有一个全局唯一值,官方推荐使用 _uid 作为全局唯一值,其实使用业务层的 id 也可以。

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 20,
 "from": 0,
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}
  1. 使用search_after必须要设置from=0。
  2. 这里我使用timestamp和_id作为唯一值排序。
  3. 我们在返回的最后一条数据里拿到sort属性的值传入到search_after。

使用sort返回的值搜索下一页:

GET test/_search
{
 "query": {
 "bool": {
  "filter": [
  {
   "term": {
   "age": 28
   }
  }
  ]
 }
 },
 "size": 10,
 "from": 0,
 "search_after": [
 1541495312521,
 "d0xH6GYBBtbwbQSP0j1A"
 ],
 "sort": [
 {
  "timestamp": {
  "order": "desc"
  },
  "_id": {
  "order": "desc"
  }
 }
 ]
}

 到此这篇关于python 使用elasticsearch 实现翻页的三种方式的文章就介绍到这了,更多相关python elasticsearch 翻页内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
socket + select 完成伪并发操作的实例
Aug 15 Python
Python数据拟合与广义线性回归算法学习
Dec 22 Python
Python多线程threading和multiprocessing模块实例解析
Jan 29 Python
flask框架实现连接sqlite3数据库的方法分析
Jul 16 Python
Face++ API实现手势识别系统设计
Nov 21 Python
在Python 字典中一键对应多个值的实例
Feb 03 Python
Windows 安装 Anaconda3+PyCharm的方法步骤
Jun 13 Python
python获取Pandas列名的几种方法
Aug 07 Python
关于Python Tkinter Button控件command传参问题的解决方式
Mar 04 Python
python实现最速下降法
Mar 24 Python
python爬取音频下载的示例代码
Oct 19 Python
python单向链表实例详解
May 25 Python
Python爬虫获取豆瓣电影并写入excel
Jul 31 #Python
深入浅析Python代码规范性检测
Jul 31 #Python
python使用Word2Vec进行情感分析解析
Jul 31 #Python
Python爬虫基于lxml解决数据编码乱码问题
Jul 31 #Python
Python如何定义有可选参数的元类
Jul 31 #Python
Python爬虫爬取糗事百科段子实例分享
Jul 31 #Python
Python如何对齐字符串
Jul 30 #Python
You might like
php不使用插件导出excel的简单方法
2014/03/04 PHP
PHP获取youku视频真实flv文件地址的方法
2014/12/23 PHP
phpStudy配置多站点多域名方法及遇到的403错误解决方法
2017/10/19 PHP
Laravel中使用Queue的最基本操作教程
2017/12/27 PHP
基于jquery的网站幻灯片切换效果焦点图代码
2013/09/15 Javascript
使用indexOf等在JavaScript的数组中进行元素查找和替换
2013/09/18 Javascript
jQuery实现单击和鼠标感应事件
2015/02/01 Javascript
jQuery实现仿美橙互联两级导航菜单效果完整实例
2015/09/17 Javascript
node.js require() 源码解读
2015/12/13 Javascript
javascript实现简单的全选和反选功能
2016/01/05 Javascript
Omi v1.0.2发布正式支持传递javascript表达式
2017/03/21 Javascript
Vue.js实现在下拉列表区域外点击即可关闭下拉列表的功能(自定义下拉列表)
2017/05/30 Javascript
微信小程序动态添加分享数据
2017/06/14 Javascript
js实现动态改变radio状态的方法
2018/02/28 Javascript
vue项目在安卓低版本机显示空白的原因分析(两种)
2018/09/04 Javascript
解决vue-cli webpack打包后加载资源的路径问题
2018/09/25 Javascript
VUE实现可随意拖动的弹窗组件
2018/09/25 Javascript
Python备份目录及目录下的全部内容的实现方法
2016/06/12 Python
django 创建过滤器的实例详解
2017/08/14 Python
Python图形绘制操作之正弦曲线实现方法分析
2017/12/25 Python
PyQt5每天必学之组合框
2018/04/20 Python
Python面向对象基础入门之设置对象属性
2018/12/11 Python
Win10用vscode打开anaconda环境中的python出错问题的解决
2020/05/25 Python
浅谈keras中的batch_dot,dot方法和TensorFlow的matmul
2020/06/18 Python
HTML5新增的Css选择器、伪类介绍
2013/08/07 HTML / CSS
html5+css3进度条倒计时动画特效代码【推荐】
2016/03/08 HTML / CSS
Canvas中设置width与height的问题浅析
2018/11/01 HTML / CSS
怎么写好自荐信
2013/10/30 职场文书
个人应聘自我评价分享
2013/11/18 职场文书
英语自荐信常用语句
2013/12/13 职场文书
《桥》教学反思
2014/04/09 职场文书
作风建设演讲稿
2014/05/23 职场文书
2015年度物流工作总结
2015/04/30 职场文书
JavaScript实现显示和隐藏图片
2021/04/29 Javascript
MySQL之MyISAM存储引擎的非聚簇索引详解
2022/03/03 MySQL
PostgreSQL事务回卷实战案例详析
2022/03/25 PostgreSQL