使用Python操作Elasticsearch数据索引的教程


Posted in Python onApril 08, 2015

Elasticsearch是一个分布式、Restful的搜索及分析服务器,Apache Solr一样,它也是基于Lucence的索引服务器,但我认为Elasticsearch对比Solr的优点在于:

  •     轻量级:安装启动方便,下载文件之后一条命令就可以启动;
  •     Schema free:可以向服务器提交任意结构的JSON对象,Solr中使用schema.xml指定了索引结构;
  •     多索引文件支持:使用不同的index参数就能创建另一个索引文件,Solr中需要另行配置;
  •     分布式:Solr Cloud的配置比较复杂。

环境搭建

启动Elasticsearch,访问端口在9200,通过浏览器可以查看到返回的JSON数据,Elasticsearch提交和返回的数据格式都是JSON.

>> bin/elasticsearch -f

安装官方提供的Python API,在OS X上安装后出现一些Python运行错误,是因为setuptools版本太旧引起的,删除重装后恢复正常。

>> pip install elasticsearch

索引操作

对于单条索引,可以调用create或index方法。

from datetime import datetime
from elasticsearch import Elasticsearch
es = Elasticsearch() #create a localhost server connection, or Elasticsearch("ip")
es.create(index="test-index", doc_type="test-type", id=1,
  body={"any":"data", "timestamp": datetime.now()})

Elasticsearch批量索引的命令是bulk,目前Python API的文档示例较少,花了不少时间阅读源代码才弄清楚批量索引的提交格式。

from datetime import datetime
from elasticsearch import Elasticsearch
from elasticsearch import helpers
es = Elasticsearch("10.18.13.3")
j = 0
count = int(df[0].count())
actions = []
while (j < count):
   action = {
        "_index": "tickets-index",
        "_type": "tickets",
        "_id": j + 1,
        "_source": {
              "crawaldate":df[0][j],
              "flight":df[1][j],
              "price":float(df[2][j]),
              "discount":float(df[3][j]),
              "date":df[4][j],
              "takeoff":df[5][j],
              "land":df[6][j],
              "source":df[7][j],
              "timestamp": datetime.now()}
        }
  actions.append(action)
  j += 1

  if (len(actions) == 500000):
    helpers.bulk(es, actions)
    del actions[0:len(actions)]

if (len(actions) > 0):
  helpers.bulk(es, actions)
  del actions[0:len(actions)]

在这里发现Python API序列化JSON时对数据类型支撑比较有限,原始数据使用的NumPy.Int32必须转换为int才能索引。此外,现在的bulk操作默认是每次提交500条数据,我修改为5000甚至50000进行测试,会有索引不成功的情况。

#helpers.py source code
def streaming_bulk(client, actions, chunk_size=500, raise_on_error=False,
    expand_action_callback=expand_action, **kwargs):
  actions = map(expand_action_callback, actions)

  # if raise on error is set, we need to collect errors per chunk before raising them
  errors = []

  while True:
    chunk = islice(actions, chunk_size)
    bulk_actions = []
    for action, data in chunk:
      bulk_actions.append(action)
      if data is not None:
        bulk_actions.append(data)

    if not bulk_actions:
      return

def bulk(client, actions, stats_only=False, **kwargs):
  success, failed = 0, 0

  # list of errors to be collected is not stats_only
  errors = []

  for ok, item in streaming_bulk(client, actions, **kwargs):
    # go through request-reponse pairs and detect failures
    if not ok:
      if not stats_only:
        errors.append(item)
      failed += 1
    else:
      success += 1

  return success, failed if stats_only else errors

对于索引的批量删除和更新操作,对应的文档格式如下,更新文档中的doc节点是必须的。

{
  '_op_type': 'delete',
  '_index': 'index-name',
  '_type': 'document',
  '_id': 42,
}
{
  '_op_type': 'update',
  '_index': 'index-name',
  '_type': 'document',
  '_id': 42,
  'doc': {'question': 'The life, universe and everything.'}
}

常见错误

  •     SerializationError:JSON数据序列化出错,通常是因为不支持某个节点值的数据类型
  •     RequestError:提交数据格式不正确
  •     ConflictError:索引ID冲突
  •     TransportError:连接无法建立

性能

使用Python操作Elasticsearch数据索引的教程

上面是使用MongoDB和Elasticsearch存储相同数据的对比,虽然服务器和操作方式都不完全相同,但可以看出数据库对批量写入还是比索引服务器更具备优势。

Elasticsearch的索引文件是自动分块,达到千万级数据对写入速度也没有影响。但在达到磁盘空间上限时,Elasticsearch出现了文件合并错误,并且大量丢失数据(共丢了100多万条),停止客户端写入后,服务器也无法自动恢复,必须手动停止。在生产环境中这点比较致命,尤其是使用非Java客户端,似乎无法在客户端获取到服务端的Java异常,这使得程序员必须很小心地处理服务端的返回信息。

Python 相关文章推荐
Python实现的检测web服务器健康状况的小程序
Sep 17 Python
python实现简单的计时器功能函数
Mar 14 Python
python访问系统环境变量的方法
Apr 29 Python
利用Python实现Windows定时关机功能
Mar 21 Python
python处理Excel xlrd的简单使用
Sep 12 Python
如何在python中使用selenium的示例
Dec 26 Python
详解Python 协程的详细用法使用和例子
Jun 15 Python
Python turtle画图库&amp;&amp;画姓名实例
Jan 19 Python
Python 实现一行输入多个数字(用空格隔开)
Apr 29 Python
pytorch中 gpu与gpu、gpu与cpu 在load时相互转化操作
May 25 Python
Django通过设置CORS解决跨域问题
Nov 26 Python
pytorch实现线性回归以及多元回归
Apr 11 Python
用Python实现协同过滤的教程
Apr 08 #Python
在Python中调用ggplot的三种方法
Apr 08 #Python
Python字符串和文件操作常用函数分析
Apr 08 #Python
Python遍历zip文件输出名称时出现乱码问题的解决方法
Apr 08 #Python
python smtplib模块发送SSL/TLS安全邮件实例
Apr 08 #Python
python复制与引用用法分析
Apr 08 #Python
Python导入txt数据到mysql的方法
Apr 08 #Python
You might like
使用 eAccelerator加速PHP代码的目的
2007/03/16 PHP
php中使用addslashes函数报错问题的解决方法
2013/02/06 PHP
ThinkPHP3.1新特性之动态设置自动完成和自动验证示例
2014/06/19 PHP
thinkPHP自动验证、自动添加及表单错误问题分析
2016/10/17 PHP
document.getElementById为空或不是对象的解决方法
2010/01/24 Javascript
jQuery建立一个按字母顺序排列的友好页面索引(兼容IE6/7/8)
2013/02/26 Javascript
jquery插件推荐 jquery.cookie
2014/11/09 Javascript
优化RequireJS项目的相关技巧总结
2015/07/01 Javascript
javascript数据结构之双链表插入排序实例详解
2015/11/25 Javascript
使用开源工具制作网页验证码的方法
2016/10/17 Javascript
vue-router路由懒加载和权限控制详解
2017/12/13 Javascript
浅谈vue-router 路由传参的方法
2017/12/27 Javascript
Vue-cli配置打包文件本地使用的教程图解
2018/08/02 Javascript
JavaScript中CreateTextFile函数
2020/08/30 Javascript
[41:52]2018DOTA2亚洲邀请赛3月29日小组赛B组Effect VS Secret
2018/03/30 DOTA
python文件读写操作与linux shell变量命令交互执行的方法
2015/01/14 Python
Python类属性的延迟计算
2016/10/22 Python
Python中sort和sorted函数代码解析
2018/01/25 Python
Python爬虫设置代理IP的方法(爬虫技巧)
2018/03/04 Python
python使用opencv resize图像不进行插值的操作
2020/07/05 Python
CSS3实战第一波 让我们尽情的圆角吧
2010/08/27 HTML / CSS
萨克斯第五大道的折扣店:Saks Fifth Avenue OFF 5TH
2016/08/25 全球购物
利用指针变量实现队列的入队操作
2012/04/07 面试题
Linux如何为某个操作添加别名
2015/02/05 面试题
纺织工程专业个人求职信范文
2014/01/27 职场文书
五好关工委申报材料
2014/05/31 职场文书
国庆横幅标语
2014/10/08 职场文书
市委常委会班子党的群众路线教育实践活动整改方案
2014/10/25 职场文书
酒店前台辞职书
2015/02/26 职场文书
专业技术职务聘任证明
2015/03/02 职场文书
在职证明格式样本
2015/06/15 职场文书
2016新年年会主持词
2015/07/06 职场文书
安全温馨提示语大全
2015/07/14 职场文书
导游词之苏州盘门景区
2019/11/12 职场文书
使用Djongo模块在Django中使用MongoDB数据库
2021/06/20 Python
Java如何实现通过键盘输入一个数组
2022/02/15 Java/Android