安装ElasticSearch搜索工具并配置Python驱动的方法


Posted in Python onDecember 22, 2015

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
我们建立一个网站或应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是很难的。我们希望我们的搜索解决方案要快,我们希望有一个零配置和一个完全免费的搜索模式,我们希望能够简单地使用JSON通过HTTP的索引数据,我们希望我们的搜索服务器始终可用,我们希望能够一台开始并扩展到数百,我们要实时搜索,我们要简单的多租户,我们希望建立一个云的解决方案。Elasticsearch旨在解决所有这些问题和更多的问题。
Elasticsearch 是开源搜索平台的新成员,实时数据分析的神器,发展迅猛,基于 Lucene、RESTful、分布式、面向云计算设计、实时搜索、全文搜索、稳定、高可靠、可扩展、安装+使用方便,介绍都说的很好听,好不好用拿出来遛一遛。
做了个简单测试,在两台完全一样的虚拟机上,2000万条左右数据,Elasticsearch 插入数据速度比 MongoDB 慢很多(可以忍受),但是搜索/查询速度快10倍以上,这只是单机情况,多机集群情况下 Elasticsearch 表现更好一些。以下安装步骤在 Ubuntu Server 14.04 LTS 上完成。

安装 Elasticsearch
升级系统后安装 Oracle Java 7,既然 Elasticsearch 官方推荐使用 Oracle JDK 7 就不要尝试 JDK 8 和 OpenJDK 了:

$ sudo apt-get update
$ sudo apt-get upgrade
 
$ sudo apt-get install software-properties-common
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
 
$ sudo apt-get install oracle-java7-installer

加入 Elasticsearch 官方源后安装 elasticsearch:

$ wget -O - http://packages.elasticsearch.org/GPG-KEY-elasticsearch | apt-key add -
$ sudo echo "deb http://packages.elasticsearch.org/elasticsearch/1.1/debian stable main" >> /etc/apt/sources.list
 
$ sudo apt-get update
$ sudo apt-get install elasticsearch

加入到系统启动文件并启动 elasticsearch 服务,用 curl 测试一下安装是否成功:

$ sudo update-rc.d elasticsearch defaults 95 1
 
$ sudo /etc/init.d/elasticsearch start
 
$ curl -X GET 'http://localhost:9200'
{
 "status" : 200,
 "name" : "Fer-de-Lance",
 "version" : {
  "number" : "1.1.1",
  "build_hash" : "f1585f096d3f3985e73456debdc1a0745f512bbc",
  "build_timestamp" : "2014-04-16T14:27:12Z",
  "build_snapshot" : false,
  "lucene_version" : "4.7"
 },
 "tagline" : "You Know, for Search"
}

Elasticsearch 的集群和数据管理界面 Marvel 非常赞,可惜只对开发环境免费,如果这个工具也免费就无敌了,安装很简单,完成后重启服务访问 http://192.168.2.172:9200/_plugin/marvel/ 就可以看到界面:

$ sudo /usr/share/elasticsearch/bin/plugin -i elasticsearch/marvel/latest
 
$ sudo /etc/init.d/elasticsearch restart
 * Stopping Elasticsearch Server                      [ OK ]
 * Starting Elasticsearch Server                      [ OK ]

安装ElasticSearch搜索工具并配置Python驱动的方法

安装 Python 客户端驱动
和 MongoDB 一样,我们一般用程序和 Elasticsearch 交互,Elasticsearch 也支持多种语言的客户端驱动,这里仅安装 Python 驱动,其他语言可以参考官方文档。

$ sudo apt-get install python-pip
$ sudo pip install elasticsearch

写个简单程序把 gene_info.txt 的数据导入到 Elasticsearch:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
import os, os.path, sys, re
import csv, time, string
from datetime import datetime
from elasticsearch import Elasticsearch
 
def import_to_db():
  data = csv.reader(open('gene_info.txt', 'rb'), delimiter='\t')
  data.next()
 
  es = Elasticsearch()
  for row in data:
    doc = {
      'tax_id': row[0],
      'GeneID': row[1],
      'Symbol': row[2],
      'LocusTag': row[3],
      'Synonyms': row[4],
      'dbXrefs': row[5],
      'chromosome': row[6],
      'map_location': row[7],
      'description': row[8],
      'type_of_gene': row[9],
      'Symbol_from_nomenclature_authority': row[10],
      'Full_name_from_nomenclature_authority': row[11],
      'Nomenclature_status': row[12],
      'Other_designations': row[13],
      'Modification_date': row[14]
    }
    res = es.index(index="gene", doc_type='gene_info', body=doc)
 
def main():
  import_to_db()
 
if __name__ == "__main__":
  main()

Kibana 是一个功能强大的数据显示客户端,通过插件方式和 Elasticsearch 集成在一起,安装很容易,下载解压就可以了,然后重启 Elasticsearch 服务访问 http://192.168.2.172:9200/_plugin/kibana/ 就能看到界面:

$ wget https://download.elasticsearch.org/kibana/kibana/kibana-3.0.1.tar.gz
$ tar zxvf kibana-3.0.1.tar.gz
$ sudo mv kibana-3.0.1 /usr/share/elasticsearch/plugins/_site
$ sudo /etc/init.d/elasticsearch restart

安装ElasticSearch搜索工具并配置Python驱动的方法

Python 相关文章推荐
python实现JAVA源代码从ANSI到UTF-8的批量转换方法
Aug 10 Python
浅析python递归函数和河内塔问题
Apr 18 Python
Python对CSV、Excel、txt、dat文件的处理
Sep 18 Python
浅谈python脚本设置运行参数的方法
Dec 03 Python
python 检查是否为中文字符串的方法
Dec 28 Python
Python多图片合并PDF的方法
Jan 03 Python
python制作填词游戏步骤详解
May 05 Python
解析python的局部变量和全局变量
Aug 15 Python
python使用sessions模拟登录淘宝的方式
Aug 16 Python
python--shutil移动文件到另一个路径的操作
Jul 13 Python
图解Python中深浅copy(通俗易懂)
Sep 03 Python
Python一些基本的图像操作和处理总结
Jun 23 Python
Python生成随机验证码的两种方法
Dec 22 #Python
基于python实现微信模板消息
Dec 21 #Python
python如何实现远程控制电脑(结合微信)
Dec 21 #Python
python从入门到精通(DAY 3)
Dec 20 #Python
python从入门到精通(DAY 2)
Dec 20 #Python
利用python代码写的12306订票代码
Dec 20 #Python
python从入门到精通(DAY 1)
Dec 20 #Python
You might like
我的论坛源代码(四)
2006/10/09 PHP
一个PHP实现的轻量级简单爬虫
2015/07/08 PHP
PHP chop()函数讲解
2019/02/11 PHP
JSON 学习之完全手册 图文
2007/05/29 Javascript
javascript中的有名函数和无名函数
2007/10/17 Javascript
JavaScript mapreduce工作原理简析
2012/11/25 Javascript
使用JS读取XML文件的方法
2016/11/25 Javascript
关于vue.extend和vue.component的区别浅析
2017/08/16 Javascript
vue 实现类似淘宝星级评分的示例
2018/03/01 Javascript
Vue.js中关于侦听器(watch)的高级用法示例
2018/05/02 Javascript
webpack 样式加载的实现原理
2018/06/12 Javascript
JS实现的全选、全不选及反选功能【案例】
2019/02/19 Javascript
微信小程序关键字变色实现代码实例
2019/12/13 Javascript
[54:08]LGD女子刀塔学院 DOTA2炼金术士教学
2014/01/09 DOTA
[14:20]刀塔大凶女神互压各路奇葩屌丝
2014/05/16 DOTA
[49:20]VG vs TNC Supermajor小组赛B组败者组决赛 BO3 第二场 6.2
2018/06/03 DOTA
python基础教程之lambda表达式使用方法
2014/02/12 Python
python基础教程之元组操作使用详解
2014/03/25 Python
详解Python3.1版本带来的核心变化
2015/04/07 Python
zookeeper python接口实例详解
2018/01/18 Python
对Python 除法负数取商的取整方式详解
2018/12/12 Python
解决在Python编辑器pycharm中程序run正常debug错误的问题
2019/01/17 Python
Python开发网站目录扫描器的实现
2019/02/21 Python
对Pytorch中nn.ModuleList 和 nn.Sequential详解
2019/08/18 Python
PyCharm更改字体和界面样式的方法步骤
2019/09/27 Python
使用PyTorch实现MNIST手写体识别代码
2020/01/18 Python
Python3交互式shell ipython3安装及使用详解
2020/07/11 Python
鼠标滚轮事件和Mac触控板双指事件
2019/12/23 HTML / CSS
ProBikeKit英国:在线公路自行车之家
2017/02/10 全球购物
专科毕业生就业推荐信
2013/11/01 职场文书
三万活动总结
2014/04/28 职场文书
关于环保的建议书
2014/05/12 职场文书
导游词范文
2015/02/13 职场文书
2015年学校党支部工作总结
2015/04/01 职场文书
vue3使用vue-router的完整步骤记录
2021/06/20 Vue.js
Java 在生活中的 10 大应用
2021/11/02 Java/Android