Python实现 多进程导入CSV数据到 MySQL


Posted in Python onFebruary 26, 2017

前段时间帮同事处理了一个把 CSV 数据导入到 MySQL 的需求。两个很大的 CSV 文件, 分别有 3GB、2100 万条记录和 7GB、3500 万条记录。对于这个量级的数据,用简单的单进程/单线程导入 会耗时很久,最终用了多进程的方式来实现。具体过程不赘述,记录一下几个要点:

  1. 批量插入而不是逐条插入
  2. 为了加快插入速度,先不要建索引
  3. 生产者和消费者模型,主进程读文件,多个 worker 进程执行插入
  4. 注意控制 worker 的数量,避免对 MySQL 造成太大的压力
  5. 注意处理脏数据导致的异常
  6. 原始数据是 GBK 编码,所以还要注意转换成 UTF-8
  7. 用 click 封装命令行工具

具体的代码实现如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import codecs
import csv
import logging
import multiprocessing
import os
import warnings

import click
import MySQLdb
import sqlalchemy

warnings.filterwarnings('ignore', category=MySQLdb.Warning)

# 批量插入的记录数量
BATCH = 5000

DB_URI = 'mysql://root@localhost:3306/example?charset=utf8'

engine = sqlalchemy.create_engine(DB_URI)


def get_table_cols(table):
  sql = 'SELECT * FROM `{table}` LIMIT 0'.format(table=table)
  res = engine.execute(sql)
  return res.keys()


def insert_many(table, cols, rows, cursor):
  sql = 'INSERT INTO `{table}` ({cols}) VALUES ({marks})'.format(
      table=table,
      cols=', '.join(cols),
      marks=', '.join(['%s'] * len(cols)))
  cursor.execute(sql, *rows)
  logging.info('process %s inserted %s rows into table %s', os.getpid(), len(rows), table)


def insert_worker(table, cols, queue):
  rows = []
  # 每个子进程创建自己的 engine 对象
  cursor = sqlalchemy.create_engine(DB_URI)
  while True:
    row = queue.get()
    if row is None:
      if rows:
        insert_many(table, cols, rows, cursor)
      break

    rows.append(row)
    if len(rows) == BATCH:
      insert_many(table, cols, rows, cursor)
      rows = []


def insert_parallel(table, reader, w=10):
  cols = get_table_cols(table)

  # 数据队列,主进程读文件并往里写数据,worker 进程从队列读数据
  # 注意一下控制队列的大小,避免消费太慢导致堆积太多数据,占用过多内存
  queue = multiprocessing.Queue(maxsize=w*BATCH*2)
  workers = []
  for i in range(w):
    p = multiprocessing.Process(target=insert_worker, args=(table, cols, queue))
    p.start()
    workers.append(p)
    logging.info('starting # %s worker process, pid: %s...', i + 1, p.pid)

  dirty_data_file = './{}_dirty_rows.csv'.format(table)
  xf = open(dirty_data_file, 'w')
  writer = csv.writer(xf, delimiter=reader.dialect.delimiter)

  for line in reader:
    # 记录并跳过脏数据: 键值数量不一致
    if len(line) != len(cols):
      writer.writerow(line)
      continue

    # 把 None 值替换为 'NULL'
    clean_line = [None if x == 'NULL' else x for x in line]

    # 往队列里写数据
    queue.put(tuple(clean_line))
    if reader.line_num % 500000 == 0:
      logging.info('put %s tasks into queue.', reader.line_num)

  xf.close()

  # 给每个 worker 发送任务结束的信号
  logging.info('send close signal to worker processes')
  for i in range(w):
    queue.put(None)

  for p in workers:
    p.join()


def convert_file_to_utf8(f, rv_file=None):
  if not rv_file:
    name, ext = os.path.splitext(f)
    if isinstance(name, unicode):
      name = name.encode('utf8')
    rv_file = '{}_utf8{}'.format(name, ext)
  logging.info('start to process file %s', f)
  with open(f) as infd:
    with open(rv_file, 'w') as outfd:
      lines = []
      loop = 0
      chunck = 200000
      first_line = infd.readline().strip(codecs.BOM_UTF8).strip() + '\n'
      lines.append(first_line)
      for line in infd:
        clean_line = line.decode('gb18030').encode('utf8')
        clean_line = clean_line.rstrip() + '\n'
        lines.append(clean_line)
        if len(lines) == chunck:
          outfd.writelines(lines)
          lines = []
          loop += 1
          logging.info('processed %s lines.', loop * chunck)

      outfd.writelines(lines)
      logging.info('processed %s lines.', loop * chunck + len(lines))


@click.group()
def cli():
  logging.basicConfig(level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(name)s - %(message)s')


@cli.command('gbk_to_utf8')
@click.argument('f')
def convert_gbk_to_utf8(f):
  convert_file_to_utf8(f)


@cli.command('load')
@click.option('-t', '--table', required=True, help='表名')
@click.option('-i', '--filename', required=True, help='输入文件')
@click.option('-w', '--workers', default=10, help='worker 数量,默认 10')
def load_fac_day_pro_nos_sal_table(table, filename, workers):
  with open(filename) as fd:
    fd.readline()  # skip header
    reader = csv.reader(fd)
    insert_parallel(table, reader, w=workers)


if __name__ == '__main__':
  cli()

以上就是本文给大家分享的全部没人了,希望大家能够喜欢

Python 相关文章推荐
python中日期和时间格式化输出的方法小结
Mar 19 Python
Python编程给numpy矩阵添加一列方法示例
Dec 04 Python
python爬虫爬取淘宝商品信息
Feb 23 Python
python实现屏保计时器的示例代码
Aug 08 Python
python 自动重连wifi windows的方法
Dec 18 Python
Pandas之Dropna滤除缺失数据的实现方法
Jun 25 Python
python删除文件夹下相同文件和无法打开的图片
Jul 16 Python
Python 3 判断2个字典相同
Aug 06 Python
Python hashlib模块实例使用详解
Dec 24 Python
解决Tensorflow sess.run导致的内存溢出问题
Feb 05 Python
opencv python 图片读取与显示图片窗口未响应问题的解决
Apr 24 Python
scrapy框架携带cookie访问淘宝购物车功能的实现代码
Jul 07 Python
python检查URL是否正常访问的小技巧
Feb 25 #Python
python解析基于xml格式的日志文件
Feb 25 #Python
Python中防止sql注入的方法详解
Feb 25 #Python
Python 数据结构之旋转链表
Feb 25 #Python
Python数据结构之翻转链表
Feb 25 #Python
浅析python中SQLAlchemy排序的一个坑
Feb 24 #Python
python函数的5种参数详解
Feb 24 #Python
You might like
骨王战斗力在公会成员中排不进前五,却当选了会长,原因竟是这样
2020/03/02 日漫
深入PHP许愿墙模块功能分析
2013/06/25 PHP
Symfony的安装和配置方法
2016/03/17 PHP
greybox——不开新窗口看新的网页
2007/02/20 Javascript
JavaScript 图像动画的小demo
2012/05/23 Javascript
只需一行代码,轻松实现一个在线编辑器
2013/11/12 Javascript
JS获取url链接字符串 location.href
2013/12/23 Javascript
点击弹出层效果&弹出窗口后网页背景变暗效果的实现代码
2014/02/10 Javascript
jquery列表拖动排列(由项目提取相当好用)
2014/06/17 Javascript
详谈表单重复提交的三种情况及解决方法
2017/08/16 Javascript
JS加密插件CryptoJS实现的DES加密示例
2018/08/16 Javascript
nvm、nrm、npm 安装和使用详解(小结)
2019/01/17 Javascript
[02:44]DOTA2英雄基础教程 钢背兽
2013/12/19 DOTA
浅析Python中的多重继承
2015/04/28 Python
在Python中定义和使用抽象类的方法
2016/06/30 Python
利用python的socket发送http(s)请求方法示例
2018/05/07 Python
对Python中for复合语句的使用示例讲解
2018/11/01 Python
Django跨域请求CSRF的方法示例
2018/11/11 Python
Python常见读写文件操作实例总结【文本、json、csv、pdf等】
2019/04/15 Python
浅谈python多进程共享变量Value的使用tips
2019/07/16 Python
手动安装python3.6的操作过程详解
2020/01/13 Python
keras模型可视化,层可视化及kernel可视化实例
2020/01/24 Python
pyMySQL SQL语句传参问题,单个参数或多个参数说明
2020/06/06 Python
Python使用socket_TCP实现小文件下载功能
2020/10/09 Python
Grid 宫格常用布局的实现
2020/01/10 HTML / CSS
HTML5实现获取地理位置信息并定位功能
2015/04/25 HTML / CSS
法国房车租赁网站:Yescapa
2019/08/26 全球购物
衰败城市英国官网:Urban Decay英国
2020/04/29 全球购物
描述一下JVM加载class文件的原理机制
2013/12/08 面试题
介绍一下linux的文件权限
2014/07/20 面试题
机械专业应届生求职信
2013/09/21 职场文书
大学生求职自荐信
2013/12/12 职场文书
小学毕业感言150字
2014/02/05 职场文书
《路旁的橡树》教学反思
2014/04/07 职场文书
我与祖国共奋进演讲稿
2014/09/13 职场文书
2015年中秋节活动总结
2015/03/23 职场文书