Python实现 多进程导入CSV数据到 MySQL


Posted in Python onFebruary 26, 2017

前段时间帮同事处理了一个把 CSV 数据导入到 MySQL 的需求。两个很大的 CSV 文件, 分别有 3GB、2100 万条记录和 7GB、3500 万条记录。对于这个量级的数据,用简单的单进程/单线程导入 会耗时很久,最终用了多进程的方式来实现。具体过程不赘述,记录一下几个要点:

  1. 批量插入而不是逐条插入
  2. 为了加快插入速度,先不要建索引
  3. 生产者和消费者模型,主进程读文件,多个 worker 进程执行插入
  4. 注意控制 worker 的数量,避免对 MySQL 造成太大的压力
  5. 注意处理脏数据导致的异常
  6. 原始数据是 GBK 编码,所以还要注意转换成 UTF-8
  7. 用 click 封装命令行工具

具体的代码实现如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import codecs
import csv
import logging
import multiprocessing
import os
import warnings

import click
import MySQLdb
import sqlalchemy

warnings.filterwarnings('ignore', category=MySQLdb.Warning)

# 批量插入的记录数量
BATCH = 5000

DB_URI = 'mysql://root@localhost:3306/example?charset=utf8'

engine = sqlalchemy.create_engine(DB_URI)


def get_table_cols(table):
  sql = 'SELECT * FROM `{table}` LIMIT 0'.format(table=table)
  res = engine.execute(sql)
  return res.keys()


def insert_many(table, cols, rows, cursor):
  sql = 'INSERT INTO `{table}` ({cols}) VALUES ({marks})'.format(
      table=table,
      cols=', '.join(cols),
      marks=', '.join(['%s'] * len(cols)))
  cursor.execute(sql, *rows)
  logging.info('process %s inserted %s rows into table %s', os.getpid(), len(rows), table)


def insert_worker(table, cols, queue):
  rows = []
  # 每个子进程创建自己的 engine 对象
  cursor = sqlalchemy.create_engine(DB_URI)
  while True:
    row = queue.get()
    if row is None:
      if rows:
        insert_many(table, cols, rows, cursor)
      break

    rows.append(row)
    if len(rows) == BATCH:
      insert_many(table, cols, rows, cursor)
      rows = []


def insert_parallel(table, reader, w=10):
  cols = get_table_cols(table)

  # 数据队列,主进程读文件并往里写数据,worker 进程从队列读数据
  # 注意一下控制队列的大小,避免消费太慢导致堆积太多数据,占用过多内存
  queue = multiprocessing.Queue(maxsize=w*BATCH*2)
  workers = []
  for i in range(w):
    p = multiprocessing.Process(target=insert_worker, args=(table, cols, queue))
    p.start()
    workers.append(p)
    logging.info('starting # %s worker process, pid: %s...', i + 1, p.pid)

  dirty_data_file = './{}_dirty_rows.csv'.format(table)
  xf = open(dirty_data_file, 'w')
  writer = csv.writer(xf, delimiter=reader.dialect.delimiter)

  for line in reader:
    # 记录并跳过脏数据: 键值数量不一致
    if len(line) != len(cols):
      writer.writerow(line)
      continue

    # 把 None 值替换为 'NULL'
    clean_line = [None if x == 'NULL' else x for x in line]

    # 往队列里写数据
    queue.put(tuple(clean_line))
    if reader.line_num % 500000 == 0:
      logging.info('put %s tasks into queue.', reader.line_num)

  xf.close()

  # 给每个 worker 发送任务结束的信号
  logging.info('send close signal to worker processes')
  for i in range(w):
    queue.put(None)

  for p in workers:
    p.join()


def convert_file_to_utf8(f, rv_file=None):
  if not rv_file:
    name, ext = os.path.splitext(f)
    if isinstance(name, unicode):
      name = name.encode('utf8')
    rv_file = '{}_utf8{}'.format(name, ext)
  logging.info('start to process file %s', f)
  with open(f) as infd:
    with open(rv_file, 'w') as outfd:
      lines = []
      loop = 0
      chunck = 200000
      first_line = infd.readline().strip(codecs.BOM_UTF8).strip() + '\n'
      lines.append(first_line)
      for line in infd:
        clean_line = line.decode('gb18030').encode('utf8')
        clean_line = clean_line.rstrip() + '\n'
        lines.append(clean_line)
        if len(lines) == chunck:
          outfd.writelines(lines)
          lines = []
          loop += 1
          logging.info('processed %s lines.', loop * chunck)

      outfd.writelines(lines)
      logging.info('processed %s lines.', loop * chunck + len(lines))


@click.group()
def cli():
  logging.basicConfig(level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(name)s - %(message)s')


@cli.command('gbk_to_utf8')
@click.argument('f')
def convert_gbk_to_utf8(f):
  convert_file_to_utf8(f)


@cli.command('load')
@click.option('-t', '--table', required=True, help='表名')
@click.option('-i', '--filename', required=True, help='输入文件')
@click.option('-w', '--workers', default=10, help='worker 数量,默认 10')
def load_fac_day_pro_nos_sal_table(table, filename, workers):
  with open(filename) as fd:
    fd.readline()  # skip header
    reader = csv.reader(fd)
    insert_parallel(table, reader, w=workers)


if __name__ == '__main__':
  cli()

以上就是本文给大家分享的全部没人了,希望大家能够喜欢

Python 相关文章推荐
python在Windows下安装setuptools(easy_install工具)步骤详解
Jul 01 Python
Python爬虫通过替换http request header来欺骗浏览器实现登录功能
Jan 07 Python
python实现数据写入excel表格
Mar 25 Python
Python实现合并两个列表的方法分析
May 28 Python
python topN 取最大的N个数或最小的N个数方法
Jun 04 Python
用于业余项目的8个优秀Python库
Sep 21 Python
解析Python的缩进规则的使用
Jan 16 Python
Pandas中resample方法详解
Jul 02 Python
python如何实现数据的线性拟合
Jul 19 Python
通过自学python能找到工作吗
Jun 21 Python
python实现将中文日期转换为数字日期
Jul 14 Python
Python实现信息轰炸工具(再也不怕说不过别人了)
Jun 11 Python
python检查URL是否正常访问的小技巧
Feb 25 #Python
python解析基于xml格式的日志文件
Feb 25 #Python
Python中防止sql注入的方法详解
Feb 25 #Python
Python 数据结构之旋转链表
Feb 25 #Python
Python数据结构之翻转链表
Feb 25 #Python
浅析python中SQLAlchemy排序的一个坑
Feb 24 #Python
python函数的5种参数详解
Feb 24 #Python
You might like
php 使用GD库为页面增加水印示例代码
2014/03/24 PHP
PHP函数http_build_query使用详解
2014/08/20 PHP
php如何实现只替换一次或N次
2015/10/29 PHP
阿里云Win2016安装Apache和PHP环境图文教程
2018/03/11 PHP
thinkphp框架使用JWTtoken的方法详解
2019/10/10 PHP
php设计模式之策略模式实例分析【星际争霸游戏案例】
2020/03/26 PHP
php实现的证件照换底色功能示例【人像抠图/换背景图】
2020/05/29 PHP
PHP中->和=>的含义及使用示例解析
2020/08/06 PHP
用JQuery调用Session的实现代码
2010/10/29 Javascript
Javascript模块化编程(一)模块的写法最佳实践
2013/01/17 Javascript
jquery实现侧边弹出的垂直导航
2014/12/09 Javascript
thinkphp 表名 大小写 窍门
2015/02/01 Javascript
JS实现点击按钮自动增加一个单元格的方法
2015/03/09 Javascript
一道优雅面试题分析js中fn()和return fn()的区别
2016/07/05 Javascript
针对BootStrap中tabs控件的美化和完善(推荐)
2016/07/06 Javascript
移动端效果之Swiper详解
2017/10/09 Javascript
vue router demo详解
2017/10/13 Javascript
nodejs微信开发之授权登录+获取用户信息
2019/03/17 NodeJs
JS简易计算器实例讲解
2020/06/30 Javascript
vue使用vant中的checkbox实现全选功能
2020/11/17 Vue.js
Python多线程结合队列下载百度音乐的方法
2015/07/27 Python
浅谈python中的数字类型与处理工具
2017/08/02 Python
Python 关于反射和类的特殊成员方法
2017/09/14 Python
Python虚拟环境的原理及使用详解
2019/07/02 Python
python中的colorlog库使用详解
2019/07/05 Python
python实现基于朴素贝叶斯的垃圾分类算法
2019/07/09 Python
python实现梯度下降法
2020/03/24 Python
Python如何创建装饰器时保留函数元信息
2020/08/07 Python
销售主管的自我评价分享
2014/01/03 职场文书
省级优秀班集体申报材料
2014/05/25 职场文书
人身损害赔偿协议书范本
2014/09/27 职场文书
整改落实自查报告
2014/11/05 职场文书
优秀志愿者感言
2015/08/01 职场文书
幼儿园老师新年寄语
2015/08/17 职场文书
汉语拼音教学反思
2016/02/22 职场文书
Angular CLI发布路径的配置项浅析
2021/03/29 Javascript