Python实现 多进程导入CSV数据到 MySQL


Posted in Python onFebruary 26, 2017

前段时间帮同事处理了一个把 CSV 数据导入到 MySQL 的需求。两个很大的 CSV 文件, 分别有 3GB、2100 万条记录和 7GB、3500 万条记录。对于这个量级的数据,用简单的单进程/单线程导入 会耗时很久,最终用了多进程的方式来实现。具体过程不赘述,记录一下几个要点:

  1. 批量插入而不是逐条插入
  2. 为了加快插入速度,先不要建索引
  3. 生产者和消费者模型,主进程读文件,多个 worker 进程执行插入
  4. 注意控制 worker 的数量,避免对 MySQL 造成太大的压力
  5. 注意处理脏数据导致的异常
  6. 原始数据是 GBK 编码,所以还要注意转换成 UTF-8
  7. 用 click 封装命令行工具

具体的代码实现如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import codecs
import csv
import logging
import multiprocessing
import os
import warnings

import click
import MySQLdb
import sqlalchemy

warnings.filterwarnings('ignore', category=MySQLdb.Warning)

# 批量插入的记录数量
BATCH = 5000

DB_URI = 'mysql://root@localhost:3306/example?charset=utf8'

engine = sqlalchemy.create_engine(DB_URI)


def get_table_cols(table):
  sql = 'SELECT * FROM `{table}` LIMIT 0'.format(table=table)
  res = engine.execute(sql)
  return res.keys()


def insert_many(table, cols, rows, cursor):
  sql = 'INSERT INTO `{table}` ({cols}) VALUES ({marks})'.format(
      table=table,
      cols=', '.join(cols),
      marks=', '.join(['%s'] * len(cols)))
  cursor.execute(sql, *rows)
  logging.info('process %s inserted %s rows into table %s', os.getpid(), len(rows), table)


def insert_worker(table, cols, queue):
  rows = []
  # 每个子进程创建自己的 engine 对象
  cursor = sqlalchemy.create_engine(DB_URI)
  while True:
    row = queue.get()
    if row is None:
      if rows:
        insert_many(table, cols, rows, cursor)
      break

    rows.append(row)
    if len(rows) == BATCH:
      insert_many(table, cols, rows, cursor)
      rows = []


def insert_parallel(table, reader, w=10):
  cols = get_table_cols(table)

  # 数据队列,主进程读文件并往里写数据,worker 进程从队列读数据
  # 注意一下控制队列的大小,避免消费太慢导致堆积太多数据,占用过多内存
  queue = multiprocessing.Queue(maxsize=w*BATCH*2)
  workers = []
  for i in range(w):
    p = multiprocessing.Process(target=insert_worker, args=(table, cols, queue))
    p.start()
    workers.append(p)
    logging.info('starting # %s worker process, pid: %s...', i + 1, p.pid)

  dirty_data_file = './{}_dirty_rows.csv'.format(table)
  xf = open(dirty_data_file, 'w')
  writer = csv.writer(xf, delimiter=reader.dialect.delimiter)

  for line in reader:
    # 记录并跳过脏数据: 键值数量不一致
    if len(line) != len(cols):
      writer.writerow(line)
      continue

    # 把 None 值替换为 'NULL'
    clean_line = [None if x == 'NULL' else x for x in line]

    # 往队列里写数据
    queue.put(tuple(clean_line))
    if reader.line_num % 500000 == 0:
      logging.info('put %s tasks into queue.', reader.line_num)

  xf.close()

  # 给每个 worker 发送任务结束的信号
  logging.info('send close signal to worker processes')
  for i in range(w):
    queue.put(None)

  for p in workers:
    p.join()


def convert_file_to_utf8(f, rv_file=None):
  if not rv_file:
    name, ext = os.path.splitext(f)
    if isinstance(name, unicode):
      name = name.encode('utf8')
    rv_file = '{}_utf8{}'.format(name, ext)
  logging.info('start to process file %s', f)
  with open(f) as infd:
    with open(rv_file, 'w') as outfd:
      lines = []
      loop = 0
      chunck = 200000
      first_line = infd.readline().strip(codecs.BOM_UTF8).strip() + '\n'
      lines.append(first_line)
      for line in infd:
        clean_line = line.decode('gb18030').encode('utf8')
        clean_line = clean_line.rstrip() + '\n'
        lines.append(clean_line)
        if len(lines) == chunck:
          outfd.writelines(lines)
          lines = []
          loop += 1
          logging.info('processed %s lines.', loop * chunck)

      outfd.writelines(lines)
      logging.info('processed %s lines.', loop * chunck + len(lines))


@click.group()
def cli():
  logging.basicConfig(level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(name)s - %(message)s')


@cli.command('gbk_to_utf8')
@click.argument('f')
def convert_gbk_to_utf8(f):
  convert_file_to_utf8(f)


@cli.command('load')
@click.option('-t', '--table', required=True, help='表名')
@click.option('-i', '--filename', required=True, help='输入文件')
@click.option('-w', '--workers', default=10, help='worker 数量,默认 10')
def load_fac_day_pro_nos_sal_table(table, filename, workers):
  with open(filename) as fd:
    fd.readline()  # skip header
    reader = csv.reader(fd)
    insert_parallel(table, reader, w=workers)


if __name__ == '__main__':
  cli()

以上就是本文给大家分享的全部没人了,希望大家能够喜欢

Python 相关文章推荐
python生成器的使用方法
Nov 21 Python
Windows系统下使用flup搭建Nginx和Python环境的方法
Dec 25 Python
详解python如何调用C/C++底层库与互相传值
Aug 10 Python
一道python走迷宫算法题
Jan 22 Python
Python实现PS图像调整黑白效果示例
Jan 25 Python
python 删除非空文件夹的实例
Apr 26 Python
对python 操作solr索引数据的实例详解
Dec 07 Python
python判断文件夹内是否存在指定后缀文件的实例
Jun 10 Python
django连接mysql数据库及建表操作实例详解
Dec 10 Python
python FTP批量下载/删除/上传实例
Dec 22 Python
Python tkinter常用操作代码实例
Jan 03 Python
pandas抽取行列数据的几种方法
Dec 13 Python
python检查URL是否正常访问的小技巧
Feb 25 #Python
python解析基于xml格式的日志文件
Feb 25 #Python
Python中防止sql注入的方法详解
Feb 25 #Python
Python 数据结构之旋转链表
Feb 25 #Python
Python数据结构之翻转链表
Feb 25 #Python
浅析python中SQLAlchemy排序的一个坑
Feb 24 #Python
python函数的5种参数详解
Feb 24 #Python
You might like
thinkPHP利用ajax异步上传图片并显示、删除的示例
2018/09/26 PHP
PHP迭代器和生成器用法实例分析
2019/09/28 PHP
php 使用html5 XHR2实现上传文件与进度显示功能示例
2020/03/03 PHP
PHP7 标准库修改
2021/03/09 PHP
js将字符串转成正则表达式的实现方法
2013/11/13 Javascript
Jquery 实现grid绑定模板
2015/01/28 Javascript
jQuery实现数秒后自动提交form的方法
2015/03/05 Javascript
JavaScript表格常用操作方法汇总
2015/04/15 Javascript
javascript中返回顶部按钮的实现
2015/05/05 Javascript
jQuery实现带动画效果的多级下拉菜单代码
2015/09/08 Javascript
js剪切板应用clipboardData实例解析
2016/05/29 Javascript
浅谈js构造函数的方法与原型prototype
2016/07/04 Javascript
Angularjs 设置全局变量的方法总结
2016/10/20 Javascript
如何使用Vuex+Vue.js构建单页应用
2016/10/27 Javascript
简单谈谈CommonsChunkPlugin抽取公共模块
2017/12/31 Javascript
Angular 开发学习之Angular CLI的安装使用
2017/12/31 Javascript
Vue实现导航栏点击当前标签变色功能
2020/08/19 Javascript
ES10的13个新特性示例(小结)
2019/09/23 Javascript
使用PDB模式调试Python程序介绍
2015/04/05 Python
Python编程实现输入某年某月某日计算出这一天是该年第几天的方法
2017/04/18 Python
Python探索之Metaclass初步了解
2017/10/28 Python
机器学习python实战之手写数字识别
2017/11/01 Python
Django 导出项目依赖库到 requirements.txt过程解析
2019/08/23 Python
Pytorch 数据加载与数据预处理方式
2019/12/31 Python
numpy的Fancy Indexing和array比较详解
2020/06/11 Python
Python venv虚拟环境配置过程解析
2020/07/08 Python
lululemon美国官网:瑜伽服+跑步装备
2018/11/16 全球购物
十佳美德少年事迹材料
2014/02/05 职场文书
腾讯广告词
2014/03/19 职场文书
婚前保证书
2014/04/29 职场文书
2014年大学宣传部工作总结
2014/12/19 职场文书
前台文员岗位职责
2015/02/04 职场文书
爱心募捐通知范文
2015/04/27 职场文书
golang中切片copy复制和等号复制的区别介绍
2021/04/27 Golang
Mysql分库分表之后主键处理的几种方法
2022/02/15 MySQL
源码分析Redis中 set 和 sorted set 的使用方法
2022/03/22 Redis