使用python进行拆分大文件的方法


Posted in Python onDecember 10, 2018

python按指定行数把大文件进行拆分

如图大文件有7000多万行,大小为16G

使用python进行拆分大文件的方法

需要拆分成多个200万行的小文件

代码如下:

# -*- coding:utf-8 -*-
from datetime import datetime
 
def Main():
 source_dir = '/data/u_lx_data/zhangqm/sh/yanjie/liuxuesheng/jz_yuanshi_list0206.txt'
 target_dir = '/data/u_lx_data/zhangqm/sh/yanjie/liuxuesheng/split/'
 
 # 计数器
 flag = 0
 
 # 文件名
 name = 1
 
 # 存放数据
 dataList = []
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(source_dir,'r') as f_source:
  for line in f_source:
   flag+=1
   dataList.append(line)
   if flag == 2000000:
    with open(target_dir+"jz_yuanshi_list_"+str(name)+".txt",'w+') as f_target:
     for data in dataList:
      f_target.write(data)
    name+=1
    flag = 0
    dataList = []
    
 # 处理最后一批行数少于200万行的
 with open(target_dir+"jz_yuanshi_list_"+str(name)+".txt",'w+') as f_target:
  for data in dataList:
   f_target.write(data)
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
if __name__ == "__main__":
 Main()

结果如下:

使用python进行拆分大文件的方法

总共产生39个文件,最后一个文件行数760821,这样就OK啦

经测试16G文件所需时间如图:不到两分钟

使用python进行拆分大文件的方法

以上这篇使用python进行拆分大文件的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python time模块详解(常用函数实例讲解,非常好)
Apr 24 Python
python实现的生成随机迷宫算法核心代码分享(含游戏完整代码)
Jul 11 Python
浅谈Python处理PDF的方法
Nov 10 Python
Python及Django框架生成二维码的方法分析
Jan 31 Python
利用Python将文本中的中英文分离方法
Oct 31 Python
Python 绘制酷炫的三维图步骤详解
Jul 12 Python
Python之——生成动态路由轨迹图的实例
Nov 22 Python
Python要如何实现列表排序的几种方法
Feb 21 Python
Django Admin后台添加数据库视图过程解析
Apr 01 Python
Tensorflow中k.gradients()和tf.stop_gradient()用法说明
Jun 10 Python
一些关于python 装饰器的个人理解
Aug 31 Python
Python中三维坐标空间绘制的实现
Sep 22 Python
python使用udp实现聊天器功能
Dec 10 #Python
Python面向对象之类和对象实例详解
Dec 10 #Python
详解Django-auth-ldap 配置方法
Dec 10 #Python
Python网页正文转换语音文件的操作方法
Dec 09 #Python
python 使用 requests 模块发送http请求 的方法
Dec 09 #Python
Python实现八皇后问题示例代码
Dec 09 #Python
python中的tcp示例详解
Dec 09 #Python
You might like
PHP中遇到的时区问题解决方法
2015/07/23 PHP
PHP 结合 Boostrap 结合 js 实现学生列表删除编辑及搜索功能
2019/05/21 PHP
js 加载并解析XML字符串的代码
2009/12/13 Javascript
21个值得收藏的Javascript技巧
2014/02/04 Javascript
javascript中style.left和offsetLeft的用法说明
2014/03/07 Javascript
JavaScript实现简单图片滚动附源码下载
2014/06/17 Javascript
用C/C++来实现 Node.js 的模块(二)
2014/09/24 Javascript
js实现从数组里随机获取元素
2015/01/12 Javascript
js打造数组转json函数
2015/01/14 Javascript
浅谈JavaScript的Polymer框架中的behaviors对象
2015/07/29 Javascript
简单的js计算器实现
2016/10/26 Javascript
微信小程序 地图(map)实例详解
2016/11/16 Javascript
DOM 事件的深入浅出(二)
2016/12/05 Javascript
BootStrap fileinput.js文件上传组件实例代码
2017/02/20 Javascript
详解VueJs前后端分离跨域问题
2017/05/24 Javascript
Ionic项目中Native Camera的使用方法
2017/06/07 Javascript
Canvas放置反弹效果随机图形(实例)
2017/08/17 Javascript
NodeJs 实现简单WebSocket即时通讯的示例代码
2019/08/05 NodeJs
node.js制作一个简单的登录拦截器
2020/02/10 Javascript
[01:01:13]2018DOTA2亚洲邀请赛 4.5 淘汰赛 Mineski vs VG 第三场
2018/04/06 DOTA
Python functools模块学习总结
2015/05/09 Python
Python使用shelve模块实现简单数据存储的方法
2015/05/20 Python
Python/Django后端使用PIL Image生成头像缩略图
2019/04/30 Python
python GUI库图形界面开发之PyQt5简单绘图板实例与代码分析
2020/03/08 Python
美国女孩洋娃娃店:American Girl
2017/10/24 全球购物
Blancsom美国/加拿大:服装和生活用品供应商
2018/07/27 全球购物
德国拖鞋网站:German Slippers
2019/11/08 全球购物
大学生专业个人学习的自我评价
2013/10/26 职场文书
幼儿园英语教学反思
2014/01/30 职场文书
材料会计岗位职责
2014/03/06 职场文书
常务副总经理岗位职责
2014/04/12 职场文书
党员民主评议自我评价
2014/10/20 职场文书
2014年销售员工作总结
2014/12/01 职场文书
2015年国培研修感言
2015/08/01 职场文书
个人自我鉴定怎么写?
2019/07/01 职场文书
python三子棋游戏
2022/05/04 Python