使用python进行拆分大文件的方法


Posted in Python onDecember 10, 2018

python按指定行数把大文件进行拆分

如图大文件有7000多万行,大小为16G

使用python进行拆分大文件的方法

需要拆分成多个200万行的小文件

代码如下:

# -*- coding:utf-8 -*-
from datetime import datetime
 
def Main():
 source_dir = '/data/u_lx_data/zhangqm/sh/yanjie/liuxuesheng/jz_yuanshi_list0206.txt'
 target_dir = '/data/u_lx_data/zhangqm/sh/yanjie/liuxuesheng/split/'
 
 # 计数器
 flag = 0
 
 # 文件名
 name = 1
 
 # 存放数据
 dataList = []
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(source_dir,'r') as f_source:
  for line in f_source:
   flag+=1
   dataList.append(line)
   if flag == 2000000:
    with open(target_dir+"jz_yuanshi_list_"+str(name)+".txt",'w+') as f_target:
     for data in dataList:
      f_target.write(data)
    name+=1
    flag = 0
    dataList = []
    
 # 处理最后一批行数少于200万行的
 with open(target_dir+"jz_yuanshi_list_"+str(name)+".txt",'w+') as f_target:
  for data in dataList:
   f_target.write(data)
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
if __name__ == "__main__":
 Main()

结果如下:

使用python进行拆分大文件的方法

总共产生39个文件,最后一个文件行数760821,这样就OK啦

经测试16G文件所需时间如图:不到两分钟

使用python进行拆分大文件的方法

以上这篇使用python进行拆分大文件的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python深入学习之特殊方法与多范式
Aug 31 Python
跟老齐学Python之网站的结构
Oct 24 Python
在Python的框架中为MySQL实现restful接口的教程
Apr 08 Python
Python的Bottle框架中返回静态文件和JSON对象的方法
Apr 30 Python
python检测某个变量是否有定义的方法
May 20 Python
Python实现采用进度条实时显示处理进度的方法
Dec 19 Python
在numpy矩阵中令小于0的元素改为0的实例
Jan 26 Python
把pandas转换int型为str型的方法
Jan 29 Python
python 在某.py文件中调用其他.py内的函数的方法
Jun 25 Python
浅析Python 引号、注释、字符串
Jul 25 Python
python网络编程socket实现服务端、客户端操作详解
Mar 24 Python
PIL.Image.open和cv2.imread的比较与相互转换的方法
Jun 03 Python
python使用udp实现聊天器功能
Dec 10 #Python
Python面向对象之类和对象实例详解
Dec 10 #Python
详解Django-auth-ldap 配置方法
Dec 10 #Python
Python网页正文转换语音文件的操作方法
Dec 09 #Python
python 使用 requests 模块发送http请求 的方法
Dec 09 #Python
Python实现八皇后问题示例代码
Dec 09 #Python
python中的tcp示例详解
Dec 09 #Python
You might like
PHP实现获取中英文首字母
2015/06/19 PHP
php封装的验证码类分享
2017/02/26 PHP
php中的explode()函数实例介绍
2019/01/18 PHP
基于PHP的微信公众号的开发流程详解
2020/08/07 PHP
Firefox div高度自适应
2009/04/28 Javascript
js下利用控制器载入对应脚本
2010/07/17 Javascript
javascript中的作用域scope介绍
2010/12/28 Javascript
JS调用CS里的带参方法实例
2013/08/01 Javascript
jquery弹出框的用法示例(2)
2013/08/26 Javascript
JS图像无缝滚动脚本非常好用
2014/02/10 Javascript
javascript函数重载解决方案分享
2014/02/19 Javascript
JavaScript中的立即执行函数表达式介绍
2015/03/15 Javascript
详细分析JavaScript变量类型
2015/07/08 Javascript
JavaScript中利用jQuery绑定事件的几种方式小结
2016/03/06 Javascript
bootstrap读书笔记之CSS组件(上)
2016/10/17 Javascript
angular学习之从零搭建一个angular4.0项目
2017/07/10 Javascript
BootStrap Fileinput上传插件使用实例代码
2017/07/28 Javascript
vue中如何实现后台管理系统的权限控制的方法示例
2018/09/19 Javascript
vue 动态设置img的src地址无效,npm run build 后找不到文件的解决
2020/07/26 Javascript
微信小程序实现音乐播放页面布局
2020/12/11 Javascript
jQuery冲突问题解决方法
2021/01/19 jQuery
Python操作MongoDB详解及实例
2017/05/18 Python
TF-IDF与余弦相似性的应用(一) 自动提取关键词
2017/12/21 Python
python中使用iterrows()对dataframe进行遍历的实例
2018/06/09 Python
解决python升级引起的pip执行错误的问题
2018/06/12 Python
python将txt文档每行内容循环插入数据库的方法
2018/12/28 Python
如何使用pyinstaller打包32位的exe程序
2019/05/26 Python
pytorch自定义二值化网络层方式
2020/01/07 Python
Python 输出详细的异常信息(traceback)方式
2020/04/08 Python
CSS3 animation实现简易幻灯片轮播特效
2016/09/27 HTML / CSS
J2EE的优越性主要表现在哪些方面
2016/03/28 面试题
成功经营餐厅的创业计划书范文
2013/12/26 职场文书
企业文化演讲稿
2014/05/20 职场文书
个人四风问题对照检查材料思想汇报
2014/10/06 职场文书
2015年见习期个人工作总结
2015/05/28 职场文书
解决python绘图使用subplots出现标题重叠的问题
2021/04/30 Python