通过Pandas读取大文件的实例


Posted in Python onJune 07, 2018

当数据文件过大时,由于计算机内存有限,需要对大文件进行分块读取:

import pandas as pd
f = open('E:/学习相关/Python/数据样例/用户侧数据/test数据.csv')
reader = pd.read_csv(f, sep=',', iterator=True)
loop = True
chunkSize = 100000
chunks = []
while loop:
 try:
 chunk = reader.get_chunk(chunkSize)
 chunks.append(chunk)
 except StopIteration:
 loop = False
 print("Iteration is stopped.")
df = pd.concat(chunks, ignore_index=True)
print(df)

read_csv()函数的iterator参数等于True时,表示返回一个TextParser以便逐块读取文件;

chunkSize表示文件块的大小,用于迭代;

TextParser类的get_chunk方法用于读取任意大小的文件块;

StopIteration的异常表示在循环对象穷尽所有元素时报错;

concat()函数用于将数据做轴向连接:

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, Verify_integrity=False)

常用参数:

objs:Series,DataFrame或者是Panel构成的序列list;

axis:需要合并连接的轴,0是行,1是列;

join:连接的参数,inner或outer;

ignore=True表示重建索引。

以上这篇通过Pandas读取大文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python处理RSS、ATOM模块FEEDPARSER介绍
Feb 18 Python
python根据京东商品url获取产品价格
Aug 09 Python
python爬虫之百度API调用方法
Jun 11 Python
Pandas 数据处理,数据清洗详解
Jul 10 Python
python实现在图片上画特定大小角度矩形框
Oct 24 Python
对python中数据集划分函数StratifiedShuffleSplit的使用详解
Dec 11 Python
django主动抛出403异常的方法详解
Jan 04 Python
Django1.11自带分页器paginator的使用方法
Oct 31 Python
keras实现VGG16方式(预测一张图片)
Jul 07 Python
利用python实现汉诺塔游戏
Mar 01 Python
python 如何用map()函数创建多线程任务
Apr 07 Python
Python3使用Qt5来实现简易的五子棋小游戏
May 02 Python
Pandas:DataFrame对象的基础操作方法
Jun 07 #Python
Python中偏函数用法示例
Jun 07 #Python
网红编程语言Python将纳入高考你怎么看?
Jun 07 #Python
python指定写入文件时的编码格式方法
Jun 07 #Python
Python实现的爬虫刷回复功能示例
Jun 07 #Python
异步任务队列Celery在Django中的使用方法
Jun 07 #Python
浅谈python中对于json写入txt文件的编码问题
Jun 07 #Python
You might like
提交表单后 PHP获取提交内容的实现方法
2016/05/25 PHP
php版微信公众平台入门教程之开发者认证的方法
2016/09/26 PHP
PHP 进程池与轮询调度算法实现多任务的示例代码
2019/11/26 PHP
高亮显示web页表格行的javascript代码
2010/11/19 Javascript
js/ajax跨越访问-jsonp的原理和实例(javascript和jquery实现代码)
2012/12/27 Javascript
javascript实现des解密加密全过程
2014/04/03 Javascript
JavaScript获取table中某一列的值的方法
2014/05/06 Javascript
JavaScript设计模式之适配器模式介绍
2014/12/28 Javascript
Jquery网页内滑动缓冲导航的实现代码
2015/04/05 Javascript
JS实现table表格数据排序功能(可支持动态数据+分页效果)
2016/05/26 Javascript
基于bootstrap实现多个下拉框同时搜索功能
2017/07/19 Javascript
JS中用EL表达式获取上下文参数值的方法
2018/03/28 Javascript
JS学习笔记之数组去重实现方法小结
2019/05/29 Javascript
javascript定时器的简单应用示例【控制方块移动】
2019/06/17 Javascript
JS前端模块化原理与实现方法详解
2020/03/17 Javascript
[01:08]DOTA2“血战之命”预告片
2017/08/12 DOTA
[01:05:56]2018DOTA2亚洲邀请赛3月29日 小组赛A组 Newbee VS VG
2018/03/30 DOTA
Python3下错误AttributeError: ‘dict’ object has no attribute’iteritems‘的分析与解决
2017/07/06 Python
查看TensorFlow checkpoint文件中的变量名和对应值方法
2018/06/14 Python
在Python中实现替换字符串中的子串的示例
2018/10/31 Python
python保存二维数组到txt文件中的方法
2018/11/15 Python
对python opencv 添加文字 cv2.putText 的各参数介绍
2018/12/05 Python
python使用正则筛选信用卡
2019/01/27 Python
python爬虫豆瓣网的模拟登录实现
2019/08/21 Python
使用Pandas的Series方法绘制图像教程
2019/12/04 Python
python中如何写类
2020/06/29 Python
Spartoo西班牙官网:法国时尚购物网站
2018/03/27 全球购物
Myprotein亚太地区:欧洲第一在线运动营养品牌
2020/12/20 全球购物
什么是重载?CTS、CLS和CLR分别做何解释
2012/05/06 面试题
银行门卫岗位职责
2013/12/29 职场文书
干部行政关系介绍信
2014/01/17 职场文书
优秀党员获奖感言
2014/02/18 职场文书
诉讼代理人授权委托书
2014/04/08 职场文书
活动总结结尾怎么写
2014/08/30 职场文书
房产公证书格式
2015/01/26 职场文书
欠款证明
2015/06/24 职场文书