通过Pandas读取大文件的实例


Posted in Python onJune 07, 2018

当数据文件过大时,由于计算机内存有限,需要对大文件进行分块读取:

import pandas as pd
f = open('E:/学习相关/Python/数据样例/用户侧数据/test数据.csv')
reader = pd.read_csv(f, sep=',', iterator=True)
loop = True
chunkSize = 100000
chunks = []
while loop:
 try:
 chunk = reader.get_chunk(chunkSize)
 chunks.append(chunk)
 except StopIteration:
 loop = False
 print("Iteration is stopped.")
df = pd.concat(chunks, ignore_index=True)
print(df)

read_csv()函数的iterator参数等于True时,表示返回一个TextParser以便逐块读取文件;

chunkSize表示文件块的大小,用于迭代;

TextParser类的get_chunk方法用于读取任意大小的文件块;

StopIteration的异常表示在循环对象穷尽所有元素时报错;

concat()函数用于将数据做轴向连接:

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, Verify_integrity=False)

常用参数:

objs:Series,DataFrame或者是Panel构成的序列list;

axis:需要合并连接的轴,0是行,1是列;

join:连接的参数,inner或outer;

ignore=True表示重建索引。

以上这篇通过Pandas读取大文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python开发之文件操作用法实例
Nov 13 Python
Python读取一个目录下所有目录和文件的方法
Jul 15 Python
python 列表,数组,矩阵两两转换tolist()的实例
Apr 04 Python
Python线程池模块ThreadPoolExecutor用法分析
Dec 28 Python
Python面向对象程序设计类变量与成员变量、类方法与成员方法用法分析
Apr 12 Python
python学习--使用QQ邮箱发送邮件代码实例
Apr 16 Python
Python3常用内置方法代码实例
Nov 18 Python
基于MSELoss()与CrossEntropyLoss()的区别详解
Jan 02 Python
python实现FTP循环上传文件
Mar 20 Python
Python decimal模块使用方法详解
Jun 08 Python
Python 如何创建一个简单的REST接口
Jul 30 Python
python计算auc的方法
Sep 09 Python
Pandas:DataFrame对象的基础操作方法
Jun 07 #Python
Python中偏函数用法示例
Jun 07 #Python
网红编程语言Python将纳入高考你怎么看?
Jun 07 #Python
python指定写入文件时的编码格式方法
Jun 07 #Python
Python实现的爬虫刷回复功能示例
Jun 07 #Python
异步任务队列Celery在Django中的使用方法
Jun 07 #Python
浅谈python中对于json写入txt文件的编码问题
Jun 07 #Python
You might like
一个简洁的PHP可逆加密函数(分享)
2013/06/06 PHP
浅析PHP中的字符串编码转换(自动识别原编码)
2013/07/02 PHP
PHP常用排序算法实例小结【基本排序,冒泡排序,快速排序,插入排序】
2017/02/07 PHP
PHP反射实际应用示例
2019/04/03 PHP
Javascript SHA-1:Secure Hash Algorithm
2006/12/20 Javascript
javascript创建数组之联合数组的使用方法示例
2013/12/26 Javascript
jquery实现实时改变网页字体大小、字体背景色和颜色的方法
2015/08/05 Javascript
果断收藏9个Javascript代码高亮脚本
2016/01/06 Javascript
只需五句话搞定JavaScript作用域(经典)
2016/07/26 Javascript
JQ选择器_选择同类元素的第N个子元素的实现方法
2016/09/08 Javascript
JS如何实现在页面上快速定位(锚点跳转问题)
2017/08/14 Javascript
解决低版本的浏览器不支持es6的import问题
2018/03/09 Javascript
优雅的在React项目中使用Redux的方法
2018/11/10 Javascript
深入理解令牌认证机制(token)
2019/08/22 Javascript
使用typescript改造koa开发框架的实现
2020/02/04 Javascript
Node.js API详解之 util模块用法实例分析
2020/05/09 Javascript
[46:43]DOTA2上海特级锦标赛主赛事日 - 1 胜者组第一轮#2LGD VS MVP.Phx第二局
2016/03/02 DOTA
python添加模块搜索路径方法
2017/09/11 Python
对python中的logger模块全面讲解
2018/04/28 Python
Python实现KNN(K-近邻)算法的示例代码
2019/03/05 Python
PyQt5实现简易计算器
2020/05/30 Python
python 视频逐帧保存为图片的完整实例
2019/12/10 Python
python logging.basicConfig不生效的原因及解决
2020/02/20 Python
KIKO MILANO英国官网:意大利知名化妆品和护肤品品牌
2017/09/25 全球购物
美国现代家具购物网站:LexMod
2019/01/09 全球购物
韩国乐天网上商城:Lotte iMall
2021/02/03 全球购物
初一地理教学反思
2014/01/16 职场文书
会计助理岗位职责
2014/02/17 职场文书
广播节目策划方案
2014/05/23 职场文书
高考诚信考试承诺书
2015/04/29 职场文书
2015年酒店服务员工作总结
2015/05/18 职场文书
国际贸易实训总结
2015/08/03 职场文书
毕业设计工作总结
2015/08/14 职场文书
Vue实现跑马灯样式文字横向滚动
2021/11/23 Vue.js
Django+Nginx+uWSGI 定时任务的实现方法
2022/01/22 Python
浅谈如何保证Mysql主从一致
2022/03/13 MySQL