Python 数据分析之逐块读取文本的实现


Posted in Python onDecember 14, 2020

背景

《利用Python进行数据分析》,第 6 章的数据加载操作 read_xxx,有 chunksize 参数可以进行逐块加载。

经测试,它的本质就是将文本分成若干块,每次处理 chunksize 行的数据,最终返回一个TextParser 对象,对该对象进行迭代遍历,可以完成逐块统计的合并处理。

示例代码

文中的示例代码分析如下:

from pandas import DataFrame,Series
import pandas as pd
 
path='D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv'
# chunksize return TextParser
chunker=pd.read_csv(path,chunksize=1000)
 
# an array of Series
tot=Series([])
chunkercount=0
for piece in chunker:
	print '------------piece[key] value_counts start-----------'
	#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series ,key is int ,value is the key column
	print piece['key'].value_counts()
	print '------------piece[key] value_counts end-------------'
	#piece[key] value_counts is a Series ,key is the key column, and value is the key count
	tot=tot.add(piece['key'].value_counts(),fill_value=0)
	chunkercount+=1
 
#last order the series
tot=tot.order(ascending=False)
print chunkercount
print '--------------'

流程分析

首先,例子数据 ex6.csv 文件总共有 10000 行数据,使用 chunksize=1000 后,read_csv操作返回一个 TextParser 对象,该对象总共有10个元素,遍历过程中打印 chunkercount验证得到。

其次,每个 piece 对象是一个 DataFrame 对象,piece['key'] 得到的是一个 Series 对象,默认是数值索引,值为 csv 文件中的 key 列的值,即各个字符串。

将每个 Series 的 value_counts 作为一个Series,与上一次统计的 tot 结果进行 add 操作,最终得到所有块数据中各个 key 的累加值。

最后,对 tot 进行 order 排序,按降序得到各个 key 的值在 csv 文件中出现的总次数。

这里很巧妙了使用 Series 对象的 add 操作,对两个 Series 执行 add 操作,即合并相同key:key相同的记录的值累加,key不存在的记录设置填充值为0

输出结果为:

Python 数据分析之逐块读取文本的实现

到此这篇关于Python 数据分析之逐块读取文本的实现的文章就介绍到这了,更多相关Python 逐块读取文本内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中Collection的使用小技巧
Aug 18 Python
Linux下将Python的Django项目部署到Apache服务器
Dec 24 Python
python:socket传输大文件示例
Jan 18 Python
分析Python读取文件时的路径问题
Feb 11 Python
详解如何在python中读写和存储matlab的数据文件(*.mat)
Feb 24 Python
PyTorch线性回归和逻辑回归实战示例
May 22 Python
基于python实现百度翻译功能
May 09 Python
django获取from表单multiple-select的value和id的方法
Jul 19 Python
关于python3中setup.py小概念解析
Aug 22 Python
Python 类方法和实例方法(@classmethod),静态方法(@staticmethod)原理与用法分析
Sep 20 Python
Python dict的常用方法示例代码
Jun 23 Python
Django基础CBV装饰器和中间件
Mar 22 Python
Python 2.6.6升级到Python2.7.15的详细步骤
Dec 14 #Python
python 通过pip freeze、dowload打离线包及自动安装的过程详解(适用于保密的离线环境
Dec 14 #Python
Pandas中DataFrame交换列顺序的方法实现
Dec 14 #Python
python中time、datetime模块的使用
Dec 14 #Python
全面介绍python中很常用的单元测试框架unitest
Dec 14 #Python
python读写数据读写csv文件(pandas用法)
Dec 14 #Python
详解Python中@staticmethod和@classmethod区别及使用示例代码
Dec 14 #Python
You might like
php 无限极分类
2008/03/27 PHP
PHP支持多种格式图片上传(支持jpg、png、gif)
2011/11/03 PHP
PHP微信开发之有道翻译
2016/06/23 PHP
使一个函数作为另外一个函数的参数来运行的javascript代码
2007/08/13 Javascript
理解 JavaScript 预解析
2009/10/25 Javascript
基于jQuery的js分页代码
2010/06/10 Javascript
javascript整除实现代码
2010/11/23 Javascript
JS中引用百度地图并将百度地图的logo和信息去掉
2013/09/29 Javascript
JS刷新当前页面的几种方法总结
2013/12/24 Javascript
一个网页标题title的闪动提示效果实现思路
2014/03/22 Javascript
fckeditor粘贴Word时弹出窗口取消的方法
2014/10/30 Javascript
Javascript基础教程之数组 array
2015/01/18 Javascript
JavaScript实现点击按钮字体放大、缩小
2016/02/29 Javascript
JS去除空格和换行的正则表达式(推荐)
2016/06/14 Javascript
AngularJs  Using $location详解及示例代码
2016/09/02 Javascript
用js实现简单算法的实例代码
2016/09/24 Javascript
微信小程序实战之登录页面制作(5)
2020/03/30 Javascript
微信小程序上滑加载下拉刷新(onscrollLower)分批加载数据(二)
2017/05/11 Javascript
React + webpack 环境配置的方法步骤
2017/09/07 Javascript
JS基于开关思想实现的数组去重功能【案例】
2019/02/18 Javascript
JavaScript面向对象程序设计中对象的定义和继承详解
2019/07/29 Javascript
关于vue表单提交防双/多击的例子
2019/10/31 Javascript
为什么选择python编程语言入门黑客攻防 给你几个理由!
2018/02/02 Python
python判断数字是否是超级素数幂
2018/09/27 Python
使用Django简单编写一个XSS平台的方法步骤
2019/03/25 Python
pytorch+lstm实现的pos示例
2020/01/14 Python
scrapy-redis分布式爬虫的搭建过程(理论篇)
2020/09/29 Python
大二自我鉴定范文
2013/10/05 职场文书
心得体会范文
2014/01/04 职场文书
校庆活动方案
2014/03/31 职场文书
一年级语文下册复习计划
2015/01/17 职场文书
合作意向协议书
2015/01/29 职场文书
实习介绍信模板
2015/01/30 职场文书
联谊会开场白
2015/06/01 职场文书
2016年师德先进个人事迹材料
2016/02/29 职场文书
销区经理年终述职报告模板
2019/11/28 职场文书