编程 Python

解决使用Pandas 读取超过65536行的Excel文件问题

Posted in Python onNovember 10, 2020

场景

今天需要合并天猫订单数据，由于前期6.18活动有很多数据需要处理，将几个月份合并一起，结果报错。

问题分析

Excel 文件的格式曾经发生过一次变化，在 Excel 2007 以前，使用扩展名为 .xls 格式的文件，这种文件格式是一种特定的二进制格式，最多支持 65,536 行，256 列表格。从 Excel 2007 版开始，默认采用了基于 XML 的新的文件格式 .xlsx ，支持的表格行数达到了 1,048,576，列数达到了 16,384。需要注意的是，将 .xlsx 格式的文件转换为 .xls 格式的文件时，65536 行和 256 列之后的数据都会被丢弃。

Pandas 读取 Excel 文件的引擎是 xlrd ， xlrd 虽然同时支持 .xlsx 和 .xls 两种文件格式，但是在源码文件 xlrd/sheet.py 中限制了读取的 Excel 文件行数必须小于 65536，列数必须小于 256。

if self.biff_version >= 80:
  self.utter_max_rows = 65536
else:
  self.utter_max_rows = 16384
self.utter_max_cols = 256

这就导致，即使是 .xlsx 格式的文件， xlrd 依然不支持读取 65536 行以上的 Excel 文件（源码中还有一个行数限制是 16384，这是因为 Excel 95 时代， xls 文件所支持的最大行数是 16384）。

解决办法

openpyxl 是一个专门用来操作 .xlsx 格式文件的 Python 库，和 xlrd 相比它对于最大行列数的支持和 .xlsx 文件所定义的最大行列数一致。

首先安装 openpyxl ：

pip install openpyxl

Pandas 的 read_excel 方法中，有 engine 字段，可以指定所使用的处理 Excel 文件的引擎，填入 openpyxl ，再读取文件就可以了。

import os
import pandas as pd

# 将文件读取出来放一个列表里面

pwd = '1' # 获取文件目录

# 新建列表，存放文件名
file_list = []

# 新建列表存放每个文件数据(依次读取多个相同结构的Excel文件并创建DataFrame)
dfs = []

for root,dirs,files in os.walk(pwd): # 第一个为起始路径，第二个为起始路径下的文件夹，第三个是起始路径下的文件。
  for file in files:
    file_path = os.path.join(root, file)
    file_list.append(file_path) # 使用os.path.join(dirpath, name)得到全路径
    df = pd.read_excel(file_path) # 导入xlsx文件，将excel转换成DataFrame
    dfs.append(df)

# 将多个DataFrame合并为一个
df = pd.concat(dfs)

# 数据输出，写入excel文件，不包含索引数据
# 数据写入 Excel，需要首先安装一个 engine，由 engine 负责将数据写入 Excel，pandas 使用 openpyx 或 xlsxwriter 作为写入引擎。
df.to_excel('test\\1.xlsx', index=False,engine='openpyxl') # 导出 Excel，一般不需要索引，将 index 参数设为 False

补充知识：python使用xlrd读取excel数据作为requests的请求参数，并把返回的数据写入excel中

实现功能：

从excel中的第一列数据作为post请求的数据，数据为json格式；把post返回的结果写入到excel的第二列数据中，并把返回数据与excel中的预期结果做比较，如果与预期一致则在案例执行结果中写入成功，否则写入失败。

每一行的数据都不一样，可实现循环调用

# !/usr/bin/env python
# -*- coding:utf-8 -*-
#import xlwt #这个专门用于写入excel的库没有用到
import xlrd
from xlutils.copy import copy
import requests
import json
old_excel = xlrd.open_workbook('excel.xls')
sheet = old_excel.sheets()[0]
url = 'http://10.1.1.32:1380/service/allocFk2'
headers = {'Content-Type': 'application/json'}
i = 0
new_excel = copy(old_excel)
for row in sheet.get_rows():
  data = row[0].value
  response = requests.post(url=url, headers=headers, data=data)
  text = response.text
  #使用json.loads可以把Unicode类型，即json类型转换成dict类型
  text = json.loads(text)["returnMsg"] #屏蔽这行代码即可把返回的完整数据写入文件中
  ws = new_excel.get_sheet(0)
  ws.write(i,1,text)
  new_excel.save('excel.xls')
  old_excel = xlrd.open_workbook('excel.xls')
  new_excel = copy(old_excel)
  i = i+1

执行前的excel格式：

发送报文	返回报文	校验字符	案例执行结果
{ "projectId" :"0070", "projectAllocBatch" :"1", "serviceCode" :"GT012", "seqNo" :"180800272201GT51286712", "tranTimeStamp" :"20180817102244", "sign" :"2dbb89a6bd86b2af1ff6a76c35c05284" }		交易失败
{ "projectId" :"0070", "projectAllocBatch" :"1", "serviceCode" :"GT012", "seqNo" :"180800272201GT51286713", "tranTimeStamp" :"20180817102244", "sign" :"2dbb89a6bd86b2af1ff6a76c35c05284" }		交易失败
{ "projectId" :"0070", "projectAllocBatch" :"1", "serviceCode" :"GT012", "seqNo" :"180800272201GT51286713", "tranTimeStamp" :"20180817102244", "sign" :"2dbb89a6bd86b2af1ff6a76c35c05284" }		交易成功

执行后的结果：

解决使用Pandas 读取超过65536行的Excel文件问题

调试过程中遇到的问题：

1、一开始在for循环的最后没有增加这两行代码

old_excel = xlrd.open_workbook('excel.xls')

new_excel = copy(old_excel)

这样的话new_excel永远都是一开始获取到的那一个，只会把最后一个循环返回的结果写入文件，因为之前的全部都被一开始获取的那个old_excel给覆盖了，所以每次执行完写入操作以后都要重新做一次copy操作，这样就能保证new_excel是最新的。

2、注意执行程序之前要把excel关闭，否则会报错

以上这篇解决使用Pandas 读取超过65536行的Excel文件问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

解决使用Pandas 读取超过65536行的Excel文件问题

- Author -

Python野路子

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python回调函数用法实例分析

May 09 Python

python实现将内容分行输出

Nov 05 Python

Python实现类似jQuery使用中的链式调用的示例

Jun 16 Python

Python学习之Anaconda的使用与配置方法

Jan 04 Python

python微元法计算函数曲线长度的方法

Nov 08 Python

Django管理员账号和密码忘记的完美解决方法

Dec 06 Python

Django restframework 源码分析之认证详解

Feb 22 Python

Python 变量的创建过程详解

Sep 02 Python

Python 3 使用Pillow生成漂亮的分形树图片

Dec 24 Python

浅谈对pytroch中torch.autograd.backward的思考

Dec 27 Python

使用pytorch和torchtext进行文本分类的实例

Jan 08 Python

Python从文件中读取数据的方法步骤

Nov 18 Python

python各种excel写入方式的速度对比

Nov 10 #Python

Python 使用xlwt模块将多行多列数据循环写入excel文档的操作

Nov 10 #Python

详解vscode实现远程linux服务器上Python开发

Nov 10 #Python

Python调用飞书发送消息的示例

Nov 10 #Python

python中pyplot基础图标函数整理

Nov 10 #Python

python图片合成的示例

Nov 09 #Python

python 实现"神经衰弱"翻牌游戏

Nov 09 #Python

You might like

PHP中date与gmdate的区别及默认时区设置

2014/05/12 PHP

Javascript注入技巧

2007/06/22 Javascript

一个javascript参数的小问题

2008/03/02 Javascript

jquery 输入框数字限制插件

2009/11/10 Javascript

Notify - 基于jquery的消息通知插件

2011/10/18 Javascript

javascript中对Attr(dom中属性)的操作示例讲解

2013/12/02 Javascript

Jquery性能优化详解

2014/05/15 Javascript

JavaScript监听文本框回车事件并过滤文本框空格的方法

2015/04/16 Javascript

js实现div在页面拖动效果

2016/05/04 Javascript

JavaScript中对JSON对象的基本操作示例

2016/05/21 Javascript

浅谈js的html元素的父节点,子节点

2016/08/06 Javascript

基于 webpack2 实现的多入口项目脚手架详解

2017/06/26 Javascript

bootstrap是什么_动力节点Java学院整理

2017/07/14 Javascript

利用vue+elementUI实现部分引入组件的方法详解

2017/11/22 Javascript

利用adb shell和node.js实现抖音自动抢红包功能(推荐)

2018/02/22 Javascript

讲解vue-router之什么是编程式路由

2018/05/28 Javascript

vue+iview+less 实现换肤功能

2018/08/17 Javascript

vue-cli 3.x配置跨域代理的实现方法

2019/04/12 Javascript

python中函数默认值使用注意点详解

2016/06/01 Python

教你用Python脚本快速为iOS10生成图标和截屏

2016/09/22 Python

python3实现ftp服务功能（服务端 For Linux）

2017/03/24 Python

Python Json序列化与反序列化的示例

2018/01/31 Python

Python通过调用有道翻译api实现翻译功能示例

2018/07/19 Python

django DRF图片路径问题的解决方法

2018/09/10 Python

Django项目中实现使用qq第三方登录功能

2019/08/13 Python

加拿大折扣、优惠券和交易网站：WagJag

2018/02/07 全球购物

会计专业个人求职信范文

2014/01/08 职场文书

医学专业应届生的自我评价

2014/02/28 职场文书

战略合作意向书

2014/07/29 职场文书

大学生军训自我鉴定范文

2014/09/18 职场文书

简易离婚协议书范本2014

2014/10/15 职场文书

自荐信模板大全

2015/03/27 职场文书

工作调动申请报告

2015/05/18 职场文书

2015年学校禁毒工作总结

2015/05/27 职场文书

幼儿园园长六一致辞

2015/07/31 职场文书

Apache Linkis 中间件架构及快速安装步骤

2022/03/16 Servers