Python实现Excel文件的合并(以新冠疫情数据为例)


Posted in Python onMarch 20, 2022

注:本篇文章以新冠疫情数据文件的合并为例。

需要相关数据的请移步:》2020-2022年新冠疫情数据

一、单目录下面的数据合并

Python实现Excel文件的合并(以新冠疫情数据为例)

将2020下的所有文件进行合并,成一个文件:

import requests
import json
import openpyxl
import datetime
import datetime as dt
import time
import pandas as pd
import csv
from openpyxl import load_workbook
from sqlalchemy import create_engine
import math
import os
import glob
csv_list=glob.glob(r'D:\Python\03DataAcquisition\COVID-19\2020\*.csv')
print("所有数据文件总共有%s" %len(csv_list))
for i in csv_list:
    fr=open(i,"rb").read() #除了第一个数据文件外,其他不读取表头
    with open('../output/covid19temp0314.csv','ab') as f:
        f.write(fr)
    f.close()
print('数据合成完毕!')

Python实现Excel文件的合并(以新冠疫情数据为例)

合并后的数据:

Python实现Excel文件的合并(以新冠疫情数据为例)

二、使用函数进行数据合并

## 02 使用函数进行数据合并
import os
import pandas as pd 
# 定义函数(具有递归功能)
def mergeFile(parent,path="",pathdeep=0,filelist=[],csvdatadf=pd.DataFrame(),csvdata=pd.DataFrame()):
    fileAbsPath=os.path.join(parent,path)
    if os.path.isdir(fileAbsPath)==True:
        if(pathdeep!=0 and ('.ipynb_checkpoints' not in str(fileAbsPath))): # =0代表没有下一层目录
            print('--'+path)
        for filename2 in os.listdir(fileAbsPath):
            mergeFile(fileAbsPath,filename2,pathdeep=pathdeep+1)
    else:
        if(pathdeep==2 and path.endswith(".csv") and os.path.getsize(parent+'/'+path)>0):
            filelist.append(parent+'/'+path)
    return filelist

# D:\Python\03DataAcquisition\COVID-19
path=input("请输入数据文件所在目录:")
filelist=mergeFile(path)

filelist

csvdata=pd.DataFrame()
csvdatadf=pd.DataFrame()

for m in filelist:
    csvdata=pd.read_csv(m,encoding='utf-8-sig')
    csvdatadf=csvdatadf.append(csvdata)
# 由于2023年的数据还没有,所以不合并

Python实现Excel文件的合并(以新冠疫情数据为例)

(* ̄(oo) ̄)注: 这个的等待时间应该会比较长,因为一共有一百九十多万条数据。

将合并后的数据进行保存:

csvdatadf.to_csv("covid190314.csv",index=None,encoding='utf-8-sig')
csvdatadf=pd.read_csv("covid190314.csv",encoding='utf-8-sig')
csvdatadf.info()

Python实现Excel文件的合并(以新冠疫情数据为例)

读取新冠疫情在2020/0101之前的数据:

beforedf=pd.read_csv(r'D:\Python\03DataAcquisition\COVID-19\before20201111.csv',encoding='utf-8-sig')
beforedf.info()

Python实现Excel文件的合并(以新冠疫情数据为例)

Python实现Excel文件的合并(以新冠疫情数据为例)

将两组数据合并:

tempalldf=beforedf.append(csvdatadf)
tempalldf.head()

Python实现Excel文件的合并(以新冠疫情数据为例)

三、处理港澳台数据

Python实现Excel文件的合并(以新冠疫情数据为例)

如图所示:要将Country_Region从Hong Kong变成China。澳门和台湾也是如此:

查找有关台湾的数据:

beforedf.loc[beforedf['Country/Region']=='Taiwan']
beforedf.loc[beforedf['Country/Region'].str.contains('Taiwan')]
beforedf.loc[beforedf['Country/Region'].str.contains('Taiwan'),'Province/State']='Taiwan'
beforedf.loc[beforedf['Province/State']=='Taiwan','Country/Region']='China'
beforedf.loc[beforedf['Province/State']=='Taiwan']

Python实现Excel文件的合并(以新冠疫情数据为例)

香港的数据处理:

beforedf.loc[beforedf['Country/Region'].str.contains('Hong Kong'),'Province/State']='Hong Kong'
beforedf.loc[beforedf['Province/State']=='Hong Kong','Country/Region']='China'
afterdf.loc[afterdf['Country_Region'].str.contains('Hong Kong'),'Province_State']='Hong Kong'
afterdf.loc[afterdf['Province_State']=='Hong Kong','Country_Region']='China'

澳门的数据处理:

beforedf.loc[beforedf['Country/Region'].str.contains('Macau'),'Province/State']='Macau'
beforedf.loc[beforedf['Province/State']=='Macau','Country/Region']='China'
afterdf.loc[afterdf['Country_Region'].str.contains('Macau'),'Province_State']='Macau'
afterdf.loc[afterdf['Province_State']=='Macau','Country_Region']='China'

最终将整理好的数据进行保存:

beforedf.to_csv("beforedf0314.csv",index=None,encoding='utf-8-sig')
afterdf.to_csv("afterdf0314.csv",index=None,encoding='utf-8-sig')

Python实现Excel文件的合并(以新冠疫情数据为例)

到此这篇关于Python实现Excel文件的合并(以新冠疫情数据为例)的文章就介绍到这了,更多相关Python合并Excel内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python通过ElementTree操作XML获取结点读取属性美化XML
Dec 02 Python
Python编程之属性和方法实例详解
May 19 Python
使用Python的Django框架结合jQuery实现AJAX购物车页面
Apr 11 Python
Python字典数据对象拆分的简单实现方法
Dec 05 Python
python抓取文件夹的所有文件
Feb 27 Python
python 借助numpy保存数据为csv格式的实现方法
Jul 04 Python
使用Scrapy爬取动态数据
Oct 21 Python
Linux下通过python获取本机ip方法示例
Sep 06 Python
python科学计算之scipy——optimize用法
Nov 25 Python
tensorflow 固定部分参数训练,只训练部分参数的实例
Jan 20 Python
如何基于Python和Flask编写Prometheus监控
Nov 25 Python
Python 实现PS滤镜的旋涡特效
Dec 03 Python
Python中三种花式打印的示例详解
Mar 19 #Python
Python学习之包与模块详解
Python requests用法和django后台处理详解
Mar 19 #Python
Python实现Hash算法
Mar 18 #Python
python实现会员信息管理系统(List)
Mar 18 #Python
Python实现归一化算法详情
Mar 18 #Python
python实现会员管理系统
Mar 18 #Python
You might like
PHP iconv 函数转gb2312的bug解决方法
2009/10/11 PHP
PHP防止表单重复提交的几种常用方法汇总
2014/08/19 PHP
php导入大量数据到mysql性能优化技巧
2014/12/29 PHP
教你在header中隐藏php的版本信息
2016/08/10 PHP
PHP中file_put_contents追加和换行的实现方法
2017/04/01 PHP
些很实用且必用的小脚本代码
2006/06/26 Javascript
javascript实现的鼠标链接提示效果生成器代码
2007/06/28 Javascript
javascript 表单规则集合对象
2009/07/21 Javascript
javascript 图片裁剪技巧解读
2012/11/15 Javascript
JS与C#编码解码
2013/12/03 Javascript
解决window.opener=null;window.close(),只支持IE6不支持IE7,IE8的问题
2014/01/14 Javascript
js获取input长度并根据页面宽度设置其大小及居中对齐
2014/08/22 Javascript
JavaScript动态加载样式表的方法
2015/03/21 Javascript
js实现使用鼠标拖拽切换图片的方法
2015/05/04 Javascript
jQuery UI插件实现百度提词器效果
2016/11/21 Javascript
vue.js框架实现表单排序和分页效果
2017/08/09 Javascript
jQuery实现的粘性滚动导航栏效果实例【附源码下载】
2017/10/19 jQuery
详解微信小程序调用支付接口支付
2019/04/28 Javascript
vue中使用element组件时事件想要传递其他参数的问题
2019/09/18 Javascript
小程序api实现promise封装过程解析
2019/11/21 Javascript
JavaScript实现指定数量的并发限制的示例代码
2020/03/10 Javascript
JS监听组合按键思路及实现过程
2020/04/17 Javascript
原生js实现贪吃蛇游戏
2020/10/26 Javascript
JavaScript canvas实现跟随鼠标移动小球
2021/02/09 Javascript
python二分查找算法的递归实现方法
2016/05/12 Python
Python实现的多线程http压力测试代码
2017/02/08 Python
Python3.x对JSON的一些操作示例
2017/09/01 Python
python的sorted用法详解
2019/06/25 Python
TensorFlow查看输入节点和输出节点名称方式
2020/01/04 Python
python对数组进行排序,并输出排序后对应的索引值方式
2020/02/28 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
2020/11/18 Python
.NET常见笔试题集
2012/12/01 面试题
运动会宣传口号
2014/06/09 职场文书
摘录式读书笔记
2015/07/01 职场文书
2016年感恩节寄语
2015/12/07 职场文书
pytorch DataLoader的num_workers参数与设置大小详解
2021/05/28 Python