Python实现Excel文件的合并(以新冠疫情数据为例)


Posted in Python onMarch 20, 2022

注:本篇文章以新冠疫情数据文件的合并为例。

需要相关数据的请移步:》2020-2022年新冠疫情数据

一、单目录下面的数据合并

Python实现Excel文件的合并(以新冠疫情数据为例)

将2020下的所有文件进行合并,成一个文件:

import requests
import json
import openpyxl
import datetime
import datetime as dt
import time
import pandas as pd
import csv
from openpyxl import load_workbook
from sqlalchemy import create_engine
import math
import os
import glob
csv_list=glob.glob(r'D:\Python\03DataAcquisition\COVID-19\2020\*.csv')
print("所有数据文件总共有%s" %len(csv_list))
for i in csv_list:
    fr=open(i,"rb").read() #除了第一个数据文件外,其他不读取表头
    with open('../output/covid19temp0314.csv','ab') as f:
        f.write(fr)
    f.close()
print('数据合成完毕!')

Python实现Excel文件的合并(以新冠疫情数据为例)

合并后的数据:

Python实现Excel文件的合并(以新冠疫情数据为例)

二、使用函数进行数据合并

## 02 使用函数进行数据合并
import os
import pandas as pd 
# 定义函数(具有递归功能)
def mergeFile(parent,path="",pathdeep=0,filelist=[],csvdatadf=pd.DataFrame(),csvdata=pd.DataFrame()):
    fileAbsPath=os.path.join(parent,path)
    if os.path.isdir(fileAbsPath)==True:
        if(pathdeep!=0 and ('.ipynb_checkpoints' not in str(fileAbsPath))): # =0代表没有下一层目录
            print('--'+path)
        for filename2 in os.listdir(fileAbsPath):
            mergeFile(fileAbsPath,filename2,pathdeep=pathdeep+1)
    else:
        if(pathdeep==2 and path.endswith(".csv") and os.path.getsize(parent+'/'+path)>0):
            filelist.append(parent+'/'+path)
    return filelist

# D:\Python\03DataAcquisition\COVID-19
path=input("请输入数据文件所在目录:")
filelist=mergeFile(path)

filelist

csvdata=pd.DataFrame()
csvdatadf=pd.DataFrame()

for m in filelist:
    csvdata=pd.read_csv(m,encoding='utf-8-sig')
    csvdatadf=csvdatadf.append(csvdata)
# 由于2023年的数据还没有,所以不合并

Python实现Excel文件的合并(以新冠疫情数据为例)

(* ̄(oo) ̄)注: 这个的等待时间应该会比较长,因为一共有一百九十多万条数据。

将合并后的数据进行保存:

csvdatadf.to_csv("covid190314.csv",index=None,encoding='utf-8-sig')
csvdatadf=pd.read_csv("covid190314.csv",encoding='utf-8-sig')
csvdatadf.info()

Python实现Excel文件的合并(以新冠疫情数据为例)

读取新冠疫情在2020/0101之前的数据:

beforedf=pd.read_csv(r'D:\Python\03DataAcquisition\COVID-19\before20201111.csv',encoding='utf-8-sig')
beforedf.info()

Python实现Excel文件的合并(以新冠疫情数据为例)

Python实现Excel文件的合并(以新冠疫情数据为例)

将两组数据合并:

tempalldf=beforedf.append(csvdatadf)
tempalldf.head()

Python实现Excel文件的合并(以新冠疫情数据为例)

三、处理港澳台数据

Python实现Excel文件的合并(以新冠疫情数据为例)

如图所示:要将Country_Region从Hong Kong变成China。澳门和台湾也是如此:

查找有关台湾的数据:

beforedf.loc[beforedf['Country/Region']=='Taiwan']
beforedf.loc[beforedf['Country/Region'].str.contains('Taiwan')]
beforedf.loc[beforedf['Country/Region'].str.contains('Taiwan'),'Province/State']='Taiwan'
beforedf.loc[beforedf['Province/State']=='Taiwan','Country/Region']='China'
beforedf.loc[beforedf['Province/State']=='Taiwan']

Python实现Excel文件的合并(以新冠疫情数据为例)

香港的数据处理:

beforedf.loc[beforedf['Country/Region'].str.contains('Hong Kong'),'Province/State']='Hong Kong'
beforedf.loc[beforedf['Province/State']=='Hong Kong','Country/Region']='China'
afterdf.loc[afterdf['Country_Region'].str.contains('Hong Kong'),'Province_State']='Hong Kong'
afterdf.loc[afterdf['Province_State']=='Hong Kong','Country_Region']='China'

澳门的数据处理:

beforedf.loc[beforedf['Country/Region'].str.contains('Macau'),'Province/State']='Macau'
beforedf.loc[beforedf['Province/State']=='Macau','Country/Region']='China'
afterdf.loc[afterdf['Country_Region'].str.contains('Macau'),'Province_State']='Macau'
afterdf.loc[afterdf['Province_State']=='Macau','Country_Region']='China'

最终将整理好的数据进行保存:

beforedf.to_csv("beforedf0314.csv",index=None,encoding='utf-8-sig')
afterdf.to_csv("afterdf0314.csv",index=None,encoding='utf-8-sig')

Python实现Excel文件的合并(以新冠疫情数据为例)

到此这篇关于Python实现Excel文件的合并(以新冠疫情数据为例)的文章就介绍到这了,更多相关Python合并Excel内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python基于回溯法解决01背包问题实例
Dec 06 Python
Python中pip更新和三方插件安装说明
Jul 08 Python
Python Requests库基本用法示例
Aug 20 Python
详解pyppeteer(python版puppeteer)基本使用
Jun 12 Python
对Python3之方法的覆盖与super函数详解
Jun 26 Python
使用Python代码实现Linux中的ls遍历目录命令的实例代码
Sep 07 Python
Python中断多重循环的思路总结
Oct 04 Python
浅析python中while循环和for循环
Nov 19 Python
Numpy 理解ndarray对象的示例代码
Apr 03 Python
python 在threading中如何处理主进程和子线程的关系
Apr 25 Python
如何基于python实现不邻接植花
May 01 Python
使用pycharm和pylint检查python代码规范操作
Jun 09 Python
Python中三种花式打印的示例详解
Mar 19 #Python
Python学习之包与模块详解
Python requests用法和django后台处理详解
Mar 19 #Python
Python实现Hash算法
Mar 18 #Python
python实现会员信息管理系统(List)
Mar 18 #Python
Python实现归一化算法详情
Mar 18 #Python
python实现会员管理系统
Mar 18 #Python
You might like
php中使用__autoload()自动加载未定义类的实现代码
2013/02/06 PHP
thinkphp控制器调度使用示例
2014/02/24 PHP
php实现两表合并成新表并且有序排列的方法
2014/12/05 PHP
PHP和Shell实现检查SAMBA与NFS Server是否存在
2015/01/07 PHP
在Windows XP下安装Apache+MySQL+PHP环境
2015/02/22 PHP
[原创]php token使用与验证示例【测试可用】
2017/08/30 PHP
php-fpm.conf配置文件中文说明详解及重要参数说明
2018/10/10 PHP
jQuery 三击事件实现代码
2013/09/11 Javascript
JavaScript 数组详解
2013/10/10 Javascript
extjs 如何给column 加上提示
2014/07/29 Javascript
jQuery常用知识点总结以及平时封装常用函数
2016/02/23 Javascript
jQuery实现动态添加、删除按钮及input输入框的方法
2017/04/27 jQuery
纯JavaScript实现实时反馈系统时间
2017/10/26 Javascript
JavaScript笛卡尔积超简单实现算法示例
2018/07/30 Javascript
layui的面包屑或者表单不显示的解决方法
2019/09/05 Javascript
简述Vue中容易被忽视的知识点
2019/12/09 Javascript
javascript设计模式之装饰者模式
2020/01/30 Javascript
nodejs实现的http、https 请求封装操作示例
2020/02/06 NodeJs
python根据路径导入模块的方法
2014/09/30 Python
在Python操作时间和日期之asctime()方法的使用
2015/05/22 Python
python基础教程之五种数据类型详解
2017/01/12 Python
Python算法应用实战之队列详解
2017/02/04 Python
Python实现读取txt文件并画三维图简单代码示例
2017/12/09 Python
解决python中用matplotlib画多幅图时出现图形部分重叠的问题
2019/07/07 Python
python中tkinter的应用:修改字体的实例讲解
2019/07/17 Python
python实现修改固定模式的字符串内容操作示例
2019/12/30 Python
Python爬虫防封ip的一些技巧
2020/08/06 Python
2021年值得向Python开发者推荐的VS Code扩展插件
2021/01/25 Python
酒店管理专业毕业生求职自荐信
2014/04/28 职场文书
写给导师的自荐信
2015/03/06 职场文书
银行优秀员工推荐信
2015/03/24 职场文书
欧也妮葛朗台读书笔记
2015/06/30 职场文书
小学生法制教育心得体会
2016/01/14 职场文书
html+css合并表格边框的示例代码
2021/03/31 HTML / CSS
React实现动效弹窗组件
2021/06/21 Javascript
maven 解包依赖项中的文件的解决方法
2022/07/15 Java/Android