编程 Python

基于Python实现对比Exce的工具

Posted in Python onApril 07, 2022

1.参数

同一个excel文件两个sheet页其中一个ODS(老数据)，一个DWH(新数据)
生成对比文件
设计两个主键输入主键1 输入主键2

(默认新旧文件列名一致)

2.效果

生成的文件
数据量一样、取每个字段不一致的数据前10
数据量不一样、取两边不一样的数据前10、排除不一样的数据、每个字段不一致的数据前10

3.实现

循环对比组合列(主键+对比列)
pandas处理差异数据、openpyxl 处理生成的sheet的数据格式. (先生成数据,然后调整格式)

配置

import pandas as pd
from openpyxl import load_workbook
#选择文件路径
path=r"C:\Users\小管同学\Desktop\Migration_Data_Compari\对比文件.xls" #input("选择文件路径:")
TargetPath=r"C:\Users\小管同学\Desktop\Migration_Data_Comparison_Tool\目标文件\对比结果.xlsx"
DATA_ODS=pd.read_excel(r"C:\Users\小管同学\Desktop\Migration_Data_Comparison_Tool\对比文件.xls",sheet_name="ODS")
DATA_DWH=pd.read_excel(r"C:\Users\小管同学\Desktop\Migration_Data_Comparison_Tool\对比文件.xls",sheet_name="DWH")
#选择主键
Primarykey="员工编号"#input("选择主键1:")
Primarykey
# 员工编号

一、数据量

输出表格1–数据量

def write_to_excel_DataVolume(Data,TargetPath): # cor_df 为要保存的 dataframe 
    writer = pd.ExcelWriter(TargetPath, engine='xlsxwriter') # 这里用
    Data.to_excel(writer,sheet_name='Sheet1', encoding='utf8', header=False, startcol=0, startrow=2) # 把dataframe的数据从第2行开始
    workbook  = writer.book
    
    format1 = workbook.add_format({ # 先把样式打包，然后之后赋值即可
        'bold': True, # 字体加粗
        'text_wrap': True, # 是否自动换行
        'valign': 'bottom',  #垂直对齐方式
        'align': 'center', # 水平对齐方式
        'fg_color': '#C5D9F1', # 单元格背景颜色
        'border': 1,# 边框
    })    
    writer_sheet = writer.sheets['Sheet1']
    # 设置宽度
    writer_sheet.set_column("A:I", 16)
    writer_sheet.set_column('C:C',30)
    writer_sheet.merge_range(0,0,0,2,'对比结果',format1)
    writer_sheet.merge_range(4,2,4,0,'数据量差异',format1)
    writer_sheet.write(1,0,'',format1)
    writer_sheet.write(1,1,'ODS',format1)
    writer_sheet.write(1,2,'DWH',format1)
    writer.save()
    writer.close()
DataFrame_DataVolume=pd.DataFrame([[DATA_ODS.shape[0]],[DATA_DWH.shape[0]]]).T
DataFrame_DataVolume.columns =["ODS","DWH"]
DataFrame_DataVolume.index=["数据量"]
DataFrame_DataVolume
#writeFileDataVolume(DataFrame_DataVolume,TargetPath)
write_to_excel_DataVolume(DataFrame_DataVolume,TargetPath)

基于Python实现对比Exce的工具

输出表格2–数据量差异合同

if DATA_ODS.shape[0]==DATA_DWH.shape[0]:
    pass
else:
    
    DATA_ODS_Primarykey=pd.DataFrame(DATA_ODS[Primarykey])
    DATA_DWH_Primarykey=pd.DataFrame(DATA_DWH[Primarykey])
    df_union = pd.concat([DATA_ODS_Primarykey,DATA_DWH_Primarykey])
    # 实现1
    df_diff_ODS = df_union.append(DATA_ODS_Primarykey).drop_duplicates(subset=df_union.columns.to_list(), keep=False)
    df_diff_DWH = df_union.append(DATA_DWH_Primarykey).drop_duplicates(subset=df_union.columns.to_list(), keep=False)
    #DWH多的合同
    df_diff_ODS
    #DWH少的合同
    df_diff_DWH
    df_diff_DWH_Data=[]
    df_diff_ODS_Data=[]
    for i in df_diff_ODS.head(10).values.tolist():
        for n in i:
            df_diff_ODS_Data.append(n)
            
    for i in df_diff_DWH.head(10).values.tolist():
            df_diff_DWH_Data.append(n)
    while True:
        if len(df_diff_DWH_Data)>len(df_diff_ODS_Data):
            df_diff_ODS_Data.append("-")
        elif len(df_diff_DWH_Data)< len(df_diff_ODS_Data):
            df_diff_DWH_Data.append("-")
        elif len(df_diff_DWH_Data)== len(df_diff_ODS_Data):
            break
    DataFrame_DataVolume_Count_result=pd.DataFrame(df_diff_DWH_Data,df_diff_ODS_Data).reset_index()
    DataFrame_DataVolume_Count_result.columns=['DWH多的合同','DWH少的的合同']
    DataFrame_DataVolume_Count_result=DataFrame_DataVolume_Count_result.reset_index()
    DataFrame_DataVolume_Count_result.columns=['序号','DWH多的合同','DWH少的的合同']
DataFrame_DataVolume_Count_result
from openpyxl import load_workbook
 
def write_to_excel_Count_result(Data,TargetPath):
    df_Old = pd.DataFrame(pd.read_excel(TargetPath)) #读取原数据文件和表 
    writer = pd.ExcelWriter(TargetPath,engine='openpyxl')
    book=load_workbook(TargetPath)
    writer.book = book
    writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
    df_rows = df_Old.shape[0] #获取原数据的行数
    Data.to_excel(writer,startrow=df_rows+1, index=False,startcol=0,header=True)#将数据写入excel中的aa表,从第一个空行开始写
    writer.save()#保存
write_to_excel_Count_result(DataFrame_DataVolume_Count_result,TargetPath)

基于Python实现对比Exce的工具

到此这篇关于基于Python实现对比Excel的小工具【实现中】的文章就介绍到这了,更多相关Python对比Excel的小工具内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

基于Python实现对比Exce的工具

- Author -

小管呀

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Django框架中数据的连锁查询和限制返回数据的方法

Jul 17 Python

Python的消息队列包SnakeMQ使用初探

Jun 29 Python

Python 中开发pattern的string模板(template) 实例详解

Apr 01 Python

利用python实现xml与数据库读取转换的方法

Jun 17 Python

Python3.5以上版本lxml导入etree报错的解决方案

Jun 26 Python

Python jieba库用法及实例解析

Nov 04 Python

pytorch 获取tensor维度信息示例

Jan 03 Python

pycharm 2019 最新激活方式（pycharm破解、激活）

Sep 22 Python

使用TFRecord存取多个数据案例

Feb 17 Python

解决python ThreadPoolExecutor 线程池中的异常捕获问题

Apr 08 Python

如何使用python的ctypes调用医保中心的dll动态库下载医保中心的账单

May 24 Python

matplotlib基础绘图命令之errorbar的使用

Aug 13 Python

pytorch分类模型绘制混淆矩阵以及可视化详解

Python OpenCV之常用滤波器使用详解

python Tkinter模块使用方法详解

一行Python命令实现批量加水印

Apr 07 #Python

Python中Matplotlib的点、线形状、颜色以及绘制散点图

详解Python中*args和**kwargs的使用

Apr 07 #Python

Python列表的索引与切片

Apr 07 #Python

You might like

第六节--访问属性和方法

2006/11/16 PHP

PHP学习笔记（一）简单了解PHP

2014/08/04 PHP

thinkphp使用phpmailer发送邮件的方法

2014/11/24 PHP

[原创]PHP获取数组表示的路径方法分析【数组转字符串】

2017/09/01 PHP

PHP简单实现模拟登陆功能示例

2017/09/15 PHP

php关联数组与索引数组及其显示方法

2018/03/12 PHP

基于ThinkPHP5框架使用QueryList爬取并存入mysql数据库操作示例

2019/05/25 PHP

在laravel中实现事务回滚的方法

2019/10/10 PHP

laravel 解决多库下的DB::transaction()事务失效问题

2019/10/21 PHP

精通Javascript系列之数据类型字符串

2011/06/08 Javascript

如何获取网站icon有哪些可行的方法

2014/06/05 Javascript

jQuery实现tab标签自动切换的方法

2015/02/28 Javascript

angularjs客户端实现压缩图片文件并上传实例

2015/07/06 Javascript

体验jQuery和AngularJS的不同点及AngularJS的迷人之处

2016/02/02 Javascript

学做Bootstrap的第一个页面

2016/05/15 HTML / CSS

移动端使用localStorage缓存Js和css文的方法(web开发)

2016/09/20 Javascript

AngularJS全局警告框实现方法示例

2017/05/18 Javascript

bootstrap datepicker插件默认英文修改为中文

2017/07/28 Javascript

使用Vue.js和Element-UI做一个简单登录页面的实例

2018/02/23 Javascript

vue解决弹出蒙层滑动穿透问题的方法

2018/09/22 Javascript

layui实现图片虚拟路径上传,预览和删除的例子

2019/09/25 Javascript

js生成1到100的随机数最简单的实现方法

2020/02/07 Javascript

[01:11:37]完美世界DOTA2联赛PWL S2 SZ vs FTD.C 第一场 11.19

2020/11/19 DOTA

详解python string类型 bytes类型 bytearray类型

2017/12/16 Python

pandas object格式转float64格式的方法

2018/04/10 Python

python实现决策树分类

2018/08/30 Python

python实现桌面壁纸切换功能

2019/01/21 Python

python多继承(钻石继承)问题和解决方法简单示例

2019/10/21 Python

python实现查找所有程序的安装信息

2020/02/18 Python

python 最简单的实现适配器设计模式的示例

2020/06/30 Python

html5 touch事件实现触屏页面上下滑动(一)

2016/03/10 HTML / CSS

HTML5本地存储之Database Storage应用介绍

2013/01/06 HTML / CSS

美国高档百货Nordstrom的折扣店：Nordstrom Rack

2017/11/13 全球购物

3D空间设计学生找工作的自我评价

2013/10/28 职场文书

青年教师听课心得体会

2016/01/15 职场文书

Python IO文件管理的具体使用

2022/03/20 Python

基于Python实现对比Exce的工具

目录

1.参数

2.效果

3.实现