编程 Python

Python通过两个dataframe用for循环求笛卡尔积

Posted in Python onApril 29, 2020

合并两个没有共同列的dataframe，相当于按行号求笛卡尔积。

最终效果如下

以下代码是参考别人的代码修改的：

def cartesian_df(A,B):
    new_df = pd.DataFrame(columns=list(A).extend(list(B)))
    for _,A_row in A.iterrows():
      for _,B_row in B.iterrows():
        row = A_row.append(B_row)
        new_df = new_df.append(row,ignore_index=True)
    return new_df
#这个方法，如果两张表列名重复会出错

这段代码的思路是对两个表的每一行进行循环，运行速度比较慢，复杂度应该是O(m*n)，m是A表的行数，n是B表的行数。

因为我用到的合并表行数比较多，时间太慢，所以针对上面的代码进行了优化。

思路是利用dataframe的merge功能，先循环复制A表，将循环次数添加为列，直接使用merge合并，复杂度应该为O(n)（n是B表的行数），代码如下：

def cartesian_df(df_a,df_b):
  '求两个dataframe的笛卡尔积'
  #df_a 复制n次，索引用复制次数
  new_df_a = pd.DataFrame(columns=list(df_a))
  for i in range(0,df_b.shape[0]):
    df_a['merge_index'] = i
    new_df_a = new_df_a.append(df_a,ignore_index=True)
  #df_b 设置索引为行数
  df_b.reset_index(inplace = True, drop =True)
  df_b['merge_index'] = df_b.index
  #merge
  new_df = pd.merge(new_df_a,df_b,on=['merge_index'],how='left').drop(['merge_index'],axis = 1)
  return new_df

#两个原始表中不能有列名'merge_index'

使用一张8行的表和一张142行的表进行测试，优化前的方法用时：5.560689926147461秒

Python通过两个dataframe用for循环求笛卡尔积

优化后的方法用时：0.1296539306640625秒（142行的表作为b表）

Python通过两个dataframe用for循环求笛卡尔积

根据计算原理，将行数少的表放在b表可以更快，测试用时：0.021603107452392578秒（8行的表作为b表）

Python通过两个dataframe用for循环求笛卡尔积

这个速度已经达到预期，基本感觉不到等待，优化完成。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python通过两个dataframe用for循环求笛卡尔积

- Author -

何未生

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python求crc32值的方法

Oct 05 Python

python+django加载静态网页模板解析

Dec 12 Python

Python使用matplotlib实现的图像读取、切割裁剪功能示例

Apr 28 Python

pandas.DataFrame选取/排除特定行的方法

Jul 03 Python

Sanic框架Cookies操作示例

Jul 17 Python

详解python3 + Scrapy爬虫学习之创建项目

Apr 12 Python

pytorch 实现打印模型的参数值

Dec 30 Python

Python 实现一行输入多个数字(用空格隔开)

Apr 29 Python

python和JavaScript哪个容易上手

Jun 23 Python

keras K.function获取某层的输出操作

Jun 29 Python

深度学习详解之初试机器学习

Apr 14 Python

OpenCV图像变换之傅里叶变换的一些应用

Jul 26 Python

Django分组聚合查询实例分享

Apr 29 #Python

python中sympy库求常微分方程的用法

Apr 28 #Python

tensorflow2.0的函数签名与图结构(推荐)

Apr 28 #Python

Python startswith()和endswith() 方法原理解析

Apr 28 #Python

Python如何将函数值赋给变量

Apr 28 #Python

Python多线程thread及模块使用实例

Apr 28 #Python

Python基于模块Paramiko实现SSHv2协议

Apr 28 #Python