编程 Python

pandas DataFrame创建方法的方式

Posted in Python onAugust 02, 2019

在pandas里，DataFrame是最经常用的数据结构，这里总结生成和添加数据的方法：

①、把其他格式的数据整理到DataFrame中；
②在已有的DataFrame中插入N列或者N行。

1. 字典类型读取到DataFrame（dict to DataFrame）

假如我们在做实验的时候得到的数据是dict类型，为了方便之后的数据统计和计算，我们想把它转换为DataFrame，存在很多写法，这里简单介绍常用的几种：

方法一：直接使用pd.DataFrame(data=test_dict)即可,括号中的data=写不写都可以，具体如下：

test_dict = {'id':[1,2,3,4,5,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'math':[90,89,99,78,97,93],'english':[89,94,80,94,94,90]}
#[1].直接写入参数test_dict
test_dict_df = pd.DataFrame(test_dict)
#[2].字典型赋值
test_dict_df = pd.DataFrame(data=test_dict)

那么，我们就得到了一个DataFrame，如下：

pandas DataFrame创建方法的方式

应该就是这个样子了。

方法二：使用from_dict方法：

test_dict_df = pd.DataFrame.from_dict(test_dict)

结果是一样的，不再重复贴图。

其他方法：如果你的dict变量很小，例如{'id':1,'name':'Alice'},你想直接写到括号里：

test_dict_df = pd.DataFrame({'id':1,'name':'Alice'}) # wrong style

这样是不行的，会报错ValueError: If using all scalar values, you must pass an index,是因为如果你提供的是一个标量，必须还得提供一个索引Index，所以你可以这么写：

test_dict_df = pd.DataFrame({'id':1,'name':'Alice'},pd.Index(range(1)))

后面的可以写多个pd.Index(range(3)，就会生成三行一样的，是因为前面的dict型变量只有一组值，如果有多个，后面的Index必须跟前面的数据组数一致，否则会报错：

pd.DataFrame({'id':[1,2],'name':['Alice','Bob']},pd.Index(range(2))) #must be 2 in range function.

关于选择列，有些时候我们只需要选择dict中部分的键当做DataFrame的列，那么我们可以使用columns参数，例如我们只选择'id'，'name'列：

test_dict_df = pd.DataFrame(data=test_dict,columns=['id','name']) #only choose 'id' and 'name' columns

这里就不在多写了，后续变更颜色添加内容。

2. csv文件构建DataFrame（csv to DataFrame）

我们实验的时候数据一般比较大，而csv文件是文本格式的数据，占用更少的存储，所以一般数据来源是csv文件，从csv文件中如何构建DataFrame呢？ txt文件一般也能用这种方法。

方法一：最常用的应该就是pd.read_csv('filename.csv')了，用 sep指定数据的分割方式，默认的是','

df = pd.read_csv('./xxx.csv')

如果csv中没有表头，就要加入head参数

3. 在已有的DataFrame中，增加N列或者N行

加入我们已经有了一个DataFrame，如下图:

pandas DataFrame创建方法的方式

3.1 添加列

此时我们又有一门新的课physics，我们需要为每个人添加这门课的分数，按照Index的顺序，我们可以使用insert方法，如下：

new_columns = [92,94,89,77,87,91]
test_dict_df.insert(2,'pyhsics',new_columns)
#test_dict_df.insert(2,'pyhsics',new_columns,allow_duplicates=True)

此时，就得到了添加好的DataFrame，需要注意的是DataFrame默认不允许添加重复的列，但是在insert函数中有参数allow_duplicates=True，设置为True后，就可以添加重复的列了，列名也是重复的：

pandas DataFrame创建方法的方式

3.2 添加行

此时我们又来了一位新的同学Iric，需要在DataFrame中添加这个同学的信息，我们可以使用loc方法：

new_line = [7,'Iric',99]
test_dict_df.loc[6]= new_line

但是十分注意的是，这样实际是改的操作，如果loc[index]中的index已经存在，则新的值会覆盖之前的值。

当然也可以把这些新的数据构建为一个新的DataFrame，然后两个DataFrame拼起来。可以用append方法，不过不太会用，提供一种方法：

test_dict_df.append(pd.DataFrame([new_line],columns=['id','name','physics']))

本想一口气把CURD全写完，没想到写到这里就好累。。。其他后续新开篇章在写吧。

相关代码：（https://github.com/dataSnail/blogCode/blob/master/python_curd/python_curd_create.ipynb）（在DataFrame中删除N列或者N行）（在DataFrame中查询某N列或者某N行）（在DataFrame中修改数据）

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

pandas DataFrame创建方法的方式

- Author -

蒙面的普罗米修斯

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python小技巧之批量抓取美女图片

Jun 06 Python

Python ORM框架SQLAlchemy学习笔记之数据查询实例

Jun 10 Python

Python减少循环层次和缩进的技巧分析

Mar 15 Python

python3实现ftp服务功能（客户端）

Mar 24 Python

老生常谈Python基础之字符编码

Jun 14 Python

Python搜索引擎实现原理和方法

Nov 27 Python

python实现最大优先队列

Aug 29 Python

使用Django搭建web服务器的例子(最最正确的方式)

Aug 29 Python

如何通过python实现全排列

Feb 11 Python

Win10下配置tensorflow-gpu的详细教程（无VS2015/2017）

Jul 14 Python

浅析Python打包时包含静态文件处理方法

Jan 15 Python

python中validators库的使用方法详解

Sep 23 Python

django项目环境搭建及在虚拟机本地创建django项目的教程

Aug 02 #Python

Django缓存系统实现过程解析

Aug 02 #Python

tensor和numpy的互相转换的实现示例

Aug 02 #Python

Django文件存储自己定制存储系统解析

Aug 02 #Python

使用pycharm在本地开发并实时同步到服务器

Aug 02 #Python

Django文件存储默认存储系统解析

Aug 02 #Python

Django 迁移、操作数据库的方法

Aug 02 #Python

You might like

2020显卡排行榜天梯图显卡天梯图2020年3月最新版

2020/04/02 数码科技

php curl基本操作详解

2013/07/23 PHP

2015/03/24 PHP

PHP7.3.10编译安装教程

2019/10/08 PHP

Div自动滚动到末尾的代码

2008/10/26 Javascript

深入理解JavaScript系列（14）作用域链介绍(Scope Chain)

2012/04/12 Javascript

Javascript验证用户输入URL地址是否为空及格式是否正确

2014/10/09 Javascript

js图片轮播效果实现代码

2020/04/18 Javascript

利用原生JS自动生成文章标题树的实例

2016/08/22 Javascript

JavaScript职责链模式概述

2016/09/17 Javascript

使用ReactJS实现tab页切换、菜单栏切换、手风琴切换和进度条效果

2016/10/17 Javascript

自学实现angularjs依赖注入

2016/12/20 Javascript

Angular.js实现多个checkbox只能选择一个的方法示例

2017/02/24 Javascript

vue实现个人信息查看和密码修改功能

2018/05/06 Javascript

JavaScript在web自动化测试中的作用示例详解

2019/08/25 Javascript

手把手15分钟搭一个企业级脚手架

2019/09/16 Javascript

优雅的使用javascript递归画一棵结构树示例代码

2019/09/22 Javascript

vue实现节点增删改功能

2019/09/26 Javascript

微信小程序使用 vant Dialog组件的正确方式

2020/02/21 Javascript

vue移动端弹起蒙层滑动禁止底部滑动操作

2020/07/22 Javascript

通过vue刷新左侧菜单栏操作

2020/08/06 Javascript

vue实现验证用户名是否可用

2021/01/20 Vue.js

Python内置函数的用法实例教程

2014/09/08 Python

Python下使用Psyco模块优化运行速度

2015/04/05 Python

Python二分法搜索算法实例分析

2015/05/11 Python

Python+tkinter使用40行代码实现计算器功能

2018/01/30 Python

Scrapy框架爬取西刺代理网免费高匿代理的实现代码

2019/02/22 Python

意大利辅助药品、药物和补品在线销售：FarmaEurope

2020/04/29 全球购物

两则小学生的自我评价分享

2013/11/14 职场文书

幼儿园评语大全

2014/04/17 职场文书

小学优秀教育工作者事迹材料

2014/05/09 职场文书

学校运动会霸气口号

2014/06/07 职场文书

村级个人对照检查材料

2014/08/22 职场文书

向国旗敬礼活动总结

2014/09/27 职场文书

JS + HTML 罗盘式时钟的实现

2021/05/21 Javascript

Python数据可视化之用Matplotlib绘制常用图形

2021/06/03 Python