pandas DataFrame创建方法的方式


Posted in Python onAugust 02, 2019

在pandas里,DataFrame是最经常用的数据结构,这里总结生成和添加数据的方法:

①、把其他格式的数据整理到DataFrame中;
②在已有的DataFrame中插入N列或者N行。

1. 字典类型读取到DataFrame(dict to DataFrame)

假如我们在做实验的时候得到的数据是dict类型,为了方便之后的数据统计和计算,我们想把它转换为DataFrame,存在很多写法,这里简单介绍常用的几种:

方法一:直接使用pd.DataFrame(data=test_dict)即可,括号中的data=写不写都可以,具体如下:

test_dict = {'id':[1,2,3,4,5,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'math':[90,89,99,78,97,93],'english':[89,94,80,94,94,90]}
#[1].直接写入参数test_dict
test_dict_df = pd.DataFrame(test_dict)
#[2].字典型赋值
test_dict_df = pd.DataFrame(data=test_dict)

那么,我们就得到了一个DataFrame,如下:

pandas DataFrame创建方法的方式

应该就是这个样子了。

方法二:使用from_dict方法:

test_dict_df = pd.DataFrame.from_dict(test_dict)

结果是一样的,不再重复贴图。

其他方法:如果你的dict变量很小,例如{'id':1,'name':'Alice'},你想直接写到括号里:

test_dict_df = pd.DataFrame({'id':1,'name':'Alice'}) # wrong style

这样是不行的,会报错ValueError: If using all scalar values, you must pass an index,是因为如果你提供的是一个标量,必须还得提供一个索引Index,所以你可以这么写:

test_dict_df = pd.DataFrame({'id':1,'name':'Alice'},pd.Index(range(1)))

后面的可以写多个pd.Index(range(3),就会生成三行一样的,是因为前面的dict型变量只有一组值,如果有多个,后面的Index必须跟前面的数据组数一致,否则会报错:

pd.DataFrame({'id':[1,2],'name':['Alice','Bob']},pd.Index(range(2))) #must be 2 in range function.

关于选择列,有些时候我们只需要选择dict中部分的键当做DataFrame的列,那么我们可以使用columns参数,例如我们只选择'id','name'列:

test_dict_df = pd.DataFrame(data=test_dict,columns=['id','name']) #only choose 'id' and 'name' columns

这里就不在多写了,后续变更颜色添加内容。

2. csv文件构建DataFrame(csv to DataFrame)

我们实验的时候数据一般比较大,而csv文件是文本格式的数据,占用更少的存储,所以一般数据来源是csv文件,从csv文件中如何构建DataFrame呢? txt文件一般也能用这种方法。

方法一:最常用的应该就是pd.read_csv('filename.csv')了,用 sep指定数据的分割方式,默认的是','

df = pd.read_csv('./xxx.csv')

如果csv中没有表头,就要加入head参数

3. 在已有的DataFrame中,增加N列或者N行

加入我们已经有了一个DataFrame,如下图:

pandas DataFrame创建方法的方式

3.1 添加列

此时我们又有一门新的课physics,我们需要为每个人添加这门课的分数,按照Index的顺序,我们可以使用insert方法,如下:

new_columns = [92,94,89,77,87,91]
test_dict_df.insert(2,'pyhsics',new_columns)
#test_dict_df.insert(2,'pyhsics',new_columns,allow_duplicates=True)

此时,就得到了添加好的DataFrame,需要注意的是DataFrame默认不允许添加重复的列,但是在insert函数中有参数allow_duplicates=True,设置为True后,就可以添加重复的列了,列名也是重复的:

pandas DataFrame创建方法的方式

3.2 添加行

此时我们又来了一位新的同学Iric,需要在DataFrame中添加这个同学的信息,我们可以使用loc方法:

new_line = [7,'Iric',99]
test_dict_df.loc[6]= new_line

但是十分注意的是,这样实际是改的操作,如果loc[index]中的index已经存在,则新的值会覆盖之前的值。

当然也可以把这些新的数据构建为一个新的DataFrame,然后两个DataFrame拼起来。可以用append方法,不过不太会用,提供一种方法:

test_dict_df.append(pd.DataFrame([new_line],columns=['id','name','physics']))

本想一口气把CURD全写完,没想到写到这里就好累。。。其他后续新开篇章在写吧。

相关代码:(https://github.com/dataSnail/blogCode/blob/master/python_curd/python_curd_create.ipynb)(在DataFrame中删除N列或者N行)(在DataFrame中查询某N列或者某N行)(在DataFrame中修改数据)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python设置检查点简单实现代码
Jul 01 Python
跟老齐学Python之眼花缭乱的运算符
Sep 14 Python
Python实战小程序利用matplotlib模块画图代码分享
Dec 09 Python
python实现寻找最长回文子序列的方法
Jun 02 Python
python 字典 按key值大小 倒序取值的实例
Jul 06 Python
Python实现KNN(K-近邻)算法的示例代码
Mar 05 Python
Python  Django 母版和继承解析
Aug 09 Python
pandas将多个dataframe以多个sheet的形式保存到一个excel文件中
Oct 10 Python
Python使用贪婪算法解决问题
Oct 22 Python
PyQt5多线程刷新界面防假死示例
Dec 13 Python
Python关于__name__属性的含义和作用详解
Feb 19 Python
python numpy中multiply与*及matul 的区别说明
May 26 Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 #Python
Django缓存系统实现过程解析
Aug 02 #Python
tensor和numpy的互相转换的实现示例
Aug 02 #Python
Django文件存储 自己定制存储系统解析
Aug 02 #Python
使用pycharm在本地开发并实时同步到服务器
Aug 02 #Python
Django文件存储 默认存储系统解析
Aug 02 #Python
Django 迁移、操作数据库的方法
Aug 02 #Python
You might like
用PHP连接MySQL代码的参数说明
2008/06/07 PHP
防止本地用户用fsockopen DDOS攻击对策
2011/11/02 PHP
PHP+MySQL高并发加锁事务处理问题解决方法
2018/04/30 PHP
Laravel 添加多语言提示信息的方法
2019/09/29 PHP
php设计模式之策略模式实例分析【星际争霸游戏案例】
2020/03/26 PHP
jQuery EasyUI API 中文文档 - NumberBox数字框
2011/10/13 Javascript
JavaScript事件委托实例分析
2015/05/26 Javascript
JavaScript实现点击自动选择TextArea文本的方法
2015/07/02 Javascript
初识Javascript小结
2015/07/16 Javascript
js实现贪吃蛇小游戏(容易理解)
2017/01/22 Javascript
微信小程序自定义导航隐藏和显示功能
2017/06/13 Javascript
js学习总结之dom2级事件基础知识详解
2017/07/27 Javascript
JavaScript使用atan2来绘制箭头和曲线的实例
2017/09/14 Javascript
JavaScript设计模式之调停者模式实例详解
2018/02/03 Javascript
JavaScript实现异步图像上传功能
2018/07/12 Javascript
详解Ubuntu安装angular-cli遇到的坑
2018/09/08 Javascript
layuiAdmin循环遍历展示商品图片列表的方法
2019/09/16 Javascript
解决layer.confirm选择完之后消息框不消失的问题
2019/09/16 Javascript
Vue+Spring Boot简单用户登录(附Demo)
2020/11/12 Javascript
[01:57]2018DOTA2亚洲邀请赛赛前采访-iG
2018/04/03 DOTA
[01:11:35]Liquid vs LGD 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
[02:38]DOTA2 夜魇暗潮2020活动介绍官方视频
2020/11/04 DOTA
Python中使用OpenCV库来进行简单的气象学遥感影像计算
2016/02/19 Python
Python实战小程序利用matplotlib模块画图代码分享
2017/12/09 Python
解决Pandas to_json()中文乱码,转化为json数组的问题
2018/05/10 Python
python实现DEM数据的阴影生成的方法
2019/07/23 Python
Python用5行代码实现批量抠图的示例代码
2020/04/14 Python
python爬虫多次请求超时的几种重试方法(6种)
2020/12/01 Python
HomeAway的巴西品牌:Alugue Temporada
2018/04/10 全球购物
Tirendo比利时:在线购买轮胎
2018/10/22 全球购物
美国优质宠物用品购买网站:Muttropolis
2020/02/17 全球购物
班组长的岗位职责
2013/12/09 职场文书
追悼会主持词
2014/03/20 职场文书
感情真挚的毕业生求职信
2014/07/19 职场文书
2014年小学教学工作总结
2014/11/13 职场文书
七夕情人节问候语
2015/11/11 职场文书