详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据


Posted in Python onDecember 13, 2020

pandas的DataFrame对象,本质上是二维矩阵,跟常规二维矩阵的差别在于前者额外指定了每一行和每一列的名称。这样内部数据抽取既可以用“行列名称(对应.loc[]方法)”,也可以用“矩阵下标(对应.iloc[]方法)”两种方式进行。
下面具体说明:

(以下程序均在Jupyter notebook中进行,部分语句的print()函数省略)

首先生成一个DataFrame对象:

import pandas as pd
score = [[34,67,87],[68,98,58],[75,73,86],[94,59,81]]
name = ['小明','小红','小李']
course = ['语文','数学','英语','政治']
mydata1 = pd.DataFrame(data=score,columns=name,index=course)#指定行名(index)和列名(columns)
print(mydata1)
mydata2 = pd.DataFrame(score)#不指定行列名,默认使用0,1,2……
print(mydata2)
#指定行列名
  小明 小红 小李
语文 34 67 87
数学 68 98 58
英语 75 73 86
政治 94 59 81
#采用默认行列名
  0  1  2 (默认列名)
0 34 67 87
1 68 98 58
2 75 73 86
3 94 59 81

DataFrame对象生成时除了必须指定data参数外,用户还可以指定两个参数columns(列名)和index(行名,注意这里的index不仅可以是数字,也可以是用户指定的任何数据类型,如字母),如果不指定,则行列名默认都采用0、1、2……。

下图说明了前面的情况:

详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据

DataFrame对象的.loc[]和.iloc[]方法都可用于抽取数据,区别是:

  • .loc[]:是location,以columns(列名)和index(行名)作为参数。
  • .iloc[]:是index location,以二维矩阵的位置指标(即0,1,2……)作为参数。

.loc[]语法

.loc[行标签名/[行标签名list],列标签名/[列标签名list]],即有两个输入参数,第一个指定行名,第二个指定列名。当只有一个参数时,默认是行名(即抽取整行),所有列都选中。

.iloc[]语法

.loc[行位置/[行位置list],列位置/[列位置list]],也有两个输入参数,第一个指定行位置,第二个指定列位置。当只有一个参数时,默认是行位置(即抽取整行),所有列都选中。

例1.抽取1行数据

#以下用.loc[]抽取1行名为‘语文'的数据(包括所有列)
mydata1.loc['语文']
mydata1.loc['语文',]
mydata1.loc['语文',:]
mydata1.loc[['语文'],]
mydata1.loc[['语文'],:]
#以下用.iloc[]抽取1行名为‘语文'的数据(包括所有列)
mydata1.iloc[0]
mydata1.iloc[0,]
mydata1.iloc[0,:]
mydata1.iloc[[0],]
mydata1.iloc[[0],:]

#输出方式1(第1个参数无[],这是一个Series对象):
小明  34
小红  67
小李  87
Name: 语文, dtype: int64
#输出方式2(第1个参数有[],这是一个DataFrame对象):
  小明 小红 小李
语文 34 67 87
Name: 语文, dtype: int64

上述.loc[]和.iloc[]都只接收了1个参数“语文”或者“0”,因此默认都表示行信息,而列则全部被选中,即抽取'语文'这整一行数据。','表示将两个参数隔开(如果有两个参数的话),':'这里表示选择中所有列。当只有一个输入参数时,python默认','和':'既可写上也可省略。注意:参数['语文']或[0]中只有一个对象时(即只有一行),[]也可以省略,如果有多个对象(即多行)则必须加上[]。此外还需注意,加上[]表示抽取的结果无论是一个数据,一行数据,还是一列数据,他都是DataFrame对象;不加[]时,如果选中的是一行或者一列数据,则是Series对象,如果是一个单独的数据,则是该数据本身的类型。

例2.指定行名抽取任意多行数据

#指定多行行名抽取
mydata1.loc[['英语','语文','政治'],:]
  小明 小红 小李
英语 75 73 86
语文 34 67 87
政治 94 59 81
mydata1.iloc[[1,0],:]
  小明 小红 小李
数学 68 98 58
语文 34 67 87

例2和例1唯一的差别是,第一个参数指定了多行一起输出,此时必须用[]将各行名或者下标括起来,否则出错。后面的','和':'同例1,可省略。注意:原始数据的行顺序是:语文、数学、英语、政治,这里的提取顺序是['英语','语文','政治'],而输出也是'英语','语文','政治',可见输出顺序和参数指定顺序是一致的,而非按原始顺序输出。

例3.抽取连续任意多行数据

mydata1.loc['语文':'英语',:] #连续抽取从语文到英语的所有行
  小明 小红 小李
语文 34 67 87
数学 68 98 58
英语 75 73 86

mydata1.loc[:'英语',:] #连续抽取从第1行到英语的所有行
  小明 小红 小李
语文 34 67 87
数学 68 98 58
英语 75 73 86

mydata1.iloc[0:3,:] #连续抽取1~3行
  小明 小红 小李
语文 34 67 87
数学 68 98 58
英语 75 73 86

mydata1.iloc[1:,:] #连续抽取第2行最后一行
  小明 小红 小李
数学 68 98 58
英语 75 73 86
政治 94 59 81

例3依然是接受1个参数,列参数没有,后面的','和':'同例1,可省略。连续参数用‘start:end'的方式指定行范围。注意:这里不能用[]将其括起来,否则出错。此外用行列名连续取值时,比如['语文':'政治']会把'政治'所在行也取出来,而利用矩阵下标时,0:3只取0,1,2对应的三行,最后一行不会取出;但是如果行列标签名本身就是整数0,1,2……,而不是文字或者其他类型,那么在使用连续行列标签名取数据时,最后一行或者列是不会被取出的。

例4.抽取“列”的各种情况

mydata1.loc[:,['小红']] #所有行,小红列,只有一列时,内部[]也可以省略
  小红
语文 67
数学 98
英语 73
政治 59

mydata1.loc[:,['小明','小红']] #所有行,小明和小红两列
  小明 小红
语文 34 67
数学 68 98
英语 75 73
政治 94 59

mydata1.iloc[:,[1,2]] #所有行,第2和第3列
  小红 小李
语文 67 87
数学 98 58
英语 73 86
政治 59 81

mydata1.loc[:,'小明':] #连续抽取从小明列开始到最后一列
  小明 小红 小李
语文 34 67 87
数学 68 98 58
英语 75 73 86
政治 94 59 81

mydata1.iloc[:,:3] #连续抽取从1列开始到第3列
  小明 小红 小李
语文 34 67 87
数学 68 98 58
英语 75 73 86
政治 94 59 81

抽取整列的方式跟抽取整行在参数设置上完全一样。.loc[]和.iloc[]两个方法默认列为第二个参数,因此抽取整列时,都必须带上':,'作为区分前面行参数的‘分隔符',否则出错。

例5.同时抽取指定行和列对应数据

mydata1.loc['语文','小明'] #输入了两个参数,输出语文行小明列,即一个数据
34
<class 'numpy.int64'> #没带[]时,单个数字是这种类型
mydata1.loc[['语文'],['小明']] #输出语文行小明列,即一个数据
  小明
语文 34
<class 'pandas.core.frame.DataFrame'> #带[]时,输出依然是DataFrame对象

mydata1.iloc[1,2] #第2行第3列数据,单个数据
58
<class 'numpy.int64'> #注意没带[]时的输出类型
mydata1.iloc[[1],[2]]
  小李
数学 58
<class 'pandas.core.frame.DataFrame'> #注意带[]时的输出类型

mydata1.loc[['语文','数学'],['小明']] #输出语文数学行,小明列的数据
  小明
语文 34
数学 68

mydata1.iloc[1:,[0,2]] #输出从第2行到最后一行,第1和第3行对应数据
  小明 小李
数学 68 58
英语 75 86
政治 94 81

同时抽取分部行和列的情况,就是把上述单独抽取行和列的方式合并起来用。抽取整个DataFrame对象则是.loc[:,:]或.iloc[:,:],虽然这么做没啥意义。

总结:

(1)DataFrame对象的.loc[,]和.iloc[,]方法用于抽取数据,.loc[,]用行列的标签名作为参数,.iloc[,]用二维矩阵元素的网格下标作为参数。
(2)两个方法都接受两个参数,第一个是“行标签”或者“矩阵行号”,第二个是“列标签”或者“矩阵列号”。
(3)两种方法当只指定一个输入参数时,都默是跟“行”相关,而“列”则全部被选中。如何行和列都需要指定时,中间用“逗号,”隔开,这非常重要,否则出错。
(4)当需要选中所有行的某几列时,行参数可以省略,列参数需要指定,此时列参数前面必须带上“,:”,形如.loc[:,列参数],.iloc[:,列参数]。
(5).loc[,]和.iloc[,]设置了一个还是两个输入参数,关键看有没有“,”将两个参数分开,且要区分逗号是一个参数的内部逗号,还有用于分隔行列参数的逗号。
(6)对于两个参数的概念区分,.loc['语文','数学']这表示输入了两个参数,行参数是‘语文',列参数是‘数学',对于上面的表格而言这是错的,因为没有叫‘数学'的列,应写为[['语文','数学']],即‘数学'也是行参数的一部分,['语文','数学']整体作为一个行参数,这里的逗号不是用以分隔行和列,仅仅是行list里面的逗号。[['语文','数学']]=[['语文','数学'],]=[['语文','数学'],:],都表示只有一个行参数,列全部选中。

到此这篇关于详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据的文章就介绍到这了,更多相关pandas .loc[]、.iloc[]抽取数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python计算牛顿迭代多项式实例分析
May 07 Python
Python写入CSV文件的方法
Jul 08 Python
python实现网站的模拟登录
Jan 04 Python
Python enumerate索引迭代代码解析
Jan 19 Python
解决seaborn在pycharm中绘图不出图的问题
May 24 Python
python 多线程中子线程和主线程相互通信方法
Nov 09 Python
Django-Model数据库操作(增删改查、连表结构)详解
Jul 17 Python
Django ORM 聚合查询和分组查询实现详解
Aug 09 Python
django 配置阿里云OSS存储media文件的例子
Aug 20 Python
python str字符串转uuid实例
Mar 03 Python
利用Matlab绘制各类特殊图形的实例代码
Jul 16 Python
Python 使用 Frame tkraise() 方法在 Tkinter 应用程序中的Frame之间切换
Apr 24 Python
pandas抽取行列数据的几种方法
Dec 13 #Python
python3.9实现pyinstaller打包python文件成exe
Dec 13 #Python
Pandas中两个dataframe的交集和差集的示例代码
Dec 13 #Python
使用pandas实现筛选出指定列值所对应的行
Dec 13 #Python
Pandas DataFrame求差集的示例代码
Dec 13 #Python
pandas实现导出数据的四种方式
Dec 13 #Python
python绘图pyecharts+pandas的使用详解
Dec 13 #Python
You might like
深入phpMyAdmin的安装与配置的详细步骤
2013/05/07 PHP
ThinkPHP实现图片上传操作的方法详解
2017/05/08 PHP
php使用lua+redis实现限流,计数器模式,令牌桶模式
2019/04/04 PHP
学习面向对象之面向对象的基本概念:对象和其他基本要素
2010/11/30 Javascript
Javascript 闭包引起的IE内存泄露分析
2012/05/23 Javascript
jQuery学习笔记 操作jQuery对象 CSS处理
2012/09/19 Javascript
标题过长使用javascript按字节截取字符串
2014/04/24 Javascript
transport.js和jquery冲突问题的解决方法
2015/02/10 Javascript
javascript版2048小游戏
2015/03/18 Javascript
解决jquery实现的radio重新选中的问题
2015/07/03 Javascript
JS+CSS实现自适应选项卡宽度的圆角滑动门效果
2015/09/15 Javascript
js字符串截取函数slice、substring和substr的比较
2016/05/17 Javascript
jQuery EasyUi 验证功能实例解析
2017/01/06 Javascript
用jquery的attr方法实现图片切换效果
2017/02/05 Javascript
JS实现汉字与Unicode码相互转换的方法详解
2017/04/28 Javascript
ES6 系列之 WeakMap的使用示例
2018/08/06 Javascript
详解JS函数防抖
2020/06/05 Javascript
详解Vue Cli浏览器兼容性实践
2020/06/08 Javascript
JavaScript中变量提升和函数提升的详解
2020/08/07 Javascript
[34:47]完美世界DOTA2联赛PWL S2 Magma vs LBZS 第一场 11.18
2020/11/18 DOTA
用Python解析XML的几种常见方法的介绍
2015/04/09 Python
利用Python爬取微博数据生成词云图片实例代码
2017/08/31 Python
深入了解Python iter() 方法的用法
2019/07/11 Python
如何写python的配置文件
2020/06/07 Python
JAVA及PYTHON质数计算代码对比解析
2020/06/10 Python
python实现二分类和多分类的ROC曲线教程
2020/06/15 Python
美国成衣女装品牌:CHICO’S
2016/09/19 全球购物
香港中原电器网上商店:Chung Yuen
2019/06/26 全球购物
意大利和国际奢侈品牌购物网站:Suitnegozi.com
2021/01/15 全球购物
定义一结构体数组表示分数,并求两个分数相加之和
2013/06/11 面试题
学生会个人自荐书范文
2014/02/12 职场文书
《宋庆龄故居的樟树》教学反思
2014/04/07 职场文书
锅炉工岗位职责
2015/02/13 职场文书
傲慢与偏见读书笔记
2015/06/29 职场文书
2016反腐倡廉警示教育心得体会
2016/01/13 职场文书
分位数回归模型quantile regeression应用详解及示例教程
2021/11/02 Python