pandas 选取行和列数据的方法详解


Posted in Python onAugust 08, 2019

前言

本文介绍在 pandas 中如何读取数据行列的方法。数据由行和列组成,在数据库中,一般行被称作记录 (record),列被称作字段 (field)。回顾一下我们对记录和字段的获取方式:一般情况下,字段根据名称获取,记录根据筛选条件获取。比如获取 student_id 和 studnent_name 两个字段;记录筛选,比如 sales_amount 大于 10000 的所有记录。对于熟悉 SQL 语句的人来说,就是下面的语句:

select student_id, student_name
from exam_scores
where chinese >= 90 and math >= 90

上面的 SQL 语句表示从考试成绩表 (exam_scores) 中,筛选出语文和数学都大于或等于 90 分的所有学生 id 和 name。学习 pandas 数据获取,推荐这种以数据处理的目标为导向的方式,而不是被动的按 pandas 提供的 loc, iloc的语法中,一条条顺序学习。

本篇我们要分析的关于销售数量和金额的一组数据,数据存放在 csv 文件中。示例数据我在 github 上放了一份,方便大家对照练习。

pandas 选取行和列数据的方法详解

选择列

以下两种方法返回 Series 类型:

import pandas as pd
df = pd.read_csv('sample-salesv3.csv')
df.name
# 或者
df['name']

如果需要返回 DataFrame 格式,使用 list 作为参数。为了方便说明,给出在 jupyter notebook 中显示的界面。

pandas 选取行和列数据的方法详解

如果需要选取多列,传给 DataFrame 一个包含列名的 list:

pandas 选取行和列数据的方法详解

选择行

假设我们要筛选 quantity < 0 的所有记录:

pandas 选取行和列数据的方法详解

按多条件筛选的处理方式。假设想筛选 quantity < 0 并且 unit price > 50 的所有记录:

pandas 选取行和列数据的方法详解

代码:

criteria = (df['quantity'] < 0) & (df['unit price'] > 50)
df[criteria].head()

在 pandas 中,AND 条件的运算符为 & ,OR 条件的运算符为 |。假设想筛选所有 quantity > 30 或 unit price > 50 的记录:

pandas 选取行和列数据的方法详解

代码:

criteria = (df['quantity'] > 30) | (df['unit price'] > 50)
df[criteria].head()

基于字符串的记录筛选

如果筛选条件为基于字符串,可以使用用 Series.str.xxx 方法,主要有 startswith, endswith 和 contains等。举一个例子,筛选出所有 name 含有 White 的记录:

pandas 选取行和列数据的方法详解

代码:

criteria = df['name'].str.contains('White')
df[criteria].head()

这里解释一下 pandas 布尔索引 (boolean indexing) 的概念。布尔索引的意思是首先构建一个与 DataFrame 的 index 长度相同的一个 boolean 向量 (boolean vector),这个向量中只包含 True 或者 False,布尔索引是一个 Series。

然后 DataFrame 在筛选的时候,基于 DataFrame 的行索引,当布尔索引相同行索引所在行的 value 为 True 时,DataFrame 的这一行就包含在筛选之中,否则就排除在外。

为了能看得更加清晰,我们把上面的例子用另外一个方法来展示。创建一个新列:is_selected,这一列是一个布尔索引。

df['is_selected'] = df['name'].str.contains('White')

我们看到,is_selected 由 True 和 False 构成。

pandas 选取行和列数据的方法详解

构建了 is_selected 列之后,通过df[df['name'].str.contains('White')] 筛选与下面的语句作用相同:

df[df['is_selected'] == True]

可以把 df['name'].str.contains('White') 这个布尔索引理解为构建了一个新列,然后基于这一列进行筛选。

基于 DateTime 类型的记录筛选

如果列的类型是 DateTime 类型,比如本示例的 date 列。pandas 读取 csv 文件时,date 列是 str 类型,所以我们先将 date 列转换成 datetime 类型,然后基于 pandas 的 Timestamp 类型构建筛选条件。

# 将 date 列转换成 datetime 类型
df['date'] = pd.to_datetime(df['date'])

# 筛选条件为日期大于 2014/4/1
criteria = df['date'] > pd.Timestamp(2014,4,1)
df[criteria].head()

pandas 选取行和列数据的方法详解

同时选择行和列

如果基于本篇所说的模式,同时选择行和列,最简单的方法是组合,比如先基于行构建 DataFrame,然后再基于这个 DataFrame 选取需要的列:

where = df['name'].str.contains('White')
cols = ['name', 'quantity', 'unit price', 'ext price']
df[where][cols].head()

pandas 选取行和列数据的方法详解

参考

Comparison with SQL

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用Python写CUDA程序的方法
Mar 27 Python
Django migrations 默认目录修改的方法教程
Sep 28 Python
python实现在cmd窗口显示彩色文字
Jun 24 Python
Python文件操作中进行字符串替换的方法(保存到新文件/当前文件)
Jun 28 Python
python实现beta分布概率密度函数的方法
Jul 08 Python
python选取特定列 pandas iloc,loc,icol的使用详解(列切片及行切片)
Aug 06 Python
Python中函数的返回值示例浅析
Aug 28 Python
python可视化实现KNN算法
Oct 16 Python
关于Tensorflow分布式并行策略
Feb 03 Python
Python3.6安装卸载、执行命令、执行py文件的方法详解
Feb 20 Python
Restful_framework视图组件代码实例解析
Nov 17 Python
Python偏函数实现原理及应用
Nov 20 Python
pandas 对日期类型数据的处理方法详解
Aug 08 #Python
解决Python设置函数调用超时,进程卡住的问题
Aug 08 #Python
Python 根据日志级别打印不同颜色的日志的方法示例
Aug 08 #Python
Python学习笔记之错误和异常及访问错误消息详解
Aug 08 #Python
Python实现直方图均衡基本原理解析
Aug 08 #Python
python获取指定日期范围内的每一天,每个月,每季度的方法
Aug 08 #Python
Python 调用 Outlook 发送邮件过程解析
Aug 08 #Python
You might like
adodb与adodb_lite之比较
2006/12/31 PHP
PHP中其实也可以用方法链
2011/11/10 PHP
php+ajax实现无刷新数据分页的办法
2015/11/02 PHP
php 命名空间(namespace)原理与用法实例小结
2019/11/13 PHP
laravel框架数据库操作、查询构建器、Eloquent ORM操作实例分析
2019/12/20 PHP
javascript数组去掉重复
2011/05/12 Javascript
jQuery对于显示和隐藏等常用状态的判断方法
2014/12/13 Javascript
JavaScript之AOP编程实例
2015/07/17 Javascript
Bootstrap CSS组件之输入框组
2016/12/17 Javascript
JavaScript自定义文本框光标
2017/03/05 Javascript
jQuery插件FusionCharts绘制ScrollColumn2D图效果示例【附demo源码下载】
2017/03/22 jQuery
Vue的MVVM实现方法
2017/08/16 Javascript
vue利用v-for嵌套输出多层对象,分别输出到个表的方法
2018/09/07 Javascript
深入理解javascript prototype的相关知识
2019/09/19 Javascript
vue 检测用户上传图片宽高的方法
2020/02/06 Javascript
vue通过接口直接下载java生成好的Excel表格案例
2020/10/26 Javascript
React服务端渲染原理解析与实践
2021/03/04 Javascript
[20:21]《一刀刀一天》第十六期:TI国际邀请赛正式打响,总奖金超过550万
2014/05/23 DOTA
[59:59]EG vs IG 2018国际邀请赛小组赛BO2 第二场 8.16
2018/08/17 DOTA
在python中的socket模块使用代理实例
2014/05/29 Python
Python中实现从目录中过滤出指定文件类型的文件
2015/02/02 Python
python3.4下django集成使用xadmin后台的方法
2017/08/15 Python
Python简单过滤字母和数字的方法小结
2019/01/09 Python
Python网络编程之使用TCP方式传输文件操作示例
2019/11/01 Python
python框架flask表单实现详解
2019/11/04 Python
Python Django中间件使用原理及流程分析
2020/06/13 Python
Julep官网:美容产品和指甲油
2017/02/25 全球购物
无畏的旅行:Intrepid Travel
2017/12/20 全球购物
马来西亚和新加坡巴士票在线预订:CatchThatBus
2018/11/17 全球购物
后勤主管工作职责
2013/12/07 职场文书
2014年入党积极分子党课学习心得体会模板
2014/04/03 职场文书
八项规定整改方案
2014/10/01 职场文书
学期个人工作总结
2015/02/13 职场文书
党员转正介绍人意见
2015/06/03 职场文书
python自动化测试之Selenium详解
2022/03/13 Python
Python os和os.path模块详情
2022/04/02 Python