编程 Python

pandas 选取行和列数据的方法详解

Posted in Python onAugust 08, 2019

前言

本文介绍在 pandas 中如何读取数据行列的方法。数据由行和列组成，在数据库中，一般行被称作记录 (record)，列被称作字段 (field)。回顾一下我们对记录和字段的获取方式：一般情况下，字段根据名称获取，记录根据筛选条件获取。比如获取 student_id 和 studnent_name 两个字段；记录筛选，比如 sales_amount 大于 10000 的所有记录。对于熟悉 SQL 语句的人来说，就是下面的语句：

select student_id, student_name
from exam_scores
where chinese >= 90 and math >= 90

上面的 SQL 语句表示从考试成绩表 (exam_scores) 中，筛选出语文和数学都大于或等于 90 分的所有学生 id 和 name。学习 pandas 数据获取，推荐这种以数据处理的目标为导向的方式，而不是被动的按 pandas 提供的 loc, iloc的语法中，一条条顺序学习。

本篇我们要分析的关于销售数量和金额的一组数据，数据存放在 csv 文件中。示例数据我在 github 上放了一份，方便大家对照练习。

pandas 选取行和列数据的方法详解

选择列

以下两种方法返回 Series 类型:

import pandas as pd
df = pd.read_csv('sample-salesv3.csv')
df.name
# 或者
df['name']

如果需要返回 DataFrame 格式，使用 list 作为参数。为了方便说明，给出在 jupyter notebook 中显示的界面。

pandas 选取行和列数据的方法详解

如果需要选取多列，传给 DataFrame 一个包含列名的 list：

pandas 选取行和列数据的方法详解

选择行

假设我们要筛选 quantity < 0 的所有记录：

pandas 选取行和列数据的方法详解

按多条件筛选的处理方式。假设想筛选 quantity < 0 并且 unit price > 50 的所有记录：

pandas 选取行和列数据的方法详解

代码：

criteria = (df['quantity'] < 0) & (df['unit price'] > 50)
df[criteria].head()

在 pandas 中，AND 条件的运算符为 & ，OR 条件的运算符为 |。假设想筛选所有 quantity > 30 或 unit price > 50 的记录：

pandas 选取行和列数据的方法详解

代码：

criteria = (df['quantity'] > 30) | (df['unit price'] > 50)
df[criteria].head()

基于字符串的记录筛选

如果筛选条件为基于字符串，可以使用用 Series.str.xxx 方法，主要有 startswith, endswith 和 contains等。举一个例子，筛选出所有 name 含有 White 的记录：

pandas 选取行和列数据的方法详解

代码：

criteria = df['name'].str.contains('White')
df[criteria].head()

这里解释一下 pandas 布尔索引 (boolean indexing) 的概念。布尔索引的意思是首先构建一个与 DataFrame 的 index 长度相同的一个 boolean 向量 (boolean vector)，这个向量中只包含 True 或者 False，布尔索引是一个 Series。

然后 DataFrame 在筛选的时候，基于 DataFrame 的行索引，当布尔索引相同行索引所在行的 value 为 True 时，DataFrame 的这一行就包含在筛选之中，否则就排除在外。

为了能看得更加清晰，我们把上面的例子用另外一个方法来展示。创建一个新列：is_selected，这一列是一个布尔索引。

df['is_selected'] = df['name'].str.contains('White')

我们看到，is_selected 由 True 和 False 构成。

pandas 选取行和列数据的方法详解

构建了 is_selected 列之后，通过df[df['name'].str.contains('White')] 筛选与下面的语句作用相同：

df[df['is_selected'] == True]

可以把 df['name'].str.contains('White') 这个布尔索引理解为构建了一个新列，然后基于这一列进行筛选。

基于 DateTime 类型的记录筛选

如果列的类型是 DateTime 类型，比如本示例的 date 列。pandas 读取 csv 文件时，date 列是 str 类型，所以我们先将 date 列转换成 datetime 类型，然后基于 pandas 的 Timestamp 类型构建筛选条件。

# 将 date 列转换成 datetime 类型
df['date'] = pd.to_datetime(df['date'])

# 筛选条件为日期大于 2014/4/1
criteria = df['date'] > pd.Timestamp(2014,4,1)
df[criteria].head()

pandas 选取行和列数据的方法详解

同时选择行和列

如果基于本篇所说的模式，同时选择行和列，最简单的方法是组合，比如先基于行构建 DataFrame，然后再基于这个 DataFrame 选取需要的列：

where = df['name'].str.contains('White')
cols = ['name', 'quantity', 'unit price', 'ext price']
df[where][cols].head()

pandas 选取行和列数据的方法详解

参考

Comparison with SQL

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

pandas 选取行和列数据的方法详解

- Author -

Stone0823

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用ctypes模块调用windowsapi获取系统版本示例

Apr 17 Python

python中MySQLdb模块用法实例

Nov 10 Python

Python 数据结构之旋转链表

Feb 25 Python

python中闭包Closure函数作为返回值的方法示例

Dec 17 Python

利用python如何处理百万条数据(适用java新手)

Jun 06 Python

详解Python数据可视化编程 - 词云生成并保存（jieba+WordCloud）

Mar 26 Python

python全栈要学什么 python全栈学习路线

Jun 28 Python

解决Django中多条件查询的问题

Jul 18 Python

Python Django Vue 项目创建过程详解

Jul 29 Python

Python socket处理client连接过程解析

Mar 18 Python

Python简单实现词云图代码及步骤解析

Jun 04 Python

使用Keras预训练好的模型进行目标类别预测详解

Jun 27 Python

pandas 对日期类型数据的处理方法详解

Aug 08 #Python

解决Python设置函数调用超时,进程卡住的问题

Aug 08 #Python

Python 根据日志级别打印不同颜色的日志的方法示例

Aug 08 #Python

Python学习笔记之错误和异常及访问错误消息详解

Aug 08 #Python

Python实现直方图均衡基本原理解析

Aug 08 #Python

python获取指定日期范围内的每一天，每个月，每季度的方法

Aug 08 #Python

Python 调用 Outlook 发送邮件过程解析

Aug 08 #Python

You might like

PHP中json_encode、json_decode与serialize、unserialize的性能测试分析

2010/06/09 PHP

php flush无效,IIS7下php实时输出的方法

2016/08/25 PHP

php解决crontab定时任务不能写入文件问题的方法分析

2019/09/16 PHP

JavaScript和JQuery实用代码片段（一）

2010/04/07 Javascript

通过Jquery遍历Json的两种数据结构的实现代码

2011/01/19 Javascript

JS根据变量保存方法名并执行方法示例

2014/04/04 Javascript

jquery实现点击页面计算点击次数

2015/01/23 Javascript

限制上传文件大小和格式的jQuery插件实例

2015/01/24 Javascript

javascript将数字转换整数金额大写的方法

2015/01/27 Javascript

Javascript中this关键字的一些小知识

2015/03/15 Javascript

基于javascript制作微信聊天面板

2020/08/09 Javascript

javascript中arguments,callee,caller详解

2016/03/16 Javascript

12个非常有用的JavaScript技巧

2017/05/17 Javascript

React服务端渲染（总结）

2017/07/01 Javascript

Vue组件选项props实例详解

2017/08/18 Javascript

使用JS实现图片轮播的实例(前后首尾相接)

2017/09/21 Javascript

vue.js做一个简单的编辑菜谱功能

2018/05/08 Javascript

vue定义全局变量和全局方法的方法示例

2018/08/01 Javascript

layer实现登录弹框,登录成功后关闭弹框并调用父窗口的例子

2019/09/11 Javascript

vue分页插件的使用方法

2019/12/25 Javascript

vue实现移动端触屏拖拽功能

2020/08/21 Javascript

vue3.0生命周期的示例代码

2020/09/24 Javascript

vue+elementui通用弹窗的实现(新增+编辑)

2021/01/07 Vue.js

Python中对数组集进行按行打乱shuffle的方法

2018/11/08 Python

python查看数据类型的方法

2019/10/12 Python

根据tensor的名字获取变量的值方式

2020/01/04 Python

python实现斗地主分牌洗牌

2020/06/22 Python

CSS+jQuery实现的在线答题功能

2015/04/25 HTML / CSS

Sunglasses Shop瑞典：欧洲领先的太阳镜网上商店

2018/04/22 全球购物

Java的接口和C++的虚类的相同和不同处

2014/03/27 面试题

幼师自我鉴定

2014/02/01 职场文书

质量承诺书怎么写

2014/05/24 职场文书

启动仪式策划方案

2014/06/14 职场文书

2014初中数学教研组工作总结

2014/12/19 职场文书

公司承诺函范文

2015/01/21 职场文书

办公用品质量保证书

2015/05/11 职场文书