编程 Python

利用 Python 的 Pandas和 NumPy 库来清理数据

Posted in Python onApril 13, 2022

准备工作

导入模块后就开始正式的数据预处理吧。

import pandas as pd
import numpy as np

DataFrame 列的删除

通常会发现并非数据集中的所有数据类别都有用。例如可能有一个包含学生信息（姓名、年级、标准、父母姓名和地址）的数据集，但希望专注于分析学生成绩。在这种情况下地址或父母的姓名并不重要。保留这些不需要的数据将占用不必要的空间。

BL-Flickr-Images-Book.csv 数据操作。

df = pd.read_csv('数据科学必备Pandas、NumPy进行数据清洗/BL-Flickr-Images-Book.csv')
df.head()

利用 Python 的 Pandas和 NumPy 库来清理数据

可以看到这些列是对 Edition Statement, Corporate Author, Corporate Contributors, Former owner, Engraver, Issuance type and Shelfmarks 没有任何信息帮助的，因此可以进行批量删除处理。

to_drop_column = [ 'Edition Statement',
                   'Corporate Author',
                   'Corporate Contributors',
                   'Former owner',
                   'Engraver',
                   'Contributors',
                   'Issuance type',
                   'Shelfmarks']

df.drop(to_drop_column , inplace=True, axis=1)
df.head()

利用 Python 的 Pandas和 NumPy 库来清理数据

DataFrame 索引更改

Pandas 索引扩展了 NumPy 数组的功能，以允许更通用的切片和标记。在许多情况下，使用数据的唯一值标识字段作为其索引是有帮助的。

获取唯一标识符。

df['Identifier'].is_unique
True

Identifier列替换索引列。

df = df.set_index('Identifier')
df.head()

利用 Python 的 Pandas和 NumPy 库来清理数据

206 是索引的第一个标签，可以使用 df.iloc[0] 基于位置的索引访问。

DataFrame 数据字段整理

清理特定列并将它们转换为统一格式，以更好地理解数据集并强制保持一致性。

处理 Date of Publication 出版日期列，发现该数据列格式并不统一。

df.loc[1905:, 'Date of Publication'].head(10)

Identifier
1905           1888
1929    1839, 38-54
2836           1897
2854           1865
2956        1860-63
2957           1873
3017           1866
3131           1899
4598           1814
4884           1820
Name: Date of Publication, dtype: object

我们可以使用正则表达式的方式直接提取连续的4个数字即可。

extr = df['Date of Publication'].str.extract(r'^(\d{4})', expand=False)
extr.head()

Identifier
206    1879
216    1868
218    1869
472    1851
480    1857
Name: Date of Publication, dtype: object

最后获取数字字段列。

df['Date of Publication'] = pd.to_numeric(extr)

str 方法与 NumPy 结合清理列

df[‘Date of Publication’].str 。此属性是一种在 Pandas 中访问快速字符串操作的方法，这些操作在很大程度上模仿了对原生 Python 字符串或编译的正则表达式的操作，例如 .split()、.replace() 和 .capitalize()。

要清理 Place of Publication 字段，我们可以将 Pandas 的 str 方法与 NumPy 的 np.where 函数结合起来，该函数基本上是 Excel 的 IF() 宏的矢量化形式。

np.where(condition, then, else)

在这里 condition 要么是一个类似数组的对象，要么是一个布尔掩码。 then 是如果条件评估为 True 时使用的值，否则是要使用的值。

本质上 .where() 获取用于条件的对象中的每个元素，检查该特定元素在条件上下文中的计算结果是否为 True，并返回一个包含 then 或 else 的 ndarray，具体取决于哪个适用。可以嵌套在复合 if-then 语句中，允许根据多个条件计算值.

处理 Place of Publication 出版地数据。

df['Place of Publication'].head(10)

Identifier
206                                  London
216                London; Virtue & Yorston
218                                  London
472                                  London
480                                  London
481                                  London
519                                  London
667     pp. 40. G. Bryan & Co: Oxford, 1898
874                                 London]
1143                                 London
Name: Place of Publication, dtype: object

使用包含的方式提取需要的数据信息。

pub = df['Place of Publication']
london = pub.str.contains('London')
london[:5]

Identifier
206    True
216    True
218    True
472    True
480    True
Name: Place of Publication, dtype: bool

也可以使用 np.where 处理。

df['Place of Publication'] = np.where(london, 'London',
                                      pub.str.replace('-', ' ')))

Identifier
206                     London
216                     London
218                     London
472                     London
480                     London
                  ...         
4158088                 London
4158128                  Derby
4159563                 London
4159587    Newcastle upon Tyne
4160339                 London
Name: Place of Publication, Length: 8287, dtype: object

apply 函数清理整个数据集

在某些情况下，将自定义函数应用于 DataFrame 的每个单元格或元素。 Pandas.apply() 方法类似于内置的 map() 函数，只是将函数应用于 DataFrame 中的所有元素。

例如将数据的发布日期进行处理成 xxxx 年的格式，就可以使用apply。

def clean_date(text):
    try:
        return str(int(text)) + "年"
    except:
        return text

df["new_date"] = df["Date of Publication"].apply(clean_date)
df["new_date"] 

Identifier
206        1879年
216        1868年
218        1869年
472        1851年
480        1857年
           ...  
4158088    1838年
4158128    1831年
4159563      NaN
4159587    1834年
4160339    1834年
Name: new_date, Length: 8287, dtype: object

DataFrame 跳过行

olympics_df = pd.read_csv('数据科学必备Pandas、NumPy进行数据清洗/olympics.csv')
olympics_df.head()

利用 Python 的 Pandas和 NumPy 库来清理数据

可以在读取数据时候添加参数跳过某些不要的行，比如索引 0 行。

olympics_df = pd.read_csv('数据科学必备Pandas、NumPy进行数据清洗/olympics.csv',header=1)
olympics_df.head()

利用 Python 的 Pandas和 NumPy 库来清理数据

DataFrame 重命名列

new_names =  {'Unnamed: 0': 'Country',
              '? Summer': 'Summer Olympics',
               '01 !': 'Gold',
              '02 !': 'Silver',
              '03 !': 'Bronze',
              '? Winter': 'Winter Olympics',
              '01 !.1': 'Gold.1',
              '02 !.1': 'Silver.1',
              '03 !.1': 'Bronze.1',
              '? Games': '# Games',
              '01 !.2': 'Gold.2',
              '02 !.2': 'Silver.2',
              '03 !.2': 'Bronze.2'}

olympics_df.rename(columns=new_names, inplace=True)

olympics_df.head()

利用 Python 的 Pandas和 NumPy 库来清理数据

以上就是详解Python如何利用Pandas与NumPy进行数据清洗的详细内容！

利用 Python 的 Pandas和 NumPy 库来清理数据

- Author -

Mr数据杨

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用百度翻译进行中翻英示例

Apr 14 Python

Python自动生产表情包

Mar 17 Python

利用Python实现原创工具的Logo与Help

Dec 03 Python

Python构建图像分类识别器的方法

Jan 12 Python

python如何获取当前文件夹下所有文件名详解

Jan 25 Python

python基于paramiko将文件上传到服务器代码实现

Jul 08 Python

Django ORM 查询管理器源码解析

Aug 05 Python

pytorch 更改预训练模型网络结构的方法

Aug 19 Python

python使用celery实现异步任务执行的例子

Aug 28 Python

在Python中等距取出一个数组其中n个数的实现方式

Nov 27 Python

python3读取csv文件任意行列代码实例

Jan 13 Python

详解使用scrapy进行模拟登陆三种方式

Feb 21 Python

Python matplotlib多个子图绘制整合

Python之matplotlib绘制折线图

Python之matplotlib绘制饼图

Python线程池与GIL全局锁实现抽奖小案例

Python之Matplotlib绘制热力图和面积图

Python matplotlib绘制雷达图

Python万能模板案例之matplotlib绘制甘特图

You might like

php 论坛采集程序模拟登陆，抓取页面实现代码

2009/07/09 PHP

php网站判断用户是否是手机访问的方法

2013/11/01 PHP

php自动给网址加上链接的方法

2015/06/02 PHP

3种方法轻松处理php开发中emoji表情的问题

2016/07/18 PHP

PHP进程通信基础之信号量与共享内存通信

2017/02/19 PHP

jQuery下的几个你可能没用过的功能

2010/08/29 Javascript

JS案例分享之金额小写转大写

2014/05/15 Javascript

js如何判断访问是来自搜索引擎(蜘蛛人)还是直接访问

2015/09/14 Javascript

Jquery+Ajax+PHP+MySQL实现分类列表管理(上)

2015/10/28 Javascript

轻松实现javascript数据双向绑定

2015/11/11 Javascript

javascript从作用域链谈闭包

2020/07/29 Javascript

JavaScript的instanceof运算符学习教程

2016/06/08 Javascript

JS实现身份证输入框的输入效果

2017/08/21 Javascript

Angularjs 1.3 中的$parse实例代码

2017/09/14 Javascript

jQuery选择器之属性筛选选择器用法详解

2017/09/19 jQuery

详解Vue2 SSR 缓存 Api 数据

2017/11/20 Javascript

详解滑动穿透(锁body)终极探索

2019/04/16 Javascript

简单了解前端渐进式框架VUE

2020/07/20 Javascript

vue.js页面加载执行created,mounted的先后顺序说明

2020/11/07 Javascript

pandas数值计算与排序方法

2018/04/12 Python

解决tensorflow测试模型时NotFoundError错误的问题

2018/07/27 Python

Python基础之条件控制操作示例【if语句】

2019/03/23 Python

jupyter lab的目录调整及设置默认浏览器为chrome的方法

2020/04/10 Python

Python urllib2运行过程原理解析

2020/06/04 Python

基于matplotlib中ion()和ioff()的使用详解

2020/06/16 Python

python3从网络摄像机解析mjpeg http流的示例

2020/11/13 Python

input file上传文件样式支持html5的浏览器解决方案

2012/11/14 HTML / CSS

zooplus意大利：在线宠物商店

2019/08/07 全球购物

js正则匹配markdown里的图片标签的实现

2021/03/24 Javascript

优秀交警事迹材料

2014/01/26 职场文书

电大本科自我鉴定

2014/02/05 职场文书

个人授权委托书范本格式

2014/10/12 职场文书

法律进社区活动总结

2015/05/07 职场文书

2016年安全生产先进个人事迹材料

2016/02/29 职场文书

python 实现两个变量值进行交换的n种操作

2021/06/02 Python

《最终幻想14》6.01版本4月5日推出追加新任务新道具

2022/04/03 其他游戏