Python数据处理的三个实用技巧分享


Posted in Python onApril 01, 2022

我使用的 Pandas 版本如下,顺便也导入 Pandas 库。

>>> import pandas as pd
>>> pd.__version__
'0.25.1'

在开始前先确保解释器和数据集在同一目录下:

>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']

准备工作就位后,正式开始数据处理技巧之旅。

1 Pandas 移除某列

导入数据

>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
   Rank                    Title                    Genre  ...   Votes Revenue (Millions) Metascore
0     1  Guardians of the Galaxy  Action,Adventure,Sci-Fi  ...  757074             333.13      76.0

[1 rows x 12 columns]

使用 pop 方法移除指定列:

>>> meta = df.pop("Title").to_frame() # 移除 Title 列

确认是否已被移除:

>>> df.head(1) # df 变为 11列
   Rank                    Genre  ... Revenue (Millions) Metascore
0     1  Action,Adventure,Sci-Fi  ...             333.13      76.0

[1 rows x 11 columns]

2 统计标题单词数

pop 后得到 meta,显示 meta 前 3 行:

>>> meta.head(3)
                     Title
0  Guardians of the Galaxy
1               Prometheus
2                    Split

标题是由单词组成,中间用空格分隔。

# .str.count(" ") + 1 得到单词个数 
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1 
>>> meta.head(3) # words_count 列代表单词个数
                     Title  words_count
0  Guardians of the Galaxy            4
1               Prometheus            1
2                    Split            1

3 Genre 频次统计

下面统计电影 Genre 的频次,

>>> vc = df["Genre"].value_counts()

下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:

>>> vc.head()
Action,Adventure,Sci-Fi    50
Drama                      48
Comedy,Drama,Romance       35
Comedy                     32
Drama,Romance              31
Name: Genre, dtype: int64

展示 Top5 的饼状图:

>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()

Python数据处理的三个实用技巧分享

到此这篇关于Python数据处理的三个实用技巧分享的文章就介绍到这了,更多相关Python 数据处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
linux 下实现python多版本安装实践
Nov 18 Python
Python基础入门之seed()方法的使用
May 15 Python
numpy中实现二维数组按照某列、某行排序的方法
Apr 04 Python
python的格式化输出(format,%)实例详解
Jun 01 Python
Anaconda2下实现Python2.7和Python3.5的共存方法
Jun 11 Python
transform python环境快速配置方法
Sep 27 Python
对pandas中时间窗函数rolling的使用详解
Nov 28 Python
python 实现一次性在文件中写入多行的方法
Jan 28 Python
python实现控制COM口的示例
Jul 03 Python
python 简单的调用有道翻译
Nov 25 Python
Python排序算法之插入排序及其优化方案详解
Jun 11 Python
Python语法学习之进程的创建与常用方法详解
Apr 08 Python
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
python 离散点图画法的实现
Python学习之迭代器详解
Python实战之大鱼吃小鱼游戏的实现
You might like
php计算数组不为空元素个数的方法
2014/01/27 PHP
php学习笔记之基础知识
2014/11/08 PHP
php框架CodeIgniter主从数据库配置方法分析
2018/05/25 PHP
如何用javascript控制上传文件的大小
2006/10/26 Javascript
一个页面元素appendchild追加到另一个页面元素的问题
2013/01/27 Javascript
jquery实现点击页面计算点击次数
2015/01/23 Javascript
JQuery入门基础小实例(1)
2015/09/17 Javascript
JavaScript Length 属性的总结
2015/11/02 Javascript
学习使用Bootstrap页面排版样式
2017/05/11 Javascript
12个非常有用的JavaScript技巧
2017/05/17 Javascript
JS FormData上传文件的设置方法
2017/07/05 Javascript
javascript定时器取消定时器及优化方法
2017/07/08 Javascript
Vue实战之vue登录验证的实现代码
2017/10/31 Javascript
create-react-app安装出错问题解决方法
2018/09/04 Javascript
vue-router 前端路由之路由传值的方式详解
2019/04/30 Javascript
Vue2.0使用嵌套路由实现页面内容切换/公用一级菜单控制页面内容切换(推荐)
2019/05/08 Javascript
11个并不被常用但对开发非常有帮助的Python库
2015/03/31 Python
Python单元测试框架unittest简明使用实例
2015/04/13 Python
对pandas读取中文unicode的csv和添加行标题的方法详解
2018/12/12 Python
详解pandas库pd.read_excel操作读取excel文件参数整理与实例
2019/02/17 Python
python爬虫豆瓣网的模拟登录实现
2019/08/21 Python
From CSV to SQLite3 by python 导入csv到sqlite实例
2020/02/14 Python
解决tensorflow读取本地MNITS_data失败的原因
2020/06/22 Python
expedia比利时:预订航班+酒店并省钱
2018/07/13 全球购物
女孩每月服装订阅盒:kidpik
2019/04/17 全球购物
比较基础的php面试题及答案-编程题
2012/10/14 面试题
乡镇个人对照检查材料
2014/08/22 职场文书
英语教育专业毕业生求职信
2014/08/28 职场文书
交通运输局四风问题对照检查材料思想汇报
2014/10/09 职场文书
劳资员岗位职责
2015/02/13 职场文书
导游词之山东红叶谷
2019/10/31 职场文书
python-for x in range的用法(注意要点、细节)
2021/05/10 Python
python基础之类方法和静态方法
2021/10/24 Python
教你使用VS Code的MySQL扩展管理数据库的方法
2022/01/22 MySQL
Django + Taro 前后端分离项目实现企业微信登录功能
2022/04/07 Python
MySQL自定义函数及触发器
2022/08/05 MySQL