Python数据处理的三个实用技巧分享


Posted in Python onApril 01, 2022

我使用的 Pandas 版本如下,顺便也导入 Pandas 库。

>>> import pandas as pd
>>> pd.__version__
'0.25.1'

在开始前先确保解释器和数据集在同一目录下:

>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']

准备工作就位后,正式开始数据处理技巧之旅。

1 Pandas 移除某列

导入数据

>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
   Rank                    Title                    Genre  ...   Votes Revenue (Millions) Metascore
0     1  Guardians of the Galaxy  Action,Adventure,Sci-Fi  ...  757074             333.13      76.0

[1 rows x 12 columns]

使用 pop 方法移除指定列:

>>> meta = df.pop("Title").to_frame() # 移除 Title 列

确认是否已被移除:

>>> df.head(1) # df 变为 11列
   Rank                    Genre  ... Revenue (Millions) Metascore
0     1  Action,Adventure,Sci-Fi  ...             333.13      76.0

[1 rows x 11 columns]

2 统计标题单词数

pop 后得到 meta,显示 meta 前 3 行:

>>> meta.head(3)
                     Title
0  Guardians of the Galaxy
1               Prometheus
2                    Split

标题是由单词组成,中间用空格分隔。

# .str.count(" ") + 1 得到单词个数 
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1 
>>> meta.head(3) # words_count 列代表单词个数
                     Title  words_count
0  Guardians of the Galaxy            4
1               Prometheus            1
2                    Split            1

3 Genre 频次统计

下面统计电影 Genre 的频次,

>>> vc = df["Genre"].value_counts()

下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:

>>> vc.head()
Action,Adventure,Sci-Fi    50
Drama                      48
Comedy,Drama,Romance       35
Comedy                     32
Drama,Romance              31
Name: Genre, dtype: int64

展示 Top5 的饼状图:

>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()

Python数据处理的三个实用技巧分享

到此这篇关于Python数据处理的三个实用技巧分享的文章就介绍到这了,更多相关Python 数据处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
利用soaplib搭建webservice详细步骤和实例代码
Nov 20 Python
python 中的divmod数字处理函数浅析
Oct 17 Python
python3如何将docx转换成pdf文件
Mar 23 Python
浅谈Django中的数据库模型类-models.py(一对一的关系)
May 30 Python
Python中垃圾回收和del语句详解
Nov 15 Python
20行python代码的入门级小游戏的详解
May 05 Python
python查看数据类型的方法
Oct 12 Python
python字符串下标与切片及使用方法
Feb 13 Python
用Python绘制漫步图实例讲解
Feb 26 Python
宝塔面板成功部署Django项目流程(图文)
Jun 22 Python
python批量修改交换机密码的示例
Sep 22 Python
python爬虫中PhantomJS加载页面的实例方法
Nov 12 Python
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
python 离散点图画法的实现
Python学习之迭代器详解
Python实战之大鱼吃小鱼游戏的实现
You might like
长波有什么东西
2021/03/01 无线电
PHP注释语法规范与命名规范详解篇
2018/01/21 PHP
PHP折半(二分)查找算法实例分析
2018/05/12 PHP
PHP5.5新特性之yield理解与用法实例分析
2019/01/11 PHP
JQuery each()函数如何优化循环DOM结构的性能
2012/12/10 Javascript
jQuery实现将页面上HTML标签换成另外标签的方法
2015/06/09 Javascript
理解JavaScript表单的基础知识
2016/01/25 Javascript
JS组件Bootstrap dropdown组件扩展hover事件
2016/04/17 Javascript
JavaScript Math 对象常用方法总结
2016/04/28 Javascript
详解JavaScript设计模式开发中的桥接模式使用
2016/05/18 Javascript
vue分页组件table-pagebar使用实例解析
2020/11/15 Javascript
关于Sequelize连接查询时inlude中model和association的区别详解
2017/02/27 Javascript
javascript 正则表达式分组、断言详解
2017/04/20 Javascript
关于TypeScript模块导入的那些事
2018/06/12 Javascript
在weex中愉快的使用scss的方法步骤
2020/01/02 Javascript
jquery实现吸顶导航效果
2020/01/08 jQuery
js+canvas实现画板功能
2020/09/13 Javascript
[03:52]显微镜下的DOTA2第三期——英雄在无聊的时候干什么
2014/06/20 DOTA
Linux下Python获取IP地址的代码
2014/11/30 Python
浅析Python中的for 循环
2016/06/09 Python
python实时获取外部程序输出结果的方法
2019/01/12 Python
Python实现 PS 图像调整中的亮度调整
2019/06/28 Python
pytest中文文档之编写断言
2019/09/12 Python
python通过链接抓取网站详解
2019/11/20 Python
python中append函数用法讲解
2020/12/11 Python
美国汽车交易网站:Edmunds
2016/08/17 全球购物
比利时香水网上商店:NOTINO
2018/03/28 全球购物
美国中西部家用医疗设备商店:Med Mart(轮椅、踏板车、升降机等)
2019/04/26 全球购物
护士见习期自我鉴定
2014/02/08 职场文书
物流管理专业毕业生求职信
2014/03/23 职场文书
明信片寄语大全
2014/04/08 职场文书
后备干部推荐材料
2014/12/24 职场文书
2016年社区创先争优活动总结
2016/04/05 职场文书
AI:如何训练机器学习的模型
2021/04/16 Python
详解Redis复制原理
2021/06/04 Redis
oracle数据库去除重复数据
2022/05/20 Oracle