Python数据处理的三个实用技巧分享


Posted in Python onApril 01, 2022

我使用的 Pandas 版本如下,顺便也导入 Pandas 库。

>>> import pandas as pd
>>> pd.__version__
'0.25.1'

在开始前先确保解释器和数据集在同一目录下:

>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']

准备工作就位后,正式开始数据处理技巧之旅。

1 Pandas 移除某列

导入数据

>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
   Rank                    Title                    Genre  ...   Votes Revenue (Millions) Metascore
0     1  Guardians of the Galaxy  Action,Adventure,Sci-Fi  ...  757074             333.13      76.0

[1 rows x 12 columns]

使用 pop 方法移除指定列:

>>> meta = df.pop("Title").to_frame() # 移除 Title 列

确认是否已被移除:

>>> df.head(1) # df 变为 11列
   Rank                    Genre  ... Revenue (Millions) Metascore
0     1  Action,Adventure,Sci-Fi  ...             333.13      76.0

[1 rows x 11 columns]

2 统计标题单词数

pop 后得到 meta,显示 meta 前 3 行:

>>> meta.head(3)
                     Title
0  Guardians of the Galaxy
1               Prometheus
2                    Split

标题是由单词组成,中间用空格分隔。

# .str.count(" ") + 1 得到单词个数 
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1 
>>> meta.head(3) # words_count 列代表单词个数
                     Title  words_count
0  Guardians of the Galaxy            4
1               Prometheus            1
2                    Split            1

3 Genre 频次统计

下面统计电影 Genre 的频次,

>>> vc = df["Genre"].value_counts()

下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:

>>> vc.head()
Action,Adventure,Sci-Fi    50
Drama                      48
Comedy,Drama,Romance       35
Comedy                     32
Drama,Romance              31
Name: Genre, dtype: int64

展示 Top5 的饼状图:

>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()

Python数据处理的三个实用技巧分享

到此这篇关于Python数据处理的三个实用技巧分享的文章就介绍到这了,更多相关Python 数据处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python文件操作类操作实例详解
Jul 11 Python
用Python遍历C盘dll文件的方法
May 06 Python
Python实现批量转换文件编码的方法
Jul 28 Python
python向已存在的excel中新增表,不覆盖原数据的实例
May 02 Python
对python的unittest架构公共参数token提取方法详解
Dec 17 Python
python代码 FTP备份交换机配置脚本实例解析
Aug 01 Python
Python中PyQt5/PySide2的按钮控件使用实例
Aug 17 Python
TensorFlow实现从txt文件读取数据
Feb 05 Python
Django中的session用法详解
Mar 09 Python
pytorch实现查看当前学习率
Jun 24 Python
python正则表达式 匹配反斜杠的操作方法
Aug 07 Python
python统计mysql数据量变化并调用接口告警的示例代码
Sep 21 Python
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
python 离散点图画法的实现
Python学习之迭代器详解
Python实战之大鱼吃小鱼游戏的实现
You might like
一个漂亮的php验证码类(分享)
2013/08/06 PHP
Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 2611816 bytes)
2014/11/08 PHP
php格式化金额函数分享
2015/02/02 PHP
PHP中ID设置自增后不连续的原因分析及解决办法
2016/08/21 PHP
php操作xml并将其插入数据库的实现方法
2016/09/08 PHP
PHP开发中解决并发问题的几种实现方法分析
2017/11/13 PHP
iis6+javascript Add an Extension File
2007/06/13 Javascript
jquery 入门教程 [翻译] 推荐
2009/08/17 Javascript
jQuery 使用手册(六)
2009/09/23 Javascript
一款js和css代码压缩工具[附JAVA环境配置方法]
2010/04/16 Javascript
在JavaScript中获取请求的URL参数[正则]
2010/12/25 Javascript
文本框根据输入内容自适应高度的代码
2011/10/24 Javascript
JavaScript 函数参数是传值(byVal)还是传址(byRef) 分享
2013/07/02 Javascript
JS无限极树形菜单,json格式、数组格式通用示例
2013/07/30 Javascript
聊一聊JS中的prototype
2016/09/29 Javascript
Vue2几种常见开局方式详解
2017/09/09 Javascript
angularjs实现天气预报功能
2020/06/16 Javascript
Vue 换肤的示例实践
2018/01/23 Javascript
原生js实现each方法实例代码详解
2019/05/27 Javascript
socket在egg中的使用实例代码详解
2019/05/30 Javascript
使用xampp将angular项目运行在web服务器的教程
2019/09/16 Javascript
Vue extend的基本用法(实例详解)
2019/12/09 Javascript
es6函数之rest参数用法实例分析
2020/04/18 Javascript
python自动12306抢票软件实现代码
2018/02/24 Python
python 实现的发送邮件模板【普通邮件、带附件、带图片邮件】
2019/07/06 Python
与Django结合利用模型对上传图片预测的实例详解
2019/08/07 Python
python图片二值化提高识别率代码实例
2019/08/24 Python
python 实现从高分辨图像上抠取图像块
2020/01/02 Python
Tensorflow 实现释放内存
2020/02/03 Python
python GUI框架pyqt5 对图片进行流式布局的方法(瀑布流flowlayout)
2020/03/12 Python
Python通过Schema实现数据验证方式
2020/11/12 Python
总裁助理岗位职责
2014/02/17 职场文书
2014机关党员干部“正风肃纪”思想汇报
2014/09/15 职场文书
书法社团活动总结
2015/05/07 职场文书
小兵张嘎观后感
2015/06/03 职场文书
Nginx反向代理多个服务器的实现方法
2021/03/31 Servers