Python数据处理的三个实用技巧分享


Posted in Python onApril 01, 2022

我使用的 Pandas 版本如下,顺便也导入 Pandas 库。

>>> import pandas as pd
>>> pd.__version__
'0.25.1'

在开始前先确保解释器和数据集在同一目录下:

>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']

准备工作就位后,正式开始数据处理技巧之旅。

1 Pandas 移除某列

导入数据

>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
   Rank                    Title                    Genre  ...   Votes Revenue (Millions) Metascore
0     1  Guardians of the Galaxy  Action,Adventure,Sci-Fi  ...  757074             333.13      76.0

[1 rows x 12 columns]

使用 pop 方法移除指定列:

>>> meta = df.pop("Title").to_frame() # 移除 Title 列

确认是否已被移除:

>>> df.head(1) # df 变为 11列
   Rank                    Genre  ... Revenue (Millions) Metascore
0     1  Action,Adventure,Sci-Fi  ...             333.13      76.0

[1 rows x 11 columns]

2 统计标题单词数

pop 后得到 meta,显示 meta 前 3 行:

>>> meta.head(3)
                     Title
0  Guardians of the Galaxy
1               Prometheus
2                    Split

标题是由单词组成,中间用空格分隔。

# .str.count(" ") + 1 得到单词个数 
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1 
>>> meta.head(3) # words_count 列代表单词个数
                     Title  words_count
0  Guardians of the Galaxy            4
1               Prometheus            1
2                    Split            1

3 Genre 频次统计

下面统计电影 Genre 的频次,

>>> vc = df["Genre"].value_counts()

下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:

>>> vc.head()
Action,Adventure,Sci-Fi    50
Drama                      48
Comedy,Drama,Romance       35
Comedy                     32
Drama,Romance              31
Name: Genre, dtype: int64

展示 Top5 的饼状图:

>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()

Python数据处理的三个实用技巧分享

到此这篇关于Python数据处理的三个实用技巧分享的文章就介绍到这了,更多相关Python 数据处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 排列组合之itertools
Mar 20 Python
python类的方法属性与方法属性的动态绑定代码详解
Dec 27 Python
对Python实现简单的API接口实例讲解
Dec 10 Python
python 实现一次性在文件中写入多行的方法
Jan 28 Python
基于Python实现用户管理系统
Feb 26 Python
Python进程间通信Queue消息队列用法分析
May 22 Python
python实现中文文本分句的例子
Jul 15 Python
Python实现报警信息实时发送至邮箱功能(实例代码)
Nov 11 Python
TensorFlow MNIST手写数据集的实现方法
Feb 05 Python
Python cookie的保存与读取、SSL讲解
Feb 17 Python
python3 简单实现组合设计模式
Jul 02 Python
基于Python实现射击小游戏的制作
Apr 06 Python
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
python 离散点图画法的实现
Python学习之迭代器详解
Python实战之大鱼吃小鱼游戏的实现
You might like
数组与类使用PHP的可变变量名需要的注意的问题
2013/06/20 PHP
php实现MD5加密16位(不要默认的32位)
2013/08/12 PHP
php合并数组中相同元素的方法
2014/11/13 PHP
php脚本守护进程原理与实现方法详解
2017/07/20 PHP
jQuery 1.0.2
2006/10/11 Javascript
js escape,unescape解决中文乱码问题的方法
2010/05/26 Javascript
实测jquery data()如何存值
2013/08/18 Javascript
JS 如何获取radio选中后的值及不选择取radio的值
2013/10/28 Javascript
禁用Enter键表单自动提交实现代码
2014/05/22 Javascript
使用node.js 制作网站前台后台
2014/11/13 Javascript
tuzhu_req.js 实现仿百度图片首页效果
2015/08/11 Javascript
Javascript中常用的检测方法小结
2016/10/08 Javascript
Vue.js框架路由使用方法实例详解
2017/08/25 Javascript
4个顶级开源JavaScript图表库
2018/09/29 Javascript
JS中的算法与数据结构之队列(Queue)实例详解
2019/08/20 Javascript
微信小程序实现签字功能
2019/12/23 Javascript
有关vue 开发钉钉 H5 微应用 dd.ready() 不执行问题及快速解决方案
2020/05/09 Javascript
JS组件库AlloyTouch实现图片轮播过程解析
2020/05/29 Javascript
[40:13]Ti4 冒泡赛第二天 iG vs NEWBEE 2
2014/07/15 DOTA
python实现爬虫统计学校BBS男女比例之多线程爬虫(二)
2015/12/31 Python
使用pandas模块读取csv文件和excel表格,并用matplotlib画图的方法
2018/06/22 Python
python中的json总结
2018/10/11 Python
在ubuntu16.04中将python3设置为默认的命令写法
2018/10/31 Python
Django Aggregation聚合使用方法解析
2019/08/01 Python
用Python徒手撸一个股票回测框架搭建【推荐】
2019/08/05 Python
django 使用 PIL 压缩图片的例子
2019/08/16 Python
django实现类似触发器的功能
2019/11/15 Python
python argparse模块通过后台传递参数实例
2020/04/20 Python
VScode连接远程服务器上的jupyter notebook的实现
2020/04/23 Python
python接口自动化框架实战
2020/12/23 Python
生产车间标语
2014/06/11 职场文书
2014年外联部工作总结
2014/11/17 职场文书
幼儿园校车安全责任书
2015/05/08 职场文书
教你快速构建一个基于nginx的web集群项目
2021/11/27 Servers
游戏《铁拳》动画化!2022年年内播出
2022/03/21 日漫
Nginx设置HTTPS的方法步骤 443证书配置方法
2022/03/21 Servers