Python数据处理的三个实用技巧分享


Posted in Python onApril 01, 2022

我使用的 Pandas 版本如下,顺便也导入 Pandas 库。

>>> import pandas as pd
>>> pd.__version__
'0.25.1'

在开始前先确保解释器和数据集在同一目录下:

>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']

准备工作就位后,正式开始数据处理技巧之旅。

1 Pandas 移除某列

导入数据

>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
   Rank                    Title                    Genre  ...   Votes Revenue (Millions) Metascore
0     1  Guardians of the Galaxy  Action,Adventure,Sci-Fi  ...  757074             333.13      76.0

[1 rows x 12 columns]

使用 pop 方法移除指定列:

>>> meta = df.pop("Title").to_frame() # 移除 Title 列

确认是否已被移除:

>>> df.head(1) # df 变为 11列
   Rank                    Genre  ... Revenue (Millions) Metascore
0     1  Action,Adventure,Sci-Fi  ...             333.13      76.0

[1 rows x 11 columns]

2 统计标题单词数

pop 后得到 meta,显示 meta 前 3 行:

>>> meta.head(3)
                     Title
0  Guardians of the Galaxy
1               Prometheus
2                    Split

标题是由单词组成,中间用空格分隔。

# .str.count(" ") + 1 得到单词个数 
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1 
>>> meta.head(3) # words_count 列代表单词个数
                     Title  words_count
0  Guardians of the Galaxy            4
1               Prometheus            1
2                    Split            1

3 Genre 频次统计

下面统计电影 Genre 的频次,

>>> vc = df["Genre"].value_counts()

下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:

>>> vc.head()
Action,Adventure,Sci-Fi    50
Drama                      48
Comedy,Drama,Romance       35
Comedy                     32
Drama,Romance              31
Name: Genre, dtype: int64

展示 Top5 的饼状图:

>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()

Python数据处理的三个实用技巧分享

到此这篇关于Python数据处理的三个实用技巧分享的文章就介绍到这了,更多相关Python 数据处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
归纳整理Python中的控制流语句的知识点
Apr 14 Python
在Python中处理字符串之ljust()方法的使用简介
May 19 Python
python邮件发送smtplib使用详解
Jun 16 Python
网红编程语言Python将纳入高考你怎么看?
Jun 07 Python
Python datetime和unix时间戳之间相互转换的讲解
Apr 01 Python
Python scipy的二维图像卷积运算与图像模糊处理操作示例
Sep 06 Python
vue学习笔记之动态组件和v-once指令简单示例
Feb 29 Python
基于Python把网站域名解析成ip地址
May 25 Python
详解使用Python写一个向数据库填充数据的小工具(推荐)
Sep 11 Python
Pytorch中Softmax和LogSoftmax的使用详解
Jun 05 Python
python套接字socket通信
Apr 01 Python
Python使用华为API为图像设置多个锚点标签
Apr 12 Python
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
python 离散点图画法的实现
Python学习之迭代器详解
Python实战之大鱼吃小鱼游戏的实现
You might like
通过PHP的内置函数,通过DES算法对数据加密和解密
2012/06/21 PHP
ThinkPHP中的关联模型注意点
2014/06/16 PHP
Laravel5.1 框架路由基础详解
2020/01/04 PHP
jQuery遍历页面所有CheckBox查看是否被选中的方法
2015/04/14 Javascript
JS实现无限级网页折叠菜单(类似树形菜单)效果代码
2015/09/17 Javascript
Node.js编写爬虫的基本思路及抓取百度图片的实例分享
2016/03/12 Javascript
又一枚精彩的弹幕效果jQuery实现
2016/07/25 Javascript
AngularJS中关于ng-class指令的几种实现方式详解
2016/09/17 Javascript
vuejs开发组件分享之H5图片上传、压缩及拍照旋转的问题处理
2017/03/06 Javascript
分享vue.js devtools遇到一系列问题
2017/10/24 Javascript
详解小程序input框失焦事件在提交事件前的处理
2019/05/05 Javascript
vuex实现像调用模板方法一样调用Mutations方法
2019/11/06 Javascript
Vuex实现数据增加和删除功能
2019/11/11 Javascript
jQuery实现推拉门效果
2020/10/19 jQuery
在Python中关于中文编码问题的处理建议
2015/04/08 Python
python通过post提交数据的方法
2015/05/06 Python
python抓取最新博客内容并生成Rss
2015/05/17 Python
Python功能键的读取方法
2015/05/28 Python
详解duck typing鸭子类型程序设计与Python的实现示例
2016/06/03 Python
django创建最简单HTML页面跳转方法
2019/08/16 Python
python实现机器人卡牌
2019/10/06 Python
numpy np.newaxis 的实用分享
2019/11/30 Python
python全局变量引用与修改过程解析
2020/01/07 Python
python可迭代对象去重实例
2020/05/15 Python
matplotlib制作雷达图报错ValueError的实现
2021/01/05 Python
Melijoe英国官网:法国儿童时尚网站
2016/11/18 全球购物
幼儿园庆六一游园活动方案
2014/01/29 职场文书
幼儿园国庆节活动方案
2014/02/01 职场文书
图书馆标语
2014/06/19 职场文书
2014党员学习习主席讲话思想汇报
2014/09/15 职场文书
银行贷款收入证明
2014/10/17 职场文书
《草虫的村落》教学反思
2016/02/20 职场文书
《我的长生果》教学反思
2016/02/20 职场文书
Django项目配置Memcached和Redis, 缓存选择哪个更有优势
2021/04/06 Python
python编写五子棋游戏
2021/05/25 Python
MySQL系列之十五 MySQL常用配置和性能压力测试
2021/07/02 MySQL