Python数据处理的三个实用技巧分享


Posted in Python onApril 01, 2022

我使用的 Pandas 版本如下,顺便也导入 Pandas 库。

>>> import pandas as pd
>>> pd.__version__
'0.25.1'

在开始前先确保解释器和数据集在同一目录下:

>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']

准备工作就位后,正式开始数据处理技巧之旅。

1 Pandas 移除某列

导入数据

>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
   Rank                    Title                    Genre  ...   Votes Revenue (Millions) Metascore
0     1  Guardians of the Galaxy  Action,Adventure,Sci-Fi  ...  757074             333.13      76.0

[1 rows x 12 columns]

使用 pop 方法移除指定列:

>>> meta = df.pop("Title").to_frame() # 移除 Title 列

确认是否已被移除:

>>> df.head(1) # df 变为 11列
   Rank                    Genre  ... Revenue (Millions) Metascore
0     1  Action,Adventure,Sci-Fi  ...             333.13      76.0

[1 rows x 11 columns]

2 统计标题单词数

pop 后得到 meta,显示 meta 前 3 行:

>>> meta.head(3)
                     Title
0  Guardians of the Galaxy
1               Prometheus
2                    Split

标题是由单词组成,中间用空格分隔。

# .str.count(" ") + 1 得到单词个数 
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1 
>>> meta.head(3) # words_count 列代表单词个数
                     Title  words_count
0  Guardians of the Galaxy            4
1               Prometheus            1
2                    Split            1

3 Genre 频次统计

下面统计电影 Genre 的频次,

>>> vc = df["Genre"].value_counts()

下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:

>>> vc.head()
Action,Adventure,Sci-Fi    50
Drama                      48
Comedy,Drama,Romance       35
Comedy                     32
Drama,Romance              31
Name: Genre, dtype: int64

展示 Top5 的饼状图:

>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()

Python数据处理的三个实用技巧分享

到此这篇关于Python数据处理的三个实用技巧分享的文章就介绍到这了,更多相关Python 数据处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
举例讲解Python中is和id的用法
Apr 03 Python
python如何实现excel数据添加到mongodb
Jul 30 Python
解决python2.7用pip安装包时出现错误的问题
Jan 23 Python
python list排序的两种方法及实例讲解
Mar 20 Python
使用Python对MySQL数据操作
Apr 06 Python
python用pickle模块实现“增删改查”的简易功能
Jun 07 Python
关于Django显示时间你应该知道的一些问题
Dec 25 Python
python微信跳一跳系列之自动计算跳一跳距离
Feb 26 Python
python统计多维数组的行数和列数实例
Jun 23 Python
解决python中使用plot画图,图不显示的问题
Jul 04 Python
解决PyCharm控制台输出乱码的问题
Jan 16 Python
Python namedtuple命名元组实现过程解析
Jan 08 Python
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
python 离散点图画法的实现
Python学习之迭代器详解
Python实战之大鱼吃小鱼游戏的实现
You might like
PHP5/ZendEngine2的改进
2006/10/09 PHP
thinkphp中ajax与php响应过程详解
2014/12/08 PHP
PHP+jQuery+Ajax实现分页效果 jPaginate插件的应用
2015/10/09 PHP
PHP实现的最大正向匹配算法示例
2017/12/19 PHP
javascript中类的定义及其方式(《javascript高级程序设计》学习笔记)
2011/07/04 Javascript
jQuery检测返回值的数据类型
2015/07/13 Javascript
javascript基础语法——全面理解变量和标识符
2016/06/02 Javascript
关于JS中setTimeout()无法调用带参函数问题的解决方法
2016/06/21 Javascript
nodejs+express实现文件上传下载管理网站
2017/03/15 NodeJs
微信小程序使用request网络请求操作实例
2017/12/15 Javascript
JS实现DOM删除节点操作示例
2018/04/04 Javascript
NodeJs 实现简单WebSocket即时通讯的示例代码
2019/08/05 NodeJs
kafka调试中遇到Connection to node -1 could not be established. Broker may not be available.
2019/09/17 Javascript
解决vue中使用less/sass及使用中遇到无效的问题
2020/10/24 Javascript
python实现的udp协议Server和Client代码实例
2014/06/04 Python
Python中几种操作字符串的方法的介绍
2015/04/09 Python
Python中特殊函数集锦
2015/07/27 Python
推荐10款最受Python开发者欢迎的Python IDE
2018/09/16 Python
python基础梳理(一)(推荐)
2019/04/06 Python
python之pyqt5通过按钮改变Label的背景颜色方法
2019/06/13 Python
python标记语句块使用方法总结
2019/08/05 Python
Python3安装pip工具的详细步骤
2019/10/14 Python
Django将默认的SQLite更换为MySQL的实现
2019/11/18 Python
tensorflow mnist 数据加载实现并画图效果
2020/02/05 Python
Django ORM 查询表中某列字段值的方法
2020/04/30 Python
Kathmandu英国网站:新西兰户外运动品牌
2017/03/27 全球购物
福克斯租车:Fox Rent A Car
2017/04/13 全球购物
英国高街奥特莱斯:Highstreet Outlet
2019/11/21 全球购物
DOM和JQuery对象有什么区别
2016/11/11 面试题
简历里的自我评价范文
2014/02/24 职场文书
2014年药房工作总结
2014/11/22 职场文书
秦始皇兵马俑导游词
2015/02/02 职场文书
刑事案件上诉状
2015/05/23 职场文书
创业计划书之都市休闲农庄
2019/12/28 职场文书
python 如何将两个实数矩阵合并为一个复数矩阵
2021/05/19 Python
在pycharm中无法import所安装的库解决方案
2021/05/31 Python