pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python运算符重载用法实例
May 28 Python
在MAC上搭建python数据分析开发环境
Jan 26 Python
Python图片裁剪实例代码(如头像裁剪)
Jun 21 Python
深入浅析Python中的yield关键字
Jan 24 Python
python读取视频流提取视频帧的两种方法
Oct 22 Python
Python3之简单搭建自带服务器的实例讲解
Jun 04 Python
python3利用venv配置虚拟环境及过程中的小问题小结
Aug 01 Python
PyTorch中topk函数的用法详解
Jan 02 Python
python操作redis数据库的三种方法
Sep 10 Python
解决Python 写文件报错TypeError的问题
Oct 23 Python
20行代码教你用python给证件照换底色的方法示例
Feb 05 Python
Python Django 后台管理之后台模型属性详解
Apr 25 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
类的另类用法--数据的封装
2006/10/09 PHP
推荐一篇入门级的Class文章
2007/03/19 PHP
浅谈thinkphp的实例化模型
2015/01/04 PHP
PHP利用imagick生成组合缩略图
2016/02/19 PHP
PHP如何开启Opcache功能提升程序处理效率
2020/04/27 PHP
javascript中的作用域scope介绍
2010/12/28 Javascript
Node.js中AES加密和其它语言不一致问题解决办法
2014/03/10 Javascript
微信小程序 页面传值详解
2017/03/10 Javascript
Iscrool下拉刷新功能实现方法(推荐)
2017/06/26 Javascript
vue中各组件之间传递数据的方法示例
2017/07/27 Javascript
js事件on动态绑定数据,绑定多个事件的方法
2018/09/15 Javascript
JS原型与继承操作示例
2019/05/09 Javascript
jsonp跨域获取百度联想词的方法分析
2019/05/13 Javascript
Python构造函数及解构函数介绍
2015/02/26 Python
Python实现配置文件备份的方法
2015/07/30 Python
用ReactJS和Python的Flask框架编写留言板的代码示例
2015/12/19 Python
使用Python读写文本文件及编写简单的文本编辑器
2016/03/11 Python
浅析Python中的for 循环
2016/06/09 Python
python实现SOM算法
2018/02/23 Python
python使用插值法画出平滑曲线
2018/12/15 Python
Python 控制终端输出文字的实例
2019/07/12 Python
Python xpath表达式如何实现数据处理
2020/06/13 Python
html5 postMessage前端跨域并前端监听的方法示例
2018/11/01 HTML / CSS
3个CCIE对一个工程师的面试题
2012/05/06 面试题
工作过失检讨书
2014/02/23 职场文书
《孔子拜师》教学反思
2014/02/24 职场文书
软件毕业生个人鉴定
2014/03/03 职场文书
职务说明书范文
2014/05/07 职场文书
小学二年级数学教学计划
2015/01/20 职场文书
检讨书格式范文
2015/05/07 职场文书
行政处罚听证告知书
2015/07/01 职场文书
关于感恩的素材句子(38句)
2019/11/11 职场文书
HTML5中 rem适配方案与 viewport 适配问题详解
2021/04/27 HTML / CSS
pandas中对文本类型数据的处理小结
2021/11/01 Python
动漫APP软件排行榜前十名,半次元上榜,第一款由腾讯公司推出
2022/03/18 杂记
Java界面编程实现界面跳转
2022/06/16 Java/Android