pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python中删除文件的程序代码
Mar 13 Python
Python中的匿名函数使用简介
Apr 27 Python
快速入手Python字符编码
Aug 03 Python
python中nan与inf转为特定数字方法示例
May 11 Python
实例介绍Python中整型
Feb 11 Python
使用python3构建文件传输的方法
Feb 13 Python
Python将json文件写入ES数据库的方法
Apr 10 Python
pytorch多进程加速及代码优化方法
Aug 19 Python
python函数声明和调用定义及原理详解
Dec 02 Python
Python基础教程(一)——Windows搭建开发Python开发环境
Jul 20 Python
通过代码实例解析Pytest运行流程
Aug 20 Python
Numpy中的数组搜索中np.where方法详细介绍
Jan 08 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
解析mysql left( right ) join使用on与where筛选的差异
2013/06/18 PHP
php 过滤英文标点符号及过滤中文标点符号代码
2014/06/12 PHP
PHP基于回溯算法解决n皇后问题的方法示例
2017/11/07 PHP
什么是JavaScript
2009/08/13 Javascript
修复IE9&safari 的sort方法
2011/10/21 Javascript
Js 时间函数getYear()的使用问题探讨
2013/04/01 Javascript
JS动态添加与删除select中的Option对象(示例代码)
2013/12/25 Javascript
javascript校验价格合法性实例(必须输入2位小数)
2014/05/05 Javascript
取得元素的左和上偏移量的方法
2014/09/17 Javascript
jQuery中next()方法用法实例
2015/01/07 Javascript
js+html5通过canvas指定开始和结束点绘制线条的方法
2015/06/05 Javascript
js基础知识(公有方法、私有方法、特权方法)
2015/11/06 Javascript
node.js实现博客小爬虫的实例代码
2016/10/08 Javascript
jQuery实现6位数字密码输入框
2016/12/29 Javascript
基于JavaScript实现移动端无限加载分页
2017/03/27 Javascript
vue.js利用defineProperty实现数据的双向绑定
2017/04/28 Javascript
Vue 2.0在IE11中打开项目页面空白的问题解决
2017/07/16 Javascript
vue-cli脚手架config目录下index.js配置文件的方法
2018/03/13 Javascript
React 项目迁移 Webpack Babel7的实现
2018/09/12 Javascript
vue组件通信传值操作示例
2019/01/08 Javascript
Javascript之高级数组API的使用实例
2019/03/08 Javascript
element el-tree组件的动态加载、新增、更新节点的实现
2020/02/27 Javascript
python将字符串转换成数组的方法
2015/04/29 Python
python中urllib.unquote乱码的原因与解决方法
2017/04/24 Python
Python制作词云的方法
2018/01/03 Python
Python学习笔记之迭代器和生成器用法实例详解
2019/08/08 Python
python对常见数据类型的遍历解析
2019/08/27 Python
python 利用Pyinstaller打包Web项目
2020/10/23 Python
捷克家居装饰及图书音像购物网站:Velký košík
2018/04/16 全球购物
Bose英国官方网站:美国知名音响品牌
2020/01/26 全球购物
生活部的活动方案
2014/08/19 职场文书
四风自我剖析材料思想汇报
2014/10/01 职场文书
委托公证书样本
2015/01/23 职场文书
大学生如何逃脱“毕业季创业队即散伙”魔咒?
2019/08/19 职场文书
七年级作文之《我和我的祖国》观后感作文
2019/10/18 职场文书
你知道Java Spring的两种事务吗
2022/03/16 Java/Android