pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
java直接调用python脚本的例子
Feb 16 Python
python绘图方法实例入门
May 19 Python
Python实现模拟分割大文件及多线程处理的方法
Oct 10 Python
python3结合openpyxl库实现excel操作的实例代码
Sep 11 Python
Python子类继承父类构造函数详解
Feb 19 Python
Python3内置模块之json编解码方法小结【推荐】
Dec 09 Python
python实现随机漫步方法和原理
Jun 10 Python
简单了解python的内存管理机制
Jul 08 Python
Django  ORM 练习题及答案
Jul 19 Python
python matplotlib如何给图中的点加标签
Nov 14 Python
PyCharm2020.1.1与Python3.7.7的安装教程图文详解
Aug 07 Python
python中filter,map,reduce的作用
Jun 10 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
php的header和asp中的redirect比较
2006/10/09 PHP
PHP脚本数据库功能详解(中)
2006/10/09 PHP
PHP获取MAC地址的函数代码
2011/09/11 PHP
PHP删除目录及目录下所有文件的方法详解
2013/06/06 PHP
php获取用户浏览器版本的方法
2015/01/03 PHP
php检测mysql表是否存在的方法小结
2017/07/20 PHP
如何通过PHP实现Des加密算法代码实例
2020/05/09 PHP
把JS与CSS写在同一个文件里的书写方法
2007/06/02 Javascript
javascript下过滤数组重复值的代码
2007/09/10 Javascript
Javascript 汉字字节判断
2009/08/01 Javascript
jQuery Ajax使用 全解析
2010/12/15 Javascript
jquery 通过name快速取值示例
2014/01/24 Javascript
DOM节点的替换或修改函数replaceChild()用法实例
2015/01/12 Javascript
JS实现文字放大效果的方法
2015/03/03 Javascript
JS+CSS实现DIV层的展开、收缩效果
2016/01/28 Javascript
浅析JavaScript中的array数组类型系统
2016/07/18 Javascript
JavaScript 数组- Array的方法总结(推荐)
2016/07/21 Javascript
AngularJS表格添加序号的方法
2017/03/03 Javascript
JS弹窗 JS弹出DIV并使整个页面背景变暗功能的实现代码
2018/04/21 Javascript
Angular angular-file-upload文件上传的示例代码
2018/08/23 Javascript
基于ssm框架实现layui分页效果
2019/07/27 Javascript
[54:43]DOTA2-DPC中国联赛 正赛 CDEC vs Dynasty BO3 第一场 2月22日
2021/03/11 DOTA
Python文件处理
2016/02/29 Python
Python中json格式数据的编码与解码方法详解
2016/07/01 Python
Python使用QQ邮箱发送Email的方法实例
2017/02/09 Python
Python探索之实现一个简单的HTTP服务器
2017/10/28 Python
详解Python的hasattr() getattr() setattr() 函数使用方法
2018/07/09 Python
python实现字符串和字典的转换
2018/09/29 Python
python二进制文件的转译详解
2019/07/03 Python
numpy库reshape用法详解
2020/04/19 Python
详解CSS3中Media Queries的相关使用
2015/07/17 HTML / CSS
《美丽的公鸡》教学反思
2014/02/25 职场文书
新店开张活动方案
2014/08/24 职场文书
医生行业员工的辞职信
2019/06/24 职场文书
导游词之江苏同里古镇
2019/11/18 职场文书
使用Ajax实现无刷新上传文件
2022/04/12 Javascript