pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python 调用VC++的动态链接库(DLL)
Sep 06 Python
Python实现抓取城市的PM2.5浓度和排名
Mar 19 Python
仅用50行Python代码实现一个简单的代理服务器
Apr 08 Python
Python中的列表知识点汇总
Apr 14 Python
在Mac OS上使用mod_wsgi连接Python与Apache服务器
Dec 24 Python
python3 实现验证码图片切割的方法
Dec 07 Python
python PrettyTable模块的安装与简单应用
Jan 11 Python
Python参数解析模块sys、getopt、argparse使用与对比分析
Apr 02 Python
python基于递归解决背包问题详解
Jul 03 Python
Pandas之read_csv()读取文件跳过报错行的解决
Apr 21 Python
python判断一个变量是否已经设置的方法
Aug 13 Python
深入了解Python装饰器的高级用法
Aug 13 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
php在线生成ico文件的代码
2007/10/09 PHP
php开发工具之vs2005图解
2008/01/12 PHP
PHP array操作10个小技巧分享
2011/06/23 PHP
深入php-fpm的两种进程管理模式详解
2013/06/03 PHP
php计算两个日期时间差(返回年、月、日)
2014/06/19 PHP
Yii2验证器(Validator)用法分析
2016/07/23 PHP
Ext 表单布局实例代码
2009/04/30 Javascript
MooBox 基于Mootools的对话框插件
2012/01/20 Javascript
javascript使用onclick事件改变选中行的颜色
2013/12/30 Javascript
JavaScript link方法入门实例(给字符串加上超链接)
2014/10/17 Javascript
运用jQuery定时器的原理实现banner图片切换
2014/10/22 Javascript
jQuery中clone()方法用法实例
2015/01/16 Javascript
javascript+canvas实现刮刮卡抽奖效果
2015/07/29 Javascript
javascript中的深复制详解及实例分析
2016/12/29 Javascript
JS+HTML5 Canvas实现简单的写字板功能示例
2018/08/30 Javascript
使用vue制作滑动标签
2019/09/21 Javascript
微信小程序之导航滑块视图容器功能的实现代码(简单两步)
2020/06/19 Javascript
基于原生js实现判断元素是否有指定class名
2020/07/11 Javascript
[04:27]2014DOTA2国际邀请赛 NAVI战队官方纪录片
2014/07/21 DOTA
[01:02:00]DOTA2-DPC中国联赛 正赛 Elephant vs IG BO3 第三场 1月24日
2021/03/11 DOTA
详解在Python和IPython中使用Docker
2015/04/28 Python
在Python中使用成员运算符的示例
2015/05/13 Python
机器学习python实战之手写数字识别
2017/11/01 Python
Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算
2018/12/28 Python
Django REST框架创建一个简单的Api实例讲解
2019/11/05 Python
手把手教你将Flask应用封装成Docker服务的实现
2020/08/19 Python
Python读写锁实现实现代码解析
2020/11/28 Python
基于HTML5陀螺仪实现ofo首页眼睛移动效果的示例
2017/07/31 HTML / CSS
Bluebella德国官网:英国性感内衣和睡衣品牌
2019/11/08 全球购物
个人投资计划书
2014/05/01 职场文书
关于对大人不礼貌的检讨书
2014/09/29 职场文书
八一建军节慰问信
2015/02/14 职场文书
蜗居观后感
2015/06/11 职场文书
写好Python代码的几条重要技巧
2021/05/21 Python
浅谈MySQL 亿级数据分页的优化
2021/06/15 MySQL
为了顺利买到演唱会的票用Python制作了自动抢票的脚本
2021/10/16 Python