pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python脚本实现查找webshell的方法
Jul 31 Python
wxPython窗口中文乱码解决方法
Oct 11 Python
python常规方法实现数组的全排列
Mar 17 Python
python八大排序算法速度实例对比
Dec 06 Python
Django + Uwsgi + Nginx 实现生产环境部署的方法
Jun 20 Python
python K近邻算法的kd树实现
Sep 06 Python
python输入整条数据分割存入数组的方法
Nov 13 Python
python版飞机大战代码分享
Nov 20 Python
Python中判断子串存在的性能比较及分析总结
Jun 23 Python
django数据库自动重连的方法实例
Jul 21 Python
python基于FTP实现文件传输相关功能代码实例
Sep 28 Python
python3 正则表达式基础廖雪峰
Mar 25 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
docker-compose部署php项目实例详解
2019/07/30 PHP
php高性能日志系统 seaslog 的安装与使用方法分析
2020/02/29 PHP
jQuery(1.6.3) 中css方法对浮动的实现缺陷分析
2011/09/09 Javascript
手写的一个兼容各种浏览器的javascript getStyle函数(获取元素的样式)
2014/06/06 Javascript
node.js中的fs.appendFileSync方法使用说明
2014/12/17 Javascript
JavaScript判断数组是否包含指定元素的方法
2015/07/01 Javascript
JavaScript中的原始值和复杂值
2016/01/07 Javascript
简单的渐变轮播插件
2017/01/12 Javascript
WebPack基础知识详解
2017/01/16 Javascript
JavaScript箭头函数_动力节点Java学院整理
2017/06/28 Javascript
微信小程序 动画的简单实例
2017/10/12 Javascript
javascript将非数值转换为数值
2018/09/13 Javascript
实例讲解React 组件
2020/07/07 Javascript
[02:32]DOTA2英雄基础教程 美杜莎
2014/01/07 DOTA
[01:07:22]2014 DOTA2华西杯精英邀请赛 5 24 DK VS VG加赛
2014/05/26 DOTA
跟老齐学Python之从格式化表达式到方法
2014/09/28 Python
python简单文本处理的方法
2015/07/10 Python
Windows中使用wxPython和py2exe开发Python的GUI程序的实例教程
2016/07/11 Python
python实现的AES双向对称加密解密与用法分析
2017/05/02 Python
python写入已存在的excel数据实例
2018/05/03 Python
使用Python抓取豆瓣影评数据的方法
2018/10/17 Python
Python爬取YY评级分数并保存数据实现过程解析
2020/06/01 Python
解决Keras中循环使用K.ctc_decode内存不释放的问题
2020/06/29 Python
Python pathlib模块使用方法及实例解析
2020/10/05 Python
Python tkinter之Bind(绑定事件)的使用示例
2021/02/05 Python
美国批发供应商:Kole Imports
2019/04/10 全球购物
Java面试笔试题大全
2016/11/23 面试题
个人思想理论学习的自我鉴定
2013/11/30 职场文书
大学辅导员事迹材料
2014/02/05 职场文书
高中学生评语大全
2014/04/25 职场文书
动物科学专业求职信
2014/07/27 职场文书
幼儿园六一儿童节活动方案
2014/08/26 职场文书
法院授权委托书格式
2014/09/28 职场文书
教师工作表现自我评价
2015/03/05 职场文书
如何在向量化NumPy数组上进行移动窗口
2021/05/18 Python
Java 中的 Unsafe 魔法类的作用大全
2021/06/26 Java/Android