pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python实现子类调用父类的方法
Nov 10 Python
使用Python的Twisted框架编写简单的网络客户端
Apr 16 Python
python多进程实现文件下载传输功能
Jul 28 Python
django DRF图片路径问题的解决方法
Sep 10 Python
Python进阶之使用selenium爬取淘宝商品信息功能示例
Sep 16 Python
numpy中三维数组中加入元素后的位置详解
Nov 28 Python
Python操作多维数组输出和矩阵运算示例
Nov 28 Python
TensorFlow 显存使用机制详解
Feb 03 Python
Python semaphore evevt生产者消费者模型原理解析
Mar 18 Python
使用OpenCV实现道路车辆计数的使用方法
Jul 15 Python
python爬虫请求头的使用
Dec 01 Python
python装饰器代码解析
Mar 23 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
用PHP调用Oracle存储过程的方法
2008/09/12 PHP
使用swoole扩展php websocket示例
2014/02/13 PHP
destoon二次开发入门示例
2014/06/20 PHP
PHP自定义函数实现格式化秒的方法
2016/09/14 PHP
php简单计算年龄的方法(周岁与虚岁)
2016/12/06 PHP
CentOS 上搭建 PHP7 开发测试环境
2017/02/26 PHP
JavaScript 继承的实现
2009/07/09 Javascript
JavaScript this 深入理解
2009/07/30 Javascript
jquery特效 幻灯片效果示例代码
2013/07/16 Javascript
详解Vue2.0之去掉组件click事件的native修饰
2017/04/20 Javascript
js实现网页的两个input标签内的数值加减(示例代码)
2017/08/15 Javascript
全选复选框JavaScript编写小结(附代码)
2017/08/16 Javascript
浅谈react前后端同构渲染
2017/09/20 Javascript
微信小程序scroll-x失效的完美解决方法
2018/07/18 Javascript
Vue CLI 3搭建vue+vuex最全分析(推荐)
2018/09/27 Javascript
配置eslint规范项目代码风格
2019/03/11 Javascript
JavaScript RegExp 对象用法详解
2019/09/24 Javascript
js实现鼠标滑动到某个div禁止滚动
2020/09/17 Javascript
[51:27]LGD vs Liquid 2019国际邀请赛小组赛 BO2 第二场 8.16
2019/08/19 DOTA
Python httplib模块使用实例
2015/04/11 Python
Python对列表排序的方法实例分析
2015/05/16 Python
Python实现对excel文件列表值进行统计的方法
2015/07/25 Python
OPENCV去除小连通区域,去除孔洞的实例讲解
2018/06/21 Python
OpenCV搞定腾讯滑块验证码的实现代码
2019/05/18 Python
Numpy对数组的操作:创建、变形(升降维等)、计算、取值、复制、分割、合并
2019/08/28 Python
python print 格式化输出,动态指定长度的实现
2020/04/12 Python
python 实现socket服务端并发的四种方式
2020/12/14 Python
Steve Madden官网:美国鞋类品牌
2017/01/29 全球购物
付款委托书范本
2014/04/04 职场文书
小学清明节活动总结
2014/07/04 职场文书
交通违章检讨书
2014/09/21 职场文书
如何签定毕业生就业协议书
2014/09/28 职场文书
公司优秀员工推荐信
2015/03/24 职场文书
小学教学工作总结2015
2015/05/13 职场文书
节约用水广告语60条
2019/11/14 职场文书
用python画城市轮播地图
2021/05/28 Python