pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python为tornado添加recaptcha验证码功能
Feb 26 Python
python使用xauth方式登录饭否网然后发消息
Apr 11 Python
Pyhthon中使用compileall模块编译源文件为pyc文件
Apr 28 Python
python基础教程项目二之画幅好画
Apr 02 Python
pandas Dataframe行列读取的实例
Jun 08 Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 Python
Python中文件的写入读取以及附加文字方法
Jan 23 Python
python动态进度条的实现代码
Jul 03 Python
python 已知一个字符,在一个list中找出近似值或相似值实现模糊匹配
Feb 29 Python
Python基于smtplib模块发送邮件代码实例
May 29 Python
windows支持哪个版本的python
Jul 03 Python
安装pyecharts1.8.0版本后导入pyecharts模块绘图时报错: “所有图表类型将在 v1.9.0 版本开始强制使用 ChartItem 进行数据项配置 ”的解决方法
Aug 18 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
php小技巧 把数组的键和值交换形成了新的数组,查找值取得键
2011/06/02 PHP
ajax取消挂起请求的处理方法
2013/03/18 PHP
PHP向socket服务器收发数据的方法
2015/01/24 PHP
PHP解密Unicode及Escape加密字符串
2015/05/17 PHP
php添加数据到xml文件的简单例子
2016/09/08 PHP
再谈javascript 动态添加样式规则 W3C校检
2009/12/25 Javascript
浅析jQuery中调用ajax方法时在不同浏览器中遇到的问题
2014/06/11 Javascript
jquery 构造函数在表单提交过程中修改数据
2015/05/25 Javascript
JavaScript实现横线提示输入验证码随输入验证码输入消失的方法
2016/09/24 Javascript
jQuery Easy UI中根据第一个下拉框选中的值设置第二个下拉框是否可以编辑
2016/11/29 Javascript
mac下的nodejs环境安装的步骤
2017/05/24 NodeJs
Node.js  REPL (交互式解释器)实例详解
2017/08/06 Javascript
详解JavaScript作用域和作用域链
2019/03/19 Javascript
element-ui table组件如何使用render属性的实现
2019/11/04 Javascript
[05:53]完美世界携手游戏风云打造 卡尔工作室观战系统篇
2013/04/22 DOTA
利用Python爬取可用的代理IP
2016/08/18 Python
Mac在python3环境下安装virtualwrapper遇到的问题及解决方法
2019/07/09 Python
Python使用Tkinter实现滚动抽奖器效果
2020/01/06 Python
Python3加密解密库Crypto的RSA加解密和签名/验签实现方法实例
2020/02/11 Python
Python 操作 PostgreSQL 数据库示例【连接、增删改查等】
2020/04/21 Python
查看keras各种网络结构各层的名字方式
2020/06/11 Python
Python操作Elasticsearch处理timeout超时
2020/07/17 Python
python中常用的数据结构介绍
2021/01/12 Python
护理专业自荐信
2013/12/03 职场文书
公司营业员的自我评价
2014/03/04 职场文书
大学军训感言300字
2014/03/09 职场文书
学生个人自我鉴定
2014/03/26 职场文书
户外宣传策划方案
2014/05/25 职场文书
法院授权委托书范文
2014/08/02 职场文书
关于读书的演讲稿600字
2014/08/27 职场文书
2015年植树节活动总结
2015/02/06 职场文书
学校食堂管理制度
2015/08/04 职场文书
幼儿园园长新年寄语
2015/08/17 职场文书
公开致歉信
2019/06/24 职场文书
2019入党申请书格式
2019/06/25 职场文书
Java SSH 秘钥连接mysql数据库的方法
2021/06/28 Java/Android