利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python使用内存zipfile对象在内存中打包文件示例
Apr 30 Python
Python中的CURL PycURL使用例子
Jun 01 Python
python在windows下实现备份程序实例
Jul 04 Python
python实现的简单猜数字游戏
Apr 04 Python
Python打印斐波拉契数列实例
Jul 07 Python
深入理解python中的浅拷贝和深拷贝
May 30 Python
pyQt4实现俄罗斯方块游戏
Jun 26 Python
python-opencv颜色提取分割方法
Dec 08 Python
Python文件读写常见用法总结
Feb 22 Python
python 浅谈serial与stm32通信的编码问题
Dec 18 Python
如何基于python操作json文件获取内容
Dec 24 Python
pycharm配置安装autopep8自动规范代码的实现
Mar 02 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
PHP的开合式多级菜单程序
2006/10/09 PHP
PHP判断浏览器、判断语言代码分享
2015/03/05 PHP
php图片水印添加、压缩、剪切的封装类实现
2020/04/18 PHP
分享php邮件管理器源码
2016/01/06 PHP
php实用代码片段整理
2016/11/12 PHP
PHPExcel导出2003和2007的excel文档功能示例
2017/01/04 PHP
php检测mysql表是否存在的方法小结
2017/07/20 PHP
jQuery与ExtJS之选择实例分析
2010/08/19 Javascript
基于jquery的时间段实现代码
2012/08/02 Javascript
基于jquery的bankInput银行卡账号格式化
2012/08/22 Javascript
js实现通用的微信分享组件示例
2014/03/10 Javascript
jQuery结合CSS制作动态的下拉菜单
2015/10/27 Javascript
jquery实现右侧栏菜单选择操作
2016/03/04 Javascript
微信小程序 Storage API实例详解
2016/10/02 Javascript
Vue中的作用域CSS和CSS模块的区别
2018/10/09 Javascript
vue-cli3.X快速创建项目的方法步骤
2019/11/14 Javascript
uniapp与webview之间的相互传值的实现
2020/06/29 Javascript
详解Vue.js 可拖放文本框组件的使用
2021/03/03 Vue.js
python基础教程之字典操作详解
2014/03/25 Python
django rest framework 实现用户登录认证详解
2019/07/29 Python
python实现大学人员管理系统
2019/10/25 Python
Python requests模块基础使用方法实例及高级应用(自动登陆,抓取网页源码)实例详解
2020/02/14 Python
python实现ssh及sftp功能(实例代码)
2020/03/16 Python
css3实现背景图片拉伸效果像桌面壁纸一样
2013/08/19 HTML / CSS
Nuts.com:优质散装,批发坚果、干果和巧克力等
2017/03/21 全球购物
PatPat香港:婴童服饰和亲子全家装在线购物
2020/09/27 全球购物
接口中的方法可以是abstract的吗
2015/07/23 面试题
寄语十八大感言
2014/02/07 职场文书
学雷锋演讲稿
2014/03/04 职场文书
销售经理岗位职责
2014/03/16 职场文书
2014年园林绿化工作总结
2014/12/11 职场文书
自我评价优缺点范文
2015/03/11 职场文书
小学生读书笔记范文
2015/06/30 职场文书
Django实现聊天机器人
2021/05/31 Python
告别网页搜索!教你用python实现一款属于自己的翻译词典软件
2021/06/03 Python
golang用type-switch判断interface的实际存储类型
2022/04/14 Golang