利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python备份文件以及mysql数据库的脚本代码
Jun 10 Python
Python中的rjust()方法使用详解
May 19 Python
Python的Django框架中模板碎片缓存简介
Jul 24 Python
简单谈谈Python中的反转字符串问题
Oct 24 Python
python 连接sqlite及简单操作
Jun 30 Python
Numpy array数据的增、删、改、查实例
Jun 04 Python
Python操作json的方法实例分析
Dec 06 Python
Python 函数用法简单示例【定义、参数、返回值、函数嵌套】
Sep 20 Python
python中sklearn的pipeline模块实例详解
May 21 Python
pytorch 多分类问题,计算百分比操作
Jul 09 Python
Python数据可视化之绘制柱状图和条形图
May 25 Python
OpenCV 图像梯度的实现方法
Jul 25 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
深入php list()函数的详解
2013/06/05 PHP
PHP查询网站的PR值
2013/10/30 PHP
PHP中__FILE__、dirname与basename用法实例分析
2014/12/01 PHP
AutoSave/自动存储功能实现
2007/03/24 Javascript
jquery遍历筛选数组的几种方法和遍历解析json对象
2013/12/13 Javascript
JavaScript实现向setTimeout执行代码传递参数的方法
2015/04/16 Javascript
详解探索 vuex 2.0 以及使用 vuejs 2.0 + vuex 2.0 构建记事本应用
2017/06/16 Javascript
JS排序算法之冒泡排序,选择排序与插入排序实例分析
2017/12/13 Javascript
vue axios数据请求及vue中使用axios的方法
2018/09/10 Javascript
js实现div色块碰撞
2020/01/16 Javascript
vuex+axios+element-ui实现页面请求loading操作示例
2020/02/02 Javascript
python实现从web抓取文档的方法
2014/09/26 Python
Python2.x利用commands模块执行Linux shell命令
2016/03/11 Python
Python列表解析配合if else的方法
2018/06/23 Python
Python面向对象程序设计之继承与多继承用法分析
2018/07/13 Python
python实现烟花小程序
2019/01/30 Python
python交互模式下输入换行/输入多行命令的方法
2019/07/02 Python
Python Numpy计算各类距离的方法
2019/07/05 Python
Python 分发包中添加额外文件的方法
2019/08/16 Python
python深copy和浅copy区别对比解析
2019/12/26 Python
使用Numpy对特征中的异常值进行替换及条件替换方式
2020/06/08 Python
python实现录制全屏和选择区域录屏功能
2021/02/05 Python
Jupyter安装拓展nbextensions及解决官网下载慢的问题
2021/03/03 Python
HTML5的结构和语义(4):语义性的内联元素
2008/10/17 HTML / CSS
美国顶级户外凉鞋品牌:Chacos
2017/03/27 全球购物
总经理岗位职责范本
2014/02/02 职场文书
信息科学与技术专业求职信范文
2014/02/20 职场文书
领导干部廉政自律承诺书
2014/05/26 职场文书
班级学雷锋活动总结
2014/06/26 职场文书
2014年业务工作总结
2014/11/17 职场文书
雷锋的故事观后感
2015/06/10 职场文书
高中班长竞选稿
2015/11/20 职场文书
Nginx 502 Bad Gateway错误原因及解决方案
2021/03/31 Servers
使用python向MongoDB插入时间字段的操作
2021/05/18 Python
Python包argparse模块常用方法
2021/06/04 Python
python库sklearn常用操作
2021/08/23 Python