利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python标准库与第三方库详解
Jul 22 Python
python简单分割文件的方法
Jul 30 Python
python实现12306火车票查询器
Apr 20 Python
python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解
Oct 20 Python
Python根据指定日期计算后n天,前n天是哪一天的方法
May 29 Python
对python调用RPC接口的实例详解
Jan 03 Python
Python Selenium 之关闭窗口close与quit的方法
Feb 13 Python
Python opencv实现人眼/人脸识别以及实时打码处理
Apr 29 Python
Python实现数据结构线性链表(单链表)算法示例
May 04 Python
浅谈Django中view对数据库的调用方法
Jul 18 Python
python生成器/yield协程/gevent写简单的图片下载器功能示例
Oct 28 Python
pytorch损失反向传播后梯度为none的问题
May 12 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
PHP在XP下IIS和Apache2服务器上的安装
2006/09/05 PHP
PHPEXCEL 使用小记
2013/01/06 PHP
克隆一个新项目的快捷方式
2013/04/10 PHP
PHP屏蔽关键字实现方法
2016/11/17 PHP
yii使用bootstrap分页样式的实例
2017/01/17 PHP
php注册审核重点解析(数据访问)
2017/05/23 PHP
thinkphp3.2实现在线留言提交验证码功能
2017/07/19 PHP
jquery zTree异步加载简单实例分享
2013/02/05 Javascript
js中Image对象以及对其预加载处理示例
2013/11/20 Javascript
JS判断对象是否存在的10种方法总结
2013/12/23 Javascript
JQuery结合CSS操作打印样式的方法
2013/12/24 Javascript
详细解密jsonp跨域请求
2015/04/15 Javascript
你所不了解的javascript操作DOM的细节知识点(一)
2015/06/17 Javascript
详解JavaScript对象和数组
2015/12/03 Javascript
关于cookie的初识和运用(js和jq)
2016/04/07 Javascript
BootStrap制作导航条实例代码
2016/05/06 Javascript
vue动态路由实现多级嵌套面包屑的思路与方法
2017/08/16 Javascript
js实现扫雷小程序的示例代码
2017/09/27 Javascript
vue实现循环切换动画
2018/10/17 Javascript
layUI实现前端分页和后端分页
2019/07/27 Javascript
nuxt 实现在其它js文件中使用store的方式
2020/11/05 Javascript
Python实现的tab文件操作类分享
2014/11/20 Python
pymongo实现控制mongodb中数字字段做加法的方法
2015/03/26 Python
python fabric实现远程部署
2017/01/05 Python
python 通过字符串调用对象属性或方法的实例讲解
2018/04/21 Python
Python mutiprocessing多线程池pool操作示例
2019/01/30 Python
基于python3.7利用Motor来异步读写Mongodb提高效率(推荐)
2020/04/29 Python
python 通过文件夹导入包的操作
2020/06/01 Python
ASOS比利时:英国线上零售商及自有品牌
2018/07/29 全球购物
求职推荐信范文
2013/12/01 职场文书
高三体育教学反思
2014/01/29 职场文书
乡镇办公室工作决心书
2014/03/11 职场文书
计算机应用专业自荐信
2014/07/05 职场文书
幼儿园安全责任书范本
2014/07/24 职场文书
学校元旦晚会开场白
2014/12/14 职场文书
银行求职信怎么写
2019/06/20 职场文书