利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
简单谈谈python中的Queue与多进程
Aug 25 Python
windows下ipython的安装与使用详解
Oct 20 Python
Python编程实现输入某年某月某日计算出这一天是该年第几天的方法
Apr 18 Python
python里使用正则的findall函数的实例详解
Oct 19 Python
python3实现域名查询和whois查询功能
Jun 21 Python
python使用folium库绘制地图点击框
Sep 21 Python
CentOS 7下安装Python3.6 及遇到的问题小结
Nov 08 Python
详解Django-auth-ldap 配置方法
Dec 10 Python
Python While循环语句实例演示及原理解析
Jan 03 Python
使用TensorBoard进行超参数优化的实现
Jul 06 Python
python字典与json转换的方法总结
Dec 28 Python
Python+Selenium实现读取网易邮箱验证码
Mar 13 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
无法在发生错误时创建会话,请检查 PHP 或网站服务器日志,并正确配置 PHP 安装最快的解决办法
2010/08/01 PHP
PHP连接MySQL数据库三种实现方法
2020/12/10 PHP
js+css实现增加表单可用性之提示文字
2013/06/03 Javascript
浏览器的JavaScript引擎的识别方法
2013/10/20 Javascript
原生js实现fadein 和 fadeout淡入淡出效果
2014/06/05 Javascript
JQuery操作元素的css样式
2015/03/09 Javascript
jQuery中toggle()函数的使用实例
2015/04/17 Javascript
详解js中构造流程图的核心技术JsPlumb
2015/12/08 Javascript
修改jquery中dialog的title属性方法(推荐)
2016/08/26 Javascript
解决webpack -p压缩打包react报语法错误的方法
2017/07/03 Javascript
js学习总结之DOM2兼容处理顺序问题的解决方法
2017/07/27 Javascript
探究react-native 源码的图片缓存问题
2017/08/24 Javascript
vue-cli 打包使用history模式的后端配置实例
2018/09/20 Javascript
vue全局自定义指令-元素拖拽的实现代码
2019/04/14 Javascript
JS实现4位随机验证码
2020/10/19 Javascript
[04:52]第二届DOTA2亚洲邀请赛主赛事第一天比赛集锦:OG娜迦海妖放大配合谜团大中3人
2017/04/02 DOTA
[50:22]完美盛典-2018年度红毯走秀
2018/12/16 DOTA
利用numpy+matplotlib绘图的基本操作教程
2017/05/03 Python
Python实现采用进度条实时显示处理进度的方法
2017/12/19 Python
python多进程实现文件下载传输功能
2018/07/28 Python
Python之循环结构
2019/01/15 Python
django 简单实现登录验证给你
2019/11/06 Python
Pycharm小白级简单使用教程
2020/01/08 Python
python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例
2020/03/10 Python
HTML5页面直接调用百度地图API获取当前位置直接导航目的地的实现代码
2018/03/02 HTML / CSS
手机配件第一品牌:ZAGG
2017/05/28 全球购物
世界上最大的冷却器制造商:Igloo Coolers
2019/07/23 全球购物
大型晚会策划方案
2014/02/06 职场文书
安全生产目标管理责任书
2014/07/25 职场文书
2014年秋季开学典礼致辞
2014/08/02 职场文书
学习三严三实心得体会
2014/10/13 职场文书
工作经历证明书范文
2014/11/02 职场文书
行政二审代理词
2015/05/25 职场文书
党支部考察意见范文
2015/06/02 职场文书
Matlab求解数组中的最大值及它所在的具体位置
2021/04/16 Python
Vue elementUI表单嵌套表格并对每行进行校验详解
2022/02/18 Vue.js