利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python中将阿拉伯数字转换成中文的实现代码
May 19 Python
在python的WEB框架Flask中使用多个配置文件的解决方法
Apr 18 Python
python使用PyGame模块播放声音的方法
May 20 Python
Python使用matplotlib实现在坐标系中画一个矩形的方法
May 20 Python
Python实现快速排序和插入排序算法及自定义排序的示例
Feb 16 Python
python 递归遍历文件夹,并打印满足条件的文件路径实例
Aug 30 Python
Python实现识别手写数字 Python图片读入与处理
Mar 23 Python
Python中的random.uniform()函数教程与实例解析
Mar 02 Python
python 函数中的内置函数及用法详解
Jul 02 Python
Django组件content-type使用方法详解
Jul 19 Python
python多进程并发demo实例解析
Dec 13 Python
代码总结Python2 和 Python3 字符串的区别
Jan 28 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
example1.php
2006/10/09 PHP
php preg_match_all结合str_replace替换内容中所有img
2008/10/11 PHP
利用php递归实现无限分类 格式化数组的详解
2013/06/08 PHP
php获取本周星期一具体日期的方法
2015/04/20 PHP
PHP生成条形码大揭秘
2015/09/24 PHP
分享PHP计算两个日期相差天数的代码
2015/12/23 PHP
Zend Framework教程之Resource Autoloading用法实例
2016/03/08 PHP
在云虚拟主机部署thinkphp5项目的步骤详解
2017/12/21 PHP
直接生成打开窗口代码,不必下载
2008/05/14 Javascript
javascript SpiderMonkey中的函数序列化如何进行
2012/12/05 Javascript
node.js中的fs.realpath方法使用说明
2014/12/16 Javascript
Jquery幻灯片特效代码分享--打开页面随机选择切换方式(3)
2015/08/15 Javascript
javascript弹出窗口中增加确定取消按钮
2016/06/24 Javascript
jquery 属性选择器(匹配具有指定属性的元素)
2016/09/06 Javascript
使用veloticy-ui生成文字动画效果
2018/02/08 Javascript
纯js封装的ajax功能函数与用法示例
2018/05/14 Javascript
vue使用better-scroll实现下拉刷新、上拉加载
2018/11/23 Javascript
vue项目中mock.js的使用及基本用法
2019/05/22 Javascript
jquery实现动态创建form并提交的方法示例
2019/05/27 jQuery
Antd的Table组件嵌套Table以及选择框联动操作
2020/10/24 Javascript
[02:58]献给西雅图的情书_高清
2014/05/29 DOTA
Python之eval()函数危险性浅析
2014/07/03 Python
Python使用Flask框架同时上传多个文件的方法
2015/03/21 Python
python使用sorted函数对列表进行排序的方法
2015/04/04 Python
讲解Python中if语句的嵌套用法
2015/05/14 Python
python中partial()基础用法说明
2018/12/30 Python
Python通用函数实现数组计算的方法
2019/06/13 Python
HTML5拖拽功能实现的拼图游戏
2018/07/31 HTML / CSS
Expedia印度尼西亚站:预订酒店、廉价航班和度假套餐
2018/01/31 全球购物
意大利时尚奢侈品店:D’Aniello Boutique
2021/01/19 全球购物
班班通校本培训方案
2014/03/12 职场文书
公司联欢晚会主持词
2014/03/22 职场文书
2014国庆节国旗下演讲稿(精选版)
2014/09/26 职场文书
2014年党小组工作总结
2014/12/20 职场文书
绍兴鲁迅故居导游词
2015/02/09 职场文书
稽核岗位职责范本
2015/04/13 职场文书