利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中最常用的操作列表的几种方法归纳
Apr 24 Python
python去除空格和换行符的实现方法(推荐)
Jan 04 Python
python去除字符串中的换行符
Oct 11 Python
python多线程之事件Event的使用详解
Apr 27 Python
python3使用SMTP发送简单文本邮件
Jun 19 Python
Python判断以什么结尾以什么开头的实例
Oct 27 Python
python实现合并多个list及合并多个django QuerySet的方法示例
Jun 11 Python
Python基于Opencv来快速实现人脸识别过程详解(完整版)
Jul 11 Python
Python 中判断列表是否为空的方法
Nov 24 Python
Python实现打包成库供别的模块调用
Jul 13 Python
python爬虫使用requests发送post请求示例详解
Aug 05 Python
python实现邮件循环自动发件功能
Sep 11 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
php 静态化实现代码
2009/03/20 PHP
php计算到指定日期还有多少天的方法
2015/04/14 PHP
php自动提交表单的方法(基于fsockopen与curl)
2016/05/09 PHP
自定义min版smarty模板引擎MinSmarty.class.php文件及用法
2016/05/20 PHP
搜索附近的人PHP实现代码
2018/02/11 PHP
利用Ext Js生成动态树实例代码
2008/09/08 Javascript
JQuery 网站换肤功能实现代码
2009/11/02 Javascript
JavaScript之IE的fireEvent方法详细解析
2013/11/20 Javascript
JavaScript动态操作表格实例(添加,删除行,列及单元格)
2013/11/25 Javascript
jquery ajax,ashx,json的用法总结
2014/02/12 Javascript
浅谈javascript中字符串String与数组Array
2014/12/31 Javascript
学习JavaScript编程语言的8张思维导图分享
2015/03/27 Javascript
整理Javascript基础语法学习笔记
2015/11/29 Javascript
JS代码实现table数据分页效果
2016/05/26 Javascript
让nodeJS支持ES6的词法----babel的安装和使用方法
2017/07/31 NodeJs
Vue 过滤器filters及基本用法
2017/12/26 Javascript
使用Vue做一个简单的todo应用的三种方式的示例代码
2018/10/20 Javascript
微信小程序开发实现的选项卡(窗口顶部/底部TabBar)页面切换功能图文详解
2019/05/14 Javascript
新手入门带你学习JavaScript引擎运行原理
2019/06/24 Javascript
vue 实现根据data中的属性值来设置不同的样式
2020/08/04 Javascript
[01:04:14]OG vs Winstrike 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
Windows中安装使用Virtualenv来创建独立Python环境
2016/05/31 Python
python实现求两个字符串的最长公共子串方法
2018/07/20 Python
Python拼接微信好友头像大图的实现方法
2018/08/01 Python
python编程使用协程并发的优缺点
2018/09/20 Python
对numpy下的轴交换transpose和swapaxes的示例解读
2019/06/26 Python
python hash每次调用结果不同的原因
2019/11/21 Python
Python中logging日志库实例详解
2020/02/19 Python
python如何利用paramiko执行服务器命令
2020/11/07 Python
8款使用 CSS3 实现超炫的 Loading(加载)的动画效果
2015/03/17 HTML / CSS
如何在Canvas中添加事件的方法示例
2019/05/21 HTML / CSS
Stefania Mode美国:奢华设计师和时尚服装
2018/01/07 全球购物
广州地球村科技数据库题目
2016/04/25 面试题
民主生活会发言材料
2014/10/20 职场文书
实习单位意见
2015/06/04 职场文书
钢铁是怎样炼成的读书笔记
2015/06/29 职场文书