编程 Python

利用python进行数据加载

Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动，在组队学习动员下，开始通过强迫自己输出来实现更好的输入与处理，6-15开始自己的第一次文章发布，我会把自己这个真的很小白遇到的问题写出来，希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化，把以前在学校摸过的python重新捡起来，不成体系的、拼图一样把需要的工作搭建起来，工作暂时是可用上了，每天节省了至少3个小时的数据处理工作，手里拿着python这个锤子，看什么都像钉子。

首先，你要先学会安装软件，anaconda软件,安装成功后，你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了，需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据

df = pd.read_csv('train.csv')
df.head(3)

df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “ / ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块，逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名：将表头改成中文，索引改为乘客ID ，要注意的是，要记得把名字跟列一一对上，数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后，我们可以对数据的整体结构和样例进行概览，比如说，数据大小、有多少列，各列都是什么格式的，是否包含null等。info 后面加（）跟不加（）会有不同的内容。

print(df.info())

如想在python的查看数据，可以用head

df.head(10)
df.tail(15)

判断数据是否为空，为空的地方返回True，其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv，如不希望表格自带index，可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

利用python进行数据加载

- Author -

weixin_41832970

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用python实现扫描端口示例

Mar 29 Python

win7 下搭建sublime的python开发环境的配置方法

Jun 18 Python

举例讲解Django中数据模型访问外键值的方法

Jul 21 Python

详解Numpy数组转置的三种方法T、transpose、swapaxes

May 27 Python

python安装scipy的方法步骤

Jun 26 Python

简单了解python的内存管理机制

Jul 08 Python

python飞机大战pygame游戏背景设计详解

Dec 17 Python

python字符串替换re.sub()实例解析

Feb 09 Python

Pytorch环境搭建与基本语法

Jun 03 Python

Python之Sklearn使用入门教程

Feb 19 Python

Python 中random 库的详细使用

Jun 03 Python

Django rest framework如何自定义用户表

Jun 09 Python

Python编解码问题及文本文件处理方法详解

浅谈Python协程asyncio

Jun 20 #Python

Python3接口性能测试实例代码

Jun 20 #Python

使用Djongo模块在Django中使用MongoDB数据库

python自动计算图像数据集的RGB均值

详解如何用Python实现感知器算法

python中24小时制转换为12小时制的方法

Jun 18 #Python

You might like

常用星际术语索引(新手指南)

2020/03/04 星际争霸

德生PL990的分析评价

2021/03/02 无线电

destoon实现调用图文新闻的方法

2014/08/21 PHP

PHP MYSQL简易交互式站点开发

2016/12/27 PHP

PHP使用gearman进行异步的邮件或短信发送操作详解

2020/02/27 PHP

Prototype使用指南之selector.js说明

2008/10/26 Javascript

JavaScript与DOM组合动态创建表格实例

2012/12/23 Javascript

js动态生成Html元素实现Post操作（createElement）

2015/09/14 Javascript

基于Jquery制作图片文字排版预览效果附源码下载

2015/11/18 Javascript

JavaScript中各种引用类型的常用操作方法小结

2016/05/05 Javascript

全面解析多种Bootstrap图片轮播效果

2016/05/27 Javascript

jquery checkbox的相关操作总结

2016/10/17 Javascript

javascript实现非常简单的小数取整功能示例

2017/06/13 Javascript

基于jQuery解决ios10以上版本缩放问题

2017/11/03 jQuery

JS实现的简单下拉框联动功能示例

2018/05/11 Javascript

使用weixin-java-miniapp配置进行单个小程序的配置详解

2019/03/29 Javascript

小程序云开发教程如何使用云函数实现点赞功能

2019/05/18 Javascript

JavaScript对象属性操作实例解析

2020/02/04 Javascript

在vue中实现禁止回退上一步,路由不存历史记录

2020/07/22 Javascript

Python入门篇之条件、循环

2014/10/17 Python

利用python模拟实现POST请求提交图片的方法

2017/07/25 Python

python3.7 sys模块的具体使用

2019/07/22 Python

selenium 多窗口切换的实现（windows)

2020/01/18 Python

Python 利用argparse模块实现脚本命令行参数解析

2020/12/28 Python

解释一下ruby中的特殊方法与特殊类

2013/02/26 面试题

会计师事务所审计实习自我鉴定

2013/09/20 职场文书

学校岗位设置方案

2014/01/16 职场文书

学年末自我鉴定

2014/01/21 职场文书

关于逃课的检讨书

2014/01/23 职场文书

《伯牙绝弦》教学反思

2014/03/02 职场文书

学校周年庆活动方案

2014/08/22 职场文书

个人汇报材料范文

2014/12/30 职场文书

2015年“我们的节日·重阳节”活动总结

2015/07/29 职场文书

如何用python识别滑块验证码中的缺口

2021/04/01 Python

python入门学习关于for else的特殊特性讲解

2021/11/20 Python

Java 数组的使用

2022/05/11 Java/Android