利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
使用python实现扫描端口示例
Mar 29 Python
win7 下搭建sublime的python开发环境的配置方法
Jun 18 Python
举例讲解Django中数据模型访问外键值的方法
Jul 21 Python
详解Numpy数组转置的三种方法T、transpose、swapaxes
May 27 Python
python安装scipy的方法步骤
Jun 26 Python
简单了解python的内存管理机制
Jul 08 Python
python飞机大战pygame游戏背景设计详解
Dec 17 Python
python字符串替换re.sub()实例解析
Feb 09 Python
Pytorch环境搭建与基本语法
Jun 03 Python
Python之Sklearn使用入门教程
Feb 19 Python
Python 中random 库的详细使用
Jun 03 Python
Django rest framework如何自定义用户表
Jun 09 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
常用星际术语索引(新手指南)
2020/03/04 星际争霸
德生PL990的分析评价
2021/03/02 无线电
destoon实现调用图文新闻的方法
2014/08/21 PHP
PHP MYSQL简易交互式站点开发
2016/12/27 PHP
PHP使用gearman进行异步的邮件或短信发送操作详解
2020/02/27 PHP
Prototype使用指南之selector.js说明
2008/10/26 Javascript
JavaScript与DOM组合动态创建表格实例
2012/12/23 Javascript
js动态生成Html元素实现Post操作(createElement)
2015/09/14 Javascript
基于Jquery制作图片文字排版预览效果附源码下载
2015/11/18 Javascript
JavaScript中各种引用类型的常用操作方法小结
2016/05/05 Javascript
全面解析多种Bootstrap图片轮播效果
2016/05/27 Javascript
jquery checkbox的相关操作总结
2016/10/17 Javascript
javascript实现非常简单的小数取整功能示例
2017/06/13 Javascript
基于jQuery解决ios10以上版本缩放问题
2017/11/03 jQuery
JS实现的简单下拉框联动功能示例
2018/05/11 Javascript
使用weixin-java-miniapp配置进行单个小程序的配置详解
2019/03/29 Javascript
小程序云开发教程如何使用云函数实现点赞功能
2019/05/18 Javascript
JavaScript对象属性操作实例解析
2020/02/04 Javascript
在vue中实现禁止回退上一步,路由不存历史记录
2020/07/22 Javascript
Python入门篇之条件、循环
2014/10/17 Python
利用python模拟实现POST请求提交图片的方法
2017/07/25 Python
python3.7 sys模块的具体使用
2019/07/22 Python
selenium 多窗口切换的实现(windows)
2020/01/18 Python
Python 利用argparse模块实现脚本命令行参数解析
2020/12/28 Python
解释一下ruby中的特殊方法与特殊类
2013/02/26 面试题
会计师事务所审计实习自我鉴定
2013/09/20 职场文书
学校岗位设置方案
2014/01/16 职场文书
学年末自我鉴定
2014/01/21 职场文书
关于逃课的检讨书
2014/01/23 职场文书
《伯牙绝弦》教学反思
2014/03/02 职场文书
学校周年庆活动方案
2014/08/22 职场文书
个人汇报材料范文
2014/12/30 职场文书
2015年“我们的节日·重阳节”活动总结
2015/07/29 职场文书
如何用python识别滑块验证码中的缺口
2021/04/01 Python
python入门学习关于for else的特殊特性讲解
2021/11/20 Python
Java 数组的使用
2022/05/11 Java/Android