利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python continue语句用法实例
Mar 11 Python
举例讲解Python编程中对线程锁的使用
Jul 12 Python
Python 列表理解及使用方法
Oct 27 Python
Jupyter notebook远程访问服务器的方法
May 24 Python
不知道这5种下划线的含义,你就不算真的会Python!
Oct 09 Python
WIn10+Anaconda环境下安装PyTorch(避坑指南)
Jan 30 Python
pyinstaller打包opencv和numpy程序运行错误解决
Aug 16 Python
Django之PopUp的具体实现方法
Aug 31 Python
python sorted函数原理解析及练习
Feb 10 Python
python闭包、深浅拷贝、垃圾回收、with语句知识点汇总
Mar 11 Python
详解python安装matplotlib库三种失败情况
Jul 28 Python
python爬虫使用scrapy注意事项
Nov 23 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
JAVA/JSP学习系列之六
2006/10/09 PHP
关于JSON以及JSON在PHP中的应用技巧
2013/11/27 PHP
PHP利用func_get_args和func_num_args函数实现函数重载实例
2014/11/12 PHP
php绘制一条直线的方法
2015/01/24 PHP
PHP+Ajax实现验证码的实时验证
2016/07/20 PHP
基于PHP的加载类操作以及其他两种魔术方法的应用实例
2017/08/28 PHP
基于jquery的仿百度的鼠标移入图片抖动效果
2010/09/17 Javascript
改进UCHOME的记录发布,增强可访问性用户体验
2011/01/17 Javascript
jquery实现效果比较好的table选中行颜色
2014/03/25 Javascript
Jquery判断form表单数据是否变化
2016/03/30 Javascript
jQuery实现选项联动轮播效果【附实例】
2016/04/19 Javascript
有关easyui-layout中的收缩层无法显示标题的解决办法
2016/05/10 Javascript
JS控制页面跳转时未请求要跳转的地址怎么回事
2016/10/14 Javascript
微信小程序 wxapp内容组件 progress详细介绍
2016/10/31 Javascript
Jquery Easyui菜单组件Menu使用详解(15)
2016/12/18 Javascript
微信小程序 chooseImage选择图片或者拍照
2017/04/07 Javascript
详解webpack解惑:require的五种用法
2017/06/09 Javascript
深入理解Angular4订阅(Subscribe)与取消
2017/11/22 Javascript
Vue-Quill-Editor富文本编辑器的使用教程
2018/09/21 Javascript
微信小程序表单验证插件WxValidate的二次封装功能(终极版)
2019/09/03 Javascript
小程序api实现promise封装过程解析
2019/11/21 Javascript
Vue作用域插槽实现方法及作用详解
2020/07/08 Javascript
CentOS 6.5下安装Python 3.5.2(与Python2并存)
2017/06/05 Python
Python对列表中的各项进行关联详解
2017/08/15 Python
python3中property使用方法详解
2019/04/23 Python
详解python算法常用技巧与内置库
2020/10/17 Python
python实现录制全屏和选择区域录屏功能
2021/02/05 Python
连卡佛中国官网:Lane Crawford中文站
2018/01/27 全球购物
The North Face官方旗舰店:美国著名户外品牌
2020/09/28 全球购物
社团招新策划书
2014/02/04 职场文书
网络技术专业推荐信
2014/02/20 职场文书
综治维稳工作承诺书
2014/08/30 职场文书
2014年幼儿园园长工作总结
2014/12/17 职场文书
2015入党自传格式范文
2015/06/26 职场文书
《平行四边形的面积》教学反思
2016/02/16 职场文书
2016年感恩节活动总结大全
2016/04/01 职场文书