利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
跟老齐学Python之不要红头文件(2)
Sep 28 Python
python实现聊天小程序
Mar 13 Python
matplotlib.pyplot画图 图片的二进制流的获取方法
May 24 Python
Python Grid使用和布局详解
Jun 30 Python
python 获取url中的参数列表实例
Dec 18 Python
对Python中TKinter模块中的Label组件实例详解
Jun 14 Python
华为校园招聘上机笔试题 扑克牌大小(python)
Apr 22 Python
使用WingPro 7 设置Python路径的方法
Jul 24 Python
Python中的X[:,0]、X[:,1]、X[:,:,0]、X[:,:,1]、X[:,m:n]和X[:,:,m:n]
Feb 13 Python
python实现马丁策略的实例详解
Jan 15 Python
python如何在word中存储本地图片
Apr 07 Python
yolov5返回坐标的方法实例
Mar 17 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
一些不错的js函数ajax
2008/08/20 Javascript
基于jquery跨浏览器显示的file上传控件
2011/10/24 Javascript
ajax异步刷新实现更新数据库
2012/12/03 Javascript
基于jquery自定义的漂亮单选按钮RadioButton
2013/11/19 Javascript
zepto中使用swipe.js制作轮播图附swipeUp,swipeDown不起效果问题
2015/08/27 Javascript
js使用generator函数同步执行ajax任务
2017/09/05 Javascript
dropload.js插件下拉刷新和上拉加载使用详解
2017/10/20 Javascript
Vue中keep-alive 实现后退不刷新并保持滚动位置
2020/03/17 Javascript
[02:02]特效爆炸!DOTA2珍宝之瓶待你开启
2018/08/21 DOTA
[00:44]华丽开场!DOTA2勇士令状带来全新对阵画面
2019/05/15 DOTA
[42:06]2019国际邀请赛全明星赛 8.23
2019/09/05 DOTA
[52:37]完美世界DOTA2联赛循环赛 Forest vs DM BO2第一场 10.29
2020/10/29 DOTA
用Python的线程来解决生产者消费问题的示例
2015/04/02 Python
python计算时间差的方法
2015/05/20 Python
python处理html转义字符的方法详解
2016/07/01 Python
Python利用Beautiful Soup模块搜索内容详解
2017/03/29 Python
人生苦短我用python python如何快速入门?
2018/03/12 Python
浅谈python正则的常用方法 覆盖范围70%以上
2018/03/14 Python
利用python-docx模块写批量生日邀请函
2019/08/26 Python
Python3+Requests+Excel完整接口自动化测试框架的实现
2019/10/11 Python
python使用pip安装SciPy、SymPy、matplotlib教程
2019/11/20 Python
Python中logging日志库实例详解
2020/02/19 Python
django模板获取list中指定索引的值方式
2020/05/14 Python
使用Keras画神经网络准确性图教程
2020/06/15 Python
Python 排序最长英文单词链(列表中前一个单词末字母是下一个单词的首字母)
2020/12/14 Python
python matlab库简单用法讲解
2020/12/31 Python
Smashbox官网:美国知名彩妆品牌
2017/01/05 全球购物
英国和爱尔兰的自炊式豪华度假小屋:Rural Retreats
2018/06/08 全球购物
写给女生的道歉信
2014/01/08 职场文书
违反课堂纪律检讨书
2014/01/19 职场文书
食堂个人先进事迹
2014/01/22 职场文书
四年级下册教学反思
2014/02/01 职场文书
幼儿园六一儿童节文艺汇演主持词
2014/03/21 职场文书
初中班主任寄语
2014/04/04 职场文书
2014年护理部工作总结
2014/11/14 职场文书
利用Java连接Hadoop进行编程
2022/06/28 Java/Android