利用python进行数据加载


Posted in Python onJune 20, 2021

前言

最近参加了datawhale的组队学习活动,在组队学习动员下,开始通过强迫自己输出来实现更好的输入与处理,6-15开始自己的第一次文章发布,我会把自己这个真的很小白遇到的问题写出来,希望能给屏幕前小白的你带来帮助。

工作中大量繁琐的自动化,把以前在学校摸过的python重新捡起来,不成体系的、拼图一样把需要的工作搭建起来,工作暂时是可用上了,每天节省了至少3个小时的数据处理工作,手里拿着python这个锤子,看什么都像钉子。

首先,你要先学会安装软件,anaconda软件,安装成功后,你点击jupyter notebook打开代码框。

现在可以开始尝试做数据分析了。

一、数据加载

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 导入包

导入numpy和pandas

import pandas as pd
import numpy as np

如果出错了,需要注意大小写、有没有单词写错了

1.1.2 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据  

df = pd.read_csv('train.csv')
df.head(3)
df = pd.read_csv('/Users/Documents/train.csv')
df.head(3)

注意绝对路径的 “  /  ” 方向不要错。

1.1.3 大文件时要分块读取

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.1.4

对着整个表修改列名:将表头改成中文,索引改为乘客ID ,要注意的是,要记得把名字跟列一一对上,数量对上、顺序对上

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

1.2 初步观察

导入数据后,我们可以对数据的整体结构和样例进行概览,比如说,数据大小、有多少列,各列都是什么格式的,是否包含null等。info 后面加()跟不加()会 有不同的内容。

print(df.info())

如想在python的查看数据,可以用head

df.head(10)
df.tail(15)

判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull().head()

1.3 保存数据

在工作目录下保存为一个新文件train_chinese.csv,如不希望表格自带index,可以加入index=false

df.to_csv('train_chinese.csv',index=flase)

 

到此这篇关于利用python进行数据加载的文章就介绍到这了,更多相关python数据加载内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现返回数组中第i小元素的方法示例
Dec 04 Python
Python决策树和随机森林算法实例详解
Jan 30 Python
Python将图片转换为字符画的方法
Jun 16 Python
python opencv 图像尺寸变换方法
Apr 02 Python
详解Numpy中的广播原则/机制
Sep 20 Python
python启动应用程序和终止应用程序的方法
Jun 28 Python
Python实现图片批量加入水印代码实例
Nov 30 Python
django自定义模板标签过程解析
Dec 14 Python
手把手教你进行Python虚拟环境配置教程
Feb 03 Python
python GUI库图形界面开发之PyQt5输入对话框QInputDialog详细使用方法与实例
Feb 27 Python
Django 多对多字段的更新和插入数据实例
Mar 31 Python
Python paramiko使用方法代码汇总
Nov 20 Python
Python编解码问题及文本文件处理方法详解
浅谈Python协程asyncio
Jun 20 #Python
Python3接口性能测试实例代码
Jun 20 #Python
使用Djongo模块在Django中使用MongoDB数据库
python自动计算图像数据集的RGB均值
详解如何用Python实现感知器算法
python中24小时制转换为12小时制的方法
Jun 18 #Python
You might like
php全局变量和类配合使用深刻理解
2013/06/05 PHP
window.open被浏览器拦截后的自定义提示效果代码
2007/11/19 Javascript
ajaxControlToolkit AutoCompleteExtender的用法
2008/10/30 Javascript
JavaScript URL参数读取改进版
2009/01/16 Javascript
JavaScript通过RegExp实现客户端验证处理程序
2013/05/07 Javascript
jQuery输入城市查看地图使用介绍
2013/05/08 Javascript
EXT中单击button按钮grid添加一行(光标位置可设置)的实例代码
2016/06/02 Javascript
js实现图片加载淡入淡出效果
2017/04/07 Javascript
laydate 显示结束时间不小于开始时间的实例
2017/08/11 Javascript
微信小程序实现图片预览功能
2018/01/31 Javascript
小程序二次贝塞尔曲线实现购物车商品曲线飞入效果
2019/01/07 Javascript
js实现踩五彩块游戏
2020/02/08 Javascript
jQuery实现B2B网站后台管理系统侧导航
2020/07/08 jQuery
Openlayers显示地理位置坐标的方法
2020/09/28 Javascript
python 图片验证码代码分享
2012/07/04 Python
跟老齐学Python之再深点,更懂list
2014/09/20 Python
Python科学计算之NumPy入门教程
2017/01/15 Python
Python找出最小的K个数实例代码
2018/01/04 Python
numpy 计算两个数组重复程度的方法
2018/11/07 Python
基于django传递数据到后端的例子
2019/08/16 Python
python GUI库图形界面开发之PyQt5信号与槽机制、自定义信号基础介绍
2020/02/25 Python
Python pip install如何修改默认下载路径
2020/04/29 Python
python使用建议与技巧分享(二)
2020/08/17 Python
利用python批量爬取百度任意类别的图片的实现方法
2020/10/07 Python
纯CSS3实现滚动的齿轮动画效果
2014/06/05 HTML / CSS
家用个人磨皮机:Trophy Skin
2017/03/30 全球购物
名词解释WEB SERVICE,SOAP,UDDI,WSDL,JAXP,JAXM;JSWDL开发包的介绍。
2012/10/27 面试题
机械设计及其自动化专业推荐信
2013/10/31 职场文书
商务助理岗位职责
2013/11/13 职场文书
应届毕业生应聘自荐信
2013/12/07 职场文书
小学防溺水制度
2014/01/29 职场文书
餐饮企业总经理岗位职责范文
2014/02/18 职场文书
财会专业毕业生自荐信
2014/07/09 职场文书
个性发展自我评价2015
2015/03/09 职场文书
本科毕业论文致谢词
2015/05/14 职场文书
pandas中关于apply+lambda的应用
2022/02/28 Python