Python进行数据科学工作的简单入门教程


Posted in Python onApril 01, 2015

Python拥有着极其丰富且稳定的数据科学工具环境。遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke)。在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林。

你可能会问,很多现有的PyData包推荐列表怎么样?我觉得对新手来说提供太多的选择可能会受不了。因此这里不会提供推荐列表,我要讨论的范围很窄,只集中于10%的工具,但它们可以完成你90%的工作。当你掌握这些必要的工具后,你就可以浏览PyData工具的长列表了,选择自己接下来要使用的。

值得一提的是,我介绍的这几个工具可以让你完成一个数据科学家日常的绝大部分工作了(比如数据输入输出、数据再加工以及数据分析)。
安装

经常会有人过来和我说“我听说Python很擅长处理数据科学,所以我想学一下。但是安装Python和所有其他模块就耗费了两天时间”。安装Python是很合理的,因为你要用它,但是当你不知道真正需要哪些其他工具时就手动安装所有的PyData工具,这确实是一项大工程啊。所以我强烈反对这样做。

幸运的是,Continuum的一伙人创建了Python发行版Anaconda,它包含了大部分PyData工具包。默认没有的模块也可以轻松地通过GUI安装。这个发行版适用于所有主流平台。这样无需耗费两天安装了,可以直接使用它。
IPython Notebook

Python安装后,大部分人直接启动并开始学习。这很合理,但遗憾的是又大错特错了。我没见过直接在Python命令行中运行Python科学计算环境的(因人而异)。相反,可以使用IPython,特别是IPython Notebook,它们都是特别强大的Python shell,被广泛地使用在PyData领域中。我强烈建议你直接使用IPython Notebook(IPyNB)而不用为其他事所烦扰,你不会后悔的。简而言之,IPyNB是一个通过浏览器访问的Python shell。它允许你混合编辑代码、文本和图形(甚至是交互对象)。本文就是在IPyNB中完成的。在Python的会议中,几乎所有的演讲都使用IPython Notebook。Anaconda中预装了IPyNB,可以直接使用。下面看下它是什么样的:

In [1]:

print('Hello World')
Hello World

IPyNB发展很快——每次在会议中听(IPyNB的)核心开发人员演讲时,我总被他们想出的新功能所震撼。要了解它的一些先进功能,可以看看下面这个关于IPython小工具的简短教程。这些小工具可以让你使用滑动条交互地控制绘图:

In [1]:
 

from IPython.display import YouTubeVideo
YouTubeVideo('wxVx54ax47s') # 没错,它也可以嵌入youtube视频

Out[1]:
6. IPython Widgets ? IPython Notebook Tutorial
Pandas

通常,大家会建议你先学习NumPy(读作num-pie,不是num-pee),一个支持多维数组的库。几年前肯定得这样,但现在我几乎不使用NumPy。因为NumPy越来越成为一个被其他库所使用核心库,这些库通常具有更优雅的接口。因此,Pandas成为了处理数据所主要使用的库。它可以以各种格式(包括数据库)输入输出数据、执行join以及其他SQL类似的功能来重塑数据、熟练地处理缺失值、支持时间序列、拥有基本绘图功能和统计功能,等等还有很多。对它所有的特性来说,肯定有一个学习曲线,但我强烈去建议你先看一下大部分文档。你所投入的时间将使你的数据再加工过程更高效,这会带来上千倍的回报。这里有一些快速技巧会让你胃口大开的:
In [18]:
 

import pandas as pd
 
df = pd.DataFrame({ 'A' : 1.,
          'B' : pd.Timestamp('20130102'),
          'C' : pd.Series(1, index=list(range(4)), dtype='float32'),
          'D' : pd.Series([1, 2, 1, 2], dtype='int32'),
          'E' : pd.Categorical(["test", "train", "test", "train"]),
          'F' : 'foo' })

In [19]:

Out[19]:

A B C D E F
0 1 2013-01-02 1 1 test foo
1 1 2013-01-02 1 2 train foo
2 1 2013-01-02 1 1 test foo
3 1 2013-01-02 1 2 train foo

可以通过列名来获取某一列:

In [17]:
 
df.B
Out[17]:
 
0  2013-01-02
1  2013-01-02
2  2013-01-02
3  2013-01-02
Name: B, dtype: datetime64[ns]
 
Compute the sum of D for each category in E:
按E分类,每类对D求和:
In [21]:
 
df.groupby('E').sum().D
Out[21]:
 
E
test   2
train  4
Name: D, dtype: int32

使用NumPy(或者笨重的Matlab)达到同样的目的会很麻烦。

还有非常多的用法。不相信的话可以看一下这个教程“10 minutes to pandas”。上面的例子也来自这个教程。
Seaborn

Matplotlib是Python主要的绘图库。但是,我不建议你直接使用它,原因与开始不推荐你使用NumPy是一样的。虽然Matplotlib很强大,它本身就很复杂,你的图经过大量的调整才能变精致。因此,作为替代,我推荐你一开始使用Seaborn。Seaborn本质上使用Matplotlib作为核心库(就像Pandas对NumPy一样)。我将简短地描述下seaborn的优点。具体来说,它可以:

  1.     默认情况下就能创建赏心悦目的图表。(只有一点,默认不是jet colormap)
  2.     创建具有统计意义的图
  3.     能理解pandas的DataFrame类型,所以它们一起可以很好地工作。

虽然anaconda预装了pandas,却没安装seaborn。可以通过conda install seaborn轻松地安装。
具有统计意义的图
In [5]:
 

%matplotlib inline # IPython magic to create plots within cells

In [7]:
 

import seaborn as sns
 
# Load one of the data sets that come with seaborn
tips = sns.load_dataset("tips")
 
sns.jointplot("total_bill", "tip", tips, kind='reg');

Python进行数据科学工作的简单入门教程

如你所见,仅通过一行代码,我们就创建了一个漂亮复杂的统计图,其中包含拥有置信区间的最拟合回归直线、边界图,以及相关系数。使用matplotlib重新绘制这幅图的话需要相当多的(丑陋)代码,包括调用scipy执行线性回归并手动利用线性回归方程绘制直线(我甚至想不出怎么在边界绘图,怎么计算置信区间)。上面和下面的例子都摘自教程“the tutorial on quantitative linear models”。
与Pandas的DataFrame很好地工作

数据有自己的结构。通常我们感兴趣的包含不同的组或类(这种情况下使用pandas中groupby的功能会让人感到很神奇)。比如tips(小费)的数据集是这样的:
In [9]:
 

tips.head()
Out[9]:
 total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4

我们可能想知道吸烟者给的小费是否与不吸烟的人不同。没有seaborn的话,这需要使用pandas的groupby功能,并通过复杂的代码绘制线性回归直线。使用seaborn的话,我们可以给col参数提供列名,按我们的需要划分数据:
In [11]:
 

sns.lmplot("total_bill", "tip", tips, col="smoker");

Python进行数据科学工作的简单入门教程

很整洁吧?

随着你研究得越深,你可能想更细粒度地控制这些图表的细节。因为seaborn只是调用了matplotlib,那时你可能会想学习这个库。然而,对绝大部分工作来说我还是喜欢使用seaborn。
总结

这篇文章的想法是通过提供部分包来最大化新手使用Python处理数据科学的效率。

Python 相关文章推荐
Python实现的数据结构与算法之快速排序详解
Apr 22 Python
实例探究Python以并发方式编写高性能端口扫描器的方法
Jun 14 Python
解决Python 遍历字典时删除元素报异常的问题
Sep 11 Python
Mac 上切换Python多版本
Jun 17 Python
python之matplotlib学习绘制动态更新图实例代码
Jan 23 Python
TensorFlow用expand_dim()来增加维度的方法
Jul 26 Python
使用tensorflow实现线性回归
Sep 08 Python
解决pyecharts在jupyter notebook中使用报错问题
Apr 23 Python
Selenium+Python 自动化操控登录界面实例(有简单验证码图片校验)
Jun 28 Python
python实现从尾到头打印单链表操作示例
Feb 22 Python
python ImageDraw类实现几何图形的绘制与文字的绘制
Feb 26 Python
python求前n个阶乘的和实例
Apr 02 Python
10个易被忽视但应掌握的Python基本用法
Apr 01 #Python
用Python制作检测Linux运行信息的工具的教程
Apr 01 #Python
用Python的pandas框架操作Excel文件中的数据教程
Mar 31 #Python
Python实现国外赌场热门游戏Craps(双骰子)
Mar 31 #Python
通过代码实例展示Python中列表生成式的用法
Mar 31 #Python
使用Python实现一个简单的项目监控
Mar 31 #Python
详解Python中内置的NotImplemented类型的用法
Mar 31 #Python
You might like
学习php设计模式 php实现装饰器模式(decorator)
2015/12/07 PHP
php简单复制文件的方法
2016/05/09 PHP
利用Homestead快速运行一个Laravel项目的方法详解
2017/11/14 PHP
PHP+MariaDB数据库操作基本技巧备忘总结
2018/05/21 PHP
jquery修改属性值实例代码(设置属性值)
2014/01/06 Javascript
node.js中RPC(远程过程调用)的实现原理介绍
2014/12/05 Javascript
jquery加载图片时以淡入方式显示的方法
2015/01/14 Javascript
js正则表达式匹配数字字母下划线等
2015/04/14 Javascript
尝试动手制作javascript放大镜效果
2015/12/25 Javascript
一款简单的jQuery图片标注效果附源码下载
2016/03/22 Javascript
AngularJS动态加载模块和依赖的方法分析
2016/11/08 Javascript
jQuery EasyUI tree增加搜索功能的实现方法
2017/04/27 jQuery
在 webpack 中使用 ECharts的实例详解
2018/02/05 Javascript
解决vue2 在mounted函数无法获取prop中的变量问题
2018/11/15 Javascript
解决layui数据表格table的横向滚动条显示问题
2019/09/04 Javascript
Vue SPA 初次进入加载动画实现代码
2019/11/14 Javascript
Python+selenium 获取一组元素属性值的实例
2018/06/22 Python
基于Python实现迪杰斯特拉和弗洛伊德算法
2020/05/27 Python
python实现beta分布概率密度函数的方法
2019/07/08 Python
Python读取实时数据流示例
2019/12/02 Python
Python: 传递列表副本方式
2019/12/19 Python
python数字类型math库原理解析
2020/03/02 Python
在HTML5 Canvas中放入图片和保存为图片的方法
2014/05/03 HTML / CSS
德国综合购物网站:OTTO
2018/11/13 全球购物
HOTEL INFO英国:搜索全球酒店
2019/08/08 全球购物
.NET程序员的数据库面试题
2012/10/10 面试题
linux面试题参考答案(5)
2016/11/05 面试题
软件测试笔试题
2012/10/25 面试题
工商管理本科毕业生求职信范文
2013/10/05 职场文书
终端业务员岗位职责
2013/11/27 职场文书
大学生创业计划书怎么写
2014/09/15 职场文书
2014企业领导班子四风对照检查材料思想汇报
2014/09/17 职场文书
村长党的群众路线教育实践活动个人对照检查材料
2014/09/23 职场文书
2015年教师节主持词
2015/07/03 职场文书
pytorch中Schedule与warmup_steps的用法说明
2021/05/24 Python
JS实现数组去重的11种方法总结
2022/04/04 Javascript