编程 Python

使用python绘制cdf的多种实现方法

Posted in Python onFebruary 25, 2020

首先我们先用随机函数编造一个包含1000个数值的一维numpy数组，如下：

// An highlighted block
rng = np.random.RandomState(seed=12345)
samples = stats.norm.rvs(size=1000, random_state=rng)

接下来我们将使用各种方法画出以上数据的累积分布图

1、matplotlib.pyplot.hist()

def hist(self, x, bins=None, range=None, density=None, weights=None,
       cumulative=False, bottom=None, histtype='bar', align='mid',
       orientation='vertical', rwidth=None, log=False,
       color=None, label=None, stacked=False, normed=None,
       **kwargs):

第一种方法，我们使用matplotlib图形库中的hist函数，熟悉该库的人应该知道这是一个直方图绘制函数，以上是从API中找到的hist函数的所有参数，我们给出一维数组或者列表x，使用hist画出该数据的直方图。

直方图有两种形式，分别是概率分布直方图和累积分布直方图（可能说的不准确- -！），可以通过参数cucumulative来调节，默认为False，画出的是PDF，那么True画出的便是CDF直方图。

PDF（figure1）可以观察到整个数据在横轴范围内的分布，CDF（figure2）则可以看出不同的数据分布间的差异性，也可以观察到整个数据的增长趋势和波动情况。

使用python绘制cdf的多种实现方法

上图是概率分布直方图，纵轴代表概率，如果置参数normed=False，纵轴代表频数

使用python绘制cdf的多种实现方法

如果我们要观察两种数据分布的差异，可能使用直方图就不是很直观，各种直方柱会相互重叠，我们只需更改直方图的图像类型，令histtype=‘step'，就会画出一条曲线来（Figure3，实际上就是将直方柱并在一起，除边界外颜色透明），类似于累积分布曲线。这时，我们就能很好地观察到不同数据分布曲线间的差异。

使用python绘制cdf的多种实现方法

2、numpy.histogram

def histogram(a, bins=10, range=None, normed=False, weights=None,
     density=None)

第二种方法我们使用numpy中画直方图的函数histogram，该函数不是一个直接的绘图函数（废话- -！过渡句，哈哈），给定一组数据a，它会返回两个数组hist和bin_edges，默认情况下hist是数据在各个区间上的频率，bin_edges是划分的各个区间的边界，说到这我们大概可以想到其实该函数算是上一个函数的底层函数，我们可以依据得到的这两个数组来画直方图，我们也可以用频率数组来直接画分布曲线（Figure4）

使用python绘制cdf的多种实现方法

这里我只给出了一个最原始的图像，直接用hist数组画的，如果想要变成合格的累积分布曲线图，纵轴为概率（频率乘区间长度），横轴为区间（从bin_edges数组中取n-1个）就可以了

3、stats.relfreq

def relfreq(a, numbins=10, defaultreallimits=None, weights=None)
Returns
-------
frequency : ndarray
  Binned values of relative frequency.
lowerlimit : float
  Lower real limit
binsize : float
  Width of each bin.
extrapoints : int
  Extra points.

第三种方法我们使用stats中的relfreq函数，该函数和第二种的方法类似，也并非是直接画图，而是返回关于直方图的一些数据，这里的frequency直接是概率而非频率，可以直接作为CDF图的纵轴，但是横轴需要自己计算，计算公式：

res.lowerlimit + np.linspace(0,res.binsize*res.frequency.size, res.frequency.size)

这个公式应该很好理解，我就不多说了，当然这些返回值都要依赖我们所给出的bins的数目。下面我给出一段代码，便是使用stats.relfreq画出概率分布直方图和累积分布曲线图。

rng = np.random.RandomState(seed=12345)
samples = stats.norm.rvs(size=1000, random_state=rng)
res = stats.relfreq(samples, numbins=25)
x = res.lowerlimit + np.linspace(0, res.binsize*res.frequency.size,res.frequency.size)
fig = plt.figure(figsize=(5, 4))
ax = fig.add_subplot(1, 1, 1)
ax.bar(x, res.frequency, width=res.binsize)
ax.set_title('Relative frequency histogram')
ax.set_xlim([x.min(), x.max()])
plt.show()

使用python绘制cdf的多种实现方法

rng = np.random.RandomState(seed=12345)
samples = stats.norm.rvs(size=1000, random_state=rng)
res = stats.relfreq(samples, numbins=25)
x = res.lowerlimit + np.linspace(0, res.binsize*res.frequency.size,res.frequency.size)
y=np.cumsum(res.frequency)
plt.plot(x,y)
plt.title('Figure6 累积分布直方图')
plt.show()

使用python绘制cdf的多种实现方法

以上就是本人整理出来的关于画cdf直方图和曲线的三种方法，整理这方面东西的初忠是在发现在进行数据分析的时候，概率分布直方图只能观察到数据大概的分布情况，而在不同的数据样本进行比较时却很难直观滴反映其差异性，通过看论文发现cdf可以做到这一点。

本人并不是数学专业出身，想要表达其意义，但有些描述和用词不当，大家借鉴就好。希望大家多多支持三水点靠木！

使用python绘制cdf的多种实现方法

- Author -

站在风口的骚人

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中getattr函数使用方法 getattr实现工厂模式

Jan 20 Python

在Python中调用ggplot的三种方法

Apr 08 Python

用Python实现协同过滤的教程

Apr 08 Python

python中类和实例如何绑定属性与方法示例详解

Aug 18 Python

Python获取系统所有进程PID及进程名称的方法示例

May 24 Python

python2与python3共存问题的解决方法

Sep 18 Python

python numpy数组的索引和切片的操作方法

Oct 20 Python

selenium在执行phantomjs的API并获取执行结果的方法

Dec 17 Python

在Python中实现函数重载的示例代码

Dec 12 Python

Python-jenkins模块之folder相关操作介绍

May 12 Python

python 操作mysql数据中fetchone()和fetchall()方式

May 15 Python

python 如何调用 dubbo 接口

Sep 24 Python

python GUI库图形界面开发之PyQt5开发环境配置与基础使用

Feb 25 #Python

python GUI库图形界面开发之PyQt5信号与槽基本操作

Feb 25 #Python

python GUI库图形界面开发之PyQt5信号与槽机制、自定义信号基础介绍

Feb 25 #Python

python模拟点击网页按钮实现方法

Feb 25 #Python

python GUI库图形界面开发之PyQt5动态加载QSS样式文件

Feb 25 #Python

python 计算概率密度、累计分布、逆函数的例子

Feb 25 #Python

python GUI库图形界面开发之PyQt5窗口背景与不规则窗口实例

Feb 25 #Python

You might like

PHP4在Windows2000下的安装

2006/10/09 PHP

php 文件夹删除、php清除缓存程序

2009/08/25 PHP

用php或asp创建网页桌面快捷方式的代码

2010/03/23 PHP

PHP中返回引用类型的方法

2015/04/03 PHP

PHP排序算法之快速排序(Quick Sort)及其优化算法详解

2018/04/21 PHP

JavaScript高级程序设计阅读笔记（十六） javascript检测浏览器和操作系统-detect.js

2012/08/14 Javascript

js arguments,jcallee caller用法总结

2013/11/30 Javascript

基于jQuery实现复选框是否选中进行答题提示

2015/12/10 Javascript

JavaScript中的事件委托及好处

2016/07/12 Javascript

AngularJS封装$http.post()实例详解

2017/05/06 Javascript

Javascript继承机制详解

2017/05/30 Javascript

Angular 通过注入 $location 获取与修改当前页面URL的实例

2017/05/31 Javascript

使用vue.js在页面内组件监听scroll事件的方法

2018/09/11 Javascript

layui 动态设置checbox 选中状态的例子

2019/09/02 Javascript

js、jquery实现列表模糊搜索功能过程解析

2020/03/27 jQuery

vue组件入门知识全梳理

2020/09/21 Javascript

微信小程序实现天气预报功能(附源码)

2020/12/10 Javascript

[40:55]Liquid vs LGD 2018国际邀请赛小组赛BO2 第二场 8.16

2018/08/17 DOTA

Mac下Supervisor进程监控管理工具的安装与配置

2014/12/16 Python

Python实现微信公众平台自定义菜单实例

2015/03/20 Python

Ruby使用eventmachine为HTTP服务器添加文件下载功能

2016/04/20 Python

Python基于sftp及rsa密匙实现远程拷贝文件的方法

2016/09/21 Python

Python从函数参数类型引出元组实例分析

2019/05/28 Python

浅谈Python_Openpyxl使用（最全总结）

2019/09/05 Python

Win 10下Anaconda虚拟环境的教程

2020/05/18 Python

区分python中的进程与线程

2020/08/13 Python

css3制作动态进度条以及附加jQuery百分比数字显示

2012/12/13 HTML / CSS

详解HTML5 Canvas标签及基本使用

2020/01/10 HTML / CSS

Optimalprint加拿大：在线打印服务

2020/04/03 全球购物

医院护理人员的自我评价分享

2013/10/04 职场文书

售后服务承诺书范文

2014/03/26 职场文书

车辆转让协议书

2014/04/15 职场文书

信仰心得体会

2014/09/05 职场文书

2014乡镇班子个人对照检查材料思想汇报

2014/09/26 职场文书

学校财务管理制度

2015/08/04 职场文书

食品安全主题班会

2015/08/13 职场文书