Python数据正态性检验实现过程


Posted in Python onApril 18, 2020

在做数据分析或者统计的时候,经常需要进行数据正态性的检验,因为很多假设都是基于正态分布的基础之上的,例如:T检验。

在Python中,主要有以下检验正态性的方法:

1.scipy.stats.shapiro ——Shapiro-Wilk test,属于专门用来做正态性检验的模块,其原假设:样本数据符合正态分布。

注:适用于小样本。

其函数定位为:

def shapiro(x):
  """
  Perform the Shapiro-Wilk test for normality.

  The Shapiro-Wilk test tests the null hypothesis that the
  data was drawn from a normal distribution.

  Parameters
  ----------
  x : array_like
    Array of sample data.

  Returns
  -------
  W : float
    The test statistic.
  p-value : float
    The p-value for the hypothesis test.

x参数为样本值序列,返回值中第一个为检验统计量,第二个为P值,当P值大于指定的显著性水平,则接受原假设。

2.scipy.stats.kstest(K-S检验):可以检验多种分布,不止正态分布,其原假设:数据符合正态分布。

其函数定义为:

def kstest(rvs, cdf, args=(), N=20, alternative='two-sided', mode='approx'):
  """
  Perform the Kolmogorov-Smirnov test for goodness of fit.

  This performs a test of the distribution G(x) of an observed
  random variable against a given distribution F(x). Under the null
  hypothesis the two distributions are identical, G(x)=F(x). The
  alternative hypothesis can be either 'two-sided' (default), 'less'
  or 'greater'. The KS test is only valid for continuous distributions.

  Parameters
  ----------
  rvs : str, array or callable
    If a string, it should be the name of a distribution in `scipy.stats`.
    If an array, it should be a 1-D array of observations of random
    variables.
    If a callable, it should be a function to generate random variables;
    it is required to have a keyword argument `size`.
  cdf : str or callable
    If a string, it should be the name of a distribution in `scipy.stats`.
    If `rvs` is a string then `cdf` can be False or the same as `rvs`.
    If a callable, that callable is used to calculate the cdf.
  args : tuple, sequence, optional
    Distribution parameters, used if `rvs` or `cdf` are strings.
  N : int, optional
    Sample size if `rvs` is string or callable. Default is 20.
  alternative : {'two-sided', 'less','greater'}, optional
    Defines the alternative hypothesis (see explanation above).
    Default is 'two-sided'.
  mode : 'approx' (default) or 'asymp', optional
    Defines the distribution used for calculating the p-value.

     - 'approx' : use approximation to exact distribution of test statistic
     - 'asymp' : use asymptotic distribution of test statistic

  Returns
  -------
  statistic : float
    KS test statistic, either D, D+ or D-.
  pvalue : float
    One-tailed or two-tailed p-value.

参数是:

rvs:待检验数据。

cdf:检验分布,例如'norm','expon','rayleigh','gamma'等分布,设置为'norm'时表示正态分布。

alternative:默认为双侧检验,可以设置为'less'或'greater'作单侧检验。

model:'approx'(默认值),表示使用检验统计量的精确分布的近视值;'asymp':使用检验统计量的渐进分布。

其返回值中第一个为统计量,第二个为P值。

3.scipy.stats.normaltest:正态性检验,其原假设:样本来自正态分布。

其函数定义为:

def normaltest(a, axis=0, nan_policy='propagate'):
  """
  Test whether a sample differs from a normal distribution.

  This function tests the null hypothesis that a sample comes
  from a normal distribution. It is based on D'Agostino and
  Pearson's [1]_, [2]_ test that combines skew and kurtosis to
  produce an omnibus test of normality.


  Parameters
  ----------
  a : array_like
    The array containing the sample to be tested.
  axis : int or None, optional
    Axis along which to compute test. Default is 0. If None,
    compute over the whole array `a`.
  nan_policy : {'propagate', 'raise', 'omit'}, optional
    Defines how to handle when input contains nan. 'propagate' returns nan,
    'raise' throws an error, 'omit' performs the calculations ignoring nan
    values. Default is 'propagate'.

  Returns
  -------
  statistic : float or array
    ``s^2 + k^2``, where ``s`` is the z-score returned by `skewtest` and
    ``k`` is the z-score returned by `kurtosistest`.
  pvalue : float or array
    A 2-sided chi squared probability for the hypothesis test.

其参数:

axis=None 可以表示对整个数据做检验,默认值是0。

nan_policy:当输入的数据中有nan时,'propagate',返回空值;'raise' 时,抛出错误;'omit' 时,忽略空值。

其返回值中,第一个是统计量,第二个是P值。

4.scipy.stats.anderson:由 scipy.stats.kstest 改进而来,用于检验样本是否属于某一分布(正态分布、指数分布、logistic 或者 Gumbel等分布)

其函数定义为:

def anderson(x, dist='norm'):
  """
  Anderson-Darling test for data coming from a particular distribution

  The Anderson-Darling tests the null hypothesis that a sample is
  drawn from a population that follows a particular distribution.
  For the Anderson-Darling test, the critical values depend on
  which distribution is being tested against. This function works
  for normal, exponential, logistic, or Gumbel (Extreme Value
  Type I) distributions.

  Parameters
  ----------
  x : array_like
    array of sample data
  dist : {'norm','expon','logistic','gumbel','gumbel_l', gumbel_r',
    'extreme1'}, optional
    the type of distribution to test against. The default is 'norm'
    and 'extreme1', 'gumbel_l' and 'gumbel' are synonyms.

  Returns
  -------
  statistic : float
    The Anderson-Darling test statistic
  critical_values : list
    The critical values for this distribution
  significance_level : list
    The significance levels for the corresponding critical values
    in percents. The function returns critical values for a
    differing set of significance levels depending on the
    distribution that is being tested against.

其参数:

x和dist分别表示样本数据和分布。

返回值有三个,第一个表示统计值,第二个表示评价值,第三个是显著性水平;评价值和显著性水平对应。

对于不同的分布,显著性水平不一样。

Critical values provided are for the following significance levels:

  normal/exponenential
    15%, 10%, 5%, 2.5%, 1%
  logistic
    25%, 10%, 5%, 2.5%, 1%, 0.5%
  Gumbel
    25%, 10%, 5%, 2.5%, 1%

关于统计值与评价值的对比:当统计值大于这些评价值时,表示在对应的显著性水平下,原假设被拒绝,即不属于某分布。

If the returned statistic is larger than these critical values then for the corresponding significance level, the null hypothesis that the data come from the chosen distribution can be rejected.

5.skewtest 和kurtosistest 检验:用于检验样本的skew(偏度)和kurtosis(峰度)是否与正态分布一致,因为正态分布的偏度=0,峰度=3。

偏度:偏度是样本的标准三阶中心矩。

Python数据正态性检验实现过程

峰度:峰度是样本的标准四阶中心矩。

Python数据正态性检验实现过程

6. 代码如下:

import numpy as np
from scipy import stats

a = np.random.normal(0,2,50)
b = np.linspace(0, 10, 100)

# Shapiro-Wilk test
S,p = stats.shapiro(a)
print('the shapiro test result is:',S,',',p)

# kstest(K-S检验)
K,p = stats.kstest(a, 'norm')
print(K,p)

# normaltest
N,p = stats.normaltest(b)
print(N,p)

# Anderson-Darling test
A,C,p = stats.anderson(b,dist='norm')
print(A,C,p)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python线程池的实现实例
Nov 18 Python
python获取文件版本信息、公司名和产品名的方法
Oct 05 Python
Python实现中一次读取多个值的方法
Apr 22 Python
python采集微信公众号文章
Dec 20 Python
Python中的asyncio代码详解
Jun 10 Python
python异步实现定时任务和周期任务的方法
Jun 29 Python
Django REST framework 单元测试实例解析
Nov 07 Python
使用Keras建立模型并训练等一系列操作方式
Jul 02 Python
用pandas划分数据集实现训练集和测试集
Jul 20 Python
Python Merge函数原理及用法解析
Sep 16 Python
详解java调用python的几种用法(看这篇就够了)
Dec 10 Python
详解matplotlib中pyplot和面向对象两种绘图模式之间的关系
Jan 22 Python
如何基于线程池提升request模块效率
Apr 18 #Python
新建文件时Pycharm中自动设置头部模板信息的方法
Apr 17 #Python
使用python无账号无限制获取企查查信息的实例代码
Apr 17 #Python
jupyter notebook中美观显示矩阵实例
Apr 17 #Python
Python3将ipa包中的文件按大小排序
Apr 17 #Python
利用pyecharts读取csv并进行数据统计可视化的实现
Apr 17 #Python
pyecharts动态轨迹图的实现示例
Apr 17 #Python
You might like
php中OR与|| AND与&&的区别总结
2013/10/26 PHP
windows下配置apache+php+mysql时出现问题的处理方法
2014/06/20 PHP
PHP加密解密函数详解
2015/10/28 PHP
php使用正则表达式去掉html中的注释方法
2016/11/03 PHP
详解PHP安装mysql.so扩展的方法
2016/12/31 PHP
Ext.FormPanel 提交和 Ext.Ajax.request 异步提交函数的区别
2009/11/12 Javascript
javascript一个无懈可击的实例化XMLHttpRequest的方法
2010/10/13 Javascript
script标签属性type与language使用选择
2012/12/02 Javascript
Javascript中产生固定结果的函数优化技巧
2013/01/16 Javascript
js 实现浏览历史记录示例
2014/04/20 Javascript
jQuery学习笔记之总体架构
2014/06/03 Javascript
牛叉的Jquery——Jquery与DOM对象的互相转换及DOM的三种操作
2015/10/29 Javascript
js实现文字闪烁特效的方法
2015/12/17 Javascript
浅析script标签中的defer与async属性
2016/11/30 Javascript
微信小程序page的生命周期和音频播放及监听实例详解
2017/04/07 Javascript
深入理解Angularjs中$http.post与$.post
2017/05/19 Javascript
JS判断非空至少输入两个字符的简单实现方法
2017/06/23 Javascript
JavaScript之DOM_动力节点Java学院整理
2017/07/03 Javascript
Angular4如何自定义首屏的加载动画详解
2017/07/26 Javascript
JavaScript递归算法生成树形菜单
2017/08/15 Javascript
Node.js实现mysql连接池使用事务自动回收连接的方法示例
2018/02/03 Javascript
vue .js绑定checkbox并获取、改变选中状态的实例
2018/08/24 Javascript
微信小程序文章详情页跳转案例详解
2019/07/09 Javascript
修改layui的后台模板的左侧导航栏可以伸缩的方法
2019/09/10 Javascript
Python使用新浪微博API发送微博的例子
2014/04/10 Python
在Python中使用SQLite的简单教程
2015/04/29 Python
在Python中处理字符串之isdigit()方法的使用
2015/05/18 Python
python操作excel的方法
2018/08/16 Python
python清除字符串前后空格函数的方法
2018/10/21 Python
Python查找最长不包含重复字符的子字符串算法示例
2019/02/13 Python
python使用自定义钉钉机器人的示例代码
2020/06/24 Python
专门出售各种儿童读物的网站:Put Me In The Story
2016/08/07 全球购物
历史系毕业生自荐信
2013/10/28 职场文书
药品销售内勤岗位职责
2015/04/13 职场文书
安全生产学习心得体会
2016/01/18 职场文书
《鲁滨逊漂流记》之六读后感(4篇)
2019/09/29 职场文书