编程 Python

基于python进行抽样分布描述及实践详解

Posted in Python onSeptember 02, 2019

本次选取泰坦尼克号的数据，利用python进行抽样分布描述及实践。

备注：数据集的原始数据是泰坦尼克号的数据，本次截取了其中的一部分数据进行学习。Age:年龄，指登船者的年龄。Fare:价格，指船票价格。Embark:登船的港口。

1、按照港口分类，使用python求出各类港口数据年龄、车票价格的统计量（均值、方差、标准差、变异系数等）。

import pandas as pd
df = pd.read_excel('/Users/Downloads/data.xlsx',usecols = [1,2,3] )
#拿到港口'Embarked'、年龄'Age'、价格'Fare'的数据
df2 = df.groupby(['Embarked'])
#按照港口'Embarked'分类后，查看 年龄、车票价格的统计量。
# 变异系数 = 标准差/平均值
def cv(data):
  return data.std()/data.var()

df2 = df.groupby(['Embarked']).agg(['count','min','max','median','mean','var','std',cv])
df2 = df2.apply(lambda x:round(x,2))
df2_age = df2['Age']
df2_fare = df2['Fare']

分类后年龄及价格统计量描述数据如下图：

年龄统计量

基于python进行抽样分布描述及实践详解

价格统计量

基于python进行抽样分布描述及实践详解

2、画出价格的分布图像，验证数据服从何种分布（正态？卡方？还是T?）

2.1 画出船票的直方图：

plt.hist(df['Fare'],20,normed=1, alpha=0.75)
plt.title('Fare')
plt.grid(True)

船票价格的直方图及概率分布

基于python进行抽样分布描述及实践详解

2.2 验证是否符合正态分布？

#分别用kstest、shapiro、normaltest来验证分布系数
ks_test = kstest(df['Fare'], 'norm')
#KstestResult(statistic=0.99013849978633, pvalue=0.0)

shapiro_test = shapiro(df['Fare'])
#shapiroResult(0.5256513357162476, 7.001769945799311e-40)

normaltest_test = normaltest(df['Fare'],axis=0) 
#NormaltestResult(statistic=715.0752414548335, pvalue=5.289130045259168e-156)

以上三种检测结果表明 p<5%,因此船票数据不符合正态分布。

绘制拟合正态分布曲线:

fare = df['Fare']

plt.figure()
fare.plot(kind = 'kde')   #原始数据的正态分布

M_S = stats.norm.fit(fare)  #正态分布拟合的平均值loc，标准差 scale
normalDistribution = stats.norm(M_S[0], M_S[1])  # 绘制拟合的正态分布图
x = np.linspace(normalDistribution.ppf(0.01), normalDistribution.ppf(0.99), 100)
plt.plot(x, normalDistribution.pdf(x), c='orange')
plt.xlabel('Fare about Titanic')
plt.title('Titanic[Fare] on NormalDistribution', size=20)
plt.legend(['Origin', 'NormDistribution'])

船票拟合正态分布曲线

基于python进行抽样分布描述及实践详解

2.3 验证是否符合T分布？

T_S = stats.t.fit(fare)
df = T_S[0] 
loc = T_S[1] 
scale = T_S[2] 
x2 = stats.t.rvs(df=df, loc=loc, scale=scale, size=len(fare))
D, p = stats.ks_2samp(fare, x2) # (0.25842696629213485 2.6844476044528504e-21)

p = 2.6844476044528504e-21 ，p < alpha，拒绝原假设，价格数据不符合t分布。

对票价数据进行T分布拟合：

plt.figure()
fare.plot(kind = 'kde') 
TDistribution = stats.t(T_S[0], T_S[1],T_S[2])  # 绘制拟合的T分布图
x = np.linspace(TDistribution.ppf(0.01), TDistribution.ppf(0.99), 100)
plt.plot(x, TDistribution.pdf(x), c='orange')
plt.xlabel('Fare about Titanic')
plt.title('Titanic[Fare] on TDistribution', size=20)
plt.legend(['Origin', 'TDistribution'])

票价拟合T分布

基于python进行抽样分布描述及实践详解

2.4 验证是否符合卡方分布？

chi_S = stats.chi2.fit(fare)
df_chi = chi_S[0] 
loc_chi = chi_S[1] 
scale_chi = chi_S[2] 
x2 = stats.chi2.rvs(df=df_chi, loc=loc_chi, scale=scale_chi, size=len(fare))
Df, pf = stats.ks_2samp(fare, x2) # (0.16292134831460675, 1.154755913291936e-08)

p = 1.154755913291936e-08 ，p < alpha，拒绝原假设，价格数据不符合卡方分布。

对票价数据进行卡方分布拟合

plt.figure()
fare.plot(kind = 'kde') 
chiDistribution = stats.chi2(chi_S[0], chi_S[1],chi_S[2])  # 绘制拟合的正态分布图
x = np.linspace(chiDistribution.ppf(0.01), chiDistribution.ppf(0.99), 100)
plt.plot(x, chiDistribution.pdf(x), c='orange')
plt.xlabel('Fare about Titanic')
plt.title('Titanic[Fare] on chi-square_Distribution', size=20)
plt.legend(['Origin', 'chi-square_Distribution'])

票价拟合卡方分布

基于python进行抽样分布描述及实践详解

3、按照港口分类，验证S与Q两个港口间的价格之差是否服从某种分布

S_fare = df[df['Embarked'] =='S']['Fare']
Q_fare = df[df['Embarked'] =='Q']['Fare']
C_fare = df[df['Embarked'] =='C']['Fare']
S_fare.describe()
count  554.000000
mean   27.476284
std    36.546362
min    0.000000
25%    8.050000
50%    13.000000
75%    27.862500
max   263.000000
Q_fare.describe()
count  28.000000
mean   18.265775
std   21.843582
min    6.750000
25%    7.750000
50%    7.750000
75%   18.906250
max   90.000000
C_fare.describe()
count  130.000000
mean   68.296767
std    90.557822
min    4.012500
25%    14.454200
50%    36.252100
75%    81.428100
max   512.329200

按照港口分类后，S港口样本数<=554,Q港口样本数<=28,C港口样本数<=130。

总体不服从正态分布，所以需要当n比较大时，一般要求n>=30，两个样本均值之差的抽样分布可近似为正态分布。X2的总体容量为28，其样本容量不可能超过30，故其S港和Q港两个样本均值之差（E(X1)-E(X2)）的抽样分布不服从正态分布。

S港和C港两个样本均值之差（E(X1)-E(X3)）的抽样分布近似服从正态分布，其均值和方差分别为E(E(X1) - E(X3)) = E(E(X1)) - E(E(X3)) = μ1 - μ3；D(E(X1) + E(X3)) = D(E(X1)) + D(E(X3)) = σ1²/n1 + σ3²/n3 。绘图如下：

miu = np.mean(S_fare) - np.mean(C_fare)
sig = np.sqrt(np.var(S_fare, ddof=1)/len(S_fare) + np.var(C_fare, ddof=1)/len(C_fare))

x = np.arange(- 110, 50)
y = stats.norm.pdf(x, miu, sig)
plt.plot(x, y)
plt.xlabel("S_Fare - C_Fare")
plt.ylabel("Density")
plt.title('Fare difference between S and C')
plt.show()

基于python进行抽样分布描述及实践详解

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

基于python进行抽样分布描述及实践详解

- Author -

Vicky_1ecd

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python初学时购物车程序练习实例(推荐)

Aug 08 Python

python实现redis三种cas事务操作

Dec 19 Python

解决python selenium3启动不了firefox的问题

Oct 13 Python

解决新版Pycharm中Matplotlib图像不在弹出独立的显示窗口问题

Jan 15 Python

python画图--输出指定像素点的颜色值方法

Jul 03 Python

关于tf.TFRecordReader()函数的用法解析

Feb 17 Python

如何使用python传入不确定个数参数

Feb 18 Python

Python计算信息熵实例

Jun 18 Python

Python 合并拼接字符串的方法

Jul 28 Python

python切割图片的示例

Nov 12 Python

基于Python的接口自动化读写excel文件的方法

Jan 15 Python

浅析python连接数据库的重要事项

Feb 22 Python

利用Python复制文件的9种方法总结

Sep 02 #Python

Python单元测试工具doctest和unittest使用解析

Sep 02 #Python

Python操作SQLite数据库过程解析

Sep 02 #Python

Python实现生成密码字典的方法示例

Sep 02 #Python

python使用多线程编写tcp客户端程序

Sep 02 #Python

使用python实现离散时间傅里叶变换的方法

Sep 02 #Python

详解Python图像处理库Pillow常用使用方法

Sep 02 #Python

You might like

php define的第二个参数使用方法

2013/11/04 PHP

php实现的支持断点续传的文件下载类

2014/09/23 PHP

PHP去掉json字符串中的反斜杠\及去掉双引号前的反斜杠

2015/09/30 PHP

Yii隐藏URL中index.php的方法

2016/07/12 PHP

PHP图像识别技术原理与实现

2016/10/27 PHP

phpStorm2020 注册码

2020/09/17 PHP

javascript重复绑定事件造成的后果说明

2013/03/02 Javascript

JS判断对象是否存在的10种方法总结

2013/12/23 Javascript

使用jquery实现的一个图片延迟加载插件（含图片延迟加载原理）

2014/06/05 Javascript

JavaScript弹出窗口方法汇总

2014/08/12 Javascript

jQuery实现的多级下拉菜单效果代码

2015/08/24 Javascript

JavaScript学习小结(一)——JavaScript入门基础

2015/09/02 Javascript

JavaScript实现身份证验证代码

2016/02/17 Javascript

jQuery实现删除li节点的方法

2016/12/06 Javascript

jQuery中值得注意的trigger方法浅析

2016/12/12 Javascript

JS设计模式之数据访问对象模式的实例讲解

2017/09/30 Javascript

Node.js 使用AngularJS的方法示例

2018/05/11 Javascript

简单说说angular.json文件的使用

2018/10/29 Javascript

JavaScript设计模式之装饰者模式实例详解

2019/01/17 Javascript

ES6之Proxy的get方法详解

2019/10/11 Javascript

[14:51]DOTA2 HEROS教学视频教你分分钟做大人-卓尔游侠

2014/06/13 DOTA

[01:04:32]DOTA2-DPC中国联赛正赛 Aster vs LBZS BO3 第二场 2月23日

2021/03/11 DOTA

Python 正则表达式(转义问题)

2014/12/15 Python

python3.6利用pyinstall打包py为exe的操作实例

2018/10/31 Python

django使用LDAP验证的方法示例

2018/12/10 Python

python 将字符串中的数字相加求和的实现

2019/07/18 Python

以SQLite和PySqlite为例来学习Python DB API

2020/02/05 Python

如何在mac版pycharm选择python版本

2020/07/21 Python

售前工程师职业生涯规划

2014/03/02 职场文书

安全生产演讲稿

2014/05/09 职场文书

2014客服代表实习自我鉴定

2014/09/18 职场文书

机关干部三严三实心得体会

2014/10/13 职场文书

优秀班主任主要事迹材料

2014/12/16 职场文书

2015年预备党员自我评价

2015/03/04 职场文书

css实现两栏布局，左侧固定宽，右侧自适应的多种方法

2021/08/07 HTML / CSS

python编程简单几行代码实现视频转换Gif示例

2021/10/05 Python