Python进行统计建模


Posted in Python onAugust 10, 2020

前言

大家好,在之前的文章中我们已经讲解了很多Python数据处理的方法比如读取数据、缺失值处理、数据降维等,也介绍了一些数据可视化的方法如Matplotlib、pyecharts等,那么在掌握了这些基础技能之后,要进行更深入的分析就需要掌握一些常用的建模方法,本文将讲解如何利用Python进行统计分析。和之前的文章类似,本文只讲如何用代码实现,不做理论推导与过多的结果解释(事实上常用的模型可以很轻松的查到完美的推导与解析)。因此读者需要掌握一些基本的统计模型比如回归模型、时间序列等。

Statsmodels简介

在Python 中统计建模分析最常用的就是Statsmodels模块。Statsmodels是一个主要用来进行统计计算与统计建模的Python库。主要有以下功能:

  • 探索性分析:包含列联表、链式方程多重插补等探索性数据分析方法以及与统计模型结果的可视化图表,例如拟合图、箱线图、相关图、时间序列图等
  • 回归模型:线性回归模型、非线性回归模型、广义线性模型、线性混合效应模型等
  • 其他功能:方差分析、时间序列分析等模型的参数估计与估计参数的假设检验等

安装 brew install Statsmodels
文档 github.com/statsmodels/statsmodels

线性回归模型:普通最小二乘估计

线性模型有普通最小二乘(OLS)广义最小二乘(GLS)、加权最小二乘(WLS)等,Statsmodels对线性模型有较好的支持,来看个最简单的例子:普通最小二乘(OLS)

首先导入相关包

%matplotlib inline
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
from statsmodels.sandbox.regression.predstd import wls_prediction_std
np.random.seed(9876789)

然后创建数据,先设置样本量为100

nsample = 100 #样本数量

然后设置x1和x2,x1是0到10等差排列,x2是x1的平方

x = np.linspace(0, 10, 100)
X = np.column_stack((x, x**2))

再设置beta、误差项与响应变量y

beta = np.array([1, 0.1, 10])
e = np.random.normal(size=nsample)
X = sm.add_constant(X)
y = np.dot(X, beta) + e

接着建立回归模型

model = sm.OLS(y, X) 
results = model.fit()
print(results.summary())

查看模型结果

Python进行统计建模

是不是和R语言输出的结果形式很接近?回归系数值、P-value、R-squared等评估回归模型的参数值全部都有,还可以使用dir(results)获得全部变量的值并调取出来

print('Parameters: ', results.params)
print('R2: ', results.rsquared)

那么回归模型的就是y=1.3423-0.0402x1+10.0103x2,当然这个模型可以继续优化那么就交给读者完成。接下来我们来绘制一下样本点与回归曲线

y_fitted = results.fittedvalues
fig, ax = plt.subplots(figsize=(8,6))
ax.plot(x, y, 'o', label='data')
ax.plot(x, y_fitted, 'r--.',label='OLS')
ax.legend(loc='best')

Python进行统计建模

时间序列:ARMA

关于时间序列的模型有很多,我们选择ARMA模型示例,首先导入相关包并生成数据

%matplotlib inline
import numpy as np
import statsmodels.api as sm
import pandas as pd
from statsmodels.tsa.arima_process import arma_generate_sample
np.random.seed(12345)

arparams = np.array([.75, -.25])
maparams = np.array([.65, .35])

arparams = np.r_[1, -arparams]
maparams = np.r_[1, maparams]
nobs = 250
y = arma_generate_sample(arparams, maparams, nobs)

接着,我们可以添加一些日期信息。对于本例,我们将使用pandas时间序列并建立模型

dates = sm.tsa.datetools.dates_from_range('1980m1', length=nobs)
y = pd.Series(y, index=dates)
arma_mod = sm.tsa.ARMA(y, order=(2,2))
arma_res = arma_mod.fit(trend='nc', disp=-1)

Python进行统计建模

最后再做一下预测

import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(10,8))
fig = arma_res.plot_predict(start='1999-06-30', end='2001-05-31', ax=ax)
legend = ax.legend(loc='upper left')

Python进行统计建模

回归诊断:估计回归模型

首先导入相关包

%matplotlib inline
from statsmodels.compat import lzip
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
import matplotlib.pyplot as plt

然后加载数据

url = 'https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/HistData/Guerry.csv'
dat = pd.read_csv(url)

拟合模型

results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()

查看结果

print(results.summary())

Python进行统计建模

回归诊断:残差的正态性

Jarque-Bera test:

name = ['Jarque-Bera', 'Chi^2 two-tail prob.', 'Skew', 'Kurtosis']
test = sms.jarque_bera(results.resid)
lzip(name, test)
####结果
[('Jarque-Bera', 3.3936080248431666),
('Chi^2 two-tail prob.', 0.1832683123166337),
('Skew', -0.48658034311223375),
('Kurtosis', 3.003417757881633)]

Omni test:

name = ['Chi^2', 'Two-tail probability']
test = sms.omni_normtest(results.resid)
lzip(name, test)
####结果
[('Chi^2', 3.713437811597181), ('Two-tail probability', 0.15618424580304824)]

回归诊断:异方差

Breush-Pagan test:

name = ['Lagrange multiplier statistic', 'p-value',
    'f-value', 'f p-value']
test = sms.het_breuschpagan(results.resid, results.model.exog)
lzip(name, test)
###结果
[('Lagrange multiplier statistic', 4.893213374093957),
('p-value', 0.08658690502352209),
('f-value', 2.503715946256434),
('f p-value', 0.08794028782673029)]
Goldfeld-Quandt test

name = ['F statistic', 'p-value']
test = sms.het_goldfeldquandt(results.resid, results.model.exog)
lzip(name, test)
####结果
[('F statistic', 1.1002422436378152), ('p-value', 0.3820295068692507)]

回归诊断:多重共线性

检查多重共线性可以使用

np.linalg.cond(results.model.exog)

结果是702.1792145490062,说明存在较强多重共线性。

结束语

以上就是Statsmodels的基本功能介绍,如果熟悉R的读者会发现很多命令与R是类似的。最后想多说一句,全文没有出现太多模型的理论知识,因为这些模型的推导过程随便百度一搜都能得到十分详细的优质回答,因此在学会如何用计算机实现之后必须要回过头去理解模型里每一个参数是怎样得到,又有哪些含义才算真正搞定。

以上就是Python进行统计建模的详细内容,更多关于Python统计建模的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python进阶教程之异常处理
Aug 30 Python
python中dir函数用法分析
Apr 17 Python
详解Python中expandtabs()方法的使用
May 18 Python
Python网络编程中urllib2模块的用法总结
Jul 12 Python
Python机器学习之决策树算法
Dec 22 Python
Python 12306抢火车票脚本
Feb 07 Python
详解Python locals()的陷阱
Mar 26 Python
python3 selenium自动化 下拉框定位的例子
Aug 23 Python
python聚类算法解决方案(rest接口/mpp数据库/json数据/下载图片及数据)
Aug 28 Python
python实现的批量分析xml标签中各个类别个数功能示例
Dec 30 Python
Python编写单元测试代码实例
Sep 10 Python
pip已经安装好第三方库但pycharm中import时还是标红的解决方案
Oct 09 Python
Python如何爬取b站热门视频并导入Excel
Aug 10 #Python
拿来就用!Python批量合并PDF的示例代码
Aug 10 #Python
Python 发送邮件方法总结
Aug 10 #Python
Python getattr()函数使用方法代码实例
Aug 10 #Python
Python matplotlib模块及柱状图用法解析
Aug 10 #Python
Python如何操作docker redis过程解析
Aug 10 #Python
基于Python实现下载网易音乐代码实例
Aug 10 #Python
You might like
php上传文件并存储到mysql数据库的方法
2015/03/16 PHP
PHP中的流(streams)浅析
2015/07/02 PHP
php使用curl详细解析及问题汇总
2016/08/11 PHP
PHP sleep()函数, usleep()函数
2016/08/25 PHP
PHP培训要多少钱
2017/06/06 PHP
PHP正则表达式处理函数(PCRE 函数)实例小结
2019/05/09 PHP
prototype 源码中文说明之 prototype.js
2006/09/22 Javascript
新浪刚打开页面出来的全屏广告代码
2007/04/02 Javascript
javascript Window及document对象详细整理
2011/01/12 Javascript
js中获取事件对象的方法小结
2011/03/13 Javascript
获取内联和链接中的样式(js代码)
2013/04/11 Javascript
jQuery 借助插件Lavalamp实现导航条动态美化效果
2013/09/27 Javascript
js修改input的type属性问题探讨
2013/10/12 Javascript
jQuery插件StickUp实现网页导航置顶
2015/04/12 Javascript
Javascript编程中几种继承方式比较分析
2015/11/28 Javascript
AngularJS通过$http和服务器通信详解
2016/09/21 Javascript
Json按某个键的值进行排序
2016/12/22 Javascript
详解AngularJS2 Http服务
2017/06/26 Javascript
浅谈AngularJS中使用$resource(已更新)
2017/09/14 Javascript
vue 使用ref 让父组件调用子组件的方法
2018/02/08 Javascript
微信小程序嵌入腾讯视频源过程详解
2019/08/08 Javascript
three.js着色器材质的内置变量示例详解
2020/08/16 Javascript
[02:47]DOTA2亚洲邀请赛 HR战队出场宣传片
2015/02/07 DOTA
Python回文字符串及回文数字判定功能示例
2018/03/20 Python
Python 实现取矩阵的部分列,保存为一个新的矩阵方法
2018/11/14 Python
python读写csv文件方法详细总结
2019/07/05 Python
Python监控服务器实用工具psutil使用解析
2019/12/19 Python
Python 实现打印单词的菱形字符图案
2020/04/12 Python
html5 web本地存储将取代我们的cookie
2012/12/26 HTML / CSS
10个最常见的HTML5面试题 附答案
2016/06/06 HTML / CSS
HTML5 localStorage使用总结
2017/02/22 HTML / CSS
关于工资低的辞职信
2014/01/14 职场文书
2014年国庆节广播稿
2014/09/19 职场文书
党员三严三实对照检查材料
2014/10/13 职场文书
2014年度个人工作总结
2014/11/07 职场文书
图解排序算法之希尔排序Java实现
2021/06/26 Java/Android