编程 Python

Python进行统计建模

Posted in Python onAugust 10, 2020

前言

大家好，在之前的文章中我们已经讲解了很多Python数据处理的方法比如读取数据、缺失值处理、数据降维等，也介绍了一些数据可视化的方法如Matplotlib、pyecharts等，那么在掌握了这些基础技能之后，要进行更深入的分析就需要掌握一些常用的建模方法，本文将讲解如何利用Python进行统计分析。和之前的文章类似，本文只讲如何用代码实现，不做理论推导与过多的结果解释(事实上常用的模型可以很轻松的查到完美的推导与解析)。因此读者需要掌握一些基本的统计模型比如回归模型、时间序列等。

Statsmodels简介

在Python 中统计建模分析最常用的就是Statsmodels模块。Statsmodels是一个主要用来进行统计计算与统计建模的Python库。主要有以下功能：

探索性分析：包含列联表、链式方程多重插补等探索性数据分析方法以及与统计模型结果的可视化图表，例如拟合图、箱线图、相关图、时间序列图等
回归模型：线性回归模型、非线性回归模型、广义线性模型、线性混合效应模型等
其他功能：方差分析、时间序列分析等模型的参数估计与估计参数的假设检验等

安装 brew install Statsmodels
文档 github.com/statsmodels/statsmodels

线性回归模型：普通最小二乘估计

线性模型有普通最小二乘(OLS)广义最小二乘(GLS)、加权最小二乘(WLS)等，Statsmodels对线性模型有较好的支持，来看个最简单的例子：普通最小二乘(OLS)

首先导入相关包

%matplotlib inline
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
from statsmodels.sandbox.regression.predstd import wls_prediction_std
np.random.seed(9876789)

然后创建数据，先设置样本量为100

nsample = 100 #样本数量

然后设置x1和x2，x1是0到10等差排列，x2是x1的平方

x = np.linspace(0, 10, 100)
X = np.column_stack((x, x**2))

再设置beta、误差项与响应变量y

beta = np.array([1, 0.1, 10])
e = np.random.normal(size=nsample)
X = sm.add_constant(X)
y = np.dot(X, beta) + e

接着建立回归模型

model = sm.OLS(y, X) 
results = model.fit()
print(results.summary())

查看模型结果

Python进行统计建模

是不是和R语言输出的结果形式很接近？回归系数值、P-value、R-squared等评估回归模型的参数值全部都有，还可以使用dir(results)获得全部变量的值并调取出来

print('Parameters: ', results.params)
print('R2: ', results.rsquared)

那么回归模型的就是y=1.3423-0.0402x1+10.0103x2，当然这个模型可以继续优化那么就交给读者完成。接下来我们来绘制一下样本点与回归曲线

y_fitted = results.fittedvalues
fig, ax = plt.subplots(figsize=(8,6))
ax.plot(x, y, 'o', label='data')
ax.plot(x, y_fitted, 'r--.',label='OLS')
ax.legend(loc='best')

Python进行统计建模

时间序列：ARMA

关于时间序列的模型有很多，我们选择ARMA模型示例，首先导入相关包并生成数据

%matplotlib inline
import numpy as np
import statsmodels.api as sm
import pandas as pd
from statsmodels.tsa.arima_process import arma_generate_sample
np.random.seed(12345)

arparams = np.array([.75, -.25])
maparams = np.array([.65, .35])

arparams = np.r_[1, -arparams]
maparams = np.r_[1, maparams]
nobs = 250
y = arma_generate_sample(arparams, maparams, nobs)

接着，我们可以添加一些日期信息。对于本例，我们将使用pandas时间序列并建立模型

dates = sm.tsa.datetools.dates_from_range('1980m1', length=nobs)
y = pd.Series(y, index=dates)
arma_mod = sm.tsa.ARMA(y, order=(2,2))
arma_res = arma_mod.fit(trend='nc', disp=-1)

Python进行统计建模

最后再做一下预测

import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(10,8))
fig = arma_res.plot_predict(start='1999-06-30', end='2001-05-31', ax=ax)
legend = ax.legend(loc='upper left')

Python进行统计建模

回归诊断：估计回归模型

首先导入相关包

%matplotlib inline
from statsmodels.compat import lzip
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
import matplotlib.pyplot as plt

然后加载数据

url = 'https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/HistData/Guerry.csv'
dat = pd.read_csv(url)

拟合模型

results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()

查看结果

print(results.summary())

Python进行统计建模

回归诊断：残差的正态性

Jarque-Bera test:

name = ['Jarque-Bera', 'Chi^2 two-tail prob.', 'Skew', 'Kurtosis']
test = sms.jarque_bera(results.resid)
lzip(name, test)
####结果
[('Jarque-Bera', 3.3936080248431666),
('Chi^2 two-tail prob.', 0.1832683123166337),
('Skew', -0.48658034311223375),
('Kurtosis', 3.003417757881633)]

Omni test:

name = ['Chi^2', 'Two-tail probability']
test = sms.omni_normtest(results.resid)
lzip(name, test)
####结果
[('Chi^2', 3.713437811597181), ('Two-tail probability', 0.15618424580304824)]

回归诊断：异方差

Breush-Pagan test:

name = ['Lagrange multiplier statistic', 'p-value',
    'f-value', 'f p-value']
test = sms.het_breuschpagan(results.resid, results.model.exog)
lzip(name, test)
###结果
[('Lagrange multiplier statistic', 4.893213374093957),
('p-value', 0.08658690502352209),
('f-value', 2.503715946256434),
('f p-value', 0.08794028782673029)]
Goldfeld-Quandt test

name = ['F statistic', 'p-value']
test = sms.het_goldfeldquandt(results.resid, results.model.exog)
lzip(name, test)
####结果
[('F statistic', 1.1002422436378152), ('p-value', 0.3820295068692507)]

回归诊断：多重共线性

检查多重共线性可以使用

np.linalg.cond(results.model.exog)

结果是702.1792145490062，说明存在较强多重共线性。

结束语

以上就是Statsmodels的基本功能介绍，如果熟悉R的读者会发现很多命令与R是类似的。最后想多说一句，全文没有出现太多模型的理论知识，因为这些模型的推导过程随便百度一搜都能得到十分详细的优质回答，因此在学会如何用计算机实现之后必须要回过头去理解模型里每一个参数是怎样得到，又有哪些含义才算真正搞定。

以上就是Python进行统计建模的详细内容，更多关于Python统计建模的资料请关注三水点靠木其它相关文章！

Python进行统计建模

- Author -

刘早起

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

跟老齐学Python之print详解

Sep 28 Python

python对html代码进行escape编码的方法

May 04 Python

python实现微信远程控制电脑

Feb 22 Python

python 中文件输入输出及os模块对文件系统的操作方法

Aug 27 Python

基于Python实现剪切板实时监控方法解析

Sep 11 Python

Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space

Feb 23 Python

Python基于numpy模块实现回归预测

May 14 Python

Python selenium爬取微博数据代码实例

May 22 Python

Python切片列表字符串如何实现切换

Aug 06 Python

Python使用lambda抛出异常实现方法解析

Aug 20 Python

Python 串口通信的实现

Sep 29 Python

Python+pyaudio实现音频控制示例详解

Jul 23 Python

Python如何爬取b站热门视频并导入Excel

Aug 10 #Python

拿来就用！Python批量合并PDF的示例代码

Aug 10 #Python

Python 发送邮件方法总结

Aug 10 #Python

Python getattr()函数使用方法代码实例

Aug 10 #Python

Python matplotlib模块及柱状图用法解析

Aug 10 #Python

Python如何操作docker redis过程解析

Aug 10 #Python

基于Python实现下载网易音乐代码实例

Aug 10 #Python

You might like

用PHP连接Oracle数据库

2006/10/09 PHP

PHP读取网页文件内容的实现代码(fopen,curl等)

2011/06/23 PHP

在WordPress中安装使用视频播放器插件Hana Flv Player

2016/01/04 PHP

CI(CodeIgniter)框架视图中加载视图的方法

2017/03/24 PHP

PHP实现登陆并抓取微信列表中最新一组微信消息的方法

2017/07/10 PHP

php常用字符串查找函数strstr()与strpos()实例分析

2019/06/21 PHP

网页前台通过js非法字符过滤代码(骂人的话等等)

2010/05/26 Javascript

提升你网站水平的jQuery插件集合推荐

2011/04/19 Javascript

JS弹出窗口代码大全(详细整理)

2012/12/21 Javascript

jQuery实现的指纹扫描效果实例(附演示与demo源码下载)

2016/01/26 Javascript

基于javascript实现精确到毫秒的倒计时限时抢购

2016/04/17 Javascript

自制微信公众号一键排版工具

2016/09/22 Javascript

Javascript创建类和对象详解

2017/05/31 Javascript

jQuery实现DIV响应鼠标滑过由下向上展开效果示例【测试可用】

2018/04/26 jQuery

小程序接口的promise化的实现方法

2019/12/11 Javascript

鸿蒙系统中的 JS 开发框架

2020/09/18 Javascript

[40:17]2018DOTA2亚洲邀请赛 4.5 淘汰赛 LGD vs Liquid 第一场

2018/04/06 DOTA

解决PyCharm中光标变粗的问题

2017/08/05 Python

python正则表达式re之compile函数解析

2017/10/25 Python

pandas 层次化索引的实现方法

2019/07/06 Python

在python中计算ssim的方法（与Matlab结果一致）

2019/12/19 Python

基于MSELoss()与CrossEntropyLoss()的区别详解

2020/01/02 Python

使用html2canvas将页面转成图并使用用canvas2image下载

2019/04/04 HTML / CSS

HTML5 video 视频标签使用介绍

2014/02/03 HTML / CSS

美国中西部家用医疗设备商店：Med Mart（轮椅、踏板车、升降机等）

2019/04/26 全球购物

Juice Beauty官网：有机美容产品，护肤与化妆品

2020/06/13 全球购物

成都思必达公司C#程序员招聘面试题

2013/06/26 面试题

会计自荐书

2013/12/02 职场文书

英语国培研修感言

2014/02/13 职场文书

经典安踏广告词

2014/03/21 职场文书

安全生产月活动总结

2014/05/04 职场文书

2014年销售工作总结范文

2014/12/01 职场文书

不服劳动仲裁起诉书

2015/05/20 职场文书

刑事法律意见书

2015/06/04 职场文书

小学语文的各类谚语（70首）

2019/08/15 职场文书

Springboot/Springcloud项目集成redis进行存取的过程解析

2021/12/04 Redis