Python进行统计建模


Posted in Python onAugust 10, 2020

前言

大家好,在之前的文章中我们已经讲解了很多Python数据处理的方法比如读取数据、缺失值处理、数据降维等,也介绍了一些数据可视化的方法如Matplotlib、pyecharts等,那么在掌握了这些基础技能之后,要进行更深入的分析就需要掌握一些常用的建模方法,本文将讲解如何利用Python进行统计分析。和之前的文章类似,本文只讲如何用代码实现,不做理论推导与过多的结果解释(事实上常用的模型可以很轻松的查到完美的推导与解析)。因此读者需要掌握一些基本的统计模型比如回归模型、时间序列等。

Statsmodels简介

在Python 中统计建模分析最常用的就是Statsmodels模块。Statsmodels是一个主要用来进行统计计算与统计建模的Python库。主要有以下功能:

  • 探索性分析:包含列联表、链式方程多重插补等探索性数据分析方法以及与统计模型结果的可视化图表,例如拟合图、箱线图、相关图、时间序列图等
  • 回归模型:线性回归模型、非线性回归模型、广义线性模型、线性混合效应模型等
  • 其他功能:方差分析、时间序列分析等模型的参数估计与估计参数的假设检验等

安装 brew install Statsmodels
文档 github.com/statsmodels/statsmodels

线性回归模型:普通最小二乘估计

线性模型有普通最小二乘(OLS)广义最小二乘(GLS)、加权最小二乘(WLS)等,Statsmodels对线性模型有较好的支持,来看个最简单的例子:普通最小二乘(OLS)

首先导入相关包

%matplotlib inline
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
from statsmodels.sandbox.regression.predstd import wls_prediction_std
np.random.seed(9876789)

然后创建数据,先设置样本量为100

nsample = 100 #样本数量

然后设置x1和x2,x1是0到10等差排列,x2是x1的平方

x = np.linspace(0, 10, 100)
X = np.column_stack((x, x**2))

再设置beta、误差项与响应变量y

beta = np.array([1, 0.1, 10])
e = np.random.normal(size=nsample)
X = sm.add_constant(X)
y = np.dot(X, beta) + e

接着建立回归模型

model = sm.OLS(y, X) 
results = model.fit()
print(results.summary())

查看模型结果

Python进行统计建模

是不是和R语言输出的结果形式很接近?回归系数值、P-value、R-squared等评估回归模型的参数值全部都有,还可以使用dir(results)获得全部变量的值并调取出来

print('Parameters: ', results.params)
print('R2: ', results.rsquared)

那么回归模型的就是y=1.3423-0.0402x1+10.0103x2,当然这个模型可以继续优化那么就交给读者完成。接下来我们来绘制一下样本点与回归曲线

y_fitted = results.fittedvalues
fig, ax = plt.subplots(figsize=(8,6))
ax.plot(x, y, 'o', label='data')
ax.plot(x, y_fitted, 'r--.',label='OLS')
ax.legend(loc='best')

Python进行统计建模

时间序列:ARMA

关于时间序列的模型有很多,我们选择ARMA模型示例,首先导入相关包并生成数据

%matplotlib inline
import numpy as np
import statsmodels.api as sm
import pandas as pd
from statsmodels.tsa.arima_process import arma_generate_sample
np.random.seed(12345)

arparams = np.array([.75, -.25])
maparams = np.array([.65, .35])

arparams = np.r_[1, -arparams]
maparams = np.r_[1, maparams]
nobs = 250
y = arma_generate_sample(arparams, maparams, nobs)

接着,我们可以添加一些日期信息。对于本例,我们将使用pandas时间序列并建立模型

dates = sm.tsa.datetools.dates_from_range('1980m1', length=nobs)
y = pd.Series(y, index=dates)
arma_mod = sm.tsa.ARMA(y, order=(2,2))
arma_res = arma_mod.fit(trend='nc', disp=-1)

Python进行统计建模

最后再做一下预测

import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(10,8))
fig = arma_res.plot_predict(start='1999-06-30', end='2001-05-31', ax=ax)
legend = ax.legend(loc='upper left')

Python进行统计建模

回归诊断:估计回归模型

首先导入相关包

%matplotlib inline
from statsmodels.compat import lzip
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
import matplotlib.pyplot as plt

然后加载数据

url = 'https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/HistData/Guerry.csv'
dat = pd.read_csv(url)

拟合模型

results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()

查看结果

print(results.summary())

Python进行统计建模

回归诊断:残差的正态性

Jarque-Bera test:

name = ['Jarque-Bera', 'Chi^2 two-tail prob.', 'Skew', 'Kurtosis']
test = sms.jarque_bera(results.resid)
lzip(name, test)
####结果
[('Jarque-Bera', 3.3936080248431666),
('Chi^2 two-tail prob.', 0.1832683123166337),
('Skew', -0.48658034311223375),
('Kurtosis', 3.003417757881633)]

Omni test:

name = ['Chi^2', 'Two-tail probability']
test = sms.omni_normtest(results.resid)
lzip(name, test)
####结果
[('Chi^2', 3.713437811597181), ('Two-tail probability', 0.15618424580304824)]

回归诊断:异方差

Breush-Pagan test:

name = ['Lagrange multiplier statistic', 'p-value',
    'f-value', 'f p-value']
test = sms.het_breuschpagan(results.resid, results.model.exog)
lzip(name, test)
###结果
[('Lagrange multiplier statistic', 4.893213374093957),
('p-value', 0.08658690502352209),
('f-value', 2.503715946256434),
('f p-value', 0.08794028782673029)]
Goldfeld-Quandt test

name = ['F statistic', 'p-value']
test = sms.het_goldfeldquandt(results.resid, results.model.exog)
lzip(name, test)
####结果
[('F statistic', 1.1002422436378152), ('p-value', 0.3820295068692507)]

回归诊断:多重共线性

检查多重共线性可以使用

np.linalg.cond(results.model.exog)

结果是702.1792145490062,说明存在较强多重共线性。

结束语

以上就是Statsmodels的基本功能介绍,如果熟悉R的读者会发现很多命令与R是类似的。最后想多说一句,全文没有出现太多模型的理论知识,因为这些模型的推导过程随便百度一搜都能得到十分详细的优质回答,因此在学会如何用计算机实现之后必须要回过头去理解模型里每一个参数是怎样得到,又有哪些含义才算真正搞定。

以上就是Python进行统计建模的详细内容,更多关于Python统计建模的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python小技巧之批量抓取美女图片
Jun 06 Python
Python实现保证只能运行一个脚本实例
Jun 24 Python
Windows下的Jupyter Notebook 安装与自定义启动(图文详解)
Feb 21 Python
python中的内置函数max()和min()及mas()函数的高级用法
Mar 29 Python
Django框架多表查询实例分析
Jul 04 Python
pyqt5 实现工具栏文字图片同时显示
Jun 13 Python
Python单元测试与测试用例简析
Nov 09 Python
Pytorch中index_select() 函数的实现理解
Nov 19 Python
python 实现多维数组转向量
Nov 30 Python
Anaconda+vscode+pytorch环境搭建过程详解
May 25 Python
单身狗福利?Python爬取某婚恋网征婚数据
Jun 03 Python
Python可视化神器pyecharts绘制水球图
Jul 07 Python
Python如何爬取b站热门视频并导入Excel
Aug 10 #Python
拿来就用!Python批量合并PDF的示例代码
Aug 10 #Python
Python 发送邮件方法总结
Aug 10 #Python
Python getattr()函数使用方法代码实例
Aug 10 #Python
Python matplotlib模块及柱状图用法解析
Aug 10 #Python
Python如何操作docker redis过程解析
Aug 10 #Python
基于Python实现下载网易音乐代码实例
Aug 10 #Python
You might like
快速开发一个PHP扩展图文教程
2008/12/12 PHP
PHP 杂谈《重构-改善既有代码的设计》之五 简化函数调用
2012/05/07 PHP
PHP识别二维码的方法(php-zbarcode安装与使用)
2016/07/07 PHP
php表单习惯用的正则表达式
2017/10/11 PHP
详解PHP 7.4 中数组延展操作符语法知识点
2019/07/19 PHP
用JavaScript实现UrlEncode和UrlDecode的脚本代码
2008/07/23 Javascript
网页开发中的容易忽略的问题 javascript HTML中的table
2009/04/15 Javascript
js用Date对象处理时间实现思路及代码
2013/01/31 Javascript
为Javascript中的String对象添加去除左右空格的方法(示例代码)
2013/11/30 Javascript
Jquery+asp.net后台数据传到前台js进行解析的方法
2014/05/11 Javascript
JS去除重复并统计数量的实现方法
2016/12/15 Javascript
Bootstrap CSS布局之代码
2016/12/17 Javascript
jQuery编写设置和获取颜色的插件
2017/01/09 Javascript
JS实现的简单拖拽功能示例
2017/03/13 Javascript
详解React native fetch遇到的坑
2018/08/30 Javascript
Vue模拟数据,实现路由进入商品详情页面的示例
2018/08/31 Javascript
Vue-Cli 3.0 中配置高德地图的两种方式
2019/06/19 Javascript
JS求解两数之和算法详解
2020/04/28 Javascript
[00:10]DOTA2全国高校联赛 以DOTA2会友
2018/05/30 DOTA
[16:01]夜魇凡尔赛茶话会 第二期01:你比划我猜
2021/03/11 DOTA
python基础教程之类class定义使用方法
2014/02/20 Python
浅谈python3.6的tkinter运行问题
2019/02/22 Python
Python浮点数四舍五入问题的分析与解决方法
2019/11/19 Python
Python基础之函数原理与应用实例详解
2020/01/03 Python
flask框架url与重定向操作实例详解
2020/01/25 Python
洛杉矶健身中心女性专用运动服饰品牌:Marika
2018/05/09 全球购物
英国著名书店:Foyles
2018/12/01 全球购物
什么是重载?CTS、CLS和CLR分别做何解释
2012/05/06 面试题
大学生求职信范文应怎么写
2014/01/01 职场文书
好人好事演讲稿
2014/09/01 职场文书
党的群众路线领导班子整改方案
2014/09/27 职场文书
2015年药店店长工作总结
2015/04/29 职场文书
银行安全保卫工作总结
2015/08/10 职场文书
《钓鱼的启示》教学反思
2016/02/18 职场文书
共青团优秀团员申请书(范文)
2019/08/15 职场文书
MongoDB数据库之添删改查
2022/04/26 MongoDB