编程 Python

python 逐步回归算法

Posted in Python onApril 06, 2021

算法介绍

逐步回归是一种线性回归模型自变量选择方法；
逐步回归的基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
这里我们选择赤池信息量(Akaike Information Criterion)来作为自变量选择的准则，赤池信息量（AIC）达到最小：基于最大似然估计原理的模型选择准则。

数据情况

案例

在现实生活中，影响一个地区居民消费的因素有很多，例如一个地区的人均生产总值、收入水平等等，本案例选取了9个解释变量研究城镇居民家庭平均每人全年的消费新支出y，解释变量为：
x1——居民的食品花费
x2——居民的衣着消费
x3——居民的居住花费
x4——居民的医疗保健花费
x5——居民的文教娱乐花费
x6——地区的职工平均工资
x7——地区的人均GDP
x8——地区的消费价格指数
x9——地区的失业率（%）

数据

python 逐步回归算法

代码

# -*- coding: UTF-8 -*-

import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.api import anova_lm
import matplotlib.pyplot as plt
import pandas as pd
from patsy import dmatrices
import itertools as it
import random


# Load data 读取数据
df = pd.read_csv('data3.1.csv',encoding='gbk')
print(df)


target = 'y'
variate = set(df.columns) #获取列名
variate.remove(target) #去除无关列
variate.remove('地区')

#定义多个数组，用来分别用来添加变量，删除变量
x = []
variate_add = []
variate_del = variate.copy()
# print(variate_del)
y = random.sample(variate,3) #随机生成一个选模型，3为变量的个数
print(y)
#将随机生成的三个变量分别输入到 添加变量和删除变量的数组
for i in y:
 variate_add.append(i)
 x.append(i)
 variate_del.remove(i)

global aic #设置全局变量 这里选择AIC值作为指标
formula="{}~{}".format("y","+".join(variate_add)) #将自变量名连接起来
aic=smf.ols(formula=formula,data=df).fit().aic #获取随机函数的AIC值，与后面的进行对比
print("随机化选模型为：{}~{}，对应的AIC值为：{}".format("y","+".join(variate_add), aic))
print("\n")



#添加变量
def forwark():
 score_add = []
 global best_add_score
 global best_add_c
 print("添加变量")
 for c in variate_del:
  formula = "{}~{}".format("y", "+".join(variate_add+[c]))
  score = smf.ols(formula = formula, data = df).fit().aic
  score_add.append((score, c)) #将添加的变量，以及新的AIC值一起存储在数组中
  
  print('自变量为{}，对应的AIC值为：{}'.format("+".join(variate_add+[c]), score))

 score_add.sort(reverse=True) #对数组内的数据进行排序，选择出AIC值最小的
 best_add_score, best_add_c = score_add.pop()
 
 print("最小AIC值为：{}".format(best_add_score))
 print("\n")

#删除变量
def back():
 score_del = []
 global best_del_score
 global best_del_c
 print("剔除变量")
 for i in x:

  select = x.copy() #copy一个集合，避免重复修改到原集合
  select.remove(i)
  formula = "{}~{}".format("y","+".join(select))
  score = smf.ols(formula = formula, data = df).fit().aic
  print('自变量为{}，对应的AIC值为：{}'.format("+".join(select), score))
  score_del.append((score, i))

 score_del.sort(reverse=True) #排序，方便将最小值输出
 best_del_score, best_del_c = score_del.pop() #将最小的AIC值以及对应剔除的变量分别赋值
 print("最小AIC值为：{}".format(best_del_score))
 print("\n")

print("剩余变量为：{}".format(variate_del))
forwark()
back()

while variate:
  
#  forwark()
#  back()
 if(aic < best_add_score < best_del_score or aic < best_del_score < best_add_score):
  print("当前回归方程为最优回归方程，为{}~{}，AIC值为：{}".format("y","+".join(variate_add), aic))
  break
 elif(best_add_score < best_del_score < aic or best_add_score < aic < best_del_score):
  print("目前最小的aic值为{}".format(best_add_score))
  print('选择自变量：{}'.format("+".join(variate_add + [best_add_c]))) 
  print('\n')
  variate_del.remove(best_add_c)
  variate_add.append(best_add_c)
  print("剩余变量为：{}".format(variate_del))
  aic = best_add_score
  forwark()
 else:
  print('当前最小AIC值为：{}'.format(best_del_score))
  print('需要剔除的变量为：{}'.format(best_del_c))
  aic = best_del_score #将AIC值较小的选模型AIC值赋给aic再接着下一轮的对比
  x.remove(best_del_c) #在原集合上剔除选模型所对应剔除的变量
  back()

结果

python 逐步回归算法

以上就是如何用python 做逐步回归的详细内容，更多关于python 逐步回归的资料请关注三水点靠木其它相关文章！

python 逐步回归算法

- Author -

Hundred°C

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python单链表实现代码实例

Nov 21 Python

Python-基础-入门简介

Aug 09 Python

python爬虫入门教程之糗百图片爬虫代码分享

Sep 02 Python

Python实现抓取页面上链接的简单爬虫分享

Jan 21 Python

Django框架中数据的连锁查询和限制返回数据的方法

Jul 17 Python

简单讲解Python中的数字类型及基本的数学计算

Mar 11 Python

python读取目录下所有的jpg文件,并显示第一张图片的示例

Jun 13 Python

Python matplotlib生成图片背景透明的示例代码

Aug 30 Python

如何使用python代码操作git代码

Feb 29 Python

浅谈优化Django ORM中的性能问题

Jul 09 Python

python爬虫使用正则爬取网站的实现

Aug 03 Python

python爬虫爬取网页数据并解析数据

Sep 18 Python

python 通过使用Yolact训练数据集

python生成随机数、随机字符、随机字符串

Apr 06 #Python

Django项目配置Memcached和Redis, 缓存选择哪个更有优势

Apr 06 #Python

PySwarms(Python粒子群优化工具包)的使用:GlobalBestPSO例子解析

python实现批量提取指定文件夹下同类型文件

Apr 05 #Python

python实现ROA算子边缘检测算法

python实现批量移动文件

You might like

php中批量修改文件后缀名的函数代码

2011/10/23 PHP

5种PHP创建数组的实例代码分享

2014/01/17 PHP

php中file_get_contents与curl性能比较分析

2014/11/08 PHP

php结合ajax实现手机发红包的案例

2016/10/13 PHP

Laravel 5.4重新登录实现跳转到登录前页面的原理和方法

2017/07/13 PHP

“不能执行已释放的Script代码”错误的原因及解决办法

2007/09/09 Javascript

JQuery 确定css方框模型（盒模型Box Model）

2010/01/22 Javascript

JQuery自适应IFrame高度（支持嵌套兼容IE,ff,safafi,chrome）

2011/03/28 Javascript

jquery获得下拉框值的代码

2011/08/13 Javascript

javascript中input中readonly和disabled区别介绍

2012/10/23 Javascript

分享28款免费实用的 JQuery 图片和内容滑块插件

2014/12/15 Javascript

用户代理字符串userAgent可实现的四个识别

2015/09/20 Javascript

JavaScript实现的SHA-1加密算法完整实例

2016/02/02 Javascript

正则表达式(语法篇推荐)

2016/06/24 Javascript

Vue组件中prop属性使用说明实例代码详解

2018/05/31 Javascript

纯JS实现的读取excel文件内容功能示例【支持所有浏览器】

2018/06/23 Javascript

elementUI select组件value值注意事项详解

2019/05/29 Javascript

Vue实现日历小插件

2019/06/26 Javascript

在vue项目中promise解决回调地狱和并发请求的问题

2020/11/09 Javascript

pycharm中连接mysql数据库的步骤详解

2017/05/02 Python

pandas的object对象转时间对象的方法

2018/04/11 Python

Python实现去除列表中重复元素的方法小结【4种方法】

2018/04/27 Python

详解Python安装scrapy的正确姿势

2018/06/26 Python

selenium+python实现1688网站验证码图片的截取功能

2018/08/14 Python

python 从文件夹抽取图片另存的方法

2018/12/04 Python

python opencv摄像头的简单应用

2019/06/06 Python

Python HTMLTestRunner测试报告view按钮失效解决方案

2020/05/25 Python

基于HTML5 Canvas的3D动态Chart图表的示例

2017/11/02 HTML / CSS

美国牙科折扣计划：DentalPlans.com

2019/08/26 全球购物

美国亚洲时尚和美容产品的一站式网上商店：Stylevana

2019/09/05 全球购物

Deux par Deux官方网站：设计师童装

2020/01/03 全球购物

华为慧通面试题

2012/09/11 面试题

保护地球的宣传语

2015/07/13 职场文书

幼儿园小朋友毕业感言

2015/07/30 职场文书

导游词之上饶龟峰

2019/10/25 职场文书

pytorch常用数据类型所占字节数对照表一览

2021/05/17 Python