编程 Python

python 线性回归分析模型检验标准--拟合优度详解

Posted in Python onFebruary 24, 2020

建立完回归模型后，还需要验证咱们建立的模型是否合适，换句话说，就是咱们建立的模型是否真的能代表现有的因变量与自变量关系，这个验证标准一般就选用拟合优度。

拟合优度是指回归方程对观测值的拟合程度。度量拟合优度的统计量是判定系数R^2。R^2的取值范围是[0，1]。R^2的值越接近1，说明回归方程对观测值的拟合程度越好；反之，R^2的值越接近0，说明回归方程对观测值的拟合程度越差。

拟合优度问题目前还没有找到统一的标准说大于多少就代表模型准确，一般默认大于0.8即可

拟合优度的公式：R^2 = 1 - RSS/TSS

注： RSS 离差平方和； TSS 总体平方和

理解拟合优度的公式前，需要先了解清楚几个概念：总体平方和、离差平方和、回归平方和。

一、总体平方和、离差平方和、回归平方和

回归平方和 ESS，残差平方和 RSS，总体平方和 TSS

TSS(Total Sum of Squares)表示实际值与期望值的离差平方和，代表变量的总变动程度

ESS(Explained Sum of Squares)表示预测值与期望值的离差平方和，代表预测模型拥有的变量变动程度

RSS(Residual Sum of Squares)表示实际值与预测值的离差平方和，代表变量的未知变动程度

各个平方和的计算公式如下：

python 线性回归分析模型检验标准--拟合优度详解

二、拟合优度

接上一节内容可知，我们拿实际值与期望值的离差平方和作为整体变量的总变动程度，这个变动程度就是我们建模型的目的，我们建立模型就是为了模拟这个变动程度。

建立模型后，整体变量的总变动程度（TSS）可以划分为两部分：模型模拟的变动程度（ESS）和未知的变动程度（RSS）

通常来说，预测模型拥有的变量变动程度在总变动程度中的占比越高，代表模型越准确，当RSS=0时，表示模型能完全模拟变量的总变动。

回到文章开头的拟合优度公式：R^2 = 1 - RSS/TSS 。是不是很好理解了！

假设R^2 = 0.8，意味着咱们建立的模型拥有的变动程度能模拟80%的总变动程度，剩下20%为未知变动。

三、例子

对于学生而言，现在要探索一下学生的学习成绩与单一的学习时间是否有关系，给出两组数据如下：

'学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75, 2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],

'分数':[10,22,13,43,20,22,33,50,62,48,55,75,62,73,81,76,64,82,90,93]

常识理解，学习时间越长，分数一般都会越高，两者是正比关系，因为就一个自变量，直接用sklearn，算出截距和斜率即可

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas import DataFrame,Series
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LinearRegression
 
#创建数据集
examDict = {'学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,
           2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
       '分数':[10,22,13,43,20,22,33,50,62,
          48,55,75,62,73,81,76,64,82,90,93]}
 
#转换为DataFrame的数据格式
examDf = DataFrame(examDict)
#examDf
#绘制散点图
plt.scatter(examDf.分数,examDf.学习时间,color = 'b',label = "Exam Data")
 
#添加图的标签（x轴，y轴）
plt.xlabel("Hours")
plt.ylabel("Score")
#显示图像
plt.show()
 
#将原数据集拆分训练集和测试集
exam_X = examDf.学习时间
exam_Y = examDf.分数
X_train,X_test,Y_train,Y_test = train_test_split(exam_X,exam_Y,train_size=0.8)
#X_train为训练数据标签,X_test为测试数据标签,exam_X为样本特征,exam_y为样本标签，train_size 训练数据占比
 
print("原始数据特征:",exam_X.shape,
   ",训练数据特征:",X_train.shape,
   ",测试数据特征:",X_test.shape)
 
print("原始数据标签:",exam_Y.shape,
   ",训练数据标签:",Y_train.shape,
   ",测试数据标签:",Y_test.shape)
 
model = LinearRegression()
 
#对于模型错误我们需要把我们的训练集进行reshape操作来达到函数所需要的要求
# model.fit(X_train,Y_train)
 
#reshape如果行数=-1的话可以使我们的数组所改的列数自动按照数组的大小形成新的数组
#因为model需要二维的数组来进行拟合但是这里只有一个特征所以需要reshape来转换为二维数组
X_train = X_train.values.reshape(-1,1)
X_test = X_test.values.reshape(-1,1)
 
model.fit(X_train,Y_train)
a = model.intercept_#截距
b = model.coef_#回归系数
print("最佳拟合线:截距",a,",回归系数：",b)

接下来算出拟合优度看看，拟合优度0.83，符合要求

# 用训练集进行拟合优度，验证回归方程是否合理
def get_lr_stats(x, y, model):
  message0 = '一元线性回归方程为: '+'\ty' + '=' + str(model.intercept_)+' + ' +str(model.coef_[0]) + '*x'
  from scipy import stats
  n = len(x)
  y_prd = model.predict(x)
  Regression = sum((y_prd - np.mean(y))**2) # 回归平方和
  Residual  = sum((y - y_prd)**2)     # 残差平方和
  total = sum((y-np.mean(y))**2) #总体平方和
  R_square  = 1-Residual / total # 相关性系数R^2
  message1 = ('相关系数(R^2)： ' + str(R_square) + '；' + '\n'+ '总体平方和(TSS)： ' + str(total) + '；' + '\n')
  message2 = ('回归平方和(RSS)： ' + str(Regression) + '；' + '\n残差平方和(ESS)： ' + str(Residual) + '；' + '\n')
  return print(message0 +'\n' +message1 + message2 )
 
get_lr_stats(X_train,Y_train,model)

python 线性回归分析模型检验标准--拟合优度详解

如果需要，可以把所有点和回归直线画出来，直观感受一下

#训练数据的预测值
y_train_pred = model.predict(X_train)
#绘制最佳拟合线：标签用的是训练数据集中的极值预测值
X_train_pred = [min(X_train),max(X_train)]
y_train_pred = [a+b*min(X_train),a+b*max(X_train)]
plt.plot(X_train_pred, y_train_pred, color='green', linewidth=3, label="best line")
 
#测试数据散点图
plt.scatter(X_test, Y_test, color='red', label="test data")
plt.scatter(X_train, Y_train, color="blue", label="train data")
 
#添加图标标签
plt.legend(loc=2)
plt.xlabel("Hours")
plt.ylabel("Score")
#显示图像
plt.savefig("lines.jpg")
plt.show()
#计算拟合优度
score = model.score(X_test,Y_test)
print(score)

python 线性回归分析模型检验标准--拟合优度详解

以上这篇python 线性回归分析模型检验标准--拟合优度详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python 线性回归分析模型检验标准--拟合优度详解

- Author -

J符离

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中使用pprint函数进行格式化输出的教程

Apr 07 Python

Django中处理出错页面的方法

Jul 15 Python

python实现mysql的单引号字符串过滤方法

Nov 14 Python

Python数据结构之双向链表的定义与使用方法示例

Jan 16 Python

python把数组中的数字每行打印3个并保存在文档中的方法

Jul 17 Python

用Python shell简化开发

Aug 08 Python

python dataframe向下向上填充,fillna和ffill的方法

Nov 28 Python

python Django的web开发实例（入门）

Jul 31 Python

Python爬取破解无线网络wifi密码过程解析

Sep 17 Python

Python 爬取必应壁纸的实例讲解

Feb 24 Python

在django admin详情表单显示中添加自定义控件的实现

Mar 11 Python

PyCharm中如何直接使用Anaconda已安装的库

May 28 Python

最小二乘法及其python实现详解

Feb 24 #Python

在Python 的线程中运行协程的方法

Feb 24 #Python

Python 爬取必应壁纸的实例讲解

Feb 24 #Python

Python unittest工作原理和使用过程解析

Feb 24 #Python

Python 剪绳子的多种思路实现(动态规划和贪心)

Feb 24 #Python

用python介绍4种常用的单链表翻转的方法小结

Feb 24 #Python

关于多元线性回归分析——Python&SPSS

Feb 24 #Python

You might like

如何使用PHP获取网络上文件

2006/10/09 PHP

PHP date函数参数详解

2006/11/27 PHP

PHP URL参数获取方式的四种例子

2014/02/28 PHP

ThinkPHP查询中的魔术方法简述

2014/06/25 PHP

PHP Header用于页面跳转时的几个注意事项

2016/10/21 PHP

PHP $O00OO0=urldecode & eval 解密,记一次商业源码的去后门

2020/09/13 PHP

懒就要懒到底——鼠标自动点击（含时间判断）

2007/02/20 Javascript

jQuery实现平滑滚动页面到指定锚点链接的方法

2015/07/15 Javascript

基于JS代码实现图片在页面中旋转效果

2016/06/16 Javascript

jQuery UI结合Ajax创建可定制的Web界面

2016/06/22 Javascript

JS实现将Asp.Net的DateTime Json类型转换为标准时间的方法

2016/08/02 Javascript

BootStrap组件之进度条的基本用法

2017/01/19 Javascript

使用jQuery的load方法设计动态加载及解决被加载页面js失效问题

2017/03/01 Javascript

Vue集成Iframe页面的方法示例

2017/12/12 Javascript

vue 2.5.1 源码学习之Vue.extend 和 data的合并策略

2019/06/04 Javascript

koa2服务端使用jwt进行鉴权及路由权限分发的流程分析

2019/07/22 Javascript

vue组件讲解(is属性的用法)模板标签替换操作

2020/09/04 Javascript

记录一次websocket封装的过程

2020/11/23 Javascript

Vue仿百度搜索功能

2020/12/28 Vue.js

Python可跨平台实现获取按键的方法

2015/03/05 Python

python3简单实现微信爬虫

2015/04/09 Python

Python3.6正式版新特性预览

2016/12/15 Python

利用PyInstaller将python程序.py转为.exe的方法详解

2017/05/03 Python

详解通过API管理或定制开发ECS实例

2018/09/30 Python

pycharm创建一个python包方法图解

2019/04/10 Python

Pandas 重塑(stack)和轴向旋转(pivot)的实现

2019/07/22 Python

Python astype(np.float)函数使用方法解析

2020/06/08 Python

python3 通过 pybind11 使用Eigen加速代码的步骤详解

2020/12/07 Python

薪酬专员岗位职责

2014/02/18 职场文书

高三英语复习计划

2015/01/19 职场文书

八一建军节慰问信

2015/02/14 职场文书

2015高三毕业寄语赠言

2015/02/27 职场文书

大学军训通讯稿（2016最新版）

2015/12/21 职场文书

python tkinter模块的简单使用

2021/04/07 Python

Python通过loop.run_in_executor执行同步代码同步变为异步

2022/04/11 Python

关于的python五子棋的算法

2022/05/02 Python