python 实现逻辑回归


Posted in Python onDecember 30, 2020

逻辑回归

适用类型:解决二分类问题

逻辑回归的出现:线性回归可以预测连续值,但是不能解决分类问题,我们需要根据预测的结果判定其属于正类还是负类。所以逻辑回归就是将线性回归的结果,通过Sigmoid函数映射到(0,1)之间

线性回归的决策函数:数据与θ的乘法,数据的矩阵格式(样本数×列数),θ的矩阵格式(列数×1)

python 实现逻辑回归

将其通过Sigmoid函数,获得逻辑回归的决策函数

python 实现逻辑回归

使用Sigmoid函数的原因:

可以对(-∞, +∞)的结果,映射到(0, 1)之间作为概率

可以将1/2作为决策边界

python 实现逻辑回归

数学特性好,求导容易

python 实现逻辑回归

逻辑回归的损失函数

线性回归的损失函数维平方损失函数,如果将其用于逻辑回归的损失函数,则其数学特性不好,有很多局部极小值,难以用梯度下降法求解最优

这里使用对数损失函数

python 实现逻辑回归

解释:如果一个样本为正样本,那么我们希望将其预测为正样本的概率p越大越好,也就是决策函数的值越大越好,则logp越大越好,逻辑回归的决策函数值就是样本为正的概率;如果一个样本为负样本,那么我们希望将其预测为负样本的概率越大越好,也就是(1-p)越大越好,即log(1-p)越大越好

为什么使用对数函数:样本集中有很多样本,要求其概率连乘,概率为0-1之间的数,连乘越来越小,利用log变换将其变为连加,不会溢出,不会超出计算精度

损失函数:: y(1->m)表示Sigmoid值(样本数×1),hθx(1->m)表示决策函数值(样本数×1),所以中括号的值(1×1)

python 实现逻辑回归

二分类逻辑回归直线编码实现

import numpy as np
from matplotlib import pyplot as plt
​
from scipy.optimize import minimize
from sklearn.preprocessing import PolynomialFeatures
​
​
class MyLogisticRegression:
  def __init__(self):
    plt.rcParams["font.sans-serif"] = ["SimHei"]
    # 包含数据和标签的数据集
    self.data = np.loadtxt("./data2.txt", delimiter=",")
    self.data_mat = self.data[:, 0:2]
    self.label_mat = self.data[:, 2]
    self.thetas = np.zeros((self.data_mat.shape[1]))
​
    # 生成多项式特征,最高6次项
    self.poly = PolynomialFeatures(6)
    self.p_data_mat = self.poly.fit_transform(self.data_mat)
​
  def cost_func_reg(self, theta, reg):
    """
    损失函数具体实现
    :param theta: 逻辑回归系数
    :param data_mat: 带有截距项的数据集
    :param label_mat: 标签数据集
    :param reg:
    :return:
    """
    m = self.label_mat.size
    label_mat = self.label_mat.reshape(-1, 1)
    h = self.sigmoid(self.p_data_mat.dot(theta))
​
    J = -1 * (1/m)*(np.log(h).T.dot(label_mat) + np.log(1-h).T.dot(1-label_mat))\
      + (reg / (2*m)) * np.sum(np.square(theta[1:]))
    if np.isnan(J[0]):
      return np.inf
    return J[0]
​
  def gradient_reg(self, theta, reg):
    m = self.label_mat.size
    h = self.sigmoid(self.p_data_mat.dot(theta.reshape(-1, 1)))
    label_mat = self.label_mat.reshape(-1, 1)
​
    grad = (1 / m)*self.p_data_mat.T.dot(h-label_mat) + (reg/m)*np.r_[[[0]], theta[1:].reshape(-1, 1)]
    return grad
​
  def gradient_descent_reg(self, alpha=0.01, reg=0, iterations=200):
    """
    逻辑回归梯度下降收敛函数
    :param alpha: 学习率
    :param reg:
    :param iterations: 最大迭代次数
    :return: 逻辑回归系数组
    """
    m, n = self.p_data_mat.shape
    theta = np.zeros((n, 1))
    theta_set = []
​
    for i in range(iterations):
      grad = self.gradient_reg(theta, reg)
      theta = theta - alpha*grad.reshape(-1, 1)
      theta_set.append(theta)
    return theta, theta_set
​
  def plot_data_reg(self, x_label=None, y_label=None, neg_text="negative", pos_text="positive", thetas=None):
    neg = self.label_mat == 0
    pos = self.label_mat == 1
    fig1 = plt.figure(figsize=(12, 8))
    ax1 = fig1.add_subplot(111)
    ax1.scatter(self.p_data_mat[neg][:, 1], self.p_data_mat[neg][:, 2], marker="o", s=100, label=neg_text)
    ax1.scatter(self.p_data_mat[pos][:, 1], self.p_data_mat[pos][:, 2], marker="+", s=100, label=pos_text)
    ax1.set_xlabel(x_label, fontsize=14)
​
    # 描绘逻辑回归直线(曲线)
    if isinstance(thetas, type(np.array([]))):
      x1_min, x1_max = self.p_data_mat[:, 1].min(), self.p_data_mat[:, 1].max()
      x2_min, x2_max = self.p_data_mat[:, 2].min(), self.p_data_mat[:, 2].max()
      xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max), np.linspace(x2_min, x2_max))
      h = self.sigmoid(self.poly.fit_transform(np.c_[xx1.ravel(), xx2.ravel()]).dot(thetas))
      h = h.reshape(xx1.shape)
      ax1.contour(xx1, xx2, h, [0.5], linewidths=3)
    ax1.legend(fontsize=14)
    plt.show()
​
  @staticmethod
  def sigmoid(z):
    return 1.0 / (1 + np.exp(-z))
​
​
if __name__ == '__main__':
  my_logistic_regression = MyLogisticRegression()
  # my_logistic_regression.plot_data(x_label="线性不可分数据集")
​
  thetas, theta_set = my_logistic_regression.gradient_descent_reg(alpha=0.5, reg=0, iterations=500)
  my_logistic_regression.plot_data_reg(thetas=thetas, x_label="$\\lambda$ = {}".format(0))
​
  thetas = np.zeros((my_logistic_regression.p_data_mat.shape[1], 1))
  # 未知错误,有大佬解决可留言
  result = minimize(my_logistic_regression.cost_func_reg, thetas,
           args=(0, ),
           method=None,
           jac=my_logistic_regression.gradient_reg)
  my_logistic_regression.plot_data_reg(thetas=result.x, x_label="$\\lambda$ = {}".format(0))

二分类问题逻辑回归曲线编码实现

import numpy as np
from matplotlib import pyplot as plt
​
from scipy.optimize import minimize
from sklearn.preprocessing import PolynomialFeatures
​
​
class MyLogisticRegression:
  def __init__(self):
    plt.rcParams["font.sans-serif"] = ["SimHei"]
    # 包含数据和标签的数据集
    self.data = np.loadtxt("./data2.txt", delimiter=",")
    self.data_mat = self.data[:, 0:2]
    self.label_mat = self.data[:, 2]
    self.thetas = np.zeros((self.data_mat.shape[1]))
​
    # 生成多项式特征,最高6次项
    self.poly = PolynomialFeatures(6)
    self.p_data_mat = self.poly.fit_transform(self.data_mat)
​
  def cost_func_reg(self, theta, reg):
    """
    损失函数具体实现
    :param theta: 逻辑回归系数
    :param data_mat: 带有截距项的数据集
    :param label_mat: 标签数据集
    :param reg:
    :return:
    """
    m = self.label_mat.size
    label_mat = self.label_mat.reshape(-1, 1)
    h = self.sigmoid(self.p_data_mat.dot(theta))
​
    J = -1 * (1/m)*(np.log(h).T.dot(label_mat) + np.log(1-h).T.dot(1-label_mat))\
      + (reg / (2*m)) * np.sum(np.square(theta[1:]))
    if np.isnan(J[0]):
      return np.inf
    return J[0]
​
  def gradient_reg(self, theta, reg):
    m = self.label_mat.size
    h = self.sigmoid(self.p_data_mat.dot(theta.reshape(-1, 1)))
    label_mat = self.label_mat.reshape(-1, 1)
​
    grad = (1 / m)*self.p_data_mat.T.dot(h-label_mat) + (reg/m)*np.r_[[[0]], theta[1:].reshape(-1, 1)]
    return grad
​
  def gradient_descent_reg(self, alpha=0.01, reg=0, iterations=200):
    """
    逻辑回归梯度下降收敛函数
    :param alpha: 学习率
    :param reg:
    :param iterations: 最大迭代次数
    :return: 逻辑回归系数组
    """
    m, n = self.p_data_mat.shape
    theta = np.zeros((n, 1))
    theta_set = []
​
    for i in range(iterations):
      grad = self.gradient_reg(theta, reg)
      theta = theta - alpha*grad.reshape(-1, 1)
      theta_set.append(theta)
    return theta, theta_set
​
  def plot_data_reg(self, x_label=None, y_label=None, neg_text="negative", pos_text="positive", thetas=None):
    neg = self.label_mat == 0
    pos = self.label_mat == 1
    fig1 = plt.figure(figsize=(12, 8))
    ax1 = fig1.add_subplot(111)
    ax1.scatter(self.p_data_mat[neg][:, 1], self.p_data_mat[neg][:, 2], marker="o", s=100, label=neg_text)
    ax1.scatter(self.p_data_mat[pos][:, 1], self.p_data_mat[pos][:, 2], marker="+", s=100, label=pos_text)
    ax1.set_xlabel(x_label, fontsize=14)
​
    # 描绘逻辑回归直线(曲线)
    if isinstance(thetas, type(np.array([]))):
      x1_min, x1_max = self.p_data_mat[:, 1].min(), self.p_data_mat[:, 1].max()
      x2_min, x2_max = self.p_data_mat[:, 2].min(), self.p_data_mat[:, 2].max()
      xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max), np.linspace(x2_min, x2_max))
      h = self.sigmoid(self.poly.fit_transform(np.c_[xx1.ravel(), xx2.ravel()]).dot(thetas))
      h = h.reshape(xx1.shape)
      ax1.contour(xx1, xx2, h, [0.5], linewidths=3)
    ax1.legend(fontsize=14)
    plt.show()
​
  @staticmethod
  def sigmoid(z):
    return 1.0 / (1 + np.exp(-z))
​
​
if __name__ == '__main__':
  my_logistic_regression = MyLogisticRegression()
  # my_logistic_regression.plot_data(x_label="线性不可分数据集")
​
  thetas, theta_set = my_logistic_regression.gradient_descent_reg(alpha=0.5, reg=0, iterations=500)
  my_logistic_regression.plot_data_reg(thetas=thetas, x_label="$\\lambda$ = {}".format(0))
​
  thetas = np.zeros((my_logistic_regression.p_data_mat.shape[1], 1))
  # 未知错误,有大佬解决可留言
  result = minimize(my_logistic_regression.cost_func_reg, thetas,
           args=(0, ),
           method=None,
           jac=my_logistic_regression.gradient_reg)
  my_logistic_regression.plot_data_reg(thetas=result.x, x_label="$\\lambda$ = {}".format(0))

以上就是python 实现逻辑回归的详细内容,更多关于python 实现逻辑回归的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
跟老齐学Python之玩转字符串(2)
Sep 14 Python
python实现上传样本到virustotal并查询扫描信息的方法
Oct 05 Python
一个基于flask的web应用诞生(1)
Apr 11 Python
Python cookbook(数据结构与算法)实现对不原生支持比较操作的对象排序算法示例
Mar 15 Python
python遍历一个目录,输出所有的文件名的实例
Apr 23 Python
python生成密码字典的方法
Jul 06 Python
python事件驱动event实现详解
Nov 21 Python
python获取当前文件路径以及父文件路径的方法
Jul 10 Python
matplotlib命令与格式之tick坐标轴日期格式(设置日期主副刻度)
Aug 06 Python
基于python plotly交互式图表大全
Dec 07 Python
python爬虫---requests库的用法详解
Sep 28 Python
python热力图实现简单方法
Jan 29 Python
Python 随机按键模拟2小时
Dec 30 #Python
Python的scikit-image模块实例讲解
Dec 30 #Python
用Python实现职工信息管理系统
Dec 30 #Python
python实现双人五子棋(终端版)
Dec 30 #Python
pandas 数据类型转换的实现
Dec 29 #Python
python中xlutils库用法浅析
Dec 29 #Python
Python操作PostgreSql数据库的方法(基本的增删改查)
Dec 29 #Python
You might like
php中的比较运算符详解
2013/10/28 PHP
一个简单安全的PHP验证码类 附调用方法
2016/06/24 PHP
php从数据库中获取数据用ajax传送到前台的方法
2018/08/20 PHP
PHP高并发和大流量解决方案整理
2019/12/24 PHP
ExtJs纵坐标值重复问题的解决方法
2014/02/27 Javascript
ZeroClipboard插件实现多浏览器复制功能(支持firefox、chrome、ie6)
2014/08/30 Javascript
JS基础随笔(菜鸟必看篇)
2016/07/13 Javascript
微信小程序 progress组件详解及实例代码
2016/10/25 Javascript
Angularjs实现下拉框联动的示例代码
2017/08/22 Javascript
详解webpack之scss和postcss-loader的配置
2018/01/09 Javascript
promise和co搭配生成器函数方式解决js代码异步流程的比较
2018/05/25 Javascript
JQuery模拟实现网页中自定义鼠标右键菜单功能
2018/11/14 jQuery
Vue注册组件命名时不能用大写的原因浅析
2019/04/25 Javascript
基于layui的下拉列表的数据回显方法
2019/09/24 Javascript
简单了解JavaScript sort方法
2019/11/25 Javascript
详细介绍解决vue和jsp结合的方法
2020/02/06 Javascript
解决echarts 一条柱状图显示两个值,类似进度条的问题
2020/07/20 Javascript
简单了解three.js 着色器材质
2020/08/03 Javascript
vue实现滚动鼠标滚轮切换页面
2020/12/13 Vue.js
[49:31]TFT vs Mski Supermajor小组赛C组 BO3 第一场 6.3
2018/06/04 DOTA
python数据结构之二叉树的遍历实例
2014/04/29 Python
Python内置的字符串处理函数详细整理(覆盖日常所用)
2014/08/19 Python
用Python进行简单图像识别(验证码)
2018/01/19 Python
Python实现定期检查源目录与备份目录的差异并进行备份功能示例
2019/02/27 Python
python 实现GUI(图形用户界面)编程详解
2019/07/17 Python
Pyecharts地图显示不完成问题解决方案
2020/05/11 Python
Python API 操作Hadoop hdfs详解
2020/06/06 Python
python3中数组逆序输出方法
2020/12/01 Python
python help函数实例用法
2020/12/06 Python
美国最大的高尔夫发球时间预订网站:TeeOff.com
2018/03/28 全球购物
俄罗斯电子产品、计算机和家用电器购物网站:OLDI
2019/10/27 全球购物
Guess荷兰官网:美国服饰品牌
2020/01/22 全球购物
小学三年级数学教学反思
2014/01/31 职场文书
大学生实习证明范文(5篇)
2014/09/18 职场文书
撤诉申请怎么写
2015/05/19 职场文书
Mysql systemctl start mysqld报错的问题解决
2021/06/03 MySQL