编程 Python

Python机器学习logistic回归代码解析

Posted in Python onJanuary 17, 2018

本文主要研究的是Python机器学习logistic回归的相关内容，同时介绍了一些机器学习中的概念，具体如下。

Logistic回归的主要目的：寻找一个非线性函数sigmod最佳的拟合参数

拟合、插值和逼近是数值分析的三大工具

回归：对一直公式的位置参数进行估计

拟合：把平面上的一些系列点，用一条光滑曲线连接起来

logistic主要思想：根据现有数据对分类边界线建立回归公式、以此进行分类

sigmoid函数：在神经网络中它是所谓的激励函数。当输入大于0时，输出趋向于1，输入小于0时，输出趋向0，输入为0时，输出为0.5

Python机器学习logistic回归代码解析

梯度上升：要找到某个函数的最大值，最好的方法是沿着该函数的梯度方向探寻

收敛：随着迭代的运行算法的结果和真实结果的误差越来越小，且趋向于一个固定值。

爬山算法：是完完全全的贪心算法，每次鼠目寸光的选择一个当前最优解，英雌只能搜寻到局部最优值

模拟退火算法：也是一种贪心算法但它的sou索过程引入了随机因素，模拟退火算法以一定的概念来接受一个比当前解要差的解，因此有可能会跳出这个局部最优解，达到全局最优解。

处理数据中的缺失值：

使用可用特征的均值来填补缺失值

使用特殊值来填补缺失值，如-1

忽略有缺失值的样本

使用相似样本的均值添补缺失值

使用其它机器学习算法预测缺失值

标签与特征不同，很难确定采用某个合适的值来替换。

#coding:utf-8
 
from numpy import *
import math
 
def loadDataSet():
  dataMat = []; labelMat = []
  fr = open('testSet.txt')
  for line in fr.readlines():
    lineArr = line.strip().split()
    dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
    labelMat.append(int(lineArr[2]))
  return dataMat,labelMat
 
def sigmoid(inX):
  return longfloat(1.0/(1+exp(-inX))) #sigmoid函数公式
 
def gradAscent(dataMatIn, classLabels):
  #dataMatIn 一个2维的数组；classLabels 类别标签
  dataMatrix = mat(dataMatIn)       #转换为矩阵
  labelMat = mat(classLabels).transpose() #得到矩阵的转置矩阵
  m,n = shape(dataMatrix)  #读取矩阵的长度,二维矩阵，返回两个值
  alpha = 0.001     #向目标移动的步长
  maxCycles = 500    #迭代次数 
  weights = ones((n,1))  #ones()函数用以创建指定形状和类型的数组，默认情况下返回的类型是float64。但是，如果使用ones()函数时指定了数据类型，那么返回的就是该类型
  for k in range(maxCycles):       
    h = sigmoid(dataMatrix*weights)   #matrix mult
    error = (labelMat - h)       #vector subtraction
    weights = weights + alpha * dataMatrix.transpose()* error #matrix mult
  return weights
 
def plotBestFit(weights):
  import matplotlib as mpl
  mpl.use('Agg')         #为了防止出现:RuntimeError: could not open display报错
  import matplotlib.pyplot as plt
  dataMat,labelMat=loadDataSet()
  dataArr = array(dataMat)
  n = shape(dataArr)[0] 
  xcord1 = []; ycord1 = []
  xcord2 = []; ycord2 = []
  for i in range(n):
    if int(labelMat[i])== 1:
      xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
    else:
      xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
  fig = plt.figure() #figure: 控制dpi、边界颜色、图形大小、和子区( subplot)设置
  ax = fig.add_subplot(111) # 参数111的意思是：将画布分割成1行1列，图像画在从左到右从上到下的第1块，
  ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
  ax.scatter(xcord2, ycord2, s=30, c='green')
  x = arange(-3.0, 3.0, 0.1)
  y = (-weights[0]-weights[1]*x)/weights[2]
  ax.plot(x, y)
  plt.xlabel('X1'); plt.ylabel('X2');
  plt.savefig('plotBestFit.png')  #因为我是腾讯云服务器,没有图形界面，所以我保存为图片。
 
#随机梯度上升算法
def stocGradAscent0(dataMatrix, classLabels):
  m,n = shape(dataMatrix)
  alpha = 0.01
  weights = ones(n)  #initialize to all ones
  for i in range(m):
    h = sigmoid(sum(dataMatrix[i]*weights))
    error = classLabels[i] - h
    weights = weights + alpha * error * dataMatrix[i] #回归系数的更新操作
  return weights
 
#改进的随机梯度上升算法
def stocGradAscent1(dataMatrix, classLabels, numIter=150):  #较之前的增加了一个迭代次数作为第三个参数，默认值150
  m,n = shape(dataMatrix)
  weights = ones(n)  
  for j in range(numIter):
    dataIndex = range(m)
    for i in range(m):
      alpha = 4/(1.0+j+i)+0.0001  
      randIndex = int(random.uniform(0,len(dataIndex)))  #样本随机选择
      h = sigmoid(sum(dataMatrix[randIndex]*weights))
      error = classLabels[randIndex] - h
      weights = weights + alpha * error * dataMatrix[randIndex] #回归系数的更新操作
      del(dataIndex[randIndex])
  return weights
 
#以回归系数和特征向量作为输入计算对应的sigmoid值
def classifyVector(inX, weights):
  prob = sigmoid(sum(inX*weights))
  if prob > 0.5: return 1.0        #如果sigmoid值大于0.5函数返回1，否则返回0
  else: return 0.0
 
#打开测试集和训练集，并对数据进行格式化处理的函数
def colicTest():
  frTrain = open('horseColicTraining.txt'); frTest = open('horseColicTest.txt')
  trainingSet = []; trainingLabels = []
  for line in frTrain.readlines():
    currLine = line.strip().split('\t')
    lineArr =[]
    for i in range(21):
      lineArr.append(float(currLine[i]))
    trainingSet.append(lineArr)
    trainingLabels.append(float(currLine[21]))
  trainWeights = stocGradAscent1(array(trainingSet), trainingLabels, 1000) #计算回归系数向量
  errorCount = 0; numTestVec = 0.0
  for line in frTest.readlines():
    numTestVec += 1.0
    currLine = line.strip().split('\t')
    lineArr =[]
    for i in range(21):
      lineArr.append(float(currLine[i]))
    if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):
      errorCount += 1
  errorRate = (float(errorCount)/numTestVec)
  print "the error rate of this test is: %f" % errorRate
  return errorRate
#调用函数colicTest()10次，并求结果的平均值
def multiTest():
  numTests = 10; errorSum=0.0
  for k in range(numTests):
    errorSum += colicTest()
  print "after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests))

Python机器学习logistic回归代码解析

总结

以上就是本文关于Python机器学习logistic回归代码解析的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

Python机器学习logistic回归代码解析

- Author -

付炜超

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python通过ElementTree操作XML获取结点读取属性美化XML

Dec 02 Python

python返回昨天日期的方法

May 13 Python

Python 迭代器工具包【推荐】

May 06 Python

Python内置函数 next的具体使用方法

Nov 24 Python

Python读取properties配置文件操作示例

Mar 29 Python

Python 最大概率法进行汉语切分的方法

Dec 14 Python

使用 Python 遍历目录树的方法

Feb 29 Python

使用Keras预训练模型ResNet50进行图像分类方式

May 23 Python

python判断字符串以什么结尾的实例方法

Sep 18 Python

scrapy在python爬虫中搭建出错的解决方法

Nov 22 Python

python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)

Dec 03 Python

python中str内置函数用法总结

Dec 27 Python

酷! 程序员用Python带你玩转冲顶大会

Jan 17 #Python

Python建立Map写Excel表实例解析

Jan 17 #Python

Python冲顶大会快来答题!

Jan 17 #Python

urllib和BeautifulSoup爬取维基百科的词条简单实例

Jan 17 #Python

python thrift搭建服务端和客户端测试程序

Jan 17 #Python

Python元字符的用法实例解析

Jan 17 #Python

Python工程师面试必备25条知识点

Jan 17 #Python

You might like

用PHP制作静态网站的模板框架

2006/10/09 PHP

APACHE的AcceptPathInfo指令使用介绍

2013/01/18 PHP

百度实时推送api接口应用示例

2014/10/21 PHP

ThinkPHP 404页面的设置方法

2015/01/14 PHP

php arsort 数组降序排序详细介绍

2016/11/17 PHP

php获取ip及网址的简单方法(必看)

2017/04/01 PHP

PHP的介绍以及优势详细分析

2019/09/05 PHP

event对象的方法兼容多浏览器

2009/06/27 Javascript

jQuery入门问答整理的几个常见的初学者问题

2010/02/22 Javascript

谈谈关于JavaScript 中的 MVC 模式

2013/04/11 Javascript

JavaScript的事件绑定(方便不支持js的时候)

2013/10/01 Javascript

JS获取url链接字符串 location.href

2013/12/23 Javascript

js监听滚动条滚动事件使得某个标签内容始终位于同一位置

2014/01/24 Javascript

js的hasownproperty使用示例

2014/03/02 Javascript

jQuery 计算iframe 窗口大小的方法

2014/05/13 Javascript

Vue.js快速入门教程

2016/09/07 Javascript

JavaScript无阻塞加载和defer、async详解

2017/02/26 Javascript

vue.js国际化 vue-i18n插件的使用详解

2017/07/07 Javascript

vue绑定设置属性的多种方式(5)

2017/08/16 Javascript

bootstrap-Treeview实现级联勾选

2017/11/23 Javascript

vue-自定义组件传值的实例讲解

2018/09/18 Javascript

Python使用Flask-SQLAlchemy连接数据库操作示例

2018/08/31 Python

django 将model转换为字典的方法示例

2018/10/16 Python

css3.0 图形构成实例练习一

2013/03/19 HTML / CSS

Canvas高级路径操作之拖拽对象的实现

2019/08/05 HTML / CSS

日本运动品牌美津浓官方购物网站：MIZUNO SHOP

2016/08/21 全球购物

如何打印出当前源文件的文件名以及源文件的当前行号

2015/04/05 面试题

中式餐厅创业计划书范文

2014/01/23 职场文书

代理商会议邀请函

2014/01/27 职场文书

元旦促销方案

2014/03/15 职场文书

央视元宵晚会主持串词

2014/03/25 职场文书

新疆民族团结演讲稿

2014/08/27 职场文书

新兵入伍心得体会

2014/09/04 职场文书

圣诞晚会主持词开场白

2015/05/28 职场文书

金陵十三钗观后感

2015/06/04 职场文书

SQL实现LeetCode(177.第N高薪水)

2021/08/04 MySQL