python实现决策树


Posted in Python onDecember 21, 2017

本文实例为大家分享了python实现决策树的具体代码,供大家参考,具体内容如下

算法优缺点:

优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关的特征数据

缺点:可能会产生过度匹配的问题

适用数据类型:数值型和标称型

算法思想:

1.决策树构造的整体思想:

决策树说白了就好像是if-else结构一样,它的结果就是你要生成这个一个可以从根开始不断判断选择到叶子节点的树,但是呢这里的if-else必然不会是让我们认为去设置的,我们要做的是提供一种方法,计算机可以根据这种方法得到我们所需要的决策树。这个方法的重点就在于如何从这么多的特征中选择出有价值的,并且按照最好的顺序由根到叶选择。完成了这个我们也就可以递归构造一个决策树了

2.信息增益

划分数据集的最大原则是将无序的数据变得更加有序。既然这又牵涉到信息的有序无序问题,自然要想到想弄的信息熵了。这里我们计算用的也是信息熵(另一种方法是基尼不纯度)。公式如下:

数据需要满足的要求:

1 数据必须是由列表元素组成的列表,而且所有的列白哦元素都要具有相同的数据长度
2 数据的最后一列或者每个实例的最后一个元素应是当前实例的类别标签

函数:

calcShannonEnt(dataSet)

计算数据集的香农熵,分两步,第一步计算频率,第二部根据公式计算香农熵

splitDataSet(dataSet, aixs, value)

划分数据集,将满足X[aixs]==value的值都划分到一起,返回一个划分好的集合(不包括用来划分的aixs属性,因为不需要)

chooseBestFeature(dataSet)

选择最好的属性进行划分,思路很简单就是对每个属性都划分下,看哪个好。这里使用到了一个set来选取列表中唯一的元素,这是一中很快的方法

majorityCnt(classList)

因为我们递归构建决策树是根据属性的消耗进行计算的,所以可能会存在最后属性用完了,但是分类还是没有算完,这时候就会采用多数表决的方式计算节点分类

createTree(dataSet, labels)

基于递归构建决策树。这里的label更多是对于分类特征的名字,为了更好看和后面的理解。

#coding=utf-8
import operator
from math import log
import time

def createDataSet():
  dataSet=[[1,1,'yes'],
      [1,1,'yes'],
      [1,0,'no'],
      [0,1,'no'],
      [0,1,'no']]
  labels = ['no surfaceing','flippers']
  return dataSet, labels

#计算香农熵
def calcShannonEnt(dataSet):
  numEntries = len(dataSet)
  labelCounts = {}
  for feaVec in dataSet:
    currentLabel = feaVec[-1]
    if currentLabel not in labelCounts:
      labelCounts[currentLabel] = 0
    labelCounts[currentLabel] += 1
  shannonEnt = 0.0
  for key in labelCounts:
    prob = float(labelCounts[key])/numEntries
    shannonEnt -= prob * log(prob, 2)
  return shannonEnt

def splitDataSet(dataSet, axis, value):
  retDataSet = []
  for featVec in dataSet:
    if featVec[axis] == value:
      reducedFeatVec = featVec[:axis]
      reducedFeatVec.extend(featVec[axis+1:])
      retDataSet.append(reducedFeatVec)
  return retDataSet
  
def chooseBestFeatureToSplit(dataSet):
  numFeatures = len(dataSet[0]) - 1#因为数据集的最后一项是标签
  baseEntropy = calcShannonEnt(dataSet)
  bestInfoGain = 0.0
  bestFeature = -1
  for i in range(numFeatures):
    featList = [example[i] for example in dataSet]
    uniqueVals = set(featList)
    newEntropy = 0.0
    for value in uniqueVals:
      subDataSet = splitDataSet(dataSet, i, value)
      prob = len(subDataSet) / float(len(dataSet))
      newEntropy += prob * calcShannonEnt(subDataSet)
    infoGain = baseEntropy -newEntropy
    if infoGain > bestInfoGain:
      bestInfoGain = infoGain
      bestFeature = i
  return bestFeature
      
#因为我们递归构建决策树是根据属性的消耗进行计算的,所以可能会存在最后属性用完了,但是分类
#还是没有算完,这时候就会采用多数表决的方式计算节点分类
def majorityCnt(classList):
  classCount = {}
  for vote in classList:
    if vote not in classCount.keys():
      classCount[vote] = 0
    classCount[vote] += 1
  return max(classCount)     
  
def createTree(dataSet, labels):
  classList = [example[-1] for example in dataSet]
  if classList.count(classList[0]) ==len(classList):#类别相同则停止划分
    return classList[0]
  if len(dataSet[0]) == 1:#所有特征已经用完
    return majorityCnt(classList)
  bestFeat = chooseBestFeatureToSplit(dataSet)
  bestFeatLabel = labels[bestFeat]
  myTree = {bestFeatLabel:{}}
  del(labels[bestFeat])
  featValues = [example[bestFeat] for example in dataSet]
  uniqueVals = set(featValues)
  for value in uniqueVals:
    subLabels = labels[:]#为了不改变原始列表的内容复制了一下
    myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, 
                    bestFeat, value),subLabels)
  return myTree
  
def main():
  data,label = createDataSet()
  t1 = time.clock()
  myTree = createTree(data,label)
  t2 = time.clock()
  print myTree
  print 'execute for ',t2-t1
if __name__=='__main__':
  main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
浅析Python中将单词首字母大写的capitalize()方法
May 18 Python
Django的数据模型访问多对多键值的方法
Jul 21 Python
在Python程序中操作MySQL的基本方法
Jul 29 Python
Python实现句子翻译功能
Nov 14 Python
PyQt5每天必学之切换按钮
Aug 20 Python
django反向解析和正向解析的方式
Jun 05 Python
python和shell获取文本内容的方法
Jun 05 Python
Sanic框架基于类的视图用法示例
Jul 18 Python
对PyQt5基本窗口控件 QMainWindow的使用详解
Jun 19 Python
Python使用pyserial进行串口通信的实例
Jul 02 Python
Keras: model实现固定部分layer,训练部分layer操作
Jun 28 Python
如何从csv文件构建Tensorflow的数据集
Sep 21 Python
python利用sklearn包编写决策树源代码
Dec 21 #Python
python实现决策树分类算法
Dec 21 #Python
Python语言描述机器学习之Logistic回归算法
Dec 21 #Python
python Crypto模块的安装与使用方法
Dec 21 #Python
python编写Logistic逻辑回归
Dec 30 #Python
python+selenium识别验证码并登录的示例代码
Dec 21 #Python
python实现随机森林random forest的原理及方法
Dec 21 #Python
You might like
递归删除一个节点以及该节点下的所有节点示例
2014/03/19 PHP
PHP使用in_array函数检查数组中是否存在某个值
2015/03/25 PHP
浅谈PHP错误类型及屏蔽方法
2017/05/27 PHP
PHP使用PDO调用mssql存储过程的方法示例
2017/10/07 PHP
JS中彻底删除JSON对象组成的数组中的元素
2020/09/22 PHP
javascript 类方法定义还是有点区别
2009/04/15 Javascript
一些实用的jQuery代码片段收集
2011/07/12 Javascript
cnblogs 代码高亮显示后的代码复制问题解决实现代码
2011/12/14 Javascript
jQuery插件MixItUp实现动画过滤和排序
2015/04/12 Javascript
js显示文本框提示文字的方法
2015/05/07 Javascript
分享我的jquery实现下拉菜单心的
2015/11/29 Javascript
jQuery控制frames及frame页面JS的方法
2016/03/08 Javascript
JS中取二维数组中最大值的方法汇总
2016/04/17 Javascript
Node.js配合node-http-proxy解决本地开发ajax跨域问题
2016/08/31 Javascript
Javascript中的神器——Promise
2017/02/08 Javascript
Vue 过渡实现轮播图效果
2017/03/27 Javascript
EasyUI框架 使用Ajax提交注册信息的实现代码
2017/09/27 Javascript
Vue打包后出现一些map文件的解决方法
2018/02/13 Javascript
JS中DOM元素的attribute与property属性示例详解
2018/09/04 Javascript
bootstrap中的导航条实例代码详解
2019/05/20 Javascript
vue中实现Monaco Editor自定义提示功能
2019/07/05 Javascript
Moment.js实现多个同时倒计时
2019/08/26 Javascript
vue-next/runtime-core 源码阅读指南详解
2019/10/25 Javascript
微信小程序激励式视频广告组件使用详解
2019/12/06 Javascript
JavaScript实现英语单词题库
2019/12/24 Javascript
windows下python安装pip图文教程
2018/05/25 Python
python实现QQ邮箱/163邮箱的邮件发送
2019/01/22 Python
pygame实现成语填空游戏
2019/10/29 Python
Django接收照片储存文件的实例代码
2020/03/07 Python
keras的backend 设置 tensorflow,theano操作
2020/06/30 Python
python实现录制全屏和选择区域录屏功能
2021/02/05 Python
Steve Madden官网:美国鞋类品牌
2017/01/29 全球购物
护士自我评价范文
2014/01/25 职场文书
Python 类,对象,数据分类,函数参数传递详解
2021/09/25 Python
动画「半妖的夜叉姬」新BD特典图公开
2022/03/22 日漫
Python实现信息管理系统
2022/06/05 Python