python实现决策树


Posted in Python onDecember 21, 2017

本文实例为大家分享了python实现决策树的具体代码,供大家参考,具体内容如下

算法优缺点:

优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关的特征数据

缺点:可能会产生过度匹配的问题

适用数据类型:数值型和标称型

算法思想:

1.决策树构造的整体思想:

决策树说白了就好像是if-else结构一样,它的结果就是你要生成这个一个可以从根开始不断判断选择到叶子节点的树,但是呢这里的if-else必然不会是让我们认为去设置的,我们要做的是提供一种方法,计算机可以根据这种方法得到我们所需要的决策树。这个方法的重点就在于如何从这么多的特征中选择出有价值的,并且按照最好的顺序由根到叶选择。完成了这个我们也就可以递归构造一个决策树了

2.信息增益

划分数据集的最大原则是将无序的数据变得更加有序。既然这又牵涉到信息的有序无序问题,自然要想到想弄的信息熵了。这里我们计算用的也是信息熵(另一种方法是基尼不纯度)。公式如下:

数据需要满足的要求:

1 数据必须是由列表元素组成的列表,而且所有的列白哦元素都要具有相同的数据长度
2 数据的最后一列或者每个实例的最后一个元素应是当前实例的类别标签

函数:

calcShannonEnt(dataSet)

计算数据集的香农熵,分两步,第一步计算频率,第二部根据公式计算香农熵

splitDataSet(dataSet, aixs, value)

划分数据集,将满足X[aixs]==value的值都划分到一起,返回一个划分好的集合(不包括用来划分的aixs属性,因为不需要)

chooseBestFeature(dataSet)

选择最好的属性进行划分,思路很简单就是对每个属性都划分下,看哪个好。这里使用到了一个set来选取列表中唯一的元素,这是一中很快的方法

majorityCnt(classList)

因为我们递归构建决策树是根据属性的消耗进行计算的,所以可能会存在最后属性用完了,但是分类还是没有算完,这时候就会采用多数表决的方式计算节点分类

createTree(dataSet, labels)

基于递归构建决策树。这里的label更多是对于分类特征的名字,为了更好看和后面的理解。

#coding=utf-8
import operator
from math import log
import time

def createDataSet():
  dataSet=[[1,1,'yes'],
      [1,1,'yes'],
      [1,0,'no'],
      [0,1,'no'],
      [0,1,'no']]
  labels = ['no surfaceing','flippers']
  return dataSet, labels

#计算香农熵
def calcShannonEnt(dataSet):
  numEntries = len(dataSet)
  labelCounts = {}
  for feaVec in dataSet:
    currentLabel = feaVec[-1]
    if currentLabel not in labelCounts:
      labelCounts[currentLabel] = 0
    labelCounts[currentLabel] += 1
  shannonEnt = 0.0
  for key in labelCounts:
    prob = float(labelCounts[key])/numEntries
    shannonEnt -= prob * log(prob, 2)
  return shannonEnt

def splitDataSet(dataSet, axis, value):
  retDataSet = []
  for featVec in dataSet:
    if featVec[axis] == value:
      reducedFeatVec = featVec[:axis]
      reducedFeatVec.extend(featVec[axis+1:])
      retDataSet.append(reducedFeatVec)
  return retDataSet
  
def chooseBestFeatureToSplit(dataSet):
  numFeatures = len(dataSet[0]) - 1#因为数据集的最后一项是标签
  baseEntropy = calcShannonEnt(dataSet)
  bestInfoGain = 0.0
  bestFeature = -1
  for i in range(numFeatures):
    featList = [example[i] for example in dataSet]
    uniqueVals = set(featList)
    newEntropy = 0.0
    for value in uniqueVals:
      subDataSet = splitDataSet(dataSet, i, value)
      prob = len(subDataSet) / float(len(dataSet))
      newEntropy += prob * calcShannonEnt(subDataSet)
    infoGain = baseEntropy -newEntropy
    if infoGain > bestInfoGain:
      bestInfoGain = infoGain
      bestFeature = i
  return bestFeature
      
#因为我们递归构建决策树是根据属性的消耗进行计算的,所以可能会存在最后属性用完了,但是分类
#还是没有算完,这时候就会采用多数表决的方式计算节点分类
def majorityCnt(classList):
  classCount = {}
  for vote in classList:
    if vote not in classCount.keys():
      classCount[vote] = 0
    classCount[vote] += 1
  return max(classCount)     
  
def createTree(dataSet, labels):
  classList = [example[-1] for example in dataSet]
  if classList.count(classList[0]) ==len(classList):#类别相同则停止划分
    return classList[0]
  if len(dataSet[0]) == 1:#所有特征已经用完
    return majorityCnt(classList)
  bestFeat = chooseBestFeatureToSplit(dataSet)
  bestFeatLabel = labels[bestFeat]
  myTree = {bestFeatLabel:{}}
  del(labels[bestFeat])
  featValues = [example[bestFeat] for example in dataSet]
  uniqueVals = set(featValues)
  for value in uniqueVals:
    subLabels = labels[:]#为了不改变原始列表的内容复制了一下
    myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, 
                    bestFeat, value),subLabels)
  return myTree
  
def main():
  data,label = createDataSet()
  t1 = time.clock()
  myTree = createTree(data,label)
  t2 = time.clock()
  print myTree
  print 'execute for ',t2-t1
if __name__=='__main__':
  main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python正则分组的应用
Nov 10 Python
python使用内存zipfile对象在内存中打包文件示例
Apr 30 Python
python的paramiko模块实现远程控制和传输示例
Oct 13 Python
python3.6的venv模块使用详解
Aug 01 Python
python安装pywin32clipboard的操作方法
Jan 24 Python
python多进程并发demo实例解析
Dec 13 Python
python错误调试及单元文档测试过程解析
Dec 19 Python
Tensorflow之梯度裁剪的实现示例
Mar 08 Python
Python实现CAN报文转换工具教程
May 05 Python
python 制作python包,封装成可用模块教程
Jul 13 Python
python实现简单贪吃蛇游戏
Sep 29 Python
python爬虫搭配起Bilibili唧唧的流程分析
Dec 01 Python
python利用sklearn包编写决策树源代码
Dec 21 #Python
python实现决策树分类算法
Dec 21 #Python
Python语言描述机器学习之Logistic回归算法
Dec 21 #Python
python Crypto模块的安装与使用方法
Dec 21 #Python
python编写Logistic逻辑回归
Dec 30 #Python
python+selenium识别验证码并登录的示例代码
Dec 21 #Python
python实现随机森林random forest的原理及方法
Dec 21 #Python
You might like
无数据库的详细域名查询程序PHP版(1)
2006/10/09 PHP
一个php作的文本留言本的例子(四)
2006/10/09 PHP
如何在PHP中使用Oracle数据库(5)
2006/10/09 PHP
php导出csv格式数据并将数字转换成文本的思路以及代码分享
2014/06/05 PHP
PHP中使用匿名函数操作数据库的例子
2014/11/17 PHP
Symfony页面的基本创建实例详解
2015/01/26 PHP
PHP网络操作函数汇总
2015/05/18 PHP
thinkphp命名空间用法实例详解
2015/12/30 PHP
apache php mysql开发环境安装教程
2016/07/28 PHP
thinkPHP自动验证、自动添加及表单错误问题分析
2016/10/17 PHP
给大家分享几个常用的PHP函数
2017/01/15 PHP
PHP使用SWOOLE扩展实现定时同步 MySQL 数据
2017/04/09 PHP
PHP获取文本框、密码域、按钮的值实例代码
2017/04/19 PHP
php生成网页桌面快捷方式
2017/05/05 PHP
将中国标准时间转换成标准格式的代码
2014/03/20 Javascript
js数组中如何随机取出一个值
2014/06/13 Javascript
使用AngularJS和PHP的Laravel实现单页评论的方法
2015/06/19 Javascript
ES6学习之变量的解构赋值
2017/02/12 Javascript
JS中IP地址与整数相互转换的实现代码
2017/04/10 Javascript
socket.io学习教程之深入学习篇(三)
2017/04/29 Javascript
浅析 NodeJs 的几种文件路径
2017/06/07 NodeJs
十个免费的web前端开发工具详细整理
2017/09/18 Javascript
关于laydate.js加载laydate.css路径错误问题解决
2017/12/27 Javascript
深入理解js A*寻路算法原理与具体实现过程
2018/12/13 Javascript
python字符串连接的N种方式总结
2014/09/17 Python
利用python解决mysql视图导入导出依赖的问题
2017/12/17 Python
Python中文件的写入读取以及附加文字方法
2019/01/23 Python
Python求离散序列导数的示例
2019/07/10 Python
Python 获取 datax 执行结果保存到数据库的方法
2019/07/11 Python
TensorFlow实现批量归一化操作的示例
2020/04/22 Python
英国时尚泳装品牌:Maru Swimwear
2019/10/06 全球购物
会计求职信范文
2014/05/24 职场文书
结婚老公保证书
2015/02/26 职场文书
个人先进事迹总结
2015/02/26 职场文书
2015年污水处理厂工作总结
2015/05/26 职场文书
python实现简易自习室座位预约系统
2021/06/30 Python