编程 Python

Python3.0 实现决策树算法的流程

Posted in Python onAugust 08, 2019

决策树的一般流程

检测数据集中的每个子项是否属于同一个分类

if so return 类标签
Else

寻找划分数据集的最好特征

划分数据集

创建分支节点

from math import log
import operator
#生成样本数据集
def createDataSet():
  dataSet = [[1,1,'yes'],
        [1,1,'yes'],
        [1,0,'no'],
        [0,1,'no'],
        [0,1,'no']]
  labels = ['no surfacing','flipper']
  return dataSet,labels
# 计算香农熵 香农 大神必须要膜拜啊，信息界的根目录人物啊
# no surfacing 指的是 不浮出水面能否生存 1 标识 是 0 指的是否
# flipper 指的是是否有脚
# yes no指的是否是鱼类
def calcShannonEnt(dataSet):
  numEntries = len(dataSet) # 用上面的createDataSet dataSet 这个值就是5
  #定义标签字典
  labelCounts = {}
  # 为所有可能的分类创建字典
  for featVec in dataSet:
    currentLabel = featVec[-1] #这个-1指的是去取最后一个维度 对应数据dataSet 这里取的是yes和no
    if currentLabel not in labelCounts.keys():
      # 如果当前分类标签不在 标签字典中
      labelCounts[currentLabel] = 0
    # 其他情况 分类标签分类加1
    labelCounts[currentLabel] += 1
  #定义香农熵 以2为底数求对数
  shannonEnt = 0.0
  for key in labelCounts:
    #计算 yes 或者No 出现的概率
    pro = float(labelCounts[key])/numEntries
    # 计算香农熵
    shannonEnt -= pro*log(pro,2)
  return shannonEnt
#dataSet是待划分的数据集， 划分数据集的特征 axis 特征的返回值value
#最后是创建了一个新的列表对象
def splitDataSet(dataSet, axis , value):
  # 创建新list对象
  retDataSet = []
  for featVec in dataSet:
    if featVec[axis] == value:
      reducedFeatVec = featVec[:axis]
      reducedFeatVec.extend(featVec[axis+1:])
      retDataSet.append(reducedFeatVec)
  return retDataSet
# 选择最好的特征值进行数据集划分
def chooseBestFeatureToSplit(dataSet):
  # len(dataSet[0]）是计算这一行有多少列，即有多少个特征值
  numFeatures = len(dataSet[0])-1 # -1 是最后一个特征值就不要记录在内了，算baseEntrop的时候已经算了最后一个特征值yes no
  baseEntropy = calcShannonEnt(dataSet)
  bestInfoGain = 0.0
  bestFeature = -1
  for i in range(numFeatures):
    #创建唯一的分类标签列表 也就是说提取dataSet每一行第i个值 就提取dat
    featList = [example[i] for example in dataSet]
    # 取出有几种特征值
    uniqueVals = set(featList)
    newEntropy = 0.0
    for value in uniqueVals:
      #创建特征值的子数据集
      subDataSet = splitDataSet(dataSet,i, value)
      #计算该特征值数据对总数在数据对总数出现的概率
      pro = len(subDataSet)/float(len(dataSet))
      #计算分割出来的子集香农熵
      newEntropy += pro*calcShannonEnt(subDataSet)
    #计算信息增益 得到最好的特征值 这个理论是这样的g(D,A) = H(D)-H(D/A）
    infoGain = baseEntropy-newEntropy
    #取出最大的信息增益，此时特征值最大
    if(infoGain >bestInfoGain):
      bestInfoGain = infoGain
      bestFeature = i
  return bestFeature
'''
#构建决策树是根据特征值的消耗来计算的，如果后面的特征值已经全部用完了
但是还没有分出结果，这个时候就需要使用多数表决方式计算节点分类
最后返回最大的分类
'''
def majorityCnt(classList):
  # 分类的字典
  classCount = {}
  for vote in range(classList):
    #如果不在 分类字典中
    if vote not in classCount.keys(): classCount[vote] = 0
    classCount[vote] += 1
    # 根据出现的次数大到小排序
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
  return sortedClassCount[0][0]
#创建决策树
def createTree(dataSet, labels):
  # 获取数据样本每组最后一组的特征值 这里是yes,no
  classList = [example[-1] for example in dataSet]
  # 如果说这个classList 全部都是 yes 或者全部是no 那肯定子返回yes 或者no
  if(classList.count(classList[0]) == len(classList)):
    return classList[0]
  #如果遍历完所有的特征返回出现次数最多的
  #是用消耗特征值的方式进行构造决策树的，每次会消掉一个特征值
  if len(dataSet[0]) == 1:
    return majorityCnt(classList)
  #选择最好的特征值
  bestFeat = chooseBestFeatureToSplit(dataSet)
  bestFeatLabel = labels[bestFeat]
  myTree = {bestFeatLabel:{}}
  # 删除labels中的一特征值
  del(labels[bestFeat])
  #找到特征值那一列
  featValues = [example[bestFeat] for example in dataSet]
  uniqueVals = set(featValues)
  for value in uniqueVals:
    # labels列表的赋值
    subLabels = labels[:]
    myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
  return myTree
dataSet,lables = createDataSet()
shannonEnt= calcShannonEnt(dataSet)
my = createTree(dataSet,lables)
print(my)

总结

以上所述是小编给大家介绍的Python3.0 实现决策树算法的流程,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

Python3.0 实现决策树算法的流程

- Author -

wangxiaoming

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

天翼开放平台免费短信验证码接口使用实例

Dec 18 Python

Python time模块详解（常用函数实例讲解,非常好）

Apr 24 Python

python新手经常遇到的17个错误分析

Jul 30 Python

详解python函数传参是传值还是传引用

Jan 16 Python

python使用锁访问共享变量实例解析

Feb 08 Python

Python批处理删除和重命名文件夹的实例

Jul 11 Python

分析运行中的 Python 进程详细解析

Jun 22 Python

Python银行系统实战源码

Oct 25 Python

numpy实现神经网络反向传播算法的步骤

Dec 24 Python

Tensorflow中的图（tf.Graph）和会话（tf.Session）的实现

Apr 22 Python

Python实现列表索引批量删除的5种方法

Nov 16 Python

Python绘制词云图之可视化神器pyecharts的方法

Feb 23 Python

Python使用ffmpy将amr格式的音频转化为mp3格式的例子

Aug 08 #Python

Django rest framework jwt的使用方法详解

Aug 08 #Python

使用Python实现文字转语音并生成wav文件的例子

Aug 08 #Python

django基于restframework的CBV封装详解

Aug 08 #Python

python 控制Asterisk AMI接口外呼电话的例子

Aug 08 #Python

python 实现手机自动拨打电话的方法(通话压力测试)

Aug 08 #Python

Python generator生成器和yield表达式详解

Aug 08 #Python

You might like

一条久听不愿放下的DIY森海MX500，三言两语话神奇

2021/03/02 无线电

木翼下载系统中说明的PHP安全配置方法

2007/06/16 PHP

用php实现的获取网页中的图片并保存到本地的代码

2010/01/05 PHP

PHP防止表单重复提交的几种常用方法汇总

2014/08/19 PHP

php中explode函数用法分析

2014/11/15 PHP

Iframe thickbox2.0使用的方法

2009/03/05 Javascript

jQuery 美元符冲突的解决方法

2010/03/28 Javascript

jquery 模拟类搜索框自动完成搜索提示功能(改进)

2010/05/24 Javascript

jqGrid jQuery 表格插件测试代码

2011/08/23 Javascript

node.js中的fs.readlinkSync方法使用说明

2014/12/17 Javascript

javascript定义变量时带var与不带var的区别分析

2015/01/12 Javascript

jQuery中unwrap()方法用法实例

2015/01/16 Javascript

jQuery添加options点击事件并传值实例代码

2016/05/18 Javascript

分享一个原生的JavaScript拖动方法

2016/09/25 Javascript

Bootstrap Scrollspy源码学习

2017/03/02 Javascript

JavaScript实现动态增删表格的方法

2017/03/09 Javascript

VUE2实现事件驱动弹窗示例

2017/10/21 Javascript

pm2发布node配置文件ecosystem.json详解

2019/05/15 Javascript

Vue 实现前端权限控制的示例代码

2019/07/09 Javascript

详解为什么Vue中不要用index作为key(diff算法)

2020/04/04 Javascript

[02:30]联想杯DOTA2完美世界全国高校联赛—北京站现场

2015/11/16 DOTA

python通过正则查找微博@(at)用户的方法

2015/03/13 Python

详解Python中的Cookie模块使用

2015/07/06 Python

深入理解Python变量与常量

2016/06/02 Python

python抓取并保存html页面时乱码问题的解决方法

2016/07/01 Python

在CentOS6上安装Python2.7的解决方法

2018/01/09 Python

Django命名URL和反向解析URL实现解析

2019/08/09 Python

Python3 selenium 实现QQ群接龙自动化功能

2020/04/17 Python

python 实现读取csv数据,分类求和再写进 csv

2020/05/18 Python

Python csv文件记录流程代码解析

2020/07/16 Python

html5 viewport使用方法示例详解

2013/12/02 HTML / CSS

瑞士领先的网上超市：LeShop.ch

2018/11/14 全球购物

文明青少年标兵事迹材料

2014/01/28 职场文书

银行简历自我评价

2014/02/11 职场文书

坚定理想信念心得体会

2014/03/11 职场文书

2015年小学数学教研组工作总结

2015/05/21 职场文书