编程 Python

决策树的python实现方法

Posted in Python onNovember 18, 2014

本文实例讲述了决策树的python实现方法。分享给大家供大家参考。具体实现方法如下：

决策树算法优缺点：

优点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关的特征数据

缺点：可能会产生过度匹配的问题

适用数据类型：数值型和标称型

算法思想：

1.决策树构造的整体思想：

决策树说白了就好像是if-else结构一样，它的结果就是你要生成这个一个可以从根开始不断判断选择到叶子节点的树，但是呢这里的if-else必然不会是让我们认为去设置的，我们要做的是提供一种方法，计算机可以根据这种方法得到我们所需要的决策树。这个方法的重点就在于如何从这么多的特征中选择出有价值的，并且按照最好的顺序由根到叶选择。完成了这个我们也就可以递归构造一个决策树了

2.信息增益

划分数据集的最大原则是将无序的数据变得更加有序。既然这又牵涉到信息的有序无序问题，自然要想到想弄的信息熵了。这里我们计算用的也是信息熵（另一种方法是基尼不纯度）。公式如下：

数据需要满足的要求：

① 数据必须是由列表元素组成的列表，而且所有的列白哦元素都要具有相同的数据长度
② 数据的最后一列或者每个实例的最后一个元素应是当前实例的类别标签

函数：

calcShannonEnt(dataSet)
计算数据集的香农熵，分两步，第一步计算频率，第二部根据公式计算香农熵

splitDataSet(dataSet, aixs, value)
划分数据集，将满足X[aixs]==value的值都划分到一起，返回一个划分好的集合（不包括用来划分的aixs属性，因为不需要）

chooseBestFeature(dataSet)
选择最好的属性进行划分，思路很简单就是对每个属性都划分下，看哪个好。这里使用到了一个set来选取列表中唯一的元素，这是一中很快的方法

majorityCnt(classList)
因为我们递归构建决策树是根据属性的消耗进行计算的，所以可能会存在最后属性用完了，但是分类还是没有算完，这时候就会采用多数表决的方式计算节点分类

createTree(dataSet, labels)
基于递归构建决策树。这里的label更多是对于分类特征的名字，为了更好看和后面的理解。

#coding=utf-8

import operator

from math import log

import time
def createDataSet():

    dataSet=[[1,1,'yes'],

            [1,1,'yes'],

            [1,0,'no'],

            [0,1,'no'],

            [0,1,'no']]

    labels = ['no surfaceing','flippers']

    return dataSet, labels
#计算香农熵

def calcShannonEnt(dataSet):

    numEntries = len(dataSet)

    labelCounts = {}

    for feaVec in dataSet:

        currentLabel = feaVec[-1]

        if currentLabel not in labelCounts:

            labelCounts[currentLabel] = 0

        labelCounts[currentLabel] += 1

    shannonEnt = 0.0

    for key in labelCounts:

        prob = float(labelCounts[key])/numEntries

        shannonEnt -= prob * log(prob, 2)

    return shannonEnt
def splitDataSet(dataSet, axis, value):

    retDataSet = []

    for featVec in dataSet:

        if featVec[axis] == value:

            reducedFeatVec = featVec[:axis]

            reducedFeatVec.extend(featVec[axis+1:])

            retDataSet.append(reducedFeatVec)

    return retDataSet

    

def chooseBestFeatureToSplit(dataSet):

    numFeatures = len(dataSet[0]) - 1#因为数据集的最后一项是标签

    baseEntropy = calcShannonEnt(dataSet)

    bestInfoGain = 0.0

    bestFeature = -1

    for i in range(numFeatures):

        featList = [example[i] for example in dataSet]

        uniqueVals = set(featList)

        newEntropy = 0.0

        for value in uniqueVals:

            subDataSet = splitDataSet(dataSet, i, value)

            prob = len(subDataSet) / float(len(dataSet))

            newEntropy += prob * calcShannonEnt(subDataSet)

        infoGain = baseEntropy -newEntropy

        if infoGain > bestInfoGain:

            bestInfoGain = infoGain

            bestFeature = i

    return bestFeature

            

#因为我们递归构建决策树是根据属性的消耗进行计算的，所以可能会存在最后属性用完了，但是分类

#还是没有算完，这时候就会采用多数表决的方式计算节点分类

def majorityCnt(classList):

    classCount = {}

    for vote in classList:

        if vote not in classCount.keys():

            classCount[vote] = 0

        classCount[vote] += 1

    return max(classCount)         

    

def createTree(dataSet, labels):

    classList = [example[-1] for example in dataSet]

    if classList.count(classList[0]) ==len(classList):#类别相同则停止划分

        return classList[0]

    if len(dataSet[0]) == 1:#所有特征已经用完

        return majorityCnt(classList)

    bestFeat = chooseBestFeatureToSplit(dataSet)

    bestFeatLabel = labels[bestFeat]

    myTree = {bestFeatLabel:{}}

    del(labels[bestFeat])

    featValues = [example[bestFeat] for example in dataSet]

    uniqueVals = set(featValues)

    for value in uniqueVals:

        subLabels = labels[:]#为了不改变原始列表的内容复制了一下

        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, 

                                        bestFeat, value),subLabels)

    return myTree

    

def main():

    data,label = createDataSet()

    t1 = time.clock()

    myTree = createTree(data,label)

    t2 = time.clock()

    print myTree

    print 'execute for ',t2-t1

if __name__=='__main__':

    main()

希望本文所述对大家的Python程序设计有所帮助。

决策树的python实现方法

- Author -

shichen2014

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

压缩包密码破解示例分享(类似典破解)

Jan 17 Python

python解析文件示例

Jan 23 Python

python实现图片批量剪切示例

Mar 25 Python

利用python批量给云主机配置安全组的方法教程

Jun 21 Python

Odoo中如何生成唯一不重复的序列号详解

Feb 10 Python

Numpy数组转置的两种实现方法

Apr 17 Python

python 实现倒排索引的方法

Dec 25 Python

详解程序意外中断自动重启shell脚本（以Python为例）

Jul 26 Python

Python3 tkinter 实现文件读取及保存功能

Sep 12 Python

使用python远程操作linux过程解析

Dec 04 Python

python3.7通过thrift操作hbase的示例代码

Jan 14 Python

Python自带的IDE在哪里

Jul 01 Python

linux 下实现python多版本安装实践

Nov 18 #Python

centos 下面安装python2.7 +pip +mysqld

Nov 18 #Python

朴素贝叶斯算法的python实现方法

Nov 18 #Python

使用django-suit为django 1.7 admin后台添加模板

Nov 18 #Python

DJANGO-ALLAUTH社交用户系统的安装配置

Nov 18 #Python

django 自定义用户user模型的三种方法

Nov 18 #Python

使用grappelli为django admin后台添加模板

Nov 18 #Python

You might like

如何使用PHP往windows中添加用户

2006/12/06 PHP

PHP mb_convert_encoding 获取字符串编码类型实现代码

2009/04/26 PHP

PHP关联链接常用代码

2012/11/05 PHP

php实现paypal 授权登录

2015/05/28 PHP

PHP运行模式汇总

2016/11/06 PHP

windows下的WAMP环境搭建图文教程(推荐)

2017/07/27 PHP

Thinkphp3.2简单解决多文件上传只上传一张的问题

2017/09/26 PHP

PHP简单验证码功能机制实例详解

2019/03/27 PHP

PHP文件类型检查及fileinfo模块安装使用详解

2019/05/09 PHP

JQuery中html()方法使用不当带来的陷阱

2011/04/07 Javascript

js+css实现增加表单可用性之提示文字

2013/06/03 Javascript

Jquery读取URL参数小例子

2013/08/30 Javascript

JS中prototype的用法实例分析

2015/03/19 Javascript

js插件Jcrop自定义截取图片功能

2016/10/14 Javascript

微信小程序进行微信支付的步骤昂述

2016/12/01 Javascript

用JavaScript实现让浏览器停止载入页面的方法

2017/01/19 Javascript

javascript history对象详解

2017/02/09 Javascript

JavaScript正则替换HTML标签功能示例

2017/03/02 Javascript

详解Node.js项目APM监控之New Relic

2017/05/12 Javascript

ES6中箭头函数的定义与调用方式详解

2017/06/02 Javascript

JS中双击和单击事件冲突的解决方法

2018/04/09 Javascript

微信小程序聊天功能的示例代码

2020/01/13 Javascript

在vue中实现嵌套页面(iframe)

2020/07/30 Javascript

详解JavaScript中的链式调用

2020/11/27 Javascript

JavaScript对象访问器Getter及Setter原理解析

2020/12/08 Javascript

Python利用operator模块实现对象的多级排序详解

2017/05/09 Python

python 根据时间来生成唯一的字符串方法

2019/01/14 Python

Python函数定义及传参方式详解(4种)

2019/03/18 Python

python实现视频读取和转化图片

2019/12/10 Python

关于matplotlib-legend 位置属性 loc 使用说明

2020/05/16 Python

南非最大的花卉和送礼服务：NetFlorist

2017/09/13 全球购物

蜜蜂引路教学反思

2014/02/04 职场文书

2015年公司新年寄语

2014/12/08 职场文书

Python 如何安装Selenium

2021/05/06 Python

python中Matplotlib绘制直线的实例代码

2021/07/04 Python

Android Rxjava3 使用场景详解

2022/04/07 Java/Android