编程 Python

python实现决策树C4.5算法详解(在ID3基础上改进)

Posted in Python onMay 31, 2017

一、概论

C4.5主要是在ID3的基础上改进，ID3选择（属性）树节点是选择信息增益值最大的属性作为节点。而C4.5引入了新概念“信息增益率”,C4.5是选择信息增益率最大的属性作为树节点。

二、信息增益

以上公式是求信息增益率（ID3的知识点）

三、信息增益率

python实现决策树C4.5算法详解(在ID3基础上改进)

信息增益率是在求出信息增益值在除以 python实现决策树C4.5算法详解(在ID3基础上改进) 。

例如下面公式为求属性为“outlook”的 python实现决策树C4.5算法详解(在ID3基础上改进) 值：

python实现决策树C4.5算法详解(在ID3基础上改进)

四、C4.5的完整代码

from numpy import *
from scipy import *
from math import log
import operator

#计算给定数据的香浓熵：
def calcShannonEnt(dataSet):
 numEntries = len(dataSet) 
 labelCounts = {} #类别字典（类别的名称为键，该类别的个数为值）
 for featVec in dataSet:
  currentLabel = featVec[-1] 
  if currentLabel not in labelCounts.keys(): #还没添加到字典里的类型
   labelCounts[currentLabel] = 0;
  labelCounts[currentLabel] += 1;
 shannonEnt = 0.0 
 for key in labelCounts: #求出每种类型的熵
  prob = float(labelCounts[key])/numEntries #每种类型个数占所有的比值
  shannonEnt -= prob * log(prob, 2)
 return shannonEnt; #返回熵

#按照给定的特征划分数据集
def splitDataSet(dataSet, axis, value):
 retDataSet = [] 
 for featVec in dataSet: #按dataSet矩阵中的第axis列的值等于value的分数据集
  if featVec[axis] == value:  #值等于value的，每一行为新的列表（去除第axis个数据）
   reducedFeatVec = featVec[:axis]
   reducedFeatVec.extend(featVec[axis+1:]) 
   retDataSet.append(reducedFeatVec) 
 return retDataSet #返回分类后的新矩阵

#选择最好的数据集划分方式
def chooseBestFeatureToSplit(dataSet): 
 numFeatures = len(dataSet[0])-1 #求属性的个数
 baseEntropy = calcShannonEnt(dataSet)
 bestInfoGain = 0.0; bestFeature = -1 
 for i in range(numFeatures): #求所有属性的信息增益
  featList = [example[i] for example in dataSet] 
  uniqueVals = set(featList) #第i列属性的取值（不同值）数集合
  newEntropy = 0.0 
  splitInfo = 0.0;
  for value in uniqueVals: #求第i列属性每个不同值的熵*他们的概率
   subDataSet = splitDataSet(dataSet, i , value) 
   prob = len(subDataSet)/float(len(dataSet)) #求出该值在i列属性中的概率
   newEntropy += prob * calcShannonEnt(subDataSet) #求i列属性各值对于的熵求和
   splitInfo -= prob * log(prob, 2);
  infoGain = (baseEntropy - newEntropy) / splitInfo; #求出第i列属性的信息增益率
  print infoGain; 
  if(infoGain > bestInfoGain): #保存信息增益率最大的信息增益率值以及所在的下表（列值i）
   bestInfoGain = infoGain 
   bestFeature = i 
 return bestFeature 

#找出出现次数最多的分类名称
def majorityCnt(classList): 
 classCount = {} 
 for vote in classList: 
  if vote not in classCount.keys(): classCount[vote] = 0 
  classCount[vote] += 1 
 sortedClassCount = sorted(classCount.iteritems(), key = operator.itemgetter(1), reverse=True)
 return sortedClassCount[0][0] 

#创建树
def createTree(dataSet, labels): 
 classList = [example[-1] for example in dataSet]; #创建需要创建树的训练数据的结果列表（例如最外层的列表是[N, N, Y, Y, Y, N, Y]）
 if classList.count(classList[0]) == len(classList): #如果所有的训练数据都是属于一个类别，则返回该类别
  return classList[0]; 
 if (len(dataSet[0]) == 1): #训练数据只给出类别数据（没给任何属性值数据），返回出现次数最多的分类名称
  return majorityCnt(classList);

 bestFeat = chooseBestFeatureToSplit(dataSet); #选择信息增益最大的属性进行分（返回值是属性类型列表的下标）
 bestFeatLabel = labels[bestFeat] #根据下表找属性名称当树的根节点
 myTree = {bestFeatLabel:{}} #以bestFeatLabel为根节点建一个空树
 del(labels[bestFeat]) #从属性列表中删掉已经被选出来当根节点的属性
 featValues = [example[bestFeat] for example in dataSet] #找出该属性所有训练数据的值（创建列表）
 uniqueVals = set(featValues) #求出该属性的所有值得集合（集合的元素不能重复）
 for value in uniqueVals: #根据该属性的值求树的各个分支
  subLabels = labels[:] 
  myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels) #根据各个分支递归创建树
 return myTree #生成的树

#实用决策树进行分类
def classify(inputTree, featLabels, testVec): 
 firstStr = inputTree.keys()[0] 
 secondDict = inputTree[firstStr] 
 featIndex = featLabels.index(firstStr) 
 for key in secondDict.keys(): 
  if testVec[featIndex] == key: 
   if type(secondDict[key]).__name__ == 'dict': 
    classLabel = classify(secondDict[key], featLabels, testVec) 
   else: classLabel = secondDict[key] 
 return classLabel 

#读取数据文档中的训练数据（生成二维列表）
def createTrainData():
 lines_set = open('../data/ID3/Dataset.txt').readlines()
 labelLine = lines_set[2];
 labels = labelLine.strip().split()
 lines_set = lines_set[4:11]
 dataSet = [];
 for line in lines_set:
  data = line.split();
  dataSet.append(data);
 return dataSet, labels


#读取数据文档中的测试数据（生成二维列表）
def createTestData():
 lines_set = open('../data/ID3/Dataset.txt').readlines()
 lines_set = lines_set[15:22]
 dataSet = [];
 for line in lines_set:
  data = line.strip().split();
  dataSet.append(data);
 return dataSet

myDat, labels = createTrainData() 
myTree = createTree(myDat,labels) 
print myTree
bootList = ['outlook','temperature', 'humidity', 'windy'];
testList = createTestData();
for testData in testList:
 dic = classify(myTree, bootList, testData)
 print dic

五、C4.5与ID3的代码区别

python实现决策树C4.5算法详解(在ID3基础上改进)

如上图，C4.5主要在第52、53行代码与ID3不同（ID3求的是信息增益，C4.5求的是信息增益率）。

六、训练、测试数据集样例

训练集:

 outlook temperature humidity windy 
 ---------------------------------------------------------
 sunny  hot    high   false   N
 sunny  hot    high   true   N
 overcast hot    high   false   Y
 rain  mild   high   false   Y
 rain  cool   normal  false   Y
 rain  cool   normal  true   N
 overcast cool   normal  true   Y

测试集
 outlook temperature humidity windy 
 -----------------------------------------------  
 sunny  mild   high   false   
 sunny  cool   normal  false   
 rain   mild   normal  false  
 sunny  mild   normal  true   
 overcast mild   high   true   
 overcast hot    normal  false   
 rain   mild   high   true

以上这篇python实现决策树C4.5算法详解(在ID3基础上改进)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python实现决策树C4.5算法详解(在ID3基础上改进)

- Author -

jingxian

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

全面解读Python Web开发框架Django

Jun 30 Python

详解Python中open()函数指定文件打开方式的用法

Jun 04 Python

简单掌握Python中glob模块查找文件路径的用法

Jul 05 Python

python和ruby,我选谁？

Sep 13 Python

Python3使用PyQt5制作简单的画板/手写板实例

Oct 19 Python

python中如何正确使用正则表达式的详细模式（Verbose mode expression)

Nov 08 Python

Python错误处理操作示例

Jul 18 Python

django2.0扩展用户字段示例

Feb 13 Python

python覆盖写入,追加写入的实例

Jun 26 Python

python3 线性回归验证方法

Jul 09 Python

python异步编程使用yield from过程解析

Sep 25 Python

2020最新pycharm汉化安装（python工程狮亲测有效）

Apr 26 Python

基于ID3决策树算法的实现(Python版)

May 31 #Python

Python基础知识_浅谈用户交互

May 31 #Python

python数据类型_字符串常用操作(详解)

May 30 #Python

python数据类型_元组、字典常用操作方法(介绍)

May 30 #Python

node.js获取参数的常用方法(总结)

May 29 #Python

老生常谈python函数参数的区别(必看篇)

May 29 #Python

Python进阶_关于命名空间与作用域(详解)

May 29 #Python

You might like

NOD32 v2.70.32 简体中文封装版提供下载了

2007/02/27 PHP

php数组函数序列之asort() - 对数组的元素值进行升序排序，保持索引关系

2011/11/02 PHP

LAMP环境使用Composer安装Laravel的方法

2017/03/25 PHP

Win10 下安装配置IIS + MySQL + nginx + php7.1.7

2017/08/04 PHP

总结PHP代码规范、流程规范、git规范

2018/06/18 PHP

PHP中str_split()函数的用法讲解

2019/04/11 PHP

javascript 面向对象编程 function也是类

2009/09/17 Javascript

Javascript弹出窗口的各种方法总结

2013/11/11 Javascript

控制input输入框中提示信息的显示和隐藏的方法

2014/02/12 Javascript

js调用后台、后台调用前台等方法总结

2014/04/17 Javascript

JavaScript使用push方法添加一个元素到数组末尾用法实例

2015/04/06 Javascript

QQ登录背景闪动效果附效果演示源码下载

2015/09/22 Javascript

javascript实现省市区三级联动下拉框菜单

2015/11/17 Javascript

Node.js本地文件操作之文件拷贝与目录遍历的方法

2016/02/16 Javascript

js倒计时显示实例

2016/12/11 Javascript

AngularJS实现的select二级联动下拉菜单功能示例

2017/10/25 Javascript

JS实现图片居中悬浮效果

2017/12/25 Javascript

node的process以及child_process模块学习笔记

2018/03/06 Javascript

JavaScript创建对象方式总结【工厂模式、构造函数模式、原型模式等】

2018/12/19 Javascript

javascript实现的字符串转换成数组操作示例

2019/06/13 Javascript

nodejs制作小爬虫功能示例

2020/02/24 NodeJs

原生js实现的观察者和订阅者模式简单示例

2020/04/18 Javascript

Vue 使用typescript如何优雅的调用swagger API

2020/09/01 Javascript

[01:35:13]DOTA2-DPC中国联赛正赛 DLG vs PHOENIX BO3 第一场 1月18日

2021/03/11 DOTA

python 随机数生成的代码的详细分析

2011/05/15 Python

Django unittest 设置跳过某些case的方法

2018/12/26 Python

Python批量获取并保存手机号归属地和运营商的示例

2020/10/09 Python

新品发布会策划方案

2014/06/08 职场文书

争先创优演讲稿

2014/09/15 职场文书

2014年单位工作总结范文

2014/11/27 职场文书

云冈石窟导游词

2015/02/04 职场文书

汽车销售助理岗位职责

2015/04/14 职场文书

高二数学教学反思

2016/02/18 职场文书

基于Redis6.2.6版本部署Redis Cluster集群的问题

2022/04/01 Redis

MySQ InnoDB和MyISAM存储引擎介绍

2022/04/26 MySQL

Golang实现可重入锁的示例代码

2022/05/25 Golang