编程 Python

Python实现决策树C4.5算法的示例

Posted in Python onMay 30, 2018

为什么要改进成C4.5算法

原理

C4.5算法是在ID3算法上的一种改进，它与ID3算法最大的区别就是特征选择上有所不同，一个是基于信息增益比，一个是基于信息增益。

之所以这样做是因为信息增益倾向于选择取值比较多的特征(特征越多，条件熵(特征划分后的类别变量的熵)越小，信息增益就越大)；因此在信息增益下面加一个分母，该分母是当前所选特征的熵，注意：这里而不是类别变量的熵了。

这样就构成了新的特征选择准则，叫做信息增益比。为什么加了这样一个分母就会消除ID3算法倾向于选择取值较多的特征呢？

因为特征取值越多，该特征的熵就越大，分母也就越大，所以信息增益比就会减小，而不是像信息增益那样增大了，一定程度消除了算法对特征取值范围的影响。

实现

在算法实现上，C4.5算法只是修改了信息增益计算的函数calcShannonEntOfFeature和最优特征选择函数chooseBestFeatureToSplit。

calcShannonEntOfFeature在ID3的calcShannonEnt函数上加了个参数feat，ID3中该函数只用计算类别变量的熵，而calcShannonEntOfFeature可以计算指定特征或者类别变量的熵。

chooseBestFeatureToSplit函数在计算好信息增益后，同时计算了当前特征的熵IV，然后相除得到信息增益比，以最大信息增益比作为最优特征。

在划分数据的时候，有可能出现特征取同一个值，那么该特征的熵为0，同时信息增益也为0(类别变量划分前后一样，因为特征只有一个取值)，0/0没有意义，可以跳过该特征。

Python实现决策树C4.5算法的示例

#coding=utf-8
import operator
from math import log
import time
import os, sys
import string

def createDataSet(trainDataFile):
 print trainDataFile
 dataSet = []
 try:
 fin = open(trainDataFile)
 for line in fin:
  line = line.strip()
  cols = line.split('\t')
  row = [cols[1], cols[2], cols[3], cols[4], cols[5], cols[6], cols[7], cols[8], cols[9], cols[10], cols[0]]
  dataSet.append(row)
  #print row
 except:
 print 'Usage xxx.py trainDataFilePath'
 sys.exit()
 labels = ['cip1', 'cip2', 'cip3', 'cip4', 'sip1', 'sip2', 'sip3', 'sip4', 'sport', 'domain']
 print 'dataSetlen', len(dataSet)
 return dataSet, labels

#calc shannon entropy of label or feature
def calcShannonEntOfFeature(dataSet, feat):
 numEntries = len(dataSet)
 labelCounts = {}
 for feaVec in dataSet:
 currentLabel = feaVec[feat]
 if currentLabel not in labelCounts:
  labelCounts[currentLabel] = 0
 labelCounts[currentLabel] += 1
 shannonEnt = 0.0
 for key in labelCounts:
 prob = float(labelCounts[key])/numEntries
 shannonEnt -= prob * log(prob, 2)
 return shannonEnt

def splitDataSet(dataSet, axis, value):
 retDataSet = []
 for featVec in dataSet:
 if featVec[axis] == value:
  reducedFeatVec = featVec[:axis]
  reducedFeatVec.extend(featVec[axis+1:])
  retDataSet.append(reducedFeatVec)
 return retDataSet
 
def chooseBestFeatureToSplit(dataSet):
 numFeatures = len(dataSet[0]) - 1 #last col is label
 baseEntropy = calcShannonEntOfFeature(dataSet, -1)
 bestInfoGainRate = 0.0
 bestFeature = -1
 for i in range(numFeatures):
 featList = [example[i] for example in dataSet]
 uniqueVals = set(featList)
 newEntropy = 0.0
 for value in uniqueVals:
  subDataSet = splitDataSet(dataSet, i, value)
  prob = len(subDataSet) / float(len(dataSet))
  newEntropy += prob *calcShannonEntOfFeature(subDataSet, -1) #calc conditional entropy
 infoGain = baseEntropy - newEntropy
  iv = calcShannonEntOfFeature(dataSet, i)
 if(iv == 0): #value of the feature is all same,infoGain and iv all equal 0, skip the feature
 continue
 
 infoGainRate = infoGain / iv
 if infoGainRate > bestInfoGainRate:
  bestInfoGainRate = infoGainRate
  bestFeature = i
 return bestFeature
  
#feature is exhaustive, reture what you want label
def majorityCnt(classList):
 classCount = {}
 for vote in classList:
 if vote not in classCount.keys():
  classCount[vote] = 0
 classCount[vote] += 1
 return max(classCount)  
 
def createTree(dataSet, labels):
 classList = [example[-1] for example in dataSet]
 if classList.count(classList[0]) ==len(classList): #all data is the same label
 return classList[0]
 if len(dataSet[0]) == 1: #all feature is exhaustive
 return majorityCnt(classList)
 bestFeat = chooseBestFeatureToSplit(dataSet)
 bestFeatLabel = labels[bestFeat]
 if(bestFeat == -1): #特征一样，但类别不一样，即类别与特征不相关，随机选第一个类别做分类结果
 return classList[0] 
 myTree = {bestFeatLabel:{}}
 del(labels[bestFeat])
 featValues = [example[bestFeat] for example in dataSet]
 uniqueVals = set(featValues)
 for value in uniqueVals:
 subLabels = labels[:]
 myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
 return myTree
 
def main():
 if(len(sys.argv) < 3):
 print 'Usage xxx.py trainSet outputTreeFile'
 sys.exit()
 data,label = createDataSet(sys.argv[1])
 t1 = time.clock()
 myTree = createTree(data,label)
 t2 = time.clock()
 fout = open(sys.argv[2], 'w')
 fout.write(str(myTree))
 fout.close()
 print 'execute for ',t2-t1
if __name__=='__main__':
 main()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python实现决策树C4.5算法的示例

- Author -

WOTGL

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中的字典使用分享

Jul 31 Python

numpy自动生成数组详解

Dec 15 Python

使用Python读取安卓手机的屏幕分辨率方法

Mar 31 Python

python 3.7.0 安装配置方法图文教程

Aug 27 Python

详解用pyecharts Geo实现动态数据热力图城市找不到问题解决

Jun 26 Python

Python利用scapy实现ARP欺骗的方法

Jul 23 Python

python django 原生sql 获取数据的例子

Aug 14 Python

基于python操作ES实例详解

Nov 16 Python

Python爬取豆瓣数据实现过程解析

Oct 27 Python

如何利用pycharm进行代码更新比较

Nov 04 Python

Python下载的11种姿势(小结)

Nov 18 Python

python 如何将两个实数矩阵合并为一个复数矩阵

May 19 Python

python实现决策树ID3算法的示例代码

May 30 #Python

浅谈Django中的数据库模型类-models.py(一对一的关系)

May 30 #Python

Python实现的读取电脑硬件信息功能示例

May 30 #Python

Python应用库大全总结

May 30 #Python

Django中反向生成models.py的实例讲解

May 30 #Python

Python RabbitMQ消息队列实现rpc

May 30 #Python

python日期时间转为字符串或者格式化输出的实例

May 29 #Python

You might like

php setcookie(name, value, expires, path, domain, secure) 参数详解

2013/06/28 PHP

PHP简单实现二维数组赋值与遍历功能示例

2017/10/19 PHP

IE与Firefox下javascript getyear年份的兼容性写法

2007/12/20 Javascript

JQuery与JSon实现的无刷新分页代码

2011/09/13 Javascript

ASP.NET jQuery 实例6 (实现CheckBoxList成员全选或全取消)

2012/01/13 Javascript

JavaScript_object基础入门(必看篇)

2016/06/13 Javascript

JavaScript算法系列之快速排序（Quicksort）算法实例详解

2016/09/04 Javascript

JS实现禁止鼠标右键的功能

2016/10/15 Javascript

基于vue.js路由参数的实例讲解——简单易懂

2017/09/07 Javascript

详解动画插件wow.js的使用方法

2017/09/13 Javascript

JavaScript中发出HTTP请求最常用的方法

2018/07/12 Javascript

快速了解Node中的Stream流是什么

2019/02/13 Javascript

Vue项目总结之webpack常规打包优化方案

2019/06/06 Javascript

如何使用proxy实现一个简单完整的MVVM库的示例代码

2019/09/17 Javascript

[58:32]EG vs Liquid 2018国际邀请赛小组赛BO2 第一场 8.18

2018/08/19 DOTA

python连接池实现示例程序

2013/11/26 Python

Python复制文件操作实例详解

2015/11/10 Python

Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录

2017/09/20 Python

Flask数据库迁移简单介绍

2017/10/24 Python

python做量化投资系列之比特币初始配置

2018/01/23 Python

python使用正则表达式来获取文件名的前缀方法

2018/10/21 Python

Django之Mode的外键自关联和引用未定义的Model方法

2018/12/15 Python

pandas DataFrame 交集并集补集的实现

2019/06/24 Python

python如何读取bin文件并下发串口

2019/07/05 Python

解决在pycharm运行代码,调用CMD窗口的命令运行显示乱码问题

2019/08/23 Python

Python类如何定义私有变量

2020/02/03 Python

美体小铺美国官网：The Body Shop美国

2017/11/10 全球购物

POP文化和音乐灵感的时尚：Hot Topic

2019/06/19 全球购物

.NET面试题：什么是值类型和引用类型

2016/01/12 面试题

公司前台接待岗位职责

2013/12/03 职场文书

学生党支部先进事迹

2014/02/04 职场文书

党支部先进事迹材料

2014/12/24 职场文书

画展观后感

2015/06/17 职场文书

《比的意义》教学反思

2016/02/18 职场文书

致毕业季：你如何做好自己的职业生涯规划书？

2019/07/01 职场文书

win10下go mod配置方式

2021/04/25 Golang