python实现C4.5决策树算法


Posted in Python onAugust 29, 2018

C4.5算法使用信息增益率来代替ID3的信息增益进行特征的选择,克服了信息增益选择特征时偏向于特征值个数较多的不足。信息增益率的定义如下:

python实现C4.5决策树算法

# -*- coding: utf-8 -*-


from numpy import *
import math
import copy
import cPickle as pickle


class C45DTree(object):
 def __init__(self): # 构造方法
  self.tree = {} # 生成树
  self.dataSet = [] # 数据集
  self.labels = [] # 标签集


 # 数据导入函数
 def loadDataSet(self, path, labels):
  recordList = []
  fp = open(path, "rb") # 读取文件内容
  content = fp.read()
  fp.close()
  rowList = content.splitlines() # 按行转换为一维表
  recordList = [row.split("\t") for row in rowList if row.strip()] # strip()函数删除空格、Tab等
  self.dataSet = recordList
  self.labels = labels


 # 执行决策树函数
 def train(self):
  labels = copy.deepcopy(self.labels)
  self.tree = self.buildTree(self.dataSet, labels)


 # 构件决策树:穿件决策树主程序
 def buildTree(self, dataSet, lables):
  cateList = [data[-1] for data in dataSet] # 抽取源数据集中的决策标签列
  # 程序终止条件1:如果classList只有一种决策标签,停止划分,返回这个决策标签
  if cateList.count(cateList[0]) == len(cateList):
   return cateList[0]
  # 程序终止条件2:如果数据集的第一个决策标签只有一个,返回这个标签
  if len(dataSet[0]) == 1:
   return self.maxCate(cateList)
  # 核心部分
  bestFeat, featValueList= self.getBestFeat(dataSet) # 返回数据集的最优特征轴
  bestFeatLabel = lables[bestFeat]
  tree = {bestFeatLabel: {}}
  del (lables[bestFeat])
  for value in featValueList: # 决策树递归生长
   subLables = lables[:] # 将删除后的特征类别集建立子类别集
   # 按最优特征列和值分隔数据集
   splitDataset = self.splitDataSet(dataSet, bestFeat, value)
   subTree = self.buildTree(splitDataset, subLables) # 构建子树
   tree[bestFeatLabel][value] = subTree
  return tree


 # 计算出现次数最多的类别标签
 def maxCate(self, cateList):
  items = dict([(cateList.count(i), i) for i in cateList])
  return items[max(items.keys())]


 # 计算最优特征
 def getBestFeat(self, dataSet):
  Num_Feats = len(dataSet[0][:-1])
  totality = len(dataSet)
  BaseEntropy = self.computeEntropy(dataSet)
  ConditionEntropy = []  # 初始化条件熵
  slpitInfo = [] # for C4.5,caculate gain ratio
  allFeatVList = []
  for f in xrange(Num_Feats):
   featList = [example[f] for example in dataSet]
   [splitI, featureValueList] = self.computeSplitInfo(featList)
   allFeatVList.append(featureValueList)
   slpitInfo.append(splitI)
   resultGain = 0.0
   for value in featureValueList:
    subSet = self.splitDataSet(dataSet, f, value)
    appearNum = float(len(subSet))
    subEntropy = self.computeEntropy(subSet)
    resultGain += (appearNum/totality)*subEntropy
   ConditionEntropy.append(resultGain) # 总条件熵
  infoGainArray = BaseEntropy*ones(Num_Feats)-array(ConditionEntropy)
  infoGainRatio = infoGainArray/array(slpitInfo) # C4.5信息增益的计算
  bestFeatureIndex = argsort(-infoGainRatio)[0]
  return bestFeatureIndex, allFeatVList[bestFeatureIndex]

 # 计算划分信息
 def computeSplitInfo(self, featureVList):
  numEntries = len(featureVList)
  featureVauleSetList = list(set(featureVList))
  valueCounts = [featureVList.count(featVec) for featVec in featureVauleSetList]
  pList = [float(item)/numEntries for item in valueCounts]
  lList = [item*math.log(item, 2) for item in pList]
  splitInfo = -sum(lList)
  return splitInfo, featureVauleSetList


 # 计算信息熵
 # @staticmethod
 def computeEntropy(self, dataSet):
  dataLen = float(len(dataSet))
  cateList = [data[-1] for data in dataSet] # 从数据集中得到类别标签
  # 得到类别为key、 出现次数value的字典
  items = dict([(i, cateList.count(i)) for i in cateList])
  infoEntropy = 0.0
  for key in items: # 香农熵: = -p*log2(p) --infoEntropy = -prob * log(prob, 2)
   prob = float(items[key]) / dataLen
   infoEntropy -= prob * math.log(prob, 2)
  return infoEntropy


 # 划分数据集: 分割数据集; 删除特征轴所在的数据列,返回剩余的数据集
 # dataSet : 数据集; axis: 特征轴; value: 特征轴的取值
 def splitDataSet(self, dataSet, axis, value):
  rtnList = []
  for featVec in dataSet:
   if featVec[axis] == value:
    rFeatVec = featVec[:axis] # list操作:提取0~(axis-1)的元素
    rFeatVec.extend(featVec[axis + 1:]) # 将特征轴之后的元素加回
    rtnList.append(rFeatVec)
  return rtnList

 # 存取树到文件
 def storetree(self, inputTree, filename):
  fw = open(filename,'w')
  pickle.dump(inputTree, fw)
  fw.close()

 # 从文件抓取树
 def grabTree(self, filename):
  fr = open(filename)
  return pickle.load(fr)

调用代码

# -*- coding: utf-8 -*-

from numpy import *
from C45DTree import *

dtree = C45DTree()
dtree.loadDataSet("dataset.dat",["age", "revenue", "student", "credit"])
dtree.train()

dtree.storetree(dtree.tree, "data.tree")
mytree = dtree.grabTree("data.tree")
print mytree

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python简单实现Base64编码和解码的方法
Apr 29 Python
Python实现简单的语音识别系统
Dec 13 Python
浅谈python日志的配置文件路径问题
Apr 28 Python
python: 判断tuple、list、dict是否为空的方法
Oct 22 Python
python Tkinter版学生管理系统
Feb 20 Python
Python爬虫动态ip代理防止被封的方法
Jul 07 Python
Python基于BeautifulSoup和requests实现的爬虫功能示例
Aug 02 Python
python使用 __init__初始化操作简单示例
Sep 26 Python
python获取网络图片方法及整理过程详解
Dec 20 Python
在keras中获取某一层上的feature map实例
Jan 24 Python
使用python检查yaml配置文件是否符合要求
Apr 09 Python
python 实现的车牌识别项目
Jan 25 Python
python机器学习之KNN分类算法
Aug 29 #Python
深入理解python中sort()与sorted()的区别
Aug 29 #Python
Python实现拷贝/删除文件夹的方法详解
Aug 29 #Python
Python读写zip压缩文件的方法
Aug 29 #Python
使用python生成杨辉三角形的示例代码
Aug 29 #Python
Python实现查询某个目录下修改时间最新的文件示例
Aug 29 #Python
有关Python的22个编程技巧
Aug 29 #Python
You might like
深入理解PHP原理之异常机制
2010/08/21 PHP
php新建文件自动编号的思路与实现
2011/06/27 PHP
PHP运行模式的深入理解
2013/06/03 PHP
php不用正则验证真假身份证
2013/11/06 PHP
ThinkPHP3.1新特性之内容解析输出详解
2014/06/19 PHP
php求数组全排列,元素所有组合的方法
2016/05/05 PHP
ThinkPHP简单使用memcache缓存的方法
2016/11/15 PHP
PHP 7安装调试工具Xdebug扩展的方法教程
2017/06/17 PHP
PHP hebrev()函数用法讲解
2019/02/21 PHP
Laravel框架实现调用百度翻译API功能示例
2019/05/30 PHP
php函数式编程简单示例
2019/08/08 PHP
JavaScript 存在陷阱 删除某一区域所有节点
2010/05/10 Javascript
js 弹出框只弹一次(二次修改之后的)
2013/11/26 Javascript
JavaScript反弹动画效果的实现代码
2017/07/13 Javascript
Angular实现下载安装包的功能代码分享
2017/09/05 Javascript
vue获取DOM元素并设置属性的两种实现方法
2017/09/30 Javascript
关于vue中的ajax请求和axios包问题
2018/04/19 Javascript
nodejs实现百度舆情接口应用示例
2020/02/07 NodeJs
最全vue的vue-amap使用高德地图插件画多边形范围的示例代码
2020/07/17 Javascript
Tensorflow 同时载入多个模型的实例讲解
2018/07/27 Python
解决python3 Pycharm上连接数据库时报错的问题
2018/12/03 Python
浅谈python中频繁的print到底能浪费多长时间
2020/02/21 Python
Python爬虫JSON及JSONPath运行原理详解
2020/06/04 Python
python实现单机五子棋
2020/08/28 Python
python实现图片,视频人脸识别(opencv版)
2020/11/18 Python
美国在线购买和出售礼品卡网站:EJ Gift Cards
2019/06/09 全球购物
Moda Italia荷兰:意大利男士服装
2019/08/31 全球购物
法国亚马逊官方网站:Amazon.fr
2020/12/19 全球购物
光信息科学与技术专业职业生涯规划
2014/03/13 职场文书
教堂婚礼主持词
2014/03/14 职场文书
副科竞争上岗演讲稿
2014/05/12 职场文书
电子商务专业求职信范文
2015/03/19 职场文书
病房管理制度范本
2015/08/06 职场文书
护理自荐信
2019/05/14 职场文书
2020年元旦祝福语录,总有适合你的
2019/12/31 职场文书
详解Redis瘦身指南
2021/05/26 Redis