编程 Python

python代码实现ID3决策树算法

Posted in Python onDecember 20, 2017

本文实例为大家分享了python实现ID3决策树算法的具体代码，供大家参考，具体内容如下

''''' 
Created on Jan 30, 2015 
 
@author: 史帅 
''' 
 
from math import log 
import operator 
import re 
 
def fileToDataSet(fileName): 
  ''''' 
  此方法功能是:从文件中读取样本集数据,样本数据的格式为:数据以空白字符分割,最后一列为类标签 
     
    参数: 
      fileName:存放样本集数据的文件路径 
     
    返回值: 
      dataSet:样本集数据组成的二维数组 
  ''' 
  file=open(fileName, mode='r') 
  lines=file.readlines() 
  dataSet=[] 
  index=0 
  p=re.compile(r"\s+") 
  for line in lines: 
    line=p.split(line.strip()) 
    dataSet.append(line) 
    index+=1 
  return dataSet 
 
def calculateShannonEntropy(dataSet): 
  ''''' 
  此方法功能是:计算样本集数据类别的信息熵,样本数据的格式为二维数组 
     
    参数: 
      dataSet:样本集数据组成的二维数组 
     
    返回值: 
      shannonEntropy:样本集数据类别的信息熵 
  ''' 
  dataCount=len(dataSet) 
  classCountDic={} 
  for data in dataSet: 
    label=data[-1] 
    if label not in classCountDic.keys(): 
      classCountDic[label]=0 
    classCountDic[label]+=1 
  shannonEntropy=0.0 
  for key in classCountDic: 
    prob=float(classCountDic[key])/dataCount 
    shannonEntropy-=prob*log(prob,2) 
  return shannonEntropy 
 
def splitDataSet(dataSet,axis,value): 
  ''''' 
  此方法功能是:对样本集数据按照某一特征进行分割,使得分割后的数据集中该特征的值全部等于同一个值,并且将分割后的数据中该特征列去除 
   
    参数: 
      dataSet:待分割的样本集数据,二维数组 
      axis:特征所在样本集数据列中的位置 
      value:样本集数据分割后该特征的值 
       
    返回值: 
      splitedDataSet:按照所在位置为axis的特征进行分割,并且该特征值为value的样本集数据的子集 
  ''' 
  splitedDataSet=[] 
  for data in dataSet: 
    if data[axis]==value: 
      splitedData=data[:axis] 
      splitedData.extend(data[axis+1:]) 
      splitedDataSet.append(splitedData) 
  return splitedDataSet 
 
def chooseBestFeatureToSlipt(dataSet): 
  ''''' 
  此方法功能是:分别计算整个样本集数据的信息熵与按照各个特征分割后的数据集的信息熵之差,得到使差值最大的分割方案,得到该分割方案的特征 
   
    参数: 
      dataSet:待分割的样本集数据,二维数组 
       
    返回值: 
      bestFeature:按照分割前后信息熵差值最大的分割方案得到的特征，返回此特征所在样本集数据列中的位置 
  ''' 
  bestFeature=-1 
  dataSetShannonEntropy=calculateShannonEntropy(dataSet) 
  infoGain=0 
  featureCount=len(dataSet[0])-1 
  for i in range(featureCount): 
    featureList=[example[i] for example in dataSet] 
    featureSet=set(featureList) 
    splitedDataSetShannonEntropy=0 
    for feature in featureSet: 
      splitedDataSet=splitDataSet(dataSet,i,feature) 
      splitedDataSetShannonEntropy+=float(len(splitedDataSet))/len(dataSet)*calculateShannonEntropy(splitedDataSet) 
    if dataSetShannonEntropy-splitedDataSetShannonEntropy>infoGain: 
      infoGain=dataSetShannonEntropy-splitedDataSetShannonEntropy 
      bestFeature=i 
  return bestFeature 
 
def majorityClass(classList): 
  ''''' 
  此方法功能是:从类别列表中得到个数最多的类别 
   
    参数: 
      classList:类别列表,一维数组 
       
    返回值: 
      类别列表中个数最多的类别 
  ''' 
  classCountDic={} 
  for label in classList: 
    if label not in classCountDic.keys(): 
      classCountDic[label]=0 
    classCountDic[label]+=1 
  classCountDic=sorted(classCountDic.item(),key=operator.itemgetter(1),reverse=True) 
  return classCountDic[0][0] 
 
 
def createTree(dataSet,features): 
  ''''' 
  此方法功能是:根据训练样本集数据创建对分类最有效的决策树 
   
    参数: 
      dataSet:训练样本集数据,二维数组 
      features:与训练样本集数据中各列的特征值相对应的特征名称集合,一维数组 
     
    返回值: 
      tree:根据训练样本集数据所创建的，对分类最有效的决策树 
  ''' 
  subFeatures=features[:] 
  classList=[example[-1] for example in dataSet] 
  if classList.count(classList[0])==len(classList): 
    return classList[0] 
  if len(dataSet[0])==1: 
    return majorityClass(classList) 
  bestFeature=chooseBestFeatureToSlipt(dataSet) 
  label=subFeatures[bestFeature] 
  tree={label:{}} 
  del(subFeatures[bestFeature]) 
  featureList=[example[bestFeature] for example in dataSet] 
  featureSet=set(featureList) 
  for feature in featureSet: 
    splitedDataSet=splitDataSet(dataSet,bestFeature,feature) 
    tree[label][feature]=createTree(splitedDataSet, subFeatures) 
  return tree 
   
def classify(inX,tree,features): 
  ''''' 
  此方法功能是:根据创建好的决策树,对特定的数据进行分类 
   
    参数: 
      inX:待分类的数据,特征值向量,一维数组 
      tree:根据决策树算法创建好的最有效的决策树 
      features:与训练样本集数据中各列的特征值相对应的特征名称集合,一维数组 
       
    返回值: 
      label:待分类的数据通过决策树分类之后的类别 
  ''' 
  feature=list(tree.keys())[0] 
  featureIndex=features.index(feature) 
  secondTree=tree[feature][inX[featureIndex]] 
  if type(secondTree).__name__=="dict": 
    label=classify(inX,secondTree,features) 
  else: 
    label=secondTree 
  return label

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python代码实现ID3决策树算法

- Author -

史帅

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python装饰器与递归算法详解

Feb 18 Python

Python与Java间Socket通信实例代码

Mar 06 Python

pycharm远程调试openstack代码

Nov 21 Python

Python实现的堆排序算法原理与用法实例分析

Nov 22 Python

python实现简单神经网络算法

Mar 10 Python

Python实现动态添加属性和方法操作示例

Jul 25 Python

Python 创建新文件时避免覆盖已有的同名文件的解决方法

Nov 16 Python

Python3.5以上版本lxml导入etree报错的解决方案

Jun 26 Python

Python用Try语句捕获异常的实例方法

Jun 26 Python

python实现在函数中修改变量值的方法

Jul 16 Python

Python DataFrame一列拆成多列以及一行拆成多行

Aug 06 Python

Python实例教程之检索输出月份日历表

Dec 16 Python

python决策树之CART分类回归树详解

Dec 20 #Python

python中文乱码不着急，先看懂字节和字符

Dec 20 #Python

python决策树之C4.5算法详解

Dec 20 #Python

python 3.6 +pyMysql 操作mysql数据库(实例讲解)

Dec 20 #Python

python实现ID3决策树算法

Dec 20 #Python

理解python中生成器用法

Dec 20 #Python

Python利用turtle库绘制彩虹代码示例

Dec 20 #Python

You might like

上海地方志办公室－上海电子仪表工业志

2021/03/04 无线电

动态新闻发布的实现及其技巧

2006/10/09 PHP

Discuz 模板语句分析及知识技巧

2009/08/21 PHP

php 生成文字png图片的代码

2011/04/17 PHP

PHP Directory 函数的详解

2013/03/07 PHP

php三元运算符知识汇总

2015/07/02 PHP

javascript 设计模式之单体模式面向对象学习基础

2010/04/18 Javascript

推荐30个新鲜出炉的精美 jQuery 效果

2012/03/26 Javascript

jquery插件jTimer(jquery定时器)使用方法

2013/12/23 Javascript

js数值和和字符串进行转换时可以对不同进制进行操作

2014/03/05 Javascript

JS实现光滑展开合拢的菜单效果代码

2015/09/16 Javascript

Sublime Text 3常用插件及安装方法

2015/12/16 Javascript

Nodejs如何搭建Web服务器

2016/03/28 NodeJs

原生ajax处理json格式数据的实例代码

2016/12/25 Javascript

bootstrap datetimepicker日期插件超详细使用方法介绍

2017/02/23 Javascript

vue-cli如何快速构建vue项目

2017/04/26 Javascript

在JS中如何把毫秒转换成规定的日期时间格式实例

2017/05/11 Javascript

微信小程序获取用户openId的实现方法

2017/05/23 Javascript

Angular2监听页面大小变化的解决方法

2017/10/09 Javascript

微信小程序实现自定义加载图标功能

2018/07/19 Javascript

微信小程序实现日历效果

2018/12/28 Javascript

Vue实现固定定位图标滑动隐藏效果

2019/05/30 Javascript

如何使用proxy实现一个简单完整的MVVM库的示例代码

2019/09/17 Javascript

[06:50]DSPL次级职业联赛十强晋级之路

2014/11/18 DOTA

[01:34:42]NAVI vs EG 2019国际邀请赛小组赛 BO2 第二场 8.15

2019/08/17 DOTA

Python实现从url中提取域名的几种方法

2014/09/26 Python

用Python的线程来解决生产者消费问题的示例

2015/04/02 Python

用Python编写一个高效的端口扫描器的方法

2018/12/20 Python

Django 多环境配置详解

2019/05/14 Python

python 函数嵌套及多函数共同运行知识点讲解

2020/03/03 Python

佳能德国网上商店：Canon德国

2017/03/18 全球购物

德国亚马逊官方网站：Amazon.de

2020/11/15 全球购物

临床医学大学生求职信

2013/09/28 职场文书

有个性的自我评价范文

2013/11/15 职场文书

找工作求职信

2014/07/07 职场文书

2014年少先队工作总结

2014/12/03 职场文书