python 决策树算法的实现


Posted in Python onOctober 09, 2020
'''
数据集:Mnist
训练集数量:60000
测试集数量:10000
------------------------------
运行结果:ID3(未剪枝)
  正确率:85.9%
  运行时长:356s
'''

import time
import numpy as np


def loadData(fileName):
  '''
  加载文件
  :param fileName:要加载的文件路径
  :return: 数据集和标签集
  '''
  # 存放数据及标记
  dataArr = [];
  labelArr = []
  # 读取文件
  fr = open(fileName)
  # 遍历文件中的每一行
  for line in fr.readlines():
    # 获取当前行,并按“,”切割成字段放入列表中
    # strip:去掉每行字符串首尾指定的字符(默认空格或换行符)
    # split:按照指定的字符将字符串切割成每个字段,返回列表形式
    curLine = line.strip().split(',')
    # 将每行中除标记外的数据放入数据集中(curLine[0]为标记信息)
    # 在放入的同时将原先字符串形式的数据转换为整型
    # 此外将数据进行了二值化处理,大于128的转换成1,小于的转换成0,方便后续计算
    dataArr.append([int(int(num) > 128) for num in curLine[1:]])
    # 将标记信息放入标记集中
    # 放入的同时将标记转换为整型
    labelArr.append(int(curLine[0]))
  # 返回数据集和标记
  return dataArr, labelArr


def majorClass(labelArr):
  '''
  找到当前标签集中占数目最大的标签
  :param labelArr: 标签集
  :return: 最大的标签
  '''
  # 建立字典,用于不同类别的标签技术
  classDict = {}
  # 遍历所有标签
  for i in range(len(labelArr)):
    # 当第一次遇到A标签时,字典内还没有A标签,这时候直接幅值加1是错误的,
    # 所以需要判断字典中是否有该键,没有则创建,有就直接自增
    if labelArr[i] in classDict.keys():
      # 若在字典中存在该标签,则直接加1
      classDict[labelArr[i]] += 1
    else:
      # 若无该标签,设初值为1,表示出现了1次了
      classDict[labelArr[i]] = 1
  # 对字典依据值进行降序排序
  classSort = sorted(classDict.items(), key=lambda x: x[1], reverse=True)
  # 返回最大一项的标签,即占数目最多的标签
  return classSort[0][0]


def calc_H_D(trainLabelArr):
  '''
  计算数据集D的经验熵,参考公式5.7 经验熵的计算
  :param trainLabelArr:当前数据集的标签集
  :return: 经验熵
  '''
  # 初始化为0
  H_D = 0
  # 将当前所有标签放入集合中,这样只要有的标签都会在集合中出现,且出现一次。
  # 遍历该集合就可以遍历所有出现过的标记并计算其Ck
  # 这么做有一个很重要的原因:首先假设一个背景,当前标签集中有一些标记已经没有了,比如说标签集中
  # 没有0(这是很正常的,说明当前分支不存在这个标签)。 式5.7中有一项Ck,那按照式中的针对不同标签k
  # 计算Cl和D并求和时,由于没有0,那么C0=0,此时C0/D0=0,log2(C0/D0) = log2(0),事实上0并不在log的
  # 定义区间内,出现了问题
  # 所以使用集合的方式先知道当前标签中都出现了那些标签,随后对每个标签进行计算,如果没出现的标签那一项就
  # 不在经验熵中出现(未参与,对经验熵无影响),保证log的计算能一直有定义
  trainLabelSet = set([label for label in trainLabelArr])
  # 遍历每一个出现过的标签
  for i in trainLabelSet:
    # 计算|Ck|/|D|
    # trainLabelArr == i:当前标签集中为该标签的的位置
    # 例如a = [1, 0, 0, 1], c = (a == 1): c == [True, false, false, True]
    # trainLabelArr[trainLabelArr == i]:获得为指定标签的样本
    # trainLabelArr[trainLabelArr == i].size:获得为指定标签的样本的大小,即标签为i的样本
    # 数量,就是|Ck|
    # trainLabelArr.size:整个标签集的数量(也就是样本集的数量),即|D|
    p = trainLabelArr[trainLabelArr == i].size / trainLabelArr.size
    # 对经验熵的每一项累加求和
    H_D += -1 * p * np.log2(p)

  # 返回经验熵
  return H_D


def calcH_D_A(trainDataArr_DevFeature, trainLabelArr):
  '''
  计算经验条件熵
  :param trainDataArr_DevFeature:切割后只有feature那列数据的数组
  :param trainLabelArr: 标签集数组
  :return: 经验条件熵
  '''
  # 初始为0
  H_D_A = 0
  # 在featue那列放入集合中,是为了根据集合中的数目知道该feature目前可取值数目是多少
  trainDataSet = set([label for label in trainDataArr_DevFeature])

  # 对于每一个特征取值遍历计算条件经验熵的每一项
  for i in trainDataSet:
    # 计算H(D|A)
    # trainDataArr_DevFeature[trainDataArr_DevFeature == i].size / trainDataArr_DevFeature.size:|Di| / |D|
    # calc_H_D(trainLabelArr[trainDataArr_DevFeature == i]):H(Di)
    H_D_A += trainDataArr_DevFeature[trainDataArr_DevFeature == i].size / trainDataArr_DevFeature.size \
         * calc_H_D(trainLabelArr[trainDataArr_DevFeature == i])
  # 返回得出的条件经验熵
  return H_D_A


def calcBestFeature(trainDataList, trainLabelList):
  '''
  计算信息增益最大的特征
  :param trainDataList: 当前数据集
  :param trainLabelList: 当前标签集
  :return: 信息增益最大的特征及最大信息增益值
  '''
  # 将数据集和标签集转换为数组形式
  # trainLabelArr转换后需要转置,这样在取数时方便
  # 例如a = np.array([1, 2, 3]); b = np.array([1, 2, 3]).T
  # 若不转置,a[0] = [1, 2, 3],转置后b[0] = 1, b[1] = 2
  # 对于标签集来说,能够很方便地取到每一位是很重要的
  trainDataArr = np.array(trainDataList)
  trainLabelArr = np.array(trainLabelList).T

  # 获取当前特征数目,也就是数据集的横轴大小
  featureNum = trainDataArr.shape[1]

  # 初始化最大信息增益
  maxG_D_A = -1
  # 初始化最大信息增益的特征
  maxFeature = -1
  # 对每一个特征进行遍历计算
  for feature in range(featureNum):
    # “5.2.2 信息增益”中“算法5.1(信息增益的算法)”第一步:
    # 1.计算数据集D的经验熵H(D)
    H_D = calc_H_D(trainLabelArr)
    # 2.计算条件经验熵H(D|A)
    # 由于条件经验熵的计算过程中只涉及到标签以及当前特征,为了提高运算速度(全部样本
    # 做成的矩阵运算速度太慢,需要剔除不需要的部分),将数据集矩阵进行切割
    # 数据集在初始时刻是一个Arr = 60000*784的矩阵,针对当前要计算的feature,在训练集中切割下
    # Arr[:, feature]这么一条来,因为后续计算中数据集中只用到这个(没明白的跟着算一遍例5.2)
    # trainDataArr[:, feature]:在数据集中切割下这么一条
    # trainDataArr[:, feature].flat:将这么一条转换成竖着的列表
    # np.array(trainDataArr[:, feature].flat):再转换成一条竖着的矩阵,大小为60000*1(只是初始是
    # 这么大,运行过程中是依据当前数据集大小动态变的)
    trainDataArr_DevideByFeature = np.array(trainDataArr[:, feature].flat)
    # 3.计算信息增益G(D|A)  G(D|A) = H(D) - H(D | A)
    G_D_A = H_D - calcH_D_A(trainDataArr_DevideByFeature, trainLabelArr)
    # 不断更新最大的信息增益以及对应的feature
    if G_D_A > maxG_D_A:
      maxG_D_A = G_D_A
      maxFeature = feature
  return maxFeature, maxG_D_A


def getSubDataArr(trainDataArr, trainLabelArr, A, a):
  '''
  更新数据集和标签集
  :param trainDataArr:要更新的数据集
  :param trainLabelArr: 要更新的标签集
  :param A: 要去除的特征索引
  :param a: 当data[A]== a时,说明该行样本时要保留的
  :return: 新的数据集和标签集
  '''
  # 返回的数据集
  retDataArr = []
  # 返回的标签集
  retLabelArr = []
  # 对当前数据的每一个样本进行遍历
  for i in range(len(trainDataArr)):
    # 如果当前样本的特征为指定特征值a
    if trainDataArr[i][A] == a:
      # 那么将该样本的第A个特征切割掉,放入返回的数据集中
      retDataArr.append(trainDataArr[i][0:A] + trainDataArr[i][A + 1:])
      # 将该样本的标签放入返回标签集中
      retLabelArr.append(trainLabelArr[i])
  # 返回新的数据集和标签集
  return retDataArr, retLabelArr


def createTree(*dataSet):
  '''
  递归创建决策树
  :param dataSet:(trainDataList, trainLabelList) <<-- 元祖形式
  :return:新的子节点或该叶子节点的值
  '''
  # 设置Epsilon,“5.3.1 ID3算法”第4步提到需要将信息增益与阈值Epsilon比较,若小于则直接处理后返回T
  Epsilon = 0.1
  # 从参数中获取trainDataList和trainLabelList
  trainDataList = dataSet[0][0]
  trainLabelList = dataSet[0][1]
  # 打印信息:开始一个子节点创建,打印当前特征向量数目及当前剩余样本数目
  print('start a node', len(trainDataList[0]), len(trainLabelList))

  # 将标签放入一个字典中,当前样本有多少类,在字典中就会有多少项
  # 也相当于去重,多次出现的标签就留一次。举个例子,假如处理结束后字典的长度为1,那说明所有的样本
  # 都是同一个标签,那就可以直接返回该标签了,不需要再生成子节点了。
  classDict = {i for i in trainLabelList}
  # 如果D中所有实例属于同一类Ck,则置T为单节点数,并将Ck作为该节点的类,返回T
  # 即若所有样本的标签一致,也就不需要再分化,返回标记作为该节点的值,返回后这就是一个叶子节点
  if len(classDict) == 1:
    # 因为所有样本都是一致的,在标签集中随便拿一个标签返回都行,这里用的第0个(因为你并不知道
    # 当前标签集的长度是多少,但运行中所有标签只要有长度都会有第0位。
    return trainLabelList[0]

  # 如果A为空集,则置T为单节点数,并将D中实例数最大的类Ck作为该节点的类,返回T
  # 即如果已经没有特征可以用来再分化了,就返回占大多数的类别
  if len(trainDataList[0]) == 0:
    # 返回当前标签集中占数目最大的标签
    return majorClass(trainLabelList)

  # 否则,按式5.10计算A中个特征值的信息增益,选择信息增益最大的特征Ag
  Ag, EpsilonGet = calcBestFeature(trainDataList, trainLabelList)

  # 如果Ag的信息增益比小于阈值Epsilon,则置T为单节点树,并将D中实例数最大的类Ck
  # 作为该节点的类,返回T
  if EpsilonGet < Epsilon:
    return majorClass(trainLabelList)

  # 否则,对Ag的每一可能值ai,依Ag=ai将D分割为若干非空子集Di,将Di中实例数最大的
  # 类作为标记,构建子节点,由节点及其子节点构成树T,返回T
  treeDict = {Ag: {}}
  # 特征值为0时,进入0分支
  # getSubDataArr(trainDataList, trainLabelList, Ag, 0):在当前数据集中切割当前feature,返回新的数据集和标签集
  treeDict[Ag][0] = createTree(getSubDataArr(trainDataList, trainLabelList, Ag, 0))
  treeDict[Ag][1] = createTree(getSubDataArr(trainDataList, trainLabelList, Ag, 1))

  return treeDict


def predict(testDataList, tree):
  '''
  预测标签
  :param testDataList:样本
  :param tree: 决策树
  :return: 预测结果
  '''
  # treeDict = copy.deepcopy(tree)

  # 死循环,直到找到一个有效地分类
  while True:
    # 因为有时候当前字典只有一个节点
    # 例如{73: {0: {74:6}}}看起来节点很多,但是对于字典的最顶层来说,只有73一个key,其余都是value
    # 若还是采用for来读取的话不太合适,所以使用下行这种方式读取key和value
    (key, value), = tree.items()
    # 如果当前的value是字典,说明还需要遍历下去
    if type(tree[key]).__name__ == 'dict':
      # 获取目前所在节点的feature值,需要在样本中删除该feature
      # 因为在创建树的过程中,feature的索引值永远是对于当时剩余的feature来设置的
      # 所以需要不断地删除已经用掉的特征,保证索引相对位置的一致性
      dataVal = testDataList[key]
      del testDataList[key]
      # 将tree更新为其子节点的字典
      tree = value[dataVal]
      # 如果当前节点的子节点的值是int,就直接返回该int值
      # 例如{403: {0: 7, 1: {297:7}},dataVal=0
      # 此时上一行tree = value[dataVal],将tree定位到了7,而7不再是一个字典了,
      # 这里就可以直接返回7了,如果tree = value[1],那就是一个新的子节点,需要继续遍历下去
      if type(tree).__name__ == 'int':
        # 返回该节点值,也就是分类值
        return tree
    else:
      # 如果当前value不是字典,那就返回分类值
      return value


def accuracy(testDataList, testLabelList, tree):
  '''
  测试准确率
  :param testDataList:待测试数据集
  :param testLabelList: 待测试标签集
  :param tree: 训练集生成的树
  :return: 准确率
  '''
  # 错误次数计数
  errorCnt = 0
  # 遍历测试集中每一个测试样本
  for i in range(len(testDataList)):
    # 判断预测与标签中结果是否一致
    if testLabelList[i] != predict(testDataList[i], tree):
      errorCnt += 1
  # 返回准确率
  return 1 - errorCnt / len(testDataList)


if __name__ == '__main__':
  # 开始时间
  start = time.time()

  # 获取训练集
  trainDataList, trainLabelList = loadData('../Mnist/mnist_train.csv')
  # 获取测试集
  testDataList, testLabelList = loadData('../Mnist/mnist_test.csv')

  # 创建决策树
  print('start create tree')
  tree = createTree((trainDataList, trainLabelList))
  print('tree is:', tree)

  # 测试准确率
  print('start test')
  accur = accuracy(testDataList, testLabelList, tree)
  print('the accur is:', accur)

  # 结束时间
  end = time.time()
  print('time span:', end - start)

以上就是python 决策树算法的实现的详细内容,更多关于python 决策树算法的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python实现网站文件的全备份和差异备份
Nov 30 Python
Python基于list的append和pop方法实现堆栈与队列功能示例
Jul 24 Python
itchat接口使用示例
Oct 23 Python
Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例
Apr 26 Python
python矩阵的转置和逆转实例
Dec 12 Python
PyQt5实现类似别踩白块游戏
Jan 24 Python
Python八皇后问题解答过程详解
Jul 29 Python
简单了解python中的与或非运算
Sep 18 Python
Python迭代器模块itertools使用原理解析
Dec 11 Python
python实现将json多行数据传入到mysql中使用
Dec 31 Python
Python 模拟生成动态产生验证码图片的方法
Feb 01 Python
python中entry用法讲解
Dec 04 Python
Python+unittest+requests 接口自动化测试框架搭建教程
Oct 09 #Python
Python实现http接口自动化测试的示例代码
Oct 09 #Python
python两种注释用法的示例
Oct 09 #Python
Python实现扫码工具的示例代码
Oct 09 #Python
如何完美的建立一个python项目
Oct 09 #Python
python实现移动木板小游戏
Oct 09 #Python
详解Python中Pyyaml模块的使用
Oct 08 #Python
You might like
Laravel监听数据库访问,打印SQL的例子
2019/10/24 PHP
Javascript 事件流和事件绑定
2009/07/16 Javascript
Jquery 插件开发笔记整理
2011/01/17 Javascript
解决遍历时Array.indexOf产生的性能问题
2012/07/03 Javascript
javascript中常用编程知识
2013/04/08 Javascript
jQuery插件开发详细教程
2014/06/06 Javascript
JS中作用域和变量提升(hoisting)的深入理解
2016/10/31 Javascript
AngularJs导出数据到Excel的示例代码
2017/08/11 Javascript
php main 与 iframe 相互通讯类(js+php同域/跨域)
2017/09/14 Javascript
JS基于递归实现网页版计算器的方法分析
2017/12/20 Javascript
JS计算输出100元钱买100只鸡问题的解决方法
2018/01/04 Javascript
对vuejs的v-for遍历、v-bind动态改变值、v-if进行判断的实例讲解
2018/08/27 Javascript
jQuery 获取除某指定对象外的其他对象 ( :not() 与.not())
2018/10/10 jQuery
解决vue2 在mounted函数无法获取prop中的变量问题
2018/11/15 Javascript
[46:49]完美世界DOTA2联赛PWL S3 access vs Rebirth 第二场 12.19
2020/12/24 DOTA
python基于urllib实现按照百度音乐分类下载mp3的方法
2015/05/25 Python
python导出hive数据表的schema实例代码
2018/01/22 Python
django框架实现一次性上传多个文件功能示例【批量上传】
2019/06/19 Python
python async with和async for的使用
2019/06/20 Python
python打印n位数“水仙花数”(实例代码)
2019/12/25 Python
Python select及selectors模块概念用法详解
2020/06/22 Python
用python写一个带有gui界面的密码生成器
2020/11/06 Python
python抢购软件/插件/脚本附完整源码
2021/03/04 Python
HTML5 Canvas标签使用收录
2009/07/07 HTML / CSS
HTML5播放实现rtmp流直播
2020/06/16 HTML / CSS
美国最大网上鞋店:Zappos
2016/07/25 全球购物
ALEX AND ANI:手镯,项链,耳环和更多
2017/04/20 全球购物
The Beach People美国:澳洲海滨奢华品牌
2018/07/05 全球购物
中学生在校期间的自我评价分享
2013/11/13 职场文书
配件采购员岗位职责
2013/12/03 职场文书
教育局长自荐信范文
2013/12/22 职场文书
职位说明书范文
2014/05/07 职场文书
国际商贸专业自荐信
2014/06/09 职场文书
研讨会通知
2015/04/27 职场文书
uwsgi+nginx代理Django无法访问静态资源的解决
2021/05/10 Servers
Python3.10的一些新特性原理分析
2021/09/15 Python