编程 Python

python实现决策树分类（2）

Posted in Python onAugust 30, 2018

在上一篇文章中，我们已经构建了决策树，接下来可以使用它用于实际的数据分类。在执行数据分类时，需要决策时以及标签向量。程序比较测试数据和决策树上的数值，递归执行直到进入叶子节点。

这篇文章主要使用决策树分类器就行分类，数据集采用UCI数据库中的红酒，白酒数据，主要特征包括12个，主要有非挥发性酸,挥发性酸度, 柠檬酸, 残糖含量,氯化物, 游离二氧化硫, 总二氧化硫,密度, pH,硫酸盐,酒精, 质量等特征。

下面是具体代码的实现：

#coding :utf-8
'''
2017.6.26 author :Erin 
     function: "decesion tree" ID3
     
'''
import numpy as np
import pandas as pd
from math import log
import operator 
import random
def load_data():
  
  red = [line.strip().split(';') for line in open('e:/a/winequality-red.csv')]
  white = [line.strip().split(';') for line in open('e:/a/winequality-white.csv')]
  data=red+white
  random.shuffle(data) #打乱data
  x_train=data[:800]
  x_test=data[800:]
  
  features=['fixed','volatile','citric','residual','chlorides','free','total','density','pH','sulphates','alcohol','quality']
  return x_train,x_test,features
 
def cal_entropy(dataSet):
 
  
  numEntries = len(dataSet)
  labelCounts = {}
  for featVec in dataSet:
    label = featVec[-1]
    if label not in labelCounts.keys():
      labelCounts[label] = 0
    labelCounts[label] += 1
  entropy = 0.0
  for key in labelCounts.keys():
    p_i = float(labelCounts[key]/numEntries)
    entropy -= p_i * log(p_i,2)#log(x,10)表示以10 为底的对数
  return entropy
 
def split_data(data,feature_index,value):
  '''
  划分数据集
  feature_index：用于划分特征的列数，例如“年龄”
  value:划分后的属性值：例如“青少年”
  '''
  data_split=[]#划分后的数据集
  for feature in data:
    if feature[feature_index]==value:
      reFeature=feature[:feature_index]
      reFeature.extend(feature[feature_index+1:])
      data_split.append(reFeature)
  return data_split
def choose_best_to_split(data):
  
  '''
  根据每个特征的信息增益，选择最大的划分数据集的索引特征
  '''
  
  count_feature=len(data[0])-1#特征个数4
  #print(count_feature)#4
  entropy=cal_entropy(data)#原数据总的信息熵
  #print(entropy)#0.9402859586706309
  
  max_info_gain=0.0#信息增益最大
  split_fea_index = -1#信息增益最大，对应的索引号
 
  for i in range(count_feature):
    
    feature_list=[fe_index[i] for fe_index in data]#获取该列所有特征值
    #######################################
 
    # print(feature_list)
    unqval=set(feature_list)#去除重复
    Pro_entropy=0.0#特征的熵
    for value in unqval:#遍历改特征下的所有属性
      sub_data=split_data(data,i,value)
      pro=len(sub_data)/float(len(data))
      Pro_entropy+=pro*cal_entropy(sub_data)
      #print(Pro_entropy)
      
    info_gain=entropy-Pro_entropy
    if(info_gain>max_info_gain):
      max_info_gain=info_gain
      split_fea_index=i
  return split_fea_index
    
    
##################################################
def most_occur_label(labels):
  #sorted_label_count[0][0] 次数最多的类标签
  label_count={}
  for label in labels:
    if label not in label_count.keys():
      label_count[label]=0
    else:
      label_count[label]+=1
    sorted_label_count = sorted(label_count.items(),key = operator.itemgetter(1),reverse = True)
  return sorted_label_count[0][0]
def build_decesion_tree(dataSet,featnames):
  '''
  字典的键存放节点信息，分支及叶子节点存放值
  '''
  featname = featnames[:]       ################
  classlist = [featvec[-1] for featvec in dataSet] #此节点的分类情况
  if classlist.count(classlist[0]) == len(classlist): #全部属于一类
    return classlist[0]
  if len(dataSet[0]) == 1:     #分完了,没有属性了
    return Vote(classlist)    #少数服从多数
  # 选择一个最优特征进行划分
  bestFeat = choose_best_to_split(dataSet)
  bestFeatname = featname[bestFeat]
  del(featname[bestFeat])   #防止下标不准
  DecisionTree = {bestFeatname:{}}
  # 创建分支,先找出所有属性值,即分支数
  allvalue = [vec[bestFeat] for vec in dataSet]
  specvalue = sorted(list(set(allvalue))) #使有一定顺序
  for v in specvalue:
    copyfeatname = featname[:]
    DecisionTree[bestFeatname][v] = build_decesion_tree(split_data(dataSet,bestFeat,v),copyfeatname)
  return DecisionTree
 
def classify(Tree, featnames, X):
  classLabel=''
  root = list(Tree.keys())[0]
  firstDict = Tree[root]
  featindex = featnames.index(root) #根节点的属性下标
  #classLabel='0'
  for key in firstDict.keys():  #根属性的取值,取哪个就走往哪颗子树
    if X[featindex] == key:
      if type(firstDict[key]) == type({}):
        classLabel = classify(firstDict[key],featnames,X)
      else:
        classLabel = firstDict[key]
  return classLabel
 
  
if __name__ == '__main__':
  x_train,x_test,features=load_data()
  split_fea_index=choose_best_to_split(x_train)
  newtree=build_decesion_tree(x_train,features)
  #print(newtree)
  #classLabel=classify(newtree, features, ['7.4','0.66','0','1.8','0.075','13','40','0.9978','3.51','0.56','9.4','5'] )
  #print(classLabel)
  
  count=0
  for test in x_test:
    label=classify(newtree, features,test)
    
    if(label==test[-1]):
      count=count+1
  acucy=float(count/len(x_test))
  print(acucy)

测试的准确率大概在0.7左右。至此决策树分类算法结束。本文代码地址

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python实现决策树分类（2）

- Author -

momaojia

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现12306火车票查询器

Apr 20 Python

python实现给微信公众号发送消息的方法

Jun 30 Python

Python设计模式之门面模式简单示例

Jan 09 Python

python版opencv摄像头人脸实时检测方法

Aug 03 Python

Python一句代码实现找出所有水仙花数的方法

Nov 13 Python

python处理两种分隔符的数据集方法

Dec 12 Python

python使用if语句实现一个猜拳游戏详解

Aug 27 Python

Python 经典算法100及解析(小结)

Sep 13 Python

Pytorch之view及view_as使用详解

Dec 31 Python

Python pip安装第三方库实现过程解析

Jul 09 Python

Django用内置方法实现简单搜索功能的方法

Dec 18 Python

深度学习小工程练习之垃圾分类详解

Apr 14 Python

python实现决策树分类

Aug 30 #Python

python实现多人聊天室

Mar 31 #Python

Python实现将数据写入netCDF4中的方法示例

Aug 30 #Python

Python使用爬虫抓取美女图片并保存到本地的方法【测试可用】

Aug 30 #Python

Python使用一行代码获取上个月是几月

Aug 30 #Python

Python实现的读取/更改/写入xml文件操作示例

Aug 30 #Python

python实现录音小程序

Oct 26 #Python

You might like

PHP入门速成(2)

2006/10/09 PHP

php+mysql写的简单留言本实例代码

2008/07/25 PHP

Symfony2学习笔记之系统路由详解

2016/03/17 PHP

TP3.2批量上传文件或图片同名冲突问题的解决方法

2017/08/01 PHP

IE图片缓存document.execCommand("BackgroundImageCache",false,true)

2011/03/01 Javascript

基于jQuery实现动态数字展示效果

2015/08/12 Javascript

Bootstrap每天必学之轮播（Carousel）插件

2016/04/25 Javascript

JS中的进制转换以及作用

2016/06/26 Javascript

微信小程序（三）：网络请求

2017/01/13 Javascript

vue中如何实现pdf文件预览的方法

2018/07/12 Javascript

实例详解vue.js浅度监听和深度监听及watch用法

2018/08/16 Javascript

vue.js中使用echarts实现数据动态刷新功能

2019/04/16 Javascript

微信小程序tab左右滑动切换功能的实现代码

2021/02/08 Javascript

[17:36]VG战队纪录片

2014/08/21 DOTA

[04:52]DOTA2亚洲邀请赛附加赛 TOP10精彩集锦

2015/01/29 DOTA

Python中给List添加元素的4种方法分享

2014/11/28 Python

python调用java模块SmartXLS和jpype修改excel文件的方法

2015/04/28 Python

python读取excel表格生成erlang数据

2017/08/26 Python

python thrift搭建服务端和客户端测试程序

2018/01/17 Python

pandas 小数位数精度的处理方法

2018/06/09 Python

Python爬虫实现（伪）球迷速成

2018/06/10 Python

Django restframework 源码分析之认证详解

2019/02/22 Python

python函数的作用域及关键字详解

2019/08/20 Python

Python 操作mysql数据库查询之fetchone(), fetchmany(), fetchall()用法示例

2019/10/17 Python

Python 复平面绘图实例

2019/11/21 Python

pandas factorize实现将字符串特征转化为数字特征

2019/12/19 Python

关于Pytorch的MNIST数据集的预处理详解

2020/01/10 Python

python爬虫开发之Beautiful Soup模块从安装到详细使用方法与实例

2020/03/09 Python

Python函数调用追踪实现代码

2020/11/27 Python

英国知名化妆品网站：Revolution Beauty（原TAM Beauty）

2018/02/28 全球购物

Halston Heritage官网：简洁的日装，稍显奢华的晚装

2018/11/20 全球购物

印度尼西亚手表和包包商店：Urban Icon

2019/12/12 全球购物

《歌唱二小放牛郎》教学反思

2014/04/19 职场文书

三严三实对照检查材料

2014/09/22 职场文书

小学数学教师研修感悟

2015/11/18 职场文书

2016年社区党支部公开承诺书

2016/03/25 职场文书