编程 Python

python使用sklearn实现决策树的方法示例

Posted in Python onSeptember 12, 2019

1. 基本环境

安装 anaconda 环境，由于国内登陆不了他的官网 https://www.continuum.io/downloads, 不过可以使用国内的镜像站点： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

添加绘图工具 Graphviz http://www.graphviz.org/Download_windows.php

安装后，将bin 目录内容添加到环境变量path 即可

参考blog ： https://3water.com/article/169878.htm

官网技术文档： http://scikit-learn.org/stable/modules/tree.html#tree-algorithms-id3-c4-5-c5-0-and-cart

2. 遇到的一些问题

csv 文件读取 https://docs.python.org/3.5/library/csv.html?highlight=csv#module-csv

https://docs.python.org/2/library/csv.html?highlight=csv#module-csv

3. 实现

数据文件：

python使用sklearn实现决策树的方法示例

这是一个给定 4 个属性， age， income， student, credit_rating 以及一个标记属性 class_buys_computer 的数据集，我们需要根据这个数据集进行分析并构建一颗决策树

代码实现：

核心就是调用 tree 的 DecisionTreeClassifier 方法对数据进行训练得到一颗决策树

# -*- coding: utf-8 -*-
"""
Created on Sun Dec 25 11:25:40 2016

@author: Administrator
"""

from sklearn.feature_extraction import DictVectorizer
import csv
from sklearn import tree
from sklearn import preprocessing
from sklearn.externals.six import StringIO
import pydotplus
from IPython.display import Image

# Read in the csv file and put features into list of dict and list of class label
allElectornicsData = open('AllElectronics.csv', 'r')
reader = csv.reader(allElectornicsData)
# headers = reader.next()  python2.7 supported  本质获取csv 文件的第一行数据
#headers = reader.__next__()  python 3.5.2 
headers = next(reader)

print(headers)

featureList = []
labelList = []

for row in reader:
  labelList.append(row[len(row) - 1])
  rowDict = {}
  for i in range(1, len(row) - 1):
    rowDict[headers[i]] = row[i]
  featureList.append(rowDict)

print(featureList)
print(labelList)

# Vetorize features
vec = DictVectorizer()
dummyX = vec.fit_transform(featureList).toarray()

print("dummyX: " + str(dummyX))
print(vec.get_feature_names())
print("labelList: " + str(labelList))

# vectorize class labels
lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(labelList)
print("dummyY: ", str(dummyY))

# Using decision tree for classification    ===========【此处调用为算法核心】============
#clf = tree.DecisionTreeClassifier(criterion='entropy')
clf = tree.DecisionTreeClassifier(criterion='gini')
clf = clf.fit(dummyX, dummyY)
print("clf: ", str(clf))

# Visualize model
# dot -Tpdf iris.dot -o ouput.pdf
with open("allElectronicInformationGainOri.dot", 'w') as f:
  f = tree.export_graphviz(clf, feature_names = vec.get_feature_names(), out_file = f)


# predict
oneRowX = dummyX[0, :]
print("oneRowX: " + str(oneRowX))

newRowX = oneRowX
newRowX[0] = 1
newRowX[2] = 0
print("newRowX: " + str(newRowX))

predictedY = clf.predict(newRowX)
print("predictedY: " + str(predictedY))

输出结果：

ID3 算法

python使用sklearn实现决策树的方法示例

CART 算法

python使用sklearn实现决策树的方法示例

4. 决策树的优缺点

决策树的优势

简单易用，而且输出的结果易于解释，树能够被图形化，加深了直观的理解。
几乎不需要对数据进行预处理。
算法的开销不大，而且决策树一旦建立，对于未知样本的分类十分快，最坏情况下的时间复杂度是O(w),w是树的最大深度。
能够用于多类的分类。
能够容忍噪点。

决策树的劣势

容易过拟合。
容易被类别中占多数的类影响而产生bias，所以推荐在送入算法之间先平衡下数据中各个类别所占的比例。
决策树采用的是自顶向下的递归划分法，因此自定而下到了末端枝叶包含的数据量会很少，我们会依据很少的数据量取做决策，这样的决策是不具有统计意义的，这就是数据碎片的问题。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python使用sklearn实现决策树的方法示例

- Author -

枯萎的海风

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python Web框架Flask中使用百度云存储BCS实例

Feb 08 Python

简介Django框架中可使用的各类缓存

Jul 23 Python

python 全文检索引擎详解

Apr 25 Python

pandas 使用apply同时处理两列数据的方法

Apr 20 Python

Python3实现的字典、列表和json对象互转功能示例

May 22 Python

Python迭代器与生成器基本用法分析

Jul 26 Python

django之跨表查询及添加记录的示例代码

Oct 16 Python

Python基础之条件控制操作示例【if语句】

Mar 23 Python

python3 使用Opencv打开USB摄像头,配置1080P分辨率的操作

Dec 11 Python

python实现滑雪者小游戏

Feb 22 Python

Pytorch 使用opnecv读入图像由HWC转为BCHW格式方式

Jun 02 Python

使用numpy nonzero 找出非0元素

May 14 Python

Python环境Pillow( PIL )图像处理工具使用解析

Sep 12 #Python

Python列表删除元素del、pop()和remove()的区别小结

Sep 11 #Python

python conda操作方法

Sep 11 #Python

多版本python的pip 升级后, pip2 pip3 与python版本失配解决方法

Sep 11 #Python

浅谈Django+Gunicorn+Nginx部署之路

Sep 11 #Python

初次部署django+gunicorn+nginx的方法步骤

Sep 11 #Python

python 如何将数据写入本地txt文本文件的实现方法

Sep 11 #Python

You might like

PHP结合jQuery.autocomplete插件实现输入自动完成提示的功能

2015/04/27 PHP

利用PHP fsockopen 模拟POST/GET传送数据的方法

2015/09/22 PHP

thinkPHP中create方法与令牌验证实例浅析

2015/12/08 PHP

PHP查看SSL证书信息的方法

2016/09/22 PHP

thinkPHP5 tablib标签库自定义方法详解

2017/05/10 PHP

php批量转换文件夹下所有文件编码的函数类

2017/08/06 PHP

PHP简单实现模拟登陆功能示例

2017/09/15 PHP

php判断/计算闰年的方法小结【三种方法】

2019/07/06 PHP

javascript间隔定时器(延时定时器)学习间隔调用和延时调用

2014/01/13 Javascript

JavaScript实现的encode64加密算法实例分析

2015/04/15 Javascript

JavaScript实现Iterator模式实例分析

2015/06/09 Javascript

使用AngularJS处理单选框和复选框的简单方法

2015/06/19 Javascript

基于JS实现的倒计时程序实例

2015/07/24 Javascript

jquery 点击元素后,滚动条滚动至该元素位置的方法

2016/08/05 Javascript

详解使用angular框架离线你的应用（pwa指南）

2019/01/31 Javascript

vue-cli3+ts+webpack实现多入口多出口功能

2019/05/30 Javascript

js实现图片区域可点击大小随意改变(适用移动端)代码实例

2019/09/11 Javascript

js实现简单音乐播放器

2020/06/30 Javascript

[01:14:05]《加油DOTA》第四期

2014/08/25 DOTA

[48:27]EG vs Liquid 2018国际邀请赛淘汰赛BO3 第二场 8.25

2018/08/29 DOTA

[47:52]DOTA2-DPC中国联赛正赛 iG vs LBZS BO3 第二场 3月4日

2021/03/11 DOTA

树莓派中python获取GY-85九轴模块信息示例

2013/12/05 Python

Python自动发邮件脚本

2017/03/31 Python

Pyqt5 实现跳转界面并关闭当前界面的方法

2019/06/19 Python

Wiggle中国：英国骑行、跑步、游泳 & 铁三运动装备专卖网店

2016/08/02 全球购物

Java里面如何把一个Array数组转换成Collection, List

2013/07/26 面试题

专科应届生求职信

2013/11/24 职场文书

小学毕业感言150字

2014/02/05 职场文书

社会学专业求职信

2014/02/24 职场文书

党的群众路线教育实践活动个人对照检查材料

2014/09/22 职场文书

2014年小学德育工作总结

2014/12/05 职场文书

工程项目经理岗位职责

2015/02/02 职场文书

《文化苦旅》读后感：阅读，让人诗意地栖居在大地上

2019/12/24 职场文书

nginx结合openssl实现https的方法

2021/07/25 Servers

Python如何让字典保持有序排列

2022/04/29 Python

springboot为异步任务规划自定义线程池的实现

2022/06/14 Java/Android