编程 Python

python机器学习实现oneR算法(以鸢尾data为例)

Posted in Python onMarch 03, 2022

一、导包与获取数据

以均值为阈值，将大于或等于阈值的特征标记为1，低于阈值的特征标记为0。

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from collections import defaultdict
from operator import itemgetter
import warnings
from sklearn.metrics import classification_report

# 加载内置iris数据，并保存
dataset = load_iris()  
X = dataset.data
y = dataset.target

attribute_means = X.mean(axis=0)  # 得到一个列表，列表元素个数为特征值个数，列表值为每个特征的均值
X_d = np.array(X >= attribute_means, dtype='int')  # 转bool类型

数据到此已获取完毕，接下来将其划分为训练集和测试集。

二、划分为训练集和测试集

使用默认的0.25作为分割比例。即训练集：测试集=3:1。

X_train, X_test, y_train, y_test = train_test_split(X_d, y, random_state=random_state)

数据描述：
本例中共有四个特征，
原数据集有150个样本，分割后训练集有112个数据，测试集有38个数据。
标签一共分为三类，取值可以是0,1,2。

三、定义函数：获取某特征值出现次数最多的类别及错误率

首先遍历特征的每一个取值，对于每一个特征值，统计它在各个类别中出现的次数。
定义一个函数，有以下四个参数：

X, y_true即训练集数据和标签
feature是特征的索引值，可以是0,1,2,3。
value是特征可以有的取值，这里为0,1。

该函数的意义在于，对于训练集数据，对于某个特征，依次遍历样本在该特征的真实取值，判断其是否等于特征的某个可以有的取值 （即value）（以0为例）。如果判定成功，则在字典class_counts中记录，以三个类别（0，1，2）中该样本对应的类别为键值，表示该类别出现的次数加一。

首先得到的字典（class_counts）形如：
{0: x1, 1.0: x2, 2.0:x3}
其中元素不一定是三个
x1：类别0中，某个特征feature的特征值为value（0或1）出现的次数
x2：类别0中，某个特征feature的特征值为value（0或1）出现的次数
x3：类别0中，某个特征feature的特征值为value（0或1）出现的次数

然后将class_counts按照值的大小排序，取出指定特征的特征值出现次数最多的类别：most_frequent_class。
该规则即为：该特征的该特征值出现在其出现次数最多的类别上是合理的，出现在其它类别上是错误的。

最后计算该规则的错误率：error
错误率即 具有该特征的个体在除出现次数最多的类别出现的次数，代表分类规则不适用的个体的数量。

最后返回待预测的个体类别 和 错误率

def train_feature_value(X, y_true, feature, value):
    class_counts = defaultdict(int)
    for sample, y_t in zip(X, y_true):
        if sample[feature] == value:
            class_counts[y_t] += 1
    sorted_class_counts = sorted(class_counts.items(), key=itemgetter(1), reverse=True) # 降序
    most_frequent_class = sorted_class_counts[0][0]
    error = sum([class_count for class_value, class_count in class_counts.items()
                 if class_value != most_frequent_class])
    return most_frequent_class, error

返回值most_frequent_class是一个字典, error是一个数字

四、定义函数：获取每个特征值下出现次数最多的类别、错误率

def train(X, y_true, feature):
    n_samples, n_features = X.shape
    assert 0 <= feature < n_features
    # 获取样本中某特征所有可能的取值
    values = set(X[:, feature])
    predictors = dict()
    errors = []
    for current_value in values:
        most_frequent_class, error = train_feature_value(X, y_true, feature, current_value)
        predictors[current_value] = most_frequent_class
        errors.append(error)
    total_error = sum(errors)
    return predictors, total_error

因为most_frequent_class是一个字典，所以predictors是一个键为特征可以的取值(0和1)，值为字典most_frequent_class的字典。
total_error是一个数字，为每个特征值下的错误率的和。

五、调用函数，获取最佳特征值

all_predictors = {variable: train(X_train, y_train, variable) for variable in range(X_train.shape[1])}
Errors = {variable: error for variable, (mapping, error) in all_predictors.items()}
# 找到错误率最低的特征
best_variable, best_error = sorted(Errors.items(), key=itemgetter(1))[0]  # 升序
print("The best model is based on feature {0} and has error {1:.2f}".format(best_variable, best_error))
# 找到最佳特征值，创建model模型
model = {'variable': best_variable,
         'predictor': all_predictors[best_variable][0]}
print(model)

python机器学习实现oneR算法(以鸢尾data为例)

根据代码运行结果，最佳特征值是特征2（索引值为2的feature，即第三个特征）。

对于初学者这里的代码逻辑比较复杂，可以对变量进行逐个打印查看，阅读blog学习时要盯准字眼，细品其逻辑。

print(all_predictors)
print(all_predictors[best_variable])
print(all_predictors[best_variable][0])

python机器学习实现oneR算法(以鸢尾data为例)

六、测试算法

定义预测函数，对测试集数据进行预测

def predict(X_test, model):
    variable = model['variable']
    predictor = model['predictor']
    y_predicted = np.array([predictor[int(sample[variable])] for sample in X_test])
    return y_predicted

# 对测试集数据进行预测
y_predicted = predict(X_test, model)
print(y_predicted)

预测结果：

python机器学习实现oneR算法(以鸢尾data为例)

# 统计预测准确率
accuracy = np.mean(y_predicted == y_test) * 100
print("The test accuracy is {:.1f}%".format(accuracy))

python机器学习实现oneR算法(以鸢尾data为例)

根据打印结果，该模型预测的准确率可达65.8%，对于只有一条规则的oneR算法而言，结果是比较良好的。到此便实现了oneR算法的一次完整应用。

最后，还可以使用classification_report()方法，传入测试集的真实值和预测值，打印出模型评估报告。

# 屏蔽警告
warnings.filterwarnings("ignore") 
# 打印模型评估报告
print(classification_report(y_test, y_predicted))  # 参数为测试集的真实数据和预测数据

python机器学习实现oneR算法(以鸢尾data为例)

到此这篇关于python机器学习实现oneR算法(以鸢尾data为例)的文章就介绍到这了,更多相关python oneR算法内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python机器学习实现oneR算法(以鸢尾data为例)

- Author -

侯小啾

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用Python的pandas框架操作Excel文件中的数据教程

Mar 31 Python

python中正则的使用指南

Dec 04 Python

深入理解python对json的操作总结

Jan 05 Python

Python生成数字图片代码分享

Oct 31 Python

python生成ppt的方法

Jun 07 Python

对python中的控制条件、循环和跳出详解

Jun 24 Python

Python列表对象实现原理详解

Jul 01 Python

python使用百度文字识别功能方法详解

Jul 23 Python

py-charm延长试用期限实例

Dec 22 Python

Pytorch 多块GPU的使用详解

Dec 31 Python

tensorflow 只恢复部分模型参数的实例

Jan 06 Python

利用python中集合的唯一性实现去重

Feb 11 Python

详解python的异常捕获

Mar 03 #Python

分享提高 Python 代码的可读性的技巧

Mar 03 #Python

使用python创建股票的时间序列可视化分析

Python Pandas读取Excel日期数据的异常处理方法

pytorch中的torch.nn.Conv2d()函数图文详解

Feb 28 #Python

python3中apply函数和lambda函数的使用详解

Feb 28 #Python

你需要掌握的20个Python常用技巧

Feb 28 #Python

You might like

php数组的概述及分类与声明代码演示

2013/02/26 PHP

php中字符查找函数strpos、strrchr与strpbrk用法

2014/11/18 PHP

PHP使用pcntl_fork实现多进程下载图片的方法

2014/12/16 PHP

PHP中imagick函数的中文解释

2015/01/21 PHP

smarty内置函数foreach用法实例

2015/01/22 PHP

php mysql获取表字段名称和字段信息的三种方法

2016/11/13 PHP

laravel通用化的CURD的实现

2019/12/13 PHP

jQuery选中select控件无法设置selected的解决方法

2010/09/01 Javascript

jQuery的链式调用浅析

2010/12/03 Javascript

JQuery 自定义CircleAnimation，Animate方法学习笔记

2011/07/10 Javascript

Google的跟踪代码动态加载js代码方法应用

2012/11/12 Javascript

javasctipt如何显示几分钟前、几天前等

2014/04/30 Javascript

JS实现随机乱撞彩色圆球特效的方法

2015/05/05 Javascript

微信小程序中多个页面传参通信的学习与实践

2017/05/05 Javascript

详解vee-validate的使用个人小结

2017/06/07 Javascript

node使用UEditor富文本编辑器的方法实例

2017/07/11 Javascript

AngularJS 仿微信图片手势缩放的实例

2017/09/28 Javascript

vue实现nav导航栏的方法

2017/12/13 Javascript

原生JS实现获取及修改CSS样式的方法

2018/09/04 Javascript

JavaScript之数组扁平化详解

2019/06/03 Javascript

Python中列表(list)操作方法汇总

2014/08/18 Python

独特的python循环语句

2016/11/20 Python

Python 机器学习库 NumPy入门教程

2018/04/19 Python

python图像处理入门（一）

2019/04/04 Python

Python批量查询关键词微信指数实例方法

2019/06/27 Python

python实现身份证实名认证的方法实例

2019/11/08 Python

基于python求两个列表的并集.交集.差集

2020/02/10 Python

基于Python生成个性二维码过程详解

2020/03/05 Python

降低python版本的操作方法

2020/09/11 Python

公司年会演讲稿范文

2014/01/11 职场文书

出国留学担保书

2014/05/20 职场文书

学校食品安全实施方案

2014/06/14 职场文书

幼儿老师求职信

2014/06/30 职场文书

2014年驻村干部工作总结

2014/11/17 职场文书

2015年幼儿教师个人工作总结

2015/05/20 职场文书

微软官方消息，在 2023 年 4 月 11 日之后微软将不再为 Office 2013 和 Skype for Business 2015 提供安全更新

2022/04/21 数码科技

python机器学习实现oneR算法(以鸢尾data为例)

目录

一、 导包与获取数据

二、划分为训练集和测试集

三、定义函数：获取某特征值出现次数最多的类别及错误率

四、定义函数：获取每个特征值下出现次数最多的类别、错误率

五、调用函数，获取最佳特征值

六、测试算法

一、导包与获取数据