编程 Python

对sklearn的使用之数据集的拆分与训练详解(python3.6)

Posted in Python onDecember 14, 2018

研修课上讲了两个例子，融合一下。

主要演示大致的过程：

导入->拆分->训练->模型报告

以及几个重要问题：

①标签二值化

②网格搜索法调参

③k折交叉验证

④增加噪声特征（之前涉及）

from sklearn import datasets
#从cross_validation导入会出现warning，说已弃用
from sklearn.model_selection import train-test_split
from sklearn.grid_search import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.svm import SVC
import sklearn.exceptioins
#导入鸢尾花数据集
iris = datasets.load_iris()
#将数据集拆分为训练集和测试集各一半
#其中X为数据特征（花萼、花瓣的高度宽度），为150*4的矩阵
#Y为鸢尾花种类（0, 1, 2三种），为150*1矩阵
#如果使用标签二值化， 将0, 1, 2表示为100 010 001
#使用y.label_binarize(y, classes[0, 1, 2]),变为150*3矩阵
X_train, X_test, y_train, y_test = train_test_split(
iris.data, iris.target, test_size=0.5, random_state=0)
#set the parameters by cross_validation
turn_parameters = [{'kernel' : ['rbf', 'gamma' : [1e-3, 1e - 4, 'C':[1,10,100,1000]}, 
{'kernel':['linear'], 'C':[1,10,100,1000]}
]
#clf分离器
#使用网格搜索法调超参数
#训练集做5折交叉验证
clf = GridSearchCV(SVC(C=1), turned_parameters, cv=5, scoring='%s_weighted' % score)
#用前一半train数据再做5折交叉验证
#因为之前的train_test_split已经分割为2份了
#fit-拟合
clf.fit(X_train, y_train)
#超参数
print(clf.best_params_)
#得分
for params, mean_score, scores in clf.gird_scores_:
 print("%.3f (+/-%.0.03f) for %r" % (mean_score, scores.std()*1.96,params))
#分类报告
y_true, y_pred = y_test, clf.predict(X_test)
print(classification_report(y_true, y_pred))

以上这篇对sklearn的使用之数据集的拆分与训练详解(python3.6)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

对sklearn的使用之数据集的拆分与训练详解(python3.6)

- Author -

子耶

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现获取磁盘剩余空间的2种方法

Jun 07 Python

python3 发送任意文件邮件的实例

Jan 23 Python

Python中多个数组行合并及列合并的方法总结

Apr 12 Python

python实现列表的排序方法分享

Jul 01 Python

Django框架视图介绍与使用详解

Jul 18 Python

这可能是最好玩的python GUI入门实例(推荐)

Jul 19 Python

python os.path.isfile 的使用误区详解

Nov 29 Python

完美解决pyinstaller打包报错找不到依赖pypiwin32或pywin32-ctypes的错误

Apr 01 Python

Python 实现自动登录+点击+滑动验证功能

Jun 10 Python

python属于解释型语言么

Jun 15 Python

Python selenium爬取微信公众号文章代码详解

Aug 12 Python

python使用shell脚本创建kafka连接器

Apr 29 Python

python列表list保留顺序去重的实例

Dec 14 #Python

Python机器学习之scikit-learn库中KNN算法的封装与使用方法

Dec 14 #Python

Python面向对象之类的内置attr属性示例

Dec 14 #Python

python模糊图片过滤的方法

Dec 14 #Python

python 随机打乱图片和对应的标签方法

Dec 14 #Python

对python打乱数据集中X,y标签对的方法详解

Dec 14 #Python

Python实现带参数的用户验证功能装饰器示例

Dec 14 #Python