编程 Python

python sklearn包——混淆矩阵、分类报告等自动生成方式

Posted in Python onFebruary 28, 2020

preface：做着最近的任务，对数据处理，做些简单的提特征，用机器学习算法跑下程序得出结果，看看哪些特征的组合较好，这一系列流程必然要用到很多函数，故将自己常用函数记录上。应该说这些函数基本上都会用到，像是数据预处理，处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果，得出报告。

1.输入

从数据集开始，提取特征转化为有标签的数据集，转为向量。拆分成训练集和测试集，这里不多讲，在上一篇博客中谈到用StratifiedKFold()函数即可。在训练集中有data和target开始。

2.处理

def my_preprocessing(train_data):
  from sklearn import preprocessing
  X_normalized = preprocessing.normalize(train_data ,norm = "l2",axis=0)#使用l2范式，对特征列进行正则
  return X_normalized
 
def my_feature_selection(data, target):
  from sklearn.feature_selection import SelectKBest
  from sklearn.feature_selection import chi2
  data_new = SelectKBest(chi2, k= 50).fit_transform(data,target)
  return data_new
 
def my_PCA(data):#data without target, just train data, withou train target.
  from sklearn import decomposition
  pca_sklearn = decomposition.PCA()
  pca_sklearn.fit(data)
  main_var = pca_sklearn.explained_variance_
  print sum(main_var)*0.9
  import matplotlib.pyplot as plt
  n = 15
  plt.plot(main_var[:n])
  plt.show()
 
def clf_train(data,target):
  from sklearn import svm
  #from sklearn.linear_model import LogisticRegression
  clf = svm.SVC(C=100,kernel="rbf",gamma=0.001)
  clf.fit(data,target)
 
  #clf_LR = LogisticRegression()
  #clf_LR.fit(x_train, y_train)
  #y_pred_LR = clf_LR.predict(x_test)
  return clf
 
def my_confusion_matrix(y_true, y_pred):
  from sklearn.metrics import confusion_matrix
  labels = list(set(y_true))
  conf_mat = confusion_matrix(y_true, y_pred, labels = labels)
  print "confusion_matrix(left labels: y_true, up labels: y_pred):"
  print "labels\t",
  for i in range(len(labels)):
    print labels[i],"\t",
  print 
  for i in range(len(conf_mat)):
    print i,"\t",
    for j in range(len(conf_mat[i])):
      print conf_mat[i][j],'\t',
    print 
  print 
 
def my_classification_report(y_true, y_pred):
  from sklearn.metrics import classification_report
  print "classification_report(left: labels):"
  print classification_report(y_true, y_pred)

my_preprocess()函数：

主要使用sklearn的preprocessing函数中的normalize()函数，默认参数为l2范式，对特征列进行正则处理。即每一个样例，处理标签，每行的平方和为1.

my_feature_selection()函数：

使用sklearn的feature_selection函数中SelectKBest()函数和chi2()函数，若是用词袋提取了很多维的稀疏特征，有必要使用卡方选取前k个有效的特征。

my_PCA()函数：

主要用来观察前多少个特征是主要特征，并且画图。看看前多少个特征占据主要部分。

clf_train()函数：

可用多种机器学习算法，如SVM, LR, RF, GBDT等等很多，其中像SVM需要调参数的，有专门调试参数的函数如StratifiedKFold()（见前几篇博客）。以达到最优。

my_confusion_matrix()函数：

主要是针对预测出来的结果，和原来的结果对比，算出混淆矩阵，不必自己计算。其对每个类别的混淆矩阵都计算出来了，并且labels参数默认是排序了的。

my_classification_report()函数：

主要通过sklearn.metrics函数中的classification_report()函数，针对每个类别给出详细的准确率、召回率和F-值这三个参数和宏平均值，用来评价算法好坏。另外ROC曲线的话，需要是对二分类才可以。多类别似乎不行。

主要参考sklearn官网

补充拓展：[sklearn] 混淆矩阵——多分类预测结果统计

调用的函数：confusion_matrix(typeTrue, typePred)

typeTrue：实际类别，list类型

typePred：预测类别，list类型

结果如下面的截图：

第i行：实际为第i类，预测到各个类的样本数

第j列：预测为第j类，实际为各个类的样本数

true↓ predict→

python sklearn包——混淆矩阵、分类报告等自动生成方式

以上这篇python sklearn包——混淆矩阵、分类报告等自动生成方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python sklearn包——混淆矩阵、分类报告等自动生成方式

- Author -

无限大地NLP_空木

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

从零学python系列之浅谈pickle模块封装和拆封数据对象的方法

May 23 Python

Python中使用PDB库调试程序

Apr 05 Python

Python import用法以及与from...import的区别

May 28 Python

Python解析并读取PDF文件内容的方法

May 08 Python

python3.6数独问题的解决

Jan 21 Python

浅谈Python批处理文件夹中的txt文件

Mar 11 Python

Pandas之groupby( )用法笔记小结

Jul 23 Python

python SVD压缩图像的实现代码

Nov 05 Python

python使用Word2Vec进行情感分析解析

Jul 31 Python

python中str内置函数用法总结

Dec 27 Python

Django + Taro 前后端分离项目实现企业微信登录功能

Apr 07 Python

Python+SeaTable实现计算两个日期间的工作日天数

Jul 07 Python

python GUI库图形界面开发之PyQt5计数器控件QSpinBox详细使用方法与实例

Feb 28 #Python

python GUI库图形界面开发之PyQt5切换按钮控件QPushButton详细使用方法与实例

Feb 28 #Python

浅谈ROC曲线的最佳阈值如何选取

Feb 28 #Python

python GUI库图形界面开发之PyQt5多行文本框控件QTextEdit详细使用方法实例

Feb 28 #Python

python GUI库图形界面开发之PyQt5单选按钮控件QRadioButton详细使用方法与实例

Feb 28 #Python

python GUI库图形界面开发之PyQt5复选框控件QCheckBox详细使用方法与实例

Feb 28 #Python

Python post请求实现代码实例

Feb 28 #Python

You might like

非常好的php目录导航文件代码

2006/10/09 PHP

php 删除记录实现代码

2009/03/12 PHP

php中使用临时表查询数据的一个例子

2013/02/03 PHP

linux下安装php的memcached客户端

2014/08/03 PHP

Thinkphp和Bootstrap结合打造个性的分页样式(推荐)

2016/08/01 PHP

PHP实现网页内容html标签补全和过滤的方法小结【2种方法】

2017/04/27 PHP

Laravel访问出错提示：`Warning: require(/vendor/autoload.php): failed to open stream: No such file or di解决方法

2019/04/02 PHP

JavaScript this 深入理解

2009/07/30 Javascript

jquery 关键字“拖曳搜索”之“拖曳”以及图片“提示自适应放大”效果的实现

2010/04/18 Javascript

利用Jquery实现可多选的下拉框

2014/02/21 Javascript

JavaScript利用append添加元素报错的解决方法

2014/07/01 Javascript

鼠标悬浮显示二级菜单效果的jquery实现

2014/10/29 Javascript

JS数组array元素的添加和删除方法代码实例

2015/06/01 Javascript

jQuery控制li上下循环滚动插件用法实例(附demo源码下载)

2016/05/28 Javascript

详解JavaScript的内置对象

2016/12/07 Javascript

Ionic 2 实现列表滑动删除按钮的方法

2017/01/22 Javascript

详解vue-cli快速构建项目以及引入bootstrap、jq

2017/05/26 Javascript

详解A标签中href=""的几种用法

2017/08/20 Javascript

vue如何通过id从列表页跳转到对应的详情页

2018/05/01 Javascript

使用Angular-CLI构建NPM包的方法

2018/09/07 Javascript

Vue源码探究之状态初始化

2018/11/14 Javascript

[46:20]TFT vs Secret Supermajor小组赛C组 BO3 第二场 6.3

2018/06/04 DOTA

[39:08]完美世界DOTA2联赛PWL S3 LBZS vs CPG 第一场 12.12

2020/12/16 DOTA

Python使用pyh生成HTML文档的方法示例

2018/03/10 Python

python使用minimax算法实现五子棋

2019/07/29 Python

PYTHON EVAL的用法及注意事项解析

2019/09/06 Python

python 监测内存和cpu的使用率实例

2019/11/28 Python

pytorch实现CNN卷积神经网络

2020/02/19 Python

Python之Matplotlib文字与注释的使用方法

2020/06/18 Python

使用JS+CSS3技术：让你的名字动起来

2013/04/27 HTML / CSS

亿阳信通股份有限公司笔试题(C#)

2016/03/04 面试题

大一自我鉴定范文

2013/12/27 职场文书

公司周年庆典邀请函

2014/01/12 职场文书

基层党员公开承诺书

2014/05/29 职场文书

小学校园广播稿

2015/08/18 职场文书

导游词之南京莫愁湖公园

2019/11/13 职场文书