编程 Python

Python中支持向量机SVM的使用方法详解

Posted in Python onDecember 26, 2017

除了在Matlab中使用PRTools工具箱中的svm算法，Python中一样可以使用支持向量机做分类。因为Python中的sklearn库也集成了SVM算法，本文的运行环境是Pycharm。

一、导入sklearn算法包

Scikit-Learn库已经实现了所有基本机器学习的算法，具体使用详见官方文档说明

skleran中集成了许多算法，其导入包的方式如下所示，

逻辑回归：from sklearn.linear_model import LogisticRegression

朴素贝叶斯：from sklearn.naive_bayes import GaussianNB

K-近邻：from sklearn.neighbors import KNeighborsClassifier

决策树：from sklearn.tree import DecisionTreeClassifier

支持向量机：from sklearn import svm

二、sklearn中svc的使用

（1）使用numpy中的loadtxt读入数据文件

loadtxt()的使用方法：

Python中支持向量机SVM的使用方法详解

fname:文件路径。eg：C:/Dataset/iris.txt。

dtype：数据类型。eg：float、str等。

delimiter：分隔符。eg：‘，'。

converters：将数据列与转换函数进行映射的字典。eg：{1:fun}，含义是将第2列对应转换函数进行转换。

usecols：选取数据的列。

以Iris兰花数据集为例子：

由于从UCI数据库中下载的Iris原始数据集的样子是这样的，前四列为特征列，第五列为类别列，分别有三种类别Iris-setosa， Iris-versicolor， Iris-virginica。

Python中支持向量机SVM的使用方法详解

当使用numpy中的loadtxt函数导入该数据集时，假设数据类型dtype为浮点型，但是很明显第五列的数据类型并不是浮点型。

因此我们要额外做一个工作，即通过loadtxt()函数中的converters参数将第五列通过转换函数映射成浮点类型的数据。

首先，我们要写出一个转换函数：

def iris_type(s):
 it = {'Iris-setosa': 0, 'Iris-versicolor': 1, 'Iris-virginica': 2}
 return it[s]

接下来读入数据，converters={4: iris_type}中“4”指的是第5列：

path = u'D:/f盘/python/学习/iris.data' # 数据文件路径
data = np.loadtxt(path, dtype=float, delimiter=',', converters={4: iris_type})

读入结果：

Python中支持向量机SVM的使用方法详解

（2）将Iris分为训练集与测试集

x, y = np.split(data, (4,), axis=1)
x = x[:, :2]
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1, train_size=0.6)

1. split(数据，分割位置，轴=1（水平分割） or 0（垂直分割）)。

2. x = x[:, :2]是为方便后期画图更直观，故只取了前两列特征值向量训练。

3. sklearn.model_selection.train_test_split随机划分训练集与测试集。train_test_split(train_data,train_target,test_size=数字, random_state=0)

参数解释：

train_data：所要划分的样本特征集

train_target：所要划分的样本结果

test_size：样本占比，如果是整数的话就是样本的数量

random_state：是随机数的种子。

随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。随机数的产生取决于种子，随机数和种子之间的关系遵从以下两个规则：种子不同，产生不同的随机数；种子相同，即使实例不同也产生相同的随机数。

（3）训练svm分类器

# clf = svm.SVC(C=0.1, kernel='linear', decision_function_shape='ovr')
 clf = svm.SVC(C=0.8, kernel='rbf', gamma=20, decision_function_shape='ovr')
 clf.fit(x_train, y_train.ravel())

kernel='linear'时，为线性核，C越大分类效果越好，但有可能会过拟合（defaul C=1）。

kernel='rbf'时（default），为高斯核，gamma值越小，分类界面越连续；gamma值越大，分类界面越“散”，分类效果越好，但有可能会过拟合。

decision_function_shape='ovr'时，为one v rest，即一个类别与其他类别进行划分，

decision_function_shape='ovo'时，为one v one，即将类别两两之间进行划分，用二分类的方法模拟多分类的结果。

（4）计算svc分类器的准确率

print clf.score(x_train, y_train) # 精度
y_hat = clf.predict(x_train)
show_accuracy(y_hat, y_train, '训练集')
print clf.score(x_test, y_test)
y_hat = clf.predict(x_test)
show_accuracy(y_hat, y_test, '测试集')

结果为：

Python中支持向量机SVM的使用方法详解

如果想查看决策函数，可以通过decision_function()实现

print 'decision_function:\n', clf.decision_function(x_train)
print '\npredict:\n', clf.predict(x_train)

结果为：

Python中支持向量机SVM的使用方法详解

decision_function中每一列的值代表距离各类别的距离。

（5）绘制图像

1.确定坐标轴范围，x，y轴分别表示两个特征

x1_min, x1_max = x[:, 0].min(), x[:, 0].max() # 第0列的范围
x2_min, x2_max = x[:, 1].min(), x[:, 1].max() # 第1列的范围
x1, x2 = np.mgrid[x1_min:x1_max:200j, x2_min:x2_max:200j] # 生成网格采样点
grid_test = np.stack((x1.flat, x2.flat), axis=1) # 测试点
# print 'grid_test = \n', grid_testgrid_hat = clf.predict(grid_test) 

# 预测分类值grid_hat = grid_hat.reshape(x1.shape) # 使之与输入的形状相同

这里用到了mgrid()函数，该函数的作用这里简单介绍一下：

假设假设目标函数F（x，y）=x+y。x轴范围1~3，y轴范围4~6，当绘制图像时主要分四步进行：

【step1：x扩展】(朝右扩展)：

[1 1 1]

[2 2 2]

[3 3 3]

【step2：y扩展】(朝下扩展)：

[4 5 6]

【step3：定位（xi，yi）】：

[(1,4) (1,5) (1,6)]

[(2,4) (2,5) (2,6)]

[(3,4) (3,5) (3,6)]

【step4：将（xi，yi）代入F(x,y)=x+y】

因此这里x1, x2 = np.mgrid[x1_min:x1_max:200j, x2_min:x2_max:200j]后的结果为：

Python中支持向量机SVM的使用方法详解

再通过stack()函数，axis=1，生成测试点

Python中支持向量机SVM的使用方法详解

2.指定默认字体

mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

3.绘制

cm_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0', '#A0A0FF'])
cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])
plt.pcolormesh(x1, x2, grid_hat, cmap=cm_light)
plt.scatter(x[:, 0], x[:, 1], c=y, edgecolors='k', s=50, cmap=cm_dark) # 样本
plt.scatter(x_test[:, 0], x_test[:, 1], s=120, facecolors='none', zorder=10) # 圈中测试集样本
plt.xlabel(u'花萼长度', fontsize=13)
plt.ylabel(u'花萼宽度', fontsize=13)
plt.xlim(x1_min, x1_max)
plt.ylim(x2_min, x2_max)
plt.title(u'鸢尾花SVM二特征分类', fontsize=15)
# plt.grid()
plt.show()

pcolormesh(x,y,z,cmap)这里参数代入x1，x2，grid_hat，cmap=cm_light绘制的是背景。

scatter中edgecolors是指描绘点的边缘色彩，s指描绘点的大小，cmap指点的颜色。

xlim指图的边界。

最终结果为：

Python中支持向量机SVM的使用方法详解

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python中支持向量机SVM的使用方法详解

- Author -

陆瑶

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中的getopt函数使用详解

Jul 28 Python

深入讲解Java编程中类的生命周期

Feb 05 Python

深入解析Python中的descriptor描述器的作用及用法

Jun 27 Python

python executemany的使用及注意事项

Mar 13 Python

python看某个模块的版本方法

Oct 16 Python

python抓取京东小米8手机配置信息

Nov 13 Python

Python CVXOPT模块安装及使用解析

Aug 01 Python

Python 使用 PyMysql、DBUtils 创建连接池提升性能

Aug 14 Python

python读取Excel表格文件的方法

Sep 02 Python

详解Python Opencv和PIL读取图像文件的差别

Dec 27 Python

使用Keras构造简单的CNN网络实例

Jun 29 Python

python 装饰器的实际作用有哪些

Sep 07 Python

详解python中的 is 操作符

Dec 26 #Python

matplotlib简介,安装和简单实例代码

Dec 26 #Python

Python中xrange与yield的用法实例分析

Dec 26 #Python

Python简单计算数组元素平均值的方法示例

Dec 26 #Python

Python爬虫获取整个站点中的所有外部链接代码示例

Dec 26 #Python

Python之web模板应用

Dec 26 #Python

通过python+selenium3实现浏览器刷简书文章阅读量

Dec 26 #Python

You might like

web目录下不应该存在多余的程序(安全考虑)

2012/05/09 PHP

Laravel如何自定义command命令浅析

2019/03/23 PHP

HR vs ForZe BO3 第一场 2.13

2021/03/10 DOTA

jQuery中add实现同时选择两个id对象

2010/10/22 Javascript

JS中如何判断传过来的JSON数据中是否存在某字段

2014/08/18 Javascript

jquery动态改变div宽度和高度

2015/02/09 Javascript

JavaScript 变量、作用域及内存

2015/04/08 Javascript

举例详解JavaScript中Promise的使用

2015/06/24 Javascript

JS基于cookie实现来宾统计记录访客信息的方法

2015/08/04 Javascript

浅谈JavaScript 标准对象

2016/06/02 Javascript

js删除数组元素、清空数组的简单方法(必看)

2016/07/27 Javascript

jQuery层次选择器用法示例

2016/09/09 Javascript

JS表单验证方法实例小结【电话、身份证号、Email、中文、特殊字符、身份证号等】

2017/02/14 Javascript

Javascript 详解封装from表单数据为json串进行ajax提交

2017/03/29 Javascript

jQuery Collapse1.1.0折叠插件简单使用

2017/08/28 jQuery

对类Vue的MVVM前端库的实现代码

2018/09/07 Javascript

在微信小程序中渲染HTML内容3种解决方案及分析与问题解决

2020/01/12 Javascript

vue v-for 点击当前行,获取当前行数据及event当前事件对象的操作

2020/09/10 Javascript

在elementui中Notification组件添加点击事件实例

2020/11/11 Javascript

OpenCV2.3.1+Python2.7.3+Numpy等的配置解析

2018/01/05 Python

Python实现将数据框数据写入mongodb及mysql数据库的方法

2018/04/02 Python

python3.X 抓取火车票信息【修正版】

2018/06/19 Python

浅谈Django的缓存机制

2018/08/23 Python

Python pandas实现excel工作表合并功能详解

2019/08/29 Python

pyenv虚拟环境管理python多版本和软件库的方法

2019/12/26 Python

Python txt文件常用读写操作代码实例

2020/08/03 Python

HTML5 Canvas玩转酷炫大波浪进度图效果实例（附demo）

2016/12/14 HTML / CSS

西班牙英格列斯百货官网：El Corte Inglés

2016/09/25 全球购物

施华洛世奇意大利官网：SWAROVSKI意大利

2018/07/23 全球购物

俄罗斯在线水暖商店：Perfecto.ru

2019/10/25 全球购物

美国购买舞会礼服网站：Couture Candy

2019/12/29 全球购物

开学典礼主持词

2014/03/19 职场文书

门前三包责任书

2014/04/15 职场文书

学校教师读书活动总结

2014/07/08 职场文书

结婚保证书（卖身契）

2015/02/26 职场文书

2016年教师学习廉政准则心得体会

2016/01/20 职场文书