Python中支持向量机SVM的使用方法详解


Posted in Python onDecember 26, 2017

除了在Matlab中使用PRTools工具箱中的svm算法,Python中一样可以使用支持向量机做分类。因为Python中的sklearn库也集成了SVM算法,本文的运行环境是Pycharm。

一、导入sklearn算法包

Scikit-Learn库已经实现了所有基本机器学习的算法,具体使用详见官方文档说明

skleran中集成了许多算法,其导入包的方式如下所示,

逻辑回归:from sklearn.linear_model import LogisticRegression

       朴素贝叶斯:from sklearn.naive_bayes import GaussianNB

 

K-近邻:from sklearn.neighbors import KNeighborsClassifier

 

决策树:from sklearn.tree import DecisionTreeClassifier

 

支持向量机:from sklearn import svm

 二、sklearn中svc的使用

(1)使用numpy中的loadtxt读入数据文件

loadtxt()的使用方法:

Python中支持向量机SVM的使用方法详解

fname:文件路径。eg:C:/Dataset/iris.txt。

dtype:数据类型。eg:float、str等。

delimiter:分隔符。eg:‘,'。

converters:将数据列与转换函数进行映射的字典。eg:{1:fun},含义是将第2列对应转换函数进行转换。

usecols:选取数据的列。

以Iris兰花数据集为例子:

由于从UCI数据库中下载的Iris原始数据集的样子是这样的,前四列为特征列,第五列为类别列,分别有三种类别Iris-setosa, Iris-versicolor, Iris-virginica。

 

Python中支持向量机SVM的使用方法详解

当使用numpy中的loadtxt函数导入该数据集时,假设数据类型dtype为浮点型,但是很明显第五列的数据类型并不是浮点型。

因此我们要额外做一个工作,即通过loadtxt()函数中的converters参数将第五列通过转换函数映射成浮点类型的数据。

首先,我们要写出一个转换函数:

def iris_type(s):
 it = {'Iris-setosa': 0, 'Iris-versicolor': 1, 'Iris-virginica': 2}
 return it[s]

接下来读入数据,converters={4: iris_type}中“4”指的是第5列:

path = u'D:/f盘/python/学习/iris.data' # 数据文件路径
data = np.loadtxt(path, dtype=float, delimiter=',', converters={4: iris_type})

读入结果:

Python中支持向量机SVM的使用方法详解

(2)将Iris分为训练集与测试集

x, y = np.split(data, (4,), axis=1)
x = x[:, :2]
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1, train_size=0.6)

1. split(数据,分割位置,轴=1(水平分割) or 0(垂直分割))。

2. x = x[:, :2]是为方便后期画图更直观,故只取了前两列特征值向量训练。

3. sklearn.model_selection.train_test_split随机划分训练集与测试集。train_test_split(train_data,train_target,test_size=数字, random_state=0)

参数解释:

train_data:所要划分的样本特征集

train_target:所要划分的样本结果

test_size:样本占比,如果是整数的话就是样本的数量

random_state:是随机数的种子。

随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数。

(3)训练svm分类器

# clf = svm.SVC(C=0.1, kernel='linear', decision_function_shape='ovr')
 clf = svm.SVC(C=0.8, kernel='rbf', gamma=20, decision_function_shape='ovr')
 clf.fit(x_train, y_train.ravel())

 

kernel='linear'时,为线性核,C越大分类效果越好,但有可能会过拟合(defaul C=1)。

kernel='rbf'时(default),为高斯核,gamma值越小,分类界面越连续;gamma值越大,分类界面越“散”,分类效果越好,但有可能会过拟合。

decision_function_shape='ovr'时,为one v rest,即一个类别与其他类别进行划分,

decision_function_shape='ovo'时,为one v one,即将类别两两之间进行划分,用二分类的方法模拟多分类的结果。

(4)计算svc分类器的准确率

print clf.score(x_train, y_train) # 精度
y_hat = clf.predict(x_train)
show_accuracy(y_hat, y_train, '训练集')
print clf.score(x_test, y_test)
y_hat = clf.predict(x_test)
show_accuracy(y_hat, y_test, '测试集')

 结果为:

Python中支持向量机SVM的使用方法详解

如果想查看决策函数,可以通过decision_function()实现

print 'decision_function:\n', clf.decision_function(x_train)
print '\npredict:\n', clf.predict(x_train)

 结果为:

Python中支持向量机SVM的使用方法详解Python中支持向量机SVM的使用方法详解

decision_function中每一列的值代表距离各类别的距离。

(5)绘制图像

1.确定坐标轴范围,x,y轴分别表示两个特征

x1_min, x1_max = x[:, 0].min(), x[:, 0].max() # 第0列的范围
x2_min, x2_max = x[:, 1].min(), x[:, 1].max() # 第1列的范围
x1, x2 = np.mgrid[x1_min:x1_max:200j, x2_min:x2_max:200j] # 生成网格采样点
grid_test = np.stack((x1.flat, x2.flat), axis=1) # 测试点
# print 'grid_test = \n', grid_testgrid_hat = clf.predict(grid_test) 

# 预测分类值grid_hat = grid_hat.reshape(x1.shape) # 使之与输入的形状相同

这里用到了mgrid()函数,该函数的作用这里简单介绍一下:

假设假设目标函数F(x,y)=x+y。x轴范围1~3,y轴范围4~6,当绘制图像时主要分四步进行:

【step1:x扩展】(朝右扩展):

         [1 1 1]

[2 2 2]

[3 3 3]

【step2:y扩展】(朝下扩展):

[4 5 6]

[4 5 6]

[4 5 6]

【step3:定位(xi,yi)】:

[(1,4) (1,5) (1,6)]

[(2,4) (2,5) (2,6)]

[(3,4) (3,5) (3,6)]

【step4:将(xi,yi)代入F(x,y)=x+y】

因此这里x1, x2 = np.mgrid[x1_min:x1_max:200j, x2_min:x2_max:200j]后的结果为:

Python中支持向量机SVM的使用方法详解

再通过stack()函数,axis=1,生成测试点

Python中支持向量机SVM的使用方法详解

2.指定默认字体

mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

3.绘制

cm_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0', '#A0A0FF'])
cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])
plt.pcolormesh(x1, x2, grid_hat, cmap=cm_light)
plt.scatter(x[:, 0], x[:, 1], c=y, edgecolors='k', s=50, cmap=cm_dark) # 样本
plt.scatter(x_test[:, 0], x_test[:, 1], s=120, facecolors='none', zorder=10) # 圈中测试集样本
plt.xlabel(u'花萼长度', fontsize=13)
plt.ylabel(u'花萼宽度', fontsize=13)
plt.xlim(x1_min, x1_max)
plt.ylim(x2_min, x2_max)
plt.title(u'鸢尾花SVM二特征分类', fontsize=15)
# plt.grid()
plt.show()

pcolormesh(x,y,z,cmap)这里参数代入x1,x2,grid_hat,cmap=cm_light绘制的是背景。

scatter中edgecolors是指描绘点的边缘色彩,s指描绘点的大小,cmap指点的颜色。

xlim指图的边界。

最终结果为:

Python中支持向量机SVM的使用方法详解

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解Django中的权限和组以及消息
Jul 23 Python
Python socket网络编程TCP/IP服务器与客户端通信
Jan 05 Python
python绘制直线的方法
Jun 30 Python
基于python实现聊天室程序
Jul 27 Python
浅谈Python traceback的优雅处理
Aug 31 Python
Python数据可视化库seaborn的使用总结
Jan 15 Python
对Python Class之间函数的调用关系详解
Jan 23 Python
python rsync服务器之间文件夹同步脚本
Aug 29 Python
Python大数据之使用lxml库解析html网页文件示例
Nov 16 Python
python数据库操作mysql:pymysql、sqlalchemy常见用法详解
Mar 30 Python
使用python画出逻辑斯蒂映射(logistic map)中的分叉图案例
Dec 11 Python
10个python爬虫入门基础代码实例 + 1个简单的python爬虫完整实例
Dec 16 Python
详解python中的 is 操作符
Dec 26 #Python
matplotlib简介,安装和简单实例代码
Dec 26 #Python
Python中xrange与yield的用法实例分析
Dec 26 #Python
Python简单计算数组元素平均值的方法示例
Dec 26 #Python
Python爬虫获取整个站点中的所有外部链接代码示例
Dec 26 #Python
Python之web模板应用
Dec 26 #Python
通过python+selenium3实现浏览器刷简书文章阅读量
Dec 26 #Python
You might like
smarty的保留变量问题
2008/10/23 PHP
PHP实现Javascript中的escape及unescape函数代码分享
2015/02/10 PHP
PHP+Ajax实现的无刷新分页功能详解【附demo源码下载】
2017/07/03 PHP
php实现姓名根据首字母排序的类与方法(实例代码)
2018/05/16 PHP
JS.GetAllChild(element,deep,condition)使用介绍
2013/09/21 Javascript
js中cookie的添加、取值、删除示例代码
2013/10/21 Javascript
全系IE支持Bootstrap的解决方法
2015/10/19 Javascript
详解JavaScript操作HTML DOM的基本方式
2015/10/21 Javascript
分享两款带遮罩的jQuery弹出框
2015/12/30 Javascript
JavaScript根据CSS的Media Queries来判断浏览设备的方法
2016/05/10 Javascript
详解JavaScript节流函数中的Throttle
2016/07/16 Javascript
可输入文字查找ajax下拉框控件 ComBox的实现方法
2016/10/25 Javascript
Vue条件循环判断+计算属性+绑定样式v-bind的实例
2018/09/18 Javascript
使用canvas实现一个vue弹幕组件功能
2018/11/30 Javascript
详解小程序开发经验:多页面数据同步
2019/05/18 Javascript
bootstrap Table实现合并相同行
2019/07/19 Javascript
详解JS预解析原理
2020/06/16 Javascript
vue 导航锚点_点击平滑滚动,导航栏对应变化详解
2020/08/10 Javascript
解决vue+webpack项目接口跨域出现的问题
2020/08/10 Javascript
JS性能优化实现方法及优点进行
2020/08/30 Javascript
JavaScript 获取滚动条位置并将页面滑动到锚点
2021/02/08 Javascript
简单说明Python中的装饰器的用法
2015/04/24 Python
遍历python字典几种方法总结(推荐)
2016/09/11 Python
基于Python实现的微信好友数据分析
2018/02/26 Python
Python使用分布式锁的代码演示示例
2018/07/30 Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
2018/12/19 Python
python根据时间获取周数代码实例
2019/09/30 Python
如何更改 pandas dataframe 中两列的位置
2019/12/27 Python
Python解释器以及PyCharm的安装教程图文详解
2020/02/26 Python
一文了解python 3 字符串格式化 F-string 用法
2020/03/04 Python
Scrapy框架介绍之Puppeteer渲染的使用
2020/06/19 Python
HTML5基于flash实现播放RTMP协议视频的示例代码
2020/12/04 HTML / CSS
伦敦著名的运动鞋综合商店:Footpatrol
2019/03/25 全球购物
八一建军节部队活动方案
2014/02/04 职场文书
最美护士演讲稿
2014/08/27 职场文书
浅谈PHP7中的一些小技巧
2021/05/29 PHP