Python 机器学习工具包SKlearn的安装与使用


Posted in Python onMay 14, 2021

1、SKlearn 是什么

  Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包。

  Sklearn 主要用Python编写,建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上,也用 Cython编写了一些核心算法来提高性能。

  Sklearn 包括六大功能模块:

  • 分类(Classification):识别样本属于哪个类别,常用算法有 SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林)
  • 回归(Regression):预测与对象相关联的连续值属性,常用算法有 SVR(支持向量机)、 ridge regression(岭回归)、Lasso
  • 聚类(Clustering):对样本进行无监督的自动分类,常用算法有 k-Means(k均值)、spectral clustering(特征聚类)、mean-shift(均值漂移)
  • 数据降维(Dimensionality reduction):减少相关变量维数,常用算法有 PCA(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(非负矩阵分解)
  • 模型选择(Model Selection):比较,验证,选择参数和模型,常用模块有 grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)
  • 数据处理 (Preprocessing):特征提取和归一化,常用模块有 preprocessing(预处理),feature extraction(特征提取)
  • 这六个功能模块涉及 4类算法,分类、回归 属于监督学习,聚类属于非监督学习。

Python 机器学习工具包SKlearn的安装与使用

  官网地址:https://scikit-learn.org/

  官方文档中文版: https://www.scikitlearn.com.cn/

  内置数据集:https://scikit-learn.org/stable/datasets.html

2、SKlearn 的安装

  Sklearn 的安装要求:Python 3.5 以上版本,需要安装 NumPy、SciPy、Pandas 工具包的支持,部分内容需要使用 Matplotlib、joblib 工具包。

  pip 安装命令:  

pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple

  注意 Sklearn 建议安装 Numpy+mkl,可以在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本,下载后 pip3安装:

pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl

3、SKlearn 内置数据集

  Sklearn 内置了一些标准数据集可以用于练习和测试,都是经常被引用的经典问题,数据网址:https://scikit-learn.org/stable/datasets.html  
  Sklearn 标准数据集主要包括:

测试问题数据集

  • 波士顿房价:Boston house prices dataset
  • 鸢尾花问题:Iris plants dataset
  • 糖尿病数据:Diabetes dataset
  • 手写数字的识别:Optical recognition of handwritten digits dataset
  • 体能训练:Linnerrud dataset
  • 葡萄酒鉴别:Wine recognition dataset
  • 威斯康星州癌症诊断:reast cancer wisconsin (diagnostic) dataset

实际问题数据集

  • 人脸数据:The Olivetti faces dataset
  • 20个新闻文本数据:The 20 newsgroups text dataset
  • 标记的人脸数据:The Labeled Faces in the Wild face recognition dataset
  • 森林覆盖类型:Forest covertypes
  • 路透社新闻数据:RCV1 dataset
  • 网络入侵检测数据:Kddcup 99 dataset
  • 加州住房数据:California Housing dataset

4、Sklearn 数模笔记的计划

  粗略看看 Sklearn 的文档,是一个功能强大和丰富的机器学习库,远远超出了数学建模学习的范围。
  基于数模教学的目的,本系列主要对应数模学习中的分类、聚类、降维问题,并不打算全面讲解 Sklearn 的各种算法,而是以典型问题为例来介绍原理简单、使用广泛的基本方法,以便新手入门。

Python 机器学习工具包SKlearn的安装与使用

以上就是Python 机器学习工具包SKlearn的安装与使用的详细内容,更多关于Python SKlearn的安装与使用的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python、Javascript中的闭包比较
Feb 04 Python
在Django的视图中使用form对象的方法
Jul 18 Python
Python部署web开发程序的几种方法
May 05 Python
Python3.x对JSON的一些操作示例
Sep 01 Python
用Eclipse写python程序
Feb 10 Python
3分钟学会一个Python小技巧
Nov 23 Python
解决PyCharm的Python.exe已经停止工作的问题
Nov 29 Python
python使用pipeline批量读写redis的方法
Feb 18 Python
Python request操作步骤及代码实例
Apr 13 Python
解决pycharm debug时界面下方不出现step等按钮及变量值的问题
Jun 09 Python
python 绘制国旗的示例
Sep 27 Python
Python3 pyecharts生成Html文件柱状图及折线图代码实例
Sep 29 Python
python process模块的使用简介
May 14 #Python
django学习之ajax post传参的2种格式实例
May 14 #Python
Python djanjo之csrf防跨站攻击实验过程
python控制台打印log输出重复的解决方法
聊一聊python常用的编程模块
May 14 #Python
如何获取numpy array前N个最大值
May 14 #Python
使用pandas模块实现数据的标准化操作
You might like
全国FM电台频率大全 - 5 内蒙古自治区
2020/03/11 无线电
php 搜索框提示(自动完成)实例代码
2012/02/05 PHP
php输入流php://input使用浅析
2014/09/02 PHP
PHP如何实现跨域
2016/05/30 PHP
golang与PHP输出excel示例
2016/07/22 PHP
js jquery做的图片连续滚动代码
2008/01/06 Javascript
JS拖动技术 关于setCapture使用
2010/12/09 Javascript
jquery简单实现滚动条下拉DIV固定在头部不动
2013/11/25 Javascript
javascript每日必学之基础入门
2016/02/16 Javascript
AngularJS模板加载用法详解
2016/11/04 Javascript
JS实现颜色梯度与渐变效果完整实例
2016/12/30 Javascript
JavaScript中in和hasOwnProperty区别详解
2017/08/04 Javascript
JavaScript代码判断输入的字符串是否含有特殊字符和表情代码实例
2017/08/17 Javascript
最基础的vue.js双向绑定操作
2017/08/23 Javascript
JS脚本实现网页自动秒杀点击
2018/01/11 Javascript
JavaScript插入排序算法原理与实现方法示例
2018/08/06 Javascript
解决vue同一slot在组件中渲染多次的问题
2018/09/06 Javascript
详解vue 项目白屏解决方案
2018/10/31 Javascript
layui中select,radio设置不生效的解决方法
2019/09/05 Javascript
[06:57]DOTA2-DPC中国联赛 正赛 Ehome vs PSG.LGD 选手采访
2021/03/11 DOTA
python获取指定目录下所有文件名列表的方法
2015/05/20 Python
初步讲解Python中的元组概念
2015/05/21 Python
将Python代码嵌入C++程序进行编写的实例
2015/07/31 Python
tensorflow入门之训练简单的神经网络方法
2018/02/26 Python
Python爬虫实现全国失信被执行人名单查询功能示例
2018/05/03 Python
Python图片转换成矩阵,矩阵数据转换成图片的实例
2018/07/02 Python
django如何连接已存在数据的数据库
2018/08/14 Python
Linux下通过python获取本机ip方法示例
2019/09/06 Python
python滑块验证码的破解实现
2019/11/10 Python
完美解决Django2.0中models下的ForeignKey()问题
2020/05/19 Python
护理毕业生自荐信范文
2013/12/22 职场文书
高校十八大报告感想
2014/01/27 职场文书
《会变的花树叶》教学反思
2014/02/10 职场文书
本科毕业生求职信
2014/06/15 职场文书
先进个人推荐材料
2014/12/29 职场文书
普通员工辞职信范文
2015/05/12 职场文书