Python 机器学习工具包SKlearn的安装与使用


Posted in Python onMay 14, 2021

1、SKlearn 是什么

  Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包。

  Sklearn 主要用Python编写,建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上,也用 Cython编写了一些核心算法来提高性能。

  Sklearn 包括六大功能模块:

  • 分类(Classification):识别样本属于哪个类别,常用算法有 SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林)
  • 回归(Regression):预测与对象相关联的连续值属性,常用算法有 SVR(支持向量机)、 ridge regression(岭回归)、Lasso
  • 聚类(Clustering):对样本进行无监督的自动分类,常用算法有 k-Means(k均值)、spectral clustering(特征聚类)、mean-shift(均值漂移)
  • 数据降维(Dimensionality reduction):减少相关变量维数,常用算法有 PCA(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(非负矩阵分解)
  • 模型选择(Model Selection):比较,验证,选择参数和模型,常用模块有 grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)
  • 数据处理 (Preprocessing):特征提取和归一化,常用模块有 preprocessing(预处理),feature extraction(特征提取)
  • 这六个功能模块涉及 4类算法,分类、回归 属于监督学习,聚类属于非监督学习。

Python 机器学习工具包SKlearn的安装与使用

  官网地址:https://scikit-learn.org/

  官方文档中文版: https://www.scikitlearn.com.cn/

  内置数据集:https://scikit-learn.org/stable/datasets.html

2、SKlearn 的安装

  Sklearn 的安装要求:Python 3.5 以上版本,需要安装 NumPy、SciPy、Pandas 工具包的支持,部分内容需要使用 Matplotlib、joblib 工具包。

  pip 安装命令:  

pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple

  注意 Sklearn 建议安装 Numpy+mkl,可以在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本,下载后 pip3安装:

pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl

3、SKlearn 内置数据集

  Sklearn 内置了一些标准数据集可以用于练习和测试,都是经常被引用的经典问题,数据网址:https://scikit-learn.org/stable/datasets.html  
  Sklearn 标准数据集主要包括:

测试问题数据集

  • 波士顿房价:Boston house prices dataset
  • 鸢尾花问题:Iris plants dataset
  • 糖尿病数据:Diabetes dataset
  • 手写数字的识别:Optical recognition of handwritten digits dataset
  • 体能训练:Linnerrud dataset
  • 葡萄酒鉴别:Wine recognition dataset
  • 威斯康星州癌症诊断:reast cancer wisconsin (diagnostic) dataset

实际问题数据集

  • 人脸数据:The Olivetti faces dataset
  • 20个新闻文本数据:The 20 newsgroups text dataset
  • 标记的人脸数据:The Labeled Faces in the Wild face recognition dataset
  • 森林覆盖类型:Forest covertypes
  • 路透社新闻数据:RCV1 dataset
  • 网络入侵检测数据:Kddcup 99 dataset
  • 加州住房数据:California Housing dataset

4、Sklearn 数模笔记的计划

  粗略看看 Sklearn 的文档,是一个功能强大和丰富的机器学习库,远远超出了数学建模学习的范围。
  基于数模教学的目的,本系列主要对应数模学习中的分类、聚类、降维问题,并不打算全面讲解 Sklearn 的各种算法,而是以典型问题为例来介绍原理简单、使用广泛的基本方法,以便新手入门。

Python 机器学习工具包SKlearn的安装与使用

以上就是Python 机器学习工具包SKlearn的安装与使用的详细内容,更多关于Python SKlearn的安装与使用的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
在Python下进行UDP网络编程的教程
Apr 29 Python
Python实现KNN邻近算法
Jan 28 Python
解决python升级引起的pip执行错误的问题
Jun 12 Python
python散点图实例之随机漫步
Aug 27 Python
python对列进行平移变换的方法(shift)
Jan 10 Python
Python基础学习之基本数据结构详解【数字、字符串、列表、元组、集合、字典】
Jun 18 Python
python中时间转换datetime和pd.to_datetime详析
Aug 11 Python
Django获取应用下的所有models的例子
Aug 30 Python
python Opencv计算图像相似度过程解析
Dec 03 Python
Python压缩模块zipfile实现原理及用法解析
Aug 14 Python
python如何实现图片压缩
Sep 11 Python
Python 高级库15 个让新手爱不释手(推荐)
May 15 Python
python process模块的使用简介
May 14 #Python
django学习之ajax post传参的2种格式实例
May 14 #Python
Python djanjo之csrf防跨站攻击实验过程
python控制台打印log输出重复的解决方法
聊一聊python常用的编程模块
May 14 #Python
如何获取numpy array前N个最大值
May 14 #Python
使用pandas模块实现数据的标准化操作
You might like
php公用函数列表[正则]
2007/02/22 PHP
PHP实现的封装验证码类详解
2013/06/18 PHP
Laravel 4.2 中队列服务(queue)使用感受
2014/10/30 PHP
php目录遍历函数opendir用法实例
2014/11/20 PHP
PHP 进程池与轮询调度算法实现多任务的示例代码
2019/11/26 PHP
Array.slice()与Array.splice()的返回值类型
2006/10/09 Javascript
javascript 面向对象编程 function也是类
2009/09/17 Javascript
JS自动适应的图片弹窗实例
2013/06/29 Javascript
jquery滚动条插件jScrollPane的使用介绍
2013/11/08 Javascript
jQuery ui 利用 datepicker插件实现开始日期(minDate)和结束日期(maxDate)
2014/05/22 Javascript
用JavaScript实现一个代码简洁、逻辑不复杂的多级树
2014/05/23 Javascript
JS返回iframe中frameBorder属性值的方法
2015/04/01 Javascript
Jquery常用的方法汇总
2015/09/01 Javascript
深入分析Javascript事件代理
2016/01/30 Javascript
NodeJS配置HTTPS服务实例分享
2017/02/19 NodeJs
看看“疫苗查询”小程序有温度的代码
2018/07/31 Javascript
JavaScript 斐波那契数列 倒序输出 输出100以内的质数代码实例
2019/09/11 Javascript
Vue之Mixins(混入)的使用方法
2019/09/24 Javascript
JS实现图片切换特效
2019/12/23 Javascript
JS中准确判断变量类型的方法
2020/06/01 Javascript
微信小程序tab左右滑动切换功能的实现代码
2021/02/08 Javascript
Python实现Windows和Linux之间互相传输文件(文件夹)的方法
2017/05/08 Python
Python+matplotlib实现计算两个信号的交叉谱密度实例
2018/01/08 Python
TensorFlow神经网络优化策略学习
2018/03/09 Python
python抓取网站的图片并下载到本地的方法
2018/05/22 Python
Python测试线程应用程序过程解析
2019/12/31 Python
python GUI库图形界面开发之PyQt5窗口背景与不规则窗口实例
2020/02/25 Python
Python模拟伯努利试验和二项分布代码实例
2020/05/27 Python
python中的django是做什么的
2020/07/31 Python
HTML5的hidden属性兼容老浏览器的方法
2014/04/23 HTML / CSS
学校教研活动总结
2014/07/02 职场文书
2014报到证办理个人委托书
2014/10/08 职场文书
先进单位事迹材料
2014/12/25 职场文书
幼儿园教师节活动总结
2015/03/23 职场文书
2016中考冲刺决心书
2015/09/22 职场文书
python3+PyQt5+Qt Designer实现界面可视化
2021/06/10 Python