Python 机器学习工具包SKlearn的安装与使用


Posted in Python onMay 14, 2021

1、SKlearn 是什么

  Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包。

  Sklearn 主要用Python编写,建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上,也用 Cython编写了一些核心算法来提高性能。

  Sklearn 包括六大功能模块:

  • 分类(Classification):识别样本属于哪个类别,常用算法有 SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林)
  • 回归(Regression):预测与对象相关联的连续值属性,常用算法有 SVR(支持向量机)、 ridge regression(岭回归)、Lasso
  • 聚类(Clustering):对样本进行无监督的自动分类,常用算法有 k-Means(k均值)、spectral clustering(特征聚类)、mean-shift(均值漂移)
  • 数据降维(Dimensionality reduction):减少相关变量维数,常用算法有 PCA(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(非负矩阵分解)
  • 模型选择(Model Selection):比较,验证,选择参数和模型,常用模块有 grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)
  • 数据处理 (Preprocessing):特征提取和归一化,常用模块有 preprocessing(预处理),feature extraction(特征提取)
  • 这六个功能模块涉及 4类算法,分类、回归 属于监督学习,聚类属于非监督学习。

Python 机器学习工具包SKlearn的安装与使用

  官网地址:https://scikit-learn.org/

  官方文档中文版: https://www.scikitlearn.com.cn/

  内置数据集:https://scikit-learn.org/stable/datasets.html

2、SKlearn 的安装

  Sklearn 的安装要求:Python 3.5 以上版本,需要安装 NumPy、SciPy、Pandas 工具包的支持,部分内容需要使用 Matplotlib、joblib 工具包。

  pip 安装命令:  

pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple

  注意 Sklearn 建议安装 Numpy+mkl,可以在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本,下载后 pip3安装:

pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl

3、SKlearn 内置数据集

  Sklearn 内置了一些标准数据集可以用于练习和测试,都是经常被引用的经典问题,数据网址:https://scikit-learn.org/stable/datasets.html  
  Sklearn 标准数据集主要包括:

测试问题数据集

  • 波士顿房价:Boston house prices dataset
  • 鸢尾花问题:Iris plants dataset
  • 糖尿病数据:Diabetes dataset
  • 手写数字的识别:Optical recognition of handwritten digits dataset
  • 体能训练:Linnerrud dataset
  • 葡萄酒鉴别:Wine recognition dataset
  • 威斯康星州癌症诊断:reast cancer wisconsin (diagnostic) dataset

实际问题数据集

  • 人脸数据:The Olivetti faces dataset
  • 20个新闻文本数据:The 20 newsgroups text dataset
  • 标记的人脸数据:The Labeled Faces in the Wild face recognition dataset
  • 森林覆盖类型:Forest covertypes
  • 路透社新闻数据:RCV1 dataset
  • 网络入侵检测数据:Kddcup 99 dataset
  • 加州住房数据:California Housing dataset

4、Sklearn 数模笔记的计划

  粗略看看 Sklearn 的文档,是一个功能强大和丰富的机器学习库,远远超出了数学建模学习的范围。
  基于数模教学的目的,本系列主要对应数模学习中的分类、聚类、降维问题,并不打算全面讲解 Sklearn 的各种算法,而是以典型问题为例来介绍原理简单、使用广泛的基本方法,以便新手入门。

Python 机器学习工具包SKlearn的安装与使用

以上就是Python 机器学习工具包SKlearn的安装与使用的详细内容,更多关于Python SKlearn的安装与使用的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
用python实现批量重命名文件的代码
May 25 Python
解决Python字典写入文件出行首行有空格的问题
Sep 27 Python
Python3实现发送QQ邮件功能(文本)
Dec 15 Python
Python实现的朴素贝叶斯算法经典示例【测试可用】
Jun 13 Python
用Django写天气预报查询网站
Oct 21 Python
python3爬虫学习之数据存储txt的案例详解
Apr 24 Python
python实现树的深度优先遍历与广度优先遍历详解
Oct 26 Python
python的slice notation的特殊用法详解
Dec 27 Python
如何在python开发工具PyCharm中搭建QtPy环境(教程详解)
Feb 04 Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 Python
python爬取代理ip的示例
Dec 18 Python
python os.listdir()乱码解决方案
Jan 31 Python
python process模块的使用简介
May 14 #Python
django学习之ajax post传参的2种格式实例
May 14 #Python
Python djanjo之csrf防跨站攻击实验过程
python控制台打印log输出重复的解决方法
聊一聊python常用的编程模块
May 14 #Python
如何获取numpy array前N个最大值
May 14 #Python
使用pandas模块实现数据的标准化操作
You might like
全国FM电台频率大全 - 28 甘肃省
2020/03/11 无线电
WINDOWS 2000下使用ISAPI方式安装PHP
2006/09/05 PHP
类的另类用法--数据的封装
2006/10/09 PHP
总结对比php中的多种序列化
2016/08/28 PHP
PHP进阶学习之类的自动加载机制原理分析
2019/06/18 PHP
Jquery 绑定时间实现代码
2011/05/03 Javascript
Javascript this 的一些学习总结
2012/08/31 Javascript
解决用jquery load加载页面到div时,不执行页面js的问题
2014/02/22 Javascript
利用jquery操作Radio方法小结
2014/10/20 Javascript
JQuery.validate在ie8下不支持的快速解决方法
2016/05/18 Javascript
jQuery操作动态生成的内容的方法
2016/05/28 Javascript
轻松搞定js表单验证
2016/10/13 Javascript
在vue项目中引用Iview的方法
2018/09/14 Javascript
python 解析html之BeautifulSoup
2009/07/07 Python
解决Python plt.savefig 保存图片时一片空白的问题
2019/01/10 Python
利用Python半自动化生成Nessus报告的方法
2019/03/19 Python
centos 安装Python3 及对应的pip教程详解
2019/06/28 Python
python计算n的阶乘的方法代码
2019/10/25 Python
解决jupyter notebook显示不全出现框框或者乱码问题
2020/04/09 Python
TensorFlow的环境配置与安装方法
2021/02/20 Python
解决HTML5中滚动到底部的事件问题
2019/08/22 HTML / CSS
Belvilla德国:在线预订度假屋
2018/04/10 全球购物
DBA数据库管理员JAVA程序员架构师必看
2016/02/07 面试题
几个Linux面试题笔试题
2012/12/01 面试题
生物技术专业毕业生求职信范文
2013/12/14 职场文书
医务人员自我评价
2014/01/26 职场文书
《和我们一样享受春天》教学反思
2014/02/07 职场文书
2015年党小组工作总结
2015/05/26 职场文书
搞笑的婚礼主持词
2015/06/29 职场文书
一年级下册数学教学反思
2016/02/16 职场文书
CSS完成视差滚动效果
2021/04/27 HTML / CSS
Python数据可视化之用Matplotlib绘制常用图形
2021/06/03 Python
Java中常用解析工具jackson及fastjson的使用
2021/06/28 Java/Android
vue elementUI批量上传文件
2022/04/26 Vue.js
生命的关键成分来自太空?陨石说是的
2022/04/29 数码科技
如何Tomcat中使用ipv6地址
2022/05/06 Servers