编程 Python

python机器学习之贝叶斯分类

Posted in Python onMarch 26, 2018

一、贝叶斯分类介绍

贝叶斯分类器是一个统计分类器。它们能够预测类别所属的概率，如：一个数据对象属于某个类别的概率。贝叶斯分类器是基于贝叶斯定理而构造出来的。对分类方法进行比较的有关研究结果表明：简单贝叶斯分类器（称为基本贝叶斯分类器）在分类性能上与决策树和神经网络都是可比的。在处理大规模数据库时，贝叶斯分类器已表现出较高的分类准确性和运算性能。基本贝叶斯分类器假设一个指定类别中各属性的取值是相互独立的。这一假设也被称为：类别条件独立，它可以帮助有效减少在构造贝叶斯分类器时所需要进行的计算。

二、贝叶斯定理

p(A|B) 条件概率表示在B发生的前提下，A发生的概率；

python机器学习之贝叶斯分类

基本贝叶斯分类器通常都假设各类别是相互独立的，即各属性的取值是相互独立的。对于特定的类别且其各属性相互独立，就会有：

P(AB|C) = P(A|C)*P(B|C)

三、贝叶斯分类案例

1.分类属性是离散

假设有样本数为6个的训练集数字如下：

python机器学习之贝叶斯分类

现在假设来又来了一个人是症状为咳嗽的教师，那这位教师是患上感冒、发烧、鼻炎的概率分别是多少呢？这个问题可以用贝叶斯分类来解决，最后三个疾病哪个概率高，就把这个咳嗽的教师划为哪个类,实质就是分别求p(感冒|咳嗽*教师)和P(发烧 | 咳嗽 * 教师)

P(鼻炎 | 咳嗽 * 教师) 的概率；

假设各个类别相互独立：

python机器学习之贝叶斯分类

P(感冒)=3/6 P(发烧)=1/6 P(鼻炎)=2/6

p(咳嗽) = 3/6 P(教师）= 2/6

p(咳嗽 | 感冒) = 2/3 P(教师 | 感冒) = 1/3

故

python机器学习之贝叶斯分类

按以上方法可分别求 P(发烧 | 咳嗽 × 教师) 和P(鼻炎 |咳嗽 × 教师 )的概率；

2.分类属性连续

如果按上面的样本上加一个年龄的属性；因为年龄是连续，不能采用离散变量的方法计算概率。而且由于样本太少，所以也无法分成区间计算；这时，可以假设感冒、发烧、鼻炎分类的年龄都是正态分布，通过样本计算出均值和方差，也就是得到正态分布的密度函数；

python机器学习之贝叶斯分类

下面就以求P(年龄=15|感冒)下的概率为例说明：

第一：求在感冒类下的年龄平均值 u=(15+48+12)/3=25

第二：求在感冒类下年龄的方差代入下面公司可求：方差=266

python机器学习之贝叶斯分类

第三：把年龄=15 代入正太分布公式如下：参数代进去既可以求的P(age=15|感冒)的概率

python机器学习之贝叶斯分类

其他属性按离散方法可求；

四、概率值为0处理

假设有这种情况出现，在训练集上感冒的元祖有10个，有0个是孩子，有6个是学生，有4个教师；当分别求

P(孩子|感冒) =0； P(学生|感冒)=6/10 ； P(教师|感冒)=4/10 ;出现了概率为0的现象，为了避免这个现象，在假设训练元祖数量大量的前提下，可以使用拉普拉斯估计法，把每个类型加1这样可求的分别概率是

P(孩子|感冒) = 1/13 ； P(学生|感冒) = 7/13 ; P(教师|感冒)=4/13

五、垃圾邮件贝叶斯分类案例

1.准备训练集数据

假设postingList为一个六个邮件内容,classVec=[0,1,0,1,0,1]为邮件类型，设1位垃圾邮件

def loadDataSet(): 
 postingList =[['my','dog','has',' flea','problems','help','please'], 
     ['mybe','not','take','him','to','dog','park','stupid'], 
     ['my','dalmation','is','so','cute','i','love','hime'], 
     ['stop','posting','stupid','worthless','garbage'], 
     ['mr','licks','ate','my','steak','how','to','stop','hime'], 
     ['quit','buying','worthless','dog','food','stupid','quit']] 
 classVec =[0,1,0,1,0,1] 
 return postingList,classVec

2.根据所有的邮件内容创建一个所有单词集合

def createVocabList(dataSet): 
 vocabSet =set([]) 
 for document in dataSet: 
  vocabSet = vocabSet | set(document) 
 return list(vocabSet)

测试后获取所有不重复单词的集合见下一共：

python机器学习之贝叶斯分类

3.根据2部所有不重复的单词集合对每个邮件内容向量化

def bagOfWords2VecMN(vocabList,inputSet): 
 returnVec =[0]*len(vocabList) 
 for word in inputSet: 
  returnVec[vocabList.index(word)] +=1 
 return returnVec

测试后可得如下，打印内容为向量化的六个邮件内容

python机器学习之贝叶斯分类

4.训练模型，此时就是分别求p(垃圾|文档) = p(垃圾)*p（文档|垃圾）/p(文档)

def trainNBO(trainMatrix,trainCategory): 
  numTrainDocs = len(trainMatrix) 
  numWords =len(trainMatrix[0]) 
  #计算p(垃圾)的概率 
  pAbusive = sum(trainCategory)/float(numTrainDocs) 
  #为了防止一个概率为0，假设都有一个 
  p0Num =ones(numWords); 
  p1Num = ones(numWords) 
  p0Denom =2.0;p1Denom=2.0; 
  for i in range(numTrainDocs): 
    if trainCategory[i] ==1: 
      p1Num +=trainMatrix[i] 
      p1Denom +=sum(trainMatrix[i]) 
    else: 
      p0Num +=trainMatrix[i] 
      p0Denom +=sum(trainMatrix[i]) 
  p1Vect = np.log((p1Num/p1Denom)) 
  p0Vect = np.log(p0Num/p0Denom) 
  return p0Vect,p1Vect,pAbusive

对训练模型进行测试结果如下：

python机器学习之贝叶斯分类

5.定义分类方法

def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1): 
  p1 =sum(vec2Classify * p1Vec) +math.log(pClass1) 
  p0 = sum(vec2Classify * p0Vec)+math.log(1.0-pClass1) 
  if p1>p0: 
    return 1 
  else: 
    return 0

6.以上分类完成，下面就对其进行测试，测试方法如下：

def testingNB(): 
  listOPosts,ListClasses = loadDataSet(); 
  myVocabList = createVocabList(listOPosts) 
  trainMat=[] 
  for postinDoc in listOPosts: 
    trainMat.append(bagOfWords2VecMN(myVocabList,postinDoc)) 
  p0V,p1V,pAb =trainNBO(trainMat,ListClasses) 
  testEntry =['stupid','my','dalmation'] 
  thisDoc = array(bagOfWords2VecMN(myVocabList,testEntry)) 
  print testEntry,'classified as',classifyNB(thisDoc,p0V,p1V,pAb)

结果如下：

python机器学习之贝叶斯分类

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python机器学习之贝叶斯分类

- Author -

剑昙说

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python在指定目录下查找gif文件的方法

May 04 Python

python统计cpu利用率的方法

Jun 02 Python

python中的随机函数random的用法示例

Jan 27 Python

PyQt5每天必学之带有标签的复选框

Apr 19 Python

详解Python中的测试工具

Jun 09 Python

python3用PIL把图片转换为RGB图片的实例

Jul 04 Python

用python3 urllib破解有道翻译反爬虫机制详解

Aug 14 Python

PIL包中Image模块的convert()函数的具体使用

Feb 26 Python

Pandas之read_csv()读取文件跳过报错行的解决

Apr 21 Python

python MD5加密的示例

Oct 19 Python

Python Flask请求扩展与中间件相关知识总结

Jun 11 Python

如何使用Tkinter进行窗口的管理与设置

Jun 30 Python

利用python实现微信头像加红色数字功能

Mar 26 #Python

Python扩展内置类型详解

Mar 26 #Python

python函数式编程学习之yield表达式形式详解

Mar 25 #Python

Python实现简单求解给定整数的质因数算法示例

Mar 25 #Python

python实现隐马尔科夫模型HMM

Mar 25 #Python

Python实现的寻找前5个默尼森数算法示例

Mar 25 #Python

Python实现修改文件内容的方法分析

Mar 25 #Python

You might like

用PHP实现ODBC数据分页显示一例

2006/10/09 PHP

建站常用13种PHP开源CMS比较

2009/08/23 PHP

php array的学习笔记

2012/05/16 PHP

php在文件指定行中写入代码的方法

2012/05/23 PHP

Apache中php.ini的设置方法

2013/02/28 PHP

php数组生成html下拉列表的方法

2015/07/20 PHP

PHP实现mysqli批量执行多条语句的方法示例

2017/07/22 PHP

PHP迭代器和迭代的实现与使用方法分析

2018/04/19 PHP

javascript 硬盘序列号+其它硬件信息

2008/12/23 Javascript

JS代码同步文本框内容的实例方法

2013/07/12 Javascript

JavaScript var声明变量背后的原理示例解析

2013/10/12 Javascript

jquery通过a标签删除table中的一行的代码

2013/12/02 Javascript

jQuery点击自身以外地方关闭弹出层的简单实例

2013/12/24 Javascript

js+html5绘制图片到canvas的方法

2015/06/05 Javascript

AngularJS 与Bootstrap实现表格分页实例代码

2016/10/14 Javascript

Vuejs 组件——props数据传递的实例代码

2017/03/07 Javascript

jQuery选取所有复选框被选中的值并用Ajax异步提交数据的实例

2017/08/04 jQuery

Gulp实现静态网页模块化的方法详解

2018/01/09 Javascript

JavaScript求一个数组中重复出现次数最多的元素及其下标位置示例

2018/07/23 Javascript

原生js实现form表单序列化的方法

2018/08/02 Javascript

jquery实现购物车基本功能

2019/10/25 jQuery

Vue中使用better-scroll实现轮播图组件

2020/03/07 Javascript

nestjs中异常过滤器Exceptionfilter的具体使用

2021/02/07 Javascript

python实现爬虫下载美女图片

2015/07/14 Python

python获取list下标及其值的简单方法

2016/09/12 Python

小米5s微信跳一跳小程序python源码

2018/01/08 Python

Python实现读取及写入csv文件的方法示例

2018/01/12 Python

详解python多线程之间的同步(一)

2019/04/03 Python

python中for in的用法详解

2020/04/17 Python

详解CSS3中@media的实际使用

2015/08/04 HTML / CSS

Ray-Ban雷朋瑞典官方网站：全球领先的太阳眼镜品牌

2019/08/22 全球购物

STP的判定过程

2012/10/01 面试题

求职信范文大全

2014/05/26 职场文书

2015年教学管理工作总结

2015/05/20 职场文书

React Native项目框架搭建的一些心得体会

2021/05/28 Javascript

Python超详细分步解析随机漫步

2022/03/17 Python