编程 Python

Python实现朴素贝叶斯分类器的方法详解

Posted in Python onJuly 04, 2018

本文实例讲述了Python实现朴素贝叶斯分类器的方法。分享给大家供大家参考，具体如下：

贝叶斯定理

贝叶斯定理是通过对观测值概率分布的主观判断（即先验概率）进行修正的定理，在概率论中具有重要地位。

先验概率分布(边缘概率)是指基于主观判断而非样本分布的概率分布，后验概率(条件概率)是根据样本分布和未知参数的先验概率分布求得的条件概率分布。

贝叶斯公式：

P(A∩B) = P(A)*P(B|A) = P(B)*P(A|B)

变形得：

P(A|B)=P(B|A)*P(A)/P(B)

其中

P(A)是A的先验概率或边缘概率，称作"先验"是因为它不考虑B因素。
P(A|B)是已知B发生后A的条件概率，也称作A的后验概率。
P(B|A)是已知A发生后B的条件概率，也称作B的后验概率，这里称作似然度。
P(B)是B的先验概率或边缘概率，这里称作标准化常量。
P(B|A)/P(B)称作标准似然度。

朴素贝叶斯分类(Naive Bayes)

朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立。

首先定义

x = {a1,a2,...}为一个样本向量，a为一个特征属性
div = {d1 = [l1,u1],...} 特征属性的一个划分
class = {y1,y2,...}样本所属的类别

算法流程：

(1) 通过样本集中类别的分布，对每个类别计算先验概率p(y[i])

(2) 计算每个类别下每个特征属性划分的频率p(a[j] in d[k] | y[i])

(3) 计算每个样本的p(x|y[i])

p(x|y[i]) = p(a[1] in d | y[i]) * p(a[2] in d | y[i]) * ...

样本的所有特征属性已知，所以特征属性所属的区间d已知。

可以通过(2)确定p(a[k] in d | y[i])的值，从而求得p(x|y[i])。

(4) 由贝叶斯定理得：

p(y[i]|x) = ( p(x|y[i]) * p(y[i]) ) / p(x)

因为分母相同，只需计算分子。

p(y[i]|x)是观测样本属于分类y[i]的概率，找出最大概率对应的分类作为分类结果。

示例：

导入数据集

{a1 = 0, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}
{a1 = 0, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}
{a1 = 0, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}
{a1 = 1, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}
{a1 = 1, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}
{a1 = 1, a2 = 0, C = 0} {a1 = 1, a2 = 0, C = 1}
{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 0, C = 1}
{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 1, C = 1}
{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 1, C = 1}
{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 1, C = 1}

计算类别的先验概率

P(C = 0) = 0.5
P(C = 1) = 0.5

计算每个特征属性条件概率：

P(a1 = 0 | C = 0) = 0.3
P(a1 = 1 | C = 0) = 0.7
P(a2 = 0 | C = 0) = 0.4
P(a2 = 1 | C = 0) = 0.6
P(a1 = 0 | C = 1) = 0.5
P(a1 = 1 | C = 1) = 0.5
P(a2 = 0 | C = 1) = 0.7
P(a2 = 1 | C = 1) = 0.3

测试样本：

x = { a1 = 1, a2 = 2}
p(x | C = 0) = p(a1 = 1 | C = 0) * p( 2 = 2 | C = 0) = 0.3 * 0.6 = 0.18
p(x | C = 1) = p(a1 = 1 | C = 1) * p (a2 = 2 | C = 1) = 0.5 * 0.3 = 0.15

计算P(C | x) * p(x):

P(C = 0) * p(x | C = 1) = 0.5 * 0.18 = 0.09
P(C = 1) * p(x | C = 2) = 0.5 * 0.15 = 0.075

所以认为测试样本属于类型C1

Python实现

朴素贝叶斯分类器的训练过程为计算(1),(2)中的概率表，应用过程为计算(3),(4)并寻找最大值。

还是使用原来的接口进行类封装：

from numpy import *
class NaiveBayesClassifier(object):
  def __init__(self):
    self.dataMat = list()
    self.labelMat = list()
    self.pLabel1 = 0
    self.p0Vec = list()
    self.p1Vec = list()
  def loadDataSet(self,filename):
    fr = open(filename)
    for line in fr.readlines():
      lineArr = line.strip().split()
      dataLine = list()
      for i in lineArr:
        dataLine.append(float(i))
      label = dataLine.pop() # pop the last column referring to label
      self.dataMat.append(dataLine)
      self.labelMat.append(int(label))
  def train(self):
    dataNum = len(self.dataMat)
    featureNum = len(self.dataMat[0])
    self.pLabel1 = sum(self.labelMat)/float(dataNum)
    p0Num = zeros(featureNum)
    p1Num = zeros(featureNum)
    p0Denom = 1.0
    p1Denom = 1.0
    for i in range(dataNum):
      if self.labelMat[i] == 1:
        p1Num += self.dataMat[i]
        p1Denom += sum(self.dataMat[i])
      else:
        p0Num += self.dataMat[i]
        p0Denom += sum(self.dataMat[i])
    self.p0Vec = p0Num/p0Denom
    self.p1Vec = p1Num/p1Denom
  def classify(self, data):
    p1 = reduce(lambda x, y: x * y, data * self.p1Vec) * self.pLabel1
    p0 = reduce(lambda x, y: x * y, data * self.p0Vec) * (1.0 - self.pLabel1)
    if p1 > p0:
      return 1
    else:
      return 0
  def test(self):
    self.loadDataSet('testNB.txt')
    self.train()
    print(self.classify([1, 2]))
if __name__ == '__main__':
  NB = NaiveBayesClassifier()
  NB.test()

Matlab

Matlab的标准工具箱提供了对朴素贝叶斯分类器的支持：

trainData = [0 1; -1 0; 2 2; 3 3; -2 -1;-4.5 -4; 2 -1; -1 -3];
group = [1 1 -1 -1 1 1 -1 -1]';
model = fitcnb(trainData, group)
testData = [5 2;3 1;-4 -3];
predict(model, testData)

fitcnb用来训练模型，predict用来预测。

希望本文所述对大家Python程序设计有所帮助。

Python实现朴素贝叶斯分类器的方法详解

- Author -

-Finley-

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现rest请求api示例

Apr 22 Python

深入讲解Java编程中类的生命周期

Feb 05 Python

python基于隐马尔可夫模型实现中文拼音输入

Apr 01 Python

Python实现的矩阵类实例

Aug 22 Python

使用python存储网页上的图片实例

May 22 Python

Tensorflow 同时载入多个模型的实例讲解

Jul 27 Python

用Pytorch训练CNN(数据集MNIST,使用GPU的方法)

Aug 19 Python

Python修改列表值问题解决方案

Mar 06 Python

keras 模型参数,模型保存,中间结果输出操作

Jul 06 Python

基于django和dropzone.js实现上传文件

Nov 24 Python

基于Python中Remove函数的用法讨论

Dec 11 Python

Elasticsearch 基本查询和组合查询

Apr 19 Python

如何优雅地改进Django中的模板碎片缓存详解

Jul 04 #Python

Django框架多表查询实例分析

Jul 04 #Python

python 借助numpy保存数据为csv格式的实现方法

Jul 04 #Python

Python将一个CSV文件里的数据追加到另一个CSV文件的方法

Jul 04 #Python

python中csv文件的若干读写方法小结

Jul 04 #Python

Python画柱状统计图操作示例【基于matplotlib库】

Jul 04 #Python

pandas将numpy数组写入到csv的实例

Jul 04 #Python

You might like

了解咖啡雨林联盟认证什么是雨林认证雨林认证是什么意思

2021/03/05 新手入门

php学习字符串课件

2008/06/15 PHP

php empty函数判断mysql表单是否为空

2010/04/12 PHP

php实现获取文章内容第一张图片的方法

2014/11/04 PHP

php通过会话控制实现身份验证实例

2016/10/18 PHP

php如何计算两坐标点之间的距离

2018/12/29 PHP

Prototype使用指南之string.js

2007/01/10 Javascript

zShowBox 图片放大展示jquery版兼容性

2011/09/24 Javascript

javaScript让文本框内的最后一个文字的后面获得焦点实现代码

2013/01/06 Javascript

jquery实现简单易懂的图片展示小例子

2013/11/21 Javascript

js出生日期年月日级联菜单示例代码

2014/01/10 Javascript

jQuery实现查找最近父节点的方法

2016/06/23 Javascript

Javascript6中字符串的四个新用法分享

2016/09/11 Javascript

Bootstrap栅格系统使用方法及页面调整变形的解决方法

2017/03/10 Javascript

Ionic + Angular.js实现验证码倒计时功能的方法

2017/06/12 Javascript

Angular中的$watch方法详解

2017/09/18 Javascript

[18:16]sakonoko 2017年卡尔集锦

2018/02/06 DOTA

python机器学习理论与实战（四）逻辑回归

2018/01/19 Python

django Serializer序列化使用方法详解

2018/10/16 Python

pandas如何处理缺失值

2019/07/31 Python

Django框架中间件定义与使用方法案例分析

2019/11/28 Python

Python函数参数定义及传递方式解析

2020/06/10 Python

Python如何使用vars返回对象的属性列表

2020/10/17 Python

CSS3 Pie工具推荐--让IE6-8支持一些优秀的CSS3特性

2014/09/02 HTML / CSS

Timberland美国官网：全球领先的户外品牌

2016/08/15 全球购物

澳大利亚百货公司：David Jones

2018/02/08 全球购物

Shopee新加坡：东南亚与台湾电商平台

2019/01/25 全球购物

Booking.com亚太地区：Booking.com APAC

2020/02/07 全球购物

什么是设计模式

2012/06/17 面试题

文员个人求职自荐信

2013/09/21 职场文书

退伍老兵事迹材料

2014/01/31 职场文书

个人贷款担保书

2014/04/01 职场文书

应届本科毕业生求职信

2014/07/23 职场文书

整改通知书

2015/04/20 职场文书

学校运动会通讯稿

2015/07/18 职场文书

初中政治教师教学反思

2016/02/23 职场文书