编程 Python

python实现朴素贝叶斯算法

Posted in Python onNovember 19, 2018

本代码实现了朴素贝叶斯分类器（假设了条件独立的版本），常用于垃圾邮件分类，进行了拉普拉斯平滑。

关于朴素贝叶斯算法原理可以参考博客中原理部分的博文。

#!/usr/bin/python
# -*- coding: utf-8 -*-
from math import log
from numpy import*
import operator
import matplotlib
import matplotlib.pyplot as plt
from os import listdir
def loadDataSet():
  postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
         ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
         ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
         ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
         ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
         ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
  classVec = [0,1,0,1,0,1]
  return postingList,classVec
def createVocabList(dataSet):
  vocabSet = set([]) #create empty set
  for document in dataSet:
    vocabSet = vocabSet | set(document) #union of the two sets
  return list(vocabSet)
 
def setOfWords2Vec(vocabList, inputSet):
  returnVec = [0]*len(vocabList)
  for word in inputSet:
    if word in vocabList:
      returnVec[vocabList.index(word)] = 1
    else: print "the word: %s is not in my Vocabulary!" % word
  return returnVec
def trainNB0(trainMatrix,trainCategory):  #训练模型
  numTrainDocs = len(trainMatrix)
  numWords = len(trainMatrix[0])
  pAbusive = sum(trainCategory)/float(numTrainDocs)
  p0Num = ones(numWords); p1Num = ones(numWords)  #拉普拉斯平滑
  p0Denom = 0.0+2.0; p1Denom = 0.0 +2.0      #拉普拉斯平滑
  for i in range(numTrainDocs):
    if trainCategory[i] == 1:
      p1Num += trainMatrix[i]
      p1Denom += sum(trainMatrix[i])
    else:
      p0Num += trainMatrix[i]
      p0Denom += sum(trainMatrix[i])
  p1Vect = log(p1Num/p1Denom)    #用log()是为了避免概率乘积时浮点数下溢
  p0Vect = log(p0Num/p0Denom)
  return p0Vect,p1Vect,pAbusive
 
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
  p1 = sum(vec2Classify * p1Vec) + log(pClass1)
  p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
  if p1 > p0:
    return 1
  else:
    return 0
 
def bagOfWords2VecMN(vocabList, inputSet):
  returnVec = [0] * len(vocabList)
  for word in inputSet:
    if word in vocabList:
      returnVec[vocabList.index(word)] += 1
  return returnVec
 
def testingNB():  #测试训练结果
  listOPosts, listClasses = loadDataSet()
  myVocabList = createVocabList(listOPosts)
  trainMat = []
  for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
  p0V, p1V, pAb = trainNB0(array(trainMat), array(listClasses))
  testEntry = ['love', 'my', 'dalmation']
  thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
  print testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb)
  testEntry = ['stupid', 'garbage']
  thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
  print testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb)
 
def textParse(bigString): # 长字符转转单词列表
  import re
  listOfTokens = re.split(r'\W*', bigString)
  return [tok.lower() for tok in listOfTokens if len(tok) > 2]
 
def spamTest():  #测试垃圾文件 需要数据
  docList = [];
  classList = [];
  fullText = []
  for i in range(1, 26):
    wordList = textParse(open('email/spam/%d.txt' % i).read())
    docList.append(wordList)
    fullText.extend(wordList)
    classList.append(1)
    wordList = textParse(open('email/ham/%d.txt' % i).read())
    docList.append(wordList)
    fullText.extend(wordList)
    classList.append(0)
  vocabList = createVocabList(docList) 
  trainingSet = range(50);
  testSet = [] 
  for i in range(10):
    randIndex = int(random.uniform(0, len(trainingSet)))
    testSet.append(trainingSet[randIndex])
    del (trainingSet[randIndex])
  trainMat = [];
  trainClasses = []
  for docIndex in trainingSet: 
    trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
    trainClasses.append(classList[docIndex])
  p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))
  errorCount = 0
  for docIndex in testSet: 
    wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
    if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
      errorCount += 1
      print "classification error", docList[docIndex]
  print 'the error rate is: ', float(errorCount) / len(testSet)
 
 
 
listOPosts,listClasses=loadDataSet()
myVocabList=createVocabList(listOPosts)
print myVocabList,'\n'
# print setOfWords2Vec(myVocabList,listOPosts[0]),'\n'
trainMat=[]
for postinDoc in listOPosts:
  trainMat.append(setOfWords2Vec(myVocabList,postinDoc))
print trainMat
p0V,p1V,pAb=trainNB0(trainMat,listClasses)
print pAb
print p0V,'\n',p1V
testingNB()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python实现朴素贝叶斯算法

- Author -

永恒的秋天

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python类的专用方法实例分析

Jan 09 Python

Python的Flask框架中Flask-Admin库的简单入门指引

Apr 07 Python

python通过socket查询whois的方法

Jul 18 Python

Eclipse和PyDev搭建完美Python开发环境教程（Windows篇）

Nov 16 Python

解决csv.writer写入文件有多余的空行问题

Jul 06 Python

python虚拟环境迁移方法

Jan 03 Python

Python使用sax模块解析XML文件示例

Apr 04 Python

tensorflow实现对张量数据的切片操作方式

Jan 19 Python

Python 实现简单的客户端认证

Jul 29 Python

浅析PyCharm 的初始设置（知道）

Oct 12 Python

python自动打开浏览器下载zip并提取内容写入excel

Jan 04 Python

如何Python使用re模块实现okenizer

Apr 30 Python

朴素贝叶斯Python实例及解析

Nov 19 #Python

python版大富翁源代码分享

Nov 19 #Python

python获取微信小程序手机号并绑定遇到的坑

Nov 19 #Python

python实现推箱子游戏

Mar 25 #Python

详解python中的Turtle函数库

Nov 19 #Python

python绘制简单彩虹图

Nov 19 #Python

python微信好友数据分析详解

Nov 19 #Python

You might like

php无限遍历目录示例

2014/02/21 PHP

关于Laravel参数验证的一些疑与惑

2019/11/19 PHP

JavaScript 空位补零实现代码

2010/02/26 Javascript

圣诞节Merry Christmas给博客添加浪漫的下雪效果基于jquery实现

2012/12/27 Javascript

浅析hasOwnProperty方法的应用

2013/11/20 Javascript

原生JavaScript编写俄罗斯方块

2015/03/30 Javascript

一个用jquery写的判断div滚动条到底部的方法【推荐】

2016/04/29 Javascript

Bootstrap表单布局样式代码

2016/05/31 Javascript

Node.js 回调函数实例详解

2017/07/06 Javascript

基于vue.js的分页插件详解

2017/11/27 Javascript

vue 标签属性数据绑定和拼接的实现方法

2018/05/17 Javascript

Bootstrap table中toolbar新增条件查询及refresh参数使用方法

2018/05/18 Javascript

解决循环中setTimeout执行顺序的问题

2018/06/20 Javascript

使用vue脚手架（vue-cli）搭建一个项目详解

2019/05/09 Javascript

微信小程序选择图片控件

2021/01/19 Javascript

[54:53]完美世界DOTA2联赛PWL S2 GXR vs PXG 第二场 11.18

2020/11/18 DOTA

Python中非常实用的一些功能和函数分享

2015/02/14 Python

python skimage 连通性区域检测方法

2018/06/21 Python

详解Python用户登录接口的方法

2019/04/17 Python

selenium+PhantomJS爬取豆瓣读书

2019/08/26 Python

Python如何使用argparse模块处理命令行参数

2019/12/11 Python

Python实现AI自动抠图实例解析

2020/03/05 Python

基于Python爬取素材网站音频文件

2020/10/21 Python

Jupyter安装链接aconda实现过程图解

2020/11/02 Python

Alo Yoga官网：购买瑜伽服装

2018/06/17 全球购物

超市仓管员岗位职责

2014/04/07 职场文书

1亿有多大教学反思

2014/05/01 职场文书

工程售后服务承诺书

2014/05/21 职场文书

学校领导班子对照检查材料

2014/09/24 职场文书

领导班子作风建设剖析材料

2014/10/11 职场文书

2014年物资管理工作总结

2014/12/02 职场文书

2014年小学图书室工作总结

2014/12/09 职场文书

廉政承诺书2015

2015/04/28 职场文书

Win11怎么进入安全模式？Windows 11进入安全模式的方法

2021/11/21 数码科技

Nginx使用ngx_http_upstream_module实现负载均衡功能示例

2022/08/05 Servers

VMware虚拟机安装 Windows Server 2022的详细图文教程

2022/09/23 Servers