python编写朴素贝叶斯用于文本分类


Posted in Python onDecember 21, 2017

朴素贝叶斯估计

朴素贝叶斯是基于贝叶斯定理与特征条件独立分布假设的分类方法。首先根据特征条件独立的假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
具体的,根据训练数据集,学习先验概率的极大似然估计分布

python编写朴素贝叶斯用于文本分类

以及条件概率为

python编写朴素贝叶斯用于文本分类

Xl表示第l个特征,由于特征条件独立的假设,可得

python编写朴素贝叶斯用于文本分类

条件概率的极大似然估计为

python编写朴素贝叶斯用于文本分类

根据贝叶斯定理

python编写朴素贝叶斯用于文本分类

则由上式可以得到条件概率P(Y=ck|X=x)。

贝叶斯估计

用极大似然估计可能会出现所估计的概率为0的情况。后影响到后验概率结果的计算,使分类产生偏差。采用如下方法解决。
条件概率的贝叶斯改为

python编写朴素贝叶斯用于文本分类

其中Sl表示第l个特征可能取值的个数。
同样,先验概率的贝叶斯估计改为

$$
P(Y=c_k) = \frac{\sum\limits_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}
$K$

表示Y的所有可能取值的个数,即类型的个数。
具体意义是,给每种可能初始化出现次数为1,保证每种可能都出现过一次,来解决估计为0的情况。

文本分类

朴素贝叶斯分类器可以给出一个最有结果的猜测值,并给出估计概率。通常用于文本分类。
分类核心思想为选择概率最大的类别。贝叶斯公式如下:

python编写朴素贝叶斯用于文本分类

词条:将每个词出现的次数作为特征。
假设每个特征相互独立,即每个词相互独立,不相关。则

python编写朴素贝叶斯用于文本分类

完整代码如下;

import numpy as np
import re
import feedparser
import operator
def loadDataSet():
 postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
     ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
     ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
     ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
     ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
     ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
 classVec = [0,1,0,1,0,1] #1 is abusive, 0 not
 return postingList,classVec

def createVocabList(data): #创建词向量
 returnList = set([])
 for subdata in data:
  returnList = returnList | set(subdata)
 return list(returnList)


def setofWords2Vec(vocabList,data):  #将文本转化为词条

 returnList = [0]*len(vocabList)
 for vocab in data:
  if vocab in vocabList:
   returnList[vocabList.index(vocab)] += 1
 return returnList


def trainNB0(trainMatrix,trainCategory):  #训练,得到分类概率
 pAbusive = sum(trainCategory)/len(trainCategory)
 p1num = np.ones(len(trainMatrix[0]))
 p0num = np.ones(len(trainMatrix[0]))
 p1Denom = 2
 p0Denom = 2
 for i in range(len(trainCategory)):
  if trainCategory[i] == 1:
   p1num = p1num + trainMatrix[i]
   p1Denom = p1Denom + sum(trainMatrix[i])
  else:
   p0num = p0num + trainMatrix[i]
   p0Denom = p0Denom + sum(trainMatrix[i])
 p1Vect = np.log(p1num/p1Denom)
 p0Vect = np.log(p0num/p0Denom)
 return p0Vect,p1Vect,pAbusive


def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1): #分类
 p0 = sum(vec2Classify*p0Vec)+np.log(1-pClass1)
 p1 = sum(vec2Classify*p1Vec)+np.log(pClass1)
 if p1 > p0:
  return 1
 else:
  return 0
def textParse(bigString):   #文本解析
 splitdata = re.split(r'\W+',bigString)
 splitdata = [token.lower() for token in splitdata if len(token) > 2]
 return splitdata
def spamTest():
 docList = []
 classList = []
 for i in range(1,26):
  with open('spam/%d.txt'%i) as f:
   doc = f.read()
  docList.append(doc)
  classList.append(1)
  with open('ham/%d.txt'%i) as f:
   doc = f.read()
  docList.append(doc)
  classList.append(0)
 vocalList = createVocabList(docList)
 trainList = list(range(50))
 testList = []
 for i in range(13):
  num = int(np.random.uniform(0,len(docList))-10)
  testList.append(trainList[num])
  del(trainList[num])
 docMatrix = []
 docClass = []
 for i in trainList:
  subVec = setofWords2Vec(vocalList,docList[i])
  docMatrix.append(subVec)
  docClass.append(classList[i])
 p0v,p1v,pAb = trainNB0(docMatrix,docClass)
 errorCount = 0
 for i in testList:
  subVec = setofWords2Vec(vocalList,docList[i])
  if classList[i] != classifyNB(subVec,p0v,p1v,pAb):
   errorCount += 1
 return errorCount/len(testList)

def calcMostFreq(vocabList,fullText):
 count = {}
 for vocab in vocabList:
  count[vocab] = fullText.count(vocab)
 sortedFreq = sorted(count.items(),key=operator.itemgetter(1),reverse=True)
 return sortedFreq[:30]

def localWords(feed1,feed0):
 docList = []
 classList = []
 fullText = []
 numList = min(len(feed1['entries']),len(feed0['entries']))
 for i in range(numList):
  doc1 = feed1['entries'][i]['summary']
  docList.append(doc1)
  classList.append(1)
  fullText.extend(doc1)
  doc0 = feed0['entries'][i]['summary']
  docList.append(doc0)
  classList.append(0)
  fullText.extend(doc0)
 vocabList = createVocabList(docList)
 top30Words = calcMostFreq(vocabList,fullText)
 for word in top30Words:
  if word[0] in vocabList:
   vocabList.remove(word[0])
 trainingSet = list(range(2*numList))
 testSet = []
 for i in range(20):
  randnum = int(np.random.uniform(0,len(trainingSet)-5))
  testSet.append(trainingSet[randnum])
  del(trainingSet[randnum])
 trainMat = []
 trainClass = []
 for i in trainingSet:
  trainClass.append(classList[i])
  trainMat.append(setofWords2Vec(vocabList,docList[i]))
 p0V,p1V,pSpam = trainNB0(trainMat,trainClass)
 errCount = 0
 for i in testSet:
  testData = setofWords2Vec(vocabList,docList[i])
  if classList[i] != classifyNB(testData,p0V,p1V,pSpam):
   errCount += 1
 return errCount/len(testData)
if __name__=="__main__":
 ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')
 sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')
 print(localWords(ny,sf))

编程技巧:

1.两个集合的并集

vocab = vocab | set(document)

2.创建元素全为零的向量

vec = [0]*10

代码及数据集下载:贝叶斯

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实用日期时间处理方法汇总
May 09 Python
浅谈Python 字符串格式化输出(format/printf)
Jul 21 Python
Python数据结构之图的应用示例
May 11 Python
Python OpenCV处理图像之图像像素点操作
Jul 10 Python
python顺序的读取文件夹下名称有序的文件方法
Jul 11 Python
python pandas实现excel转为html格式的方法
Oct 23 Python
在Pycharm中项目解释器与环境变量的设置方法
Oct 29 Python
python整合ffmpeg实现视频文件的批量转换
May 31 Python
PyQt5使用QTimer实现电子时钟
Jul 29 Python
Python全面分析系统的时域特性和频率域特性
Feb 26 Python
Django Serializer HiddenField隐藏字段实例
Mar 31 Python
用Python 执行cmd命令
Dec 18 Python
python并发2之使用asyncio处理并发
Dec 21 #Python
利用Python暴力破解zip文件口令的方法详解
Dec 21 #Python
Python人脸识别初探
Dec 21 #Python
python中判断文件编码的chardet(实例讲解)
Dec 21 #Python
python 设置文件编码格式的实现方法
Dec 21 #Python
Python+OpenCV人脸检测原理及示例详解
Oct 19 #Python
Python 查看文件的编码格式方法
Dec 21 #Python
You might like
Zend studio for eclipse中使php可以调用mysql相关函数的设置方法
2008/10/13 PHP
php mb_substr()函数截取中文字符串应用示例
2014/07/29 PHP
ThinkPHP实现动态包含文件的方法
2014/11/29 PHP
Yii框架登录流程分析
2014/12/03 PHP
php+jQuery+Ajax实现点赞效果的方法(附源码下载)
2020/07/21 PHP
PHP使用Nginx实现反向代理
2017/09/20 PHP
thinkphp5 migrate数据库迁移工具
2018/02/20 PHP
windows环境下使用Composer安装ThinkPHP5
2018/05/18 PHP
用javascript实现无刷新更新数据的详细步骤 asp
2006/12/26 Javascript
使用javascript获取flash加载的百分比的实现代码
2011/05/25 Javascript
jQuery的Scrollify插件实现滑动到页面下一节点
2015/07/05 Javascript
javascript弹出窗口实现代码
2015/11/12 Javascript
Nodejs express框架一个工程中同时使用ejs模版和jade模版
2015/12/28 NodeJs
jQuery中实现prop()函数控制多选框(全选,反选)
2016/08/19 Javascript
Vue.js实现一个SPA登录页面的过程【推荐】
2017/04/29 Javascript
Angular2 组件间通过@Input @Output通讯示例
2017/08/24 Javascript
详解Nodejs内存治理
2018/05/13 NodeJs
[36:13]Mineski vs iG 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
简单理解Python中的装饰器
2015/07/31 Python
python与sqlite3实现解密chrome cookie实例代码
2018/01/20 Python
Python的CGIHTTPServer交互实现详解
2018/02/08 Python
PyCharm2019安装教程及其使用(图文教程)
2019/09/29 Python
python使用pymongo与MongoDB基本交互操作示例
2020/04/09 Python
基于python生成英文版词云图代码实例
2020/05/16 Python
canvas像素画板的实现代码
2018/11/21 HTML / CSS
哈利波特商店:Harry Potter Shop
2018/11/30 全球购物
安全的后院和健身蹦床:JumpSport
2019/07/15 全球购物
简述数据库的设计过程
2015/06/22 面试题
毕业生造价工程师求职信
2013/10/17 职场文书
名人演讲稿范文
2014/09/16 职场文书
小区环境卫生倡议书
2015/04/29 职场文书
2015年环保局工作总结
2015/05/22 职场文书
微观世界观后感
2015/06/10 职场文书
珍惜时间的诗歌赏析
2019/08/23 职场文书
Python干货实战之八音符酱小游戏全过程详解
2021/10/24 Python
Windows server 2016服务器基本设置
2022/08/14 Servers