编程 Python

python编写朴素贝叶斯用于文本分类

Posted in Python onDecember 21, 2017

朴素贝叶斯估计

朴素贝叶斯是基于贝叶斯定理与特征条件独立分布假设的分类方法。首先根据特征条件独立的假设学习输入/输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。
具体的，根据训练数据集，学习先验概率的极大似然估计分布

python编写朴素贝叶斯用于文本分类

以及条件概率为

python编写朴素贝叶斯用于文本分类

Xl表示第l个特征，由于特征条件独立的假设，可得

python编写朴素贝叶斯用于文本分类

条件概率的极大似然估计为

python编写朴素贝叶斯用于文本分类

根据贝叶斯定理

python编写朴素贝叶斯用于文本分类

则由上式可以得到条件概率P(Y=ck|X=x)。

贝叶斯估计

用极大似然估计可能会出现所估计的概率为0的情况。后影响到后验概率结果的计算，使分类产生偏差。采用如下方法解决。
条件概率的贝叶斯改为

python编写朴素贝叶斯用于文本分类

其中Sl表示第l个特征可能取值的个数。
同样，先验概率的贝叶斯估计改为

$$
P(Y=c_k) = \frac{\sum\limits_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}
$K$

表示Y的所有可能取值的个数，即类型的个数。
具体意义是，给每种可能初始化出现次数为1，保证每种可能都出现过一次，来解决估计为0的情况。

文本分类

朴素贝叶斯分类器可以给出一个最有结果的猜测值，并给出估计概率。通常用于文本分类。
分类核心思想为选择概率最大的类别。贝叶斯公式如下：

python编写朴素贝叶斯用于文本分类

词条：将每个词出现的次数作为特征。
假设每个特征相互独立，即每个词相互独立，不相关。则

python编写朴素贝叶斯用于文本分类

完整代码如下;

import numpy as np
import re
import feedparser
import operator
def loadDataSet():
 postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
     ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
     ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
     ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
     ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
     ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
 classVec = [0,1,0,1,0,1] #1 is abusive, 0 not
 return postingList,classVec

def createVocabList(data): #创建词向量
 returnList = set([])
 for subdata in data:
  returnList = returnList | set(subdata)
 return list(returnList)


def setofWords2Vec(vocabList,data):  #将文本转化为词条

 returnList = [0]*len(vocabList)
 for vocab in data:
  if vocab in vocabList:
   returnList[vocabList.index(vocab)] += 1
 return returnList


def trainNB0(trainMatrix,trainCategory):  #训练，得到分类概率
 pAbusive = sum(trainCategory)/len(trainCategory)
 p1num = np.ones(len(trainMatrix[0]))
 p0num = np.ones(len(trainMatrix[0]))
 p1Denom = 2
 p0Denom = 2
 for i in range(len(trainCategory)):
  if trainCategory[i] == 1:
   p1num = p1num + trainMatrix[i]
   p1Denom = p1Denom + sum(trainMatrix[i])
  else:
   p0num = p0num + trainMatrix[i]
   p0Denom = p0Denom + sum(trainMatrix[i])
 p1Vect = np.log(p1num/p1Denom)
 p0Vect = np.log(p0num/p0Denom)
 return p0Vect,p1Vect,pAbusive


def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1): #分类
 p0 = sum(vec2Classify*p0Vec)+np.log(1-pClass1)
 p1 = sum(vec2Classify*p1Vec)+np.log(pClass1)
 if p1 > p0:
  return 1
 else:
  return 0
def textParse(bigString):   #文本解析
 splitdata = re.split(r'\W+',bigString)
 splitdata = [token.lower() for token in splitdata if len(token) > 2]
 return splitdata
def spamTest():
 docList = []
 classList = []
 for i in range(1,26):
  with open('spam/%d.txt'%i) as f:
   doc = f.read()
  docList.append(doc)
  classList.append(1)
  with open('ham/%d.txt'%i) as f:
   doc = f.read()
  docList.append(doc)
  classList.append(0)
 vocalList = createVocabList(docList)
 trainList = list(range(50))
 testList = []
 for i in range(13):
  num = int(np.random.uniform(0,len(docList))-10)
  testList.append(trainList[num])
  del(trainList[num])
 docMatrix = []
 docClass = []
 for i in trainList:
  subVec = setofWords2Vec(vocalList,docList[i])
  docMatrix.append(subVec)
  docClass.append(classList[i])
 p0v,p1v,pAb = trainNB0(docMatrix,docClass)
 errorCount = 0
 for i in testList:
  subVec = setofWords2Vec(vocalList,docList[i])
  if classList[i] != classifyNB(subVec,p0v,p1v,pAb):
   errorCount += 1
 return errorCount/len(testList)

def calcMostFreq(vocabList,fullText):
 count = {}
 for vocab in vocabList:
  count[vocab] = fullText.count(vocab)
 sortedFreq = sorted(count.items(),key=operator.itemgetter(1),reverse=True)
 return sortedFreq[:30]

def localWords(feed1,feed0):
 docList = []
 classList = []
 fullText = []
 numList = min(len(feed1['entries']),len(feed0['entries']))
 for i in range(numList):
  doc1 = feed1['entries'][i]['summary']
  docList.append(doc1)
  classList.append(1)
  fullText.extend(doc1)
  doc0 = feed0['entries'][i]['summary']
  docList.append(doc0)
  classList.append(0)
  fullText.extend(doc0)
 vocabList = createVocabList(docList)
 top30Words = calcMostFreq(vocabList,fullText)
 for word in top30Words:
  if word[0] in vocabList:
   vocabList.remove(word[0])
 trainingSet = list(range(2*numList))
 testSet = []
 for i in range(20):
  randnum = int(np.random.uniform(0,len(trainingSet)-5))
  testSet.append(trainingSet[randnum])
  del(trainingSet[randnum])
 trainMat = []
 trainClass = []
 for i in trainingSet:
  trainClass.append(classList[i])
  trainMat.append(setofWords2Vec(vocabList,docList[i]))
 p0V,p1V,pSpam = trainNB0(trainMat,trainClass)
 errCount = 0
 for i in testSet:
  testData = setofWords2Vec(vocabList,docList[i])
  if classList[i] != classifyNB(testData,p0V,p1V,pSpam):
   errCount += 1
 return errCount/len(testData)
if __name__=="__main__":
 ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')
 sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')
 print(localWords(ny,sf))

编程技巧：

1.两个集合的并集

vocab = vocab | set(document)

2.创建元素全为零的向量

vec = [0]*10

代码及数据集下载：贝叶斯

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python编写朴素贝叶斯用于文本分类

- Author -

开贰锤

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实用日期时间处理方法汇总

May 09 Python

浅谈Python 字符串格式化输出(format/printf)

Jul 21 Python

Python数据结构之图的应用示例

May 11 Python

Python OpenCV处理图像之图像像素点操作

Jul 10 Python

python顺序的读取文件夹下名称有序的文件方法

Jul 11 Python

python pandas实现excel转为html格式的方法

Oct 23 Python

在Pycharm中项目解释器与环境变量的设置方法

Oct 29 Python

python整合ffmpeg实现视频文件的批量转换

May 31 Python

PyQt5使用QTimer实现电子时钟

Jul 29 Python

Python全面分析系统的时域特性和频率域特性

Feb 26 Python

Django Serializer HiddenField隐藏字段实例

Mar 31 Python

用Python 执行cmd命令

Dec 18 Python

python并发2之使用asyncio处理并发

Dec 21 #Python

利用Python暴力破解zip文件口令的方法详解

Dec 21 #Python

Python人脸识别初探

Dec 21 #Python

python中判断文件编码的chardet(实例讲解)

Dec 21 #Python

python 设置文件编码格式的实现方法

Dec 21 #Python

Python+OpenCV人脸检测原理及示例详解

Oct 19 #Python

Python 查看文件的编码格式方法

Dec 21 #Python

You might like

Zend studio for eclipse中使php可以调用mysql相关函数的设置方法

2008/10/13 PHP

php mb_substr()函数截取中文字符串应用示例

2014/07/29 PHP

ThinkPHP实现动态包含文件的方法

2014/11/29 PHP

Yii框架登录流程分析

2014/12/03 PHP

php+jQuery+Ajax实现点赞效果的方法(附源码下载)

2020/07/21 PHP

PHP使用Nginx实现反向代理

2017/09/20 PHP

thinkphp5 migrate数据库迁移工具

2018/02/20 PHP

windows环境下使用Composer安装ThinkPHP5

2018/05/18 PHP

用javascript实现无刷新更新数据的详细步骤 asp

2006/12/26 Javascript

使用javascript获取flash加载的百分比的实现代码

2011/05/25 Javascript

jQuery的Scrollify插件实现滑动到页面下一节点

2015/07/05 Javascript

javascript弹出窗口实现代码

2015/11/12 Javascript

Nodejs express框架一个工程中同时使用ejs模版和jade模版

2015/12/28 NodeJs

jQuery中实现prop()函数控制多选框(全选,反选)

2016/08/19 Javascript

Vue.js实现一个SPA登录页面的过程【推荐】

2017/04/29 Javascript

Angular2 组件间通过@Input @Output通讯示例

2017/08/24 Javascript

详解Nodejs内存治理

2018/05/13 NodeJs

[36:13]Mineski vs iG 2018国际邀请赛小组赛BO2 第一场 8.16

2018/08/17 DOTA

简单理解Python中的装饰器

2015/07/31 Python

python与sqlite3实现解密chrome cookie实例代码

2018/01/20 Python

Python的CGIHTTPServer交互实现详解

2018/02/08 Python

PyCharm2019安装教程及其使用(图文教程)

2019/09/29 Python

python使用pymongo与MongoDB基本交互操作示例

2020/04/09 Python

基于python生成英文版词云图代码实例

2020/05/16 Python

canvas像素画板的实现代码

2018/11/21 HTML / CSS

哈利波特商店：Harry Potter Shop

2018/11/30 全球购物

安全的后院和健身蹦床：JumpSport

2019/07/15 全球购物

简述数据库的设计过程

2015/06/22 面试题

毕业生造价工程师求职信

2013/10/17 职场文书

名人演讲稿范文

2014/09/16 职场文书

小区环境卫生倡议书

2015/04/29 职场文书

2015年环保局工作总结

2015/05/22 职场文书

微观世界观后感

2015/06/10 职场文书

珍惜时间的诗歌赏析

2019/08/23 职场文书

Python干货实战之八音符酱小游戏全过程详解

2021/10/24 Python

Windows server 2016服务器基本设置

2022/08/14 Servers