编程 Python

python实现TF-IDF算法解析

Posted in Python onJanuary 02, 2018

TF-IDF（term frequency?inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。

同样，理论我这里不再赘述，因为和阮一峰大神早在2013年就将TF-IDF用一种非常通俗的方式讲解出来

材料

1.语料库（已分好词）
2.停用词表（哈工大停用词表）
3.python3.5

语料库的准备

这里使用的语料库是《人民日报》2015年1月16日至1月18日的发表的新闻。并且在进行TFIDF处理之前已经进行了人工分词（当然也可以使用jieba分词，但效果不好）

三天的新闻篇章数量如下：

python实现TF-IDF算法解析

语料库中共103篇新闻。每篇新闻存入在txt文件中，编码为UTF-8无BOM

这里放一篇文章示例下：

python实现TF-IDF算法解析

我在自己的项目路径下新建一个corpus的文件夹，用于存放已经分好词待计算的语料。corpus文件夹的架构如下：

python实现TF-IDF算法解析

2015年1月16日至1月18日共三天，每天可获取的新闻分了四版，因此针对每一天下的每一版我又分别建了编号为1、2、3、4的文件夹，用于存放每一版的新闻。

其实也没必要这么麻烦，可以直接把所有的新闻都放到一个文件夹下，只是我个人的文件管理习惯。当然放到数据库里面更好。

关于停用词表

较好用的停用词表有哈工大停用词表、百度停用词表、川大停用词表，网上一查一大堆。我这里选择的是哈工大停用词表。

代码实现

# -*- coding: utf-8 -*-
# @Date   : 2017-04-11 09:31:55
# @Author  : Alan Lau (rlalan@outlook.com)
# @Language : Python3.5
import os
import codecs
import math
import operator


def fun(filepath): # 遍历文件夹中的所有文件，返回文件list
  arr = []
  for root, dirs, files in os.walk(filepath):
    for fn in files:
      arr.append(root+"\\"+fn)
  return arr


def wry(txt, path): # 写入txt文件
  f = codecs.open(path, 'a', 'utf8')
  f.write(txt)
  f.close()
  return path


def read(path): # 读取txt文件，并返回list
  f = open(path, encoding="utf8")
  data = []
  for line in f.readlines():
    data.append(line)
  return data


def toword(txtlis): # 将一片文章按照‘/'切割成词表，返回list
  wordlist = []
  alltxt = ''
  for i in txtlis:
    alltxt = alltxt+str(i)
  ridenter = alltxt.replace('\n', '')
  wordlist = ridenter.split('/')
  return wordlist


def getstopword(path): # 获取停用词表
  swlis = []
  for i in read(path):
    outsw = str(i).replace('\n', '')
    swlis.append(outsw)
  return swlis


def getridofsw(lis, swlist): # 去除文章中的停用词
  afterswlis = []
  for i in lis:
    if str(i) in swlist:
      continue
    else:
      afterswlis.append(str(i))
  return afterswlis


def freqword(wordlis): # 统计词频，并返回字典
  freword = {}
  for i in wordlis:
    if str(i) in freword:
      count = freword[str(i)]
      freword[str(i)] = count+1
    else:
      freword[str(i)] = 1
  return freword


def corpus(filelist, swlist): # 建立语料库
  alllist = []
  for i in filelist:
    afterswlis = getridofsw(toword(read(str(i))), swlist)
    alllist.append(afterswlis)
  return alllist


def wordinfilecount(word, corpuslist): # 查出包含该词的文档数
  count = 0 # 计数器
  for i in corpuslist:
    for j in i:
      if word in set(j): # 只要文档出现该词，这计数器加1，所以这里用集合
        count = count+1
      else:
        continue
  return count


def tf_idf(wordlis, filelist, corpuslist): # 计算TF-IDF,并返回字典
  outdic = {}
  tf = 0
  idf = 0
  dic = freqword(wordlis)
  outlis = []
  for i in set(wordlis):
    tf = dic[str(i)]/len(wordlis) # 计算TF：某个词在文章中出现的次数/文章总词数
    # 计算IDF：log(语料库的文档总数/(包含该词的文档数+1))
    idf = math.log(len(filelist)/(wordinfilecount(str(i), corpuslist)+1))
    tfidf = tf*idf # 计算TF-IDF
    outdic[str(i)] = tfidf
  orderdic = sorted(outdic.items(), key=operator.itemgetter(
    1), reverse=True) # 给字典排序
  return orderdic


def befwry(lis): # 写入预处理，将list转为string
  outall = ''
  for i in lis:
    ech = str(i).replace("('", '').replace("',", '\t').replace(')', '')
    outall = outall+'\t'+ech+'\n'
  return outall


def main():
  swpath = r'D:\Alan\myBlog\20170411《人民日报》TFIDF\code\哈工大停用词表.txt'#停用词表路径
  swlist = getstopword(swpath) # 获取停用词表列表

  filepath = r'D:\Alan\myBlog\20170411《人民日报》TFIDF\corpus'
  filelist = fun(filepath) # 获取文件列表

  wrypath = r'D:\Alan\myBlog\20170411《人民日报》TFIDF\result\TFIDF.txt'

  corpuslist = corpus(filelist, swlist) # 建立语料库

  outall = ''

  for i in filelist:
    afterswlis = getridofsw(toword(read(str(i))), swlist) # 获取每一篇已经去除停用的词表
    tfidfdic = tf_idf(afterswlis, filelist, corpuslist) # 计算TF-IDF

    titleary = str(i).split('\\')
    title = str(titleary[-1]).replace('utf8.txt', '')
    echout = title+'\n'+befwry(tfidfdic)
    print(title+' is ok!')
    outall = outall+echout
  print(wry(outall, wrypath)+' is ok!')

if __name__ == '__main__':
  main()

运行效果：

python实现TF-IDF算法解析

最终结果

这里放两篇新闻的TFIDF

python实现TF-IDF算法解析

可以看到，第一篇新闻的关键词可以认为为：核工业、发展、安全

第二篇新闻：习近平总书记、廉政、党风

关于\u3000\u3000这个问题实在不知道怎么替换掉，各种方法使用过了，不知哪位大神看到恳请指点下。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python实现TF-IDF算法解析

- Author -

AlanConstantineLau

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

介绍Python中的一些高级编程技巧

Apr 02 Python

Windows和Linux下Python输出彩色文字的方法教程

May 02 Python

Python批量查询域名是否被注册过

Jun 21 Python

python调用webservice接口的实现

Jul 12 Python

python项目对接钉钉SDK的实现

Jul 15 Python

python base64库给用户名或密码加密的流程

Jan 02 Python

Tensorflow的常用矩阵生成方式

Jan 04 Python

keras 特征图可视化实例(中间层)

Jan 24 Python

python使用建议技巧分享（三）

Aug 18 Python

python中pivot()函数基础知识点

Jan 03 Python

python用字节处理文件实例讲解

Apr 13 Python

python实现xlsx文件分析详解

Jan 02 #Python

Python实现KNN邻近算法

Jan 28 #Python

Python+matplotlib+numpy绘制精美的条形统计图

Jan 02 #Python

基于Python实现的ID3决策树功能示例

Jan 02 #Python

python实现基于SVM手写数字识别功能

May 27 #Python

Python中字典的浅拷贝与深拷贝用法实例分析

Jan 02 #Python

python+matplotlib绘制简单的海豚（顶点和节点的操作）

Jan 02 #Python

You might like

PHP上传图片进行等比缩放可增加水印功能

2014/01/13 PHP

PHP编写RESTful接口

2016/02/23 PHP

PHP单元测试框架PHPUnit用法详解

2019/01/23 PHP

mac pecl 安装php7.1扩展教程

2019/10/17 PHP

脚本之家贴图转换+转贴工具用到的js代码超级推荐

2007/04/05 Javascript

javascript 去字符串空格终极版(支持utf8)

2009/11/14 Javascript

extjs实现选择多表自定义查询功能前台部分(ext源码)

2011/12/20 Javascript

JQuery加载图片自适应固定大小的DIV

2013/09/12 Javascript

jQuery qrcode生成二维码的方法

2016/04/03 Javascript

Bootstrap模态对话框的简单使用

2016/04/29 Javascript

AngularJS基础 ng-list 指令详解及示例代码

2016/08/02 Javascript

Jquery树插件zTree实现菜单树

2017/01/24 Javascript

jQuery插件echarts实现的去掉X轴、Y轴和网格线效果示例【附demo源码下载】

2017/03/04 Javascript

Mac系统下Webstorm快捷键整理大全

2017/05/28 Javascript

React-Native之定时器Timer的实现代码

2017/10/04 Javascript

关于React动态加载路由处理的相关问题

2019/01/07 Javascript

小程序getLocation需要在app.json中声明permission字段

2019/04/04 Javascript

微信小程序实现侧边栏分类

2019/10/21 Javascript

js实现从右往左匀速显示图片（无缝轮播）

2020/06/29 Javascript

python中pygame针对游戏窗口的显示方法实例分析(附源码)

2015/11/11 Python

python执行系统命令后获取返回值的几种方式集合

2018/05/12 Python

Flask核心机制之上下文源码剖析

2018/12/25 Python

CSS中垂直居中的简单实现方法

2015/07/06 HTML / CSS

澳大利亚牛仔裤商店：Just Jeans

2016/10/13 全球购物

美国最大的农村生活方式零售店：Tractor Supply Company（TSC）

2017/05/15 全球购物

Expedia印度尼西亚站：预订酒店、廉价航班和度假套餐

2018/01/31 全球购物

C#公司笔试题

2014/03/28 面试题

经典优秀毕业生求职信范文分享

2013/12/18 职场文书

会计系中文个人求职信

2013/12/24 职场文书

产品促销活动策划书

2014/01/15 职场文书

求职者怎样写自荐信

2014/04/13 职场文书

项目合作意向书模板

2014/07/29 职场文书

公安派出所所长四风问题个人对照检查材料

2014/10/04 职场文书

五好家庭事迹材料

2014/12/20 职场文书

2015年财务工作总结范文

2015/03/31 职场文书

CSS的calc函数用法小结

2022/06/25 HTML / CSS