编程 Python

Python3 文章标题关键字提取的例子

Posted in Python onAugust 26, 2019

思路：

1.读取所有文章标题；

2.用“结巴分词”的工具包进行文章标题的词语分割；

3.用“sklearn”的工具包计算Tf-idf（词频-逆文档率）;

4.得到满足关键词权重阈值的词

结巴分词详见：结巴分词Github

sklearn详见：文本特征提取——4.2.3.4 Tf-idf项加权

import os
import jieba
import sys
from sklearn.feature_extraction.text import TfidfVectorizer
 
 
sys.path.append("../")
jieba.load_userdict('userdictTest.txt')
STOP_WORDS = set((
  "基于", "面向", "研究", "系统", "设计", "综述", "应用", "进展", "技术", "框架", "txt"
 ))
 
def getFileList(path):
 filelist = []
 files = os.listdir(path)
 for f in files:
  if f[0] == '.':
   pass
  else:
   filelist.append(f)
 return filelist, path
 
def fenci(filename, path, segPath):
 
 # 保存分词结果的文件夹
 if not os.path.exists(segPath):
  os.mkdir(segPath)
 seg_list = jieba.cut(filename)
 result = []
 for seg in seg_list:
  seg = ''.join(seg.split())
  if len(seg.strip()) >= 2 and seg.lower() not in STOP_WORDS:
   result.append(seg)
 
 # 将分词后的结果用空格隔开，保存至本地
 f = open(segPath + "/" + filename + "-seg.txt", "w+")
 f.write(' '.join(result))
 f.close()
 
def Tfidf(filelist, sFilePath, path, tfidfw):
 corpus = []
 for ff in filelist:
  fname = path + ff
  f = open(fname + "-seg.txt", 'r+')
  content = f.read()
  f.close()
  corpus.append(content)
 
 vectorizer = TfidfVectorizer() # 该类实现词向量化和Tf-idf权重计算
 tfidf = vectorizer.fit_transform(corpus)
 word = vectorizer.get_feature_names()
 weight = tfidf.toarray()
 
 if not os.path.exists(sFilePath):
  os.mkdir(sFilePath)
 
 for i in range(len(weight)):
  print('----------writing all the tf-idf in the ', i, 'file into ', sFilePath + '/', i, ".txt----------")
  f = open(sFilePath + "/" + str(i) + ".txt", 'w+')
  result = {}
  for j in range(len(word)):
   if weight[i][j] >= tfidfw:
    result[word[j]] = weight[i][j]
  resultsort = sorted(result.items(), key=lambda item: item[1], reverse=True)
  for z in range(len(resultsort)):
   f.write(resultsort[z][0] + " " + str(resultsort[z][1]) + '\r\n')
   print(resultsort[z][0] + " " + str(resultsort[z][1]))
  f.close()

TfidfVectorizer( ) 类实现了词向量化和Tf-idf权重的计算

词向量化：vectorizer.fit_transform是将corpus中保存的切分后的单词转为词频矩阵，其过程为先将所有标题切分的单词形成feature特征和列索引，并在dictionary中保存了{‘特征'：索引，……}，如{‘农业'：0，‘大数据'：1，……}，在csc_matric中为每个标题保存了 (标题下标，特征索引) 词频tf……，然后对dictionary中的单词进行排序重新编号，并对应更改csc_matric中的特征索引，以便形成一个特征向量词频矩阵，接着计算每个feature的idf权重，其计算公式为 Python3 文章标题关键字提取的例子其中是所有文档数量，是包含该单词的文档数。最后计算tf*idf并进行正则化，得到关键词权重。

以下面六个文章标题为例进行关键词提取

Python3 文章标题关键字提取的例子

Using jieba on 农业大数据研究与应用进展综述.txt

Using jieba on 基于Hadoop的分布式并行增量爬虫技术研究.txt

Using jieba on 基于RPA的财务共享服务中心账表核对流程优化.txt

Using jieba on 基于大数据的特征趋势统计系统设计.txt

Using jieba on 网络大数据平台异常风险监测系统设计.txt

Using jieba on 面向数据中心的多源异构数据统一访问框架.txt

----------writing all the tf-idf in the 0 file into ./keywords/ 0 .txt----------

农业 0.773262366783

大数据 0.634086202434

----------writing all the tf-idf in the 1 file into ./keywords/ 1 .txt----------

hadoop 0.5

分布式 0.5

并行增量 0.5

爬虫 0.5

----------writing all the tf-idf in the 2 file into ./keywords/ 2 .txt----------

rpa 0.408248290464

优化 0.408248290464

服务中心 0.408248290464

流程 0.408248290464

财务共享 0.408248290464

账表核对 0.408248290464

----------writing all the tf-idf in the 3 file into ./keywords/ 3 .txt----------

特征 0.521823488025

统计 0.521823488025

趋势 0.521823488025

大数据 0.427902724969

----------writing all the tf-idf in the 4 file into ./keywords/ 4 .txt----------

大数据平台 0.4472135955

异常 0.4472135955

监测 0.4472135955

网络 0.4472135955

风险 0.4472135955

----------writing all the tf-idf in the 5 file into ./keywords/ 5 .txt----------

多源异构数据 0.57735026919

数据中心 0.57735026919

统一访问 0.57735026919

以上这篇Python3 文章标题关键字提取的例子就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python3 文章标题关键字提取的例子

- Author -

Muzi_Water

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python素数检测实例分析

Jun 15 Python

Django中模型Model添加JSON类型字段的方法

Jun 17 Python

python读取txt文件并取其某一列数据的示例

Feb 19 Python

python selenium firefox使用详解

Feb 26 Python

关于python3中setup.py小概念解析

Aug 22 Python

python识别文字(基于tesseract)代码实例

Aug 24 Python

python分布式编程实现过程解析

Nov 08 Python

Python SQLAlchemy入门教程(基本用法)

Nov 11 Python

python GUI库图形界面开发之PyQt5窗口类QMainWindow详细使用方法

Feb 26 Python

Python编程快速上手——strip()函数的正则表达式实现方法分析

Feb 29 Python

10个顶级Python实用库推荐

Mar 04 Python

Python 多线程处理任务实例

Nov 07 Python

python实现的爬取电影下载链接功能示例

Aug 26 #Python

Python使用itchat模块实现简单的微信控制电脑功能示例

Aug 26 #Python

Python3.6实现根据电影名称（支持电视剧名称），获取下载链接的方法

Aug 26 #Python

Golang GBK转UTF-8的例子

Aug 26 #Python

利用python实现周期财务统计可视化

Aug 25 #Python

Python爬虫运用正则表达式的方法和优缺点

Aug 25 #Python

numpy求平均值的维度设定的例子

Aug 24 #Python

You might like

如何将数据从文本导入到mysql

2006/10/09 PHP

Win2003服务器安全加固设置－-进一步提高服务器安全性

2007/05/23 PHP

php出现内存位置访问无效错误问题解决方法

2014/08/16 PHP

PHP安装memcache扩展的步骤讲解

2019/02/14 PHP

javascript 函数速查表

2010/02/07 Javascript

Jquery Ajax学习实例3 向WebService发出请求，调用方法返回数据

2010/03/16 Javascript

javascript加号"+"的二义性说明

2013/03/04 Javascript

JavaScript转换二进制编码为ASCII码的方法

2015/04/16 Javascript

jQuery实现带延迟的二级tab切换下拉列表效果

2015/09/01 Javascript

jQuery中attr()与prop()函数用法实例详解(附用法区别)

2015/12/29 Javascript

JavaScript是如何实现继承的(六种方式)

2016/03/31 Javascript

详解webpack es6 to es5支持配置

2017/05/04 Javascript

Vue.js对象转换实例

2017/06/07 Javascript

基于JavaScript+HTML5 实现打地鼠小游戏逻辑流程图文详解(附完整代码)

2017/11/02 Javascript

vue 自定义 select内置组件

2018/04/10 Javascript

微信小程序仿朋友圈发布动态功能

2018/07/15 Javascript

vue+element实现打印页面功能

2019/05/20 Javascript

微信小程序如何引用外部js，外部样式，公共页面模板

2019/07/23 Javascript

[01:03:22]LGD vs OG 2018国际邀请赛淘汰赛BO3 第一场 8.25

2018/08/29 DOTA

[01:10:27]DOTA2-DPC中国联赛正赛 SAG vs XG BO3 第二场 3月5日

2021/03/11 DOTA

编写同时兼容Python2.x与Python3.x版本的代码的几个示例

2015/03/30 Python

简单介绍Python中的RSS处理

2015/04/13 Python

python 通过字符串调用对象属性或方法的实例讲解

2018/04/21 Python

Python面向对象程序设计OOP入门教程【类,实例,继承,重载等】

2019/01/05 Python

Python下opencv图像阈值处理的使用笔记

2019/08/04 Python

使用Matplotlib 绘制精美的数学图形例子

2019/12/13 Python

tensorflow中tf.slice和tf.gather切片函数的使用

2020/01/19 Python

基于Python爬取51cto博客页面信息过程解析

2020/08/25 Python

python 代码运行时间获取方式详解

2020/09/18 Python

浅析Python中字符串的intern机制

2020/10/03 Python

HTML5 video进入全屏和退出全屏的实现方法

2020/07/28 HTML / CSS

Sneaker Studio罗马尼亚网站：购买运动鞋

2018/11/04 全球购物

Linux如何压缩可执行文件

2014/03/27 面试题

普罗米修斯教学反思

2014/02/06 职场文书

销售合作意向书范本

2015/05/08 职场文书

绿里奇迹观后感

2015/06/15 职场文书