python实现关键词提取的示例讲解


Posted in Python onApril 28, 2018

新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~

今天我来弄一个简单的关键词提取的代码

文章内容关键词的提取分为三大步:

(1) 分词

(2) 去停用词

(3) 关键词提取

分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。

具体代码如下:

import jieba
import jieba.analyse
#第一步:分词,这里使用结巴分词全模式
text = '''新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会、传播信息、反映时代的一种文体,具有真实性、时效性、简洁性、可读性、准确性的特点。新闻概念有广义与狭义之分。就其广义而言,除了发表于报刊、广播、电视上的评论与专文外的常用文本都属于新闻之列,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等。狭义的新闻则专指消息,消息是用概括的叙述方式,比较简明扼要的文字,迅速及时地报道国内外新近发生的、有价值的的事实。新闻也分公众新闻和小道新闻等。每则新闻在结构上,一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法上主要是叙述,有时兼有议论、描写、评论等。
'''
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))
#第二步:去停用词
#这里是有一个文件存放要改的文章,一个文件存放停用表,然后和停用表里的词比较,一样的就删掉,最后把结果存放在一个文件中
stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
final = ""
for word in fenci_text:
  if word not in stopwords:
    if (word != "。" and word != ",") :
      final = final + " " + word
print(final)
#第三步:提取关键词
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
print(a)
#text 为待提取的文本
# topK:返回几个 TF/IDF 权重最大的关键词,默认值为20。
# withWeight:是否一并返回关键词权重值,默认值为False。
# allowPOS:仅包括指定词性的词,默认值为空,即不进行筛选。

运行结果:

runfile('D:/Data/文本挖掘/xiaojieba.py', wdir='D:/Data/文本挖掘')
 新闻 消息 指 报纸 、 电台 、 电视台 、 互联网 记录 社会 、 传播 信息 、 时代 一种 文体 真实性 、 时效性 、 简洁性 、 可读性 、 准确性 新闻 概念 广义 狭义 之分 广义 发表 报刊 、 广播 、 电视 评论 专文 外 常用 文本 新闻 列 包括 消息 、 通讯 、 特写 、 速写 ( 速写 纳入 特写 列 ) 狭义 新闻 专指 消息 消息 概括 叙述 方式 简明扼要 文字 报道 国内外 新近 发生 、 价值 事实 新闻 分 公众 新闻 小道 新闻 每则 新闻 在结构上 包括 标题 、 导语 、 主体 、 背景 结语 五 前 三者 二者 辅助 写法 叙述 兼有 议论 、 描写 、 评论 
[('新闻', 0.4804811569680808), ('速写', 0.2121107125313131), ('消息', 0.20363211136040404), ('特写', 0.20023623445272729), ('狭义', 0.16168734917858588)]

好啦,是不是很简单?

以上这篇python实现关键词提取的示例讲解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python基础之函数用法实例详解
Sep 10 Python
python实现基于两张图片生成圆角图标效果的方法
Mar 26 Python
python中__slots__用法实例
Jun 04 Python
Python文件操作之合并文本文件内容示例代码
Sep 19 Python
python获取多线程及子线程的返回值
Nov 15 Python
python使用TensorFlow进行图像处理的方法
Feb 28 Python
基于DataFrame筛选数据与loc的用法详解
May 18 Python
django drf框架中的user验证以及JWT拓展的介绍
Aug 12 Python
python 并发下载器实现方法示例
Nov 22 Python
keras的三种模型实现与区别说明
Jul 03 Python
利用Python将多张图片合成视频的实现
Nov 23 Python
Python干货实战之八音符酱小游戏全过程详解
Oct 24 Python
python实现扫描日志关键字的示例
Apr 28 #Python
python socket网络编程之粘包问题详解
Apr 28 #Python
在Windows中设置Python环境变量的实例讲解
Apr 28 #Python
PyTorch快速搭建神经网络及其保存提取方法详解
Apr 28 #Python
对Python中type打开文件的方式介绍
Apr 28 #Python
PyTorch上搭建简单神经网络实现回归和分类的示例
Apr 28 #Python
TensorFlow实现非线性支持向量机的实现方法
Apr 28 #Python
You might like
PHP获取搜索引擎关键字来源的函数(支持百度和谷歌等搜索引擎)
2012/10/03 PHP
thinkPHP和onethink微信支付插件分享
2019/08/11 PHP
论坛里点击别人帖子下面的回复,回复标题变成“回复 24# 的帖子”
2009/06/14 Javascript
实现png图片和png背景透明(支持多浏览器)的方法
2009/09/08 Javascript
js函数返回多个返回值的示例代码
2013/11/05 Javascript
JS正则表达式验证数字代码
2014/01/28 Javascript
jQuery实现点击后标记当前菜单位置(背景高亮菜单)效果
2015/08/22 Javascript
整理Javascript函数学习笔记
2015/12/01 Javascript
jQuery插件开发汇总
2016/05/15 Javascript
JS正则子匹配实例分析
2016/12/22 Javascript
vuejs指令详解
2017/02/07 Javascript
js实现一键复制功能
2017/03/16 Javascript
Django+vue跨域问题解决的详细步骤
2019/01/20 Javascript
javascript验证form表单数据的案例详解
2019/03/25 Javascript
原生js+canvas实现下雪效果
2020/08/02 Javascript
基于wxpython实现的windows GUI程序实例
2015/05/30 Python
Win7下Python与Tensorflow-CPU版开发环境的安装与配置过程
2018/01/04 Python
Django url,从一个页面调到另个页面的方法
2019/08/21 Python
python 实现保存最新的三份文件,其余的都删掉
2019/12/22 Python
pytorch中tensor.expand()和tensor.expand_as()函数详解
2019/12/27 Python
对Python中 \r, \n, \r\n的彻底理解
2020/03/06 Python
一款基于css3和jquery实现的动画显示弹出层按钮教程
2015/01/04 HTML / CSS
html5 canvas 简单画板实现代码
2012/01/05 HTML / CSS
Swisse官方海外旗舰店:澳大利亚销量领先,自然健康品牌
2017/12/15 全球购物
澳大利亚在线生活方式商店:Mytopia
2018/07/08 全球购物
计算机工程学院个人求职信
2013/10/05 职场文书
人力资源管理专业应届生求职信
2014/04/24 职场文书
财务会计专业自荐书
2014/06/30 职场文书
村党支部书记四风问题个人对照检查材料思想汇报
2014/10/06 职场文书
经典导游欢迎词
2015/01/26 职场文书
秦始皇兵马俑导游词
2015/02/02 职场文书
法学专业求职信范文
2015/03/19 职场文书
入伍通知书
2015/04/23 职场文书
雷锋的观后感
2015/06/10 职场文书
Python绘制地图神器folium的新人入门指南
2021/05/23 Python
Oracle删除归档日志及添加定时任务
2022/06/28 Oracle