python实现关键词提取的示例讲解


Posted in Python onApril 28, 2018

新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~

今天我来弄一个简单的关键词提取的代码

文章内容关键词的提取分为三大步:

(1) 分词

(2) 去停用词

(3) 关键词提取

分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。

具体代码如下:

import jieba
import jieba.analyse
#第一步:分词,这里使用结巴分词全模式
text = '''新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会、传播信息、反映时代的一种文体,具有真实性、时效性、简洁性、可读性、准确性的特点。新闻概念有广义与狭义之分。就其广义而言,除了发表于报刊、广播、电视上的评论与专文外的常用文本都属于新闻之列,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等。狭义的新闻则专指消息,消息是用概括的叙述方式,比较简明扼要的文字,迅速及时地报道国内外新近发生的、有价值的的事实。新闻也分公众新闻和小道新闻等。每则新闻在结构上,一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法上主要是叙述,有时兼有议论、描写、评论等。
'''
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))
#第二步:去停用词
#这里是有一个文件存放要改的文章,一个文件存放停用表,然后和停用表里的词比较,一样的就删掉,最后把结果存放在一个文件中
stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
final = ""
for word in fenci_text:
  if word not in stopwords:
    if (word != "。" and word != ",") :
      final = final + " " + word
print(final)
#第三步:提取关键词
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
print(a)
#text 为待提取的文本
# topK:返回几个 TF/IDF 权重最大的关键词,默认值为20。
# withWeight:是否一并返回关键词权重值,默认值为False。
# allowPOS:仅包括指定词性的词,默认值为空,即不进行筛选。

运行结果:

runfile('D:/Data/文本挖掘/xiaojieba.py', wdir='D:/Data/文本挖掘')
 新闻 消息 指 报纸 、 电台 、 电视台 、 互联网 记录 社会 、 传播 信息 、 时代 一种 文体 真实性 、 时效性 、 简洁性 、 可读性 、 准确性 新闻 概念 广义 狭义 之分 广义 发表 报刊 、 广播 、 电视 评论 专文 外 常用 文本 新闻 列 包括 消息 、 通讯 、 特写 、 速写 ( 速写 纳入 特写 列 ) 狭义 新闻 专指 消息 消息 概括 叙述 方式 简明扼要 文字 报道 国内外 新近 发生 、 价值 事实 新闻 分 公众 新闻 小道 新闻 每则 新闻 在结构上 包括 标题 、 导语 、 主体 、 背景 结语 五 前 三者 二者 辅助 写法 叙述 兼有 议论 、 描写 、 评论 
[('新闻', 0.4804811569680808), ('速写', 0.2121107125313131), ('消息', 0.20363211136040404), ('特写', 0.20023623445272729), ('狭义', 0.16168734917858588)]

好啦,是不是很简单?

以上这篇python实现关键词提取的示例讲解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用PyV8执行javascript代码示例分享
Dec 04 Python
python3.3实现乘法表示例
Feb 07 Python
对于Python中线程问题的简单讲解
Apr 03 Python
python去除空格和换行符的实现方法(推荐)
Jan 04 Python
Python实现将sqlite数据库导出转成Excel(xls)表的方法
Jul 17 Python
Python中的枚举类型示例介绍
Jan 09 Python
Python基于Logistic回归建模计算某银行在降低贷款拖欠率的数据示例
Jan 23 Python
PyTorch基本数据类型(一)
May 22 Python
python基于递归解决背包问题详解
Jul 03 Python
Python爬虫爬取煎蛋网图片代码实例
Dec 16 Python
详解opencv中画圆circle函数和椭圆ellipse函数
Dec 27 Python
keras得到每层的系数方式
Jun 15 Python
python实现扫描日志关键字的示例
Apr 28 #Python
python socket网络编程之粘包问题详解
Apr 28 #Python
在Windows中设置Python环境变量的实例讲解
Apr 28 #Python
PyTorch快速搭建神经网络及其保存提取方法详解
Apr 28 #Python
对Python中type打开文件的方式介绍
Apr 28 #Python
PyTorch上搭建简单神经网络实现回归和分类的示例
Apr 28 #Python
TensorFlow实现非线性支持向量机的实现方法
Apr 28 #Python
You might like
全国FM电台频率大全 - 28 甘肃省
2020/03/11 无线电
PHP小教程之实现双向链表
2014/06/12 PHP
Gird组件 Part-3:范例RSSFeed Viewer
2007/03/10 Javascript
javascript页面动态显示时间变化示例代码
2013/12/18 Javascript
js select option对象小结
2013/12/20 Javascript
JSuggest自动匹配下拉框使用方法(示例代码)
2013/12/27 Javascript
jQuery获得内容和属性示例代码
2014/01/16 Javascript
JavaScript动态改变HTML页面元素例如添加或删除
2014/08/10 Javascript
一款由jquery实现的整屏切换特效
2014/09/15 Javascript
js交换排序 冒泡排序算法(Javascript版)
2014/10/04 Javascript
jquery实现图片左右切换的方法
2015/05/07 Javascript
js中unicode转码方法详解
2015/10/09 Javascript
浅谈JavaScript前端开发的MVC结构与MVVM结构
2016/06/03 Javascript
jQuery实现表格行和列的动态添加与删除方法【测试可用】
2016/08/01 Javascript
chrome下判断点击input上标签还是其余标签的实现方法
2016/09/18 Javascript
JS实现页面中所有img对象添加onclick事件及新窗口查看图片的方法
2016/12/27 Javascript
Bootstrap进度条学习使用
2017/02/09 Javascript
Bootstrap输入框组件简单实现代码
2017/03/06 Javascript
微信小程序 五星评价功能的实现
2017/03/09 Javascript
移动设备手势事件库Touch.js使用详解
2017/08/18 Javascript
前端js中的事件循环eventloop机制详解
2019/05/15 Javascript
JS+CSS实现动态时钟
2021/02/19 Javascript
python模拟登录并且保持cookie的方法详解
2017/04/04 Python
Python编程之列表操作实例详解【创建、使用、更新、删除】
2017/07/22 Python
一篇文章搞定Python操作文件与目录
2019/08/13 Python
Python3 无重复字符的最长子串的实现
2019/10/08 Python
dpn网络的pytorch实现方式
2020/01/14 Python
python Xpath语法的使用
2020/11/26 Python
CSS3实现超酷的黑猫警长首页
2016/04/26 HTML / CSS
几道Java和数据库的面试题
2013/05/30 面试题
2014年大学庆元旦迎新年活动方案
2014/03/09 职场文书
本科毕业生求职信
2014/06/15 职场文书
科学发展观演讲稿
2014/09/11 职场文书
银行求职自荐信范文
2015/03/04 职场文书
初中班级口号霸气押韵
2015/12/24 职场文书
2019最新劳动仲裁申请书!
2019/07/08 职场文书