编程 Python

python实现关键词提取的示例讲解

Posted in Python onApril 28, 2018

新人小菜鸟又来写博客啦！！！没人表示不开心~~(>_<)~~

今天我来弄一个简单的关键词提取的代码

文章内容关键词的提取分为三大步：

（1）分词

（2）去停用词

（3）关键词提取

分词方法有很多，我这里就选择常用的结巴jieba分词；去停用词，我用了一个停用词表。

具体代码如下：

import jieba
import jieba.analyse
#第一步：分词，这里使用结巴分词全模式
text = '''新闻，也叫消息，是指报纸、电台、电视台、互联网经常使用的记录社会、传播信息、反映时代的一种文体，具有真实性、时效性、简洁性、可读性、准确性的特点。新闻概念有广义与狭义之分。就其广义而言，除了发表于报刊、广播、电视上的评论与专文外的常用文本都属于新闻之列，包括消息、通讯、特写、速写（有的将速写纳入特写之列）等等。狭义的新闻则专指消息，消息是用概括的叙述方式，比较简明扼要的文字，迅速及时地报道国内外新近发生的、有价值的的事实。新闻也分公众新闻和小道新闻等。每则新闻在结构上，一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分，后二者是辅助部分。写法上主要是叙述，有时兼有议论、描写、评论等。
'''
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))
#第二步：去停用词
#这里是有一个文件存放要改的文章，一个文件存放停用表，然后和停用表里的词比较，一样的就删掉，最后把结果存放在一个文件中
stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
final = ""
for word in fenci_text:
  if word not in stopwords:
    if (word != "。" and word != "，") :
      final = final + " " + word
print(final)
#第三步：提取关键词
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
print(a)
#text 为待提取的文本
# topK:返回几个 TF/IDF 权重最大的关键词，默认值为20。
# withWeight:是否一并返回关键词权重值，默认值为False。
# allowPOS:仅包括指定词性的词，默认值为空，即不进行筛选。

运行结果：

runfile('D:/Data/文本挖掘/xiaojieba.py', wdir='D:/Data/文本挖掘')
 新闻 消息 指 报纸 、 电台 、 电视台 、 互联网 记录 社会 、 传播 信息 、 时代 一种 文体 真实性 、 时效性 、 简洁性 、 可读性 、 准确性 新闻 概念 广义 狭义 之分 广义 发表 报刊 、 广播 、 电视 评论 专文 外 常用 文本 新闻 列 包括 消息 、 通讯 、 特写 、 速写 （ 速写 纳入 特写 列 ） 狭义 新闻 专指 消息 消息 概括 叙述 方式 简明扼要 文字 报道 国内外 新近 发生 、 价值 事实 新闻 分 公众 新闻 小道 新闻 每则 新闻 在结构上 包括 标题 、 导语 、 主体 、 背景 结语 五 前 三者 二者 辅助 写法 叙述 兼有 议论 、 描写 、 评论 
[('新闻', 0.4804811569680808), ('速写', 0.2121107125313131), ('消息', 0.20363211136040404), ('特写', 0.20023623445272729), ('狭义', 0.16168734917858588)]

好啦，是不是很简单？

以上这篇python实现关键词提取的示例讲解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python实现关键词提取的示例讲解

- Author -

jingxian

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python提取内容关键词的方法

Mar 16 Python

浅谈function(函数)中的动态参数

Apr 30 Python

Python中import机制详解

Nov 14 Python

对python中的 os.mkdir和os.mkdirs详解

Oct 16 Python

Flask教程之重定向与错误处理实例分析

Aug 01 Python

Python常用数据类型之间的转换总结

Sep 06 Python

Numpy中对向量、矩阵的使用详解

Oct 29 Python

python中安装django模块的方法

Mar 12 Python

python如何处理程序无法打开

Jun 16 Python

Python使用shutil模块实现文件拷贝

Jul 31 Python

Python 远程开关机的方法

Nov 18 Python

Python requests用法和django后台处理详解

Mar 19 Python

python实现扫描日志关键字的示例

Apr 28 #Python

python socket网络编程之粘包问题详解

Apr 28 #Python

在Windows中设置Python环境变量的实例讲解

Apr 28 #Python

PyTorch快速搭建神经网络及其保存提取方法详解

Apr 28 #Python

对Python中type打开文件的方式介绍

Apr 28 #Python

PyTorch上搭建简单神经网络实现回归和分类的示例

Apr 28 #Python

TensorFlow实现非线性支持向量机的实现方法

Apr 28 #Python

You might like

PHP实现根据浏览器跳转不同语言页面代码

2013/08/02 PHP

ThinkPHP使用心得分享-分页类Page的用法

2014/05/15 PHP

PHP使用http_build_query()构造URL字符串的方法

2016/04/02 PHP

完美解决JS中汉字显示乱码问题（已解决）

2006/12/27 Javascript

在IE6下发生Internet Explorer cannot open the Internet site错误

2010/06/21 Javascript

基于jquery的textarea发布框限制文字字数输入(添加中文识别)

2012/02/16 Javascript

原创jQuery弹出层插件分享

2015/04/02 Javascript

jQuery实现Select左右复制移动内容

2016/08/05 Javascript

利用Blob进行文件上传的完整步骤

2018/08/02 Javascript

nodejs aes 加解密实例

2018/10/10 NodeJs

VUE+Element UI实现简单的表格行内编辑效果的示例的代码

2018/10/31 Javascript

vue directive定义全局和局部指令及指令简写

2018/11/20 Javascript

Vue.js组件高级特性实例详解

2018/12/24 Javascript

node后端服务保活的实现

2019/11/10 Javascript

Vue实现返回顶部按钮实例代码

2020/10/21 Javascript

python的类方法和静态方法

2014/12/13 Python

python实现批量监控网站

2016/09/09 Python

Python 数据处理库 pandas 入门教程基本操作

2018/04/19 Python

python实现类之间的方法互相调用

2018/04/29 Python

Python面向对象程序设计类的封装与继承用法示例

2019/04/12 Python

Python-openCV读RGB通道图实例

2020/01/17 Python

django 实现手动存储文件到model的FileField

2020/03/30 Python

Python是怎样处理json模块的

2020/07/16 Python

浅谈Html5移动端ios/Android兼容性总结

2018/06/01 HTML / CSS

HTML5 3D旋转相册的实现示例

2019/12/03 HTML / CSS

浅谈Html5页面打开app的一些思考

2020/03/30 HTML / CSS

匡威西班牙官网：Converse西班牙

2019/10/01 全球购物

我想声明一个指针并为它分配一些空间, 但却不行。这些代码有什么问题？char *p; *p = malloc(10);

2016/10/06 面试题

小班上学期评语

2014/05/05 职场文书

学校教研活动总结

2014/07/02 职场文书

2014年销售工作总结

2014/12/01 职场文书

三方协议书

2015/01/27 职场文书

涨工资申请书应该怎么写？

2019/07/08 职场文书

2019年最新版见习人员管理制度！

2019/07/08 职场文书

python基础之文件处理知识总结

2021/05/23 Python

MySQL 常见存储引擎的优劣

2021/06/02 MySQL