python实现关键词提取的示例讲解


Posted in Python onApril 28, 2018

新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~

今天我来弄一个简单的关键词提取的代码

文章内容关键词的提取分为三大步:

(1) 分词

(2) 去停用词

(3) 关键词提取

分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。

具体代码如下:

import jieba
import jieba.analyse
#第一步:分词,这里使用结巴分词全模式
text = '''新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会、传播信息、反映时代的一种文体,具有真实性、时效性、简洁性、可读性、准确性的特点。新闻概念有广义与狭义之分。就其广义而言,除了发表于报刊、广播、电视上的评论与专文外的常用文本都属于新闻之列,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等。狭义的新闻则专指消息,消息是用概括的叙述方式,比较简明扼要的文字,迅速及时地报道国内外新近发生的、有价值的的事实。新闻也分公众新闻和小道新闻等。每则新闻在结构上,一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法上主要是叙述,有时兼有议论、描写、评论等。
'''
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))
#第二步:去停用词
#这里是有一个文件存放要改的文章,一个文件存放停用表,然后和停用表里的词比较,一样的就删掉,最后把结果存放在一个文件中
stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
final = ""
for word in fenci_text:
  if word not in stopwords:
    if (word != "。" and word != ",") :
      final = final + " " + word
print(final)
#第三步:提取关键词
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
print(a)
#text 为待提取的文本
# topK:返回几个 TF/IDF 权重最大的关键词,默认值为20。
# withWeight:是否一并返回关键词权重值,默认值为False。
# allowPOS:仅包括指定词性的词,默认值为空,即不进行筛选。

运行结果:

runfile('D:/Data/文本挖掘/xiaojieba.py', wdir='D:/Data/文本挖掘')
 新闻 消息 指 报纸 、 电台 、 电视台 、 互联网 记录 社会 、 传播 信息 、 时代 一种 文体 真实性 、 时效性 、 简洁性 、 可读性 、 准确性 新闻 概念 广义 狭义 之分 广义 发表 报刊 、 广播 、 电视 评论 专文 外 常用 文本 新闻 列 包括 消息 、 通讯 、 特写 、 速写 ( 速写 纳入 特写 列 ) 狭义 新闻 专指 消息 消息 概括 叙述 方式 简明扼要 文字 报道 国内外 新近 发生 、 价值 事实 新闻 分 公众 新闻 小道 新闻 每则 新闻 在结构上 包括 标题 、 导语 、 主体 、 背景 结语 五 前 三者 二者 辅助 写法 叙述 兼有 议论 、 描写 、 评论 
[('新闻', 0.4804811569680808), ('速写', 0.2121107125313131), ('消息', 0.20363211136040404), ('特写', 0.20023623445272729), ('狭义', 0.16168734917858588)]

好啦,是不是很简单?

以上这篇python实现关键词提取的示例讲解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之画圈还不简单吗?
Sep 20 Python
scrapy自定义pipeline类实现将采集数据保存到mongodb的方法
Apr 16 Python
python 中split 和 strip的实例详解
Jul 12 Python
Python使用Flask-SQLAlchemy连接数据库操作示例
Aug 31 Python
python版本单链表实现代码
Sep 28 Python
centos7之Python3.74安装教程
Aug 15 Python
Python numpy线性代数用法实例解析
Nov 15 Python
python读取文件指定行内容实例讲解
Mar 02 Python
python算的上脚本语言吗
Jun 22 Python
详解numpy1.19.4与python3.9版本冲突解决
Dec 15 Python
Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题
Feb 22 Python
基于Python实现对比Exce的工具
Apr 07 Python
python实现扫描日志关键字的示例
Apr 28 #Python
python socket网络编程之粘包问题详解
Apr 28 #Python
在Windows中设置Python环境变量的实例讲解
Apr 28 #Python
PyTorch快速搭建神经网络及其保存提取方法详解
Apr 28 #Python
对Python中type打开文件的方式介绍
Apr 28 #Python
PyTorch上搭建简单神经网络实现回归和分类的示例
Apr 28 #Python
TensorFlow实现非线性支持向量机的实现方法
Apr 28 #Python
You might like
php读取mysql乱码,用set names XXX解决的原理分享
2011/12/29 PHP
PHP输入流php://input介绍
2012/09/18 PHP
Sublime里直接运行PHP配置方法
2014/11/28 PHP
PHP网站建设的流程与步骤分享
2015/09/25 PHP
CodeIgniter配置之autoload.php自动加载用法分析
2016/01/20 PHP
php+redis实现注册、删除、编辑、分页、登录、关注等功能示例
2017/02/15 PHP
详细解读php的命名空间(二)
2018/02/21 PHP
js 3秒后跳转页面的实现代码
2014/03/10 Javascript
基于JavaScript实现鼠标悬浮弹出跟随鼠标移动的带箭头的信息层
2016/01/18 Javascript
实践中学习AngularJS表单
2016/03/21 Javascript
nodeJs爬虫获取数据简单实现代码
2016/03/29 NodeJs
Bootstrap基本模板的使用和理解1
2016/12/14 Javascript
ionic 3.0+ 项目搭建运行环境的教程
2017/08/09 Javascript
js删除对象/数组中null、undefined、空对象及空数组方法示例
2018/11/14 Javascript
在node中使用jwt签发与验证token的方法
2019/04/03 Javascript
js实现提交前对列表数据的增删改查
2020/01/16 Javascript
原生JS实现留言板功能
2020/02/08 Javascript
JS数组的常用10种方法详解
2020/05/08 Javascript
对比Python中__getattr__和 __getattribute__获取属性的用法
2016/06/21 Python
python 爬虫 批量获取代理ip的实例代码
2018/05/22 Python
python实现简易内存监控
2018/06/21 Python
Python实现的矩阵转置与矩阵相乘运算示例
2019/03/26 Python
python实现弹跳小球
2019/05/13 Python
Python递归及尾递归优化操作实例分析
2020/02/01 Python
python实现交并比IOU教程
2020/04/16 Python
Python 中由 yield 实现异步操作
2020/05/04 Python
css3 box-sizing属性使用参考指南
2013/01/08 HTML / CSS
css3 矩阵的使用详解
2018/03/20 HTML / CSS
html5的画布canvas——画出简单的矩形、三角形实例代码
2013/06/09 HTML / CSS
美国最大的农村生活方式零售店:Tractor Supply Company(TSC)
2017/05/15 全球购物
Bata印度官网:源自欧洲舒适鞋履品牌
2020/01/30 全球购物
巴西24小时在线药房:Droga Raia
2020/05/12 全球购物
Perfume’s Club美国官网:西班牙第一家在线美容店
2020/06/10 全球购物
医药学专业大学生职业生涯规划书论文
2014/01/21 职场文书
客户服务经理岗位职责
2014/01/29 职场文书
Python可视化神器pyecharts绘制地理图表
2022/07/07 Python