编程 Python

python数据分析:关键字提取方式

Posted in Python onFebruary 24, 2020

TF-IDF

TF-IDF（Term Frequencey-Inverse Document Frequency）指词频-逆文档频率，它属于数值统计的范畴。使用TF-IDF，我们能够学习一个词对于数据集中的一个文档的重要性。

TF-IDF的概念

TF-IDF有两部分，词频和逆文档频率。首先介绍词频，这个词很直观，词频表示每个词在文档或数据集中出现的频率。等式如下：

TF(t)=词t在一篇文档中出现的次数/这篇文档的总词数

第二部分——逆文档频率实际上告诉了我们一个单词对文档的重要性。这是因为当计算TF的时候，我们对每个词赋予了同等的重要性，它出现得越多，它的TF就越高，如果它出现了100次，也许相比其他出现更少的词，它并不携带那么多信息，因此我们需要赋予它们权重，决定每个词的重要性。使用下面的等式得到IDF：

IDF(t)=(log10文档的篇数/包含词t文档的篇数)

那么，计算TF-IDF的方法如下：

TF * IDF=(词t在一篇文档中出现的次数/这篇文档的总词数)* log10(文档的篇数/包含词t文档的篇数)

应用

TF-IDF可以应用于如下场景：

通常可以使用TF-IDF进行文本数据分析，得到最准确的关键词信息。

如果你正开发一个文本摘要应用，并正在进行统计，TF-IDF是生成摘要最重要的特征。

TF-IDF权重的变动常用于搜索引擎，以求出文档的得分以及同用户检索的相关性。

文本分类应用将TF-IDF和BOW一起使用。

TextRank

TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。

基于TextRank的关键词提取

关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。TextRank算法是利用局部词汇之间关系（共现窗口）对后续关键词进行排序，直接从文本本身抽取。其主要步骤如下：

把给定的文本T按照完整句子进行分割，即

对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即，其中是保留后的候选关键词。

构建候选关键词图G = (V,E)，其中V为节点集，由（2）生成的候选关键词组成，然后采用共现关系（co-occurrence）构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。

根据上面公式，迭代传播各节点的权重，直至收敛。

对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词。

python实现：

# 导入库
import jieba.analyse # 导入关键字提取库
import pandas as pd # 导入pandas
import newspaper
# 读取文本数据
# 获取文章 银保监会出台新政为例
article = newspaper.Article('https://finance.sina.com.cn/money/bank/bank_hydt/2019-02-25/doc-ihsxncvf7656807.shtml', language='zh')
# 下载文章
article.download()
# 解析文章
article.parse()
# 对文章进行nlp处理
article.nlp()
# nlp处理后的文章拼接
string_data = "".join(article.keywords)
# 关键字提取
def get_key_words(string_data, how=''):
  # topK：提取的关键字数量，不指定则提取全部；
  # withWeight：设置为True指定输出词对应的IF-IDF权重
  if how == 'textrank':
    # 使用TextRank 算法
    tags_pairs = jieba.analyse.textrank(string_data, topK=5, withWeight=True) # 提取关键字标签
  else:
    # 使用TF-IDF 算法
    tags_pairs = jieba.analyse.extract_tags(string_data, topK=5, withWeight=True) # 提取关键字标签
  tags_list = [] # 空列表用来存储拆分后的三个值
  for i in tags_pairs: # 打印标签、分组和TF-IDF权重
    tags_list.append((i[0], i[1])) # 拆分三个字段值
  tags_pd = pd.DataFrame(tags_list, columns=['word', 'weight']) # 创建数据框
  return tags_pd

keywords = get_key_words(string_data)
print("#####################TF-IDF####################")
print(keywords)

keywords_tr = get_key_words(string_data, how='textrank')
print("#####################textrank####################")
print(keywords_tr)

结果如下：

#####################TF-IDF####################
  word  weight
0 民营企业 0.327466
1  贷款 0.112652
2  融资 0.089557
3 商业银行 0.084860
4  服务 0.072322
#####################textrank####################
  word  weight
0 民营企业 1.000000
1   要 0.553043
2  贷款 0.493173
3  融资 0.379846
4  服务 0.371273

以上这篇python数据分析:关键字提取方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python数据分析:关键字提取方式

- Author -

泛泛之素

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python通过自定义isnumber函数判断字符串是否为数字的方法

Apr 23 Python

Python实现合并字典的方法

Jul 07 Python

用Python的Flask框架结合MySQL写一个内存监控程序

Nov 07 Python

Python探索之自定义实现线程池

Oct 27 Python

python:pandas合并csv文件的方法(图书数据集成)

Apr 12 Python

Python 经典面试题 21 道【不可错过】

Sep 21 Python

深入解析python中的实例方法、类方法和静态方法

Mar 11 Python

python2 中 unicode 和 str 之间的转换及与python3 str 的区别

Jul 25 Python

pytorch三层全连接层实现手写字母识别方式

Jan 14 Python

python opencv 图像边框(填充)添加及图像混合的实现方法（末尾实现类似幻灯片渐变的效果）

Mar 09 Python

Python socket服务常用操作代码实例

Jun 22 Python

如何利用pygame实现打飞机小游戏

May 30 Python

python数据预处理 :数据共线性处理详解

Feb 24 #Python

使用python实现多维数据降维操作

Feb 24 #Python

python数据预处理 :数据抽样解析

Feb 24 #Python

Python找出列表中出现次数最多的元素三种方式

Feb 24 #Python

Python流程控制常用工具详解

Feb 24 #Python

深入浅析Python 函数注解与匿名函数

Feb 24 #Python

python数据预处理方式 :数据降维

Feb 24 #Python

You might like

ThinkPHP3.1之D方法实例详解

2014/06/20 PHP

php中类和对象：静态属性、静态方法

2017/04/09 PHP

php简单处理XML数据的方法示例

2017/05/19 PHP

PHP使用preg_split和explode分割textarea存放内容的方法分析

2017/07/03 PHP

PHP实现负载均衡的加权轮询方法分析

2018/08/22 PHP

调试php程序的简单步骤

2019/10/04 PHP

超级24小时弹窗代码 24小时退出弹窗代码 100%弹窗代码(IE only)

2010/06/11 Javascript

JavaScript中“+”的陷阱深刻理解

2012/12/04 Javascript

Js判断CSS文件加载完毕的具体实现

2014/01/17 Javascript

JavaScript将DOM事件处理程序封装为event.js 出现的低级错误问题

2016/08/03 Javascript

浅谈jquery设置和获得checkbox选中的问题

2016/08/19 Javascript

bootstrap 表单验证使用方法

2017/01/11 Javascript

微信小程序实现登录页云层漂浮的动画效果

2017/05/05 Javascript

几种响应式文字详解

2017/05/19 Javascript

微信小程序选项卡的简单实例

2017/05/24 Javascript

详解vue项目构建与实战

2017/06/27 Javascript

原生JS实现隐藏显示图片 JS实现点击切换图片效果

2021/01/27 Javascript

如何在Vue.js中实现标签页组件详解

2019/01/02 Javascript

javascript中的with语句学习笔记及用法

2020/02/17 Javascript

[02:07]2018DOTA2亚洲邀请赛主赛事第三日五佳镜头 fy极限反杀

2018/04/06 DOTA

python 多线程实现检测服务器在线情况

2015/11/25 Python

Python运算符重载详解及实例代码

2017/03/07 Python

Python中defaultdict与lambda表达式用法实例小结

2018/04/09 Python

Python实现将数据写入netCDF4中的方法示例

2018/08/30 Python

详解Python函数式编程—高阶函数

2019/03/29 Python

100行Python代码实现每天不同时间段定时给女友发消息

2019/09/27 Python

python 等差数列末项计算方式

2020/05/03 Python

浅析Python 中的 WSGI 接口和 WSGI 服务的运行

2020/12/09 Python

实例讲解使用HTML5 Canvas绘制阴影效果的方法

2016/03/25 HTML / CSS

职业生涯规划书基本格式

2014/01/06 职场文书

高三学生评语大全

2014/04/25 职场文书

淘宝好评语大全

2014/05/05 职场文书

美化环境标语

2014/06/20 职场文书

2014年社区卫生工作总结

2014/12/18 职场文书

新手，如何业余时间安排好写作、提高写作能力？

2019/10/21 职场文书

低版本Druid连接池+MySQL驱动8.0导致线程阻塞、性能受限

2021/07/01 MySQL