编程 Python

Python实现简单的文本相似度分析操作详解

Posted in Python onJune 16, 2018

本文实例讲述了Python实现简单的文本相似度分析操作。分享给大家供大家参考，具体如下：

学习目标：

1.利用gensim包分析文档相似度
2.使用jieba进行中文分词
3.了解TF-IDF模型

环境：

Python 3.6.0 |Anaconda 4.3.1 (64-bit)

工具：

jupyter notebook

注：为了简化问题，本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。

首先引入分词API库jieba、文本相似度库gensim

import jieba
from gensim import corpora,models,similarities

以下doc0-doc7是几个最简单的文档，我们可以称之为目标文档，本文就是分析doc_test（测试文档）与以上8个文档的相似度。

doc0 = "我不喜欢上海"
doc1 = "上海是一个好地方"
doc2 = "北京是一个好地方"
doc3 = "上海好吃的在哪里"
doc4 = "上海好玩的在哪里"
doc5 = "上海是好地方"
doc6 = "上海路和上海人"
doc7 = "喜欢小吃"
doc_test="我喜欢上海的小吃"

分词

首先，为了简化操作，把目标文档放到一个列表all_doc中。

all_doc = []
all_doc.append(doc0)
all_doc.append(doc1)
all_doc.append(doc2)
all_doc.append(doc3)
all_doc.append(doc4)
all_doc.append(doc5)
all_doc.append(doc6)
all_doc.append(doc7)

以下对目标文档进行分词，并且保存在列表all_doc_list中

all_doc_list = []
for doc in all_doc:
  doc_list = [word for word in jieba.cut(doc)]
  all_doc_list.append(doc_list)

把分词后形成的列表显示出来：

print(all_doc_list)

[['我', '不', '喜欢', '上海'],
['上海', '是', '一个', '好', '地方'],
['北京', '是', '一个', '好', '地方'],
['上海', '好吃', '的', '在', '哪里'],
['上海', '好玩', '的', '在', '哪里'],
['上海', '是', '好', '地方'],
['上海', '路', '和', '上海', '人'],
['喜欢', '小吃']]

以下把测试文档也进行分词，并保存在列表doc_test_list中

doc_test_list = [word for word in jieba.cut(doc_test)]
doc_test_list

['我', '喜欢', '上海', '的', '小吃']

制作语料库

首先用dictionary方法获取词袋（bag-of-words)

dictionary = corpora.Dictionary(all_doc_list)

词袋中用数字对所有词进行了编号

dictionary.keys()

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

编号与词之间的对应关系

dictionary.token2id

{'一个': 4,
'上海': 0,
'不': 1,
'人': 14,
'北京': 8,
'和': 15,
'哪里': 9,
'喜欢': 2,
'在': 10,
'地方': 5,
'好': 6,
'好吃': 11,
'好玩': 13,
'小吃': 17,
'我': 3,
'是': 7,
'的': 12,
'路': 16}

以下使用doc2bow制作语料库

corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]

语料库如下。语料库是一组向量，向量中的元素是一个二元组（编号、频次数），对应分词后的文档中的每一个词。

[[(0, 1), (1, 1), (2, 1), (3, 1)],
[(0, 1), (4, 1), (5, 1), (6, 1), (7, 1)],
[(4, 1), (5, 1), (6, 1), (7, 1), (8, 1)],
[(0, 1), (9, 1), (10, 1), (11, 1), (12, 1)],
[(0, 1), (9, 1), (10, 1), (12, 1), (13, 1)],
[(0, 1), (5, 1), (6, 1), (7, 1)],
[(0, 2), (14, 1), (15, 1), (16, 1)],
[(2, 1), (17, 1)]]

以下用同样的方法，把测试文档也转换为二元组的向量

doc_test_vec = dictionary.doc2bow(doc_test_list)
doc_test_vec

[(0, 1), (2, 1), (3, 1), (12, 1), (17, 1)]

相似度分析

使用TF-IDF模型对语料库建模

tfidf = models.TfidfModel(corpus)

获取测试文档中，每个词的TF-IDF值

tfidf[doc_test_vec]

[(0, 0.08112725037593049),
(2, 0.3909393754390612),
(3, 0.5864090631585919),
(12, 0.3909393754390612),
(17, 0.5864090631585919)]

对每个目标文档，分析测试文档的相似度

index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
sim = index[tfidf[doc_test_vec]]
sim

array([ 0.54680777, 0.01055349, 0. , 0.17724207, 0.17724207,
0.01354522, 0.01279765, 0.70477605], dtype=float32)

根据相似度排序

sorted(enumerate(sim), key=lambda item: -item[1])

[(7, 0.70477605),
(0, 0.54680777),
(3, 0.17724207),
(4, 0.17724207),
(5, 0.013545224),
(6, 0.01279765),
(1, 0.010553493),
(2, 0.0)]

从分析结果来看，测试文档与doc7相似度最高，其次是doc0，与doc2的相似度为零。大家可以根据TF-IDF的原理，看看是否符合预期。

最后总结一下文本相似度分析的步骤：

1、读取文档
2、对要计算的多篇文档进行分词
3、对文档进行整理成指定格式，方便后续进行计算
4、计算出词语的词频
5、【可选】对词频低的词语进行过滤
6、建立语料库词典
7、加载要对比的文档
8、将要对比的文档通过doc2bow转化为词袋模型
9、对词袋模型进行进一步处理，得到新语料库
10、将新语料库通过tfidfmodel进行处理，得到tfidf
11、通过token2id得到特征数
12、稀疏矩阵相似度，从而建立索引
13、得到最终相似度结果

希望本文所述对大家Python程序设计有所帮助。

Python实现简单的文本相似度分析操作详解

- Author -

番番要吃肉

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python Django批量导入数据

Mar 25 Python

由浅入深讲解python中的yield与generator

Apr 05 Python

Python计算两个日期相差天数的方法示例

May 23 Python

[原创]使用豆瓣提供的国内pypi源

Jul 02 Python

python3写爬取B站视频弹幕功能

Dec 22 Python

Django重装mysql后启动报错：No module named ‘MySQLdb’的解决方法

Apr 22 Python

对python字典元素的添加与修改方法详解

Jul 06 Python

Python3实现的反转单链表算法示例

Mar 08 Python

在python中画正态分布图像的实例

Jul 08 Python

Python AutoCAD 系统设置的实现方法

Apr 01 Python

Django ORM判断查询结果是否为空,判断django中的orm为空实例

Jul 09 Python

Python实现简繁体转换

Jun 07 Python

Django跨域请求问题的解决方法示例

Jun 16 #Python

Python for循环生成列表的实例

Jun 15 #Python

Python把csv数据写入list和字典类型的变量脚本方法

Jun 15 #Python

Python对象属性自动更新操作示例

Jun 15 #Python

numpy使用fromstring创建矩阵的实例

Jun 15 #Python

详解Python 协程的详细用法使用和例子

Jun 15 #Python

在NumPy中创建空数组/矩阵的方法

Jun 15 #Python

You might like

php中base64_decode与base64_encode加密解密函数实例

2014/11/24 PHP

浅析php单例模式

2014/11/25 PHP

使用PHP连接多种数据库的实现代码(mysql,access,sqlserver,Oracle)

2016/12/21 PHP

javascript 冒号使用说明

2009/06/06 Javascript

JS 面向对象之神奇的prototype

2011/02/26 Javascript

Javascript 运动中Offset的bug解决方案

2014/12/24 Javascript

jQuery定义背景动态切换效果的方法

2015/03/23 Javascript

JavaScript实现自动对页面上敏感词进行屏蔽的方法

2015/07/27 Javascript

JS打字效果的动态菜单代码分享

2015/08/21 Javascript

JS+CSS实现简易的滑动门效果代码

2015/09/24 Javascript

移动端jQuery修正Web页面滑动时div问题的两则实例

2016/05/30 Javascript

早该知道的7个JavaScript技巧

2016/06/21 Javascript

javascript简单实现等比例缩小图片的方法

2016/07/27 Javascript

关于json字符串与实体之间的严格验证代码

2016/11/10 Javascript

angular.js4使用 RxJS 处理多个 Http 请求

2017/09/23 Javascript

JavaScript实现的超简单计算器功能示例

2017/12/23 Javascript

node.js 基于cheerio的爬虫工具的实现（需要登录权限的爬虫工具）

2019/04/10 Javascript

layui 实现表单和文件上传一起传到后台的例子

2019/09/16 Javascript

vue开发拖拽进度条滑动组件

2019/09/21 Javascript

swiper实现异形轮播效果

2019/11/28 Javascript

[12:29]2018国际邀请赛开幕秀

2018/08/22 DOTA

python类继承用法实例分析

2015/05/27 Python

PyTorch读取Cifar数据集并显示图片的实例讲解

2018/07/27 Python

Linux CentOS Python开发环境搭建教程

2018/11/28 Python

django mysql数据库及图片上传接口详解

2019/07/18 Python

python-xpath获取html文档的部分内容

2020/03/06 Python

使用 prometheus python 库编写自定义指标的方法(完整代码)

2020/06/29 Python

pycharm如何设置官方中文(如何汉化)

2020/12/29 Python

jupyter 添加不同内核的操作

2021/02/06 Python

Space NK英国站：英国热门美妆网站

2017/12/11 全球购物

荷兰男士时尚网上商店：Suitable

2017/12/25 全球购物

雪山饭庄的创业计划书范文

2014/01/18 职场文书

公务员党员评议表自我鉴定

2014/09/14 职场文书

Mysql案例刨析事务隔离级别

2021/09/25 MySQL

Redis数据同步之redis shake的实现方法

2022/04/21 Redis

Mysql中常用的join连接方式

2022/05/11 MySQL