python文本数据相似度的度量


Posted in Python onMarch 12, 2018

编辑距离

编辑距离,又称为Levenshtein距离,是用于计算一个字符串转换为另一个字符串时,插入、删除和替换的次数。例如,将'dad'转换为'bad'需要一次替换操作,编辑距离为1。

nltk.metrics.distance.edit_distance函数实现了编辑距离。

from nltk.metrics.distance import edit_distance

str1 = 'bad'
str2 = 'dad'
print(edit_distance(str1, str2))

N元语法相似度

n元语法只是简单地表示文本中n个标记的所有可能的连续序列。n元语法具体是这样的

import nltk

#这里展示2元语法
text1 = 'Chief Executive Officer'

#bigram考虑匹配开头和结束,所有使用pad_right和pad_left
ceo_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)

print(list(ceo_bigrams))
[(None, 'Chief'), ('Chief', 'Executive'), 
('Executive', 'Officer'), ('Officer', None)]

2元语法相似度计算

import nltk

#这里展示2元语法
def bigram_distance(text1, text2):
  #bigram考虑匹配开头和结束,所以使用pad_right和pad_left
  text1_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)
  
  text2_bigrams = nltk.bigrams(text2.split(), pad_right=True, pad_left=True)
  
  #交集的长度
  distance = len(set(text1_bigrams).intersection(set(text2_bigrams)))
  
  return distance


text1 = 'Chief Executive Officer is manager'

text2 = 'Chief Technology Officer is technology manager'

print(bigram_distance(text1, text2)) #相似度为3

jaccard相似性

jaccard距离度量的两个集合的相似度,它是由 (集合1交集合2)/(结合1交结合2)计算而来的。

实现方式

from nltk.metrics.distance import jaccard_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))

0.6666666666666666

masi距离

masi距离度量是jaccard相似度的加权版本,当集合之间存在部分重叠时,通过调整得分来生成小于jaccard距离值。

from nltk.metrics.distance import jaccard_distance,masi_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))
print(masi_distance(set1, set2))

0.6666666666666666
0.22000000000000003

余弦相似度

nltk提供了余弦相似性的实现方法,比如有一个词语空间

word_space = [w1,w2,w3,w4]

text1 = 'w1 w2 w1 w4 w1'
text2 = 'w1 w3 w2'

#按照word_space位置,计算每个位置词语出现的次数

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

[3,1,0,1]意思是指w1出现了3次,w2出现了1次,w3出现0次,w4出现1次。

好了下面看代码,计算text1与text2的余弦相似性

from nltk.cluster.util import cosine_distance

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

print(cosine_distance(text1_vector,text2_vector))

0.303689376177

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
为python设置socket代理的方法
Jan 14 Python
在Python的web框架中配置app的教程
Apr 30 Python
使用python检测主机存活端口及检查存活主机
Oct 12 Python
Python的SQLalchemy模块连接与操作MySQL的基础示例
Jul 11 Python
pycharm远程调试openstack的图文教程
Nov 21 Python
ubuntu环境下python虚拟环境的安装过程
Jan 07 Python
Python3的介绍、安装和命令行的认识(推荐)
Oct 20 Python
python使用PIL模块获取图片像素点的方法
Jan 08 Python
django2.0扩展用户字段示例
Feb 13 Python
Python 之 Json序列化嵌套类方式
Feb 27 Python
用Python实现职工信息管理系统
Dec 30 Python
Python实现数据的序列化操作详解
Jul 07 Python
python使用jieba实现中文分词去停用词方法示例
Mar 11 #Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
You might like
PHP删除数组中特定元素的两种方法
2013/07/02 PHP
destoon实现公司新闻详细页添加评论功能的方法
2014/07/15 PHP
PHP速成大法
2015/01/30 PHP
php列出mysql表所有行和列的方法
2015/03/13 PHP
php中smarty变量修饰用法实例分析
2015/06/11 PHP
PHP后门隐藏的一些技巧总结
2020/11/04 PHP
网上抓的一个特效
2007/05/11 Javascript
JQuery 表单中textarea字数限制实现代码
2009/12/07 Javascript
jquery中获取元素的几种方式小结
2011/07/05 Javascript
Dom操作之兼容技巧分享
2011/09/20 Javascript
EasyUI 中 MenuButton 的使用方法
2012/07/14 Javascript
JS实现可展开折叠层的鼠标拖曳效果
2015/10/09 Javascript
微信小程序 网络API Websocket详解
2016/11/09 Javascript
Vue精简版风格概述
2018/01/30 Javascript
React实现全局组件的Toast轻提示效果
2018/09/21 Javascript
vue-cli安装使用流程步骤详解
2018/11/08 Javascript
vue中多路由表头吸顶实现的几种布局方式
2019/04/12 Javascript
TypeScript魔法堂之枚举的超实用手册
2020/10/29 Javascript
[52:44]VGJ.T vs infamous Supermajor小组赛D组败者组第一轮 BO3 第一场 6.3
2018/06/04 DOTA
Python的词法分析与语法分析
2013/05/18 Python
用smtplib和email封装python发送邮件模块类分享
2014/02/17 Python
pyqt4教程之实现半透明的天气预报界面示例
2014/03/02 Python
Windows系统下多版本pip的共存问题详解
2017/10/10 Python
matlab中实现矩阵删除一行或一列的方法
2018/04/04 Python
python爬虫URL重试机制的实现方法(python2.7以及python3.5)
2018/12/18 Python
Python两个字典键同值相加的几种方法
2019/03/05 Python
Pyqt5 基本界面组件之inputDialog的使用
2019/06/25 Python
python通过http下载文件的方法详解
2019/07/26 Python
python 进程间数据共享multiProcess.Manger实现解析
2019/09/23 Python
python如何遍历指定路径下所有文件(按按照时间区间检索)
2020/09/14 Python
python Cartopy的基础使用详解
2020/11/01 Python
canvas简单连线动画的实现代码
2020/02/04 HTML / CSS
小学生母亲节演讲稿
2014/05/07 职场文书
合唱兴趣小组活动总结
2014/07/10 职场文书
五好家庭申报材料
2014/12/20 职场文书
Java实现贪吃蛇游戏的示例代码
2022/09/23 Java/Android