python文本数据相似度的度量


Posted in Python onMarch 12, 2018

编辑距离

编辑距离,又称为Levenshtein距离,是用于计算一个字符串转换为另一个字符串时,插入、删除和替换的次数。例如,将'dad'转换为'bad'需要一次替换操作,编辑距离为1。

nltk.metrics.distance.edit_distance函数实现了编辑距离。

from nltk.metrics.distance import edit_distance

str1 = 'bad'
str2 = 'dad'
print(edit_distance(str1, str2))

N元语法相似度

n元语法只是简单地表示文本中n个标记的所有可能的连续序列。n元语法具体是这样的

import nltk

#这里展示2元语法
text1 = 'Chief Executive Officer'

#bigram考虑匹配开头和结束,所有使用pad_right和pad_left
ceo_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)

print(list(ceo_bigrams))
[(None, 'Chief'), ('Chief', 'Executive'), 
('Executive', 'Officer'), ('Officer', None)]

2元语法相似度计算

import nltk

#这里展示2元语法
def bigram_distance(text1, text2):
  #bigram考虑匹配开头和结束,所以使用pad_right和pad_left
  text1_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)
  
  text2_bigrams = nltk.bigrams(text2.split(), pad_right=True, pad_left=True)
  
  #交集的长度
  distance = len(set(text1_bigrams).intersection(set(text2_bigrams)))
  
  return distance


text1 = 'Chief Executive Officer is manager'

text2 = 'Chief Technology Officer is technology manager'

print(bigram_distance(text1, text2)) #相似度为3

jaccard相似性

jaccard距离度量的两个集合的相似度,它是由 (集合1交集合2)/(结合1交结合2)计算而来的。

实现方式

from nltk.metrics.distance import jaccard_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))

0.6666666666666666

masi距离

masi距离度量是jaccard相似度的加权版本,当集合之间存在部分重叠时,通过调整得分来生成小于jaccard距离值。

from nltk.metrics.distance import jaccard_distance,masi_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))
print(masi_distance(set1, set2))

0.6666666666666666
0.22000000000000003

余弦相似度

nltk提供了余弦相似性的实现方法,比如有一个词语空间

word_space = [w1,w2,w3,w4]

text1 = 'w1 w2 w1 w4 w1'
text2 = 'w1 w3 w2'

#按照word_space位置,计算每个位置词语出现的次数

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

[3,1,0,1]意思是指w1出现了3次,w2出现了1次,w3出现0次,w4出现1次。

好了下面看代码,计算text1与text2的余弦相似性

from nltk.cluster.util import cosine_distance

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

print(cosine_distance(text1_vector,text2_vector))

0.303689376177

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python从ftp下载数据保存实例
Nov 20 Python
pandas 实现将重复表格去重,并重新转换为表格的方法
Apr 18 Python
python3 实现一行输入,空格隔开的示例
Nov 14 Python
Python3中编码与解码之Unicode与bytes的讲解
Feb 28 Python
python scatter散点图用循环分类法加图例
Mar 19 Python
python pandas 时间日期的处理实现
Jul 30 Python
详解pandas获取Dataframe元素值的几种方法
Jun 14 Python
Python使用itcaht库实现微信自动收发消息功能
Jul 13 Python
Python eval函数介绍及用法
Nov 09 Python
Python实现FTP文件定时自动下载的步骤
Dec 19 Python
详解Python小数据池和代码块缓存机制
Apr 07 Python
OpenCV全景图像拼接的实现示例
Jun 05 Python
python使用jieba实现中文分词去停用词方法示例
Mar 11 #Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
You might like
PHP session常见问题集锦及解决办法总结
2007/03/18 PHP
优化PHP代码技巧的小结
2013/06/02 PHP
php使用filter过滤器验证邮箱 ipv6地址 url验证
2013/12/25 PHP
php实现的太平洋时间和北京时间互转的自定义函数分享
2014/08/19 PHP
PHP使用array_multisort对多个数组或多维数组进行排序
2014/12/16 PHP
PHP实现基本留言板功能原理与步骤详解
2020/03/26 PHP
两个SUBMIT按钮,如何区分处理
2006/08/22 Javascript
关于UTF-8的客户端用AJAX方式获取GB2312的服务器端乱码问题的解决办法
2010/11/30 Javascript
jquery remove方法应用详解
2012/11/22 Javascript
jquery单行文字向上滚动效果示例
2014/03/06 Javascript
在myeclipse中如何加入jquery代码提示功能
2014/06/03 Javascript
jquery+php实现搜索框自动提示
2014/11/28 Javascript
使用jQueryMobile实现滑动翻页效果的方法
2015/02/04 Javascript
JQuery中clone方法复制节点
2015/05/18 Javascript
js计算系统当前日期是星期几的方法
2016/07/14 Javascript
使用BootStrap进行轮播图的制作
2017/01/06 Javascript
ndm:NPM的桌面GUI应用程序
2018/10/15 Javascript
vue-dplayer 视频播放器实例代码
2019/11/08 Javascript
WEB前端性能优化的7大手段详解
2020/02/04 Javascript
详解ES6新增字符串扩张方法includes()、startsWith()、endsWith()
2020/05/12 Javascript
从零学Python之hello world
2014/05/21 Python
Python中使用tarfile压缩、解压tar归档文件示例
2015/04/05 Python
python实现带错误处理功能的远程文件读取方法
2015/04/29 Python
python GUI库图形界面开发之PyQt5浏览器控件QWebEngineView详细使用方法
2020/02/26 Python
Anaconda+spyder+pycharm的pytorch配置详解(GPU)
2020/10/18 Python
python tkinter实现下载进度条及抖音视频去水印原理
2021/02/07 Python
如何用Python和JS实现的Web SSH工具
2021/02/23 Python
Perfume’s Club意大利官网:欧洲美妆电商
2019/05/03 全球购物
成功的酒店创业计划书
2013/12/27 职场文书
党员公开承诺书和承诺事项
2014/03/25 职场文书
环境工程专业自荐信范文
2014/06/24 职场文书
员工开除通知书
2015/04/25 职场文书
HTML速写之Emmet语法规则的实现
2021/04/07 HTML / CSS
MongoDB数据库常用的10条操作命令
2021/06/18 MongoDB
alibaba seata服务端具体实现
2022/02/24 Java/Android
Flink 侧流输出源码示例解析
2022/09/23 Servers