python文本数据相似度的度量


Posted in Python onMarch 12, 2018

编辑距离

编辑距离,又称为Levenshtein距离,是用于计算一个字符串转换为另一个字符串时,插入、删除和替换的次数。例如,将'dad'转换为'bad'需要一次替换操作,编辑距离为1。

nltk.metrics.distance.edit_distance函数实现了编辑距离。

from nltk.metrics.distance import edit_distance

str1 = 'bad'
str2 = 'dad'
print(edit_distance(str1, str2))

N元语法相似度

n元语法只是简单地表示文本中n个标记的所有可能的连续序列。n元语法具体是这样的

import nltk

#这里展示2元语法
text1 = 'Chief Executive Officer'

#bigram考虑匹配开头和结束,所有使用pad_right和pad_left
ceo_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)

print(list(ceo_bigrams))
[(None, 'Chief'), ('Chief', 'Executive'), 
('Executive', 'Officer'), ('Officer', None)]

2元语法相似度计算

import nltk

#这里展示2元语法
def bigram_distance(text1, text2):
  #bigram考虑匹配开头和结束,所以使用pad_right和pad_left
  text1_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)
  
  text2_bigrams = nltk.bigrams(text2.split(), pad_right=True, pad_left=True)
  
  #交集的长度
  distance = len(set(text1_bigrams).intersection(set(text2_bigrams)))
  
  return distance


text1 = 'Chief Executive Officer is manager'

text2 = 'Chief Technology Officer is technology manager'

print(bigram_distance(text1, text2)) #相似度为3

jaccard相似性

jaccard距离度量的两个集合的相似度,它是由 (集合1交集合2)/(结合1交结合2)计算而来的。

实现方式

from nltk.metrics.distance import jaccard_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))

0.6666666666666666

masi距离

masi距离度量是jaccard相似度的加权版本,当集合之间存在部分重叠时,通过调整得分来生成小于jaccard距离值。

from nltk.metrics.distance import jaccard_distance,masi_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))
print(masi_distance(set1, set2))

0.6666666666666666
0.22000000000000003

余弦相似度

nltk提供了余弦相似性的实现方法,比如有一个词语空间

word_space = [w1,w2,w3,w4]

text1 = 'w1 w2 w1 w4 w1'
text2 = 'w1 w3 w2'

#按照word_space位置,计算每个位置词语出现的次数

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

[3,1,0,1]意思是指w1出现了3次,w2出现了1次,w3出现0次,w4出现1次。

好了下面看代码,计算text1与text2的余弦相似性

from nltk.cluster.util import cosine_distance

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

print(cosine_distance(text1_vector,text2_vector))

0.303689376177

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Mac OS X10.9安装的Python2.7升级Python3.3步骤详解
Dec 04 Python
对pandas中iloc,loc取数据差别及按条件取值的方法详解
Nov 06 Python
Django开发的简易留言板案例详解
Dec 04 Python
python队列Queue的详解
May 10 Python
详解python中__name__的意义以及作用
Aug 07 Python
Python定时任务随机时间执行的实现方法
Aug 14 Python
pytorch 在sequential中使用view来reshape的例子
Aug 20 Python
PyTorch实现AlexNet示例
Jan 14 Python
TensorFlow实现自定义Op方式
Feb 04 Python
Python中zip函数如何使用
Jun 04 Python
详解Python Celery和RabbitMQ实战教程
Jan 20 Python
详解python网络进程
Jun 15 Python
python使用jieba实现中文分词去停用词方法示例
Mar 11 #Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
You might like
PHP 多维数组排序(usort,uasort)
2010/06/30 PHP
php include和require的区别深入解析
2013/06/17 PHP
PHP 文件编程综合案例-文件上传的实现
2013/07/03 PHP
thinkPHP中session()方法用法详解
2016/12/08 PHP
PHP检测数据类型的几种方法(总结)
2017/03/04 PHP
如何在PHP中读写文件
2020/09/07 PHP
syntaxhighlighter 使用方法
2007/07/02 Javascript
Aptana调试javascript图解教程
2009/11/30 Javascript
javascript在事件监听方面的兼容性小结
2010/04/07 Javascript
JavaScript中的连字符详解
2013/11/28 Javascript
关于Javascript作用域链的八点总结
2013/12/06 Javascript
5个数组Array方法: indexOf、filter、forEach、map、reduce使用实例
2015/01/29 Javascript
JavaScript中Number对象的toFixed() 方法详解
2016/09/02 Javascript
angularJs的ng-class切换class
2017/06/23 Javascript
详解webpack-dev-server的简单使用
2018/04/02 Javascript
微信小程序实现默认第一个选中变色效果
2018/07/17 Javascript
详解从react转职到vue开发的项目准备
2019/01/14 Javascript
[00:43]FTP典藏礼包 DOTA2三大英雄霸气新套装
2014/03/21 DOTA
python通过apply使用元祖和列表调用函数实例
2015/05/26 Python
python flask 多对多表查询功能
2017/06/25 Python
flask + pymysql操作Mysql数据库的实例
2017/11/13 Python
python random从集合中随机选择元素的方法
2019/01/23 Python
python操作openpyxl导出Excel 设置单元格格式及合并处理代码实例
2019/08/27 Python
解决Django layui {{}}冲突的问题
2019/08/29 Python
Python装饰器使用你可能不知道的几种姿势
2019/10/25 Python
python爬虫要用到的库总结
2020/07/28 Python
python 下载文件的几种方法汇总
2021/01/06 Python
瑞贝卡·泰勒官方网站:Rebecca Taylor
2016/09/24 全球购物
经济实惠的豪华家具:My-Furniture
2019/03/12 全球购物
C/C++ 笔试、面试题目大汇总
2015/11/21 面试题
安全生产责任书
2014/03/12 职场文书
关爱女孩行动实施方案
2014/03/13 职场文书
如何写贫困证明申请书
2014/10/29 职场文书
2016七夕情人节寄语
2015/12/04 职场文书
如何在centos上使用yum安装rabbitmq-server
2021/03/31 Servers
vue实现滑动解锁功能
2022/03/03 Vue.js