python文本数据相似度的度量


Posted in Python onMarch 12, 2018

编辑距离

编辑距离,又称为Levenshtein距离,是用于计算一个字符串转换为另一个字符串时,插入、删除和替换的次数。例如,将'dad'转换为'bad'需要一次替换操作,编辑距离为1。

nltk.metrics.distance.edit_distance函数实现了编辑距离。

from nltk.metrics.distance import edit_distance

str1 = 'bad'
str2 = 'dad'
print(edit_distance(str1, str2))

N元语法相似度

n元语法只是简单地表示文本中n个标记的所有可能的连续序列。n元语法具体是这样的

import nltk

#这里展示2元语法
text1 = 'Chief Executive Officer'

#bigram考虑匹配开头和结束,所有使用pad_right和pad_left
ceo_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)

print(list(ceo_bigrams))
[(None, 'Chief'), ('Chief', 'Executive'), 
('Executive', 'Officer'), ('Officer', None)]

2元语法相似度计算

import nltk

#这里展示2元语法
def bigram_distance(text1, text2):
  #bigram考虑匹配开头和结束,所以使用pad_right和pad_left
  text1_bigrams = nltk.bigrams(text1.split(),pad_right=True,pad_left=True)
  
  text2_bigrams = nltk.bigrams(text2.split(), pad_right=True, pad_left=True)
  
  #交集的长度
  distance = len(set(text1_bigrams).intersection(set(text2_bigrams)))
  
  return distance


text1 = 'Chief Executive Officer is manager'

text2 = 'Chief Technology Officer is technology manager'

print(bigram_distance(text1, text2)) #相似度为3

jaccard相似性

jaccard距离度量的两个集合的相似度,它是由 (集合1交集合2)/(结合1交结合2)计算而来的。

实现方式

from nltk.metrics.distance import jaccard_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))

0.6666666666666666

masi距离

masi距离度量是jaccard相似度的加权版本,当集合之间存在部分重叠时,通过调整得分来生成小于jaccard距离值。

from nltk.metrics.distance import jaccard_distance,masi_distance

#这里我们以单个的字符代表文本
set1 = set(['a','b','c','d','a'])
set2 = set(['a','b','e','g','a'])

print(jaccard_distance(set1, set2))
print(masi_distance(set1, set2))

0.6666666666666666
0.22000000000000003

余弦相似度

nltk提供了余弦相似性的实现方法,比如有一个词语空间

word_space = [w1,w2,w3,w4]

text1 = 'w1 w2 w1 w4 w1'
text2 = 'w1 w3 w2'

#按照word_space位置,计算每个位置词语出现的次数

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

[3,1,0,1]意思是指w1出现了3次,w2出现了1次,w3出现0次,w4出现1次。

好了下面看代码,计算text1与text2的余弦相似性

from nltk.cluster.util import cosine_distance

text1_vector = [3,1,0,1]
text2_vector = [1,1,1,0]

print(cosine_distance(text1_vector,text2_vector))

0.303689376177

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python使用ftplib实现简易FTP客户端的方法
Jun 03 Python
qpython3 读取安卓lastpass Cookies
Jun 19 Python
Python 函数基础知识汇总
Mar 09 Python
python中时间模块的基本使用教程
May 14 Python
Python实现串口通信(pyserial)过程解析
Sep 25 Python
Anaconda 查看、创建、管理和使用python环境的方法
Dec 03 Python
opencv-python 提取sift特征并匹配的实例
Dec 09 Python
Python实现图像去噪方式(中值去噪和均值去噪)
Dec 18 Python
pytorch快速搭建神经网络_Sequential操作
Jun 17 Python
Python异常处理机制结构实例解析
Jul 23 Python
Python中的None与 NULL(即空字符)的区别详解
Sep 24 Python
python 单机五子棋对战游戏
Apr 28 Python
python使用jieba实现中文分词去停用词方法示例
Mar 11 #Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
You might like
Laravel重写用户登录简单示例
2016/10/08 PHP
PHP数组操作实例分析【添加,删除,计算,反转,排序,查找等】
2016/12/24 PHP
Linux下快速搭建php开发环境
2017/03/13 PHP
如何通过PHP实现Des加密算法代码实例
2020/05/09 PHP
FireFox JavaScript全局Event对象
2009/06/14 Javascript
location.href语句与火狐不兼容的问题
2010/07/04 Javascript
js 控制下拉菜单刷新的方法
2013/03/03 Javascript
a标签的href和onclick 的事件的区别介绍
2013/07/26 Javascript
javascript框架设计之框架分类及主要功能
2015/06/23 Javascript
使用JQuery实现Ctrl+Enter提交表单的方法
2015/10/22 Javascript
jQuery+CSS3折叠卡片式下拉列表框实现效果
2015/11/02 Javascript
NodeJS实现阿里大鱼短信通知发送
2016/01/17 NodeJs
JS组件Bootstrap实现图片轮播效果
2016/05/16 Javascript
Vue.js每天必学之过渡与动画
2016/09/06 Javascript
JS排序之快速排序详解
2017/04/08 Javascript
JavaScript内置对象之Array的使用小结
2020/05/12 Javascript
Python学习笔记_数据排序方法
2014/05/22 Python
python实现多线程的两种方式
2016/05/22 Python
对python3中pathlib库的Path类的使用详解
2018/10/14 Python
python基于gevent实现并发下载器代码实例
2019/11/01 Python
基于python3.7利用Motor来异步读写Mongodb提高效率(推荐)
2020/04/29 Python
Python退出时强制运行一段代码的实现方法
2020/04/29 Python
Django 解决由save方法引发的错误
2020/05/21 Python
html5 canvas合成海报所遇问题及解决方案总结
2017/08/03 HTML / CSS
安德玛加拿大官网:Under Armour加拿大
2019/10/02 全球购物
计算机应用专业毕业生求职信
2013/10/24 职场文书
合同专员岗位职责
2013/12/18 职场文书
门卫人员岗位职责
2013/12/24 职场文书
促销活动策划方案
2014/01/12 职场文书
审计主管岗位职责
2014/01/31 职场文书
环保标语大全
2014/06/12 职场文书
校园会短篇的广播稿
2014/10/21 职场文书
入党介绍人意见范文
2015/06/01 职场文书
先进个人主要事迹范文
2015/11/04 职场文书
sqlserver连接错误之SQL评估期已过的问题解决
2022/03/23 SQL Server
Navicat Premium自定义 sql 标签的创建方式
2022/09/23 数据库