编程 PHP

PHP中计算字符串相似度的函数代码

Posted in PHP onDecember 29, 2012

similar_text — 计算两个字符串的相似度
int similar_text ( string $first , string $second [, float &$percent ] )
$first 必需。规定要比较的第一个字符串。
$second 必需。规定要比较的第二个字符串。
$percent 可选。规定供存储百分比相似度的变量名。

两个字符串的相似程度计算依据 Oliver [1993] 的描述进行。注意该实现没有使用 Oliver 虚拟码中的堆栈，但是却进行了递归调用，这个做法可能会导致整个过程变慢或变快。也请注意，该算法的复杂度是 O(N**3)，N 是最长字符串的长度。

比如我们想找字符串abcdefg和字符串aeg的相似度：

$first = "abcdefg"; 

$second = "aeg"; 

echo similar_text($first, $second);结果输出3.如果想以百分比显示，则可使用它的第三个参数,如下： 

$first = "abcdefg"; 

$second = "aeg"; 

similar_text($first, $second, $percent); 

echo $percent;

similar_text函数的使用及实现过程。similar_text() 函数主要是用来计算两个字符串的匹配字符的数目，也可以计算两个字符串的相似度（以百分比计）。与 similar_text() 函数相比，我们今天要介绍的 levenshtein() 函数更快。不过，similar_text() 函数能通过更少的必需修改次数提供更精确的结果。在追求速度而少精确度，并且字符串长度有限时可以考虑使用 levenshtein() 函数。

使用说明

先看手册上 levenshtein() 函数的说明：

levenshtein() 函数返回两个字符串之间的 Levenshtein 距离。

Levenshtein 距离，又称编辑距离，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

例如把 kitten 转换为 sitting：

sitten （k→s）
sittin （e→i）
sitting （→g）levenshtein() 函数给每个操作（替换、插入和删除）相同的权重。不过，您可以通过设置可选的 insert、replace、delete 参数，来定义每个操作的代价。

语法：

levenshtein(string1,string2,insert,replace,delete)

参数描述

•string1 必需。要对比的第一个字符串。
•string2 必需。要对比的第二个字符串。
•insert 可选。插入一个字符的代价。默认是 1。
•replace 可选。替换一个字符的代价。默认是 1。
•delete 可选。删除一个字符的代价。默认是 1。
提示和注释

•如果其中一个字符串超过 255 个字符，levenshtein() 函数返回 -1。
•levenshtein() 函数对大小写不敏感。
•levenshtein() 函数比 similar_text() 函数更快。不过，similar_text() 函数提供需要更少修改的更精确的结果。
例子

<?php 

echo levenshtein("Hello World","ello World"); 

echo "<br />"; 

echo levenshtein("Hello World","ello World",10,20,30); 

?>

输出： 1 30

以下是补充：

php默认有个函数similar_text()用于计算字符串之间的相似度，该函数也可以计算两个字符串的相似度（以百分比计）。不过这个函数感觉对中文计算很不准确比如：

echo similar_text("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难");

这两个新闻标题其实都是一样的，如果使用similar_text()相似对结果为：42，即只相似42%，所以这个感觉很不靠谱，今天刚好收集到一段PHP代码也是用于比较两个字符串的相似度，直接贴出代码：

<?php 
class LCS {
  var $str1;
  var $str2;
  var $c = array();
  /*返回串一和串二的最长公共子序列
*/
  function getLCS($str1, $str2, $len1 = 0, $len2 = 0) {
    $this->str1 = $str1;
    $this->str2 = $str2;
    if ($len1 == 0) $len1 = strlen($str1);
    if ($len2 == 0) $len2 = strlen($str2);
    $this->initC($len1, $len2);
    return $this->printLCS($this->c, $len1 - 1, $len2 - 1);
  }
  /*返回两个串的相似度
*/
  function getSimilar($str1, $str2) {
    $len1 = strlen($str1);
    $len2 = strlen($str2);
    $len = strlen($this->getLCS($str1, $str2, $len1, $len2));
    return $len * 2 / ($len1 + $len2);
  }
  function initC($len1, $len2) {
    for ($i = 0; $i < $len1; $i++) $this->c[$i][0] = 0;
    for ($j = 0; $j < $len2; $j++) $this->c[0][$j] = 0;
    for ($i = 1; $i < $len1; $i++) {
      for ($j = 1; $j < $len2; $j++) {
        if ($this->str1[$i] == $this->str2[$j]) {
          $this->c[$i][$j] = $this->c[$i - 1][$j - 1] + 1;
        } else if ($this->c[$i - 1][$j] >= $this->c[$i][$j - 1]) {
          $this->c[$i][$j] = $this->c[$i - 1][$j];
        } else {
          $this->c[$i][$j] = $this->c[$i][$j - 1];
        }
      }
    }
  }
  function printLCS($c, $i, $j) {
    if ($i == 0 || $j == 0) {
      if ($this->str1[$i] == $this->str2[$j]) return $this->str2[$j];
      else return "";
    }
    if ($this->str1[$i] == $this->str2[$j]) {
      return $this->printLCS($this->c, $i - 1, $j - 1).$this->str2[$j];
    } else if ($this->c[$i - 1][$j] >= $this->c[$i][$j - 1]) {
      return $this->printLCS($this->c, $i - 1, $j);
    } else {
      return $this->printLCS($this->c, $i, $j - 1);
    }
  }
} 

$lcs = new LCS();
//返回最长公共子序列
$lcs->getLCS("hello word","hello china");
//返回相似度
echo $lcs->getSimilar("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难");

同样输出结果为：0.90322580645161，明显准确的多。

PHP中计算字符串相似度的函数代码

- Author -

mdxy-dxy

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

真正的ZIP文件操作类(php)

Jul 21 PHP

php实现可以设置中奖概率的抽奖程序代码分享

Jan 19 PHP

ThinkPHP3.1新特性之字段合法性检测详解

Jun 19 PHP

php检测数组长度函数sizeof与count用法

Nov 17 PHP

PHP获取photoshop写入图片文字信息的方法

Mar 31 PHP

百度工程师讲PHP函数的实现原理及性能分析（二）

May 13 PHP

php获取微信共享收货地址的方法

Dec 21 PHP

PHP array_reduce()函数的应用解析

Oct 28 PHP

php文件操作之文件写入字符串、数组的方法分析

Apr 15 PHP

PHP rmdir()函数的用法总结

Jul 02 PHP

laravel 错误处理,接口错误返回json代码

Oct 25 PHP

PHP程序员必须知道的两种日志实例分析

May 14 PHP

PHP flock 文件锁详细介绍

Dec 29 #PHP

PHP生成唯一的促销/优惠/折扣码(附源码)

Dec 28 #PHP

PHP中函数rand和mt_rand的区别比较

Dec 26 #PHP

php中unlink()、mkdir()、rmdir()等方法的使用介绍

Dec 21 #PHP

php和javascript之间变量的传递实现代码

Dec 19 #PHP

ajax php传递和接收变量实现思路及代码

Dec 19 #PHP

PHP编码转换函数自动转换字符集支持数组转换

Dec 16 #PHP

You might like

php实现统计邮件大小的方法

2013/08/06 PHP

php的SimpleXML方法读写XML接口文件实例解析

2014/06/16 PHP

php实现httpRequest的方法

2015/03/13 PHP

实例讲解PHP表单处理

2019/02/15 PHP

利用PHP内置SERVER开启web服务(本地开发使用)

2020/01/22 PHP

HTML IMG标签 onload 内存溢出导致浏览器CPU占用过高

2021/03/09 Javascript

extjs实现选择多表自定义查询功能前台部分(ext源码)

2011/12/20 Javascript

基于JavaScript自定义构造函数的详解说明

2013/04/24 Javascript

jquery实现漂浮在网页右侧的qq在线客服插件示例

2013/05/13 Javascript

Javasipt:操作radio标签详解

2013/12/30 Javascript

有关easyui-layout中的收缩层无法显示标题的解决办法

2016/05/10 Javascript

JS实现动态表格的添加，修改，删除功能(推荐)

2016/06/15 Javascript

原生ajax处理json格式数据的实例代码

2016/12/25 Javascript

如何制作幻灯片（代码分享）

2017/01/06 Javascript

vuex直接赋值的三种方法总结

2018/09/16 Javascript

在vue项目中,将juery设置为全局变量的方法

2018/09/25 Javascript

Vue使用axios出现options请求方法

2019/05/30 Javascript

ionic+html5+API实现双击返回键退出应用

2019/09/17 Javascript

Angular封装表单控件及思想总结

2019/12/11 Javascript

[31:33]2014 DOTA2国际邀请赛中国区预选赛 TongFu VS DT 第一场

2014/05/23 DOTA

[01:06:54]DOTA2-DPC中国联赛正赛 SAG vs DLG BO3 第二场 2月28日

2021/03/11 DOTA

破解安装Pycharm的方法

2018/10/19 Python

python设置环境变量的原因和方法

2019/06/24 Python

Python 实现的 Google 批量翻译功能

2019/08/26 Python

Python带参数的装饰器运行原理解析

2020/06/09 Python

Python 处理日期时间的Arrow库使用

2020/08/18 Python

法国家具及室内配件店：home24

2017/01/21 全球购物

秋季运动会通讯稿

2014/01/24 职场文书

小学生检讨书大全

2014/02/06 职场文书

五一手机促销方案

2014/03/08 职场文书

文科毕业生自荐书范文

2014/04/17 职场文书

自强之星事迹材料

2014/05/12 职场文书

建筑工地质量标语

2014/06/12 职场文书

说好普通话圆梦你我他演讲稿

2014/09/21 职场文书

铣工实训报告

2014/11/05 职场文书

源码分析Redis中 set 和 sorted set 的使用方法

2022/03/22 Redis