编程 PHP

PHP实现Huffman编码/解码的示例代码

Posted in PHP onApril 20, 2018

Huffman 编码是一种数据压缩算法。我们常用的 zip 压缩，其核心就是 Huffman 编码，还有在 HTTP/2 中，Huffman 编码被用于 HTTP 头部的压缩。

本文就来用 PHP 来实践一下 Huffman 编码和解码。

1. 编码

字数统计

Huffman编码的第一步就是要统计文档中每个字符出现的次数，PHP的内置函数 count_chars() 就可以做到：

$input = file_get_contents('input.txt');
$stat = count_chars($input, 1);

构造Huffman树

接下来根据统计结果构造Huffman树，构造方法在 Wikipedia 有详细的描述。这里用PHP写了一个简易版的：

$huffmanTree = [];
foreach ($stat as $char => $count) {
  $huffmanTree[] = [
    'k' => chr($char),
    'v' => $count,
    'left' => null,
    'right' => null,
  ];
}

// 构造树的层级关系，思想见wiki：https://zh.wikipedia.org/wiki/%E9%9C%8D%E5%A4%AB%E6%9B%BC%E7%BC%96%E7%A0%81
$size = count($huffmanTree);
for ($i = 0; $i !== $size - 1; $i++) {
  uasort($huffmanTree, function ($a, $b) {
    if ($a['v'] === $b['v']) {
      return 0;
    }
    return $a['v'] < $b['v'] ? -1 : 1;
  });
  $a = array_shift($huffmanTree);
  $b = array_shift($huffmanTree);
  $huffmanTree[] = [
    'v' => $a['v'] + $b['v'],
    'left' => $b,
    'right' => $a,
  ];
}
$root = current($huffmanTree);

经过计算之后，$root 就会指向 Huffman 树的根节点

根据Huffman树生成编码字典

有了 Huffman 树，就可以生成用于编码的字典：

function buildDict($elem, $code = '', &$dict) {
  if (isset($elem['k'])) {
    $dict[$elem['k']] = $code;
  } else {
    buildDict($elem['left'], $code.'0', $dict);
    buildDict($elem['right'], $code.'1', $dict);
  }
}
$dict = [];
buildDict($root, '', $dict);

写文件

运用字典将文件内容进行编码，并写入文件。将Huffman编码写入文件的有几个注意的地方：

将编码字典和编码内容一起写入文件后，就没法区分他们的边界了，因此需要在文件开始写入他们各自占用的字节数

PHP提供的 fwrite() 函数一次能写入 8-bit（一个字节）或者是 8的整数倍个bit。但Huffman编码中，一个字符可能只使用 1-bit 表示，PHP不支持只往文件中写入 1-bit 这种操作。所以需要我们自行对编码进行拼接，每凑齐 8-bit 才写入文件。

PHP实现Huffman编码/解码的示例代码

每凑齐8-bit才写入

与第二条类似，最终形成的文件大小一定是 8-bit 的整数倍。所以如果整个编码的大小是 8001-bit的话，还要在末尾补上 7个 0

$dictString = serialize($dict);
// 写入字典和编码各自占用的字节数
$header = pack('VV', strlen($dictString), strlen($input));
fwrite($outFile, $header);
// 写入字典本身
fwrite($outFile, $dictString);

// 写入编码的内容
$buffer = '';
$i = 0;
while (isset($input[$i])) {
  $buffer .= $dict[$input[$i]];
  while (isset($buffer[7])) {
    $char = bindec(substr($buffer, 0, 8));
    fwrite($outFile, chr($char));
    $buffer = substr($buffer, 8);
  }
  $i++;
}
// 末尾的内容如果没有凑齐 8-bit，需要自行补齐
if (!empty($buffer)) {
  $char = bindec(str_pad($buffer, 8, '0'));
  fwrite($outFile, chr($char));
}
fclose($outFile);

解码

Huffman编码的解码相对简单：先读取编码字典，然后根据字典解码出原始字符。

解码过程有个问题需要注意：由于我们在编码过程中，在文件末尾补齐了几个0-bit，如果这些 0-bit 在字典中恰巧是某个字符的编码时，就会造成错误的解码。

所以解码过程中，当已解码的字符数达到文档长度时，就要停止解码。

<?php
$content = file_get_contents('a.out');

// 读出字典长度和编码内容长度
$header = unpack('VdictLen/VcontentLen', $content);
$dict = unserialize(substr($content, 8, $header['dictLen']));
$dict = array_flip($dict);

$bin = substr($content, 8 + $header['dictLen']);
$output = '';
$key = '';
$decodedLen = 0;
$i = 0;
while (isset($bin[$i]) && $decodedLen !== $header['contentLen']) {
  $bits = decbin(ord($bin[$i]));
  $bits = str_pad($bits, 8, '0', STR_PAD_LEFT);
  for ($j = 0; $j !== 8; $j++) {
    // 每拼接上 1-bit，就去与字典比对是否能解码出字符
    $key .= $bits[$j];
    if (isset($dict[$key])) {
      $output .= $dict[$key];
      $key = '';
      $decodedLen++;
      if ($decodedLen === $header['contentLen']) {
        break;
      }
    }
  }
  $i++;
}
echo $output;

试验

我们将Huffman编码Wiki页的HTML代码保存到本地，进行Huffman编码测试，试验结果：

编码前: 418,504 字节

编码后: 280,127 字节

空间节省了 33%，如果原文的重复内容较多，Huffman编码节省的空间可以达到 50% 以上.

除了文本内容，我们再尝试将一个二进制文件进行Huffman编码，比如 f.lux的安装程序，试验结果如下：

编码前: 770,384 字节

编码后: 773,076 字节

编码后反而占用了更大的空间，一方面是由于我们存储字典时，并没有做额外的处理，占用了不少空间。另一方面，二进制文件中，各个字符出现的概率相对比较平均，无法发挥Huffman编码的优势。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

PHP实现Huffman编码/解码的示例代码

- Author -

切糕糕

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

mysql 中InnoDB和MyISAM的区别分析小结

Apr 15 PHP

PHP 日志缩略名的创建函数代码

May 26 PHP

PHP中file_exists与is_file,is_dir的区别介绍

Sep 12 PHP

PHP JS Ip地址及域名格式检测代码

Sep 27 PHP

PHP 使用pcntl和libevent 实现Timer功能

Oct 27 PHP

php实现按指定大小等比缩放生成上传图片缩略图的方法

Dec 15 PHP

PHP传参之传值与传址的区别

Apr 24 PHP

PHP不使用递归的无限级分类简单实例

Nov 05 PHP

PHP7下协程的实现方法详解

Dec 17 PHP

Laravel 加载第三方类库的方法

Apr 20 PHP

详解php中生成标准uuid（guid）的方法

Apr 28 PHP

PHP Trait代码复用类与多继承实现方法详解

Jun 17 PHP

PHP排序算法之希尔排序(Shell Sort)实例分析

Apr 20 #PHP

PHP排序算法之直接插入排序(Straight Insertion Sort)实例分析

Apr 20 #PHP

PHP排序算法之简单选择排序(Simple Selection Sort)实例分析

Apr 20 #PHP

PHP排序算法之冒泡排序(Bubble Sort)实现方法详解

Apr 20 #PHP

PHP实现二叉树深度优先遍历(前序、中序、后序)和广度优先遍历(层次)实例详解

Apr 20 #PHP

PHP SPL 被遗落的宝石【SPL应用浅析】

Apr 20 #PHP

Laravel 加载第三方类库的方法

Apr 20 #PHP

You might like

新手菜鸟必读:session与cookie的区别

2013/08/22 PHP

json的键名为数字时的调用方式(示例代码)

2013/11/15 PHP

php截取中文字符串不乱码的方法

2013/12/25 PHP

php intval函数用法总结

2019/04/14 PHP

Jquery 动态添加按钮实现代码

2010/05/06 Javascript

javascript 冒泡排序正序和倒序实现代码

2010/12/14 Javascript

JS打印gridview实现原理及代码

2013/02/05 Javascript

JS delegate与live浅析

2013/12/21 Javascript

使用jquery实现以post打开新窗口

2014/03/19 Javascript

js判断checkbox是否选中个数的方法(超简单)

2016/08/19 Javascript

AngularJS 中ui-view传参的实例详解

2017/08/25 Javascript

微信{"errcode":48001,"errmsg":"api unauthorized, hints: [ req_id: 1QoCla0699ns81 ]"}

2018/10/12 Javascript

微信小程序引用iconfont图标的方法

2018/10/22 Javascript

基于Vue实现平滑过渡的拖拽排序功能

2019/06/12 Javascript

vue路由守卫,限制前端页面访问权限的例子

2019/11/11 Javascript

vue+iview实现分页及查询功能

2020/11/17 Vue.js

[36:43]NB vs Optic 2018国际邀请赛小组赛BO1 B组加赛 8.19

2018/08/21 DOTA

Python中decorator使用实例

2015/04/14 Python

python实现基本进制转换的方法

2015/07/11 Python

python getopt详解及简单实例

2016/12/30 Python

一个Python最简单的接口自动化框架

2018/01/02 Python

Python实现的直接插入排序算法示例

2018/04/29 Python

python抓取需要扫微信登陆页面

2019/04/29 Python

matplotlib 对坐标的控制,加图例注释的操作

2020/04/17 Python

使用python无账号无限制获取企查查信息的实例代码

2020/04/17 Python

浅析Python 多行匹配模式

2020/07/24 Python

美国购买新书和二手书网站：Better World Books

2018/10/31 全球购物

理肤泉英国官网：La Roche-Posay英国

2019/01/14 全球购物

匈牙利超级网上商店和优惠：Alza.hu

2019/12/17 全球购物

上海某公司.net方向笔试题

2014/09/14 面试题

团支部建设方案

2014/05/02 职场文书

党员服务承诺书

2014/05/28 职场文书

旅游文化节策划方案

2014/06/06 职场文书

关于感谢信的范文

2015/01/23 职场文书

《作风建设永远在路上》心得体会

2016/01/21 职场文书

php png失真的原因及解决办法

2021/11/17 PHP