php-perl哈希算法实现(times33哈希算法)


Posted in PHP onDecember 30, 2013
APR_DECLARE_NONSTD(unsigned int) apr_hashfunc_default(const char *char_key,
                                                      apr_ssize_t *klen)
{
    unsigned int hash = 0;
    const unsigned char *key = (const unsigned char *)char_key;
    const unsigned char *p;
    apr_ssize_t i;    /*
     * This is the popular `times 33' hash algorithm which is used by
     * perl and also appears in Berkeley DB. This is one of the best
     * known hash functions for strings because it is both computed
     * very fast and distributes very well.
     *
     * The originator may be Dan Bernstein but the code in Berkeley DB
     * cites Chris Torek as the source. The best citation I have found
     * is "Chris Torek, Hash function for text in C, Usenet message
     * <27038@mimsy.umd.edu> in comp.lang.c , October, 1990." in Rich
     * Salz's USENIX 1992 paper about INN which can be found at
     * .
     *
     * The magic of number 33, i.e. why it works better than many other
     * constants, prime or not, has never been adequately explained by
     * anyone. So I try an explanation: if one experimentally tests all
     * multipliers between 1 and 256 (as I did while writing a low-level
     * data structure library some time ago) one detects that even
     * numbers are not useable at all. The remaining 128 odd numbers
     * (except for the number 1) work more or less all equally well.
     * They all distribute in an acceptable way and this way fill a hash
     * table with an average percent of approx. 86%.
     *
     * If one compares the chi^2 values of the variants (see
     * Bob Jenkins ``Hashing Frequently Asked Questions'' at
     * http://burtleburtle.net/bob/hash/hashfaq.html for a description
     * of chi^2), the number 33 not even has the best value. But the
     * number 33 and a few other equally good numbers like 17, 31, 63,
     * 127 and 129 have nevertheless a great advantage to the remaining
     * numbers in the large set of possible multipliers: their multiply
     * operation can be replaced by a faster operation based on just one
     * shift plus either a single addition or subtraction operation. And
     * because a hash function has to both distribute good _and_ has to
     * be very fast to compute, those few numbers should be preferred.
     *
     *                  -- Ralf S. Engelschall 
     */
    if (*klen == APR_HASH_KEY_STRING) {
        for (p = key; *p; p++) {
            hash = hash * 33 + *p;
        }
        *klen = p - key;
    }
    else {
        for (p = key, i = *klen; i; i--, p++) {
            hash = hash * 33 + *p;
        }
    }
    return hash;
}

对函数注释部分的翻译: 这是很出名的times33哈希算法,此算法被perl语言采用并在Berkeley DB中出现.它是已知的最好的哈希算法之一,在处理以字符串为键值的哈希时,有着极快的计算效率和很好哈希分布.最早提出这个算法的是Dan Bernstein,但是源代码确实由Clris Torek在Berkeley DB出实作的.我找到的最确切的引文中这样说”Chris Torek,C语言文本哈希函数,Usenet消息<<27038@mimsy.umd.edu> in comp.lang.c ,1990年十月.”在Rich Salz于1992年在USENIX报上发表的讨论INN的文章中提到.这篇文章可以在上找到. 33这个奇妙的数字,为什么它能够比其他数值效果更好呢?无论重要与否,却从来没有人能够充分说明其中的原因.因此在这里,我来试着解释一下.如果某人试着测试1到256之间的每个数字(就像我前段时间写的一个底层数据结构库那样),他会发现,没有哪一个数字的表现是特别突出的.其中的128个奇数(1除外)的表现都差不多,都能够达到一个能接受的哈希分布,平均分布率大概是86%. 如果比较这128个奇数中的方差值(gibbon:统计术语,表示随机变量与它的数学期望之间的平均偏离程度)的话(见Bob Jenkins的<哈希常见疑问>http://burtleburtle.net/bob/hash/hashfaq.html,中对平方差的描述),数字33并不是表现最好的一个.(gibbon:这里按照我的理解,照常理,应该是方差越小稳定,但是由于这里不清楚作者方差的计算公式,以及在哈希离散表,是不是离散度越大越好,所以不得而知这里的表现好是指方差值大还是指方差值小),但是数字33以及其他一些同样好的数字比如 17,31,63,127和129对于其他剩下的数字,在面对大量的哈希运算时,仍然有一个大大的优势,就是这些数字能够将乘法用位运算配合加减法来替换,这样的运算速度会提高.毕竟一个好的哈希算法要求既有好的分布,也要有高的计算速度,能同时达到这两点的数字很少.

PHP 相关文章推荐
让你的网站首页自动选择语言转跳
Dec 06 PHP
php 正则匹配函数体
Aug 25 PHP
PHP页面中文乱码分析
Oct 29 PHP
php导出CSV抽象类实例
Sep 24 PHP
php通过exif_read_data函数获取图片的exif信息
May 21 PHP
PHP实现动态web服务器方法
Jul 29 PHP
PHP文件操作之获取目录下文件与计算相对路径的方法
Jan 08 PHP
PHP下载文件的函数实例代码
May 18 PHP
微信支付开发动态链接Native支付
Jul 12 PHP
php array_walk_recursive 使用自定的函数处理数组中的每一个元素
Nov 16 PHP
php类自动装载、链式操作、魔术方法实现代码
Jul 23 PHP
ThinkPHP3.2框架自带分页功能实现方法示例
May 13 PHP
php实现在线生成条形码示例分享(条形码生成器)
Dec 30 #PHP
md5 16位二进制与32位字符串相互转换示例
Dec 30 #PHP
微信扫描二维码登录网站代码示例
Dec 30 #PHP
浅谈PHP变量作用域以及地址引用问题
Dec 27 #PHP
一个好用的PHP验证码类实例分享
Dec 27 #PHP
PHP连接SQLServer2005方法及代码
Dec 26 #PHP
php截取中文字符串不乱码的方法
Dec 25 #PHP
You might like
php 函数中使用static的说明
2012/06/01 PHP
PHP异常处理Exception类
2015/12/11 PHP
PHP请求Socket接口测试实例
2016/08/12 PHP
PHP匿名函数(闭包函数)详解
2019/03/22 PHP
php 使用mpdf实现指定字段配置字体样式的方法
2019/07/29 PHP
一个简单的jQuery插件ajaxfileupload.js实现ajax上传文件例子
2014/06/26 Javascript
jQuery插件boxScroll实现图片轮播特效
2015/07/14 Javascript
浅析location.href跨窗口调用函数
2016/11/22 Javascript
深入理解Javascript中的valueOf与toString
2017/01/04 Javascript
使用JQ完成表格隔行换色的简单实例
2017/08/25 Javascript
限时抢购-倒计时的完整实例(分享)
2017/09/17 Javascript
父组件中vuex方法更新state子组件不能及时更新并渲染的完美解决方法
2018/04/25 Javascript
在vue-cli的组件模板里使用font-awesome的两种方法
2018/09/28 Javascript
解决layui table表单提示数据接口请求异常的问题
2019/09/24 Javascript
webpack是如何实现模块化加载的方法
2019/11/06 Javascript
jQuery事件模型默认行为执行顺序及trigger()与 triggerHandler()比较实例分析
2020/04/30 jQuery
jQuery实现计算器功能
2020/10/19 jQuery
Vue如何实现变量表达式选择器
2021/02/18 Vue.js
[02:27]《DAC最前线》之附加赛征程
2015/01/29 DOTA
在Django中限制已登录用户的访问的方法
2015/07/23 Python
删除python pandas.DataFrame 的多重index实例
2018/06/08 Python
Window环境下Scrapy开发环境搭建
2018/11/18 Python
Python变量类型知识点总结
2019/02/18 Python
python面向对象实现名片管理系统文件版
2019/04/26 Python
pycharm实现print输出保存到txt文件
2020/06/01 Python
Python生成器generator原理及用法解析
2020/07/20 Python
去除python中的字符串空格的简单方法
2020/12/22 Python
python如何调用php文件中的函数详解
2020/12/29 Python
分享一个H5原生form表单的checkbox特效代码
2018/02/26 HTML / CSS
德国BA保镖药房韩文网:kr.ba.de
2017/09/04 全球购物
省优秀教师事迹材料
2014/01/30 职场文书
倡导文明标语
2014/06/16 职场文书
一年级语文上册复习计划
2015/01/17 职场文书
行政答辩状范文
2015/05/21 职场文书
在pycharm中无法import所安装的库解决方案
2021/05/31 Python
Pygame Time时间控制的具体使用详解
2021/11/17 Python