深入PHP中的HashTable结构详解


Posted in PHP onJune 13, 2013

HashTable是Zend引擎中最重要、使用最广泛的数据结构,它被用来存储几乎所有的东西。
1.2.1 数据结构
HashTable数据结构定义如下:

typedef struct bucket {
 ulong h;    // 存放hash
 uint nKeyLength;
 void *pData;   // 指向value,是用户数据的副本
 void *pDataPtr;
 struct bucket *pListNext; // pListNext和pListLast组成
 struct bucket *pListLast; // 整个HashTable的双链表
 struct bucket *pNext;  // pNext和pLast用于组成某个hash对应
 struct bucket *pLast;  // 的双链表
 char arKey[1];    // key
} Bucket;
typedef struct _hashtable {
 uint nTableSize;
 uint nTableMask;
 uint nNumOfElements;
 ulong nNextFreeElement;
 Bucket *pInternalPointer; /* Used for element traversal */
 Bucket *pListHead;
 Bucket *pListTail;
 Bucket **arBuckets;   // hash数组
 dtor_func_t pDestructor; // HashTable初始化时指定,销毁Bucket时调用
 zend_bool persistent;  // 是否采用C的内存分配例程
 unsigned char nApplyCount;
 zend_bool bApplyProtection;
#if ZEND_DEBUG
 int inconsistent;
#endif
} HashTable;

总的来说,Zend的HashTable是一种链表散列,同时也为线性遍历进行了优化,图示如下:

深入PHP中的HashTable结构详解
HashTable中包含两种数据结构,一个链表散列和一个双向链表,前者用于进行快速键-值查询,后者方便线性遍历和排序,一个Bucket同时存在于这两个数据结构中。
关于该数据结构的几点解释:
链表散列中为什么使用双向链表?
一般的链表散列只需要按key进行操作,只需要单链表就够了。但是,Zend有时需要从链表散列中删除给定的Bucket,使用双链表可以非常高效的实现。
nTableMask是干什么的?
这个值用于hash值到arBuckets数组下标的转换。当初始化一个HashTable,Zend首先为arBuckets数组分配nTableSize大小的内存,nTableSize取不小于用户指定大小的最小的2^n,即二进制的10*。nTableMask = nTableSize ? 1,即二进制的01*,此时h & nTableMask就恰好落在 [0, nTableSize ? 1] 里,Zend就以其为index来访问arBuckets数组。
pDataPtr是干什么的?
通常情况下,当用户插入一个键值对时,Zend会将value复制一份,并将pData指向value副本。复制操作需要调用Zend内部例程 emalloc来分配内存,这是个非常耗时的操作,并且会消耗比value大的一块内存(多出的内存用于存放cookie),如果value很小的话,将会造成较大的浪费。考虑到HashTable多用于存放指针值,于是Zend引入pDataPtr,当value小到和指针一样长时,Zend就直接将其复制到pDataPtr里,并且将pData指向pDataPtr。这就避免了emalloc操作,同时也有利于提高Cache命中率。
arKey大小为什么只有1?为什么不使用指针管理key?
arKey是存放key的数组,但其大小却只有1,并不足以放下key。在HashTable的初始化函数里可以找到如下代码:

  p = (Bucket *) pemalloc(sizeof(Bucket) - 1 + nKeyLength, ht->persistent);

可见,Zend为一个Bucket分配了一块足够放下自己和key的内存,上半部分是Bucket,下半部分是key,而arKey“恰好”是Bucket的最后一个元素,于是就可以使用arKey来访问key了。这种手法在内存管理例程中最为常见,当分配内存时,实际上是分配了比指定大小要大的内存,多出的上半部分通常被称为cookie,它存储了这块内存的信息,比如块大小、上一块指针、下一块指针等,baidu的Transmit程序就使用了这种方法。
不用指针管理key,是为了减少一次emalloc操作,同时也可以提高Cache命中率。另一个必需的理由是,key绝大部分情况下是固定不变的,不会因为key变长了而导致重新分配整个Bucket。这同时也解释了为什么不把value也一起作为数组分配了——因为value是可变的。

1.2.2 PHP数组
关于HashTable还有一个疑问没有回答,就是nNextFreeElement是干什么的?
不同于一般的散列,Zend的HashTable允许用户直接指定hash值,而忽略key,甚至可以不指定key(此时,nKeyLength为0)。同时,HashTable也支持append操作,用户连hash值也不用指定,只需要提供value,此时,Zend就用nNextFreeElement作为hash,之后将nNextFreeElement递增。
HashTable的这种行为看起来很奇怪,因为这将无法按key访问value,已经完全不是个散列了。理解问题的关键在于,PHP数组就是使用HashTable实现的——关联数组使用正常的k-v映射将元素加入HashTable,其key为用户指定的字符串;非关联数组则直接使用数组下标作为hash值,不存在key;而当在一个数组中混合使用关联和非关联时,或者使用array_push操作时,就需要用nNextFreeElement了。
再来看value,PHP数组的value直接使用了zval这个通用结构,pData指向的是zval*,按照上一节的介绍,这个zval*将直接存储在pDataPtr里。由于直接使用了zval,数组的元素可以是任意PHP类型。
数组的遍历操作,即foreach、each等,是通过HashTable的双向链表来进行的,pInternalPointer作为游标记录了当前位置。

1.2.3 变量符号表
除了数组,HashTable还被用来存储许多其他数据,比如,PHP函数、变量符号、加载的模块、类成员等。
一个变量符号表就相当于一个关联数组,其key是变量名(可见,使用很长的变量名并不是个好主意),value是zval*。
在任一时刻PHP代码都可以看见两个变量符号表——symbol_table和active_symbol_table——前者用于存储全局变量,称为全局符号表;后者是个指针,指向当前活动的变量符号表,通常情况下就是全局符号表。但是,当每次进入一个PHP函数时(此处指的是用户使用PHP代码创建的函数),Zend都会创建函数局部的变量符号表,并将active_symbol_table指向局部符号表。Zend总是使用active_symbol_table来访问变量,这样就实现了局部变量的作用域控制。
但如果在函数局部访问标记为global的变量,Zend会进行特殊处理——在active_symbol_table中创建symbol_table中同名变量的引用,如果symbol_table中没有同名变量则会先创建。

1.3 内存和文件
程序拥有的资源一般包括内存和文件,对于通常的程序,这些资源是面向进程的,当进程结束后,操作系统或C库会自动回收那些我们没有显式释放的资源。
但是,PHP程序有其特殊性,它是基于页面的,一个页面运行时同样也会申请内存或文件这样的资源,然而当页面运行结束后,操作系统或C库也许不会知道需要进行资源回收。比如,我们将php作为模块编译到apache里,并且以prefork或worker模式运行apache。这种情况下apache进程或线程是复用的,php页面分配的内存将永驻内存直到出core。
为了解决这种问题,Zend提供了一套内存分配API,它们的作用和C中相应函数一样,不同的是这些函数从Zend自己的内存池中分配内存,并且它们可以实现基于页面的自动回收。在我们的模块中,为页面分配的内存应该使用这些API,而不是C例程,否则Zend会在页面结束时尝试efree掉我们的内存,其结果通常就是crush。
emalloc()
efree()
estrdup()
estrndup()
ecalloc()
erealloc()
另外,Zend还提供了一组形如VCWD_xxx的宏用于替代C库和操作系统相应的文件API,这些宏能够支持PHP的虚拟工作目录,在模块代码中应该总是使用它们。宏的具体定义参见PHP源代码”TSRM/tsrm_virtual_cwd.h”。可能你会注意到,所有那些宏中并没有提供close操作,这是因为close的对象是已打开的资源,不涉及到文件路径,因此可以直接使用C或操作系统例程;同理,read/write之类的操作也是直接使用C或操作系统的例程。

PHP 相关文章推荐
php 什么是PEAR?
Mar 19 PHP
php学习之流程控制实现代码
Jun 09 PHP
PHP中英混合字符串截取函数代码
Jul 17 PHP
一些需要禁用的PHP危险函数(disable_functions)
Feb 23 PHP
解析用PHP读写音频文件信息的详解(支持WMA和MP3)
May 10 PHP
php导入excel文件到mysql数据库的方法
Jan 14 PHP
thinkphp多层MVC用法分析
Dec 30 PHP
PHP序列化/对象注入漏洞分析
Apr 18 PHP
超强多功能php绿色集成环境详解
Jan 25 PHP
thinkPHP显示不出验证码的原因与解决方法分析
May 20 PHP
学习thinkphp5.0验证类使用方法
Nov 16 PHP
PHP压缩图片功能的介绍
Mar 21 PHP
基于PHP输出缓存(output_buffering)的深入理解
Jun 13 #PHP
php缓冲 output_buffering的使用详解
Jun 13 #PHP
如何在PHP中使用正则表达式进行查找替换
Jun 13 #PHP
php启用zlib压缩文件的配置方法
Jun 12 #PHP
Window下PHP三种运行方式图文详解
Jun 11 #PHP
控制PHP的输出:缓存并压缩动态页面
Jun 11 #PHP
基于PHP导出Excel的小经验 完美解决乱码问题
Jun 10 #PHP
You might like
php技术实现加载字体并保存成图片
2015/07/27 PHP
php删除数组中重复元素的方法
2015/12/22 PHP
ThinkPHP 5.1 跨域配置方法
2019/10/11 PHP
Thinkphp 框架配置操作之动态配置、扩展配置及批量配置实例分析
2020/05/15 PHP
教您去掉ie网页加载进度条的方法
2010/12/09 Javascript
jQuery回车实现登录简单实现
2013/08/20 Javascript
以JSON形式将JS中Array对象数组传至后台的方法
2014/01/06 Javascript
javascript计算当月剩余天数(天数计算器)示例代码
2014/01/09 Javascript
js获取光标位置和设置文本框光标位置示例代码
2014/01/09 Javascript
jQuery+PHP打造滑动开关效果
2014/12/16 Javascript
javascript操作表格排序实例分析
2015/05/06 Javascript
jQuery动态生成Bootstrap表格
2016/11/01 Javascript
手机移动端实现 jquery和HTML5 Canvas的幸运大奖盘特效
2016/12/06 Javascript
jQuery 循环遍历改变a标签的href(实例讲解)
2017/07/12 jQuery
JS实现点击链接切换显示隐藏内容的方法
2017/10/19 Javascript
Node.js + express基本用法教程
2019/03/14 Javascript
初学node.js中实现删除用户路由
2019/05/27 Javascript
Vue 样式切换及三元判断样式关联操作
2020/08/09 Javascript
[01:05:56]2018DOTA2亚洲邀请赛3月29日 小组赛A组 Newbee VS VG
2018/03/30 DOTA
Python实现的视频播放器功能完整示例
2018/02/01 Python
Python创建一个空的dataframe,并循环赋值的方法
2018/11/08 Python
基于Django静态资源部署404的解决方法
2019/07/28 Python
Python中的 ansible 动态Inventory 脚本
2020/01/19 Python
详解Python中namedtuple的使用
2020/04/27 Python
Python3 pywin32模块安装的详细步骤
2020/05/26 Python
基于Keras的格式化输出Loss实现方式
2020/06/17 Python
css3高级选择器使用方法
2013/12/02 HTML / CSS
马来西亚网上购物:Youbeli
2018/03/30 全球购物
加拿大服装和鞋类零售商:Mark’s
2021/01/04 全球购物
单身联谊活动方案
2014/01/29 职场文书
大学生个人自荐信样本
2014/03/02 职场文书
共产党员公开承诺践诺书
2014/05/28 职场文书
护理学院专科毕业生求职信
2014/06/28 职场文书
话题作文之自信作文
2019/11/15 职场文书
Sql-Server数据库单表查询 4.3实验课
2021/04/05 SQL Server
css3实现背景图片半透明内容不透明的方法示例
2021/04/13 HTML / CSS