全面剖析PHP 數組底層實現邏輯-php教程-PHP中文網

前言

php小編香蕉全面剖析PHP陣列底層實作邏輯。 PHP中的陣列是一種靈活且強大的資料結構，背後的實作邏輯卻是相當複雜的。在本文中，我們將深入探討PHP數組的底層原理，包括數組的內部結構、索引與雜湊表的關係，以及數組的增刪改查操作的實作方式。透過了解PHP數組的底層實現邏輯，可以幫助開發者更好地理解並利用數組這一重要的資料結構。

陣列的結構

一個陣列在 PHP 核心裡是長什麼樣子的呢？我們可以從PHP 的原始碼裡看到其結構如下：

// 定义结构体别名为 HashTable typedef struct _zend_array HashTable; struct _zend_array { // GC 保存引用计数，内存管理相关；本文不涉及 zend_refcounted_h gc; // u 储存辅助信息；本文不涉及 uNIOn { struct { ZEND_ENDIAN_LOHI_4( zend_uchar flags, zend_uchar nApplyCount, zend_uchar nIteratorsCount, zend_uchar consistency) } v; uint32_t flags; } u; // 用于散列函数 uint32_t nTableMask; // arData 指向储存元素的数组第一个 Bucket，Bucket 为统一的数组元素类型 Bucket *arData; // 已使用 Bucket 数 uint32_t nNumUsed; // 数组内有效元素个数 uint32_t nNumOfElements; // 数组总容量 uint32_t nTableSize; // 内部指针，用于遍历 uint32_t nInternalPointer; // 下一个可用数字索引 zend_long nNextFreeElement; // 析构函数 dtor_func_t pDestructor; };

登入後複製

nNumUsed和nNumOfElements的差異：nNumUsed指的是arData陣列中已使用的Bucket數，因為陣列在刪除元素後只是將該元素Bucket對應值的類型設定為IS_UNDEF（因為如果每次刪除元素都要將陣列移動並重新索引太浪費時間），而nNumOfElements對應的是陣列中真正的元素個數。
nTableSize陣列的容量，值為 2 的冪次方。 PHP 的陣列是不定長度但C 語言的陣列定長的，為了實現PHP 的不定長數組的功能，採用了「擴容」的機制，就是在每次插入元素的時候判斷nTableSize是否足以儲存。如果不足則重新申請2 倍nTableSize大小的新數組，並將原始數組複製過來（此時正是清除原始數組中類型為IS_UNDEF元素的時機）並且重新索引。
nNextFreeElement儲存下一個可用數字索引，例如在PHP 中$a[] = 1;這種用法會插入一個索引為nNextFreeElement的元素，然後nNextFreeElement自增1。

_zend_array這個結構先講到這裡，有些結構體成員的角色在下文會解釋，不用緊張O(∩_∩)O哈哈~。下面來看看作為數組成員的Bucket結構：

typedef struct _Bucket { // 数组元素的值 zval val; // key 通过 Time 33 算法计算得到的哈希值或数字索引 zend_ulong h; // 字符键名，数字索引则为 NULL zend_string *key; } Bucket;

登入後複製

數組存取

我們知道PHP 數組是基於哈希表實現的，而與一般哈希表不同的是PHP 的陣列也實現了元素的有序性，就是插入的元素從記憶體上來看是連續的而不是亂序的，為了實現這個有序性PHP 採用了「映射表」技術。以下就透過圖例說明我們是如何存取 PHP 陣列的元素 :-D。

全面剖析PHP 数组底层实现逻辑

注意：因為鍵名到映射表下標經過了兩次散列運算，為了區分本文用哈希特指第一次散列，散列即為第二次散列。

由圖可知，映射表和數組元素在同一片連續的內存中，映射表是一個長度與存儲元素相同的整數數組，它默認值為-1 ，有效值為Bucket陣列的下標。而HashTable->arData指向的是這片記憶體中Bucket陣列的第一個元素。

舉例$a['key']存取陣列$a中鍵名為key的成員，流程介紹：先透過Time 33 演算法計算出key的雜湊值，然後透過雜湊演算法計算出該雜湊值對應的映射表下標，因為映射表中保存的值就是Bucket陣列中的下標值，所以就能取得到Bucket陣列中對應的元素。

現在我們來聊聊雜湊演算法，就是透過鍵名的雜湊值映射到「映射表」的下標的演算法。其實很簡單就一行程式碼：

nIndex = h | ht->nTableMask;

登入後複製

將雜湊值和nTableMask進行或運算即可得出映射表的下標，其中nTableMask數值為nTableSize的負數。且由於nTableSize的值為2 的冪次方，所以h | ht->nTableMask的值範圍在[-nTableSize, -1]之間，正好在映射表的下標範圍內。至於為何不用簡單的「取餘」運算而是費盡周折的採用「位元或」運算？因為「位元或」運算的速度比「取餘」運算快很多，我覺得對於這種頻繁使用的操作來說，複雜一點的實現帶來的時間上的優化是值得的。

雜湊衝突

不同鍵名的雜湊值透過雜湊計算得到的「映射表」下標有可能相同，此時便發生了雜湊衝突。對於這種情況 PHP 使用了「鏈結位址法」解決。下圖是存取發生雜湊衝突的元素的情況：

全面剖析PHP 数组底层实现逻辑

这看似与第一张图差不多，但我们同样访问$a['key']的过程多了一些步骤。首先通过散列运算得出映射表下标为 -2 ，然后访问映射表发现其内容指向arData数组下标为 1 的元素。此时我们将该元素的key和要访问的键名相比较，发现两者并不相等，则该元素并非我们所想访问的元素，而元素的val.u2.next保存的值正是下一个具有相同散列值的元素对应arData数组的下标，所以我们可以不断通过next的值遍历直到找到键名相同的元素或查找失败。

插入元素

插入元素的函数_zend_hash_add_or_update_i，基于 PHP 7.2.9 的代码如下：

static zend_always_inline zval *_zend_hash_add_or_update_i(HashTable *ht, zend_string *key, zval *pData, uint32_t flag ZEND_FILE_LINE_DC) { zend_ulong h; uint32_t nIndex; uint32_t idx; Bucket *p; IS_CONSISTENT(ht); HT_ASSERT_RC1(ht); if (UNEXPECTED(!(ht->u.flags & HASH_FLAG_INITIALIZED))) { // 数组未初始化 // 初始化数组 CHECK_INIT(ht, 0); // 跳转至插入元素段 goto add_to_hash; } else if (ht->u.flags & HASH_FLAG_PACKED) { // 数组为连续数字索引数组 // 转换为关联数组 zend_hash_packed_to_hash(ht); } else if ((flag & HASH_ADD_NEW) == 0) { // 添加新元素 // 查找键名对应的元素 p = zend_hash_find_bucket(ht, key); if (p) { // 若相同键名元素存在 zval *data; if (flag & HASH_ADD) { // 指定 add 操作 if (!(flag & HASH_UPDATE_INDIRECT)) { // 若不允许更新间接类型变量则直接返回 return NULL; } // 确定当前值和新值不同 ZEND_ASSERT(&p->val != pData); // data 指向原数组成员值 data = &p->val; if (Z_TYPE_P(data) == IS_INDIRECT) { // 原数组元素变量类型为间接类型 // 取间接变量对应的变量 data = Z_INDIRECT_P(data); if (Z_TYPE_P(data) != IS_UNDEF) { // 该对应变量存在则直接返回 return NULL; } } else { // 非间接类型直接返回 return NULL; } } else { // 没有指定 add 操作 // 确定当前值和新值不同 ZEND_ASSERT(&p->val != pData); // data 指向原数组元素值 data = &p->val; // 允许更新间接类型变量则 data 指向对应的变量 if ((flag & HASH_UPDATE_INDIRECT) && Z_TYPE_P(data) == IS_INDIRECT) { data = Z_INDIRECT_P(data); } } if (ht->pDestructor) { // 析构函数存在 // 执行析构函数 ht->pDestructor(data); } // 将 pData 的值复制给 data ZVAL_COPY_VALUE(data, pData); return data; } } // 如果哈希表已满，则进行扩容 ZEND_HASH_IF_FULL_DO_RESIZE(ht); add_to_hash: // 数组已使用 Bucket 数 +1 idx = ht->nNumUsed++; // 数组有效元素数目 +1 ht->nNumOfElements++; // 若内部指针无效则指向当前下标 if (ht->nInternalPointer == HT_INVALID_IDX) { ht->nInternalPointer = idx; } zend_hash_iterators_update(ht, HT_INVALID_IDX, idx); // p 为新元素对应的 Bucket p = ht->arData + idx; // 设置键名 p->key = key; if (!ZSTR_IS_INTERNED(key)) { zend_string_addref(key); ht->u.flags &= ~HASH_FLAG_STATIC_KEYS; zend_string_hash_val(key); } // 计算键名的哈希值并赋值给 p p->h = h = ZSTR_H(key); // 将 pData 赋值该 Bucket 的 val ZVAL_COPY_VALUE(&p->val, pData); // 计算映射表下标 nIndex = h | ht->nTableMask; // 解决冲突，将原映射表中的内容赋值给新元素变量值的 u2.next 成员 Z_NEXT(p->val) = HT_HASH(ht, nIndex); // 将映射表中的值设为 idx HT_HASH(ht, nIndex) = HT_IDX_TO_HASH(idx); return &p->val; }

登入後複製

扩容

前面将数组结构的时候我们有提到扩容，而在插入元素的代码里有这样一个宏ZEND_HASH_IF_FULL_DO_RESIZE，这个宏其实就是调用了zend_hash_do_resize函数，对数组进行扩容并重新索引。注意：并非每次Bucket数组满了都需要扩容，如果Bucket数组中IS_UNDEF元素的数量占较大比例，就直接将IS_UNDEF元素删除并重新索引，以此节省内存。下面我们看看zend_hash_do_resize函数：

重新索引的逻辑在zend_hash_rehash函数中，代码如下：

总结

嗯哼，本文就到此结束了，因为自身水平原因不能解释的十分详尽清楚。这算是我写过最难写的内容了，写完之后似乎觉得这篇文章就我自己能看明白/(ㄒoㄒ)/~~因为文笔太辣鸡。想起一句话「如果你不能简单地解释一样东西，说明你没真正理解它。」PHP 的源码里有很多细节和实现我都不算熟悉，这篇文章只是一个我的 PHP 底层学习的开篇，希望以后能够写出真正深入浅出的好文章。

以上是全面剖析PHP 數組底層實現邏輯的詳細內容。更多資訊請關注PHP中文網其他相關文章！