우리는 PHP 변수가 실제로 커널의 zval 구조를 통해 구현된다는 것을 이미 알고 있으며, zval 구조의 유형과 값을 설정하는 방법에 대해서도 예비적으로 이해하고 있습니다.
코딩할 때 커널에서 생성된 zval을 PHP 언어에서 변수 형태로 사용자가 사용할 수 있기를 바랍니다. 이 기능을 구현하려면 먼저 zval을 생성해야 합니다. 생각하기 가장 쉬운 방법은 zval 포인터를 만든 다음 메모리 조각을 할당하고 포인터가 이를 가리키도록 하는 것입니다. malloc(sizeof(zval))의 그림자가 마음속에 나타나면 즉시 중지하고 이를 수행하기 위해 malloc을 사용하지 마십시오. 커널은 이 문제를 처리하기 위해 해당 매크로를 제공합니다. 버전 업그레이드 중에 코드를 아름답게 만들고 호환성을 유지하기 위해. 이 매크로는 MAKE_STD_ZVAL(pzv)입니다. 이 매크로는 커널 방법을 사용하여 메모리 조각을 적용하고 해당 주소를 pzv에 지불하며 두 가지 속성 refcount 및 is_ref를 초기화합니다. 더 좋은 점은 메모리 부족 문제를 자동으로 처리할 뿐만 아니라 선택도 수행한다는 것입니다. 기억 속의 기억을 적용하는 것이 가장 좋습니다.
데이터를 담는 그릇으로서 숫자, 배열, 문자열, 객체 등 변수를 다루어야 하는 경우가 많습니다. 따라서 변수는 언어에 없어서는 안 될 기초라고 할 수 있습니다. 이 글은 PHP 커널에서 탐구되는 변수에 관한 첫 번째 글입니다. 주로 다음과 같은 측면을 포함하여 zval의 기본 지식을 소개합니다.
급하게 작성하다 보니 필연적으로 오류가 있을 수 있으니 지적 부탁드립니다.
1. Zval의 기본 구조
Zval은 PHP에서 가장 중요한 데이터 구조 중 하나입니다(또 다른 중요한 데이터 구조는 해시 테이블입니다). 여기에는 PHP의 변수 값과 유형에 대한 정보가 포함되어 있습니다. 구조체이며 기본 구조는 다음과 같습니다.
<span>struct</span><span> _zval_struct { zvalue_value value; </span><span>/*</span><span> value </span><span>*/</span><span> zend_uint refcount__gc; </span><span>/*</span><span> variable ref count </span><span>*/</span><span> zend_uchar type; </span><span>/*</span><span> active type </span><span>*/</span><span> zend_uchar is_ref__gc; </span><span>/*</span><span> if it is a ref variable </span><span>*/</span><span> }; typedef </span><span>struct</span> _zval_struct zval;
그 중:
1.zval_value 값
변수의 실제 값, 특히 zvalue_value의 합집합:
<span>typedef union _zvalue_value { </span><span>long</span> lval; <span>/*</span><span> long value </span><span>*/</span> <span>double</span> dval; <span>/*</span><span> double value </span><span>*/</span> <span>struct</span> { <span>/*</span><span> string </span><span>*/</span> <span>char</span> *<span>val; </span><span>int</span><span> len; } str; HashTable </span>*ht; <span>/*</span><span> hash table value,used for array </span><span>*/</span><span> zend_object_value obj; </span><span>/*</span><span> object </span><span>*/</span><span> } zvalue_value;</span>
2. zend_uint refcount__gc
이 값은 실제로 변수(또는 기호, 기호) 수를 저장하는 카운터입니다. 모든 기호는 기호 테이블에 저장되며, 서로 다른 범위는 서로 다른 기호를 사용합니다. )는 zval을 가리킨다. 변수가 생성되면 refcount=1입니다. $a = $b와 같은 일반적인 할당 작업은 zval의 refcount를 1씩 증가시키고 그에 따라 unset 작업은 이를 1만큼 감소시킵니다. PHP5.3 이전에는 참조 계산 메커니즘을 사용하여 GC를 구현했습니다. zval의 참조 횟수가 0보다 작으면 Zend 엔진은 zval을 가리키는 변수가 없다고 생각하여 점유된 메모리 공간을 해제했습니다. zval에 의해. 그러나 때로는 상황이 그렇게 간단하지 않습니다. zval을 가리키는 변수가 설정되지 않은 경우에도 간단한 참조 카운팅 메커니즘이 순환 참조 zval을 GC할 수 없어 메모리 누수(Memory Leak)가 발생한다는 사실을 나중에 살펴보겠습니다.
3.zend_uchar 유형
이 필드는 변수의 실제 유형을 나타내는 데 사용됩니다. PHP를 배우기 시작했을 때, 우리는 PHP의 변수에 네 가지 스칼라 유형(bool, int, float, string), 두 가지 복합 유형(배열, 객체) 및 두 가지 특수 유형 (리소스 및 NULL). zend 내에서 이러한 유형은 다음 매크로에 해당합니다(코드 위치 phpsrc/Zend/zend.h):
<span>#define</span> IS_NULL 0 <span>#define</span> IS_LONG 1 <span>#define</span> IS_DOUBLE 2 <span>#define</span> IS_BOOL 3 <span>#define</span> IS_ARRAY 4 <span>#define</span> IS_OBJECT 5 <span>#define</span> IS_STRING 6 <span>#define</span> IS_RESOURCE 7 <span>#define</span> IS_CONSTANT 8 <span>#define</span> IS_CONSTANT_ARRAY 9 <span>#define</span> IS_CALLABLE 10
4. is_ref__gc
이 필드는 변수가 참조 변수인지 여부를 표시하는 데 사용됩니다. 일반 변수의 경우 값은 0이고 참조 변수의 경우 값은 1입니다. 이 변수는 zval의 공유, 분리 등에 영향을 미칩니다. 이에 대해서는 나중에 논의하겠습니다.
이름에서 알 수 있듯이 ref_count__gc 및 is_ref__gc는 PHP의 GC 메커니즘에 필요한 두 가지 매우 중요한 필드입니다. 이 두 필드의 값은 xdebug와 같은 디버깅 도구를 통해 볼 수 있습니다.
2. xdebug 설치 구성
Xdebug는 오픈 소스 PHP 성능 분석 및 디버깅 도구입니다. 일반적인 프로그램 디버깅의 경우 var_dump, echo, print, debug_backtrace와 같은 일반적인 디버깅 도구로도 기본적으로 충분하지만 일부 복잡한 디버깅 및 성능 테스트에는 xdebug는 확실히 좋은 도우미입니다(Xhprof와 같은 다른 도구도 훌륭합니다).
이 글의 기본 환경:
Xdebug를 설치하는 기본 과정은 다음과 같습니다(실제로 소스 코드에서 확장 프로그램을 컴파일하는 것).
1. 소스코드 패키지를 다운로드합니다.
다운로드 주소는 http://www.xdebug.org/docs/install
本文中下载的版本为:Xdebug-2.6.tar.gz
2. 解压
<span>tar</span> xvzf xdebug-<span>2.6</span>.<span>tar</span>.gz
3. 在xdebug的目录执行phpize
4. ./configure 配置
5. Make&& make install
这会生成xdebug.so扩展文件(zend_extension),位置在xdebug/modules
6. 在php.ini中加载xdebug扩展
zend_extension=your-xdebug-path/xdebug.so
7. 添加xdebug的配置
xdebug.profiler_enable =<span> on xdebug.default_enable </span>=<span> on xdebug.trace_output_dir</span>="/tmp/xdebug"<span> xdebug.trace_output_name </span>=<span> trace.%c.%p xdebug.profiler_output_dir</span>="/tmp/xdebug"<span> xdebug.profiler_output_name</span>="cachegrind.out.%s"
这里不再详细介绍各个配置项的含义,详细的请看:http://www.xdebug.org/docs/all
现在,PHP中,应该已经有了Xdebug的扩展信息(php –m,也可以phpinfo()):
在Xdebug中,可以通过xdebug_debug_zval打印Zval的信息:
<?php $a = array( 'test' ); $a[] = &$a; xdebug_debug_zval( 'a' );
3. Zval的更多原理
(注,本部分主要参考:http://derickrethans.nl/collecting-garbage-phps-take-on-variables.html, 作者Derick Rethans是一位优秀的PHP内核专家,在全世界做过多次报告,都有相关的pdf下载,这里(http://derickrethans.nl/talks.html )有作者每次演讲的记录,很多都值得我们深入去学习研究)
前面我们已经说过,PHP使用Zval这种结构来保存变量,这里我们将继续追踪zval的更多细节。
1. 创建变量时,会创建一个zval.
$str = "test zval"; xdebug_debug_zval('str');
输出结果:
str: (refcount=1, is_ref=0)='test zval'
当使用$str="test zval";来创建变量时,会在当前作用域的符号表中插入新的符号(str),由于该变量是一个普通的变量,因此会生成一个refcount=1且is_ref=0的zval容器。也就是说,实际上是这样的:
2. 变量赋值给另外一个变量时,会增加zval的refcount值。
$str = "test zval"; $str2 = $str; xdebug_debug_zval('str'); xdebug_debug_zval('str2');
输出结果:
str: (refcount=2, is_ref=0)=<span>'test zval' str2: (refcount</span>=2, is_ref=0)='test zval'
同时我们看到,str和是str2这两个symbol的zval结构是一样的。这里其实是PHP所做的一个优化,由于str和str2都是普通变量,因而它们指向了同一个zval,而没有为str2开辟单独的zval。这么做,可以在一定程度上节省内存。这时的str,str2与zval的对应关系是这样的:
3. 使用unset时,对减少相应zval的refcount值
$str = "test zval"; $str3 = $str2 = $str; xdebug_debug_zval('str'); unset($str2,$str3) xdebug_debug_zval('str');
结果为:
str: (refcount=3, is_ref=0)=<span>'test zval' str: (refcount</span>=1, is_ref=0)='test zval'
由于unset($str2,$str3)会将str2和str3从符号表中删除,因此,在unset之后,只有str指向该zval,如下图所示:
现在如果执行unset($str),则由于zval的refcount会减少到0,该zval会从内存中清理。这当然是最理想的情况。
但是事情并不总是那么乐观。
4. 数组变量与普通变量生成的zval非常类似,单也有很大不同
与标量这些普通变量不同,数组和对象这类复合型的变量在生成zval时,会为每个item项生成一个zval容器。例如:
$ar = array( 'id' => 38, 'name' => 'shine' ); <span>xdebug_debug_zval('ar');</span>
打印出zval的结构是:
ar: (refcount=1, is_ref=0)=<span>array ( 'id' </span>=> (refcount=1, is_ref=0)=38,<span> 'name' </span>=> (refcount=1, is_ref=0)=<span>'shine' )</span>
如下图所示:
可以看出,变量$ar生成的过程中,共生成了3个zval容器(红色部分标注)。对于每个zval而言,refcount的增减规则与普通变量的相同。例如,我们在数组中添加另外一个元素,并把$ar['name']的值赋给它:
$ar = array( 'id' => 38, 'name' => 'shine' ); $ar['test'] = $ar['name']; xdebug_debug_zval('ar');
则打印出的zval为:
ar: (refcount=1, is_ref=0)=<span>array ( 'id' </span>=> (refcount=1, is_ref=0)=38,<span> 'name' </span>=> (refcount=2, is_ref=0)='shine',<span> 'test' </span>=> (refcount=2, is_ref=0)=<span>'shine' )</span>
如同普通变量一样,这时候,name和test这两个symbol指向同一个zval:
同样的,从数组中移除元素时,会从符号表中删除相应的符号,同时减少对应zval的refcount值。同样,如果zval的refcount值减少到0,那么就会从内存中删除该zval:
$ar = array( 'id' => 38, 'name' => 'shine' ); $ar['test'] = $ar['name']; unset($ar['test'],$ar['name']); xdebug_debug_zval('ar');
输出结果为:
ar: (refcount=1, is_ref=0)=array ('id' => (refcount=1, is_ref=0)=38)
5. 引用的出现,会令zval的规则变得复杂
在加入引用之后,情况会变的稍微复杂一点。例如,在数组中添加对本身的引用:
$a = $array('one'); $a[] = &$a; xdebug_debug_zval('a');
输出的结果:
a: (refcount=2, is_ref=1)=<span>array ( </span>0 => (refcount=1, is_ref=0)='one', 1 => (refcount=2, is_ref=1)=<span>... )</span>
上述输出中,…表示指向原始数组,因而这是一个循环的引用。如下图所示:
现在,我们对$a执行unset操作,这会在symbol table中删除相应的symbol,同时,zval的refcount减1(之前为2),也就是说,现在的zval应该是这样的结构:
(refcount=1, is_ref=1)=<span>array ( </span>0 => (refcount=1, is_ref=0)='one', 1 => (refcount=1, is_ref=1)=<span>... )</span>
也就是下图所示的结构:
这时,不幸的事情发生了!
Unset之后,虽然没有变量指向该zval,但是该zval却不能被GC(指PHP5.3之前的单纯引用计数机制的GC)清理掉,因为zval的refcount均大于0。这样,这些zval实际上会一直存在内存中,直到请求结束(参考SAPI的生命周期)。在此之前,这些zval占据的内存不能被使用,便白白浪费了,换句话说,无法释放的内存导致了内存泄露。
如果这种内存泄露仅仅发生了一次或者少数几次,倒也还好,但如果是成千上万次的内存泄露,便是很大的问题了。尤其在长时间运行的脚本中(例如守护程序,一直在后台执行不会中断),由于无法回收内存,最终会导致系统“再无内存可用”。
6. zval分离(Copy on write和change on write)
前面我们已经介绍过,在变量赋值的过程中例如$b = $a,为了节省空间,并不会为$a和$b都开辟单独的zval,而是使用共享zval的形式:
那么问题来了:如果其中一个变量发生变化时,如何处理zval的共享问题?
对于这样的代码:
$a = "a simple test"; $b = $a; echo "before write:".PHP_EOL; xdebug_debug_zval('a'); xdebug_debug_zval('b'); $b = "thss"; echo "after write:".PHP_EOL; xdebug_debug_zval('a'); xdebug_debug_zval('b');
打印的结果是:
<span>before write: a: (refcount</span>=2, is_ref=0)=<span>'a simple test' b: (refcount</span>=2, is_ref=0)=<span>'a simple test' after write: a: (refcount</span>=1, is_ref=0)=<span>'a simple test' b: (refcount</span>=1, is_ref=0)='thss'
起初,符号表中a和b指向了同一个zval(这么做的原因是节省内存),而后$b发生了变化,Zend会检查b指向的zval的refcount是否为1,如果是1,那么说明只有一个符号指向该zval,则直接更改zval。否则,说明这是一个共享的zval,需要将该zval分离出去,以保证单独变化互不影响,这种机制叫做COW –Copy on write。在很多场景下,COW都是一种比较高效的策略。
那么对于引用变量呢?
$a = 'test'; $b = &$a; echo "before change:".PHP_EOL; xdebug_debug_zval('a'); xdebug_debug_zval('b'); $b = 12; echo "after change:".PHP_EOL; xdebug_debug_zval('a'); xdebug_debug_zval('b'); unset($b); echo "after unset:".PHP_EOL; xdebug_debug_zval('a'); xdebug_debug_zval('b');
输出的结果为:
<span>before change: a: (refcount</span>=2, is_ref=1)=<span>'test' b: (refcount</span>=2, is_ref=1)=<span>'test' after change: a: (refcount</span>=2, is_ref=1)=12<span> b: (refcount</span>=2, is_ref=1)=12<span> after unset: a: (refcount</span>=1, is_ref=0)=12
可以看出,在改变了$b的值之后,Zend会检查zval的is_ref检查是否是引用变量,如果是引用变量,则直接更改即可,否则,需要执行刚刚提到的zval分离。由于$a 和 $b是引用变量,因而更改共享的zval实际上也间接更改了$a的值。而在unset($b)之后,变量$b从符号表中删除了。
这里也说明一个问题,unset并不是清除zval,而只是从符号表中删除相应的symbol。这样一来,之前很多的关于引用的疑问也可以理解了(下一节我们将深入探索PHP的引用)。
以上就介绍了PHP内核探索之变量Zval,包括了变量Zval方面的内容,希望对PHP教程有兴趣的朋友有所帮助。