• 技术文章 >后端开发 >php教程

    Google PR查询接口checksum新算法_php实例

    PHP中文网PHP中文网2016-05-17 09:33:47原创448
    前些日子一篇N久之前的老文忽然成了被阅读的热点,检查之后才发现自己使用那段代码来做pr查询的页面已经不能正常得到URL的Page Rank值了

    取而代之的是一大段“In your email, please send us the entire code displayed below”之类的Google terms_of_service错误提示信息。看来是原先的接口已经失效了。

    但我装在Firefox工具栏的扩展插件SearchStatus仍然能够正常解析出每个受访页的PR值,找到 SearchStatus 的插件包解开来看源码,果然是使用了不一样的验证码生成算法,在原先的 checksum 生成之后,还需要再进行一次计算,两次演算之后得到的才是正确的ch参数。

    于是拿现成的js代码改造一番之后,新的PHP版本的 Google PageRank 查询接口方法就出来了。经过本地测试之后,谁想传到服务器之后又出现了该死的 terms_of_service 错误提示。把checksum的计算过程一步步打出来,发现经过了几次右位移之后本地和服务器上的数字就不一样了。这才想到服务器是64位机,32位系统下位移之后应该被cut掉的bit在那里就活得好好的。加了个 trunkbitForce32bit 方法,对所有算术运算之后的数值进行高位屏蔽,算是搞定了64位系统下的多余位问题。结果拿到32位Linux环境下跑又不兼容了,原因是PHP在进行算术处理出现溢出时,会自动尝试将int转为float。当发生的是负数溢出时,这一操作在Windows下能正确保留精度,但在Linux下就有问题了。

    下面这段代码:

    $a = -4294967295;
    echo dechex($a)."<br />\n";
    if ( $a < 0 ) $a += 4294967296;
    echo dechex($a)."<br />\n";

    第一个echo在Windows下能够正确输出该负数低32位的补码,而在32位Linux机上输出的则是int类型所能表示的最大负数0x80000000了。只有通过取巧的方式给这个溢出的大负数加上一个超出整数范围的大整数来抵消掉溢出的部分,才能复原低32位应该有的样子。

    使用这些非常规手段,终于炮制出这个更新版的兼容Linux32/Linux64/Windows的Google PR值查询接口的PHP脚本实现(含完整代码)。


    Google本身提供了查询指定的url的PageRank值的接口,知道了这个接口,就可以很容易编写脚本在页面上实现这一功能,而无需再依赖google toolbar才能进行查询。本文提供了一个用PHP实现的pr查询接口。同时修正了大部分版本中存在的 Linux 操作系统及64位操作系统下无法正常生成checksum的问题。


    使用很简单,只要在需要的地方

    <?php
    include_once("./pr.inc.php");
    echo getPR($urlToQuery);
    ?>

    即可显示出指定url的PageRank的数值。知道了这个数值再在其基础上模拟出Google Toolbar上面的图形化的pr显示也就不是难事了。实际上实现原理说白了也很简单,就是传递特定的查询参数到Google的搜索引擎,然后抓取返回的页面内容。

    演示页面请参见 : Google PageRank Query

    本文代码素材来源: //m.sbmmt.com/ ;NewGCH方法实现参考于Firefox的工具栏扩展插件SearchStatus的相关代码实现。

    网上还有一个开源的pr状态查询的项目: //m.sbmmt.com/ , 可以从cvs上直接抓取完整的源代码(cvs用户密码 guest):

    cvs -d :pserver:guest@mozdev.org:/cvs login
    cvs -d :pserver:guest@mozdev.org:/cvs co pagerankstatus

    一个专门提供pr显示接口的网站: //m.sbmmt.com/

    ------------------------------------------------------------------

    pr.inc.php源文件如下(Updated 2008-05-04 14:29 -- Google修改了checksum的计算算法,需要在原有的GCH方法之后再套一层NewGCH方法来得到正确的checksum,同时引发的php int overflow及64位机器兼容性问题请参照以下源代码的变化部分):

    <?php 
    // url get method macro. 
    define('G_PR_GET_TYPE_FILE', 1); // use fopen() function 
    define('G_PR_GET_TYPE_SOCKET', 2); // use standard fsocketopen function 
    // main function to be called 
    function getPR($_url,$gettype=G_PR_GET_TYPE_SOCKET){ 
    $url = 'info:'.$_url; 
    $ch = GCH(strord($url)); 
    $ch = NewGCH($ch); 
    $url=str_replace("_","%5F",'info:'.urlencode($_url)); 
    $googlePRUrl = 
    "http://toolbarqueries.google.com/search?client=navclient-auto&ch=6" 
    .$ch."&ie=UTF-8&oe=UTF-8&features=Rank&q=".$url; 
    $pr_str = retrieveURLContent($googlePRUrl,$gettype); 
    return substr($pr_str,strrpos($pr_str, ":")+1); 
    } 
    //unsigned shift right 
    function zeroFill($a, $b){ 
    $z = hexdec('8'.implode('',array_fill(0,PHP_INT_SIZE*2-1,'0'))); 
    if ($z & $a){ 
    $a = ($a>>1); 
    $a &= (~$z); 
    $a |= hexdec('4'.implode('',array_fill(0,PHP_INT_SIZE*2-1,'0'))); 
    $a = ($a>>($b-1)); 
    } 
    else{ 
    $a = ($a>>$b); 
    } 
    return $a; 
    } 
    // discard bits beyonds 32 bit. 
    function trunkbitForce32bit($n){ 
    if(PHP_INT_SIZE <= 4){ 
    settype($n,'float'); 
    if ( $n < 0 ) $n += 4294967296; 
    return $n; 
    } 
    else{ 
    $clearbit = ''; 
    for($i=0;$i<PHP_INT_SIZE-4;$i++){ 
    $clearbit .= '00'; 
    } 
    for($i=0;$i<4;$i++){ 
    $clearbit .= 'ff'; 
    } 
    return ($n & hexdec($clearbit)); 
    } 
    } 
    function bigxor($m,$n){ 
    //if(function_exists('gmp_init')){ 
    // return floatval(gmp_strval(gmp_xor($m,$n))); 
    //} 
    //else{ 
    return $m ^ $n; 
    //} 
    } 
    function mix($a,$b,$c){ 
    $a = trunkbitForce32bit($a); 
    $b = trunkbitForce32bit($b); 
    $c = trunkbitForce32bit($c); 
    $a -= $b; $a = trunkbitForce32bit($a); 
    $a -= $c; $a = trunkbitForce32bit($a); 
    $a = bigxor($a,(zeroFill($c,13))); $a = trunkbitForce32bit($a); 
    $b -= $c; $b = trunkbitForce32bit($b); 
    $b -= $a; $b = trunkbitForce32bit($b); 
    $b = bigxor($b,trunkbitForce32bit($a<<8)); $b = trunkbitForce32bit($b); 
    $c -= $a; $c = trunkbitForce32bit($c); 
    $c -= $b; $c = trunkbitForce32bit($c); 
    $c = bigxor($c,(zeroFill($b,13))); $c = trunkbitForce32bit($c); 
    $a -= $b;$a = trunkbitForce32bit($a); 
    $a -= $c;$a = trunkbitForce32bit($a); 
    $a = bigxor($a,(zeroFill($c,12)));$a = trunkbitForce32bit($a); 
    $b -= $c;$b = trunkbitForce32bit($b); 
    $b -= $a;$b = trunkbitForce32bit($b); 
    $b = bigxor($b,trunkbitForce32bit($a<<16)); 
    $c -= $a; $c = trunkbitForce32bit($c); 
    $c -= $b; $c = trunkbitForce32bit($c); 
    $c = bigxor($c,(zeroFill($b,5))); $c = trunkbitForce32bit($c); 
    $a -= $b;$a = trunkbitForce32bit($a); 
    $a -= $c;$a = trunkbitForce32bit($a); 
    $a = bigxor($a,(zeroFill($c,3)));$a = trunkbitForce32bit($a); 
    $b -= $c;$b = trunkbitForce32bit($b); 
    $b -= $a;$b = trunkbitForce32bit($b); 
    $b = bigxor($b,trunkbitForce32bit($a<<10)); 
    $c -= $a; $c = trunkbitForce32bit($c); 
    $c -= $b; $c = trunkbitForce32bit($c); 
    $c = bigxor($c,(zeroFill($b,15))); $c = trunkbitForce32bit($c); 
    return array($a,$b,$c); 
    } 
    function NewGCH($ch){ 
    $ch = ( trunkbitForce32bit( ( $ch / 7 ) << 2 ) | 
    ( ( myfmod( $ch,13 ) ) & 7 ) ); 
    $prbuf = array(); 
    $prbuf[0] = $ch; 
    for( $i = 1; $i < 20; $i++ ) 
    { 
    $prbuf[$i] = $prbuf[$i-1] - 9; 
    } 
    $ch = GCH( c32to8bit( $prbuf ) ); 
    return $ch; 
    } 
    function myfmod($x,$y){ 
    $i = floor( $x / $y ); 
    return ( $x - $i * $y ); 
    } 
    function c32to8bit($arr32){ 
    $arr8 = array(); 
    for( $i = 0; $i < count($arr32); $i++ ) { 
    for( $bitOrder = $i * 4; 
    $bitOrder <= $i * 4 + 3; $bitOrder++ ) { 
    $arr8[$bitOrder] = $arr32[$i] & 255; 
    $arr32[$i] = zeroFill( $arr32[$i], 8 ); 
    } 
    } 
    return $arr8; 
    } 
    function GCH($url, $length=null){ 
    if(is_null($length)) { 
    $length = sizeof($url); 
    } 
    $init = 0xE6359A60; 
    $a = 0x9E3779B9; 
    $b = 0x9E3779B9; 
    $c = 0xE6359A60; 
    $k = 0; 
    $len = $length; 
    $mixo = array(); 
    while( $len >= 12 ){ 
    $a += ($url[$k+0] +trunkbitForce32bit($url[$k+1]<<8) 
    +trunkbitForce32bit($url[$k+2]<<16) 
    +trunkbitForce32bit($url[$k+3]<<24)); 
    $b += ($url[$k+4] +trunkbitForce32bit($url[$k+5]<<8) 
    +trunkbitForce32bit($url[$k+6]<<16) 
    +trunkbitForce32bit($url[$k+7]<<24)); 
    $c += ($url[$k+8] +trunkbitForce32bit($url[$k+9]<<8) 
    +trunkbitForce32bit($url[$k+10]<<16) 
    +trunkbitForce32bit($url[$k+11]<<24)); 
    $mixo = mix($a,$b,$c); 
    $a = $mixo[0]; $b = $mixo[1]; $c = $mixo[2]; 
    $k += 12; 
    $len -= 12; 
    } 
    $c += $length; 
    switch( $len ) { 
    case 11: 
    $c += trunkbitForce32bit($url[$k+10]<<24); 
    case 10: 
    $c+=trunkbitForce32bit($url[$k+9]<<16); 
    case 9 : 
    $c+=trunkbitForce32bit($url[$k+8]<<8); 
    case 8 : 
    $b+=trunkbitForce32bit($url[$k+7]<<24); 
    case 7 : 
    $b+=trunkbitForce32bit($url[$k+6]<<16); 
    case 6 : 
    $b+=trunkbitForce32bit($url[$k+5]<<8); 
    case 5 : 
    $b+=trunkbitForce32bit($url[$k+4]); 
    case 4 : 
    $a+=trunkbitForce32bit($url[$k+3]<<24); 
    case 3 : 
    $a+=trunkbitForce32bit($url[$k+2]<<16); 
    case 2 : 
    $a+=trunkbitForce32bit($url[$k+1]<<8); 
    case 1 : 
    $a+=trunkbitForce32bit($url[$k+0]); 
    } 
    $mixo = mix( $a, $b, $c ); 
    $mixo[2] = trunkbitForce32bit($mixo[2]); 
    if( $mixo[2] < 0 ){ 
    return ( 
    hexdec('1'. 
    implode('', 
    array_fill(0,PHP_INT_SIZE*2,'0'))) 
    + $mixo[2] ); 
    } 
    else{ 
    return $mixo[2]; 
    } 
    } 
    // converts a string into an array of integers 
    // containing the numeric value of the char 
    function strord($string){ 
    for($i=0;$i<strlen($string);$i++){ 
    $result[$i] = ord($string{$i}); 
    } 
    return $result; 
    } 
    // return url page content or false if failed. 
    function retrieveURLContent($url,$gettype){ 
    switch($gettype){ 
    case G_PR_GET_TYPE_FILE: 
    return retrieveURLContentByFile($url); 
    break; 
    default: 
    return retrieveURLContentBySocket($url); 
    break; 
    } 
    } 
    function retrieveURLContentByFile($url){ 
    $fd = @fopen($url,"r"); 
    if(!$fd){ 
    return false; 
    } 
    $result = ""; 
    while($buffer = fgets($fd, 4096)) { 
    $result .= $buffer; 
    } 
    fclose($fd); 
    return $result; 
    } 
    function retrieveURLContentBySocket($url, 
    $host="", 
    $port=80, 
    $timeout=30){ 
    if($host == ""){ 
    if(!($pos = strpos($url,'://'))){ 
    return false; 
    } 
    $host = substr( $url, 
    $pos+3, 
    strpos($url,'/',$pos+3) - $pos - 3); 
    $uri = substr($url,strpos($url,'/',$pos+3)); 
    } 
    else{ 
    $uri = $url; 
    } 
    $request = "GET ".$uri." HTTP/1.0\r\n" 
    ."Host: ".$host."\r\n" 
    ."Accept: */*\r\n" 
    ."User-Agent: ZealGet\r\n" 
    ."\r\n"; 
    $sHnd = @fsockopen ($host, $port, $errno, $errstr, $timeout); 
    if(!$sHnd){ 
    return false; 
    } 
    @fputs ($sHnd, $request); 
    // Get source 
    $result = ""; 
    while (!feof($sHnd)){ 
    $result .= fgets($sHnd,4096); 
    } 
    fclose($sHnd); 
    $headerend = strpos($result,"\r\n\r\n"); 
    if (is_bool($headerend)) 
    { 
    return $result; 
    } 
    else{ 
    return substr($result,$headerend+4); 
    } 
    }
    声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。
    上一篇:PHP 操作文件的一些FAQ总结_php技巧 下一篇:PHP MSSQL 存储过程的方法_php技巧
    PHP编程就业班

    相关文章推荐

    • php中奖概率算法,可用来刮刮卡,大转盘等抽奖算法• PHP Array函数分门别类• php+mysql写分页有关问题 • 逻辑或 题一个!解决方案 • 或者用到的php代码

    全部评论我要评论

  • 取消发布评论发送
  • 1/1

    PHP中文网