ホームページ > php教程 > PHP源码 > Blankspider PHP 爬虫

Blankspider PHP 爬虫

PHP中文网
リリース: 2016-05-25 17:09:59
オリジナル
1187 人が閲覧しました

php代码

function spider($url, $spider = 'Blankspider', $port = 80, $timeout = 15) {
	$content= '';
	$resolve = parse_url($url);
	$host = $resolve['host'];
	$path = empty($resolve['path']) ? '/' : $resolve['path'].(!empty($resolve['query']) ? '?'.$resolve['query'] : '');
	if(empty($host)) { return 'Requested host name can\'t be empty'; }
	$fp = fsockopen($host, $port, $errno, $errstr, $timeout);
	if (!$fp) {
		return $errstr;
	} else {
		$fputs = "GET $path HTTP/1.1\r\n";
		$fputs.= "Accept: */*\r\n";
		$fputs.= "Host: $host\r\n";
		$fputs.= "Spider: $spider\r\n";
		$fputs.= "Connection: Close\r\n\r\n";
		stream_set_blocking($fp, 1);
		stream_set_timeout($fp, $timeout);
		fputs($fp, $fputs);
		while(!feof($fp)) {
			if(($return = fgets($fp)) && ($return == "\r\n" || $return == "\n")) {
				break;
			}
		}
		while(!feof($fp)) { $content .= fgets($fp, 8192); }
		fclose($fp);
		return $content;
	}

}

function cron2spider($iptable, $sleep = 5) {
	set_time_limit(0);
	$i = 0;
	date_default_timezone_set('PRC');
	if(!file_exists($iptable)) {
		return json_encode(array(
		'status'=> 'error',
		'description'=> 'iptable.conf file not exists'));
	}
	$file = file($iptable);
	if(empty($file)) {
		return json_encode(array(
		'status'=> 'error',
		'description'=> 'iptable.conf can\'t be empty'));
	}
	while($i< count($file)) {
		if(!file_exists(&#39;robots&#39;) || !is_writable(&#39;robots&#39;)) {
			return json_encode(array(
			&#39;status&#39;=> &#39;error&#39;,
			&#39;description&#39;=> &#39;directory doesn\&#39;t exist or don\&#39;t have write permissions&#39;));
		}
		$dir = &#39;robots/&#39;.preg_replace(&#39;/(http\:\/\/)|(\s)|(www\.)/&#39;, &#39;&#39;, $file[$i]);
		if(!file_exists($dir)){ mkdir($dir); }
		file_put_contents($dir.&#39;/&#39;.date(&#39;Y.m.d.H.i.s&#39;, time()).&#39;.txt&#39;, spider(preg_replace(&#39;/\s/&#39;, &#39;&#39;, $file[$i])));
		$i++;
		sleep($sleep);
	}
	return json_encode(array(
	&#39;status&#39;=> &#39;ok&#39;,
	&#39;description&#39;=> &#39;robots program execution success&#39;));
}

echo cron2spider(&#39;iptable.conf&#39;);
ログイン後にコピー

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のおすすめ
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート