Technologie de production et de collecte PHP :
De la socket inférieure à la fonction d'opération de fichier de haut niveau, il existe un total de 3 méthodes pour réaliser la collecte.
1. Collecte utilisant la technologie socket :
La collecte de sockets est le niveau le plus bas, elle établit simplement une longue connexion, et ensuite nous devons faites-le nous-mêmes. Construisez la chaîne du protocole http pour envoyer la requête.
<?php //连接,$error错误编号,$errstr错误的字符串,30s是连接超时时间 $fp=fsockopen("www.youku.com",80,$errno,$errstr,30); if(!$fp) die("连接失败".$errstr); //构造http协议字符串,因为socket编程是最底层的,它还没有使用http协议 $http="GET /?spm=a2hww.20023042.topNav.5~1~3!2~A HTTP/1.1\r\n"; // \r\n表示前面的是一个命令 $http.="Host:www.youku.com\r\n"; //请求的主机 $http.="Connection:close\r\n\r\n"; // 连接关闭,最后一行要两个\r\n //发送这个字符串到服务器 fwrite($fp,$http,strlen($http)); //接收服务器返回的数据 $data=''; while (!feof($fp)) { $data.=fread($fp,4096); //fread读取返回的数据,一次读取4096字节 } //关闭连接 fclose($fp); var_dump($data); ?>
Le résultat imprimé est le suivant, y compris les informations d'en-tête renvoyées et le code source de la page :
2. Utilisez curl_un ensemble de fonctions
curl encapsule le protocole HTTP dans plusieurs fonction, transmettez simplement les paramètres correspondants directement, ce qui réduit la difficulté d'écrire des chaînes de protocole HTTP.
Prérequis : L'extension curl doit être activée dans php.ini.
//生成一个curl对象 $curl=curl_init(); //设置URL和相应的选项 curl_setopt($curl, CURLOPT_URL, "http://www.youku.com"); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的信息以字符串返回,而不是直接输出。 //执行curl操作 $data=curl_exec($curl); var_dump($data);
Le résultat imprimé est le suivant, incluant uniquement le code source de la page :
3. Utilisez directement file_get_contents (top-level)
Prérequis : Définir l'adresse url qui permet d'ouvrir un réseau en php. ini.
[php] afficher la copie brute
//使用file_get_contents() $data=file_get_contents("http://www.youku.com"); var_dump($data);
Choix de 3 façons
Les trois méthodes ci-dessus sont principalement utilisées pour la communication entre réseaux . Les deux derniers sont plus couramment utilisés : si vous souhaitez collecter une grande quantité de données par lots, utilisez le second [CURL], qui a de bonnes performances et stabilité.
Utilisez la troisième méthode lorsque vous envoyez quelques demandes occasionnellement mais pas fréquemment.
Extension : Comment briser l'anti-sangsue des images ?
Par exemple, les photos du site 7060 sont protégées des hotlinking : les photos sont visibles sur son site, mais ne sont pas accessibles en dehors du site.
Principe : Il existe un élément référent dans le protocole HTTP, qui représente l'adresse source de la requête. Le serveur. déterminera si Si cette demande ne provient pas de ce site Web, elle sera filtrée :
Solution : Simulez-la vous-même lors de l'envoi du référent HTTP :
Extension : Certaines données doivent être collectées avant de vous connecter. Vous pouvez utiliser la simulation d'essai simulé pour vous connecter. Collection sous le statut :
a. Connectez-vous d'abord à l'aide du navigateur. Après vous être connecté, il y aura SESSIONID dans le COOKIE du navigateur
<🎜. >b . Lors de l'envoi de PHP pour envoyer le protocole HTTP, placez le SESSIONID dans le navigateur dans la requête du protocole HTTP de PHP, afin que la requête soit envoyée dans l'état connecté.
Résumé : Toutes les données envoyées par le client peuvent être simulées, le programme sur le serveur doit donc filtrer les données du client si nécessaire.
Quand dois-je utiliser les éléments ci-dessus ? Pendant le développement et la collecte de l'interface.
2. Collecte de données
Par exemple, je souhaite collecter des informations sur tous les films américains dans cette URL,
Vous devez d'abord connaître la structure du nœud où se trouve le film. Nous utilisons Firebug pour le visualiser.
Puis commencez à écrire le code : Le code complet est le suivant
/** * 发一个GET请求获取数据 */ function get($url) { global $curl; // 配置curl中的http协议->可配置的荐可以查PHP手册中的curl_ curl_setopt($curl, CURLOPT_URL, $url); curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE); curl_setopt($curl, CURLOPT_HEADER, FALSE); // 执行这个请求 return curl_exec($curl); } // 生成一个curl对象 $curl = curl_init(); $url='http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html'; $data=get($url); // 匹配电影所在位置 $list_preg = '/<li class="yk-col4 mr1">.+<\/li>/Us'; // 匹配img标签上的src和alt $img_preg = '/<img class="quic" _src="(.*)" src="(.*)" alt="(.*)" \/>/U'; //匹配电影的url $video_preg='/<a href="(.*)" title="(.*)" target="(.*)"><\/a>/U'; //把所有的li存到$list里,$list是个二维数组 preg_match_all($list_preg,$data,$list); //var_dump($list); foreach ($list[0] as $k => $v) { //这里$v就是每一个li标签 /* 获取图片及电影名称 preg_match($img_preg,$v,$img); //把匹配到的图片的信息存到$img里 var_dump($img); */ /*获取电影地址 preg_match($video_preg,$v,$video); //把匹配到的电影的信息存到$video里 var_dump($video); */ preg_match($img_preg,$v,$img); preg_match($video_preg,$v,$video); echo $img[0].'<a href="'.$video[1].'">'.$video[2].'</a>'; }
测试:
打印$list;
打印$img
打印$video
最终效果:
如果需要把图片拷贝到硬盘上,则在foreach循环里加上以下代码:
$imgData = get($img[1]); // 把图片文件写到硬盘上【下载】 // 因为操作系统是GBK的,所以要把UTF8转成GBK is_dir('./youkuimg/') ? '': mkdir('./youkuimg/'); file_put_contents('./youkuimg/'.mb_convert_encoding($img[3], 'gbk', 'utf-8').'.jpg', $imgData);
效果如下:在当前目录下的youkuimg目录下就会有下载好的图片。
相关推荐:
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!