Comment récupérer le contenu d'une page à l'aide de cURL malgré les erreurs « Page déplacée » ?

Patricia Arquette
Libérer: 2024-10-22 20:52:03
original
508 Les gens l'ont consulté

How to Retrieve Page Content Using cURL Despite

Récupération du contenu d'une page à l'aide de cURL

Dans ce contexte, vous cherchez à scraper le contenu d'une page de résultats de recherche Google à l'aide de cURL. Malgré vos tentatives de définition d'agents utilisateurs et de diverses options, la récupération réussie du contenu de la page vous a échappé. Les redirections ou les erreurs de « page déplacée » continuent de nuire à vos efforts.

On pense que le problème peut provenir de l'encodage de caractères spéciaux dans la chaîne de requête. Pour atténuer cela, des modifications de votre code PHP sont nécessaires.

Voici l'approche :

<code class="php">function get_web_page($url)
{
    $user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:8.0) Gecko/20100101 Firefox/8.0';

    $options = array(
        CURLOPT_CUSTOMREQUEST => "GET",
        CURLOPT_POST           => false,
        CURLOPT_USERAGENT      => $user_agent,
        CURLOPT_COOKIEFILE     => "cookie.txt",
        CURLOPT_COOKIEJAR      => "cookie.txt",
        CURLOPT_RETURNTRANSFER => true,
        CURLOPT_HEADER         => false,
        CURLOPT_FOLLOWLOCATION => true,
        CURLOPT_ENCODING       => "",
        CURLOPT_AUTOREFERER    => true,
        CURLOPT_CONNECTTIMEOUT => 120,
        CURLOPT_TIMEOUT        => 120,
        CURLOPT_MAXREDIRS      => 10
    );

    $ch = curl_init($url);
    curl_setopt_array($ch, $options);
    $content = curl_exec($ch);
    $err = curl_errno($ch);
    $errmsg = curl_error($ch);
    $header = curl_getinfo($ch);
    curl_close($ch);

    $header['errno']   = $err;
    $header['errmsg']  = $errmsg;
    $header['content'] = $content;
    return $header;
}</code>
Copier après la connexion

Utilisation :

<code class="php">$result = get_web_page($url);

if ($result['errno'] != 0) {
    // Handle errors: bad URL, timeout, redirect loop
}

if ($result['http_code'] != 200) {
    // Handle errors: no page, no permissions, no service
}

$page = $result['content'];</code>
Copier après la connexion

Avec ceci code, vous pouvez maintenant récupérer le contenu exact de la page tel qu'affiché dans votre navigateur. En tenant compte des caractères spéciaux dans la chaîne de requête, vous pouvez surmonter les obstacles auxquels vous avez été confronté précédemment.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal