Comment récupérer le contenu d'une page à l'aide de cURL malgré les erreurs « Page déplacée

Comment récupérer le contenu d'une page à l'aide de cURL malgré les erreurs « Page déplacée » ?

Patricia Arquette

Libérer： 2024-10-22 20:52:03

original

548 Les gens l'ont consulté

How to Retrieve Page Content Using cURL Despite

Récupération du contenu d'une page à l'aide de cURL

Dans ce contexte, vous cherchez à scraper le contenu d'une page de résultats de recherche Google à l'aide de cURL. Malgré vos tentatives de définition d'agents utilisateurs et de diverses options, la récupération réussie du contenu de la page vous a échappé. Les redirections ou les erreurs de « page déplacée » continuent de nuire à vos efforts.

On pense que le problème peut provenir de l'encodage de caractères spéciaux dans la chaîne de requête. Pour atténuer cela, des modifications de votre code PHP sont nécessaires.

Voici l'approche :

<code class="php">function get_web_page($url)
{
    $user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:8.0) Gecko/20100101 Firefox/8.0';

    $options = array(
        CURLOPT_CUSTOMREQUEST => "GET",
        CURLOPT_POST           => false,
        CURLOPT_USERAGENT      => $user_agent,
        CURLOPT_COOKIEFILE     => "cookie.txt",
        CURLOPT_COOKIEJAR      => "cookie.txt",
        CURLOPT_RETURNTRANSFER => true,
        CURLOPT_HEADER         => false,
        CURLOPT_FOLLOWLOCATION => true,
        CURLOPT_ENCODING       => "",
        CURLOPT_AUTOREFERER    => true,
        CURLOPT_CONNECTTIMEOUT => 120,
        CURLOPT_TIMEOUT        => 120,
        CURLOPT_MAXREDIRS      => 10
    );

    $ch = curl_init($url);
    curl_setopt_array($ch, $options);
    $content = curl_exec($ch);
    $err = curl_errno($ch);
    $errmsg = curl_error($ch);
    $header = curl_getinfo($ch);
    curl_close($ch);

    $header['errno']   = $err;
    $header['errmsg']  = $errmsg;
    $header['content'] = $content;
    return $header;
}</code>

Copier après la connexion

Utilisation :

<code class="php">$result = get_web_page($url);

if ($result['errno'] != 0) {
    // Handle errors: bad URL, timeout, redirect loop
}

if ($result['http_code'] != 200) {
    // Handle errors: no page, no permissions, no service
}

$page = $result['content'];</code>

Copier après la connexion

Avec ceci code, vous pouvez maintenant récupérer le contenu exact de la page tel qu'affiché dans votre navigateur. En tenant compte des caractères spéciaux dans la chaîne de requête, vous pouvez surmonter les obstacles auxquels vous avez été confronté précédemment.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!