Comment contourner les blocages de sites Web avec les requêtes Python et les faux agents utilisateurs ?-Tutoriel Python-php.cn

Comment contourner les blocages de sites Web avec les requêtes Python et les faux agents utilisateurs ?

DDD

Libérer： 2024-11-13 10:35:02

original

808 Les gens l'ont consulté

How to Bypass Website Blocks with Python's Requests and Fake User Agents?

Comment simuler le comportement du navigateur avec les requêtes de Python et de faux agents utilisateurs

La bibliothèque de requêtes de Python est un outil puissant pour effectuer des requêtes HTTP, mais il peut rencontrer des limitations lors de la tentative d’accès à certains sites Web. En effet, les sites Web peuvent mettre en œuvre des mesures anti-bots qui font la distinction entre les vrais navigateurs et les scripts automatisés. Pour contourner ces blocages, les développeurs peuvent utiliser des techniques pour imiter le comportement du navigateur et générer des en-têtes d'agent utilisateur personnalisés.

Fournir un en-tête d'agent utilisateur

Une méthode efficace consiste à fournir un en-tête User-Agent valide, qui identifie le navigateur et le système d'exploitation utilisés par le demandeur. En imitant un navigateur populaire comme Chrome ou Firefox, les requêtes peuvent améliorer les chances d'obtenir la réponse souhaitée du site Web cible.

import requests

url = 'http://www.ichangtou.com/#company:data_000008.html'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

response = requests.get(url, headers=headers)
print(response.content)

Copier après la connexion

Utilisation de la bibliothèque Fake-useragent

Pour une approche plus pratique, la bibliothèque fake-useragent fournit une base de données robuste de chaînes d'agent utilisateur. En utilisant cette bibliothèque, les développeurs peuvent facilement générer des agents utilisateurs réalistes.

from fake_useragent import UserAgent

ua = UserAgent()
headers = {'User-Agent': ua.chrome}

response = requests.get(url, headers=headers)

Copier après la connexion

En simulant les visites du navigateur et en générant des en-têtes d'agent utilisateur appropriés, les requêtes de Python peuvent contourner les blocages de sites Web et récupérer des informations comme si elles provenaient d'un véritable navigateur. Cette technique ouvre de nouvelles possibilités pour automatiser les tâches Web, accéder au contenu restreint et améliorer la précision des opérations de scraping Web.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!