Python のリクエストとユーザー エージェントを使用したブラウザ訪問の偽装: Web サイト ブロックの解決策
Python のリクエスト パッケージを使用して Web サイトにアクセスすると、次のような問題が発生する可能性があります。取得した HTML コンテンツがブラウザに表示されるコンテンツと大きく異なる場合。これは多くの場合、Web サイトがブラウザ以外のアクセスを識別して制限するブロックを採用していることが原因です。
これを克服するには、ブラウザの種類と動作を識別する User-Agent ヘッダーを提供することで、ブラウザの訪問をシミュレートできます。使用されているシステム。これにより、Web サイトはそれが本物のブラウザーによる訪問であると信じて、目的のコンテンツへのアクセスを許可します。リクエストを使用してそれを行う方法は次のとおりです:
import requests url = 'http://www.ichangtou.com/#company:data_000008.html' headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} response = requests.get(url, headers=headers) print(response.content)
また、fake-useragent パッケージは、さまざまなブラウザー用のユーザー エージェントを生成して使用する便利な方法を提供します。
from fake_useragent import UserAgent ua = UserAgent() random_ua = ua.random headers = {'User-Agent': random_ua} response = requests.get(url, headers=headers)
ブラウザーへの訪問を偽装するこれらのテクニックを使用すると、以前は Python ベースの試みをブロックしていた Web サイトに正常にアクセスできるようになります。
以上がPython のリクエストとユーザー エージェントを使用して Web サイトのブロックを克服するには?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。