Java で Web スクレイピングを行うと 403 Forbidden エラーが発生するのはなぜですか?-＆＃＆チュートリアル-php.cn

Java で Web スクレイピングを行うと 403 Forbidden エラーが発生するのはなぜですか?

Patricia Arquette

リリース： 2024-12-15 14:19:20

オリジナル

675 人が閲覧しました

Why Am I Getting a 403 Forbidden Error When Web Scraping with Java?

Java Web スクレイピングの 403 Forbidden エラーを解決する方法

Java を使用して Google 検索結果をスクレイピングすると、「403 Forbidden」が発生する場合がありますWeb ブラウザが予期した結果を返すにもかかわらず、エラーが発生します。これは、Google などの Web サイトが、適切なユーザーエージェントなしでの自動アクセスを防ぐためのスクレイピング対策手段を実装しているためです。

この問題を解決するには、Java プログラムを変更して、ユーザーエージェントヘッダーを含めて、ブラウザリクエスト。その方法は次のとおりです:

必要なライブラリをインポートします:

import java.net.HttpURLConnection;
import java.net.URL;
import java.io.BufferedReader;
import java.io.InputStreamReader;

ログイン後にコピー

接続を確立します:

URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();

ログイン後にコピー

ユーザーエージェントを設定するheader:

connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");

ログイン後にコピー

データの接続と取得:

connection.connect();
BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));

ログイン後にコピー

この変更により、Java プログラムが正規のブラウザとして表示されるようになり、次のことが可能になります。 403 Forbidden エラーを回避します。ただし、Google はスクレイピング対策対策を常に更新しているため、将来予期しないエラーが発生した場合はコードを調整する必要がある可能性があることに注意してください。

以上がJava で Web スクレイピングを行うと 403 Forbidden エラーが発生するのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。