ホームページ > Java > &#&チュートリアル > Java で Web スクレイピングを行うと 403 Forbidden エラーが発生するのはなぜですか?

Java で Web スクレイピングを行うと 403 Forbidden エラーが発生するのはなぜですか?

Patricia Arquette
リリース: 2024-12-15 14:19:20
オリジナル
573 人が閲覧しました

Why Am I Getting a 403 Forbidden Error When Web Scraping with Java?

Java Web スクレイピングの 403 Forbidden エラーを解決する方法

Java を使用して Google 検索結果をスクレイピングすると、「403 Forbidden」が発生する場合がありますWeb ブラウザが予期した結果を返すにもかかわらず、エラーが発生します。これは、Google などの Web サイトが、適切なユーザー エージェントなしでの自動アクセスを防ぐためのスクレイピング対策手段を実装しているためです。

この問題を解決するには、Java プログラムを変更して、ユーザー エージェント ヘッダーを含めて、ブラウザリクエスト。その方法は次のとおりです:

  1. 必要なライブラリをインポートします:
import java.net.HttpURLConnection;
import java.net.URL;
import java.io.BufferedReader;
import java.io.InputStreamReader;
ログイン後にコピー
  1. 接続を確立します:
URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
ログイン後にコピー
  1. ユーザーエージェントを設定するheader:
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
ログイン後にコピー
  1. データの接続と取得:
connection.connect();
BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
ログイン後にコピー

この変更により、Java プログラムが正規のブラウザとして表示されるようになり、次のことが可能になります。 403 Forbidden エラーを回避します。ただし、Google はスクレイピング対策対策を常に更新しているため、将来予期しないエラーが発生した場合はコードを調整する必要がある可能性があることに注意してください。

以上がJava で Web スクレイピングを行うと 403 Forbidden エラーが発生するのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート