Maison > Java > javaDidacticiel > Pourquoi est-ce que j'obtiens une erreur 403 Forbidden lors du Web Scraping avec Java ?

Pourquoi est-ce que j'obtiens une erreur 403 Forbidden lors du Web Scraping avec Java ?

Patricia Arquette
Libérer: 2024-12-15 14:19:20
original
574 Les gens l'ont consulté

Why Am I Getting a 403 Forbidden Error When Web Scraping with Java?

Comment résoudre les erreurs 403 interdites pour le scraping Web Java

Lors du scraping des résultats de recherche Google à l'aide de Java, vous pouvez rencontrer un « 403 interdit » erreur tandis que les navigateurs Web renvoient les résultats attendus. En effet, les sites Web, comme Google, mettent en œuvre des mesures anti-scraping pour empêcher l'accès automatisé sans un agent utilisateur approprié.

Pour surmonter ce problème, vous devez modifier votre programme Java pour inclure un en-tête d'agent utilisateur, simulant un demande du navigateur. Voici comment procéder :

  1. Importez les bibliothèques nécessaires :
import java.net.HttpURLConnection;
import java.net.URL;
import java.io.BufferedReader;
import java.io.InputStreamReader;
Copier après la connexion
  1. Établissez la connexion :
URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
Copier après la connexion
  1. Définir l'agent utilisateur header :
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
Copier après la connexion
  1. Connectez-vous et récupérez les données :
connection.connect();
BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
Copier après la connexion

Cette modification garantit que votre programme Java apparaît comme un navigateur légitime, vous permettant pour contourner l'erreur 403 Forbidden. Notez cependant que Google met constamment à jour ses mesures anti-scraping, vous devrez donc peut-être ajuster votre code si vous rencontrez des erreurs imprévues à l'avenir.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal