Pourquoi est-ce que j'obtiens une erreur 403 Forbidden lors du Web Scraping avec Java ?-javaDidacticiel-php.cn

Pourquoi est-ce que j'obtiens une erreur 403 Forbidden lors du Web Scraping avec Java ?

Patricia Arquette

Libérer： 2024-12-15 14:19:20

original

675 Les gens l'ont consulté

Why Am I Getting a 403 Forbidden Error When Web Scraping with Java?

Comment résoudre les erreurs 403 interdites pour le scraping Web Java

Lors du scraping des résultats de recherche Google à l'aide de Java, vous pouvez rencontrer un « 403 interdit » erreur tandis que les navigateurs Web renvoient les résultats attendus. En effet, les sites Web, comme Google, mettent en œuvre des mesures anti-scraping pour empêcher l'accès automatisé sans un agent utilisateur approprié.

Pour surmonter ce problème, vous devez modifier votre programme Java pour inclure un en-tête d'agent utilisateur, simulant un demande du navigateur. Voici comment procéder :

Importez les bibliothèques nécessaires :

import java.net.HttpURLConnection;
import java.net.URL;
import java.io.BufferedReader;
import java.io.InputStreamReader;

Copier après la connexion

Établissez la connexion :

URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();

Copier après la connexion

Définir l'agent utilisateur header :

connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");

Copier après la connexion

Connectez-vous et récupérez les données :

connection.connect();
BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));

Copier après la connexion

Cette modification garantit que votre programme Java apparaît comme un navigateur légitime, vous permettant pour contourner l'erreur 403 Forbidden. Notez cependant que Google met constamment à jour ses mesures anti-scraping, vous devrez donc peut-être ajuster votre code si vous rencontrez des erreurs imprévues à l'avenir.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!