Comment résoudre les erreurs 403 interdites pour le scraping Web Java
Lors du scraping des résultats de recherche Google à l'aide de Java, vous pouvez rencontrer un « 403 interdit » erreur tandis que les navigateurs Web renvoient les résultats attendus. En effet, les sites Web, comme Google, mettent en œuvre des mesures anti-scraping pour empêcher l'accès automatisé sans un agent utilisateur approprié.
Pour surmonter ce problème, vous devez modifier votre programme Java pour inclure un en-tête d'agent utilisateur, simulant un demande du navigateur. Voici comment procéder :
import java.net.HttpURLConnection; import java.net.URL; import java.io.BufferedReader; import java.io.InputStreamReader;
URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
connection.connect(); BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
Cette modification garantit que votre programme Java apparaît comme un navigateur légitime, vous permettant pour contourner l'erreur 403 Forbidden. Notez cependant que Google met constamment à jour ses mesures anti-scraping, vous devrez donc peut-être ajuster votre code si vous rencontrez des erreurs imprévues à l'avenir.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!