So beheben Sie 403 Forbidden Errors für Java Web Scraping
Beim Scraping von Google-Suchergebnissen mit Java kann es sein, dass Sie auf die Fehlermeldung „403 Forbidden“ stoßen. Fehler, während Webbrowser die erwarteten Ergebnisse zurückgeben. Dies liegt daran, dass Websites wie Google Anti-Scraping-Maßnahmen implementieren, um automatisierten Zugriff ohne einen geeigneten Benutzeragenten zu verhindern.
Um dieses Problem zu lösen, müssen Sie Ihr Java-Programm so ändern, dass es einen Benutzeragenten-Header enthält, der einen simuliert Browseranfrage. So geht's:
import java.net.HttpURLConnection; import java.net.URL; import java.io.BufferedReader; import java.io.InputStreamReader;
URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
connection.connect(); BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
Diese Änderung stellt sicher, dass Ihr Java-Programm als legitimer Browser angezeigt wird, sodass Sie um den 403 Forbidden-Fehler zu umgehen. Beachten Sie jedoch, dass Google seine Anti-Scraping-Maßnahmen ständig aktualisiert. Daher müssen Sie möglicherweise Ihren Code anpassen, wenn in Zukunft unvorhergesehene Fehler auftreten.
Das obige ist der detaillierte Inhalt vonWarum erhalte ich beim Web Scraping mit Java den Fehler 403 Forbidden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!