Maison > Java > javaDidacticiel > Comment puis-je conserver les cookies de session pour le scraping de sites Web avec Jsoup ?

Comment puis-je conserver les cookies de session pour le scraping de sites Web avec Jsoup ?

Linda Hamilton
Libérer: 2024-10-29 00:50:30
original
908 Les gens l'ont consulté

How Can I Maintain Session Cookies for Website Scraping with Jsoup?

Utiliser jsoup pour conserver les cookies de session

Lors de l'authentification sur un site Web avec jsoup, il est crucial de conserver le cookie de session sur plusieurs requêtes de page. En intégrant cette approche, les demandes de pages ultérieures peuvent être effectuées avec l'autorisation appropriée.

Pour acquérir le cookie de session après une connexion réussie, utilisez l'extrait de code suivant :

<code class="java">Connection.Response res = Jsoup.connect("http://www.example.com/login.php")
    .data("username", "myUsername", "password", "myPassword")
    .method(Method.POST)
    .execute();

Document doc = res.parse();
String sessionId = res.cookie("SESSIONID"); // verify the correct cookie name</code>
Copier après la connexion

Une fois la session cookie est obtenu, les demandes de pages ultérieures doivent l'inclure :

<code class="java">Document doc2 = Jsoup.connect("http://www.example.com/otherPage")
    .cookie("SESSIONID", sessionId)
    .get();</code>
Copier après la connexion

En adhérant à ces étapes, jsoup peut être utilisé efficacement pour extraire et collecter des informations à partir de pages Web authentifiées, sans recourir à des bibliothèques externes comme Apache httpclient.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal