Maison > Java > javaDidacticiel > Travail de préparation à l'écriture du robot d'exploration Java Zhihu à partir de zéro

Travail de préparation à l'écriture du robot d'exploration Java Zhihu à partir de zéro

黄舟
Libérer: 2016-12-24 11:07:30
original
1847 Les gens l'ont consulté

Commençons par la même chose que précédemment. Parlons des idées pour créer un robot et des connaissances nécessaires pour se préparer. Les experts, veuillez l'ignorer.

Tout d’abord, réfléchissons à ce que nous voulons faire et énumérons quelques exigences simples.

Les exigences sont les suivantes :

1. Simulez l'accès au site officiel de Zhihu (http://www.zhihu.com/)

2. contenu, comprenant : Le plus chaud aujourd'hui, le plus chaud ce mois-ci, recommandé par l'éditeur

3. Téléchargez toutes les questions et réponses dans les catégories spécifiées, telles que : investissement, programmation, cours en échec

4. Téléchargez toutes les réponses du répondant spécifié

5. Il serait préférable d'avoir une fonction perverse en un clic (afin que je puisse aimer toutes les réponses de Laylen en même temps. Je suis tellement intelligente !)

Ensuite, les problèmes techniques à résoudre sont brièvement répertoriés comme suit :

1. Simulez un navigateur pour accéder à la page Web

2. Capturez les données clés et enregistrez-les. localement

3. Résoudre le problème de navigation Web Problème de chargement dynamique

4. Utiliser la structure arborescente pour explorer massivement tout le contenu sur Zhihu

D'accord, c'est tout ce à quoi j'ai pensé. maintenant.

La prochaine étape est la préparation.

1. Déterminer le langage du robot : depuis que j'ai déjà écrit une série de didacticiels sur les robots (cliquez ici), Baidu Tieba, Embarrassing Encyclopedia, la requête de notation de l'Université du Shandong, etc. sont tous écrits en python, donc je J'ai décidé d'utiliser Python cette fois. Écrivez-le en Java (hé, je n'ai pas un centime pour vous contacter, s'il vous plaît).

2. Science populaire sur les robots d'exploration : Web Crawler, ou Web Spider, est un nom très vivant. Si Internet est comparé à une toile d’araignée, alors une araignée est une araignée qui rampe sur la toile. Les robots Web recherchent des pages Web via leurs adresses de liens. Pour une introduction détaillée, veuillez cliquer ici.

3. Préparez l'environnement du robot : je n'entrerai pas dans les détails de l'installation et de la configuration de Jdk et d'Eclipse. Une longue phrase ici, un navigateur utile est très important pour les robots d'exploration, car vous devez d'abord naviguer sur le Web vous-même pour savoir où se trouvent les éléments dont vous avez besoin, puis vous pouvez indiquer à vos robots d'exploration où aller et comment explorer. Je recommande personnellement Firefox ou Google Chrome. Leurs fonctions de clic droit pour inspecter les éléments et visualiser le code source sont très puissantes.

Maintenant, nous commençons le voyage officiel du robot ! ~ De quoi dois-je parler spécifiquement ? Eh bien, c'est une question. Laissez-moi y réfléchir. Ne vous inquiétez pas ^_^



Ce qui précède est une question. Java Zhihu base zéro Travail de préparation pour les robots d'exploration Pour plus de contenu connexe, veuillez faire attention au site Web PHP chinois (m.sbmmt.com) !


Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal