Commençons par la même chose que précédemment. Parlons des idées pour créer un robot et des connaissances nécessaires pour se préparer. Les experts, veuillez l'ignorer.
Tout d’abord, réfléchissons à ce que nous voulons faire et énumérons quelques exigences simples.
Les exigences sont les suivantes :
1. Simulez l'accès au site officiel de Zhihu (http://www.zhihu.com/)
2. contenu, comprenant : Le plus chaud aujourd'hui, le plus chaud ce mois-ci, recommandé par l'éditeur
3. Téléchargez toutes les questions et réponses dans les catégories spécifiées, telles que : investissement, programmation, cours en échec
4. Téléchargez toutes les réponses du répondant spécifié
5. Il serait préférable d'avoir une fonction perverse en un clic (afin que je puisse aimer toutes les réponses de Laylen en même temps. Je suis tellement intelligente !)
Ensuite, les problèmes techniques à résoudre sont brièvement répertoriés comme suit :
1. Simulez un navigateur pour accéder à la page Web
2. Capturez les données clés et enregistrez-les. localement
3. Résoudre le problème de navigation Web Problème de chargement dynamique
4. Utiliser la structure arborescente pour explorer massivement tout le contenu sur Zhihu
D'accord, c'est tout ce à quoi j'ai pensé. maintenant.
La prochaine étape est la préparation.
1. Déterminer le langage du robot : depuis que j'ai déjà écrit une série de didacticiels sur les robots (cliquez ici), Baidu Tieba, Embarrassing Encyclopedia, la requête de notation de l'Université du Shandong, etc. sont tous écrits en python, donc je J'ai décidé d'utiliser Python cette fois. Écrivez-le en Java (hé, je n'ai pas un centime pour vous contacter, s'il vous plaît).
2. Science populaire sur les robots d'exploration : Web Crawler, ou Web Spider, est un nom très vivant. Si Internet est comparé à une toile d’araignée, alors une araignée est une araignée qui rampe sur la toile. Les robots Web recherchent des pages Web via leurs adresses de liens. Pour une introduction détaillée, veuillez cliquer ici.
3. Préparez l'environnement du robot : je n'entrerai pas dans les détails de l'installation et de la configuration de Jdk et d'Eclipse. Une longue phrase ici, un navigateur utile est très important pour les robots d'exploration, car vous devez d'abord naviguer sur le Web vous-même pour savoir où se trouvent les éléments dont vous avez besoin, puis vous pouvez indiquer à vos robots d'exploration où aller et comment explorer. Je recommande personnellement Firefox ou Google Chrome. Leurs fonctions de clic droit pour inspecter les éléments et visualiser le code source sont très puissantes.
Maintenant, nous commençons le voyage officiel du robot ! ~ De quoi dois-je parler spécifiquement ? Eh bien, c'est une question. Laissez-moi y réfléchir. Ne vous inquiétez pas ^_^
Ce qui précède est une question. Java Zhihu base zéro Travail de préparation pour les robots d'exploration Pour plus de contenu connexe, veuillez faire attention au site Web PHP chinois (m.sbmmt.com) !