Maison interface Web js tutoriel Parlons de la façon d'utiliser des bibliothèques open source tierces pour implémenter la fonction d'exploration de sites Web dans Node.

Parlons de la façon d'utiliser des bibliothèques open source tierces pour implémenter la fonction d'exploration de sites Web dans Node.

Dec 17, 2021 pm 07:11 PM
node

Cet article vous expliquera comment implémenter facilement la fonction d'exploration de sites Web dans node à l'aide de bibliothèques open source tierces. J'espère qu'il vous sera utile !

Parlons de la façon d'utiliser des bibliothèques open source tierces pour implémenter la fonction d'exploration de sites Web dans Node.

nodejsimplémenter la fonction d'exploration de sites Web

Introduction aux bibliothèques tierces

  • demander l'encapsulation des requêtes réseau

  • version de nœud Cheerio de jQuery

  • mkdirp crée plusieurs calques Répertoire de dossiers

Idée d'implémentation

  • Obtenez le contenu de l'URL spécifiée via requestrequest获取指定 url 内容

  • 通过cheerio找到页面中跳转的路径(去重)

  • 通过mkdirp创建目录

  • 通过fs

  • Trouvez le saut dans la page via cheerio Chemin (suppression)

Créez un répertoire via mkdirp

Créez un fichier via fs et écrivez le contenu lu dans

Vous l'avez compris ? Répétez les étapes ci-dessus pour le chemin consulté

Implémentation du code

const fs = require("fs");
const path = require("path");
const request = require("request");
const cheerio = require("cheerio");
const mkdirp = require("mkdirp");
// 定义入口url
const homeUrl = "https://www.baidu.com";
// 定义set存储已经访问过的路径,避免重复访问
const set = new Set([homeUrl]);
function grab(url) {
  // 校验url规范性
  if (!url) return;
  // 去空格
  url = url.trim();
  // 自动补全url路径
  if (url.endsWith("/")) {
    url += "index.html";
  }
  const chunks = [];
  // url可能存在一些符号或者中文,可以通过encodeURI编码
  request(encodeURI(url))
    .on("error", (e) => {
      // 打印错误信息
      console.log(e);
    })
    .on("data", (chunk) => {
      // 接收响应内容
      chunks.push(chunk);
    })
    .on("end", () => {
      // 将相应内容转换成文本
      const html = Buffer.concat(chunks).toString();
      // 没有获取到内容
      if (!html) return;
      // 解析url
      let { host, origin, pathname } = new URL(url);
      pathname = decodeURI(pathname);
      // 通过cheerio解析html
      const $ = cheerio.load(html);
      // 将路径作为目录
      const dir = path.dirname(pathname);
      // 创建目录
      mkdirp.sync(path.join(__dirname, dir));
      // 往文件写入内容
      fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => {
        // 打印错误信息
        if (err) {
          console.log(err);
          return;
        }
        console.log(`[${url}]保存成功`);
      });
      // 获取到页面中所有a元素
      const aTags = $("a");
      Array.from(aTags).forEach((aTag) => {
        // 获取到a标签中的路径
        const href = $(aTag).attr("href");
        // 此处可以校验href的合法或者控制爬去的网站范围,比如必须都是某个域名下的
        // 排除空标签
        if (!href) return;
        // 排除锚点连接
        if (href.startsWith("#")) return;
        if (href.startsWith("mailto:")) return;
        // 如果不想要保存图片可以过滤掉
        // if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return;
        // href必须是入口url域名
        let reg = new RegExp(`^https?:\/\/${host}`);
        if (/^https?:\/\//.test(href) && !reg.test(href)) return;
        // 可以根据情况增加更多逻辑
        let newUrl = "";
        if (/^https?:\/\//.test(href)) {
          // 处理绝对路径
          newUrl = href;
        } else {
          // 处理相对路径
          newUrl = origin + path.join(dir, href);
        }
        // 判断是否访问过
        if (set.has(newUrl)) return;
        if (newUrl.endsWith("/") && set.has(newUrl + "index.html")) return;
        if (newUrl.endsWith("/")) newUrl += "index.html";
        set.add(newUrl);
        grab(newUrl);
      });
    });
}
// 开始抓取
grab(homeUrl);
Copier après la connexion

🎜🎜Résumé🎜🎜🎜🎜Le robot d'exploration Web simple est terminé. Vous pouvez essayer de remplacer homeUrl par le site Web que vous souhaitez explorer. 🎜🎜Pour plus de connaissances sur les nœuds, veuillez visiter : 🎜tutoriel Nodejs🎜 ! ! 🎜

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment supprimer un nœud dans NVM Comment supprimer un nœud dans NVM Dec 29, 2022 am 10:07 AM

Comment supprimer un nœud avec nvm : 1. Téléchargez « nvm-setup.zip » et installez-le sur le lecteur C ; 2. Configurez les variables d'environnement et vérifiez le numéro de version via la commande « nvm -v » 3. Utilisez la commande « nvm » ; install" commande Installer le nœud ; 4. Supprimez le nœud installé via la commande "nvm uninstall".

Comment utiliser Express pour gérer le téléchargement de fichiers dans un projet de nœud Comment utiliser Express pour gérer le téléchargement de fichiers dans un projet de nœud Mar 28, 2023 pm 07:28 PM

Comment gérer le téléchargement de fichiers ? L'article suivant vous expliquera comment utiliser Express pour gérer les téléchargements de fichiers dans le projet de nœud. J'espère qu'il vous sera utile !

Comment faire la mise en miroir Docker du service Node ? Explication détaillée de l'optimisation extrême Comment faire la mise en miroir Docker du service Node ? Explication détaillée de l'optimisation extrême Oct 19, 2022 pm 07:38 PM

Durant cette période, je développais un service HTML dynamique commun à toutes les catégories de documents Tencent. Afin de faciliter la génération et le déploiement des accès aux différentes catégories, et pour suivre la tendance de migration vers le cloud, j'ai envisagé d'utiliser Docker pour corriger. contenu du service et gérer les versions des produits de manière unifiée. Cet article partagera l'expérience d'optimisation que j'ai accumulée en train de servir Docker pour votre référence.

Une analyse approfondie de l'outil de gestion de processus de Node « pm2 » Une analyse approfondie de l'outil de gestion de processus de Node « pm2 » Apr 03, 2023 pm 06:02 PM

Cet article partagera avec vous l'outil de gestion de processus de Node "pm2" et expliquera pourquoi pm2 est nécessaire, comment installer et utiliser pm2, j'espère qu'il sera utile à tout le monde !

Enseignement du nœud PI: Qu'est-ce qu'un nœud PI? Comment installer et configurer le nœud PI? Enseignement du nœud PI: Qu'est-ce qu'un nœud PI? Comment installer et configurer le nœud PI? Mar 05, 2025 pm 05:57 PM

Explication détaillée et guide d'installation pour les nœuds de pignon Cet article introduira l'écosystème de pignon en détail - nœuds PI, un rôle clé dans l'écosystème de pignon et fournir des étapes complètes pour l'installation et la configuration. Après le lancement du réseau de test de la blockchain pèse, les nœuds PI sont devenus une partie importante de nombreux pionniers participant activement aux tests, se préparant à la prochaine version du réseau principal. Si vous ne connaissez pas encore Pinetwork, veuillez vous référer à ce qu'est Picoin? Quel est le prix de l'inscription? PI Utilisation, exploitation minière et sécurité. Qu'est-ce que Pinetwork? Le projet Pinetwork a commencé en 2019 et possède sa pièce exclusive de crypto-monnaie PI. Le projet vise à en créer un que tout le monde peut participer

Parlons de la façon d'utiliser pkg pour empaqueter des projets Node.js dans des fichiers exécutables. Parlons de la façon d'utiliser pkg pour empaqueter des projets Node.js dans des fichiers exécutables. Dec 02, 2022 pm 09:06 PM

Comment empaqueter le fichier exécutable nodejs avec pkg ? L'article suivant vous expliquera comment utiliser pkg pour empaqueter un projet Node dans un fichier exécutable. J'espère qu'il vous sera utile !

Authentification basée sur des jetons avec Angular et Node Authentification basée sur des jetons avec Angular et Node Sep 01, 2023 pm 02:01 PM

L'authentification est l'une des parties les plus importantes de toute application Web. Ce didacticiel traite des systèmes d'authentification basés sur des jetons et de leurs différences par rapport aux systèmes de connexion traditionnels. À la fin de ce didacticiel, vous verrez une démo entièrement fonctionnelle écrite en Angular et Node.js. Systèmes d'authentification traditionnels Avant de passer aux systèmes d'authentification basés sur des jetons, examinons les systèmes d'authentification traditionnels. L'utilisateur fournit son nom d'utilisateur et son mot de passe dans le formulaire de connexion et clique sur Connexion. Après avoir effectué la demande, authentifiez l'utilisateur sur le backend en interrogeant la base de données. Si la demande est valide, une session est créée à l'aide des informations utilisateur obtenues à partir de la base de données et les informations de session sont renvoyées dans l'en-tête de réponse afin que l'ID de session soit stocké dans le navigateur. Donne accès aux applications soumises à

Que faire si node server.js signale une erreur Que faire si node server.js signale une erreur Dec 29, 2022 pm 04:19 PM

L'erreur node server.js est due au fait que le chemin est incorrect. La solution est la suivante : 1. Entrez dans la fenêtre cmd ; 2. Basculez vers "server.js" sous le chemin du projet. commande pour résoudre le problème d’erreur.

See all articles