Maison > interface Web > js tutoriel > Comment implémenter le robot d'exploration http dans le nœud

Comment implémenter le robot d'exploration http dans le nœud

亚连
Libérer: 2018-06-12 15:04:12
original
1499 Les gens l'ont consulté

Cet article présente principalement l'exemple de code du robot http basé sur le nœud. Maintenant, je le partage avec vous et le donne comme référence.

À chaque instant, que vous dormiez ou non, des données massives vont et viennent sur Internet, du service client au serveur, et de serveur à serveur. Le rôle joué par get et request de http est d'obtenir et de soumettre des données. Ensuite, nous commençons à écrire un simple petit robot pour explorer l'interface de cours du chapitre sur les nœuds dans le didacticiel novice.

Explorez toutes les données sur la page d'accueil du didacticiel Node.js

Créez node-http.js, le code est le suivant, il y a des commentaires détaillés dans le code, vous pouvez le comprendre par vous-même Ha

var http=require('http');//获取http模块
var url='http://www.runoob.com/nodejs/nodejs-tutorial.html';//定义node官网地址变量

http.get(url,function(res){
  var html='';

  // 这里将会触发data事件,不断触发不断跟新html直至完毕
  res.on('data',function(data){
    html +=data
  })

  // 当数据获取完成将会触发end事件,这里将会打印初node官网的html
  res.on('end',function(){
    console.log(html)
  })
}).on('error',function(){
  console.log('获取node官网相关数据出错')
})
Copier après la connexion

Dans le résultat de l'exécution du terminal, il a été constaté que tout le HTML de cette page a été exploré

G:\node\node-http> node node-http.js
<!Doctype html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta property="qc:admins" content="465267610762567726375" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<title>Node.js 教程 | 菜鸟教程</title>
<link rel=&#39;dns-prefetch&#39; href=&#39;//s.w.org&#39; />
<link rel="canonical" href="http://www.runoob.com/nodejs/nodejs-tutorial.html" />
<meta name="keywords" content="Node.js 教程,node,Node.js,nodejs">
<meta name="description" content="Node.js 教程  简单的说 Node.js 就是运行在服务端的 JavaScript。 Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台
。 Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎,V8引擎执行Javascript的速度非常快,性能非常好。  谁适合阅读本教程? 如果你是一个前端程序员,你不懂得像PHP、Python或Ruby等动态编程语言,..">
<link rel="shortcut icon" href="//static.runoob.com/images/favicon.ico" rel="external nofollow" rel="external nofollow" mce_href="//static.runoob.com/images/favicon.ico" rel="external nofollow" rel="external nofollow" type="image/x-icon">
<link rel="stylesheet" href="/wp-content/themes/runoob/style.css?v=1.141" rel="external nofollow" type="text/css" media="all" />
<link rel="stylesheet" href="//cdn.bootcss.com/font-awesome/4.7.0/css/font-awesome.min.css" rel="external nofollow" media="all" />
<!--[if gte IE 9]><!-->
。。。。。。。。。。
这里只展示部分不然你半天看不到头
Copier après la connexion

Bien sûr, l'exploration du HTML est cela ne nous sert à rien, maintenant nous devons faire quelque chose de Filtrage, par exemple, dans ce tutoriel de nœud, je veux savoir quel est le catalogue de cours, afin de pouvoir choisir ce qui m'intéresse et apprendre. Passons directement au code :

Mais avant cela, nous devons télécharger le module cheerio (cheerio est le module d'exploration de pages de nodejs, spécialement personnalisé pour le serveur, une implémentation de base jQuery rapide, flexible et implémentée. Convient pour toutes sortes de programmes de robots d'exploration Web.) Vous pouvez rechercher des détails par vous-même. L'utilisation de cheerio est très similaire à l'utilisation de jquery, vous n'avez donc pas à vous soucier de commencer.

PS G:\node\node-http> npm install cheerio
Copier après la connexion

Créez node-http-more.js, le code est le suivant :

var http=require(&#39;http&#39;);//获取http模块
var cheerio=require(&#39;cheerio&#39;);//引入cheerio模块
var url=&#39;http://www.runoob.com/nodejs/nodejs-tutorial.html&#39;;//定义node官网地址变量
// filer node chapter
function filerNodeChapter(html){
  // 将爬取得HTML装载起来
  var $=cheerio.load(html);
  // 拿到左侧边栏的每个目录
  var nodeChapter=$(&#39;#leftcolumn a&#39;);
  //这里我希望我能获取的到的最终数据格式这个样子的,如此我们能知道每个目录的地址及标题
  /**
   * [{id:,title:}]
   */
  var chapterData=[];
  nodeChapter.each(function(item){
    // 获取每项的地址及标题
    var id=$(this).attr(&#39;href&#39;);
    var title=$(this).text();
    chapterData.push({
      id:id,
      title:title
    })
  })

  return chapterData;

}

//获取每个数据
function getChapterData(nodeChapter){
  nodeChapter.forEach(function(item){
    console.log(&#39; 【 &#39;+item.id+&#39; 】&#39;+item.title+&#39;\n&#39;)
  });
}

http.get(url,function(res){
  var html=&#39;&#39;;

  // 这里将会触发data事件,不断触发不断跟新html直至完毕
  res.on(&#39;data&#39;,function(data){
    html +=data
  })

  // 当数据获取完成将会触发end事件,这里将会打印初node官网的html
  res.on(&#39;end&#39;,function(){
    //console.log(html)
    // 过滤出node.js的课程目录
    var nodeChapter= filerNodeChapter(html);

    //循环打印所获取的数据
    getChapterData(nodeChapter)
  })
}).on(&#39;error&#39;,function(){
  console.log(&#39;获取node官网相关数据出错&#39;)
})
Copier après la connexion

Résultats d'exécution du terminal et imprimez le répertoire du cours

G:\node\node-http> node node-http-more.js
 【 /nodejs/nodejs-tutorial.html 】
Node.js 教程

 【 /nodejs/nodejs-install-setup.html 】
Node.js 安装配置

 【 /nodejs/nodejs-http-server.html 】
Node.js 创建第一个应用

 【 nodejs-npm.html 】 NPM 使用介绍

 【 nodejs-repl.html 】 Node.js REPL

 【 nodejs-callback.html 】 Node.js 回调函数

 【 nodejs-event-loop.html 】 Node.js 事件循环

 【 nodejs-event.html 】 Node.js EventEmitter

 【 nodejs-buffer.html 】 Node.js Buffer

 【 nodejs-stream.html 】 Node.js Stream

 【 /nodejs/nodejs-module-system.html 】
Node.js 模块系统
。。。。。。。。。。。
这里就不全部给出,你可以自己尝试着运行操作查看所有结果
Copier après la connexion

Ce qui précède est que je l'ai compilé pour tout le monde, j'espère qu'il sera utile à tout le monde à l'avenir.

Articles associés :

Comment utiliser SVG dans les projets React et Vue

Comparez l'heure du même jour via JavaScript

Utilisez vue2.0.js pour implémenter un sélecteur de liens à plusieurs niveaux

Utilisez mint-ui pour réaliser l'effet de liaison à trois niveaux des provinces et villes

Utilisez vue pour implémenter la méthode de définition d'itinéraire secondaire

Réalisez plusieurs implémentations de routage dans Vue-Router2.X

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal