• 技术文章 >web前端 >js教程

    Node.js编写爬虫的基本思路及抓取百度图片的实例分享_node.js

    2016-05-16 15:10:57原创758
    其实写爬虫的思路十分简单:

    但是真正写起这个爬虫来,我还是遇到了很多的问题(和自己的基础不扎实也有很大的关系,node.js 并没有怎么认真的学过)。主要还是 node.js 的异步和回调知识没有完全掌握,导致在写代码的过程中走了很多弯路。

    模块化

    模块化对于 node.js 程序是至关重要的,不能像原来写 PHP 那样所有的代码都扔到一个文件里(当然这只是我个人的恶习),所以一开始就要分析这个爬虫需要实现的功能,并大致的划分了三个模块。

    主程序,调用爬虫模块和持久化模块实现完整的爬虫功能
    爬虫模块,根据传来的数据发送请求,解析 HTML 并提取有用数据,返回一个对象
    持久化模块,接受一个对象,将其中的内容储存到数据库中
    模块化也带来了困扰了我一个下午的问题:模块之间的异步调用导致数据错误。其实我至今都不太明白问题到底出在哪儿,鉴于脚本语言不那么方便的调试功能,暂时还没有深入研究。

    另外一点需要注意的是,模块化时尽量慎用全局对象来储存数据,因为可能你这个模块的一个功能还没有结束,这个全局变量已经被修改了。

    Control Flow

    这个东西很难翻译,直译叫控制流(吗)。众所周知,node.js 的核心思想就是异步,但是异步多了就会产生好几层嵌套,代码实在难看。这个时候,你需要借助一些 Control Flow 模块来重新整理你的逻辑。在这里就要推荐开发社区十分活跃,用起来也很顺手的 async.js(https://github.com/caolan/async/)。

    async 提供了很多实用的方法,我在写爬虫时主要用到了

    这些控制流方法给爬虫的开发工作带来了很大的方便。考虑这么一个应用场景,你需要把若干条数据插入数据库(属于同一个学生),你需要在所有数据都插入完成后才能返回结果,那么如何保证所有的插入操作都结束了呢?只能是层层回调保证,如果用 async.parallel 就方便多了。

    这里再多提一句,本来保证所有的插入都完成这个操作可以在 SQL 层实现,即 transaction,但是 node-mysql 截止我使用的时候还是没有很好的支持 transaction,所以只有自己手动用代码保证了。

    解析 HTML

    在解析过程中也遇到一些问题,这里一并记录下来。

    最基本的发送 HTTP 请求获得 HTML 代码,使用 node 自带的 http.request 功能即可。如果是爬简单的内容,比如获得某个指定 id 元素中的内容(常见于抓去商品价格),那么正则足以完成任务。但是对于复杂的页面,尤其是数据项较多的页面,使用 DOM 会更加方便高效。

    而 node.js 最好的 DOM 实现非 cheerio(https://github.com/MatthewMueller/cheerio) 莫属了。其实 cheerio 应该算是 jQuery 的一个针对 DOM 操作优化和精简的子集,包含了 DOM 操作的大部分内容,去除了其它不必要的内容。使用 cheerio 你就可以像用普通 jQuery 选择器那样选择你需要的内容。

    下载图片
    在爬数据时,我们可能还需要下载图片。其实下载图片的方式和普通的网页没有太大的区别,但是有一点让我吃了苦头。

    注意下面代码中言辞激烈的注释,那就是我年轻时犯下的错误……

    var req = http.request(options, function(res){
    
      //初始化数据!!!
      var binImage = '';
    
      res.setEncoding('binary');
      res.on('data', function(chunk){
       binImage += chunk;
      });
    
      res.on('end', function(){
    
       if (!binImage) {
        console.log('image data is null');
        return null;
       }
    
       fs.writeFile(imageFolder + filename, binImage, 'binary', function(err){
        if (err) {
         console.log('image writing error:' + err.message);
         return null;
        }
        else{
         console.log('image ' + filename + ' saved');
         return filename;
        }
       });
      });
    
      res.on('error', function(e){
       console.log('image downloading response error:' + e.message);
       return null;
      });
     });
    
     req.end();
    
    

    GBK 转码
    另外一个值得说明的问题就是 node.js 爬虫在爬 GBK 编码内容时转码的问题,其实这个问题很好解决,但是新手可能会绕弯路。这里就把源码全部奉上:

    var req = http.request(options, function(res) {
      res.setEncoding('binary');
      res.on('data', function (chunk) {
      html += chunk;
      });
    
      res.on('end', function(){
      //转换编码
      html = iconv.decode(html, 'gbk');
      });
     });
    
     req.end();
    
    

    这里我使用的转码库是 iconv-lite(https://github.com/ashtuchkin/iconv-lite),完美支持 GBK 和 GB2312 等双字节编码。

    实例:爬虫批量下载百度图片

    var fs = require('fs'), 
     path = require('path'), 
     util = require('util'), // 以上为Nodejs自带依赖包 
     request = require('request'); // 需要npm install的包 
     
    // main函数,使用 node main执行即可 
    patchPreImg(); 
     
    // 批量处理图片 
    function patchPreImg() { 
     var tag1 = '摄影', tag2 = '国家地理', 
      url = 'http://image.baidu.com/data/imgs?pn=%s&rn=60&p=channel&from=1&col=%s&tag=%s&sort=1&tag3=', 
      url = util.format(url, 0, tag1, tag2), 
      url = encodeURI(url), 
      dir = 'D:/downloads/images/', 
      dir = path.join(dir, tag1, tag2), 
      dir = mkdirSync(dir); 
     
     request(url, function(error, response, html) { 
      var data = JSON.parse(html); 
      if (data && Array.isArray(data.imgs)) { 
       var imgs = data.imgs; 
       imgs.forEach(function(img) { 
        if (Object.getOwnPropertyNames(img).length > 0) { 
         var desc = img.desc || ((img.owner && img.owner.userName) + img.column); 
         desc += '(' + img.id + ')'; 
         var downloadUrl = img.downloadUrl || img.objUrl; 
         downloadImg(downloadUrl, dir, desc); 
        } 
       }); 
      } 
     }); 
    } 
     
    // 循环创建目录 
    function mkdirSync(dir) { 
     var parts = dir.split(path.sep); 
     for (var i = 1; i <= parts.length; i++) { 
      dir = path.join.apply(null, parts.slice(0, i)); 
      fs.existsSync(dir) || fs.mkdirSync(dir); 
     } 
     return dir; 
    } 
     
    var index = 1; 
    // 开始下载图片,并log统计日志 
    function downloadImg(url, dir, desc) { 
     var fileType = 'jpg'; 
     if (url.match(/\.(\w+)$/)) fileType = RegExp.$1; 
     desc += '.' + fileType; 
     var options = { 
      url: url, 
      headers: { 
       Host: 'f.hiphotos.baidu.com', 
       Cookie: 'BAIDUID=810ACF57B5C38556045DFFA02C61A9F8:FG=1;' 
      } 
     }; 
     var startTime = new Date().getTime(); 
     request(options) 
      .on('response', function() { 
       var endTime = new Date().getTime(); 
       console.log('Downloading...%s.. %s, 耗时: %ss', index++, desc, (endTime - startTime) / 1000); 
      }) 
      .pipe(fs.createWriteStream(path.join(dir, desc))); 
    } 
    声明:本文原创发布php中文网,转载请注明出处,感谢您的尊重!如有疑问,请联系admin@php.cn处理
    上一篇:详解JavaScript中数组和字符串的lastIndexOf()方法使用_基础知识 下一篇:详解AngularJS过滤器的使用_AngularJS
    大前端线上培训班

    相关文章推荐

    • javascript怎么获取指针的位置• javascript怎么检测变量是否存在• JavaScript如何获取HTML元素• 浅谈Nodejs中要怎么做定时任务• javascript怎么实现句子反转

    全部评论我要评论

  • 取消发布评论发送
  • 1/1

    PHP中文网