ノードは Lagou.com データをクロールし、Excel ファイルにエクスポートします。-jsチュートリアル-php.cn

ノードは Lagou.com データをクロールし、Excel ファイルにエクスポートします。

不言

リリース： 2018-07-07 17:55:39

オリジナル

2059 人が閲覧しました

この記事では、Lagou.com のデータをクロールして Excel ファイルにエクスポートするためのノードを紹介します。これを必要な友人に共有します。

私はノードを学習しています。 js の前に断続的に書いていますが、今日は Lagou.com を使って練習し、データから最近の採用市場について学びましょう!私はノードには比較的慣れたばかりですが、皆さんと一緒に学び、進歩していきたいと思っています。

1. 概要

最初に具体的なニーズを明確にする必要があります:

ノードインデックスの都市の位置

node index 城市职位来爬取相关信息
也可以输入node index start直接爬取我们预定义好的城市和职位数组，循环爬取不同城市的不同职位信息
将最终爬取的结果存储在本地的./data目录下
生成对应的excel文件，并存储到本地

二、爬虫用到的相关模块

fs: 用于对系统文件及目录进行读写操作
async：流程控制
superagent：客户端请求代理模块
node-xlsx：将一定格式的文件导出为excel

三、爬虫主要步骤：

初始化项目

新建项目目录

在合适的磁盘目录下创建项目目录 node-crwl-lagou

初始化项目

进入node-crwl-lagou文件夹下

执行npm init，初始化package.json文件

安装依赖包

npm install async

npm install superagent

npm install node-xlsx

命令行输入的处理

对于在命令行输入的内容，可以用process.argv来获取，他会返回个数组，数组的每一项就是用户输入的内容。
区分node index 地域职位和node index start两种输入，最简单的就是判断process.argv的长度，长度为四的话，就直接调用爬虫主程序爬取数据，长度为三的话，我们就需要通过预定义的城市和职位数组来拼凑url了，然后利用async.mapSeries循环调用主程序。关于命令分析的主页代码如下：

if (process.argv.length === 4) {
  let args = process.argv
  console.log('准备开始请求' + args[2] + '的' + args[3] + '职位数据');
  requsetCrwl.controlRequest(args[2], args[3])
} else if (process.argv.length === 3 && process.argv[2] === 'start') {
  let arr = []
  for (let i = 0; i <p>预定义好的城市和职位数组如下：</p><pre class="brush:php;toolbar:false">{
    "city": ["北京","上海","广州","深圳","杭州","南京","成都","西安","武汉","重庆"],
    "position": ["前端","java","php","ios","android","c++","python",".NET"]
}

ログイン後にコピー

接下来就是爬虫主程序部分的分析了。

分析页面，找到请求地址

首先我们打开拉勾网首页，输入查询信息（比如node），然后查看控制台，找到相关的请求，如图：

ノードは Lagou.com データをクロールし、Excel ファイルにエクスポートします。

这个post请求https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false就是我们所需要的，通过三个请求参数来获取不同的数据，简单的分析就可得知：参数first是标注当前是否是第一页，true为是，false为否；参数pn是当前的页码；参数kd是查询输入的内容。

通过superagent请求数据

首先需要明确得是，整个程序是异步的，我们需要用async.series来依次调用。
查看分析返回的response：

ノードは Lagou.com データをクロールし、Excel ファイルにエクスポートします。

可以看到content.positionResult.totalCount就是我们所需要的总页数
我们用superagent直接调用post请求，控制台会提示如下信息：

{'success': False, 'msg': '您操作太频繁,请稍后再访问', 'clientIp': '122.xxx.xxx.xxx'}

ログイン後にコピー

这其实是反爬虫策略之一，我们只需要给其添加一个请求头即可，请求头的获取方式很简单，如下：

ノードは Lagou.com データをクロールし、Excel ファイルにエクスポートします。

然后在用superagent调用post请求，主要代码如下：

// 先获取总页数
    (cb) => {
      superagent
        .post(`https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=${city}&kd=${position}&pn=1`)
        .send({
          'pn': 1,
          'kd': position,
          'first': true
        })
        .set(options.options)
        .end((err, res) => {
          if (err) throw err
          // console.log(res.text)
          let resObj = JSON.parse(res.text)
          if (resObj.success === true) {
            totalPage = resObj.content.positionResult.totalCount;
            cb(null, totalPage);
          } else {
            console.log(`获取数据失败:${res.text}}`)
          }
        })
    },

ログイン後にコピー

拿到总页数后，我们就可以通过总页数/15ノードインデックスを入力することもできますstart 事前定義された都市と位置の配列を直接クロールし、ループしてさまざまな都市のさまざまな求人情報をクロールします

最終的なクロール結果をローカルの ./data ディレクトリに保存します次へ

対応する Excel ファイルを生成し、ローカルに保存します

🎜 2. クローラーによって使用される関連モジュール🎜

🎜 🎜fs: に使用されます。システムファイルとディレクトリの読み取りと書き込み🎜🎜🎜async: プロセス制御🎜🎜🎜superagent: クライアントリクエストプロキシモジュール🎜🎜🎜node-xlsx: ファイルを特定の形式で Excel にエクスポート🎜🎜 クローラーの 3 つの主なステップ: 🎜

プロジェクトを初期化する

🎜 新しいプロジェクトディレクトリを作成する🎜🎜 適切なディスクディレクトリ -crwl-lagou にプロジェクトディレクトリノードを作成する🎜🎜プロジェクトを初期化する🎜🎜🎜🎜🎜node-crwl-lagouフォルダーに入る🎜🎜🎜npm initを実行し、package.jsonファイルを初期化する🎜🎜🎜インストール依存関係パッケージ🎜 🎜🎜🎜🎜npm install async🎜🎜🎜npm install superagent🎜🎜🎜npm install node-xlsx🎜🎜

コマンドライン入力の処理

🎜コマンドラインに入力された内容については、process.argv を使用して取得できます。配列内の各項目はユーザーが入力した内容です。
nodeindexregionalposition と nodeindexstart を区別する最も簡単な方法は、process.argv の長さを判断することです。長さが 4 の場合は、それを呼び出します。クローラーのメインプログラムはデータをクロールします。長さが 3 の場合は、事前定義された都市と位置の配列を介して URL を結合し、async.mapSeries を使用してループ内でメインプログラムを呼び出す必要があります。コマンド分析用のホームページコードは次のとおりです: 🎜

(cb) => {
      for (let i=0;Math.ceil(i<totalpage>🎜 事前定義された都市と位置の配列は次のとおりです: 🎜<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">// 控制并发为3
    (cb) => {
      async.mapLimit(urls, 3, (url, callback) => {
        num++;
        let page = url.split('&')[3].split('=')[1];
        superagent
          .post(url)
          .send({
            'pn': totalPage,
            'kd': position,
            'first': false
          })
          .set(options.options)
          .end((err, res) => {
            if (err) throw err
            let resObj = JSON.parse(res.text)
            if (resObj.success === true) {
              console.log(`正在抓取第${page}页，当前并发数量：${num}`);
              if (!fs.existsSync('./data')) {
                fs.mkdirSync('./data');
              }
              // 将数据以.json格式储存在data文件夹下
              fs.writeFile(`./data/${city}_${position}_${page}.json`, res.text, (err) => {
                if (err) throw err;
                // 写入数据完成后，两秒后再发送下一次请求
                setTimeout(() => {
                  num--;
                  console.log(`第${page}页写入成功`);
                  callback(null, 'success');
                }, 2000);
              });
            }
          })
      }, (err, result) => {
        if (err) throw err;
        // 这个arguments是调用controlRequest函数的参数，可以区分是那种爬取（循环还是单个）
        if (arguments[2]) {
          ok = 1;
        }
        cb(null, ok)
      })
    },
    () => {
      if (ok) {
        setTimeout(function () {
          console.log(`${city}的${position}数据请求完成`);
          indexCallback(null);
        }, 5000);
      } else {
        console.log(`${city}的${position}数据请求完成`);
      }
      // exportExcel.exportExcel() // 导出为excel
    }

ログイン後にコピー

ページを分析してリクエストアドレスを見つけます

// 控制并发为3 (cb) => { async.mapLimit(urls, 3, (url, callback) => { num++; let page = url.split('&')[3].split('=')[1]; superagent .post(url) .send({ 'pn': totalPage, 'kd': position, 'first': false }) .set(options.options) .end((err, res) => { if (err) throw err let resObj = JSON.parse(res.text) if (resObj.success === true) { console.log(`正在抓取第${page}页，当前并发数量：${num}`); if (!fs.existsSync('./data')) { fs.mkdirSync('./data'); } // 将数据以.json格式储存在data文件夹下 fs.writeFile(`./data/${city}_${position}_${page}.json`, res.text, (err) => { if (err) throw err; // 写入数据完成后，两秒后再发送下一次请求 setTimeout(() => { num--; console.log(`第${page}页写入成功`); callback(null, 'success'); }, 2000); }); } }) }, (err, result) => { if (err) throw err; // 这个arguments是调用controlRequest函数的参数，可以区分是那种爬取（循环还是单个） if (arguments[2]) { ok = 1; } cb(null, ok) }) }, () => { if (ok) { setTimeout(function () { console.log(`${city}的${position}数据请求完成`); indexCallback(null); }, 5000); } else { console.log(`${city}的${position}数据请求完成`); } // exportExcel.exportExcel() // 导出为excel }

json文件导出为excel