Heim  >  Artikel  >  Web-Frontend  >  So implementieren Sie einen Informationscrawler mit Node.js (ausführliches Tutorial)

So implementieren Sie einen Informationscrawler mit Node.js (ausführliches Tutorial)

亚连
亚连Original
2018-06-13 14:15:081824Durchsuche

In diesem Artikel wird hauptsächlich der Prozess der Entwicklung eines Informations-Crawlers mit Node.js vorgestellt. Der Crawler-Prozess kann als Herunterladen des HTML-Codes der Zielwebsite auf die lokale Website und anschließendes Extrahieren der Daten zusammengefasst werden. Weitere Informationen finden Sie in diesem Artikel.

Das aktuelle Projekt benötigt einige Informationen, da das Projekt in Node.js geschrieben ist. Daher ist es selbstverständlich, Node.js zum Schreiben des Crawlers zu verwenden.

Projekt Adresse: github.com/mrtanweijie…, das Projekt crawlt den Informationsinhalt von Readhub, Open Source China, Developer Headlines und 36Kr. Mehrere Seiten werden vorerst nicht verarbeitet, da der Crawler einmal täglich ausgeführt wird wird jedes Mal abgerufen. Die neueste Version kann die Anforderungen erfüllen und später verbessert werden

Der Crawler-Prozess kann als Herunterladen des HTML-Codes der Zielwebsite auf die lokale Website und anschließendes Extrahieren der Daten zusammengefasst werden.

1. Download-Seite

Node.js verfügt über viele HTTP-Anforderungsbibliotheken, die hier verwendet werden:

requestDownloadHTML () {
 const options = {
  url: this.url,
  headers: {
  'User-Agent': this.randomUserAgent()
  }
 }
 return new Promise((resolve, reject) => {
  request(options, (err, response, body) => {
  if (!err && response.statusCode === 200) {
   return resolve(body)
  } else {
   return reject(err)
  }
  })
 })
 }

Verwenden Sie Promise zum Verpacken, damit async/await später verwendet werden kann. Da viele Websites auf dem Client gerendert werden, enthalten die heruntergeladenen Seiten möglicherweise nicht unbedingt den gewünschten HTML-Inhalt. Wir können den Puppenspieler von Google verwenden, um vom Client gerenderte Website-Seiten herunterzuladen. Wie wir alle wissen, schlägt die Installation von Puppeteer möglicherweise fehl, da der Chrome-Kernel heruntergeladen werden muss :)

puppeteerDownloadHTML () {
 return new Promise(async (resolve, reject) => {
  try {
  const browser = await puppeteer.launch({ headless: true })
  const page = await browser.newPage()
  await page.goto(this.url)
  const bodyHandle = await page.$('body')
  const bodyHTML = await page.evaluate(body => body.innerHTML, bodyHandle)
  return resolve(bodyHTML)
  } catch (err) {
  console.log(err)
  return reject(err)
  }
 })
 }

Natürlich ist es am besten, die Schnittstellenanforderung zu verwenden direkt für vom Client gerenderte Seiten, sodass das anschließende HTML-Parsen nicht erforderlich ist. Führen Sie einfach eine einfache Kapselung durch und verwenden Sie es dann wie folgt: # lustig:)

await new Downloader('http://36kr.com/newsflashes', DOWNLOADER.puppeteer).downloadHTML()

2. Extraktion von HTML-Inhalten

Die Extraktion von HTML-Inhalten erfolgt natürlich über das Artefakt Cheerio, das die gleiche Schnittstelle wie jQuery bietet und sehr einfach zu verwenden ist. Öffnen Sie die Seite F12 im Browser, um die extrahierten Seitenelementknoten anzuzeigen, und extrahieren Sie dann den Inhalt entsprechend den Anforderungen

readHubExtract () {
 let nodeList = this.$('#itemList').find('.enableVisited')
 nodeList.each((i, e) => {
  let a = this.$(e).find('a')
  this.extractData.push(
  this.extractDataFactory(
   a.attr('href'),
   a.text(),
   '',
   SOURCECODE.Readhub
  )
  )
 })
 return this.extractData
 }

3. Geplante Aufgaben

cron 每天跑一跑 
function job () {
 let cronJob = new cron.CronJob({
 cronTime: cronConfig.cronTime,
 onTick: () => {
  spider()
 },
 start: false
 })
 cronJob.start()
}

4. Datenpersistenz

Theoretisch sollte die Datenpersistenz nicht im Bereich der Besorgnis von Crawlern liegen.

import mongoose from 'mongoose'
const Schema = mongoose.Schema
const NewsSchema = new Schema(
 {
 title: { type: 'String', required: true },
 url: { type: 'String', required: true },
 summary: String,
 recommend: { type: Boolean, default: false },
 source: { type: Number, required: true, default: 0 },
 status: { type: Number, required: true, default: 0 },
 createdTime: { type: Date, default: Date.now }
 },
 {
 collection: 'news'
 }
)
export default mongoose.model('news', NewsSchema)

Grundfunktionen

import { OBJ_STATUS } from '../../Constants'
class BaseService {
 constructor (ObjModel) {
 this.ObjModel = ObjModel
 }

 saveObject (objData) {
 return new Promise((resolve, reject) => {
  this.ObjModel(objData).save((err, result) => {
  if (err) {
   return reject(err)
  }
  return resolve(result)
  })
 })
 }
}
export default BaseService

Informationen

import BaseService from './BaseService'
import News from '../models/News'
class NewsService extends BaseService {}
export default new NewsService(News)

Freuen Sie sich auf das Speichern von Daten

await newsService.batchSave(newsListTem)

Für weitere Inhalte gehen Sie einfach zu Github und klonen Sie das Projekt, um es anzuzeigen.

Zusammenfassung

Das Obige habe ich für Sie zusammengestellt und hoffe, dass es Ihnen in Zukunft hilfreich sein wird.

Verwandte Artikel:

So erstellen Sie ein kraftgesteuertes D3-Diagramm mit React (ausführliches Tutorial)

So implementieren Sie Instant Messaging mit nodejs

Über Axios-Probleme im Zusammenhang mit Vue.use

Das obige ist der detaillierte Inhalt vonSo implementieren Sie einen Informationscrawler mit Node.js (ausführliches Tutorial). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn