웹 스크래핑 시작-Golang-php.cn

웹 스크래핑 시작

王林

풀어 주다： 2024-09-10 14:30:32

원래의

719명이 탐색했습니다.

첫 번째 단계

먼저 Go가 설치되어 있어야 합니다. Go를 다운로드하고 설치하는 방법은 다음과 같습니다.

프로젝트를 위한 새 폴더를 생성하고 해당 디렉토리로 이동한 후 다음 명령을 실행합니다.

go mod init scraper

로그인 후 복사

? go mod init 명령은 실행되는 디렉토리에서 새 Go 모듈을 초기화하고 코드 종속성을 추적하기 위해 go.mod 파일을 생성하는 데 사용됩니다. 종속성 관리

이제 Colibri를 설치해 보겠습니다.

go get github.com/gonzxlez/colibri

로그인 후 복사

? Colibri는 JSON에 정의된 일련의 규칙을 사용하여 웹에서 구조화된 데이터를 크롤링하고 추출할 수 있게 해주는 Go 패키지입니다. 저장소

추출 규칙

콜리브리가 필요한 데이터를 추출하는 데 사용할 규칙을 정의합니다. 문서

Go 패키지의 xpath와 관련된 Go 패키지에 대한 쿼리 결과가 포함된 URL https://pkg.go.dev/search?q=xpath에 HTTP 요청을 보내겠습니다.

웹 브라우저에 포함된 개발 도구를 사용하여 페이지의 HTML 구조를 검사할 수 있습니다. 브라우저 개발 도구는 무엇인가요?

Web Scraping en Go

<div class="SearchSnippet">
   <div class="SearchSnippet-headerContainer">
      <h2>
         <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title">
         xpath
         <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span>
         </a>
      </h2>
   </div>
   <div class="SearchSnippet-infoLabel">
      <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By">
      <span class="go-textSubtle">Imported by </span><strong>143</strong>
      </a>
      <span class="go-textSubtle">|</span>
      <span class="go-textSubtle">
      <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span>
      </span>
      <span class="go-textSubtle">|</span>
      <span data-test-id="snippet-license">
      <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses">
      MIT
      </a>
      </span>
   </div>
</div>

로그인 후 복사

쿼리 결과를 나타내는 HTML 구조의 일부입니다.

그런 다음 SearchSnippet 클래스가 있는 HTML의 모든 div 요소를 찾는 선택기 "패키지"가 필요합니다. 해당 요소에서 " name”은 h2 요소 내에서 a 요소의 텍스트와 선택기 “path” 는 내 a 요소의 href 속성 값을 사용합니다. h2 요소입니다. 즉, "name"은 Go 패키지의 이름을 사용하고 "path"는 패키지 경로를 사용합니다 :)

{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}

로그인 후 복사

은 HTTP 방법(GET, POST, PUT, ...)을 지정합니다.
요청 URL
HTTP 요청에 대한 시간 제한(밀리초)입니다.
선택자.
- :는 선택기의 이름입니다.
  - 선택자 표현식
  - 은 표현식과 일치하는 모든 요소를 찾도록 지정합니다.
  - 표현식의 유형(이 경우 CSS 선택기)
  - 중첩된 선택자입니다.
    - 및 “경로”는 선택기의 이름이고 해당 값은 표현식(이 경우 XPath 표현식)입니다.

Go의 코드

scraper.go 파일을 만들고, 필요한 패키지를 가져오고, 주요 기능을 정의할 준비가 되었습니다.

package main

import (
    "encoding/json"
    "fmt"

    "github.com/gonzxlez/colibri"
    "github.com/gonzxlez/colibri/webextractor"
)

var rawRules = `{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}`

func main() {
    we, err := webextractor.New()
    if err != nil {
        panic(err)
    }

    var rules colibri.Rules
    err = json.Unmarshal([]byte(rawRules), &rules)
    if err != nil {
        panic(err)
    }

    output, err := we.Extract(&rules)
    if err != nil {
        panic(err)
    }

    fmt.Println("URL:", output.Response.URL())
    fmt.Println("Status code:", output.Response.StatusCode())
    fmt.Println("Content-Type", output.Response.Header().Get("Content-Type"))
    fmt.Println("Data:", output.Data)
}

로그인 후 복사

? WebExtractor는 웹에서 데이터를 크롤링하거나 추출할 수 있는 Colibri의 기본 인터페이스입니다.