> 백엔드 개발 > Golang > Colly가 포함된 Golang: 스크래핑 시 임의의 가짜 사용자 에이전트 사용

Colly가 포함된 Golang: 스크래핑 시 임의의 가짜 사용자 에이전트 사용

Barbara Streisand
풀어 주다: 2025-01-11 07:57:49
원래의
532명이 탐색했습니다.

Golang with Colly: Use Random Fake User-Agents When Scraping

웹사이트 스크래핑은 표준 또는 부적절한 사용자 에이전트 사용으로 인해 차단되는 경우가 많습니다. 이 기사에서는 Go Colly 스크레이퍼 내에서 무작위 가짜 사용자 에이전트를 사용하여 이를 완화하는 간단한 방법을 보여줍니다.

가짜 사용자 에이전트 이해

사용자 에이전트는 웹 요청을 하는 클라이언트를 식별하는 문자열입니다. 이는 애플리케이션, 운영 체제(Windows, macOS, Linux) 및 브라우저(Chrome, Firefox, Safari)에 대한 정보를 전달합니다. 웹사이트에서는 보안 및 분석을 비롯한 다양한 목적으로 이 정보를 사용합니다.

일반적인 사용자 에이전트 문자열은 다음과 같습니다(Android의 Chrome).

<code>'User-Agent': 'Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Mobile Safari/537.36'</code>
로그인 후 복사

Go Colly의 기본 사용자 에이전트:

<code>"User-Agent": "colly - //m.sbmmt.com/link/953bd83cb0b9c9f9dc4b3ba0bfc1b236",</code>
로그인 후 복사

스크레이퍼를 쉽게 식별하여 차단 위험을 높입니다. 따라서 맞춤형 무작위 사용자 에이전트를 사용하는 것이 중요합니다.

Go Colly를 사용하여 가짜 사용자 에이전트 구현

맞춤 사용자 에이전트를 포함하도록 요청 헤더를 수정하는 작업은 OnRequest() 콜백을 사용하여 수행됩니다. 이렇게 하면 각 요청이 서로 다른 사용자 에이전트 문자열을 사용하게 됩니다.

<code class="language-go">package main

import (
    "bytes"
    "log"
    "github.com/gocolly/colly"
)

func main() {
    c := colly.NewCollector(colly.AllowURLRevisit())

    c.OnRequest(func(r *colly.Request) {
        r.Headers.Set("User-Agent", "Mozilla/5.0 (iPad; CPU OS 12_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148")
    })

    c.OnResponse(func(r *colly.Response) {
        log.Printf("%s\n", bytes.Replace(r.Body, []byte("\n"), nil, -1))
    })

    for i := 0; i < 5; i++ {
        c.Visit("httpbin.org/headers")
    }
}</code>
로그인 후 복사

모든 요청에 ​​대해 단일 사용자 에이전트를 설정합니다. 더욱 강력한 스크래핑을 위해서는 무작위 접근 방식을 사용하세요.

임의의 사용자 에이전트를 통한 순환

github.com/lib4u/fake-useragent 패키지는 임의의 사용자 에이전트 선택을 단순화합니다.

<code class="language-go">package main

import (
    "bytes"
    "fmt"
    "log"
    "github.com/gocolly/colly"
    uaFake "github.com/lib4u/fake-useragent"
)

func main() {
    ua, err := uaFake.New()
    if err != nil {
        fmt.Println(err)
    }
    c := colly.NewCollector(colly.AllowURLRevisit())

    c.OnRequest(func(r *colly.Request) {
        r.Headers.Set("User-Agent", ua.Filter().GetRandom())
    })

    c.OnResponse(func(r *colly.Response) {
        log.Printf("%s\n", bytes.Replace(r.Body, []byte("\n"), nil, -1))
    })

    for i := 0; i < 5; i++ {
        c.Visit("httpbin.org/headers")
    }
}</code>
로그인 후 복사

이 코드 조각은 각 요청에 대해 임의의 사용자 에이전트를 검색합니다.

특정 가짜 사용자 에이전트 사용

github.com/lib4u/fake-useragent에서는 필터링 옵션을 제공합니다. 예를 들어 임의의 데스크톱 Chrome 사용자 에이전트를 사용하려면:

<code class="language-go">r.Headers.Set("User-Agent", ua.Filter().Chrome().Platform(uaFake.Desktop).Get())</code>
로그인 후 복사

스크래핑할 때는 항상 웹사이트의 robots.txt 및 서비스 약관을 존중해야 합니다. 임의의 사용자 에이전트를 사용하는 것은 책임감 있는 웹 스크래핑을 위한 많은 기술 중 하나입니다. 프록시 및 기타 헤더 관리 전략 사용도 고려해 보세요.

참고자료:

위 내용은 Colly가 포함된 Golang: 스크래핑 시 임의의 가짜 사용자 에이전트 사용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿