Python 크롤러가 프록시를 사용하여 웹 페이지를 크롤링하는 방법에 대한 자세한 설명-파이썬 튜토리얼-php.cn

Python 크롤러가 프록시를 사용하여 웹 페이지를 크롤링하는 방법에 대한 자세한 설명

高洛峰

풀어 주다： 2017-03-19 14:43:46

원래의

1975명이 탐색했습니다.

프록시 유형(프록시): 투명 프록시, 익명 프록시, 혼동 프록시 및 고익명성 프록시. 프록시를 사용하는 python 크롤러에 대한 지식과 프록시 풀 클래스는 누구에게나 편리합니다. 작업의 다양한 측면을 처리합니다.

urllib 모듈은 프록시를 사용합니다

urllib/urllib2에 프록시를 사용하는 것이 더 번거롭습니다. 먼저 ProxyHandler 클래스를 빌드한 다음 이 클래스를 사용하여 여는 오프너 클래스를 빌드해야 합니다. 웹 페이지를 확인한 후 요청에 사용하세요. 오프너를 설치하세요.

프록시 형식은 "http://127.0.0.1:80"입니다. 계정 비밀번호를 원하시면 "http:/"입니다. /user:password@127.0.0.1:80".

proxy="http://127.0.0.1:80"
# 创建一个ProxyHandler对象
proxy_support=urllib.request.ProxyHandler({&#39;http&#39;:proxy})
# 创建一个opener对象
opener = urllib.request.build_opener(proxy_support)
# 给request装载opener
urllib.request.install_opener(opener)
# 打开一个url
r = urllib.request.urlopen(&#39;http://youtube.com&#39;,timeout = 500)

로그인 후 복사

요청 모듈은 프록시를 사용합니다

요청에 프록시를 사용하는 것은 urllib보다 훨씬 간단합니다... 여기서는 단일 프록시를 사용합니다. 예를 들어 여러 번 사용되는 경우 세션 유형의 구성을 사용할 수 있습니다.

프록시를 사용해야 하는 경우 프록시를 제공하여 단일 요청을 구성할 수 있습니다. 매개변수를 요청 방법에 추가:

import requests
proxies = {
  "http": "http://127.0.0.1:3128",
  "https": "http://127.0.0.1:2080",
}
r=requests.get("http://youtube.com", proxies=proxies)
print r.text

로그인 후 복사

환경 변수 HTTP_PROXY 및 HTTPS_PROXY를 통해 프록시를 구성할 수도 있습니다.

export HTTP_PROXY="http://127.0.0.1:3128"
export HTTPS_PROXY="http://127.0.0.1:2080"
python
>>> import requests
>>> r=requests.get("http://youtube.com")
>>> print r.text

로그인 후 복사

프록시가 HTTP 기본 인증을 사용해야 하는 경우 http://user:password@host/를 사용할 수 있습니다. 구문:

proxies = {
    "http": "http://user:pass@127.0.0.1:3128/",
}

로그인 후 복사

Python의 프록시는 사용이 매우 간단합니다. 안정적이고 안정적인 네트워크를 갖춘 에이전트를 찾는 것입니다. 궁금한 점이 있으면 메시지를 남겨주세요

위 내용은 Python 크롤러가 프록시를 사용하여 웹 페이지를 크롤링하는 방법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Php8, 나도 갈게

30분 안에 웹사이트 레이아웃 배우기

Shangguan Oracle 초보자부터 능숙한 비디오 튜토리얼까지

UNI-APP 코드의 첫 번째 줄

처음부터 앱 실행까지 Flutter

Lian 형제 새 Linux 비디오 튜토리얼

AXURE 9 비디오 튜토리얼(제품 관리자 대화형 제품 디자인 UI에 적합)

Zero 기본 숙련도 PS 비디오 튜토리얼

시작하는 데 도움이 되는 16일 UI 비디오 튜토리얼

PS 기술 및 슬라이싱 기술 비디오 튜토리얼

Alibaba Cloud 환경 구축 및 프로젝트 출시 비디오 튜토리얼

컴퓨터 네트워크 개요 - 프로그래머가 마스터해야 하는 기본 지식

프로그래머를 위한 필수 튜토리얼 - HTTP 프로토콜 설명

웹소켓 비디오 튜토리얼

Python 크롤러가 프록시를 사용하여 웹 페이지를 크롤링하는 방법에 대한 자세한 설명

urllib 모듈은 프록시를 사용합니다

요청 모듈은 프록시를 사용합니다