Python 크롤러는 프록시를 사용하여 웹 페이지를 크롤링합니다.-파이썬 튜토리얼-php.cn

Python 크롤러는 프록시를 사용하여 웹 페이지를 크롤링합니다.

大家讲道理

풀어 주다： 2016-11-07 10:59:51

원래의

2086명이 탐색했습니다.

프록시 유형(프록시): 투명 프록시, 익명 프록시, 난독화 프록시 및 고익명성 프록시. 다음은 Python 크롤러의 프록시 사용에 대한 지식과 프록시 풀 클래스입니다. 직장에서의 크롤링 문제.

urllib 모듈은 프록시를 사용합니다

urllib/urllib2에 프록시를 사용하는 것이 더 번거롭습니다. 먼저 ProxyHandler 클래스를 빌드한 다음 이 클래스를 사용하여 여는 오프너 클래스를 빌드해야 합니다. 웹 페이지를 확인한 후 요청에 사용하세요. 오프너를 설치하세요.

프록시 형식은 "http://127.0.0.1:80"입니다. 계정 비밀번호를 원하시면 "http:/"입니다. /user:password@127.0.0.1:80".

proxy="http://127.0.0.1:80"

# 创建一个ProxyHandler对象
proxy_support=urllib.request.ProxyHandler({&#39;http&#39;:proxy})
# 创建一个opener对象
opener = urllib.request.build_opener(proxy_support)
# 给request装载opener
urllib.request.install_opener(opener)
# 打开一个url
r = urllib.request.urlopen(&#39;http://youtube.com&#39;,timeout = 500)

로그인 후 복사

요청 모듈은 프록시를 사용합니다

요청에 프록시를 사용하는 것은 urllib보다 훨씬 간단합니다... 여기서는 단일 프록시를 사용합니다. 예를 들어 세션 클래스를 사용하여 여러 번 구성할 수 있습니다.

프록시를 사용해야 하는 경우 단일 프록시를 구성할 수 있습니다. 모든 요청 방법에 대해 프록시 매개변수를 제공하여 요청할 수 있습니다.

import requests
proxies = {
  "http": "http://127.0.0.1:3128",
  "https": "http://127.0.0.1:2080",
}
r=requests.get("http://youtube.com", proxies=proxies)
print r.text

로그인 후 복사

프록시는 환경 변수 HTTP_PROXY 및 HTTPS_PROXY를 통해 구성됩니다.

export HTTP_PROXY="http://127.0.0.1:3128"
export HTTPS_PROXY="http://127.0.0.1:2080"
python
>>> import requests
>>> r=requests.get("http://youtube.com")
>>> print r.text

로그인 후 복사

프록시가 HTTP 기본 인증을 사용해야 하는 경우 http://user:password@host/를 사용할 수 있습니다. 구문:

proxies = {
    "http": "http://user:pass@127.0.0.1:3128/",
}

로그인 후 복사

Python의 프록시는 사용이 매우 간단합니다. . 가장 중요한 것은 안정적이고 안정적인 네트워크를 갖춘 에이전트를 찾는 것입니다. 궁금한 점이 있으면 메시지를 남겨주세요