프록시 유형(프록시): 투명 프록시, 익명 프록시, 혼동 프록시 및 고익명성 프록시. 프록시를 사용하는 python 크롤러에 대한 지식과 프록시 풀 클래스는 누구에게나 편리합니다. 작업의 다양한 측면을 처리합니다.
urllib/urllib2에 프록시를 사용하는 것이 더 번거롭습니다. 먼저 ProxyHandler 클래스를 빌드한 다음 이 클래스를 사용하여 여는 오프너 클래스를 빌드해야 합니다. 웹 페이지를 확인한 후 요청에 사용하세요. 오프너를 설치하세요.
프록시 형식은 "http://127.0.0.1:80"입니다. 계정 비밀번호를 원하시면 "http:/"입니다. /user:password@127.0.0.1:80".
proxy="http://127.0.0.1:80" # 创建一个ProxyHandler对象 proxy_support=urllib.request.ProxyHandler({'http':proxy}) # 创建一个opener对象 opener = urllib.request.build_opener(proxy_support) # 给request装载opener urllib.request.install_opener(opener) # 打开一个url r = urllib.request.urlopen('http://youtube.com',timeout = 500)
요청에 프록시를 사용하는 것은 urllib보다 훨씬 간단합니다... 여기서는 단일 프록시를 사용합니다. 예를 들어 여러 번 사용되는 경우 세션 유형의 구성을 사용할 수 있습니다.
프록시를 사용해야 하는 경우 프록시를 제공하여 단일 요청을 구성할 수 있습니다. 매개변수를 요청 방법에 추가:
import requests proxies = { "http": "http://127.0.0.1:3128", "https": "http://127.0.0.1:2080", } r=requests.get("http://youtube.com", proxies=proxies) print r.text
환경 변수 HTTP_PROXY 및 HTTPS_PROXY를 통해 프록시를 구성할 수도 있습니다.
export HTTP_PROXY="http://127.0.0.1:3128" export HTTPS_PROXY="http://127.0.0.1:2080" python >>> import requests >>> r=requests.get("http://youtube.com") >>> print r.text
프록시가 HTTP 기본 인증을 사용해야 하는 경우 http://user:password@host/를 사용할 수 있습니다. 구문:
proxies = { "http": "http://user:pass@127.0.0.1:3128/", }
Python의 프록시는 사용이 매우 간단합니다. 안정적이고 안정적인 네트워크를 갖춘 에이전트를 찾는 것입니다. 궁금한 점이 있으면 메시지를 남겨주세요
위 내용은 Python 크롤러가 프록시를 사용하여 웹 페이지를 크롤링하는 방법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!