Python에서 웹 페이지에 액세스하고 크롤링하는 데 사용되는 일반적인 명령의 예에 대한 자세한 설명

Y2J
풀어 주다: 2017-04-25 09:22:13
원래의
1918명이 탐색했습니다.

이 글에서는 주로 Python에서 웹 페이지 액세스 및 크롤링에 사용되는 명령에 대한 관련 정보를 소개합니다. 필요한 친구는

Python에서 웹 페이지 액세스 및 크롤링에 사용되는 일반적인 명령

간단한 크롤링 웹페이지:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()
로그인 후 복사

URL을 로컬 파일로 직접 저장:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()
로그인 후 복사

POST 방법:

import urllib.parse 
import urllib.request 
url="http://liuxin-blog.appspot.com/messageboard/add" 
values={"content":"命令行发出网页请求测试"} 
data=urllib.parse.urlencode(values) 

#创建请求对象 
req=urllib.request.Request(url,data) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()
로그인 후 복사

GET 방법:

import urllib.parse 
import urllib.request 
url="http://www.google.cn/webhp" 
values={"rls":"ig"} 
data=urllib.parse.urlencode(values) 
theurl=url+"?"+data 
#创建请求对象 
req=urllib.request.Request(theurl) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()
로그인 후 복사

에는 일반적으로 사용되는 두 가지 방법인 geturl(), info()

geturl( )는 서버 측 URL 리디렉션이 있는지 식별하도록 설정되어 있으며 info()에는 일련의 정보가 포함되어 있습니다.

중국어 문제를 처리하기 위해 encode() 인코딩과 dencode() 디코딩이 사용됩니다.

위 내용은 Python에서 웹 페이지에 액세스하고 크롤링하는 데 사용되는 일반적인 명령의 예에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!