검색 엔진 크롤러는 페이지를 크롤링할 때 웹페이지가 리디렉션되는 상황에 직면하게 됩니다. 소위 리디렉션(리디렉션)은 다양한 방법을 통해 이루어집니다(이 기사에서 언급한 유형). 3) 다양한 네트워크 요청을 다른 위치(URL)로 리디렉션합니다. 각 웹사이트의 홈페이지는 웹사이트 리소스의 입구입니다. 해당 웹사이트의 홈페이지에서 리디렉션이 발생할 경우 올바르게 처리되지 않으면 전체 웹사이트의 콘텐츠가 누락될 가능성이 높습니다.
1. 서버 측 리디렉션은 일반적으로 크롤러가 스스로 적응할 수 있으며 응답 코드 301(영구 리디렉션), 302(임시 리디렉션)과 같은 특별한 처리가 필요하지 않습니다. )기다리다. 구체적으로 요청으로 얻은 응답 객체의 url과 status_code 두 가지 속성으로 판단할 수 있습니다. status_code가 301, 302 또는 리디렉션을 나타내는 다른 코드인 경우 원래 요청이 리디렉션되었음을 의미합니다. 응답 개체의 url 속성이 요청을 보낼 때 링크와 일치하지 않으면 원래 요청이 리디렉션되었음을 의미합니다. 자동으로 처리되었습니다.
#请求重定向 #方法一 response.setStatus(302); response.setHeader("location", "/day06/index.jsp"); #方法二 response.sendRedirect("/day06/index.jsp");
scrapy shell 리디렉션 페이지 가져오기
scrapy shell -s ROBOTSTXT_OBEY=False --no-redirect " fetch(response.headers['Location'])
2. 메타 새로 고침, 즉 웹 페이지의 태그는 웹 페이지를 리디렉션하는 링크를 선언합니다. 이러한 종류의 리디렉션은 브라우저에 의해 수행되며 이를 처리하려면 코드를 작성해야 합니다. 예를 들어, 아래 HTML 코드의 세 번째 줄에 있는 주석에 특정 리디렉션이 표시되면 브라우저는 자동으로 점프할 수 있지만 크롤러는 점프하기 전에만 페이지를 가져올 수 있고 자동으로 점프할 수는 없습니다.
<html> <head> <meta http-equiv="refresh" content="0.1;url=http://www.redirectedtoxxx.com/"><!--本网页会在0.1秒内refresh为url所指的网页--> </head> </html>
해결 방법은 점프하기 전에 페이지 소스 코드를 가져오고 리디렉션 URL 정보(위 코드의 세 번째 줄의 url 속성 값)를 추출하는 것입니다. 특정 작업:
①xpath('//meta[@http-equiv="refresh" and @content]/@content')를 사용하여 콘텐츠 값 추출
#🎜 🎜 #②정규식을 사용하여 리디렉션된 URL 값을 추출합니다. 3.js 리디렉션, JavaScript 코드를 통한 리디렉션. 예를 들어, 다음 JavaScript 코드<script language=javascript>window.location.href='http://www.redirectedtoxxx.com'</script>
Python Tutorial 열을 방문하여 알아보세요!
위 내용은 Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!