웹 크롤러는 특정 규칙에 따라 World Wide Web 정보를 자동으로 크롤링하는 프로그램 또는 스크립트로, 인터넷 검색 엔진이나 기타 유사한 웹사이트에서 널리 사용되며 액세스할 수 있는 모든 페이지를 자동으로 수집하여 해당 웹사이트의 콘텐츠를 얻을 수 있습니다. . Scrapy는 매우 강력한 크롤러 프레임워크이며 python로 작성되었습니다. Scrapy가 무엇인지 살펴볼까요?
1. 필수 지식
필수 지식은 Linux 시스템 + Python 언어 + Scrapy 프레임워크 + XPath(XML 경로 언어) + 일부 보조 도구(브라우저 개발자) 도구 및 XPath 도우미 플러그인).
저희 크롤러는 Python 언어의 Scrapy 크롤러 프레임워크를 사용하여 개발되었으며 Linux에서 실행되므로 Python 언어 및 Scrapy 프레임워크에 능숙해야 하며 Linux 운영 체제에 대한 기본 지식이 필요합니다.
중국어 텍스트 단락 및 "다음 페이지" 링크 등을 포함하여 대상 HTML 페이지에서 원하는 내용을 추출하려면 XPath를 사용해야 합니다.
브라우저 개발자 도구는 크롤러 작성을 위한 주요 보조 도구입니다. 이 도구를 사용하여 페이지 링크 패턴을 분석하고 HTML 페이지에서 추출하려는 요소를 찾은 다음 크롤러 코드에서 사용할 XPath 표현식을 추출할 수도 있습니다. 페이지 요청 헤더. 크롤링 대상이 동적 웹사이트인 경우 도구는 그 뒤에 있는 JavaScript 요청도 분석할 수 있습니다.
XPath 도우미 플러그인은 크롬용 플러그인으로, 크롬 코어 기반의 브라우저에도 설치할 수 있습니다. XPath 도우미를 사용하여 XPath 식을 디버깅할 수 있습니다.
2. 환경 설정
pip 명령을 사용하여 Scrapy를 설치할 수 있습니다: pip install Scrapy
Scrapy에는 많은 종속성이 있으므로 설치 프로세스 중에 다음과 같은 문제가 발생할 수 있습니다.
ImportError: w3lib라는 모듈이 없습니다. .http
int in in in in libx ml/xmlversion.h: 해당 파일 또는 디렉토리가 없습니다
ImportError: OpenSSL이라는 모듈이 없습니다
해결책: pip install pyOpenSSL
제안:사용 간단한 방법: 아나콘다를 사용하여 설치합니다.
3. Scrapy 프레임워크 1. Scrapy 소개Scrapy는 Python으로 작성된 유명한 크롤러 프레임워크입니다. Scrapy는 웹 스크래핑을 쉽게 수행할 수 있으며, 필요에 따라 쉽게 사용자 정의할 수도 있습니다.
Scrapy의 전체 아키텍처는 대략 다음과 같습니다.
2. Scrapy 구성 요소
Scrapy에는 주로 다음 구성 요소가 포함됩니다.Engine(Scrapy)
처리하는 데 사용됩니다. 전체 시스템의 데이터 흐름, 트랜잭션 트리거(프레임워크 코어) Scheduler(Scheduler)는 엔진의 요청을 수락하고 이를 대기열에 넣은 다음 엔진이 다시 요청할 때 반환하는 데 사용됩니다. URL(웹 페이지의 URL 또는 링크)로 상상할 수 있습니다. 캡처됨) 다음에 크롤링할 URL을 결정하고 중복 URL을 제거하는 우선순위 대기열입니다.
Downloader는 웹 콘텐츠를 다운로드하고 웹 콘텐츠를 스파이더에 반환하는 데 사용됩니다(Scrapy 다운로더는 효율적인 비동기 모델을 기반으로 구축되었습니다).
Crawlers크롤러는 소위 엔터티(항목)라고 불리는 특정 웹 페이지에서 필요한 정보를 추출하는 데 주로 사용됩니다. 사용자는 여기에서 링크를 추출하고 Scrapy가 다음 페이지를 계속 크롤링하도록 할 수도 있습니다.
프로젝트 파이프라인(Pipeline)은 크롤러가 웹페이지에서 추출한 엔터티를 처리하는 역할을 하며, 주요 기능은 엔터티를 유지하고 엔터티의 유효성을 확인하며 불필요한 정보를 제거하는 것입니다. 크롤러가 페이지를 구문 분석하면 프로젝트 파이프라인으로 전송되고 데이터는 여러 특정 시퀀스를 통해 처리됩니다.
Downloader MiddlewaresScrapy 엔진과 다운로더 사이에 위치한 프레임워크는 주로 Scrapy 엔진과 다운로더 간의 요청과 응답을 처리합니다.
Spider MiddlewaresScrapy 엔진과 크롤러 사이의 프레임워크의 주요 임무는 스파이더의 응답 입력과 요청 출력을 처리하는 것입니다.
스케줄러 미드데웨어Scrapy 엔진과 디스패처 사이의 미들웨어로, Scrapy 엔진의 요청과 응답을 디스패처로 보냅니다.
스크래피 작업 프로세스:
1. 엔진은 후속 크롤링을 위해 스케줄러에서 링크(URL)를 가져옵니다.
2 엔진은 URL을 요청(요청)으로 캡슐화하여 다운로더에 전달합니다
3. 다운로더는 리소스를 다운로드하여 응답 패키지(응답)
4로 캡슐화합니다. 크롤러는 응답
5을 구문 분석한 다음 추가 처리를 위해 엔터티 파이프라인에 전달합니다
6. 링크(URL)를 구문 분석한 다음 URL을 스케줄러에 전달하여 크롤링을 기다립니다.
위 내용은 강력한 크롤러 프레임워크인 Scrapy란 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!