지역 사회 배우다 도구 라이브러리 여가

한국어

집 > 백엔드 개발 > 파이썬 튜토리얼 > Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

不言

풀어 주다： 2018-09-07 15:38:42

원래의

6738명이 탐색했습니다.

Anaconda 환경에서 Scrapy 크롤러 프레임워크를 만드는 방법은 무엇입니까? 이 글은 Anaconda 환경에서 Scrapy 크롤러 프레임워크 프로젝트를 생성하는 단계를 소개합니다. 읽어볼 가치가 있습니다.

Python 크롤러 튜토리얼-31-스크래피 크롤러 프레임워크 프로젝트 만들기

우선 이 글은 아나콘다 환경이므로 아나콘다가 설치되어 있지 않다면 공식 홈페이지에 가서 먼저 다운로드 받아 설치하시기 바랍니다

Anaconda 다운로드 주소: https://www.anaconda.com/download/

스크래피 크롤러 프레임워크 프로젝트 생성

0. [cmd]

1. 사용하려는 Anaconda 환경을 입력하세요.

여기서 프로젝트가 생성되었습니다.

1의 역할은 [Pycharm]

Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

2의 [설정] 아래 [프로젝트:]에서 찾을 수 있습니다. 예를 들면 다음과 같습니다.

activate learn

3. 원하는 scrapy 프로젝트가 저장될 디렉터리를 입력하세요. [참고]

4. 새 프로젝트: scrapy startproject xxx 프로젝트 이름, 예:

scrapy startproject new_project

5. 스크린샷:

Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

6. 파일 탐색기 디렉터리에서 열면 여러 파일이 생성된 것을 확인할 수 있습니다

Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

7. Pycharm을 사용하여 프로젝트가 있는 디렉터리를 엽니다.

Scrapy 크롤러 프레임워크 프로젝트 개발

0. Pycharm을 사용하여 프로젝트를 엽니다. 스크린샷:
Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

프로젝트 개발의 일반적인 프로세스:

spider/xxspider.py 주소는 다운로드한 데이터를 분해하고 추출하는 역할을 담당합니다

1. 크롤링해야 하는 대상/제품: item.py

2. 스파이더 디렉터리에서 다운로드하여 생성합니다. Python 파일 생성 크롤러:

3 저장 콘텐츠: Pipelines.py

Pipeline.py 파일

스파이더 객체가 닫힐 때 호출됨

스파이더 객체가 열릴 때 호출됨

필요한 매개변수를 초기화하기 위해

스파이더가 추출한 항목이 스파이더와 함께 매개변수로 전달됨

이 메서드를 구현해야 함

항목 개체를 반환해야 하며 버려진 항목은 후속 파이프라인

해당 파이프라인 파일

에 포함되지 않습니다. 크롤러가 데이터를 추출하여 항목에 저장한 후 항목에 저장된 데이터는 추가 처리가 필요합니다.

파이프라인에서는 process_item 함수를 처리해야 합니다.

process_item

_ init _: 생성자

open_spider( spider):

close_spider(spider): 아이더 디렉토리

는 스파이더 폴더 아래의 파일에 해당합니다.

_ init _: 크롤러 이름 초기화, _urls 목록 시작

start_requests: 요청 객체를 생성하여 Scrapy에 전달 다운로드 및 응답 반환

parse: 해당 항목 구문 분석 반환된 응답을 기반으로 항목이 자동으로 파이프라인에 들어갑니다. 필요한 경우 URL을 구문 분석하면 URL이 자동으로 요청 모듈로 전달되고 루프가 계속됩니다.

start_requests: 이 메서드는 한 번만 호출할 수 있습니다. 가능, start_urls 콘텐츠를 읽고 루프 프로세스를 시작합니다.

name: 크롤러 이름 설정

start_urls: 첫 번째 크롤링 배치를 시작할 URL 설정

allow_domains: 스파이더가 크롤링할 수 있는 도메인 이름 목록

start_request(self): 한 번 호출에 의해서만 사용됨

parse: 감지 인코딩

log: 로깅

관련 권장 사항:

Python 크롤러 프레임워크의 스크랩 예제에 대한 자세한 설명

Scrapy 크롤러 소개 튜토리얼 four Spider (크롤러)

Python의 Scrapy 프레임워크 사용 웹 크롤러 작성의 간단한 예

위 내용은 Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

파이썬 크롤러

원천：php.cn

이전 기사：Mac과 함께 제공되는 openssl을 업그레이드하는 방법은 무엇입니까? (프로세스 요약) 다음 기사：Python 크롤러에서 lxml-etree와 xpath의 결합 사용(대소문자 포함)

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

프로그래밍이란 무엇입니까?

2019-04-16 16:04:28
검색 단축키는 ctrl 키 + 어떤 키인가요?

2020-09-15 11:26:00
잘라내기 단축키 Ctrl에 무엇이 추가되나요?

2020-09-10 14:26:14
그 직업은 무엇인가요?

2020-09-08 11:06:15
Ctrl +를 누르면 무엇을 저장하나요?

2020-09-09 09:46:36
ctrl+t 단축키는 무엇인가요?

2020-10-12 14:51:04
PS 눈금자를 사용하는 방법은 무엇입니까?

2020-09-10 14:40:02
프로그래밍을 배우기에 적합한 사람은 누구입니까?

2019-04-24 16:20:55
PS에서 역선택 단축키는 무엇인가요?

2020-10-13 11:40:03
두 인라인 요소 사이에 줄 바꿈을 추가하는 방법

2019-04-15 14:06:21

최신 이슈

"Cookie" 요청 헤더의 쿠키 수가 "set-cookie" 응답 헤더에 설정된 쿠키 수를 초과하는 이유는 무엇입니까? 저는 웹 크롤링의 초보자이므로 http 요청에 대한 이해가 매우 얕습니다. 장바구니에 추가와 같이 웹사이트에 보내는 특정 요청을 검사할 때 개발 도구는 해당 요청...

에서 2024-04-05 14:52:06

0

1

3571

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

Python 실용적인 크롤러 비디오 튜토리얼

121576
Geek Academy Python 비디오 튜토리얼

213638

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿