python - 크롤러를 사용하여 웹 페이지의 이미지를 일괄적으로 크롤링하는 방법은 무엇입니까?

Question

그림과 같이 네트워크를 통해 사진을 보고 로딩한 후 마우스 오른쪽 버튼을 클릭하여 하나씩 저장하는 것이 번거롭습니다. 여기서 사진을 일괄 캡쳐할 수 있는 크롤러를 작성할 수 있는 방법이 있습니까?

仅有的幸福 · Answer

크롤링 방법을 알고 있다면 이 요구 사항은 실제로 몇 단계만 거치면 매우 간단합니다.

홈 페이지 또는 사진이 있는 페이지에서 정규 표현식이나 기타 프레임워크를 통해 사진을 가져옵니다url
requests库或者urllib라이브러리
바이너리 형식으로 로컬 하드 디스크에 쓰기

참조 코드:

으아악

자세한 내용은 공식 문서인 요청 문서를 참조하세요requests

女神的闺蜜爱上我 · Answer

예,
크롤러의 다섯 부분:
스케줄러
URL 중복 제거
다운로더
웹 페이지 구문 분석
데이터 저장
이미지 다운로드 아이디어는 다음과 같습니다.
이미지가 있는 웹 페이지의 콘텐츠를 가져오고 img 태그를 구문 분석합니다. , 이미지 주소를 얻은 다음 편리한 사진 URL을 가져와 각 사진을 다운로드하고, 다운로드한 사진 주소를 Bloom 필터에 저장하여 반복 다운로드를 방지하고, 사진을 다운로드할 때마다 URL을 통해 다운로드되었는지 확인하고, 사진이 다운로드되면 로컬에 다운로드되면 데이터베이스에 이미지 경로를 저장하고 폴더에 이미지 파일을 저장하거나 이미지를 데이터베이스에 직접 저장할 수 있습니다.
python은 request+beautifulsoup4를 사용합니다.
java는 jsoup을 사용합니다

女神的闺蜜爱上我 · Answer

여러 웹사이트 또는 하나의 웹사이트를 매우 깊게 크롤링해야 하는 경우 위의 방법은 직접 재귀 또는 심층 탐색이 될 수 있습니다

.