> 백엔드 개발 > 파이썬 튜토리얼 > Python은 JD 제품 카테고리 및 링크를 크롤링합니다.

Python은 JD 제품 카테고리 및 링크를 크롤링합니다.

高洛峰
풀어 주다: 2017-02-25 10:05:15
원래의
1957명이 탐색했습니다.

서문

이 기사의 주요 지식 포인트는 Python의 BeautifulSoup을 사용하여 다층 순회를 수행한다는 것입니다.

Python은 JD 제품 카테고리 및 링크를 크롤링합니다.

사진과 같습니다. 내부에 숨겨진 것을 크롤링하는 것이 아닌 간단한 해킹입니다.

예제 코드

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
  for i in renspned.find("p", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),':',i.get('href'))
get_url()
로그인 후 복사

이 코드를 실행하여 목적을 달성하세요.

Python은 JD 제품 카테고리 및 링크를 크롤링합니다.

이 코드를 해석해 보겠습니다.

먼저 JD.com 홈페이지에 접속해야 합니다.

그런 다음 BeautifulSoup을 사용하여 방문한 홈페이지를 구문 분석합니다.

이때 필요한 것을 얻으려면 요소를 찾아야 합니다.

브라우저에서 F12하면 아래 그림과 같은 내용을 볼 수 있습니다.

Python은 JD 제품 카테고리 및 링크를 크롤링합니다.

이 문장 코드를 살펴보겠습니다.

for i in renspned.find("p", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})
로그인 후 복사

이 코드 줄은 먼저 find 메서드를 사용하여 "class=“dd-inner"의 p를 찾은 다음 다음을 사용합니다. find_all이 태그 아래의 모든 태그

마지막으로 모든 제품 카테고리와 해당 링크를 인쇄하고 싶어서 마침내 i.get_text()i.get('href') 메소드를 사용하여 제품 카테고리를 얻었습니다. 및 해당 링크. 여기에서는

방법을 사용하여 다중 계층 순회를 수행할 수 있음을 알려드립니다. 위 내용은 Python을 사용하여 JD.com의 제품 카테고리와 링크를 크롤링한 경험 중 일부입니다. Python을 배우는 모든 사람에게 유용할 수 있습니다.

Python 크롤링 JD.com의 제품 카테고리와 링크에 대한 더 많은 기사를 보려면 PHP 중국어 웹사이트를 팔로우하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿