Python은 JD 제품 카테고리 및 링크를 크롤링합니다.-파이썬 튜토리얼-php.cn

Python은 JD 제품 카테고리 및 링크를 크롤링합니다.

高洛峰

풀어 주다： 2017-02-25 10:05:15

원래의

1957명이 탐색했습니다.

서문

이 기사의 주요 지식 포인트는 Python의 BeautifulSoup을 사용하여 다층 순회를 수행한다는 것입니다.

Python은 JD 제품 카테고리 및 링크를 크롤링합니다.

사진과 같습니다. 내부에 숨겨진 것을 크롤링하는 것이 아닌 간단한 해킹입니다.

예제 코드

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get(&#39;http://www.jd.com/&#39;,headers = headers).text,&#39;html.parser&#39;)
  for i in renspned.find("p", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),&#39;:&#39;,i.get(&#39;href&#39;))
get_url()

로그인 후 복사

이 코드를 실행하여 목적을 달성하세요.

Python은 JD 제품 카테고리 및 링크를 크롤링합니다.

이 코드를 해석해 보겠습니다.

먼저 JD.com 홈페이지에 접속해야 합니다.

그런 다음 BeautifulSoup을 사용하여 방문한 홈페이지를 구문 분석합니다.

이때 필요한 것을 얻으려면 요소를 찾아야 합니다.

브라우저에서 F12하면 아래 그림과 같은 내용을 볼 수 있습니다.

Python은 JD 제품 카테고리 및 링크를 크롤링합니다.

이 문장 코드를 살펴보겠습니다.

for i in renspned.find("p", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

로그인 후 복사

이 코드 줄은 먼저 find 메서드를 사용하여 "class=“dd-inner"의 p를 찾은 다음 다음을 사용합니다. find_all이 태그 아래의 모든 태그

마지막으로 모든 제품 카테고리와 해당 링크를 인쇄하고 싶어서 마침내 i.get_text() 및 i.get('href') 메소드를 사용하여 제품 카테고리를 얻었습니다. 및 해당 링크. 여기에서는

방법을 사용하여 다중 계층 순회를 수행할 수 있음을 알려드립니다. 위 내용은 Python을 사용하여 JD.com의 제품 카테고리와 링크를 크롤링한 경험 중 일부입니다. Python을 배우는 모든 사람에게 유용할 수 있습니다.

Python 크롤링 JD.com의 제품 카테고리와 링크에 대한 더 많은 기사를 보려면 PHP 중국어 웹사이트를 팔로우하세요!