Python에서 JavaScript로 생성된 동적 콘텐츠 스크랩
웹 스크래핑은 종종 JavaScript로 구동되는 동적 콘텐츠가 있는 페이지를 발견합니다. 이러한 페이지를 효과적으로 스크랩하려면 JavaScript 코드를 실행하는 것이 필수적입니다.
PhantomJS와 함께 Selenium 사용
Selenium은 웹 브라우저 자동화에 널리 사용되는 Python 라이브러리입니다. 헤드리스 브라우저인 PhantomJS와 함께 사용하여 웹 페이지를 렌더링하고 JavaScript를 실행할 수 있습니다.
from selenium import webdriver driver = webdriver.PhantomJS() driver.get(my_url) p_element = driver.find_element_by_id(id_='intro-text') print(p_element.text)
dryscrape 사용
Dryscrape는 JavaScript 기반 웹사이트를 스크랩하기 위해 특별히 설계된 또 다른 Python 라이브러리입니다.
import dryscrape from bs4 import BeautifulSoup session = dryscrape.Session() session.visit(my_url) response = session.body() soup = BeautifulSoup(response) soup.find(id="intro-text")
위 내용은 Python에서 동적 JavaScript 콘텐츠를 어떻게 긁을 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!