Python で JavaScript によって生成された動的コンテンツをスクレイピング
Web スクレイピングでは、JavaScript を利用した動的コンテンツを含むページが頻繁に発生します。このようなページを効果的にスクレイピングするには、JavaScript コードの実行が不可欠です。
PhantomJS での Selenium の使用
Selenium は、Web ブラウザーを自動化するための人気のある Python ライブラリです。ヘッドレス ブラウザである PhantomJS とともに使用して、Web ページをレンダリングし、JavaScript を実行できます。
from selenium import webdriver driver = webdriver.PhantomJS() driver.get(my_url) p_element = driver.find_element_by_id(id_='intro-text') print(p_element.text)
dryscrape の使用
Dryscrape は、JavaScript 駆動の Web サイトをスクレイピングするために特別に設計されたもう 1 つの Python ライブラリです。
import dryscrape from bs4 import BeautifulSoup session = dryscrape.Session() session.visit(my_url) response = session.body() soup = BeautifulSoup(response) soup.find(id="intro-text")
以上がPython で動的 JavaScript コンテンツをスクレイピングするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。