JSoup 및 JavaScript 생성 콘텐츠
JSoup으로 웹페이지를 구문 분석할 때 JSoup은 HTML 구문 분석기이지 HTML 구문 분석기라는 점을 기억하는 것이 중요합니다. 브라우저 엔진. 이는 JavaScript를 실행하지 않으며 초기 페이지 로드 후 페이지에 동적으로 추가된 모든 콘텐츠가 JSoup에 표시되지 않음을 의미합니다.
예를 들어, 태그를 동적으로 추가하는 페이지를 구문 분석해야 하는 경우 JavaScript를 사용하는 div 요소에서는 JSoup이 해당 콘텐츠를 캡처할 수 없습니다. 요소 자체는 HTML 소스 코드에 존재할 수 있지만 JavaScript에서 추가한 태그는 JSoup에서 사용할 수 없습니다.
JavaScript 생성 콘텐츠 액세스
액세스하려면 JavaScript로 페이지에 추가된 콘텐츠를 보려면 브라우저 환경을 에뮬레이트할 수 있는 도구를 사용해야 합니다. 이를 수행할 수 있는 여러 Java 라이브러리가 있습니다. as:
이것 라이브러리를 사용하면 가상 브라우저 인스턴스를 생성하고 웹 페이지가 실제 브라우저에서 렌더링되는 것처럼 웹 페이지와 상호 작용할 수 있습니다. 이를 통해 JavaScript를 실행하고, 이벤트를 트리거하고, 동적으로 추가된 컨텐츠에 액세스할 수 있습니다.
Selenium을 사용한 예
다음은 Selenium을 사용하여 JavaScript 생성 컨텐츠를 얻는 예입니다. 참조한 페이지에서:
import org.openqa.selenium.By; import org.openqa.selenium.WebDriver; import org.openqa.selenium.WebElement; import org.openqa.selenium.chrome.ChromeDriver; public class SeleniumExample { public static void main(String[] args) { // Set up the WebDriver System.setProperty("webdriver.chrome.driver", "/path/to/chromedriver"); WebDriver driver = new ChromeDriver(); // Load the web page driver.get("http://www.bestreferat.ru/referat-32558.html"); // Wait for the div element to be filled with JavaScript WebElement tagsList = driver.findElement(By.id("tags_list")); WebDriverWait wait = new WebDriverWait(driver, 10); wait.until(ExpectedConditions.visibilityOf(tagsList)); // Get the tags from the div element List<WebElement> tags = tagsList.findElements(By.tagName("a")); // Print the tags for (WebElement tag : tags) { System.out.println(tag.getText()); } // Close the WebDriver driver.close(); } }
이 예에서는 Selenium을 사용하여 웹 페이지를 로드하고 추가할 JavaScript 생성 콘텐츠를 선택한 다음 div 요소에서 태그를 검색합니다.
위 내용은 JSoup을 사용하여 JavaScript로 생성된 콘텐츠에 어떻게 액세스할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!