웹 기술이 계속 발전함에 따라 웹 페이지의 콘텐츠는 점점 더 복잡해지고 있습니다. 크롤러, 데이터 마이닝 등과 같은 추가 처리 및 분석을 위해 HTML 페이지에서 정보를 추출해야 하는 경우가 많습니다. 이 기사에서는 PHP와 XPath를 사용하여 HTML 콘텐츠를 구문 분석하고 필요한 정보를 빠르고 쉽게 얻는 방법을 소개합니다.
PHP Simple HTML DOM Parser는 HTML 페이지를 DOM 트리 구조로 구문 분석한 다음 jQuery와 유사한 선택기 구문을 사용하여 DOM 요소를 찾고 조작할 수 있는 오픈 소스 PHP 클래스 라이브러리입니다. 라이브러리는 내장 선택기 메소드뿐만 아니라 노드를 찾기 위한 find() 및 xpath() 메소드를 제공합니다. 후자의 경우 DOM 확장을 설치하고 활성화해야 합니다.
다음은 제목과 링크를 찾기 위해 PHP Simple HTML DOM Parser를 사용하는 예입니다:
<?php require_once('simple_html_dom.php'); $html = file_get_html('http://example.com/'); // 查找所有的标题和链接 foreach ($html->find('h2') as $header) { echo $header->plaintext . '<br>'; echo $header->next_sibling()->href . '<br>'; } ?>
PHP Simple HTML DOM Parser 외에도 PHP는 내장된 DOMDocument 및 DOMXPath 클래스 라이브러리도 제공합니다. , HTML 페이지를 구문 분석하고 검색할 수 있습니다. DOMDocument는 XML 또는 HTML 문서를 DOM 트리 구조로 구문 분석할 수 있는 SimpleXML과 유사한 클래스이며, DOMXPath는 XPath를 사용하여 노드를 찾고 선택하는 xpath() 메서드를 제공합니다.
다음은 DOMDocument 및 DOMXPath를 사용하여 제목과 링크를 찾는 예입니다.
<?php $html = file_get_contents('http://example.com/'); // 创建 DOMDocument 对象并加载 HTML $dom = new DOMDocument(); @$dom->loadHTML($html); // 创建 DOMXPath 对象并使用 xpath 查找节点 $xpath = new DOMXPath($dom); foreach ($xpath->query('//h2') as $node) { // 查找标题 echo $node->nodeValue . '<br>'; // 查找链接 $link = $xpath->query('./following-sibling::a', $node); if ($link->length > 0) { echo $link->item(0)->getAttribute('href') . '<br>'; } } ?>
위 예에서는 query() 메서드를 사용하여 모든 h2 제목 노드를 찾고 XPath 표현식을 사용하여 텍스트 콘텐츠와 href를 가져옵니다. 뒤에 있는 첫 번째 노드의 속성 값입니다. 참고: DOMXPath의 표현식은 W3C XPath 사양을 따라야 합니다.
이 글에서는 PHP와 XPath를 사용하여 HTML 페이지 콘텐츠를 구문 분석하는 방법을 소개합니다. PHP Simple HTML DOM Parser는 jQuery와 유사한 선택기 구문을 쉽게 사용하여 DOM 요소를 찾고 조작할 수 있지만 큰 HTML 페이지에서는 성능이 상대적으로 낮습니다. DOMDocument 및 DOMXPath는 보다 유연하고 효율적인 구문 분석 및 검색 방법을 제공하지만 특정 학습 비용이 필요합니다. 실제 요구와 특정 상황에 따라 적절한 구문 분석 방법을 선택하는 것이 중요합니다.
위 내용은 PHP와 XPath를 사용하여 HTML 콘텐츠를 구문 분석하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!