XPath를 사용하여 CSS 클래스별로 요소 찾기
웹 스크래핑에서는 CSS 클래스를 기반으로 HTML 요소를 찾아야 하는 경우가 많습니다. XML 및 HTML 문서를 탐색하기 위한 강력한 도구인 XPath는 이를 달성하는 방법을 제공합니다.
"Test"라는 클래스가 있는 div 요소가 있는 HTML 페이지를 생각해 보세요. 다음 XPath 쿼리를 사용하여 이 요소를 찾을 수 있습니다.
//*[contains(@class, 'Test')]
이 쿼리는 문서 트리의 위치에 관계없이 "Test" 클래스를 포함하는 모든 요소를 선택합니다.
성능을 최적화하려면 검색 범위를 div와 같은 특정 요소 유형으로 좁힐 수 있습니다. 예를 들어 다음 쿼리는 "Test" 클래스를 포함하는 div로 검색을 제한합니다.
//div[contains(@class, 'Test')]
그러나 "Testvalue" 또는 "newTest"와 같은 클래스가 있는 요소가 있는 경우 위 쿼리는 일치합니다. 그들도 마찬가지다. 보다 정확한 일치를 보장하려면 @Tomalak에서 제안한 대로 "Test" 클래스 앞뒤에 공백이 포함된 연결된 문자열을 사용할 수 있습니다.
//div[contains(concat(' ', @class, ' '), ' Test ')]
이 쿼리는 단어가 있는 div와만 일치합니다. 별도의 클래스 값으로 "테스트"합니다.
공백 문제를 제거하려면 다음에서 제안한 대로 정규화 공간 기능을 사용하여 공백을 정규화할 수도 있습니다. @Terry:
//div[contains(concat(' ', normalize-space(@class), ' '), ' Test ')]
마지막으로 문서의 모든 요소를 검색하려는 경우가 아니면 이러한 쿼리의 별표(*)를 일치시키려는 실제 요소 이름으로 바꾸는 것이 중요합니다. 이렇게 하면 쿼리의 효율성이 향상됩니다.
위 내용은 XPath를 사용하여 CSS 클래스별로 HTML 요소를 효율적으로 찾으려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!