강력한 쿼리를위한 고급 XPath 기능-XML/RSS 튜토리얼-php.cn

고급 XPath 기능을 사용하면 XML 또는 HTML 데이터에서 노드 선택의 정확도와 유연성을 크게 향상시킬 수 있습니다. 1. contain (), starting-with () 및 정규화 공간 ()과 같은 문자열 함수는 하위 문자열, 접두사 또는 불필요한 공간을 제거하는 텍스트와 일치하는 데 사용될 수 있습니다. 2. 위치 함수 위치 () 및 last () 지원 첫 번째 또는 엔드 노드 선택과 같은 인덱스 또는 역 순서에서 요소 선택; 3. 부울 함수는 () 및 또는 또는 조건을 결합하여 복잡한 논리 필터링을 실현하는 데 사용될 수 있습니다. 4. 노드 세트 함수 count () 및 String-length ()는 하위 노드 또는 텍스트 길이의 수에 따라 요소를 필터링 할 수 있습니다. 5. 추종자 :: 및 조상과 같은 축 :: 교차 수준의 탐색 및 포지셔닝 형제, 조상 또는 후손 노드를 실현할 수 있습니다. 6. String () 함수를 사용하여 자식 요소가 포함 된 전체 텍스트 내용과 일치하고 정상화 공간 ()을 결합하여 일치하는 견고성을 향상시킵니다. 7. 환경이 지원되면 XPath 2.0은 matches () 및 rows ()와 같은 일반 및 문자열 처리 기능을 제공합니다. 실제 애플리케이션에서는 너무 긴 표현식을 피하고 안정적인 속성을 사용하는 데 우선 순위를 부여하고 코드 처리를 결합하고 브라우저 콘솔 테스트를 사용하여 효율적이고 페이지에 강한 XPATH 쿼리를 구축해야합니다.

강력한 쿼리를위한 고급 XPath 기능

XML 또는 HTML 데이터, 특히 웹 스크래핑, 테스트 자동화 또는 데이터 추출에서 작업 할 때 XPath는 노드 탐색 및 선택을위한 강력한 도구입니다. //div[@class='example'] 와 같은 기본 xpath 표현식은 일반적이지만 고급 XPath 함수를 활용하면 쿼리의 정밀도, 효율성 및 유연성을 극적으로 향상시킬 수 있습니다.

다음은 주요 고급 XPATH 기능의 분석과 효과적으로 사용하는 방법입니다.

1. 문자열 함수 : 텍스트 기반 선택을 개선합니다

XPath에는 부분 또는 변환 된 텍스트 내용을 기반으로 요소를 일치시키는 데 도움이되는 여러 문자열 함수가 포함되어 있습니다.

`contains()`

속성이나 텍스트에 하위 문자가 포함 된 요소를 찾습니다.

 // a [contains (@href, &#39;example.com&#39;)]
// p [contains (text (), &#39;환영&#39;)]

동적 속성 (예 : 순서가 변경된 클래스)에 유용합니다.

`starts-with()` 및 `ends-with()`

접두사 또는 접미사를 기반으로 속성 또는 텍스트를 일치시킵니다.

 // input [starts-with (@id, &#39;user_&#39;)]
// span [end-with (text (), &#39;:&#39;)]

참고 : ends-with() 는 xpath 2.0이므로 모든 도구에서 지원되지는 않습니다 (예 : Selenium은 기본적으로 Xpath 1.0을 사용합니다). XPath 1.0의 경우 substring() 사용하여 시뮬레이션합니다.
 // span [substring (text (), String -length (text ()) -1) = &#39;!!&#39;]

`normalize-space()`

여분의 공백을 제거합니다 (선행, 후행 및 여러 내부 공간).

 // p [정상화 공간 (text ()) = &#39;hello world&#39;]

일관되지 않게 포맷 된 HTML을 다룰 때 필수적입니다.

2. 위치 및 인덱싱 함수

XPath를 사용하면 DOM 또는 결과 세트에서 자신의 위치에 따라 요소를 선택할 수 있습니다.

`position()` 및 `last()`

인덱스 또는 끝에서 노드를 선택하십시오.

 // li [position () = 1] <!-첫 번째 항목->
// li [last ()] <!-마지막 항목->
// li [position ()> 5] <!-5 일 이후의 항목->
// li [position () mod 2 = 0] <!-모든 항목->

`last()` 범위가 있습니다

 // tr [position ()> = last () -5] <!-마지막 6 행->

바닥 글이나 최신 항목이 끝나는 테이블에 편리합니다.

3. 부울 및 비교 함수

XPath는 필터링에 대해 True/False를 반환하는 논리적 작업을 지원합니다.

`not()`

조건을 부정하십시오.

 // 입력 [NOT (@disabled)]
// div [not (contains (@class, &#39;hidden&#39;))]

조건과 함께 `and` `or`

 // 입력 [ @type = &#39;text&#39;및 @required]
// 버튼 [ @class = &#39;btn&#39;또는 @class = &#39;&#39;button &#39;]]

가치 비교

 // 제품 [가격> 100]
// user [age> = 18, age <= 65]

XPath 엔진이 숫자 비교를 지원하는 경우 작동합니다 (XPath 2.0의 일반적).

4. 노드 세트 함수

이들은 노드 수집을 조작하거나 평가하는 데 도움이됩니다.

`count()`

일치하는 자식 노드의 수를 확인하십시오.

 // div [count (p)> 3] <!-3 개 이상의 단락이있는 div->
//form] afort (//input]) = 0] <!-필수 필드가없는 양식->

`string-length()`

텍스트 길이를 기준으로 필터.

 // [String-length (text ())> 20]

5. 축 : 기본 계층을 넘어서 탐색합니다

Xpath 축을 사용하면 비선형 경로 (형제, 조상, 후손 등)를 가로 질러 가질 수 있습니다.

`following-sibling::` , `preceding-sibling::`

현재 노드와 관련하여 형제 자매를 선택하십시오.

 // label [text () = &#39;username&#39;]/follow-sibling :: input
// h3 [text () = &#39;contact&#39;]/follow-sibling :: p [1]

`ancestor::` , `descendant::`

여러 레벨을 올라가거나 아래로 내려갑니다.

 // span [@class = &#39;error&#39;]/ernestor :: form
// div [@id = &#39;content&#39;] // descendant :: a [@href]

`parent::` 및 `child::`

/ 및 // 보다 더 명백합니다.

 // 입력 [@name = &#39;email&#39;]/parent :: div

6. 고급 텍스트 일치

때로는 텍스트가 어린이 요소에 걸쳐 분할됩니다. string() 사용하여 연결된 텍스트를 얻으십시오.

 // div [String () = &#39;총 : $ 50.00&#39;]

string() 노드와 모든 어린이의 전문 내용을 반환합니다.

또는 강력한 일치를 위해 normalize-space() 결합하고 contains() .

 // div [contains (정상화 공간 (), &#39;오류가 발생했습니다&#39;)]

7. XPath 2.0 함수 (지원되는 경우)

일부 도구 (XML 데이터베이스 또는 XSLT 프로세서와 같은)는 XPath 2.0을 지원하며 강력한 기능을 추가합니다.

matches(text(), 'regex') - REGEX 패턴 매칭
replace(text(), 'old', 'new') - 문자열 교체
tokenize() - 분할 문자열
upper-case() , lower-case() -사례 조작

예:

 // [일치 (@href, &#39;^https : //.* \ .pdf $&#39;)]

참고 : 브라우저와 셀레늄은 일반적으로 XPath 1.0 만 지원하므로 모든 환경에서 작동하지 않을 수 있습니다.

실제 사용을위한 프로 팁

초과 복잡성을 피하십시오 : 긴 Xpath 표현식은 약간의 HTML 변경으로 쉽게 깨질 수 있습니다.
안정적인 속성을 선호하십시오 : 가능하면 id , 시맨틱 클래스 또는 데이터 속성을 사용하십시오.
다른 도구와 결합하십시오 . XPath를 사용하여 좁은 결과를 사용한 다음 코드 (예 : Python, JavaScript)를 처리하십시오.
브라우저 콘솔에서 테스트 : DevTools에서 $x("//your/xpath") 사용하여 검증하십시오.

고급 XPath 기능은 구조화 된 데이터를 추출하거나 검증 할 때 과학적 정밀도를 제공합니다. 기본 선택기는 간단한 사례에 대해 작동하지만, contains , position , normalize-space 및 following-sibling 과 같은 축을 포함하는 기능을 마스터 링하거나 ancestor XPath를 강력한 쿼리 언어로 바꿉니다.

신중하게 사용하면 특히 지저분하거나 역동적 인 마크 업을 다룰 때 강력하고 탄력적 인 표현을 쓸 수 있습니다.

위 내용은 강력한 쿼리를위한 고급 XPath 기능의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undress AI Tool

무료로 이미지를 벗다

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

ArtGPT

Stock Market GPT

더 현명한 결정을 위한 AI 기반 투자 연구

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

PHP 튜토리얼

1679

276

NYT 연결 힌트와 답변

332

836

Related knowledge

Maven의 pom.xml 파일 이해 Sep 21, 2025 am 06:00 AM

POM.XML은 Maven 프로젝트의 핵심 구성 파일로 프로젝트의 구성 방법, 종속성 및 포장 및 배포 동작을 정의합니다. 1. 프로젝트 좌표 (GroupId, artifactid, 버전) 프로젝트를 독특하게 식별합니다. 2. 종속성은 프로젝트 종속성을 선언하고 Maven은 자동으로 다운로드합니다. 3. 속성 재사용 가능한 변수를 정의합니다. 4. 컴파일 플러그인 및 소스 코드 디렉토리 구성 구성; 5. ParentPom은 구성 상속을 구현합니다. 6. 종속성 버전의 종속성 관리 통합 관리. Maven은 건축 수명주기의 실행을 위해 POM.XML을 구문 분석하여 프로젝트 안정성을 향상시킬 수 있습니다.

XML 속성 대 요소 : 디자인 선택 Sep 14, 2025 am 01:21 AM

Useattributesformetadatasuchasid, 상태, Orunit, whithedeelementbutarenotcorecontent, ensuringsimplicity 및 compactnesswhendataisatomic.2.useelements foractualDatacontent, 특히 hayRequeRestructure, 반복성, 반복성, 또는 퓨전화

Node.js를 사용하여 간단한 RSS 피드 애그리 게이터 구축 Sep 20, 2025 am 05:47 AM

RSS Aggregator를 구축하려면 Node.js를 사용하여 Axios와 RSS-Parser 패키지를 결합하여 여러 RSS 소스를 잡고 구문 분석해야합니다. 먼저 프로젝트를 초기화하고 종속성을 설치 한 다음 Hackernews, TechCrunch 및 기타 소스가 포함 된 URL 목록을 Aggregator.js에 정의하십시오. Promise.all을 통해 각 소스에서 데이터를 동시에 얻고 처리하고, 제목, 링크, 릴리스 시간 및 소스를 추출한 후, 병합 후 역 순서로 정렬하십시오. 그런 다음 콘솔을 출력하거나 Express에서 서버를 생성하여 결과를 JSON 형식으로 반환 할 수 있습니다. 마지막으로, 빈번한 요청을 피하고 성능을 향상시키기 위해 캐시 메커니즘을 추가하여 효율적이고 확장 가능한 RSS 집계 시스템을 달성 할 수 있습니다.

XSLT 3.0을 사용한 XML 변환 : 새로운 것은 무엇입니까? Sep 19, 2025 am 02:40 AM

XSLT3.0INTROUDSMAJORADVANCEMESS THEMODERNIZEXMLANDJSONPROCESSINGSTROUGHEVENKEYFEATURES : 1.StreamingWithXSL : ModEStreamable = "Yes"EnablesLow-Memory, Forward OnlyProcessingoflargexmlfileslikelogsorfinancialData;

기가 바이트 크기의 XML 파일을 효율적으로 스트리밍하고 구문 분석하는 방법 Sep 18, 2025 am 04:01 AM

GB 레벨 XML 파일을 효율적으로 구문 분석하려면 메모리 오버플로를 피하기 위해 스트리밍 구문 분석을 사용해야합니다. 1. Python 's xml.etree.itreparse 또는 LXML과 같은 스트리밍 파서를 사용하여 이벤트를 처리하고 메모리를 해제하기 위해 Elem.Clear ()를 호출하십시오. 2. 대상 태그 요소 만 처리하고 태그 이름 또는 네임 스페이스를 통해 관련없는 데이터를 필터하고 처리 볼륨을 줄입니다. 3. 디스크 또는 네트워크에서 스트리밍, 요청과 바이트를 결합하거나 LXML 반복 파일 객체를 직접 사용하여 다운로드 및 구문 분석을 지원합니다. 4. 성능을 최적화하고, 상위 노드 참조를 명확하게하고, 처리 된 요소 저장을 피하고, 필요한 필드 만 추출하며, 생성기 또는 비동기 처리와 결합하여 효율성을 향상시킬 수 있습니다. 5. 초대형 파일의 경우 pre-pre-pre-pre-pre-pre-size 파일을 고려할 수 있습니다.

XML 모범 사례 : 깨끗하고 유효한 XML 문서 작성 Sep 15, 2025 am 01:19 AM

xmlisconsided "깨끗한"및 "유효한"은염이 읽을 수 있고, 관리 할 수 있고, Adadherestoxmlstandardsandschemas.1) CleanxMlRequiresProperIndentation 및 MeaningFulelementNamesForReadability.2) ValidXMlMustBewell-FormedAndAntagainSchemaordtd

웹 사이트 데이터를 긁어 내고 RSS 피드를 만드는 방법 Sep 19, 2025 am 02:16 AM

ChecklegalConsiderationsBiewingRobots.txtandtermsofservice, revingerveroverload, andusedatarsponsibly.2.usetoolslikepython 's requests, beautifulsoup, and feedgentofetch, parse, 3.scrapeartticledatabyIdentifyinghtmlelementhiThdevertooms

XML 처리 성능 최적화 Sep 17, 2025 am 02:52 AM

usestaxforlargefilesduetoitslowmoryfootprintandbettercontrol; 2.Processxmlincrementally와 함께 axorstaxtoavoidloadingEntiredocuments;

See all articles