Rumah > pembangunan bahagian belakang > tutorial php > Bagaimana untuk Mengekstrak Teks dengan Cekap daripada Elemen HTML Tertentu Menggunakan DOMDocument dan XPath PHP?

Bagaimana untuk Mengekstrak Teks dengan Cekap daripada Elemen HTML Tertentu Menggunakan DOMDocument dan XPath PHP?

Barbara Streisand
Lepaskan: 2024-11-02 08:48:29
asal
544 orang telah melayarinya

How to Efficiently Extract Text from Specific HTML Elements Using PHP's DOMDocument and XPath?

Menghuraikan HTML dengan HTML DOMDocument PHP

Soalan:

Menggunakan objek DOMDocument, tangkap teks dalam elemen HTML tertentu. Contohnya, mengekstrak "Tangkap teks ini 1" dan "Tangkap teks ini 2" daripada HTML berikut:

<div class="main">
    <div class="text">
    Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
    Capture this text 2
    </div>
</div>
Salin selepas log masuk

Jawapan:

Menggunakan DOMDocument::getElementsByTagName untuk mendapatkan semula semua tag dengan nama tertentu mungkin terbukti tidak cekap untuk tugas ini. Sebaliknya, pertimbangkan untuk menggunakan pertanyaan XPath pada dokumen, memanfaatkan kelas DOMXPath.

Pelaksanaan:

  1. Muat HTML ke dalam DOMDocument Objek:

    <code class="php">$html = <<<HTML
    <div class="main">
     <div class="text">
     Capture this text 1
     </div>
    </div>
    
    <div class="main">
     <div class="text">
     Capture this text 2
     </div>
    </div>
    HTML;
    
    $dom = new DOMDocument();
    $dom->loadHTML($html);</code>
    Salin selepas log masuk
  2. Segera Objek DOMXPath:

    <code class="php">$xpath = new DOMXPath($dom);</code>
    Salin selepas log masuk
  3. Laksanakan XPath Pertanyaan:

    <code class="php">$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');</code>
    Salin selepas log masuk
  4. Dapatkan Nilai Teks:

    <code class="php">foreach ($tags as $tag) {
     var_dump(trim($tag->nodeValue));
    }</code>
    Salin selepas log masuk

Pendekatan ini berkesan mengekstrak " Tangkap teks ini 1" dan "Tangkap teks ini 2" daripada HTML yang disediakan.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks dengan Cekap daripada Elemen HTML Tertentu Menggunakan DOMDocument dan XPath PHP?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan