Rumah Java javaTutorial Bagaimanakah Saya Boleh Mengekalkan Pemisah Baris Apabila Menukar HTML kepada Teks Biasa Menggunakan Jsoup?

Bagaimanakah Saya Boleh Mengekalkan Pemisah Baris Apabila Menukar HTML kepada Teks Biasa Menggunakan Jsoup?

Oct 30, 2024 pm 11:24 PM

How Can I Preserve Line Breaks When Converting HTML to Plain Text Using Jsoup?

Memelihara Pemisah Baris Menggunakan Jsoup: Panduan Komprehensif

Apabila menukar HTML kepada teks biasa, mengekalkan pemisah baris adalah penting untuk mengekalkan kebolehbacaan. Jsoup, pustaka penghurai HTML Java yang popular, menyediakan cara yang cekap untuk mengekstrak teks daripada HTML sambil mengekalkan strukturnya.

Dalam panduan ini, kami akan menyelidiki isu khusus untuk mengekalkan pemisah baris apabila menggunakan Jsoup.parse Jsoup (str).teks() kaedah. Kaedah ini mengekstrak kandungan teks daripada HTML, tetapi ia tidak mengekalkan pemisah baris secara asli.

Menggunakan TextNode.getWholeText()

Pada mulanya, soalan meneroka kemungkinan menggunakan kaedah TextNode.getWholeText() Jsoup. Walau bagaimanapun, pendekatan ini terbukti tidak berkesan kerana ia tidak mengendalikan pemisah baris dalam konteks teg HTML.

Penyelesaian Berkesan

Penyelesaian untuk mengekalkan pemisah baris terletak pada pendekatan yang lebih komprehensif yang melibatkan kedua-dua pra dan pasca pemprosesan kandungan HTML sebelum mengekstrak teks.

Coretan kod yang dibentangkan mengambil langkah berikut:

  1. Menghuraikan rentetan HTML menggunakan Jsoup.
  2. Melumpuhkan pencetakan cantik HTML untuk memastikan pemisah baris dikekalkan.
  3. Menambah pemisah baris (n) pada penghujung
    tag dan sebelum

    teg.

  4. Menggantikan jujukan n dengan baris baharu sebenar.
  5. Membersihkan HTML yang diubah suai untuk mengalih keluar sebarang pemformatan atau teg yang tinggal.

Pelaksanaan

<code class="java">public static String br2nl(String html) {
    if(html==null)
        return html;
    Document document = Jsoup.parse(html);
    document.outputSettings(new Document.OutputSettings().prettyPrint(false));//makes html() preserve linebreaks and spacing
    document.select("br").append("\n");
    document.select("p").prepend("\n\n");
    String s = document.html().replaceAll("\\n", "\n");
    return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
}</code>

Keperluan Dipuaskan

Penyelesaian yang disediakan memenuhi keperluan berikut:

  • Memelihara baris baharu (n) sedia ada dalam HTML.
  • Tukar
    dan

    teg ke dalam baris baharu.

  • Mengalih keluar sebarang pemformatan atau teg yang tidak diingini dalam teks yang terhasil.

Dengan melaksanakan penyelesaian ini, anda boleh mengekalkan pemisah baris dengan berkesan apabila menukar HTML kepada teks biasa menggunakan Jsoup, memastikan hasil yang tepat dan boleh dibaca.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengekalkan Pemisah Baris Apabila Menukar HTML kepada Teks Biasa Menggunakan Jsoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Skop pembolehubah PHP dijelaskan
4 minggu yang lalu By 百草
Mengulas kod dalam php
3 minggu yang lalu By 百草
Petua untuk menulis komen php
3 minggu yang lalu By 百草

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial PHP
1509
276
Bagaimanakah hashmap berfungsi secara dalaman di Java? Bagaimanakah hashmap berfungsi secara dalaman di Java? Jul 15, 2025 am 03:10 AM

HashMap melaksanakan penyimpanan pasangan nilai utama melalui jadual hash di Java, dan terasnya terletak di lokasi data yang cepat. 1. Mula -mula gunakan kaedah hashcode () kunci untuk menghasilkan nilai hash dan mengubahnya menjadi indeks array melalui operasi bit; 2 Objek yang berbeza boleh menghasilkan nilai hash yang sama, mengakibatkan konflik. Pada masa ini, nod dipasang dalam bentuk senarai yang dipautkan. Selepas JDK8, senarai yang dipautkan terlalu panjang (panjang lalai 8) dan ia akan ditukar kepada pokok merah dan hitam untuk meningkatkan kecekapan; 3. Apabila menggunakan kelas tersuai sebagai kunci, sama () dan kaedah hashcode () mesti ditulis semula; 4. HashMap secara dinamik mengembangkan kapasiti. Apabila bilangan elemen melebihi kapasiti dan multiplies oleh faktor beban (lalai 0.75), mengembangkan dan mengembalikan; 5. hashmap tidak selamat benang, dan concu harus digunakan dalam multithreaded

Penanda aras prestasi benang maya java Penanda aras prestasi benang maya java Jul 21, 2025 am 03:17 AM

Benang maya mempunyai kelebihan prestasi yang signifikan dalam senario yang sangat konkurensi dan intensif, tetapi perhatian harus dibayar kepada kaedah ujian dan senario yang berkenaan. 1. Ujian yang betul harus mensimulasikan perniagaan sebenar, terutamanya senario menyekat IO, dan menggunakan alat seperti JMH atau Gatling untuk membandingkan benang platform; 2. Jurang throughput adalah jelas, dan boleh beberapa kali hingga sepuluh kali lebih tinggi daripada 100,000 permintaan serentak, kerana ia lebih ringan dan cekap dalam penjadualan; 3. Semasa ujian, adalah perlu untuk mengelakkan membabi buta mengejar nombor konvensional yang tinggi, menyesuaikan diri dengan model IO yang tidak menyekat, dan memberi perhatian kepada petunjuk pemantauan seperti latensi dan GC; 4.

cara menetapkan pembolehubah persekitaran java_home di tingkap cara menetapkan pembolehubah persekitaran java_home di tingkap Jul 18, 2025 am 04:05 AM

Tosetjava_homeonwindows, firstlocatethejdkinstallationpath (mis., C: \ Programfiles \ java \ jdk-17), thencreateasystemenvironmentvaria blenamedjava_homewiththatpath.next, updateThePathvariableByadding%java \ _home%\ bin, andverifythesetupingjava-versionandjavac-v

Bagaimana menangani transaksi di Java dengan JDBC? Bagaimana menangani transaksi di Java dengan JDBC? Aug 02, 2025 pm 12:29 PM

Untuk mengendalikan transaksi JDBC dengan betul, anda mesti terlebih dahulu mematikan mod komit automatik, kemudian melakukan pelbagai operasi, dan akhirnya melakukan atau mengembalikan semula hasilnya; 1. Panggil Conn.SetAutOcommit (palsu) untuk memulakan transaksi; 2. Melaksanakan pelbagai operasi SQL, seperti memasukkan dan mengemaskini; 3. Panggil Conn.Commit () jika semua operasi berjaya, dan hubungi conn.rollback () jika pengecualian berlaku untuk memastikan konsistensi data; Pada masa yang sama, cuba-dengan-sumber harus digunakan untuk menguruskan sumber, mengendalikan pengecualian dengan betul dan menutup sambungan untuk mengelakkan kebocoran sambungan; Di samping itu, adalah disyorkan untuk menggunakan kolam sambungan dan menetapkan mata simpan untuk mencapai rollback separa, dan menyimpan urus niaga sesingkat mungkin untuk meningkatkan prestasi.

Java Microservices Perkhidmatan Mesh Integrasi Java Microservices Perkhidmatan Mesh Integrasi Jul 21, 2025 am 03:16 AM

ServiceMesh adalah pilihan yang tidak dapat dielakkan untuk evolusi seni bina microservice Java, dan terasnya terletak pada decoupling logik rangkaian dan kod perniagaan. 1. ServiceMesh mengendalikan pengimbangan beban, fius, pemantauan dan fungsi lain melalui agen sidecar untuk memberi tumpuan kepada perniagaan; 2. INTOR ISTIO sesuai untuk projek sederhana dan besar, dan Linkerd lebih ringan dan sesuai untuk ujian berskala kecil; 3. Java microservices harus menutup, reben dan komponen lain dan menyerahkannya kepada Istiod untuk penemuan dan komunikasi; 4. Memastikan suntikan automatik sidecar semasa penempatan, perhatikan konfigurasi peraturan lalu lintas, keserasian protokol, dan pembinaan sistem penjejakan log, dan mengamalkan penghijrahan tambahan dan perancangan pemantauan pra-kawalan.

Melaksanakan senarai yang dipautkan di Java Melaksanakan senarai yang dipautkan di Java Jul 20, 2025 am 03:31 AM

Kunci untuk melaksanakan senarai yang dipautkan adalah untuk menentukan kelas nod dan melaksanakan operasi asas. ①First Buat kelas nod, termasuk data dan rujukan kepada nod seterusnya; ② Kemudian buat kelas LinkedList, melaksanakan fungsi penyisipan, penghapusan dan percetakan; Kaedah tambahan digunakan untuk menambah nod pada ekor; ④ Kaedah PrintList digunakan untuk mengeluarkan kandungan senarai yang dipautkan; ⑤ Kaedah DeletewithValue digunakan untuk memadam nod dengan nilai tertentu dan mengendalikan situasi yang berbeza dari nod kepala dan nod perantaraan.

Bagaimana cara memformat tarikh di Java dengan SimpledateFormat? Bagaimana cara memformat tarikh di Java dengan SimpledateFormat? Jul 15, 2025 am 03:12 AM

Buat dan gunakan SimpledateFormat memerlukan lulus dalam rentetan format, seperti berita yang tidak terkumpul ("Yyyy-mm-ddhh: mm: ss"); 2. Perhatikan kepekaan kes dan elakkan penyalahgunaan format satu huruf bercampur dan Yyyy dan DD; 3. SimpleDateFormat bukanlah benang-selamat. Dalam persekitaran pelbagai thread, anda harus membuat contoh baru atau menggunakan threadlocal setiap kali; 4. Apabila menghuraikan rentetan menggunakan kaedah parse, anda perlu menangkap parseexception, dan perhatikan bahawa hasilnya tidak mengandungi maklumat zon waktu; 5. Adalah disyorkan untuk menggunakan DateTimeFormatter dan Lo

Keselamatan Java untuk Suntikan Template-Side Server Keselamatan Java untuk Suntikan Template-Side Server Jul 16, 2025 am 01:15 AM

Mencegah Suntikan Template-Side Server (SSTI) memerlukan empat aspek: 1. Gunakan konfigurasi keselamatan, seperti melumpuhkan panggilan kaedah dan menyekat beban kelas; 2. Elakkan input pengguna sebagai kandungan templat, hanya penggantian berubah -ubah dan mengesahkan input ketat; 3. Mengamalkan persekitaran kotak pasir, seperti kerikil, kumis atau konteks rendering mengasingkan; 4. Secara kerap mengemas kini versi bergantung dan semak logik kod untuk memastikan bahawa enjin templat dikonfigurasi dengan munasabah dan menghalang sistem daripada diserang disebabkan oleh templat yang dikawal oleh pengguna.

See all articles