Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana untuk Menukar Entiti XML/HTML kepada Unicode dalam Python?

Bagaimana untuk Menukar Entiti XML/HTML kepada Unicode dalam Python?

Barbara Streisand
Lepaskan: 2024-11-04 00:06:30
asal
431 orang telah melayarinya

How to Convert XML/HTML Entities to Unicode in Python?

Menukar Entiti XML/HTML kepada Unikod dalam Python

Cabaran:

Dalam mengikis web , entiti HTML biasanya digunakan untuk mewakili aksara bukan ASCII. Python memerlukan utiliti yang boleh menukar rentetan dengan entiti ini kepada jenis Unicode.

Penyelesaian:

HTMLParser perpustakaan standard Python mempunyai fungsi tidak didokumenkan, unescape() , yang boleh memenuhi keperluan ini dengan berkesan.

Pelaksanaan:

Untuk Python 3.4 dan lebih awal:

<code class="python">import HTMLParser

h = HTMLParser.HTMLParser()
result = h.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
Salin selepas log masuk

Untuk Python 3.4 dan lebih baharu:

<code class="python">import html

result = html.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
Salin selepas log masuk

Contoh:

Pertimbangkan entiti HTML ǎ, yang sepadan dengan "ǎ " dengan tanda nada dalam binari. Menggunakan unescape(), anda boleh menukarnya kepada nilai Unicode u'u01ce':

<code class="python">result = h.unescape('&amp;#x01ce;')  # u'\u01ce'</code>
Salin selepas log masuk

Atas ialah kandungan terperinci Bagaimana untuk Menukar Entiti XML/HTML kepada Unicode dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan