首頁 > 後端開發 > php教程 > 為什麼我的 PHP DOMDocument::loadHTML() 無法正確處理 UTF-8?

為什麼我的 PHP DOMDocument::loadHTML() 無法正確處理 UTF-8?

Barbara Streisand
發布: 2024-12-25 12:12:14
原創
888 人瀏覽過

Why is my PHP DOMDocument::loadHTML() not handling UTF-8 correctly?

PHP DOMDocument loadHTML 未正確編碼UTF-8

問題:

問題:

原因:

DOMDocument 預設假設輸入字串採用 ISO-8859-1 編碼。然而,HTML5 中普遍使用 UTF-8。當載入 UTF-8 字串而不指定編碼時,DOMDocument 會誤解它們。

解決方案:

要解決此問題,您需要為輸入指定正確的編碼細繩。您有多種選擇:

  • 前置 XML 編碼聲明:宣告到字串的開頭。
  • 使用元字元集宣告: 新增標記到
  • 使用SmartDOMDocument 函式庫: 此函式庫透過在將字串載入到DOMDocument之前將字串轉換為 HTML 實體來解決此問題。
  • 使用 mb_encode_numericentity() 函數: 函數將 UTF-8 字元轉換為其等效的 HTML 實體,然後可以正確解析哪個 DOMDocument。

範例:

此程式碼示範如何使用mb_encode_numericentity() 函數:

$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に</p>';
$dom = new DOMDocument();
$dom->loadHTML(mb_encode_numericentity($profile, [0x80, 0x10FFFF, 0, ~0], 'UTF-8'));
echo $dom->saveHTML();
登入後複製

透過使用這些技術,您可以確保在PHP 中正確解析並顯示UTF-8 字元DOM文件。

以上是為什麼我的 PHP DOMDocument::loadHTML() 無法正確處理 UTF-8?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板