为什么我的 PHP DOMDocument loadHTML 函数无法正确处理 UTF-8 编码？-php教程-PHP中文网

为什么我的 PHP DOMDocument loadHTML 函数无法正确处理 UTF-8 编码？

Patricia Arquette

发布： 2024-12-11 19:59:15

原创

971 人浏览过

Why is my PHP DOMDocument loadHTML function not handling UTF-8 encoding correctly?

PHP DOMDocument loadHTML 未正确编码 UTF-8

问题

您正在使用 DOMDocument 解析 HTML，但编码似乎丢失当您加载 HTML 时。 HTML 中的日文字符被替换为乱码，而直接通过 echo 输出 HTML 字符串时却能正确显示。

原因

DOMDocument 假定输入字符串为 ISO-8859-1默认情况下（HTTP/1.1 默认字符集）。在解析 UTF-8 字符串时，这种不正确的假设会导致误解，从而导致出现乱码。

解决方案

为了确保 DOMDocument 使用正确的编码加载 HTML 字符串，您有以下几种选择：

前置 XML 编码声明或元字符集声明： 在加载 HTML 字符串之前，添加或。这会强制将字符串视为 UTF-8。
使用 SmartDOMDocument： 此外部库提供了一个 loadHTMLCharset 函数，可以自动检测和处理正确的编码。
将字符串转换为 HTML 实体： PHP 的 mb_convert_encoding 函数可以将 HTML 字符串转换为使用 UTF-8 编码的 HTML 实体。将此转换后的字符串加载到 DOMDocument 中。
使用 mb_encode_numericentity：此函数使用数字实体对高 ASCII 字节进行编码，确保即使在 ISO-8859-1 限制下也可以正确解析字符串（ PHP 8.2

示例

这是一个使用元字符集声明的示例：

$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p>';
$dom = new DOMDocument();

// Add meta charset declaration
$contentType = '<meta http-equiv="Content-Type" content="text/html; charset=utf-8">';
$dom->loadHTML($contentType . $profile);

echo $dom->saveHTML();

登录后复制

这将使用正确的 UTF-8 编码加载 HTML 字符串，保留原有的日语字符。

以上是为什么我的 PHP DOMDocument loadHTML 函数无法正确处理 UTF-8 编码？的详细内容。更多信息请关注PHP中文网其他相关文章！