JSON の奇妙な特殊な Unicode 文字のデコード: 説明
JSON エンコーディングの領域では、「特殊な」Unicode 文字が奇妙にエンコードされているように見えることがあります。 。この記事の目的は、この一般的な問題を明らかにし、根本的な理由を探ることです。
なぜこの現象が発生するのですか?
JSON 標準では、16 進エスケープ シーケンスを含む特殊文字を複数の方法でエンコードできます。 。 json_encode を使用して Unicode 文字をエンコードする場合、多くの場合、これらのエスケープ シーケンスが選択されます。たとえば、漢字「馬」は、エンコードされた JSON では「u99ac」として出力されます。
この動作はエラーではありません。むしろ、ECMAScript 標準で概説されている JSON 構文に従います。 Javascript では、16 進エスケープ シーケンスを使用して文字列リテラルを記述し、UTF-16 サロゲート ペアの文字を含む任意の文字を表すことができます。
Unicode コード ポイントを使用すると、任意の文字を「u...」としてエンコードできます。 」。この表記法はリテラル文字自体と完全に同等であり、どちらも JSON パーサーによって同じエンティティとして解釈されます。
ただし、エンコード時に JSON_UNESCAPED_UNICODE フラグを設定することで、リテラル文字エンコードを優先するように json_encode を構成できます。これにより、結果は人間が読みやすいものになりますが、データの根本的な意味は変わりません。
結論として、json_encode を使用した JSON 内の Unicode 文字の一見「奇妙」なエンコードは、エンコードが間違っているという問題ではありません。これは、JSON 標準に準拠した完全に有効なメソッドです。必要に応じて、JSON_UNESCAPED_UNICODE フラグを使用してリテラル文字エンコーディングを有効にすることができます。
以上がJSON 内の一部の Unicode 文字がエスケープ シーケンスとしてエンコードされるのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。