java - UTF-16编码问题

Question

{代码...} Unicde编码中不明白的，像UTF-8/UTF-32中str4编码后字节数都是str1+str2+str3，但UTF-16则不然，UTF-16到底是如何编码的呢？求赐教。

黄舟 · Answer

UTF-16 は、最小 2 バイトの可変長エンコード形式です。 2バイトなのでビッグエンディアンとスモールエンディアンが関係します。上記の例では、エンディアンが指定されていないため、2 バイトの BOM が追加されます。元の文字 (ASCII) エンコードの 2 バイトを加えたので、4 バイトになります。 utf-16-le または utf-16-be を使用する場合は 2 バイトになります。特定の Java 表現については自分で確認してください。

怪我咯 · Answer

UTF-16 デコード後

リーリー

の先頭に feff が付いていますが、これは文字列がビッグエンディアンであることを示すために使用されます (上位バイトが先頭にあります)。このマークが付いているのは、ビッグエンディアンには 2 種類があるためです。システム上、0x01 0x02 はビッグエンディアンでは 0x0102 として読み取られ、リトルエンディアンでは 0x0201 として読み取られ、異なるため必要となります。 feffでマークされます。

php 8、私も来ます

ウェブサイトのレイアウトを 30 分で学ぶ

ビデオチュートリアルに精通したOracleの入門

あなたの最初のUNI-APPコード

ゼロからアプリの起動までフラッター

兄弟連新版Linuxビデオチュートリアル

AXURE 9 ビデオチュートリアル (プロダクトマネージャーのインタラクティブな製品設計 UI に適しています)

基礎能力ゼロ PS ビデオチュートリアル

16日間のUIビデオチュートリアル

PS テクニックとスライステクニックのビデオチュートリアル

アリクラウド環境構築およびプロジェクトオンラインビデオチュートリアル

コンピュータネットワークの概要 - プログラマが身につけるべき基礎知識

プログラマーのための基本チュートリアル - HTTP プロトコルの説明

Websocket ビデオチュートリアル