この記事の内容は、Unicode と UTF-8 の違い (違い) を誰でも理解できるように、Unicode と UTF-8 とは何なのかを紹介することです。困っている友人は参考にしていただければ幸いです。
Unicode とは何ですか?
Unicode は、2 バイトを使用して各文字を表す文字エンコード スキームです。 Unicode では、プラットフォーム、プログラム、言語に関係なく、各文字と記号に対して 0 ~ 65,535 (216 – 1) の範囲の一意の数値が定義されます。
UTF-8 とは何ですか?
UTF-8 は、ワイド文字値をバイト ストリームとして Unicode に変換するための標準メカニズムであり、1 ~ 6 バイトの Unicode 文字でエンコードできます。
Unicode と UTF-8 の違い
Unicode は文字セットであり、UTF-8 はエンコード ルールです。
文字セットは、一意に番号が付けられた文字のリストです (これらの番号は「コード ポイント」と呼ばれることもあります)。簡単に言うと、「キャラクター」にはそれぞれ固有のIDが割り当てられます。たとえば、Unicode 文字セットでは、数字 A は 41 です。
エンコード規則: 「コードビット」をバイト列に変換するための規則です (エンコード/デコードは、暗号化/復号化のプロセスとして理解できます)。数値のリストをバイナリに変換するためのアルゴリズムです。なので、ディスクに保存できます。
たとえば、UTF-8 は次のような数値シーケンスを変換します: 1、2、3、4:
00000001 00000010 00000011 00000100
これでデータは変換されました。バイナリへ ファイルをディスクに保存できるようになりました。
Unicode と UTF-8 の関係図:
##結論:
UTF - 8 はバイナリ データを数値に変換するために使用されるエンコーディングであり、Unicode は数値を文字に変換するために使用される文字セットです。 以上がこの記事の全内容です、皆様の学習のお役に立てれば幸いです。関連するビデオ チュートリアルの詳細については、java チュートリアル をご覧ください。
以上がUnicode と UTF-8 の違いは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。