GBK および UTF-8 エンコーディングの正しい使用方法の詳細な紹介

黄舟
リリース: 2017-07-26 13:28:09
オリジナル
2534 人が閲覧しました

Web ページエンコーディングは、英語で Web ページエンコーディングと翻訳され、Web ページ内の特定の文字エンコーディング形式を指定するライブラリです。

GBKは、国家規格GB2312をベースにGB2312と互換性を持って拡張された規格です。 GBK のテキスト エンコーディングは 2 バイトで表されます。つまり、中国語と英語の文字は両方とも 2 バイトで表され、中国語の文字を区別するために最上位ビットが 1 に設定されます。 GBK にはすべての中国語の文字が含まれており、UTF8 よりも汎用性が低いですが、GBK よりも大きなデータベースを占有します。

UTF-8: Unicode TransformationFormat-8bit、BOM は許可されますが、通常は BOM は含まれません。これは、国際文字を解決するために使用されるマルチバイト エンコーディングであり、英語の場合は 8 ビット (つまり 1 バイト)、中国語の場合は 24 ビット (3 バイト) を使用します。 UTF-8 には、世界中のすべての国で使用されている文字が含まれており、高い汎用性を持っています。 UTF-8 でエンコードされたテキストは、UTF8 文字セットをサポートするさまざまな国のブラウザで表示できます。 UTF8エンコーディングであれば、外国人の英語版IEでも中国語を表示でき、IEの中国語サポートパッケージをダウンロードする必要がありません。

UTF-8 バージョンは国際互換性が優れていますが、中国語バージョンは GBK/BIG5 バージョンよりも 50% 多くのデータベース ストレージ容量を必要とするため、推奨されず、国際互換性に対する特別な要件を持つユーザーのみが使用できます。簡単に言うと、中国語の文字が多い Web サイトの場合は、データベース スペースを節約するために GBK エンコードを使用するのが適切です。英語が多い Web サイトの場合は、データベース容量を節約するために UTF-8 を使用することが適切です。

GBK、GB2312などをUTF8に変換するにはどうすればよいですか? GBK、GB2312 などを UTF8 に変換するには、Unicode エンコードを使用する必要があります。GBK、GB2312—Unicode—UTF8、UTF8—Unicode—GBK、GB2312。 Windows のメモ帳で [名前を付けて保存] を使用すると、GBK、Unicode、Unicode ビッグ エンディアン、および UTF-8 エンコード方式の間で変換できます。

ブラウザに Web ページのエンコーディングを正しく識別させるにはどうすればよいですか?通常、Web ページには次の文が必要です: 。これは、この Web ページの文字セット エンコーディングが指定されていることを示します。 GB2312です。 (または UTF-8)

ページが時々文字化けして表示されるのはなぜですか?これは、ページ宣言のエンコーディングがファイル自体のエンコーディングと一致していないことが原因である可能性があり、多くの場合、ページが間違ったエンコーディングで開かれて保存されたか、CuteFTP などの一部の FTP ソフトウェアがオンラインでファイルを直接変更するために使用されました。 . エンコードされたソフトウェア エンコード設定が間違っているため、変換エラーが発生します。このとき、Windows のメモ帳を使用して開き、「名前を付けて保存」を使用して対応するエンコードで保存すると問題が解決します。 Windows オペレーティング システムで IE をブラウザとして使用すると、この問題がよく発生します。UTF-8 でエンコードされた Web ページを閲覧すると、Web ページでエンコード形式が宣言されている場合でも、ブラウザはページで使用されているエンコードを自動的に識別できません。 : これにより、中国語 UTF-8 エンコーディングを含む一部のページで空白の出力が生成されます。 Firefox または Sarafi ブラウザを使用している場合、この問題は発生しません。これは、IE が Web ページのエンコードを解析するときに、HTML 内のタグを優先し、次に HTTP ヘッダー内の情報を優先するのに対し、Mozilla シリーズのブラウザーはその逆を行うためです。

UTF-8 は 1 文字を表すのに 3 バイトを使用しますが、通常の GB2312 または BIG5 は 2 バイトを使用するためです。ページが出力されるとき、上記の理由により、ブラウザが http://tbwsy.sinaapp.com/ のコンテンツを解析して出力するときに、奇数の完全なタイトルがある場合、 の前の width 文字は、IE が UTF-8 を 2 バイトとして解析すると、半分の中国語文字が と結合されて表示されます。このときソースファイルを見ると、実際にはページ全体が出力されていることがわかります。ブラウザではコンテンツが表示されません。最も簡単な解決策は、 の前に を置くことです。

以上がGBK および UTF-8 エンコーディングの正しい使用方法の詳細な紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート