Maison > interface Web > tutoriel HTML > le corps du texte

Introduction détaillée à l'utilisation correcte de l'encodage GBK et UTF-8

黄舟
Libérer: 2017-07-26 13:28:09
original
2534 Les gens l'ont consulté

L'encodage de page Web, traduit en anglais par encodage de page Web, est une bibliothèque qui spécifie son format d'encodage de caractères spécifique dans les pages Web.

GBK est une norme basée sur la norme nationale GB2312 et étendue pour être compatible avec GB2312. Le codage de texte de GBK est représenté par des octets doubles, c'est-à-dire que les caractères chinois et anglais sont représentés par des octets doubles. Afin de distinguer les caractères chinois, les bits les plus élevés sont définis sur 1. GBK contient tous les caractères chinois et constitue un codage national. Il est moins polyvalent que UTF8, mais UTF8 occupe une base de données plus grande que GBK.

UTF-8 : Unicode TransformationFormat-8bit, la nomenclature est autorisée, mais la nomenclature n'est généralement pas incluse. Il s'agit d'un codage multi-octets utilisé pour résoudre les caractères internationaux. Il utilise 8 bits (soit un octet) pour l'anglais et 24 bits (trois octets) pour le chinois. UTF-8 contient des caractères nécessaires à tous les pays du monde. Il s'agit d'un codage international doté d'une grande polyvalence. Le texte codé en UTF-8 peut être affiché sur les navigateurs de divers pays prenant en charge le jeu de caractères UTF8. S'il s'agit d'un encodage UTF8, le chinois peut également être affiché sur l'IE anglais des étrangers, et ils n'ont pas besoin de télécharger le package de prise en charge de la langue chinoise d'IE.

Bien que la version UTF-8 ait une bonne compatibilité internationale, le chinois nécessite 50 % d'espace de stockage de base de données en plus que la version GBK/BIG5, elle n'est donc pas recommandée et s'adresse uniquement à ceux qui ont des exigences particulières en matière de compatibilité internationale. Utilisation par l'utilisateur. Pour faire simple : pour les sites Web comportant davantage de caractères chinois, il convient d’utiliser l’encodage GBK pour économiser de l’espace dans la base de données. Pour les sites Web contenant davantage d’anglais, il est approprié d’utiliser UTF-8 pour économiser de l’espace dans la base de données.

Comment convertir GBK, GB2312, etc. en UTF8 ? Le codage Unicode doit être utilisé pour convertir GBK, GB2312, etc. en UTF8 : GBK, GB2312—Unicode—UTF8—Unicode—GBK, GB2312 ; En utilisant « Enregistrer sous » dans le Bloc-notes Windows, vous pouvez effectuer une conversion entre les méthodes d'encodage GBK, Unicode, Unicode big endian et UTF-8.

Comment faire en sorte que le navigateur identifie correctement l'encodage de la page Web ? Généralement, la phrase suivante doit être incluse dans la page Web : , indiquant que le jeu de caractères le codage de cette page Web est GB2312. (ou UTF-8)

La page précise parfois l'encodage Pourquoi la page apparaît-elle parfois tronquée  ? Cela peut être dû au fait que le codage de la déclaration de la page est incompatible avec le codage du fichier lui-même. Le plus souvent, la page est ouverte avec un mauvais codage puis enregistrée, ou un logiciel FTP est utilisé pour modifier directement le fichier en ligne, tel que CuteFTP. Des erreurs de conversion se produisent en raison d'une configuration de codage logicielle incorrecte. À ce stade, utilisez le Bloc-notes Windows pour l'ouvrir et utilisez « Enregistrer sous » pour l'enregistrer sous l'encodage correspondant afin de résoudre le problème.

Lors de l'utilisation d'IE comme navigateur sur un système d'exploitation Windows, ce problème se produit souvent : lors de la navigation sur une page Web encodée en UTF-8, le navigateur ne peut pas identifier automatiquement l'encodage utilisé pour la page, même si la page Web a été Le format d'encodage a été déclaré : , ce qui fait que certaines pages contenant l'encodage UTF-8 chinois produisent des blancs sortir. . Si vous utilisez les navigateurs Firefox ou Sarafi, cela ne posera pas ce problème. En effet, lorsque IE analyse le codage de la page Web, il donne la priorité aux balises HTML, puis aux informations contenues dans l'en-tête HTTP, tandis que la série de navigateurs Mozilla fait le contraire.

Parce que UTF-8 utilise 3 octets pour représenter un caractère, alors que le GB2312 ou BIG5 ordinaire en utilise deux. Lorsque la page est affichée, pour les raisons ci-dessus, lorsque le navigateur analyse et affiche le contenu de http://tbwsy.sinaapp.com/, s'il existe un nombre impair de pages complètes caractères de largeur avant , lorsque IE analyse UTF-8 sur deux octets, un demi-caractère chinois apparaîtra à ce moment-là, le demi-caractère chinois sera combiné avec le mot tronqué, empêchant IE de lire la partie < title>, rendant la page entière vide et la sortant. Si vous regardez le fichier source à ce moment-là, vous constaterez que la page entière a en fait été sortie, mais le fichier est tronqué. le navigateur n'affiche pas le contenu. La solution la plus simple consiste à mettre avant .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal