Encodage Unicode pour les littéraux de chaîne en C 11
L'introduction de nouveaux types de caractères et de littéraux de chaîne en C 11 a étendu les capacités du langage dans gérer les encodages Unicode. Bien qu'il existe désormais quatre types de caractères (char, wchar_t, char16_t, char32_t) et cinq types de chaînes littérales, le comportement et la compatibilité de ces caractères et chaînes avec les mécanismes d'encodage ont des règles spécifiques.
Compatibilité d'encodage
La référence de caractère x peut être utilisée avec tous les types de chaînes, permettant l'inclusion de valeurs de caractères représentées en hexadécimal. Cependant, les références u et U sont limitées aux chaînes avec une sémantique codée en UTF. Les références de caractères sont converties en fonction de l'encodage de la chaîne contenant.
Longueur et encodage de la chaîne
Bien que le nombre d'unités de code Unicode contenues dans une chaîne puisse varier en fonction de Lors du codage, les tableaux représentant les chaînes littérales ont une largeur fixe, chaque élément représentant une seule unité de code. Le nombre d'unités de code utilisées est déterminé par le codage Unicode de la chaîne.
Sémantique de codage UTF
Les littéraux de chaîne u"" sont spécifiquement codés en UTF-16, tandis que les littéraux de chaîne u8"" sont codés en UTF-8. Les encodages UTF-16 utilisent des unités de code char16_t, tandis que les encodages UTF-8 utilisent des séquences d'octets de longueur variable pour représenter les points de code.
Surrogates solitaires
Surrogates solitaires (0xD800- 0xDFFF) ne sont pas autorisés comme points de code dans les séquences u. Les paires de substitution UTF-16 doivent être utilisées pour représenter les caractères Unicode dans cette plage.
Conscience de l'encodage
Les fonctions de manipulation de chaînes standard ne gèrent pas intrinsèquement la sémantique d'encodage Unicode et ne traitent pas l'UTF. -chaînes codées sous la forme d'une séquence d'unités de code individuelles. Cependant, les flux d'entrée et de sortie via les paramètres régionaux permettent de lire et d'écrire des valeurs codées en Unicode avec une contextualisation appropriée.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!