Heim > Datenbank > MySQL-Tutorial > Umfassendes Verständnis des Unterschieds zwischen utf8 und utf8mb4 in mysql_MySQL

Umfassendes Verständnis des Unterschieds zwischen utf8 und utf8mb4 in mysql_MySQL

WBOY
Freigeben: 2016-09-09 08:13:41
Original
1054 Leute haben es durchsucht

1. Einleitung

MySQL hat nach 5.5.3 die utf8mb4-Kodierung hinzugefügt, was bedeutet, dass die meisten Bytes 4 sind und speziell für die Kompatibilität mit Vier-Byte-Unicode entwickelt wurden. Glücklicherweise ist utf8mb4 eine Obermenge von utf8, sodass außer der Änderung der Kodierung in utf8mb4 keine weitere Konvertierung erforderlich ist. Um Platz zu sparen, reicht es natürlich normalerweise aus, utf8 zu verwenden.

2. Inhaltsbeschreibung

Da utf8, wie oben erwähnt, die meisten chinesischen Zeichen speichern kann, stellt sich heraus, dass die maximale Zeichenlänge der von MySQL unterstützten utf8-Kodierung 3 Byte beträgt. Es ist ein Einfügefehler aufgetreten. Das maximale Unicode-Zeichen, das von Drei-Byte-UTF-8 codiert werden kann, ist 0xffff, das Basic Multilingual Plane (BMP) in Unicode. Mit anderen Worten: Alle Unicode-Zeichen, die sich nicht in der grundlegenden Multitextebene befinden, können nicht mit dem utf8-Zeichensatz von MySQL gespeichert werden. Einschließlich Emoji-Ausdrücken (Emoji ist eine spezielle Unicode-Kodierung, die auf iOS- und Android-Telefonen üblich ist), vielen ungewöhnlichen chinesischen Zeichen sowie allen neuen Unicode-Zeichen usw.

3. Wurzel des Problems

Das ursprüngliche UTF-8-Format verwendet ein bis sechs Bytes und kann bis zu 31 Zeichen kodieren. Die neueste UTF-8-Spezifikation verwendet nur ein bis vier Bytes und kann bis zu 21 Bit kodieren, was gerade ausreicht, um alle 17 Unicode-Ebenen darzustellen.

utf8 ist ein Zeichensatz in MySQL, der nur UTF-8-Zeichen mit bis zu drei Bytes unterstützt, was die grundlegende Multitextebene in Unicode darstellt.

Warum unterstützt utf8 in MySQL nur UTF-8-Zeichen mit einer maximalen Länge von drei Bytes? Ich habe darüber nachgedacht, vielleicht weil Unicode zu Beginn der Entwicklung von MySQL keine Hilfsebene hatte. Damals träumte das Unicode-Komitee noch davon, dass „65535 Zeichen für die ganze Welt reichen“. Die Zeichenfolgenlänge in MySQL wird als Anzahl der Zeichen und nicht als Bytes berechnet. Für den Datentyp CHAR muss eine ausreichende Länge für die Zeichenfolge reserviert werden. Bei Verwendung des UTF8-Zeichensatzes ist die Länge, die reserviert werden muss, die längste Zeichenlänge von UTF8 multipliziert mit der Zeichenfolgenlänge. Daher ist die maximale Länge von UTF8 natürlich auf 3 begrenzt. Beispielsweise wird CHAR (100) von MySQL reserviert 300 Byte. Was den Grund angeht, warum nachfolgende Versionen keine Unterstützung für UTF-8-Zeichen mit einer Länge von 4 Byte bieten, liegt meiner Meinung nach zum einen an Abwärtskompatibilitätsüberlegungen und zum anderen daran, dass Zeichen außerhalb der grundlegenden mehrsprachigen Ebene selten verwendet werden.

Um UTF-8-Zeichen mit einer Länge von 4 Byte in MySQL zu speichern, müssen Sie den Zeichensatz utf8mb4 verwenden, dieser wird jedoch erst nach Version 5.5.3 unterstützt (Version anzeigen: Version auswählen();). Ich denke, um eine bessere Kompatibilität zu erreichen, sollten Sie immer utf8mb4 anstelle von utf8 verwenden. Für Daten vom Typ CHAR wird utf8mb4 gemäß den offiziellen Empfehlungen von MySQL VARCHAR anstelle von CHAR verwenden.

Der obige Artikel bietet ein umfassendes Verständnis des Unterschieds zwischen utf8 und utf8mb4 in MySQL. Dies ist der gesamte vom Herausgeber geteilte Inhalt. Ich hoffe, er kann Ihnen eine Referenz geben und hoffe, dass Sie ihn unterstützen.

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage