Der Unicode-Zeichensatz verwendet mehrere Bytes zur Darstellung eines Zeichens-häufiges Problem-php.cn

Heim

häufiges Problem

Der Unicode-Zeichensatz verwendet mehrere Bytes zur Darstellung eines Zeichens

青灯夜游

May 07, 2021 pm 04:43 PM

unicode Charakter Zeichensatz Byte

Der Unicode-Zeichensatz verwendet 2 Bytes zur Darstellung eines Zeichens. Unicode legt eine einheitliche und eindeutige Binärkodierung für jedes Zeichen in jeder Sprache fest, um die Anforderungen für die sprach- und plattformübergreifende Textkonvertierung und -verarbeitung zu erfüllen. Mit der 2-Byte-Kodierung können alle Texte auf der Welt vereinheitlicht werden.

Der Unicode-Zeichensatz verwendet mehrere Bytes zur Darstellung eines Zeichens

Die Betriebsumgebung dieses Tutorials: Windows 7-System, Dell G3-Computer.

Der Unicode-Zeichensatz verwendet 2 Bytes zur Darstellung eines Zeichens.

Unicode (Unicode, Universal Code, Unicode) ist eine Zeichenkodierung, die auf Computern verwendet wird. Es legt eine einheitliche und eindeutige Binärcodierung für jedes Zeichen in jeder Sprache fest, um die Anforderungen für die sprach- und plattformübergreifende Textkonvertierung und -verarbeitung zu erfüllen.

Wenn verschiedene Textkodierungen als Dialekte verschiedener Orte beschrieben werden, dann ist Unicode eine Sprache, die von Ländern auf der ganzen Welt gemeinsam entwickelt wurde.

In dieser Sprachumgebung gibt es keine Sprachkodierungskonflikte mehr. Inhalte können in jeder Sprache auf demselben Bildschirm angezeigt werden. Das bedeutet, dass der gesamte Text der Welt einheitlich mit 2 Bytes kodiert ist. Auf diese Weise reichen bei einer einheitlichen Codierung wie dieser 2 Bytes aus, um den größten Teil des Textes in allen Sprachen der Welt unterzubringen.

Der wissenschaftliche Name von Unicode ist „Universal Multiple-Octet Coded Character Set“, auch UCS genannt.

Die frühen Unicode-Standards hießen UCS-2 und UCS-4. UCS-2 ist mit zwei Bytes kodiert und UCS-4 ist mit 4 Bytes kodiert. Derzeit wird UCS-2 verwendet, eine 2-Byte-Kodierung, und UCS-4 wurde entwickelt, um zu verhindern, dass 2 Bytes in Zukunft nicht mehr ausreichen.

UCS-4 ist basierend auf dem höchsten Byte in 2^7=128 Gruppen unterteilt, wobei das höchste Bit 0 ist. Jede Gruppe ist entsprechend dem nächsthöheren Byte in 256 Ebenen unterteilt. Jede Ebene ist entsprechend dem dritten Byte in 256 Zeilen unterteilt, und jede Zeile verfügt über 256 Codepunkte (Zellen). Ebene 0 der Gruppe 0 heißt BMP (Basic Multilingual Plane). UCS-2 wird durch Entfernen der ersten beiden Nullbytes des BMP von UCS-4 erhalten.

Weitere Informationen zu diesem Thema finden Sie in der Spalte „FAQ“!

Das obige ist der detaillierte Inhalt vonDer Unicode-Zeichensatz verwendet mehrere Bytes zur Darstellung eines Zeichens. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Rimworld Odyssey -Temperaturführer für Schiffe und Gravtech

4 Wochen vor By Jack chen

Rimworld odyssey wie man fischt

1 Monate vor By Jack chen

Was sind die Transaktionsgrenzen für einen Fremdkörper auf Alipay?

1 Monate vor By 下次还敢

Kimi K2: Das mächtigste Open-Source-Agentenmodell

1 Monate vor By Jack chen

Kann ich zwei Alipay -Konten haben?

4 Wochen vor By 下次还敢

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Laravel-Tutorial

1602

PHP-Tutorial

1506

276

Related knowledge

1 MB Speicherkapazität entspricht der Anzahl der Bytes Mar 03, 2023 pm 05:42 PM

1 MB Speicherkapazität entspricht 2 hoch 20 Bytes oder 1.048.576 Bytes. MB ist eine Speichereinheit in Computern, die als „Mega“ ausgesprochen wird, da 1 MB 1024 KB entspricht und 1 KB 1024 B (Bytes) entspricht, sodass 1 MB 1048576 (1024 * 1024) Bytes entspricht.

Wie viele Bytes bedeuten 128 MB? Nov 29, 2022 am 10:35 AM

128 MB bezieht sich auf 134217728 Bytes; die Byte-Umrechnungsformel lautet „1 MB = 1024 KB = 10488608 Bit“, was bedeutet, dass 1048576 englische Buchstaben und 524288 chinesische Zeichen gespeichert werden können; die Verkehrseinheiten-Umrechnungsformel lautet 1 GB = 1024 MB, 1 MB = 1024 KB, 1 KB = 1024B.

1 Bit entspricht der Anzahl der Bytes Mar 09, 2023 pm 03:11 PM

1 Bit entspricht einem Achtel eines Bytes. Im binären Zahlensystem ist jede 0 oder 1 ein Bit (Bit), und ein Bit ist die kleinste Datenspeichereinheit. Alle 8 Bits (Bit, abgekürzt als b) bilden ein Byte (Byte), also „1 Byte (; Byte) = 8 Bits“. In den meisten Computersystemen ist ein Byte eine 8 Bit lange Dateneinheit. Die meisten Computer verwenden ein Byte zur Darstellung eines Zeichens, einer Zahl oder eines anderen Zeichens.

So geben Sie Pfeile in Word ein Apr 16, 2023 pm 11:37 PM

So verwenden Sie AutoKorrektur zum Eingeben von Pfeilen in Word Eine der schnellsten Möglichkeiten, Pfeile in Word einzugeben, ist die Verwendung der vordefinierten AutoKorrektur-Verknüpfungen. Wenn Sie eine bestimmte Zeichenfolge eingeben, wandelt Word diese Zeichen automatisch in Pfeilsymbole um. Mit dieser Methode können Sie viele verschiedene Pfeilstile zeichnen. So geben Sie mit der AutoKorrektur einen Pfeil in Word ein: Bewegen Sie den Cursor an die Stelle im Dokument, an der der Pfeil erscheinen soll. Geben Sie eine der folgenden Zeichenkombinationen ein: Wenn Sie nicht möchten, dass Ihre Eingabe in ein Pfeilsymbol umgewandelt wird, drücken Sie dazu die Rücktaste auf Ihrer Tastatur

Wie viele Bytes belegen utf8-codierte chinesische Zeichen? Feb 21, 2023 am 11:40 AM

UTF8-kodierte chinesische Zeichen belegen 3 Bytes. Bei der UTF-8-Kodierung entspricht ein chinesisches Zeichen drei Bytes und ein chinesisches Satzzeichen belegt drei Bytes, während bei der Unicode-Kodierung ein chinesisches Zeichen (einschließlich traditionellem Chinesisch) zwei Bytes entspricht. UTF-8 benötigt zur Kodierung jedes Zeichens nur 1 Byte. Für Latein, Griechisch, Kyrillisch und Hebräisch sind 2 Byte erforderlich Codierung.

Wie viele Bytes belegt ein ASCII-Zeichen? Mar 09, 2023 pm 03:49 PM

Ein ASCII-Zeichen belegt 1 Byte. ASCII-Codezeichen werden im Computer durch 7-Bit- oder 8-Bit-Binärcodierung dargestellt und in einem Byte gespeichert, dh ein ASCII-Code belegt ein Byte. ASCII-Code kann in Standard-ASCII-Code und erweiterten ASCII-Code unterteilt werden. Der Standard-ASCII-Code wird auch als Basis-ASCII-Code bezeichnet. Er verwendet 7-Bit-Binärzahlen (die verbleibende 1 Binärziffer ist 0), um alle Groß- und Kleinbuchstaben darzustellen Zahlen von 0 bis 9. Satzzeichen und spezielle Steuerzeichen, die im amerikanischen Englisch verwendet werden.

Wie viele Bytes belegt ein ASCII-Code? Sep 07, 2023 pm 04:03 PM

Ein ASCII-Code belegt ein Byte. Er verwendet 7-Bit-Binärzahlen zur Darstellung von 128 verschiedenen Zeichen, einschließlich Buchstaben, Zahlen, Satzzeichen, Sonderzeichen usw. Ein Byte ist die Grundeinheit der Computerspeichereinheit. Es besteht aus 8 Binärbits. Jedes Binärbit kann 0 oder 1 sein. Ein Byte kann 256 verschiedene Werte darstellen, also alle Zeichen im ASCII-Code.

Verwenden Sie die Java-Funktion Character.isDigit(), um festzustellen, ob ein Zeichen eine Zahl ist Jul 27, 2023 am 09:32 AM

Verwenden Sie die Funktion Character.isDigit() von Java, um festzustellen, ob es sich bei einem Zeichen um ein numerisches Zeichen handelt. Zeichen werden intern im Computer in Form von ASCII-Codes dargestellt. Unter diesen sind die ASCII-Codewerte, die den numerischen Zeichen 0 bis 9 entsprechen, 48 bis 57. Um festzustellen, ob ein Zeichen eine Zahl ist, können Sie die von der Character-Klasse in Java bereitgestellte Methode isDigit() verwenden. Die Methode isDigit() gehört zur Klasse Character