Wie extrahiere ich UCS-2-Codepunkte aus UTF-8-Strings?-PHP-Tutorial-php.cn

Wie extrahiere ich UCS-2-Codepunkte aus UTF-8-Strings?

Barbara Streisand

Freigeben： 2024-11-01 17:45:30

Original

652 Leute haben es durchsucht

How to Extract UCS-2 Code Points from UTF-8 Strings?

Bestimmen von UCS-2-Codepunkten für UTF-8-Zeichen

In verschiedenen Programmierszenarien kann es notwendig sein, UCS-2 zu extrahieren Codepunkte, die Zeichen innerhalb einer UTF-8-Zeichenfolge zugeordnet sind. Um dieser Anforderung gerecht zu werden, ist es ratsam, integrierte Dienstprogramme zu nutzen oder sich mit der Komplexität des UTF-8-Codierungsformats zu befassen.

UTF-8 codiert Zeichen mithilfe einer Bytesequenz variabler Länge. Jeder Codepunkt wird je nach Wert durch 1 bis 4 Bytes dargestellt. Es gelten folgende Bereiche:

U 0000 — U 007F: 1 Byte (0xxxxxxx)
U 0080 — U 07FF: 2 Bytes (110xxxxxx 10xxxxxx)
U 0800 – U FFFF: 3 Bytes (1110xxxx 10xxxxxx 10xxxxxx)
U 10000 — U 10FFFF: 4 Bytes (11110xxx 10xxxxxx 10xxxxxx 10xxxxxx)

Um die Anzahl der Bytes in einem Codepunkt zu bestimmen, untersuchen Sie den ersten Byte:

0x00: 1 Byte
0xC0: 2 Bytes
0xE0: 3 Bytes
0xF0: 4 Bytes
0x10: Fortsetzung Byte
0x11111: Ungültiges Zeichen

Sobald die Byteanzahl bekannt ist, kann der Codepunkt durch Bitmanipulation extrahiert werden. Beachten Sie, dass UCS-2 einen begrenzten Bereich hat und keine Zeichen über U FFFF darstellen kann.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich UCS-2-Codepunkte aus UTF-8-Strings?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!