Rumah > pembangunan bahagian belakang > tutorial php > Bagaimana untuk Mengekstrak Mata Kod UCS-2 daripada Rentetan UTF-8?

Bagaimana untuk Mengekstrak Mata Kod UCS-2 daripada Rentetan UTF-8?

Barbara Streisand
Lepaskan: 2024-11-01 17:45:30
asal
651 orang telah melayarinya

How to Extract UCS-2 Code Points from UTF-8 Strings?

Menentukan Mata Kod UCS-2 untuk Aksara UTF-8

Dalam pelbagai senario pengaturcaraan, mungkin perlu untuk mengekstrak UCS-2 titik kod yang dikaitkan dengan aksara dalam rentetan UTF-8. Untuk menangani keperluan ini, adalah bijak untuk memanfaatkan utiliti terbina dalam atau menyelidiki kerumitan format pengekodan UTF-8.

UTF-8 mengekod aksara menggunakan jujukan bait panjang pembolehubah. Setiap titik kod diwakili oleh 1 hingga 4 bait, bergantung pada nilainya. Julat berikut digunakan:

  • U 0000 — U 007F: 1 bait (0xxxxxxx)
  • U 0080 — U 07FF: 2 bait (110xxxx 10xxxxxx)
  • U 0800 — U FFFF: 3 bait (1110xxxx 10xxxxxx 10xxxxxx)
  • U 10000 — U 10FFFF: 4 bait (11110xxx 10xxxxxx 10xxxxxx 10xxxxxx)
Tentukan nombor bait titik, periksa bait pertama:

    0x00: 1 bait
  • 0xC0: 2 bait
  • 0xE0: 3 bait
  • 0xF0: 4 bait
  • 0x10: Bait sambungan
  • 0x11111: Aksara tidak sah
Setelah kiraan bait diketahui, titik kod boleh diekstrak melalui manipulasi bit. Harap maklum bahawa UCS-2 mempunyai julat terhad dan tidak boleh mewakili aksara di atas U FFFF.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Mata Kod UCS-2 daripada Rentetan UTF-8?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan