Dalam pembangunan bahagian hadapan, kami sering menghadapi masalah pengekodan aksara Cina. Antaranya, kaedah pengekodan yang paling biasa ialah GB2312 dan UTF-8. Memandangkan set aksara bagi kedua-dua kaedah pengekodan adalah berbeza, penukaran pengekodan diperlukan semasa penghantaran dan penyimpanan data.
Di bawah, kami akan menumpukan pada kaedah dan langkah menukar GB2312 kepada UTF-8 dalam JavaScript.
1. Apakah pengekodan?
Dalam sistem komputer, semua maklumat diwakili dalam bentuk nombor binari. Walau bagaimanapun, orang ramai perlu menggunakan perkataan, gambar dan sebagainya untuk menyatakan dan menyampaikan maklumat. Oleh itu, komputer mesti mengekod maklumat ini sebelum ia boleh dihantar dan disimpan.
Kaedah pengekodan yang berbeza menggunakan set aksara yang berbeza, yang menetapkan padanan berbeza antara aksara dan nombor binari. Oleh itu, set aksara untuk pengekodan yang berbeza mungkin berbeza. Sebarang kaedah pengekodan perlu menggunakan kaedah pengekodan bersatu untuk penukaran apabila menghantar data dan menyimpan data.
2. Perbezaan antara GB2312 dan UTF-8
Pengekodan GB2312 ialah kaedah pengekodan yang direka untuk aksara Cina. Ia menggunakan dua bait untuk mewakili aksara Cina Jumlah julat pengekodan ialah 0xB0A1 ~ 0xF7FE, meliputi sejumlah 6763 aksara Cina.
Pengekodan UTF-8 ialah pengekodan yang menggunakan panjang bait berubah untuk mewakili aksara Unikod. Ia boleh menggunakan 1 ~ 4 bait untuk mewakili aksara, yang mana huruf Inggeris dan simbol biasa diwakili oleh 1 bait, dan aksara Cina diwakili oleh 3 bait. Pengekodan UTF-8 serasi dengan pengekodan ASCII, iaitu pengekodan UTF-8 boleh menggunakan ungkapan, penghantaran dan kaedah penyimpanan yang digunakan dalam pengekodan ASCII sebelumnya, jadi ia digunakan secara meluas dalam penghantaran Internet dan bidang lain.
Perbezaan antara GB2312 dan UTF-8 ialah kaedah pengekodan yang pertama ialah kaedah panjang tetap, manakala kaedah kedua ialah kaedah panjang berubah-ubah. Oleh itu, apabila menukar pengekodan aksara, ia perlu ditukar kepada kaedah pengekodan bersatu sebelum data boleh dihantar dan disimpan.
3. Cara menukar GB2312 kepada UTF-8 dalam JavaScript
Dalam JavaScript, anda boleh menggunakan perpustakaan pengekodan atau API untuk menukar GB2312 kepada UTF-8. Yang berikut menggunakan kod sampel untuk memperkenalkan kaedah pelaksanaan khusus.
Anda boleh menggunakan objek TextDecoder dan TextEncoder dalam perpustakaan pengekodan teks untuk melakukan penukaran pengekodan daripada GB2312 kepada UTF -8 . Langkah pelaksanaan khusus adalah seperti berikut:
// 定义要转换的字符串 var gb2312Str = '这是一段测试字符串'; // 将gb2312编码的字符串转换为Uint8Array数组 var gb2312Array = new Uint8Array(gb2312Str.length); for (var i = 0; i < gb2312Str.length; ++i) { gb2312Array[i] = gb2312Str.charCodeAt(i); } // 利用TextDecoder对象将Uint8Array数组转换为UTF-8编码的字符串 var utf8Str = new TextDecoder('gb2312').decode(gb2312Array); console.log(utf8Str); // 输出:这是一段测试字符串
Dalam contoh ini, mula-mula tukar rentetan gb2312 kepada tatasusunan Uint8Array, dan kemudian gunakan objek TextDecoder untuk menukarnya menjadi rentetan berkod UTF-8.
iconv-lite ialah perpustakaan pengekodan yang boleh digunakan dalam NodeJS dan penyemak imbas. Ia menyokong penukaran rentetan dalam berbilang kaedah pengekodan, termasuk GB2312 dan UTF-8. Langkah pelaksanaan khusus adalah seperti berikut:
// 导入 iconv-lite 库 const iconv = require('iconv-lite'); // 定义要转换的字符串 var gb2312Str = '这是一段测试字符串'; // 利用iconv-lite库将GB2312编码字符串转换为UTF-8编码的字符串 var utf8Str = iconv.decode(Buffer.from(gb2312Str), 'gb2312'); console.log(utf8Str); // 输出:这是一段测试字符串
Dalam contoh ini, kita mula-mula menukar rentetan GB2312 menjadi objek Penampan melalui perpustakaan iconv-lite, dan kemudian menggunakan kaedah penyahkod untuk menukarnya menjadi UTF-8 rentetan yang dikodkan.
4. Ringkasan
Artikel ini memperkenalkan kaedah dan langkah untuk menukar GB2312 kepada UTF-8 dalam JavaScript. Kita boleh menggunakan objek TextDecoder dan TextEncoder pustaka pengekodan teks, atau menggunakan perpustakaan iconv-lite untuk penukaran pengekodan. Melalui pengenalan artikel ini, saya percaya bahawa pembaca mempunyai pemahaman yang lebih baik tentang isu yang berkaitan dengan pengekodan aksara Cina.
Atas ialah kandungan terperinci javascript gb2312 kepada utf8. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!