Explication détaillée d'exemples d'utilisation de JavaScript pour convertir des caractères chinois en Pinyin-js tutoriel-php.cn

Explication détaillée d'exemples d'utilisation de JavaScript pour convertir des caractères chinois en Pinyin

Y2J

Libérer： 2017-05-22 11:54:29

original

2754 Les gens l'ont consulté

1. La situation actuelle de la conversion des caractères chinois en Pinyin

Tout d'abord, il faut dire qu'il existe une forte demande pour la conversion des caractères chinois en Pinyin, comme le tri/filtrage des contacts par lettres Pinyin ; tels que les destinations (typiques comme l'achat de billets)
Classés par première lettre pinyin, etc. Mais la solution à cette exigence, mais je n’ai entendu parler d’aucune implémentation intelligente (en particulier du côté du navigateur), nécessite probablement un énorme dictionnaire.
Spécifiquement pour JavaScript, consultez github et npm. Les meilleures bibliothèques pour convertir les caractères chinois en pinyin incluent le pinyin
et les pinyinjs. Vous pouvez voir que les deux sont livrés avec d'énormes dictionnaires.
Ces dictionnaires font souvent des dizaines ou des centaines de Ko (certains même plusieurs Mo), et il faut quand même du courage pour les utiliser côté navigateur. Ainsi, lorsque nous rencontrons le besoin de convertir des caractères chinois en Pinyin, il n'est pas surprenant que notre première réaction soit de rejeter la demande (ou de l'implémenter côté serveur).
Maintenant, si je vous dis qu'on peut convertir des caractères chinois en Pinyin en 300 lignes de code côté navigateur, est-ce incroyable ?

2. À partir du code de contact Android 4.2.2

J'insiste à nouveau sur ce blog - en utilisant le code source Android, Convertissez facilement les caractères chinois en Pinyin.
Aujourd'hui, j'aimerais partager avec vous une solution pour convertir les caractères chinois en Pinyin extraits du code source du système Android. Avec une seule classe et plus de 560 lignes de code, vous pouvez facilement implémenter la fonction de conversion des caractères chinois en. Pinyin sans aucun autre tiers.
Cela a-t-il brisé votre réflexion : existe-t-il un algorithme puissant qui peut abandonner le dictionnaire ?
Après avoir lu le blog pour la première fois, j'ai été un peu déçu. Il n'y avait pas d'analyse algorithmique. Il introduisait simplement les centaines de lignes de code découvertes à partir du code Android. La deuxième fois que j'ai lu le code avec l'idée de le porter en JavaScript, j'ai enfin compris le principe, j'ai donc commencé le parcours du portage.

3. Apprenez-vous étape par étape avec 300 lignes de code JavaScript pour convertir les caractères chinois en pinyin

Tout d'abord, allons droit au but. : pourquoi la conversion des caractères chinois en Pinyin nécessite un énorme dictionnaire de la pensée Règlement ?
Parce que la disposition des caractères chinois n'a rien à voir avec le pinyin, par exemple, dans l'intervalle de caractères chinois u4E00-u9FFF, le premier peut être ha et le second peut être ze. Il n'y a aucun moyen d'associer l'unicode de. Caractères chinois avec pinyin, il ne peut donc y en avoir qu'un. L'immense dictionnaire enregistre le pinyin de chaque caractère chinois (ou caractère chinois couramment utilisé).
Cependant, supposons que nous puissions trier tous les caractères chinois par pinyin, tels que 'A', 'AI', 'AN', 'ANG', 'AO', 'BA',..., 'ZUI',' ZUN', 'ZUO', il suffit alors de mémoriser le premier caractère chinois de chaque caractère chinois file d'attente avec le même pinyin. Ensuite, le dictionnaire requis sera très petit (couvre simplement tout le pinyin, le nombre de pinyin lui-même n'est pas grand).
Maintenant, la partie difficile est de trier les caractères chinois par pinyin. Heureusement, l'API liée à l'ICU/localisation fournit cette API de tri (s'il n'y avait pas de méthodes de tri/comparaison pratiques, cet article pourrait ne pas apparaître).

C'est pourquoi 300 lignes peuvent être utilisées pour convertir des caractères chinois en pinyin : Intl.CollatorAPI : Intl.Collator implémente en interne le tri chaîne lié à la localisation. Nous pouvons essentiellement trier tous les caractères chinois selon le pinyin via Intl.Collator.prototype.compare.
Tableau de caractères chinois des limites : enregistre les points limites triés. Chaque caractère chinois de cette table de caractères chinois est le premier caractère chinois d'un ensemble de caractères chinois avec le même pinyin après le tri (Eachunihan est le premier avec le même piny dans whencollatoriszh_CN).
En parlant de ça, il y a peut-être encore quelque chose de flou, je vais donc directement télécharger un morceau de code :

Pour les personnes intéressées étudiants Vous pouvez exécuter le script.js ci-dessus node--icu-data-dir=node_modules/full-icu pour y jeter un œil, puis voir si vous obtenez une table de caractères chinois essentiellement triée par pinyin.

Voici quelques points à noter :

J'ai mis à nouveau "Basic" en gras car la liste des caractères chinois que nous avons obtenu n'est pas complètement triée selon le pinyin. Il y a parfois des caractères chinois avec d'autres pinyin insérés au milieu. Il convient d'y prêter une attention particulière lors de la définition de la limite. tableau.
Le tableau obtenu dans le script ci-dessus est le tri de tous les caractères chinois. Certains d'entre eux sont différents du tableau de HanziToPinyin.java dans le code Android, le tableau de HanziToPinyin.java doit donc être mis à jour. (Le plus gros écueil et la plus grande charge de travail lors du passage de Java à JavaScript : corriger le tableau des limites)
Je pense que tout le monde a vu le code de base : constCOLLATOR=newIntl.Collator(['zh-Hans-CN']), Intl.Collator
(Les paramètres régionaux spécifiés ici sont China zh-Hans-CN) est la clé pour trier les caractères chinois par pinyin. Il s'agit d'une API d'internationalisation qui trie les chaînes dans un ordre spécifique aux paramètres régionaux.
Veuillez d'abord npmifull-icu lors de l'exécution du script. Cette dépendance installera automatiquement le support chinois manquant et vous demandera comment spécifier le fichier de données ICU pour exécuter le script.
1.ICUICU signifie InternationalComponentsforUnicode, qui fournit une prise en charge Unicode et l'internationalisation des applications.
ICU est un ensemble mature et largement utilisé de bibliothèques C/C++ et Java fournissant un support Unicode et mondialisation pour les applications logicielles. ICU est largement portable et donne aux applications les mêmes résultats sur toutes les plates-formes et entre les logiciels C/C++ et Java.
Et ICU fournit des services de comparaison de chaînes localisées (algorithme de collecte Unicode + règles de comparaison spécifiques localement) :
Collation : comparer la chaîne selon les conventions et les normes d'une langue, d'une région ou d'un pays particulier. Le classement est basé sur l'algorithme de classement Unicode ainsi que sur les règles de comparaison spécifiques aux paramètres régionaux du référentiel de données locales communes, une source complète pour ce type de données.
Sur les navigateurs modernes, ICU prend généralement en charge la langue locale de l'utilisateur et nous pouvons l'utiliser directement.
Mais pour node.js, généralement, ICU ne contient qu'un sous-ensemble (généralement l'anglais), nous devons donc ajouter nous-mêmes la prise en charge du chinois. D'une manière générale, vous pouvez installer full-icu
via npminstallfull-icu pour installer le support chinois manquant. (Voir node--icu-data-dir=node_modules/full-icu ci-dessus).
2.IntlAPI La section précédente devrait essentiellement expliquer les connaissances liées à l'internationalisation/localisation. Ici, nous ajouterons l'utilisation de l'API intégrée. Comment vérifier si la langue de l'utilisateur et le Runtime prennent en charge cette langue ? Intl.Collator.supportedLocalesOf(array|string)
Renvoie un array contenant les paramètres régionaux pris en charge (sans revenir aux paramètres régionaux par défaut). Le paramètre peut être un tableau ou une chaîne, qui est le. locales que vous souhaitez tester (c'est-à-dire BCP47lingualtag).

Construire Collator objet et trier la chaîne

via Intl.Collator.prototype comparer. , nous pouvons trier les chaînes dans l'ordre spécifié par le langage. En chinois, ce tri se fait principalement dans l'ordre piny, 'A', 'AI', 'AN', 'ANG', 'AO', 'BA', 'BAI', 'BAN', 'BANG',' BAO','BEI','BEN','BENG','BI','BIAN','BIAO','BIE','BIN','BING','BO','BU','CA' ,'CAI','CAN',...
, c'est la clé pour convertir les caractères chinois en pinyin que nous avons mentionnés ci-dessus.

4. Correction de la table des limites

Évidemment, il y a un problème avec cette table des limites et doit être corrigé.
On voit que la plupart des caractères chinois ont été convertis en qing. On voit qu'il y a un problème avec le caractère chinois correspondant au pinyin de qing.
J'ai trouvé ce caractère chinois, c'est 'u72c5'/'狅', plus un caractère avant et après, ['u4eb2','u72c5','u828e']/["奇","狅","苎"]
.
Recherche , 'u72c5'/'狅' peut être lu comme qing, mais maintenant il est lu comme kuang, ce qui devrait être la cause de l'erreur.
Selon la liste de tri initiale de tous les caractères chinois, le premier caractère chinois de qing est 'u9751'/'靑'.
Après le changement, seules 104 conversions ont échoué.