Diviser les chaînes en mots avec plusieurs délimiteurs de limites de mots
Lorsque vous travaillez avec des données textuelles, il est souvent nécessaire de diviser le texte en mots individuels . Cependant, diviser des chaînes à l'aide de délimiteurs peut s'avérer difficile lorsque vous travaillez avec du texte comprenant divers délimiteurs potentiels, tels que des virgules, des points et des tirets.
Limitations de str.split() de Python
La méthode str.split() intégrée de Python est couramment utilisée pour diviser des chaînes. Cependant, il n’accepte qu’un seul délimiteur comme argument. Dans l'exemple fourni, le code suivant diviserait la phrase sur les espaces mais laisserait la ponctuation en place :
text = "Hey, you - what are you doing here!?" words = text.split() ['hey', 'you - what', 'are', 'you', 'doing', 'here!?']
Solution : expressions régulières avec re.split()
Pour diviser efficacement les chaînes avec plusieurs délimiteurs, des expressions régulières et la méthode re.split() peuvent être utilisées. re.split() accepte un modèle comme argument et divise la chaîne en fonction de toutes les occurrences de ce modèle.
La clé pour diviser des mots avec plusieurs délimiteurs est de définir un modèle qui correspond à tout délimiteur potentiel. Le modèle suivant, « W », correspond à tous les caractères autres que des mots :
import re text = "Hey, you - what are you doing here!?" words = re.split('\W+', text) print(words)
Cela produira le résultat souhaité :
['hey', 'you', 'what', 'are', 'you', 'doing', 'here']
Capture de groupes
Si vous le souhaitez, des groupes de capture peuvent être utilisés pour extraire non seulement les mots mais également les délimiteurs. Par exemple, le modèle suivant inclut un groupe de capture entre parenthèses, qui capturera tous les caractères autres que des mots :
text = "Hey, you - what are you doing here!?" words = re.split('(\W+)', text) print(words)
Cela produira une liste qui comprend à la fois les mots et les délimiteurs :
['Hey', ', ', 'you', ' - ', 'what', ' ', 'are', ' ', 'you', ' ', 'doing', ' ', 'here!?']
Conclusion
En exploitant les expressions régulières et la méthode re.split(), il est possible de gérer efficacement diviser les chaînes en mots même lorsque le texte contient une variété de délimiteurs potentiels. Cette technique est particulièrement utile pour les tâches de traitement du langage naturel et d'analyse de texte.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!