Lorsqu'il s'agit de données textuelles, une tâche courante consiste à diviser des chaînes en mots individuels. La méthode str.split() de Python offre une solution simple, mais elle ne prend en charge qu'un seul délimiteur comme argument. Cette limitation peut devenir un obstacle lorsqu'il s'agit de texte contenant plusieurs types de limites de mots, tels que des signes de ponctuation.
Le module Python re offre une alternative puissante : re.split(). Cette fonction vous permet de spécifier un modèle à utiliser comme délimiteur de limite de mot. Le modèle peut inclure des expressions régulières pour correspondre simultanément à plusieurs types de limites.
Par exemple, pour diviser la chaîne suivante en mots, en gérant à la fois les espaces et les signes de ponctuation comme limites de mots :
"Hey, you - what are you doing here!?"
Vous pouvez utiliser le modèle d'expression régulière suivant :
'\W+'
Ce modèle correspond à n'importe quelle séquence de caractères autres que des mots (alphabétiques, numériques ou trait de soulignement). Lorsqu'il est utilisé avec re.split(), il divisera la chaîne à toutes les occurrences de ces caractères, créant ainsi une liste de mots.
Voici comment l'utiliser en Python :
import re text = "Hey, you - what are you doing here!?" words = re.split('\W+', text) print(words)
Sortie :
['Hey', 'you', 'what', 'are', 'you', 'doing', 'here']
Comme vous pouvez le voir, re.split() divise efficacement la chaîne en mots individuels, préservant les limites correctes des mots malgré la présence de plusieurs délimiteurs. Cette flexibilité en fait un outil précieux pour gérer des scénarios d'analyse de texte complexes, dans lesquels plusieurs délimiteurs de limites de mots sont rencontrés.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!