Maison > développement back-end > Tutoriel Python > Comment faire correspondre des blocs de texte multilignes avec des expressions régulières en Python ?

Comment faire correspondre des blocs de texte multilignes avec des expressions régulières en Python ?

Mary-Kate Olsen
Libérer: 2024-10-25 10:25:17
original
693 Les gens l'ont consulté

How to Match Multi-Line Text Blocks with Regular Expressions in Python?

Faire correspondre des blocs de texte multilignes avec des expressions régulières en Python

En Python, la correspondance d'expressions régulières peut être difficile lorsqu'il s'agit de texte multiligne . Par exemple, considérons le texte suivant où « n » représente une nouvelle ligne :

some Varying TEXT

DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF
[more of the above, ending with a newline]
[yep, there is a variable number of lines here]
[repeat the above a few hundred times].
Copier après la connexion

Le but est de capturer deux éléments :

  • "un TEXTE variable"
  • Toutes les lignes de texte en majuscule commençant deux lignes en dessous du premier élément, en tant que groupe de capture unique (les sauts de ligne peuvent être supprimés ultérieurement).

Des tentatives précédentes utilisant des variantes des expressions régulières suivantes ont été échec :

re.compile(r"^>(\w+)$$(\[.$]+)^$", re.MULTILINE)
re.compile(r"(^[^>]\[\w\s]+)$", re.MULTILINE|re.DOTALL)
Copier après la connexion

Solution :

Pour faire correspondre correctement le texte multiligne, utilisez l'expression régulière suivante :

re.compile(r"^(.+)\n((?:\n.+)+)", re.MULTILINE)
Copier après la connexion

Ceci Le motif correspond aux éléments suivants :

  • Groupe 1 : "certains TEXTES variables"
  • Groupe 2 : Toutes les lignes de texte en majuscules commençant par deux lignes sous "certains TEXTES variables"

Points clés :

  • ^ et les ancres $ correspondent aux positions immédiatement après et avant les nouvelles lignes, respectivement.
  • L'opérateur ?: rend le groupe de nouvelle ligne non capturant.
  • Le quantificateur .* capture une ou plusieurs lignes de texte en majuscules.

Solution alternative :

Si le texte cible peut contenir d'autres types de sauts de ligne en plus des sauts de ligne (n), utilisez la version plus inclusive suivante :

re.compile(r"^(.+)(?:\n|\r\n?)((?:(?:\n|\r\n?).+)+)", re.MULTILINE)
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal