Bonjour à tous, je suis une recrue ! Aujourd'hui, j'aimerais partager avec vous un programme Python très pratique.
De nombreux amis, que ce soit à l'école ou au travail, rencontreront un problème, qui consiste à extraire le texte du PPT et à l'enregistrer dans Word, ce qui peut faciliter leur lecture ou copier le texte. dehors. Mais souvent, les amis ne peuvent extraire le texte du PPT qu'un par un en copiant et en collant. Cette méthode de fonctionnement est sans aucun doute très inefficace Aujourd'hui, Rookie Brother vous proposera une nouvelle méthode, utilisant un programme pour extraire du texte d'un PPT par lots et l'enregistrer dans un document Word.
1. La scène appropriéePar exemple, j'ai un tel contenu PPT, qui contient beaucoup de texte et d'images. Je suis plus intéressé par le texte, en particulier par les articles ou certains sujets importants. le ppt du rapport académique, beaucoup de texte doit être extrait et analysé. Laissez-moi vous donner un exemple de page PPT simple :
Comme vous pouvez le voir, le PPT ci-dessus contient des informations sur le contenu du texte et des images, mais je veux juste extraire le texte. En fait, cela peut être. facilement réalisable avec Python, jetez un oeil à l'effet final :
L'effet n'est pas mauvais, c'est en fait très simple, voyons comment le faire.
2. Conception du programmeNous utilisons principalement la bibliothèque python-pptx et la bibliothèque python-docx. Utilisé respectivement pour traiter les fichiers PPT et les fichiers Word. Vous pouvez l'installer directement avec pip3. L'ensemble du programme est très court et concis. Le code de base ne nécessite que six lignes :
Le code est en fait très court. afin de le rendre meilleur pour tout le monde. Pour comprendre ce programme, vous pouvez le combiner avec l'image ci-dessous pour l'expliquer un par un.
Dans le programme, nous utilisons un total de 3 niveaux de boucles à traiter :
1). Le premier niveau de boucle for est utilisé pour parcourir les diapositives de chaque page. ;
2). Dans la deuxième boucle détermine chaque forme de la diapositive, puis détermine si la page contient une zone de texte, récupérez la zone de texte et nommez-la text_frame.
3). La troisième boucle for parcourt tout le contenu du paragraphe dans la zone de texte, extrait le texte et l'enregistre dans Word.
Après avoir parcouru l'intégralité du fichier PPT, enregistrez toutes les informations textuelles extraites dans un document Word local. L'effet est comme le montre l'image ci-dessous :
Le fichier PPT dans l'image ci-dessus contient quatre diapositives avec du texte. Après avoir exécuté le programme, les résultats de l'extraction de texte sont affichés dans la figure ci-dessous.
Ce qui précède est le partage de cas d'automatisation que Rookie vous a présenté aujourd'hui. Avec seulement quelques lignes de code, l'efficacité du travail de chacun peut être grandement améliorée. Vous pouvez également utiliser le programme pour effectuer une extraction rapide.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!