Résumer un texte à l'aide du modèle BART de Hugging Face-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Résumer un texte à l'aide du modèle BART de Hugging Face

DDD

Jan 07, 2025 am 07:28 AM

Summarizing Text Using Hugging Face

Dans le monde trépidant d'aujourd'hui, il est essentiel de condenser un contenu long en résumés concis, que ce soit pour analyser rapidement des articles ou mettre en évidence des points clés dans des documents de recherche. Hugging Face propose un outil puissant de synthèse de texte : le modèle BART. Dans cet article, nous explorerons comment vous pouvez tirer parti des modèles pré-entraînés de Hugging Face, en particulier le modèle facebook/bart-large-cnn, pour résumer de longs articles et textes.

Premiers pas avec le modèle BART de Hugging Face

Hugging Face propose une variété de modèles pour les tâches de PNL telles que la classification, la traduction et le résumé de textes. L'un des modèles de synthèse les plus populaires est le BART (Transformateurs bidirectionnels et auto-régressifs), qui est formé pour générer des résumés cohérents à partir de documents volumineux.

Étape 1 : Installer la bibliothèque Hugging Face Transformers

Pour démarrer avec les modèles Hugging Face, vous devrez installer la bibliothèque de transformateurs. Vous pouvez le faire en utilisant pip :

pip install transformers

Étape 2 : Importation du pipeline de récapitulation

Une fois la bibliothèque installée, vous pouvez facilement charger un modèle pré-entraîné pour le résumé. L'API de pipeline de Hugging Face fournit une interface de haut niveau pour utiliser des modèles tels que facebook/bart-large-cnn, qui a été optimisée pour les tâches de synthèse.

from transformers import pipeline

# Load the summarization model
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

Étape 3 : Exécuter le résumé

Maintenant que le résumé est prêt, vous pouvez insérer n'importe quel texte long pour générer un résumé. Vous trouverez ci-dessous un exemple utilisant un exemple d'article sur Dame Maggie Smith, une actrice britannique bien connue.

ARTICLE = """ Dame Margaret Natalie Smith (28 December 1934 – 27 September 2024) was a British actress. Known for her wit in both comedic and dramatic roles, she had an extensive career on stage and screen for over seven decades and was one of Britain's most recognisable and prolific actresses. She received numerous accolades, including two Academy Awards, five BAFTA Awards, four Emmy Awards, three Golden Globe Awards and a Tony Award, as well as nominations for six Olivier Awards. Smith is one of the few performers to earn the Triple Crown of Acting.
Smith began her stage career as a student, performing at the Oxford Playhouse in 1952, and made her professional debut on Broadway in New Faces of '56. Over the following decades Smith established herself alongside Judi Dench as one of the most significant British theatre performers, working for the National Theatre and the Royal Shakespeare Company. On Broadway, she received the Tony Award for Best Actress in a Play for Lettice and Lovage (1990). She was Tony-nominated for Noël Coward's Private Lives (1975) and Tom Stoppard's Night and Day (1979).
Smith won Academy Awards for Best Actress for The Prime of Miss Jean Brodie (1969) and Best Supporting Actress for California Suite (1978). She was Oscar-nominated for Othello (1965), Travels with My Aunt (1972), A Room with a View (1985) and Gosford Park (2001). She portrayed Professor Minerva McGonagall in the Harry Potter film series (2001–2011). She also acted in Death on the Nile (1978), Hook (1991), Sister Act (1992), The Secret Garden (1993), The Best Exotic Marigold Hotel (2012), Quartet (2012) and The Lady in the Van (2015).
Smith received newfound attention and international fame for her role as Violet Crawley in the British period drama Downton Abbey (2010–2015). The role earned her three Primetime Emmy Awards; she had previously won one for the HBO film My House in Umbria (2003). Over the course of her career she was the recipient of numerous honorary awards, including the British Film Institute Fellowship in 1993, the BAFTA Fellowship in 1996 and the Society of London Theatre Special Award in 2010. Smith was made a dame by Queen Elizabeth II in 1990.
"""

# Generate the summary
summary = summarizer(ARTICLE, max_length=130, min_length=30, do_sample=False)

# Print the summary
print(summary)

Sortir:

[{'summary_text': 'Dame Margaret Natalie Smith (28 December 1934 – 27 September 2024) was a British actress. Known for her wit in both comedic and dramatic roles, she had an extensive career on stage and screen for over seven decades. She received numerous accolades, including two Academy Awards, five BAFTA Awards, four Emmy Awards, three Golden Globe Awards and a Tony Award.'}]

Comme vous pouvez le voir dans le résultat, le résumé condense les principaux points de l'article dans un format court et lisible, mettant en évidence des faits clés comme sa longévité de carrière et ses distinctions.

Une autre approche : résumer le texte d'un fichier

Dans certains cas d'utilisation, vous souhaiterez peut-être lire le texte d'un fichier plutôt que d'une chaîne codée en dur. Vous trouverez ci-dessous un script Python mis à jour qui lit un article à partir d'un fichier texte et génère un résumé.

from transformers import pipeline

# Load the summarizer pipeline
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# Function to read the article from a text file
def read_article_from_file(file_path):
    with open(file_path, 'r') as file:
        return file.read()

# Path to the text file containing the article
file_path = 'article.txt'  # Change this to your file path

# Read the article from the file
ARTICLE = read_article_from_file(file_path)

# Get the summary
summary = summarizer(ARTICLE, max_length=130, min_length=30, do_sample=False)

# Print the summary
print(summary)

Entrée de fichier :

Dans ce cas, vous devrez enregistrer l'article dans un fichier texte (article.txt dans l'exemple), et le script lira le contenu et le résumera.

Conclusion

Le modèle

BART de Hugging Face est un excellent outil pour la synthèse automatique de texte. Que vous traitiez de longs articles, des documents de recherche ou tout autre texte volumineux, le modèle peut vous aider à distiller les informations dans un résumé concis.

Cet article a montré comment vous pouvez intégrer le modèle de synthèse pré-entraîné de Hugging Face dans vos projets, à la fois avec du texte codé en dur et de la saisie de fichiers. Avec seulement quelques lignes de code, vous pouvez disposer d'un pipeline de synthèse efficace et opérationnel dans vos projets Python.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Guide de température de Rimworld Odyssey pour les navires et Gravtech

3 Il y a quelques semaines By Jack chen

Guide de construction Mejiro Ryan | Uma musume joli derby

1 Il y a quelques mois By Jack chen

Rimworld Odyssey Comment pêcher

4 Il y a quelques semaines By Jack chen

Quelles sont les limites de transaction pour un utilisateur étranger sur Alipay?

4 Il y a quelques semaines By 下次还敢

Comment dépanner une erreur 'Connexion refusée'?

1 Il y a quelques mois By 百草

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Laravel

1602

Tutoriel PHP

1504

276

Afficher plus

Related knowledge

Comment gérer l'authentification de l'API dans Python Jul 13, 2025 am 02:22 AM

La clé pour gérer l'authentification de l'API est de comprendre et d'utiliser correctement la méthode d'authentification. 1. Apikey est la méthode d'authentification la plus simple, généralement placée dans l'en-tête de demande ou les paramètres d'URL; 2. BasicAuth utilise le nom d'utilisateur et le mot de passe pour la transmission de codage Base64, qui convient aux systèmes internes; 3. OAuth2 doit d'abord obtenir le jeton via client_id et client_secret, puis apporter le Bearertoken dans l'en-tête de demande; 4. Afin de gérer l'expiration des jetons, la classe de gestion des jetons peut être encapsulée et rafraîchie automatiquement le jeton; En bref, la sélection de la méthode appropriée en fonction du document et le stockage en toute sécurité des informations clés sont la clé.

Comment tester une API avec Python Jul 12, 2025 am 02:47 AM

Pour tester l'API, vous devez utiliser la bibliothèque des demandes de Python. Les étapes consistent à installer la bibliothèque, à envoyer des demandes, à vérifier les réponses, à définir des délais d'attente et à réessayer. Tout d'abord, installez la bibliothèque via PiPinstallRequests; Utilisez ensuite les demandes.get () ou les demandes.Post () et d'autres méthodes pour envoyer des demandes GET ou POST; Vérifiez ensuite la réponse.status_code et la réponse.json () pour vous assurer que le résultat de retour est en conformité avec les attentes; Enfin, ajoutez des paramètres de délai d'expiration pour définir l'heure du délai d'expiration et combinez la bibliothèque de réessayer pour obtenir une nouvelle tentative automatique pour améliorer la stabilité.

Tutoriel Python Fastapi Jul 12, 2025 am 02:42 AM

Pour créer des API modernes et efficaces à l'aide de Python, FastAPI est recommandé; Il est basé sur des invites de type Python standard et peut générer automatiquement des documents, avec d'excellentes performances. Après avoir installé FastAPI et ASGI Server Uvicorn, vous pouvez écrire du code d'interface. En définissant les itinéraires, en écrivant des fonctions de traitement et en renvoyant des données, les API peuvent être rapidement construites. Fastapi prend en charge une variété de méthodes HTTP et fournit des systèmes de documentation SwaggerUI et Redoc générés automatiquement. Les paramètres d'URL peuvent être capturés via la définition du chemin, tandis que les paramètres de requête peuvent être implémentés en définissant des valeurs par défaut pour les paramètres de fonction. L'utilisation rationnelle des modèles pydantiques peut aider à améliorer l'efficacité du développement et la précision.

Portée variable python dans les fonctions Jul 12, 2025 am 02:49 AM

Dans Python, les variables définies à l'intérieur d'une fonction sont des variables locales et ne sont valides que dans la fonction; Les variables globales sont définies à l'extérieur qui peuvent être lues n'importe où. 1. Les variables locales sont détruites lors de l'exécution de la fonction; 2. La fonction peut accéder aux variables globales mais ne peut pas être modifiée directement, donc le mot-clé global est requis; 3. Si vous souhaitez modifier les variables de fonction externes dans les fonctions imbriquées, vous devez utiliser le mot-clé non local; 4. Les variables avec le même nom ne se affectent pas dans différentes lunettes; 5. Global doit être déclaré lors de la modification des variables globales, sinon une erreur non liée à la dorsale sera augmentée. Comprendre ces règles permet d'éviter les bogues et d'écrire des fonctions plus fiables.

Accès à l'objet JSON imbriqué en python Jul 11, 2025 am 02:36 AM

La façon d'accéder aux objets JSON imbriqués dans Python est de clarifier d'abord la structure, puis d'indexer la couche par couche. Tout d'abord, confirmez la relation hiérarchique de JSON, comme un dictionnaire ou une liste imbriquée du dictionnaire; Utilisez ensuite les clés du dictionnaire et la liste d'index pour accéder à la couche par couche, telles que les données "détails" ["zip"] pour obtenir le codage zip, les données "Détails" [0] pour obtenir le premier passe-temps; Pour éviter KeyError et IndexError, la valeur par défaut peut être définie par la méthode .get (), ou la fonction d'encapsulation Safe_get peut être utilisée pour obtenir un accès sécurisé; Pour des structures complexes, recherchez ou utilisez des bibliothèques tierces telles que JMESPath pour gérer.

Comment analyser une table HTML avec Python et Pandas Jul 10, 2025 pm 01:39 PM

Oui, vous pouvez analyser les tables HTML à l'aide de Python et Pandas. Tout d'abord, utilisez la fonction pandas.read_html () pour extraire la table, ce qui peut analyser les éléments HTML dans une page Web ou une chaîne dans une liste de dataframe; Ensuite, si la table n'a pas de titre de colonne claire, il peut être corrigé en spécifiant les paramètres d'en-tête ou en définissant manuellement l'attribut .Columns; Pour les pages complexes, vous pouvez combiner la bibliothèque de requêtes pour obtenir du contenu HTML ou utiliser BeautifulSoup pour localiser des tables spécifiques; Faites attention à des pièges communs tels que le rendu JavaScript, les problèmes de codage et la reconnaissance multi-table.

Python Def vs Lambda Deep Dive Jul 10, 2025 pm 01:45 PM

Def convient aux fonctions complexes, prend en charge plusieurs lignes, les chaînes de documents et la nidification; Lambda convient aux fonctions anonymes simples et est souvent utilisée dans des scénarios où les fonctions sont passées par paramètres. La situation de sélection de Def: ① Le corps de fonction a plusieurs lignes; ② Description du document est requise; ③ appelé plusieurs endroits. Lors du choix d'une lambda: ① Utilisation ponctuelle; ② Aucun nom ou document requis; ③ Logique simple. Notez que les variables de liaison de retard lambda peuvent lancer des erreurs et ne prennent pas en charge les paramètres, générateurs ou asynchrones par défaut. Dans les applications réelles, choisissez de manière flexible en fonction des besoins et donnez la priorité à la clarté.

Comment analyser les grands fichiers JSON à Python? Jul 13, 2025 am 01:46 AM

Comment gérer efficacement les grands fichiers JSON dans Python? 1. Utilisez la bibliothèque IJSON pour diffuser et éviter le débordement de mémoire via l'analyse par éléments par éléments; 2. S'il est au format JSONLINes, vous pouvez le lire ligne par ligne et le traiter avec json.loads (); 3. Ou divisez le grand fichier en petits morceaux, puis le traitez séparément. Ces méthodes résolvent efficacement le problème de limitation de la mémoire et conviennent à différents scénarios.

See all articles