Maison > Périphériques technologiques > IA > Extraction d'informations sans échantillon en parlant à GPT

Extraction d'informations sans échantillon en parlant à GPT

WBOY
Libérer: 2023-04-13 09:13:02
avant
1736 Les gens l'ont consulté

La tendance actuelle selon laquelle les grands modèles à usage général remplacent les modèles propriétaires personnalisés pour des tâches spécifiques émerge progressivement. Cette approche a considérablement réduit le coût marginal de l'application des modèles d'IA. Cela soulève une question : est-il possible de parvenir à une extraction d'informations sur un échantillon nul sans formation ?

La technologie d'extraction d'informations est un élément important de la création de graphiques de connaissances. Si elle peut être mise en œuvre sans aucune formation, elle abaissera considérablement le seuil d'analyse des données et contribuera à la construction automatisée d'une base de connaissances.

Nous avons construit un système IE général sans tir - GPT4IE (GPT pour Extraction d'Informations) en utilisant une méthode d'ingénierie rapide sur GPT-3.5, et avons découvert que GPT3.5 peut extraire automatiquement la structure des informations de la phrase originale . Prend en charge le chinois et l'anglais, et le code de l'outil est open source.

URL de l'outil : ​https://cocacola-lab.github.io/GPT4IE/​

Code : ​https://github.com/cocacola-lab/GPT4IE​

1 Introduction de base

L'objectif de l'extraction d'informations (IE) est d'extraire des informations structurées à partir d'un texte non structuré, y compris la triple extraction entité-relation (Entity-relation Extract, RE), la reconnaissance d'entité nommée (Named Entity Recognition (NER ) et Extraction d'événements (EE)[1][2][3][4][5]. De nombreuses études ont commencé à s'appuyer sur la technologie IE pour automatiser le travail zéro-shot/quelques-shots, comme l'IE clinique [6].

Récemment, les grands modèles linguistiques pré-entraînés (LLM) ont extrêmement bien fonctionné sur de nombreuses tâches en aval, et peuvent même être réalisés avec seulement quelques exemples comme guide sans réglage fin. À partir de là, nous soulevons une question : Est-il possible de réaliser des tâches IE sans tir via des invites uniquement ? Nous essayons d'utiliser la méthode d'invite pour créer un système IE général à échantillon nul pour GPT-3.5 - GPT4IE (GPT pour l'extraction d'informations) . Combiné avec GPT3.5 et des astuces, il est capable d'extraire automatiquement des informations structurées à partir de phrases originales.

2 -En 3.5, lancez IE. Il existe trois tâches prises en charge : RE, NER et EE, et les trois tâches sont bilingues en chinois et en anglais. L'utilisateur doit saisir une phrase et formuler une liste de types d'extraction (c'est-à-dire une liste de relations, une liste d'entités principales, une liste d'entités de queue, une liste de types d'entités ou une liste d'événements). Les détails sont les suivants :

Le but de la tâche RE est d'extraire des triplets du texte, tels que "(Chine, capitale, Pékin)", "("L'amour royal de Ruyi au palais", avec , Zhou Xun)". Le format de saisie requis est le suivant (les éléments avec "*" représentent des champs non obligatoires. Nous avons défini des valeurs par défaut pour ces options, mais pour plus de flexibilité, nous prenons en charge les listes spécifiées définies par l'utilisateur, les mêmes ci-dessous) :

Phrase d'entrée : Texte d'entrée

    Liste des types de relation (rtl)* : ['Type de relation 1', 'Type de relation 2', ...]
  • Liste de types de sujet (stl)* : [ 'Type d'entité d'en-tête 1', 'Type d'entité de tête 2', ...]
  • Liste des types d'objet (otl)* : ['Type d'entité de queue 1', 'Type d'entité de queue 2', ...]
  • Clé API OpenAI : clé API OpenAI (Nous fournissons certaines des clés disponibles dans Github par exemple.)
  • La tâche NER est conçue pour extraire des entités du texte, telles que "(LOC, Pékin) ", " (Personnage, Zhou Enlai)". Sur la tâche NER, le format de saisie est le suivant :

Phrase de saisie : Texte de saisie

    Liste des types d'entités (etl)* : ['Type d'entité 1', 'Type d'entité 2', ... ]
  • Clé API OpenAI : clé API OpenAI
  • La tâche EE est conçue pour extraire des événements à partir de texte brut, tels que "{Vie-Divorce : {Personne : Bob, Heure : aujourd'hui, Lieu : Amérique }}" , "{Comportement de compétition-Promotion : {Heure : Aucune, Fête de promotion : Wolves du Nord-Ouest, Événement de promotion : Bataille pour le premier rang de la China League One}}". Le format de saisie est le suivant :
  • Phrase d'entrée : Texte d'entrée
  • Liste des types d'événements (etl)* : {'Type d'événement 1' : ['Rôle d'argument 1', 'Rôle d'argument 2', ...], ... } Clé API OpenAI : Clé API OpenAI
  • Phrase de saisie
  •  : Bob a travaillé pour Google à Pékin, la capitale de la Chine.

rtl : ['location-located_in', 'administrative_division-country', 'person-place_lived', 'person-company', 'person-nationality', 'company- fondateurs', 'divisions_administratives_pays', 'personne-enfants', 'pays-capitale', 'personne_décédée-lieu_de_mort', 'quartier-quartier_de', 'personne-lieu_de_naissance']

stl : ['organisation ', 'personne', 'emplacement', 'pays']

otl : ['personne', 'emplacement', 'pays', 'organisation', 'ville']

Sortie : . 3.2 RE Exemple II

Entrée :

SENTENCE D'ENTRÉE : "Rugao Biography" est une série télévisée émotionnelle de cour costumée, réalisée par Wang Jun, avec Zhou Xun, Huo Jianhua, Zhang Junning, Dong Jie , Xin Zhilei, Tong Yao, Li Chun, Wu Junmei et d'autres.

rtl: ['Album', 'Date de création', 'Altitude', 'Langue officielle', 'Région', 'Père', 'Chanteur', 'Producteur', 'Réalisateur', 'Capitale' ', 'vedette', 'président', 'ascendance', 'épouse', 'mère', 'climat', 'région', 'protagoniste', 'code postal', 'abréviation', 'entreprise produite', 'enregistré Capitale", "Scénariste", "Fondateur", "École de fin d'études", "Nationalité", "Code professionnel", "Dynastie", "Auteur", "Parolier", "Ville", "Invité", "Emplacement du siège social", "Population", "Porte-parole", "Adapté de", "Principal", "Mari", "Hôte", "Chanson thème", "Années d'études", "Composition", "numéro", "heure de sortie", " box-office', 'acteur', 'doublage', 'primé']

stl : ['pays', 'région administrative', 'œuvres littéraires', 'personnages', 'œuvres cinématographiques et télévisuelles ', 'école', 'livre', 'lieu', 'personnage historique', 'attraction', 'chanson', 'sujet majeur', 'entreprise', 'émission de variétés télévisée', 'institution', 'Entreprise/ Marque', 'Figure de divertissement']

Extraction dinformations sans échantillon en parlant à GPT

otl

 : ['Pays', 'Personnage', 'Texte', 'Date', 'Lieu', 'Climat', 'Ville', 'Chanson', ' Entreprise', 'Numéro', 'Album de musique', 'École', 'Travail', 'Langue']Sortie :

3.3 NER Exemple 1

Phrase d'entrée :Bob a travaillé pour Google à Pékin, la capitale de la Chine.

etl : ['LOC', 'MISC', 'ORG', 'PER' ]

Sortie :

Extraction dinformations sans échantillon en parlant à GPT

3.4 NER Exemple 2

Entrée :

Phrase d'entrée : Au cours des cinq dernières années, sous la direction de la théorie de Deng Xiaoping, le Parti Zhi Gong a suivi la ligne de base de l'étape primaire du socialisme et a travaillé dur pour mettre en œuvre le dixième congrès du Parti Zhi Gong pour faire jouer pleinement les fonctions des partis politiques participants et renforcer sa propre construction.

etl : ['Organisation', 'Emplacement', 'Personnes']

Sortie :

Extraction dinformations sans échantillon en parlant à GPT

3.5 EE Exemple 1

Entrez :

Phrase d'entrée :Hier, Bob et les siens ont divorcé à Guangzhou.

etl : {'Personnel:Elect' : ['Personne', 'Entité', 'Position', 'Time épouse' , 'Place'], 'Business:Declare-Faillite' : ['Org', 'Time', 'Place'], 'Justice:Arrest-Jail' : ['Person', 'Agent', 'Crime', ' Heure', 'Lieu'], 'Vie:Divorce': ['Personne', 'Heure', 'Lieu'], 'Vie:Blessure': ['Agent', 'Victime', 'Instrument', 'Heure' , 'Place']}

Sortie :

Extraction dinformations sans échantillon en parlant à GPT

3.6 EE Exemple 2

Entrée :

Entrée envoyée ence :  : Lors de la finale de la Coupe du monde au Qatar 2022 , l'Argentine a battu de peu la France aux tirs au but.

etl : {'Comportement organisationnel-Grève' : ['Durée', 'Affiliation', 'Nombre de grévistes', 'Personnel de grève'], 'Comportement de compétition-Promotion' : ['Durée', ' Fête promotionnelle', 'Événement promotionnel'], 'Finance/Trading-Stock limité':['Durée', 'Stock limité'], 'Relations organisationnelles-Licenciement': ['Heure', 'Partie licenciée', 'Personnel licencié ' ']}

Sortie :

Extraction dinformations sans échantillon en parlant à GPT

3.7 Exemple trois d'EE (un exemple d'erreur intéressant)

Entrée :

Phrase de saisie : : Moi J'ai divorcé de lui aujourd'hui

etl : {'Comportement organisationnel-Grève' : ['Durée', 'Affiliation', 'Nombre de grévistes', 'Personnel de grève'], 'Comportement de compétition-Promotion' : [ ' Heure', 'Partie de promotion', 'Événement de promotion'], 'Finance/Trading-Stock limité' : ['Heure', 'Stock limité'], 'Relations organisationnelles-Licenciement' : ['Heure', 'Partie de licenciement' , 'Personnel licencié']}

Sortie :

Extraction dinformations sans échantillon en parlant à GPT

De toute évidence, la sortie ci-dessus est fausse, l'etl personnalisé est : {'divorce': ['time', 'person'] }, le résultat est :

Extraction dinformations sans échantillon en parlant à GPT

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal