Application et recherche de recherche d'industrie basée sur un modèle de langage pré-entraîné-IA-php.cn

1. Contexte de la recherche dans l'industrie du bas Elle comprend :

Application et recherche de recherche d'industrie basée sur un modèle de langage pré-entraîné

Données PNL, lexique de base de la PNL, sémantique syntaxique, technologie d'analyse et technologie PNL de niveau supérieur

Application industrielle : en plus de la recherche fondamentale, la DAMO Academy permet également à Alibaba Group, et combiné avec Alibaba Cloud pour responsabiliser les industries. De nombreux scénarios industriels d’autonomisation sont recherchés.

Application et recherche de recherche dindustrie basée sur un modèle de langage pré-entraîné

2. Nature de la recherche industrielle

La nature de la recherche sur l'Internet industriel et grand public est la même : les utilisateurs ont des besoins d'acquisition d'informations et disposent en même temps de bibliothèques de ressources d'information. , via les moteurs de recherche Reliez les deux.

Prenons le scénario du commerce électronique comme exemple. Par exemple, un utilisateur recherche de nouvelles baskets bleues aj1 North Carolina dans une boutique en ligne. Afin de mieux comprendre la requête d'un tel utilisateur, une série de tâches doivent être effectuées :

Application et recherche de recherche dindustrie basée sur un modèle de langage pré-entraîné

Analyse de la compréhension de la requête : correction d'erreurs NLP, prédiction des catégories de segmentation de mots, poids des mots de reconnaissance d'entités, réécriture de requêtes et autres technologies.

(hors ligne) analyse de documents : analyse NLP, analyse de la qualité et de l'efficacité

Récupération et tri : grâce à l'analyse des requêtes et des documents, combinée à certains mécanismes de récupération et de tri du moteur de recherche lui-même , il est possible d'atteindre l'objectif de relier les deux.

3. Liens de recherche de l'industrie
S'il est divisé selon le paradigme de recherche, il est généralement divisé en récupération clairsemée et récupération dense.

récupération fragmentée : traditionnellement basée sur des mots ou basée sur des mots pour créer un index inversé, et sur cette base pour créer une série de fonctionnalités pour la compréhension des requêtes, y compris un tri par pertinence du texte, etc. ;

Récupération dense : avec l'essor des modèles de langage pré-entraînés, des modèles à tour unique et à double tour sont implémentés sur la base de la base pré-entraînée, puis combinés avec des moteurs vectoriels pour établir des mécanismes de recherche.

Application et recherche de recherche dindustrie basée sur un modèle de langage pré-entraîné

Généralement, la recherche est divisée en une telle division semblable à un lien : rappel, tri (tri grossier, tri fin, réarrangement).

Phase de rappel :

De gauche à droite, la complexité du modèle et la précision des effets deviennent plus élevées. De droite à gauche, le nombre de documents traités augmente. Prenons l'exemple du commerce électronique Taobao, comme le rappel (milliards), le classement préliminaire (centaines de milliers), le classement fin (centaines, milliers) et le réarrangement (dizaines).
La recherche de liens de production est un système où l'effet de récupération et l'efficacité de l'ingénierie sont des compromis. À mesure que la puissance de calcul augmente, les modèles complexes commencent à être remplacés. Par exemple, les modèles finement triés vont désormais progressivement passer à l’étape de tri grossier voire de rappel.

Application et recherche de recherche dindustrie basée sur un modèle de langage pré-entraîné

Rappel : taux de rappel ou d'absence de résultat

Application et recherche de recherche dindustrie basée sur un modèle de langage pré-entraîné Pertinence : NDCG, MRR

Efficacité de conversion : taux de clics, taux de conversion

4. Recherche sur Internet grand public et Internet industriel
Groupes d'utilisateurs et UV : La recherche Internet grand public UV est très grande et l'Internet industriel s'adresse à employés au sein du gouvernement et des entreprises.

Application et recherche de recherche dindustrie basée sur un modèle de langage pré-entraîné

: En consommant Internet, en plus de rechercher des recherches précises et consultables, nous recherchons également des taux de conversion élevés. Dans l'Internet industriel, il s'agit davantage du besoin de mise en correspondance des informations, il faut donc se concentrer sur le rappel et la pertinence.

: les exigences QPS Internet grand public seront très élevées et une grande quantité de comportement des utilisateurs sera accumulée, ce qui nécessite une analyse des journaux en temps réel et une formation de modèles en temps réel. Les exigences pour l’Internet industriel seront moindres.
: L'Internet grand public bénéficiera davantage de l'analyse et de la modélisation massives du comportement des utilisateurs hors ligne, quasi-ligne et en ligne. Le comportement des utilisateurs de l'Internet industriel est clairsemé, ils accorderont donc plus d'attention à la compréhension du contenu, comme la PNL ou la compréhension visuelle, les orientations de recherche incluent l'apprentissage par transfert et à faibles ressources.
La recherche est étroitement liée au cadre du système : y compris les données hors ligne, le cadre du service de recherche (partie verte), le système d'algorithme de technologie de recherche (partie bleue), Sa base est le système de modèle de langage pré-entraîné Alicemind, qui effectue également l'analyse de documents, la compréhension des requêtes, la corrélation, etc.
1. Système AliceMind

AliceMind est un système de modèle de langage hiérarchique de pré-formation construit par DAMO Academy. Contient des modèles généraux de pré-formation, multilingues, multimodaux, de dialogue, etc., et constitue la base de toutes les tâches de PNL.

2. Segmentation des mots

La segmentation des mots (capacité atomique) de la recherche détermine la granularité de l'index de récupération et est également liée à la pertinence ultérieure et à la granularité BM25. Pour les tâches spécifiques à une tâche, si vous personnalisez une pré-formation, l'effet sera meilleur qu'une pré-formation générale. Par exemple, des recherches récentes espèrent ajouter des informations statistiques non supervisées à la tâche de pré-entraînement BERT native, telles que des mots statistiques, la granularité de Gram ou l'entropie limite, puis ajouter une perte de mse à la pré-entraînement. Sur CWS/POS et NER (photo de droite), de nombreuses tâches ont atteint SOTA.

Une autre recherche est transversale. Le coût de l'étiquetage des données et de la construction de tâches de supervision à chaque fois est très élevé, il est donc nécessaire de construire un mécanisme de segmentation de mots non supervisé inter-domaines. Le tableau dans le coin inférieur droit est un exemple. La qualité de la segmentation des mots du commerce électronique a été considérablement améliorée par rapport à la segmentation des mots open source. Cette méthode a également été publiée dans ACL2020.

3. Reconnaissance d'entité nommée

La reconnaissance d'entité nommée par recherche implique principalement une compréhension structurée de la requête et du document, et identifie les expressions et types clés. Dans le même temps, la construction du graphe de connaissances de recherche repose également sur la fonction NER.

La recherche de NER comporte également certains défis. La raison principale est que les requêtes sont souvent relativement courtes et manquent de contexte. Par exemple, l’entité de requête dans le commerce électronique est très ambiguë et bien informée. Par conséquent, l'idée principale d'optimisation du NER ces dernières années est d'améliorer la représentation du NER à travers le contexte ou l'introduction de connaissances.

a réalisé le combo de travail d'amélioration implicite en 2020 et 2021. En intégrant dynamiquement un extracteur de mots existant ou des représentations GLUE, il peut être implémenté sur de nombreuses tâches commerciales pour atteindre SOTA.

En 2021, une amélioration de la récupération explicite sera développée. Un morceau de texte recevra un contexte amélioré via le moteur de recherche et sera intégré dans la structure du transformateur. Ce travail a été publié dans ACL 2021.

Sur la base de ce travail, nous avons participé à l'évaluation NER multilingue SemEval 2022 et avons remporté 10 championnats, ainsi que le meilleur article système.

Amélioration de la récupération : en plus de la phrase d'entrée elle-même, un contexte supplémentaire est récupéré et lié à l'entrée, combiné à la perte de KL pour faciliter l'apprentissage. Obtention de SOTA dans de nombreux ensembles de données open source.

4. Formation multitâche adaptative

BERT lui-même est très efficace, mais il existe peu de clusters GPU en production réelle, et chaque tâche doit être effectuée, ce qui coûte cher en termes de performances d'inférence. Nous réfléchissons à la possibilité de faire une inférence une seule fois, puis adaptons chaque tâche individuellement après l'encodeur, afin d'obtenir de meilleurs résultats.

Une manière intuitive consiste à incorporer des tâches d'analyse de requêtes PNL via le cadre de méta-tâches. Mais la méta-tâche traditionnelle est une distribution uniformément échantillonnée. Nous proposons MOMETAS, une méthode adaptative basée sur le méta-apprentissage qui adapte automatiquement l'échantillonnage à différentes tâches. Dans le processus d'apprentissage de plusieurs tâches, nous utiliserons périodiquement les données de validation pour tester afin de voir les effets de l'apprentissage de différentes tâches. la récompense guide à son tour l’échantillonnage de la formation précédente. (Tableau ci-dessous) La combinaison de ce mécanisme sur de nombreuses tâches présente de nombreuses améliorations par rapport à l'UB (distribution uniforme).

Appliquez le mécanisme ci-dessus aux scénarios de recherche dans de nombreux secteurs. Les avantages sont que BERT n'est codé et stocké qu'une seule fois et peut être directement réutilisé dans de nombreuses tâches en aval, ce qui peut considérablement améliorer les performances.

5. Rechercher et rappeler un modèle de langage pré-entraîné

La récupération en profondeur n'est rien de plus qu'une double tour ou une seule tour. Le paradigme d'entraînement courant est le signal supervisé et le modèle pré-entraîné. obtenu par intégration fine, caractérise la requête et la doc. Les voies d'optimisation récentes concernent principalement l'amélioration des données ou l'exploration d'échantillons difficiles, et l'autre consiste à optimiser des modèles de langage pré-entraînés. Le BERT natif n'est pas une représentation textuelle particulièrement adaptée à la recherche, il existe donc des modèles de langage pré-entraînés pour la recherche de représentations textuelles. D'autres optimisations résident dans la représentation du texte multi-vues et la conception spéciale des pertes.

Par rapport à l'échantillonnage aléatoire du BERT natif, nous combinons les poids des mots de recherche pour augmenter les mots avec des poids de mots plus élevés afin d'augmenter la probabilité d'échantillonnage, et les représentations apprises sont plus adaptées à la recherche et au rappel. De plus, un apprentissage comparatif au niveau de la phrase est ajouté. En combinant ces deux mécanismes, un modèle de langage pré-entraîné de ROM est proposé.

Faites des expériences au MS MARCO et comparez les méthodes précédentes pour obtenir les meilleurs résultats. Dans les tâches réelles de recherche de scènes, cela peut également apporter de grandes améliorations. Dans le même temps, ce modèle a également participé aux classements MS.

6. Modèle de reclassement HLATR

En plus de l'étape de rappel ROM, dans les étapes de classement fin et de reclassement, un ensemble de reclassements Transformer prenant en compte la liste est proposé, qui permettra d'affiner de nombreuses catégories. Les résultats du transformateur sont organiquement intégrés via le transformateur, ce qui entraîne une amélioration relativement importante.

En combinant les deux solutions ROM et HLATR, les résultats de mars à maintenant (juillet) sont toujours SOTA.

3. Application de recherche d'industrie

1. Produit d'analyse d'adresses

Le produit d'analyse d'adresse développé par DAMO Academy est basé sur le fait qu'il existe de nombreuses adresses de correspondance dans divers secteurs. Les adresses de correspondance chinoises présentent de nombreuses caractéristiques, telles que de nombreux défauts dans les expressions familières. En même temps, l'adresse elle-même est une personne ou une chose, et c'est une unité d'entité importante qui relie de nombreuses entités dans le monde objectif. Par conséquent, sur cette base, un ensemble de graphiques de connaissances d'adresses a été établi pour fournir l'analyse, la complétion, la recherche et l'analyse d'adresses.

Voici le schéma fonctionnel technique du produit. De bas en haut, il comprend la construction du graphe de connaissances des adresses et du modèle linguistique de pré-formation des adresses, y compris un cadre basé sur un moteur de recherche pour connecter l'ensemble du lien. Les capacités de référence mentionnées ci-dessus sont fournies sous forme d'API et intégrées dans des solutions industrielles.

L'un des points les plus importants de cette technologie est le modèle linguistique pré-entraîné de la sémantique géographique. Une adresse sera représentée sous forme de chaîne dans le texte, mais en fait, elle est souvent représentée par une longitude et une latitude dans l'espace, et il y a des images correspondantes sur la carte. Par conséquent, les informations de ces trois modalités sont organiquement intégrées dans un modèle de langage géo-sémantique multimodal pour prendre en charge les tâches sur place.

Comme mentionné ci-dessus, de nombreuses capacités de base liées aux adresses sont requises, telles que la segmentation des mots, la correction d'erreurs, la structuration et d'autres analyses.

Le lien principal est de les combler en reliant le modèle linguistique géographique de pré-formation, en abordant les tâches de base et en déclenchant les moteurs de recherche. Par exemple, si vous recherchez l'hôpital n°1 du Zhejiang, vous pouvez y effectuer une structuration, une correction des synonymes, une pondération des termes, une vectorisation et une prédiction Geohash. Effectuer un rappel basé sur les résultats de l'analyse. Ce lien est un lien de recherche standard qui effectue le rappel de texte, le rappel de pinyin, le rappel de vecteurs et ajoute également un rappel géographique. Le rappel est suivi d'un tri en plusieurs étapes, y compris la fusion de fonctionnalités multigranulaires.

L'application intuitive du système de recherche d'adresse consiste à remplir l'adresse dans la scène de suggestion, ou à rechercher dans la carte Amap, qui doit être mappée à un point de l'espace.

Ensuite, nous présenterons deux solutions d'application relativement industrielles. Le premier est le nouveau Family ID de vente au détail. L'exigence principale est de maintenir un système de gestion des clients. Cependant, les informations sur les utilisateurs dans chaque système ne sont pas connectées et une intégration efficace ne peut pas être réalisée.

Par exemple, un fabricant de marque vend un climatiseur et la famille enregistre diverses adresses et numéros de téléphone portable en raison de l'achat, de l'installation et de la maintenance, mais les adresses correspondantes sont en fait la même adresse. La technologie établie de normalisation de la recherche d'adresses normalise les adresses avec différentes représentations, génère des empreintes digitales et regroupe différents identifiants d'utilisateur dans le concept de famille.

Grâce au concept d'agrégation familiale, une meilleure analyse de pénétration, un placement publicitaire et d'autres activités de marketing dans le cadre d'un nouveau commerce de détail peuvent être obtenus.

Un autre scénario d'application est 119, 129, des applications de réception d'alarme d'urgence et autres intelligentes. Parce que la sécurité des personnes et des biens est en jeu, chaque seconde compte. Nous espérons améliorer cette efficacité en combinant les technologies de reconnaissance vocale et de compréhension sémantique de texte.

(exemple à gauche) La scène présente de nombreuses caractéristiques, telles que des fautes de frappe, un manque de fluidité, un langage familier et d'autres problèmes de transcription ASR. L’objectif est de déduire l’emplacement d’une alarme sur la base d’une analyse automatisée de la transcription vocale.

Nous avons proposé une solution système complète, comprenant la compréhension des dialogues, la correction fluide du langage parlé, la reconnaissance des intentions et une combinaison d'un ensemble de recherches allant du rappel au brouillon mécanisme de sélection et de sélection fine pour finalement mettre en œuvre la recommandation d'adresse. Le lien est relativement mature et a été mis en œuvre dans les systèmes de protection incendie de centaines de villes en Chine ; les pompiers identifient des emplacements spécifiques à partir de conversations d'alarme, combinent des recommandations, des correspondances et adressent des clôtures pour déterminer les emplacements spécifiques et envoyer des alarmes en conséquence.

2. Questions de recherche de photos éducatives

Ensuite, nous présenterons le secteur de la collection de photos dans le secteur de l'éducation, qui est également très demandé en To C et pour les enseignants.

La question de recherche de photos possède plusieurs fonctionnalités. Elle dispose d'une banque de questions mise à jour progressivement et dispose d'une large base d'utilisateurs. De plus, les domaines correspondant aux différentes disciplines et tranches d’âge sont très pointus. En même temps, il s’agit d’un algorithme multimodal, avec un ensemble de liens allant de l’OCR à la compréhension et à la recherche sémantiques ultérieures.

Ces dernières années, un ensemble complet de liens allant des algorithmes aux systèmes a été construit pour la collection de photos.

Par exemple, après avoir pris une photo avec un téléphone portable et la reconnaissance OCR, une série de tâches telles que la correction orthographique, la prédiction du sujet, la segmentation des mots et la pondération des mots seront effectuées pour faciliter la récupération.

Étant donné que l'OCR ne reconnaît pas les espaces en anglais, un ensemble de modèles d'algorithmes de pré-formation en anglais K12 ont été formés pour segmenter l'anglais.

Dans le même temps, les sujets et les types de questions sont inconnus et doivent être prédits à l'avance. Utilisez la multimodalité pour combiner des images et du texte afin de comprendre l’intention.

Les questions de recherche de photos sont différentes des recherches d'utilisateurs ordinaires. Les recherches d'utilisateurs ont tendance à avoir des requêtes plus courtes, tandis que les questions de recherche de photos sont souvent une question complète. De nombreux mots dans la question sont sans importance et il est nécessaire de procéder à une analyse du poids des mots, de supprimer les mots sans importance ou de les trier pour les déclasser.

L'effet d'optimisation le plus évident dans la scène de recherche de photos est le rappel vectoriel. Les exigences de performances rendent difficile l'utilisation du mécanisme de rappel OU et nécessitent l'utilisation de la logique ET. La caractéristique correspondante est qu'il y a relativement peu de rappels. Pour améliorer le rappel, vous devez créer davantage de modules redondants tels que la pondération des termes et la correction des erreurs. (Image de droite) L'effet de rappel multicanal du texte et du vecteur dépasse celui de la logique OU pure et la latence est réduite de 10 fois.

Les liens de recherche de photos incluent le rappel de vecteurs d'images, le rappel de formule et le rappel personnalisé.

Donnez deux exemples. Le premier est le résultat OCR du texte brut. (Colonne de gauche) L'ancien résultat est basé sur ES, simple rappel OU, plus le résultat de BM25 (colonne de droite). Le lien après le rappel multicanal et le rappel de corrélation a été grandement. amélioré.

La seconde consiste à prendre des photos contenant des graphiques, qui doivent être combinés avec un rappel d'image sur plusieurs canaux.

3. Recherche unifiée de la base de connaissances puissante

Il existe de nombreuses données semi-structurées et non structurées dans la recherche d'entreprise, fournissant une recherche unifiée pour aider les entreprises à intégrer les données ressources . Non seulement dans le domaine de l’énergie électrique, d’autres industries ont également des besoins similaires. La recherche ici n'est plus une recherche étroite, mais inclut également l'IA du prétraitement des documents et la construction de graphiques de connaissances, ainsi que la possibilité de relier ultérieurement les questions et réponses. Ce qui précède est un diagramme schématique de la création d'un ensemble de textes standards institutionnels dans la base de connaissances sur l'énergie électrique, de la structuration à la récupération jusqu'à l'application.