Fusion de données multimodales de mauvaise qualité, plusieurs institutions ont publié conjointement un article de synthèse-IA-php.cn

Maison

Fusion de données multimodales de mauvaise qualité, plusieurs institutions ont publié conjointement un article de synthèse

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 08, 2024 pm 07:40 PM

git 理论 Fusion multimodale

Fusion de données multimodales de mauvaise qualité, plusieurs institutions ont publié conjointement un article de synthèse

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

La fusion multimodale est l'une des tâches de base de l'intelligence multimodale.

La motivation de la fusion multimodale est d'utiliser conjointement des informations efficaces provenant de différentes modalités pour améliorer la précision et la stabilité des tâches en aval. Les méthodes traditionnelles de fusion multimodale reposent souvent sur des données de haute qualité et sont difficiles à adapter aux données multimodales complexes et de mauvaise qualité dans les applications réelles.

Une étude sur la fusion de données multimodales de faible qualité "Multimodal Fusion on Low-quality" publiée conjointement par l'Université de Tianjin, l'Université Renmin de Chine, l'Agence de Singapour pour la science, la technologie et la recherche, l'Université du Sichuan, l'Université de Xi'an de Electronic Science and Technology and Harbin Institute of Technology (Shenzhen) Data: A Comprehensive Survey" présente les défis de fusion des données multimodales dans une perspective unifiée et trie les méthodes de fusion existantes de données multimodales de faible qualité et le développement potentiel. orientations dans ce domaine.

Lien arXiv :

http://arxiv.org/abs/2404.18947

lien génial-list :

https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning

Modèle de fusion multimodale traditionnel

Les humains perçoivent le monde en fusionnant des informations provenant de plusieurs modalités.

Même lorsque les signaux de certaines modalités ne sont pas fiables, les humains ont la capacité de traiter ces signaux de données multimodales de faible qualité et de percevoir l'environnement.

Bien que l'apprentissage multimodal ait fait de grands progrès, les modèles d'apprentissage automatique multimodaux n'ont toujours pas la capacité de fusionner efficacement des données multimodales de faible qualité dans le monde réel. Dans la pratique, les performances des modèles de fusion multimodaux traditionnels diminueront considérablement dans les scénarios suivants :

(1) Données multimodales bruyantes : Certaines caractéristiques de certaines modalités sont perturbées par le bruit et la perte d'informations d'origine . Dans le monde réel, des facteurs environnementaux inconnus, des pannes de capteurs et une perte de signal pendant la transmission peuvent introduire des interférences sonores, nuisant ainsi à la fiabilité du modèle de fusion multimodale.

(2)Données multimodales manquantes : En raison de divers facteurs pratiques, certaines modalités des échantillons de données multimodales réellement collectées peuvent manquer. Par exemple, dans le domaine médical, les données multimodales composées des différents résultats d'examens physiologiques des patients peuvent manquer gravement, et certains patients peuvent n'avoir jamais subi un certain examen.

(3) Données multimodales déséquilibrées : En raison du phénomène incohérent d'attributs de codage hétérogènes et des différences de qualité de l'information entre les modalités, le problème d'un apprentissage déséquilibré entre les modalités se produit. Au cours du processus de fusion multimodale, le modèle peut trop s'appuyer sur certaines modalités et ignorer les informations potentiellement efficaces contenues dans d'autres modalités.

(4) Données multimodales dynamiques de faible qualité : En raison de la complexité et du changement de l'environnement d'application, des différents échantillons, du temps et de l'espace différents, la qualité modale a des caractéristiques changeantes dynamiques. L’apparition de données modales de mauvaise qualité est souvent difficile à prédire à l’avance, ce qui pose des défis à la fusion multimodale.

Afin de caractériser pleinement la nature et les méthodes de traitement des données multimodales de faible qualité, cet article résume les méthodes actuelles d'apprentissage automatique dans le domaine de la fusion multimodale de faible qualité, passe systématiquement en revue le processus de développement dans ce domaine et les questions qui nécessitent des recherches plus approfondies sont explorées plus en détail.

Fusion de données multimodales de mauvaise qualité, plusieurs institutions ont publié conjointement un article de synthèse

^{Figure 1. Diagramme schématique de la classification des données multimodales de faible qualité, le jaune et le bleu représentent les deux modalités, plus la couleur est foncée, plus la qualité est élevée}

Méthode de débruitage en multi-modal fusion

Définition du problème :

Le bruit est l'une des causes les plus courantes de dégradation de la qualité des données multimodales.

Cet article se concentre principalement sur deux types de bruit :

(1) Bruit multimodal lié au mode. Ce type de bruit peut être provoqué par des facteurs tels que des erreurs de capteurs (telles que des erreurs d'instruments dans le diagnostic médical), des facteurs environnementaux (tels que la pluie et le brouillard en conduite autonome), et le bruit est limité à certains niveaux de fonctionnalités dans un mode spécifique.

(2) Bruit cross-modal au niveau sémantique. Ce type de bruit est causé par le désalignement de la sémantique de haut niveau entre les modalités et est plus difficile à gérer que le bruit multimodal au niveau de la couche de fonctionnalités. Heureusement, en raison de la complémentarité entre les modes de données multimodaux et de la redondance des informations, la combinaison d'informations provenant de plusieurs modalités pour le débruitage s'est avérée être une stratégie efficace dans le processus de fusion multimodale.

Classification des méthodes :

Les méthodes de débruitage multimodal au niveau des fonctionnalités dépendent fortement des modalités spécifiques impliquées dans la tâche réelle.

Cet article prend principalement la tâche de fusion d'images multimodales comme exemple pour illustrer. Dans la fusion d'images multimodale, les méthodes de débruitage les plus courantes incluent la fusion pondérée et la variation conjointe.

Méthode de fusion pondéréeConsidérant que le bruit caractéristique est aléatoire et que les données réelles obéissent à une distribution spécifique, l'influence du bruit est éliminée par sommation pondérée

méthode de variation conjointe est l'expansion du simple traditionnel ; -le débruitage variationnel d'image modal peut transformer le processus de débruitage en un processus de résolution de problèmes d'optimisation et utiliser des informations complémentaires provenant de multiples modalités pour améliorer l'effet de débruitage. Le bruit multimodal au niveau sémantique résulte de paires d'échantillons multimodaux faiblement alignés ou mal alignés.

Par exemple, dans la tâche de détection de cible multimodale consistant à combiner des images RVB et thermiques, en raison des différences entre les capteurs, bien que la même cible apparaisse dans les deux modalités, sa position et son attitude précises sont Il peut y avoir de légères différences ( faible alignement) dans différentes modalités, ce qui pose des problèmes pour estimer avec précision les informations de position.

Dans la tâche de compréhension du contenu des médias sociaux, les informations sémantiques contenues dans les modalités d'image et de texte d'un échantillon (comme un Weibo) peuvent être très différentes, voire non pertinentes (complètement mal alignées), ce qui apporte encore plus de défis à la fusion multimodale. Les moyens de gérer le bruit sémantique intermodal incluent le filtrage de règles, le filtrage de modèles, la régularisation de modèles robustes au bruit et d'autres méthodes.

Perspectives d'avenir :

Bien que le traitement du bruit des données ait longtemps été largement étudié dans les tâches classiques d'apprentissage automatique, dans des scénarios multimodaux, comment utiliser conjointement les différences entre les modalités Complémentarité et cohérence pour affaiblir l'impact du bruit reste un problème de recherche urgent à résoudre.

De plus, contrairement au débruitage traditionnel au niveau des fonctionnalités, comment résoudre le bruit au niveau sémantique pendant le processus de pré-entraînement et d'inférence des grands modèles multimodaux est un problème intéressant et extrêmement difficile.

Fusion de données multimodales de mauvaise qualité, plusieurs institutions ont publié conjointement un article de synthèse

^{Tableau 1. Classification des méthodes de fusion multimodale pour le bruit}

Méthodes de fusion de données multimodales manquantes

Définition du problème :

Dans des scénarios réels Les données multimodales collectées sont souvent incomplètes. En raison de divers facteurs tels que des dommages au périphérique de stockage et un processus de transmission de données peu fiable, les données multimodales perdent souvent inévitablement une partie des informations modales.

Par exemple : dans le système de recommandation, l'historique de navigation et la cote de crédit de l'utilisateur constituent des données multimodales. Cependant, en raison de problèmes d'autorisation et de confidentialité, il est souvent impossible de collecter complètement toutes les informations modales de l'utilisateur à construire. données multimodales.

Dans le diagnostic médical, en raison du matériel limité dans certains hôpitaux et du coût élevé des examens spécifiques, les données diagnostiques multimodales des différents patients sont souvent très incomplètes.

Classification des méthodes :

Selon le principe de classification « si l'achèvement explicite des données multimodales manquantes est requis », les méthodes de fusion de données multimodales manquantes peuvent être divisées en :

(1) Méthode de fusion multimodale basée sur la complétion

La méthode de fusion multimodale basée sur la complétion comprend des méthodes de complétion indépendantes du modèle : telles que le remplissage direct des modes manquants avec des valeurs 0 ou des modes résiduels Méthode de complétion de la moyenne ;

Méthode de complétion basée sur un graphe ou un noyau : ce type de méthode n'apprend pas directement comment compléter les données multimodales originales, mais construit un graphe ou un noyau pour chaque modalité, puis apprend les informations de similarité ou de corrélation. entre les paires d'échantillons, puis complétez les données manquantes ;

complétez directement le niveau de fonctionnalité d'origine : certaines méthodes utilisent des modèles génératifs, tels que le réseau contradictoire génératif GAN et ses variantes Complétez directement les fonctionnalités manquantes.

(2) Méthode de fusion multimodale sans complétion.

Différentes des méthodes basées sur la complétion, les méthodes qui ne nécessitent pas de complétion se concentrent sur la façon d'utiliser les informations utiles contenues dans les modalités non manquantes pour fusionner les meilleures représentations possibles. Ce type de méthode a souvent un impact négatif. sur ce qui est attendu d'être appris. La représentation unifiée ajoute des contraintes afin que cette représentation puisse refléter les informations complètes des données modales observables pour contourner le processus d'achèvement de la fusion multimodale. Fusion de données multimodales de mauvaise qualité, plusieurs institutions ont publié conjointement un article de synthèse

Bien que de nombreuses méthodes aient été proposées au pays et à l'étranger pour résoudre le clustering. Problèmes de fusion de données multimodales incomplètes dans les tâches classiques d'apprentissage automatique telles que la classification et la classification, mais il existe encore des défis plus profonds.

Exemple : L'évaluation de la qualité des données d'achèvement dans les programmes d'achèvement modal manquants est souvent négligée.

De plus, la stratégie consistant à utiliser des informations de localisation de données manquantes a priori pour masquer les modalités manquantes elle-même est difficile à combler le manque d'information et le déséquilibre d'information provoqués par les modalités manquantes.

Tableau 2. Classification des méthodes de fusion pour les données multimodales manquantes

Définition du problème :

Dans de nombreux Dans l'apprentissage modal, la formation conjointe est généralement utilisée pour intégrer des données de différentes modalités afin d'améliorer les performances globales et les performances de généralisation de le modèle. Cependant, ce type de paradigme de formation conjointe largement adopté qui utilise un objectif d’apprentissage unifié ignore l’hétérogénéité des données selon les différentes modalités.

D'une part,

L'hétérogénéité des différentes modalités en termes de sources de données et de formulaires

leur confère des caractéristiques différentes en termes de vitesse de convergence, etc., ce qui rend difficile le bon traitement et l'apprentissage de toutes les modalités en même temps, cela entraîne des difficultés pour l'apprentissage conjoint multimodal

D'un autre côté, cette différence se reflète également dans la qualité des

données monomodales

. Bien que toutes les modalités décrivent le même concept, elles varient dans la quantité d'informations liées à l'événement cible ou à l'objet cible. Les réseaux de neurones profonds basés sur l'objectif d'apprentissage du maximum de vraisemblance ont des caractéristiques d'apprentissage gourmandes, ce qui donne lieu à des modèles multimodaux qui reposent souvent sur des modalités de haute qualité avec des informations hautement discriminantes et sont plus faciles à apprendre, tout en modélisant insuffisamment d'autres informations modales.

Afin de relever ces défis et d'améliorer la qualité de l'apprentissage des modèles multimodaux, des recherches connexes sur

l'apprentissage multimodal équilibré

ont récemment reçu une large attention.

Classification des méthodes :

Selon différents angles d'équilibre, les méthodes associées peuvent être divisées en

méthodes basées sur des différences caractéristiques

et
méthodes basées sur des différences de qualité

(1) Les cadres de formation conjointe multimodaux largement utilisés
ignorent souvent les différences inhérentes aux propriétés d'apprentissage

des données monomodales, ce qui peut avoir un impact négatif sur les performances du modèle. La méthode basée sur les différences caractéristiques part des différences dans les caractéristiques d'apprentissage de chaque modalité et tente de résoudre ce problème en termes d'objectifs d'apprentissage, d'optimisation et d'architecture.

(2) Des recherches récentes ont en outre révélé que les modèles multimodaux
s'appuient souvent fortement sur certaines modalités d'information de haute qualité

tout en ignorant d'autres modalités, ce qui entraîne un apprentissage insuffisant de toutes les modalités. Les méthodes basées sur les différences de qualité partent de cette perspective et tentent de résoudre ce problème et de promouvoir l'utilisation équilibrée de différentes modalités dans les modèles multimodaux du point de vue des objectifs d'apprentissage, des méthodes d'optimisation, de l'architecture du modèle et de l'amélioration des données.

Tableau 3. Classification des méthodes de fusion de données multimodales équilibrées La méthode d'apprentissage cible principalement l'hétérogénéité des données multimodales. Les différences de caractéristiques d'apprentissage ou de qualité des données entre les différentes modalités. Ces méthodes proposent des solutions sous différentes perspectives telles que les objectifs d'apprentissage, les méthodes d'optimisation, l'architecture du modèle et l'amélioration des données.

L'apprentissage multimodal équilibré est actuellement un domaine en plein essor, avec de nombreuses directions théoriques et applicatives qui n'ont pas été pleinement explorées. Par exemple, les méthodes actuelles se limitent principalement aux tâches multimodales typiques, qui sont principalement des tâches discriminatives et quelques tâches génératives.

De plus, les grands modèles multimodaux doivent également combiner des données modales avec des qualités différentes. Sur cette base, il est prévu d'étendre les modèles existants dans des scénarios de grands modèles multimodaux. Rechercher ou concevoir de nouvelles solutions.

Méthode de fusion multimodale dynamique

Définition du problème :

Données multimodales dynamiques
fait référence au fait que la qualité des modalités varie selon l'entrée exemples et scénarios Changements dynamiques. Par exemple, dans des scénarios de conduite autonome, le système obtient des informations sur la surface de la route et les cibles grâce à des capteurs RVB et infrarouges. Dans de bonnes conditions d'éclairage, la caméra RVB peut mieux soutenir la prise de décision du système intelligent car elle peut capturer la richesse des textures et des couleurs. informations de la cible ;

Cependant, la nuit, lorsque la lumière est insuffisante, les informations de perception fournies par le capteur infrarouge sont plus fiables. Comment permettre au modèle de percevoir automatiquement les changements de qualité des différentes modalités, afin d'effectuer une fusion précise et stable, est la tâche principale de la méthode de fusion multimodale dynamique. Tableau 4. Classification des méthodes de fusion multimodale dynamique

Les méthodes de fusion multimodale dynamique peuvent être grossièrement divisées en trois catégories :

(1) Méthode de fusion dynamique heuristique :

La fusion dynamique heuristique La méthode repose sur la compréhension du concepteur d'algorithmes du scénario d'application du modèle multimodal et est généralement obtenue en introduisant un

mécanisme de fusion dynamique

ciblé.

Par exemple, dans la tâche de détection de cible multimodale de la collaboration RVB/signal thermique, les chercheurs ont conçu de manière heuristique un module de perception de la lumière pour évaluer dynamiquement la situation d'éclairage de l'image d'entrée et ajuster dynamiquement les poids RVB et Fusion. de modalités thermiques pour l’adaptation environnementale. Lorsque la luminosité est élevée, le mode RVB est principalement utilisé pour la prise de décision, et vice versa, le mode thermique est principalement utilisé pour la prise de décision.

(2) Méthode de fusion dynamique basée sur le mécanisme d'attention :

La méthode de fusion dynamique basée sur le mécanisme d'attention se concentre principalement sur la

fusion de la couche de présentation
. Le mécanisme d'attention lui-même a des caractéristiques dynamiques, il peut donc être naturellement utilisé dans des tâches de fusion dynamique multimodale.

L'attention personnelle, l'attention spatiale, l'attention du canal et le transformateur et d'autres mécanismes sont largement utilisés dans la construction de modèles de fusion multimodaux. De telles méthodes apprennent automatiquement à effectuer une fusion dynamique, en fonction des objectifs des tâches. La fusion basée sur le mécanisme d'attention peut s'adapter dans une certaine mesure à des données multimodales dynamiques de faible qualité en l'absence de conseils explicites ou heuristiques.

(3) Méthodes de fusion dynamique tenant compte de l'incertitude :

Les méthodes de fusion dynamique tenant compte de l'incertitude ont souvent des

mécanismes de fusion plus clairs et explicables
. Différentes des modes de fusion complexes basés sur des mécanismes d'attention, les méthodes de fusion dynamique tenant compte de l'incertitude s'appuient sur des estimations d'incertitude des modalités (telles que les preuves, l'énergie, l'entropie, etc.) pour s'adapter aux données multimodales de faible qualité.

Plus précisément, la perception de l'incertitude peut être utilisée pour caractériser les changements de qualité de chaque mode des données d'entrée. Lorsque la qualité d'une certaine modalité de l'échantillon d'entrée devient faible, l'incertitude de la prise de décision du modèle basée sur cette modalité devient plus élevée, fournissant des indications claires pour la conception ultérieure du mécanisme de fusion. De plus, par rapport aux heuristiques et aux mécanismes d’attention, les méthodes de fusion dynamique tenant compte de l’incertitude peuvent offrir de bonnes garanties théoriques.

Perspectives d'avenir :

Bien que la supériorité des méthodes de fusion dynamique tenant compte de l'incertitude ait été prouvée expérimentalement et théoriquement dans les tâches de fusion multimodales traditionnelles, cependant, dans les modèles multimodaux de In SOTA (non limitées aux modèles de fusion, tels que CLIP/BLIP, etc.), les idées dynamiques ont également un grand potentiel d'exploration et d'application.

De plus, les mécanismes de fusion dynamique avec des garanties théoriques sont souvent limités au niveau décisionnel. Comment les faire fonctionner au niveau de la représentation mérite également d'être réfléchi et exploré.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

Repo: Comment relancer ses coéquipiers

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

4 Il y a quelques semaines By DDD

R.E.P.O. Enregistrer l'emplacement du fichier: où est-il et comment le protéger?

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7364

Tutoriel Java

1628

Tutoriel CakePHP

1353

Tutoriel Laravel

1265

Tutoriel PHP

1214

Afficher plus

Related knowledge

Comment installer Deepseek Feb 19, 2025 pm 05:48 PM

Il existe de nombreuses façons d'installer Deepseek, notamment: Compiler à partir de Source (pour les développeurs expérimentés) en utilisant des packages précompilés (pour les utilisateurs de Windows) à l'aide de conteneurs Docker (pour le plus pratique, pas besoin de s'inquiéter de la compatibilité), quelle que soit la méthode que vous choisissez, veuillez lire Les documents officiels documentent soigneusement et les préparent pleinement à éviter des problèmes inutiles.

Résumé des FAQ pour une utilisation profonde Feb 19, 2025 pm 03:45 PM

Deepseekai Tool User Guide et FAQ Deepseek est un puissant outil intelligent AI. FAQ: La différence entre les différentes méthodes d'accès: il n'y a pas de différence de fonction entre la version Web, la version de l'application et les appels API, et l'application n'est qu'un wrapper pour la version Web. Le déploiement local utilise un modèle de distillation, qui est légèrement inférieur à la version complète de Deepseek-R1, mais le modèle 32 bits a théoriquement une capacité de version complète de 90%. Qu'est-ce qu'une taverne? SillyTavern est une interface frontale qui nécessite d'appeler le modèle AI via l'API ou le olllama. Qu'est-ce que la limite de rupture

Quels sont les outils d'IA ? Nov 29, 2024 am 11:11 AM

Les outils d'IA incluent : Doubao, ChatGPT, Gemini, BlenderBot, etc.

Quels sont les fonds de fiducie de cryptage en niveaux de gris? Mar 05, 2025 pm 12:33 PM

Investissement en niveaux de gris: le canal des investisseurs institutionnels pour entrer sur le marché des crypto-monnaies. La société a lancé plusieurs fiducies cryptographiques, ce qui a attiré une attention généralisée, mais l'impact de ces fonds sur les prix des jetons varie considérablement. Cet article présentera en détail certains des principaux fonds de fiducie de crypto de Graycale. Grayscale Major Crypto Trust Funds disponibles dans un investissement GrayScale GRAYS (fondée par DigitalCurrencyGroup en 2013) gère une variété de fonds fiduciaires d'actifs cryptographiques, fournissant des investisseurs institutionnels et des particuliers élevés avec des canaux d'investissement conformes. Ses principaux fonds comprennent: ZCash (Zec), Sol,

Delphi Digital: Comment changer la nouvelle économie d'IA en analysant la nouvelle architecture Elizaos V2? Mar 04, 2025 pm 07:00 PM

ElizaOSV2: L'autonomisation de l'IA et de la direction de la nouvelle économie de WEB3. Cet article plongera dans les principales innovations d'ElizaOSV2 et comment elle façonne une économie future axée sur l'IA. Automatisation de l'IA: Aller exploiter indépendamment Elizaos était à l'origine un cadre d'IA axé sur l'automatisation Web3. La version V1 permet à l'IA d'interagir avec les contrats intelligents et les données de la blockchain, tandis que la version V2 atteint des améliorations de performances significatives. Au lieu d'exécuter simplement des instructions simples, l'IA peut gérer indépendamment les workflows, exploiter des affaires et développer des stratégies financières. Mise à niveau de l'architecture: amélioré un

Alors que les principaux marchands entrent sur le marché de la cryptographie, quel impact sur les titres de château auront-ils sur l'industrie? Mar 04, 2025 pm 08:03 PM

L'entrée des principaux acteurs du marché Castle Securities dans Bitcoin Market Maker est un symbole de la maturité du marché Bitcoin et une étape clé pour les forces financières traditionnelles pour concurrencer le pouvoir de tarification des actifs. Le 25 février, selon Bloomberg, Citadel Securities cherche à devenir un fournisseur de liquidité pour les crypto-monnaies. La société vise à rejoindre la liste des fabricants de marché sur divers échanges, y compris les échanges exploités par CoinbaseGlobal, Binanceholdings et Crypto.com, ont déclaré des personnes familières avec l'affaire. Une fois approuvé par l'échange, la société prévoyait initialement de créer une équipe de fabricants de marchés en dehors des États-Unis. Ce mouvement n'est pas seulement un signe

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux Mar 12, 2025 pm 01:03 PM

Des chercheurs de l'Université de Shanghai Jiaotong, de Shanghai Ailab et de l'Université chinoise de Hong Kong ont lancé le projet open source Visual-RFT (visual d'amélioration), qui ne nécessite qu'une petite quantité de données pour améliorer considérablement les performances du gros modèle de langage visuel (LVLM). Visual-RFT combine intelligemment l'approche d'apprentissage en renforcement basée sur les règles de Deepseek-R1 avec le paradigme de relâchement de renforcement d'OpenAI (RFT), prolongeant avec succès cette approche du champ de texte au champ visuel. En concevant les récompenses de règles correspondantes pour des tâches telles que la sous-catégorisation visuelle et la détection d'objets, Visual-RFT surmonte les limites de la méthode Deepseek-R1 limitée au texte, au raisonnement mathématique et à d'autres domaines, fournissant une nouvelle façon de formation LVLM. Vis