Regardez des vidéos, dessinez en CAO et reconnaissez les images animées ! Le grand modèle industriel multimodal du 75B est si performant-IA-php.cn

L'objectif de la mise à niveau de cette année est l'introduction de capacités multimodales de grands modèles.

Alors que les compositions vidéo et musicales créées par Sora et Suno déclenchent une révolution audiovisuelle dans le monde, comment les applications multimodales à grande échelle dans l'industrie évolueront-elles ? Le 27 mars, en tant que principal fournisseur chinois de solutions de « fabrication IA+ », Innovation Qizhi a dévoilé sa réponse prospective.

Après six mois de travail acharné, Innovation Qizhi a publié la version plus puissante Qizhi Haiming Industrial Large Model 2.0 (AInno-75B) lors d'une conférence de presse tenue à Pékin. Plusieurs applications natives de grands modèles ont également fait leurs débuts, notamment ChatVision, ChatCAD et ChatRobot qui ont également été mis à niveau vers la version Pro.

Regardez des vidéos, dessinez en CAO et reconnaissez les images animées ! Le grand modèle industriel multimodal du 75B est si performant

^{en sortie}

quantité. À l'heure actuelle, un certain consensus s'est formé sur l'interface. L'amélioration des paramètres peut améliorer les performances du modèle. Par rapport à AInno-15B, AInno-75B a réalisé une croissance significative en termes de taille et de performances.

La mise à niveau de cette année se concentre sur l’introduction de capacités multimodes pour grands modèles. Zhang Faen a expliqué que ce grand modèle avancé peut traiter plusieurs modalités d'information, notamment du texte, des images et des vidéos, et peut même intégrer des types de données propres aux scénarios industriels, tels que des dessins CAO et des signaux EEG. Sa sortie est tout aussi diversifiée et peut générer du texte, des images, des vidéos, des dessins de conception CAO ou des comportements de fonctionnement du corps d'outil.

Regardez des vidéos, dessinez en CAO et reconnaissez les images animées ! Le grand modèle industriel multimodal du 75B est si performant

1. ChatCAD : La beauté du "Diagramme Wen Sheng" industriel

Les images et les vidéos générées par l'application C-side AIGC sont à couper le souffle, et dans le domaine des services d'entreprise, le Les capacités de génération d’IA sont tout aussi passionnantes.

Le design industriel est la pierre angulaire des activités de production. Des téléphones portables aux usines de véhicules à énergie nouvelle, le design industriel doit être achevé avant la production et la construction. En tant que fondement du design industriel, les logiciels de CAO occupent une place importante dans la chaîne industrielle. Pendant longtemps, le marché chinois des logiciels de CAO multimédia a été dominé par des fabricants étrangers, avec des interfaces complexes et des barrières d'utilisation élevées.

Wang Xian, directeur général des opérations de China IPIM International Mechanical Engineering Co., Ltd., a révélé que la plupart de leur travail de conception repose sur le travail manuel. Un seul bâtiment, qu'il s'agisse d'un étage standard ou d'un complexe, nécessite que les concepteurs le dessinent un par un. Il en va de même pour les dessins industriels, qui consomment beaucoup de main d'œuvre et de ressources matérielles. De plus, il existe de nombreuses spécifications industrielles et des révisions fréquentes, ce qui augmente encore la difficulté de conception.

Afin de mettre fin à cette situation, Chuangxinqizhi a pris l'initiative d'introduire la technologie industrielle des grands modèles dans le domaine du design industriel et a lancé une application Text-to-CAD - "ChatCAD" : via un simple format de dialogue et de questions-réponses. , vous pouvez rapidement comprendre l'intention créative du concepteur, générer automatiquement des dessins de conception industrielle qui répondent aux exigences et prendre en charge l'exportation vers un logiciel traditionnel pour un réglage précis.

Entrez "Aidez-moi à concevoir une poulie industrielle. Les paramètres sont les suivants : le rayon de la poulie est de 6, l'épaisseur est de 5, le bord de la poulie dépasse de 0,8 vers l'extérieur, l'épaisseur de la partie saillante est de 0,5, le la hauteur de l'axe central de la poulie est de 5 et le rayon est de 4". ChatCAD génère des illustrations immédiatement et affine continuellement la conception en fonction des commentaires.^{Démonstration en direct de la conception de poulies industrielles}

Même si vous êtes confronté à des exigences de conception de composants longues et complexes, ChatCAD peut les gérer. Par exemple, "Aidez-moi à concevoir une turbine. La turbine se compose d'un moteur et d'un capot moteur. Les exigences spécifiques sont les suivantes : le moteur est cylindrique, mesure 20 de longueur et 16 de diamètre. La turbine se compose d'un arbre de turbine cylindrique. et 5 pales de ventilateur. L'arbre de la turbine a une longueur de 20, le diamètre est de 12, le haut de la turbine doit avoir un arbre rotatif conique cylindrique, la longueur du capuchon de l'arbre est de 9, le diamètre est de 12, le diamètre du capot est de 50, le la longueur est de 30 et la distance entre la pale de turbine et le capot est de 1. «

ChatCAD peut toujours générer des résultats et continuer à s'améliorer en fonction des commentaires. Les conceptions générées par ChatCAD prennent également en charge les formats de fichiers courants et peuvent être connectées de manière transparente à d'autres logiciels industriels pour faciliter l'intégration et la modification ultérieures.

^{Démonstration en direct de la conception d'une turbine}

Cette fonctionnalité rend M. Wang très enthousiasmé. Il estime que ChatCAD devrait aider l'industrie à réduire le travail répétitif et à éviter les restrictions de spécifications rigides, affectant ainsi les devis manuels de l'ensemble du secteur.

Alors, comment ChatCAD est-il implémenté ? Zhang Faen a expliqué que la CAO est différente des modalités courantes telles que le texte, les images et les vidéos. Elle doit représenter des données géométriques telles que des points, des lignes, des bords, des cercles, des colonnes et des processus. "Nous l'appelons donc aussi une modalité, qui est une modalité que le côté C n'a pas. Nous devons inventer notre propre langage intermédiaire pour exprimer la CAO, générer ce langage intermédiaire ou code intermédiaire pour les grands modèles, puis traduire ces codes intermédiaires. en CAD "

^{La démo de ChatCAD officiellement publiée}

Zhang Fa'en a dit franchement que les dessins simples actuels générés par ChatCAD peuvent être directement utilisés pour le traitement, mais les conceptions complexes doivent encore être améliorées. L'objectif de ChatCAD est de devenir un assistant de droite pour les ingénieurs des instituts de design. Il devrait raccourcir le processus de conception qui prenait initialement dix heures à une heure, le grand modèle étant responsable de 90 % du travail et les 10 % restants étant optimisés manuellement.

Il convient de mentionner que Chuangxinqizhi a intégré avec succès une technologie avancée de grands modèles dans divers logiciels industriels tels que la CAO, le MES et la BI, réalisant l'intelligentisation de l'ensemble du processus de « conception R&D-contrôle de production-gestion de l'information » Rénovations et mises à niveau.

2. ChatVision : un nouvel outil de supervision de la sécurité industrielle

La sécurité et la conformité de la production en usine sont cruciales, et la vidéosurveillance et l'analyse d'images sont indispensables. Prenons l'exemple du brasage à la vague dans une usine de cartes cartonnées. Lorsque les travailleurs nettoient des fours à étain à haute température à 280 degrés, s'ils ne portent pas strictement des équipements de protection de sécurité, tels que des masques hermétiques à charbon actif, des gants de protection haute température, etc. ., il existe un risque de brûlures graves.

Les méthodes de surveillance traditionnelles sont inefficaces, il est facile de rater les dangers cachés et présentent un retard évident dans les inspections ultérieures. Basé sur le grand modèle industriel Alnno-75B, ChatVision peut analyser les flux vidéo de surveillance, les fichiers vidéo et les images en temps réel grâce au langage naturel, identifier avec précision les comportements non conformes et déclencher immédiatement le système d'alarme (comme l'envoi automatique d'e-mails aux administrateurs) pour aider la sécurité des entreprises industrielles Production.

Lors de la démonstration en direct lors de la conférence de presse, ChatVision a répondu avec précision à des commandes de compréhension globale telles que "Regardez attentivement l'écran actuel et dites-moi où cela pourrait être", ainsi que "Trouvez la prise de courant sur l'écran", " Trouvez le casque de sécurité blanc", etc. Des tâches spécifiques de reconnaissance de cibles montrent ses larges perspectives d'application.

Lors de la démonstration sur place, C 演Hasion a trouvé les objectifs précis tels que la prise de courant sur la photo " et " trouver le casque blanc ".

Ces instructions semblent très simples, non Dans le Dans le cas des grands modèles, des algorithmes spécifiques doivent être développés pour chaque petite catégorie de reconnaissance (comme les casques de sécurité et le tabagisme). Il est difficile à modifier après le débogage et le déploiement, et le coût de mise en œuvre est élevé et le cycle est long. Les grands modèles renversent le paradigme traditionnel.Un seul grand modèle peut couvrir les fonctions de plusieurs petits modèles, il surpasse tous les aspects en termes de performances, de précision et de capacités de généralisation, et prend en charge l'interaction en langage naturel, ce qui simplifie considérablement le processus de développement et de déploiement.Lors de la démonstration en direct, l'écran a changé : un collègue l'a enlevé Pendant que l'ouvrier jouait avec son téléphone portable, un autre collègue a enlevé ses vêtements de sécurité et a donné une consigne : « Veuillez analyser attentivement cette image et envoyer un email à. l'administrateur s'il y a des violations. -modéliser des applications natives. En conséquence, ChatVision utilise de nombreuses compétences de surveillance de la sécurité en arrière-plan pour identifier et pas seulement marquer trois violations. Appelez des outils externes pour effectuer des tâches complexes de compréhension vidéo de manière ordonnée. Innovation Qizhi CTO Zhang Faen a déclaré que la société a accumulé plus de 200 actifs d'algorithmes visuels et de modèles au cours des dernières années, et que les grands modèles industriels ont ouvert un nouveau monde pour l'application de ces actifs. orchestrateur intelligent pour optimiser l'expérience utilisateur, mais ses capacités multimodales peuvent également améliorer la compréhension vidéo et jouer un rôle important dans le domaine de la sécurité de l'entreprise^.

Le dernier cas de démonstration met en évidence l'application de pointe des grands modèles dans le domaine multimodal. Face à une véritable vidéo d'atelier, la manifestante a émis une exigence difficile : "S'il vous plaît, analysez attentivement cette vidéo, dites-moi si quelqu'un mange et notez l'heure à laquelle cette action s'est produite." Cette tâche nécessite un grand modèle pour effectuer une reconnaissance continue des actions sur des images de séquences à long terme et marquer les heures de début et de fin des actions. En conséquence, ChatVision a localisé avec précision la scène où les travailleurs mangeaient dans les 15 premières secondes de la vidéo.

"Manger est un événement très courant, et la capacité des grands modèles à comprendre les événements est bien meilleure que celle des petits modèles algorithmiques traditionnels." Depuis longtemps, il est urgent d’assurer la sécurité de la production et de l’ingénierie grâce à la vidéo. À l’avenir, des travaux connexes autour de grands modèles devraient permettre d’obtenir une compréhension vidéo intelligente des conditions de sécurité de la production et de la conformité des processus de production.
Pour Wang Xian, la sécurité est toujours la priorité absolue dans les projets d’ingénierie. Pendant de nombreuses années, la formation technique en matière de sécurité implique rarement l’identification des dangers sur site. Il estime que ChatVision a de larges perspectives d'application et devrait être mis en œuvre dans des scénarios tels que la détection de casques de sécurité sur site, le port de cordes de sécurité à haute altitude et le transport d'équipements de sécurité. ChatVision présente également un grand potentiel dans le secteur de la supervision. Actuellement, de nombreuses inspections de sécurité sur site dépendent encore fortement de la main-d'œuvre.
3. ChatRobot Pro : "Motion Imagination Recognition"
L'application native d'AInno-15B, ChatRobot, a implémenté le contrôle vocal des robots industriels. Dites simplement à ChatRobot « Apportez-moi une tasse de café » et il pourra demander au bras du robot industriel de rechercher du café sur l'étagère et de concevoir son propre itinéraire pour vous livrer la marchandise. ChatRobot Pro peut traiter des signaux EEG porteurs d'informations plus complexes.

Lors de la conférence de presse, le manifestant a sélectionné au hasard un produit (Uniform Green Tea) et a demandé à une personne munie de plusieurs électrodes fixées sur son cuir chevelu d'utiliser son imagination motrice pour contrôler un robot industriel afin de lui mettre la boisson entre les mains. L'homme qui porte le collector essaie de penser à trois choses : gauche, droite et sélection. Le curseur se déplace également vers la gauche et la droite sur l'écran en fonction des signaux traduits par le grand modèle. Lorsque le curseur se déplace vers l'icône cible, il regardera l'icône et cliquera sur le curseur pour la sélectionner.

Ensuite, ChatRobot Pro réalisera indépendamment l'orchestration intelligente des tâches, générera des étapes de tâche exécutables et interagira avec l'interface du robot industriel en temps réel pour demander au robot d'accomplir la tâche.
Les signaux EEG sont des signaux générés lors de l'activité cérébrale. La relation entre l'activité cérébrale et les signaux EEG est très complexe. Comment les décoder est devenu un problème majeur pour les chercheurs. Alors que les approches traditionnelles ont une faible précision, AInno-75B présente un potentiel pour interpréter ce type d’informations multimodales. Certaines technologies étrangères d'interface cerveau-ordinateur utilisent des électrodes invasives pour obtenir des signaux EEG, ce qui implique une série de problèmes d'ingénierie tels que la conception des électrodes, l'implantation chirurgicale, la réaction de rejet, la transmission du signal et le décodage du signal. Innovation Qizhi utilise des capuchons EEG non invasifs pour collecter des informations EEG, ce qui réduit considérablement les difficultés d'ingénierie.
Cependant, Zhang Faen a également déclaré que la méthode invasive peut obtenir plus de canaux et des signaux EEG plus clairs, ce qui facilitera le décodage ultérieur d'intentions cérébrales plus complexes. Une métaphore frappante est la suivante : la méthode invasive de collecte de signaux EEG équivaut à écouter un concert à l'intérieur d'un stade, tandis que la méthode non invasive équivaut à écouter un concert à l'extérieur du stade. Il y aura une grande différence dans la clarté du chant. . Actuellement, les travaux de recherche et développement menés par Chuangxinqizhi visent à vérifier les capacités multimodales des grands modèles industriels et à mener des recherches techniques préalables pour d'éventuels futurs scénarios d'automatisation industrielle contrôlés par le cerveau.
Il s'agit également d'une application native de bout en bout, a souligné Zhang Faen. L'ensemble du processus, depuis l'entrée du signal EEG jusqu'à la sortie directe du résultat final (un bras robotique livrant la marchandise au démonstrateur), est complété par le réseau neuronal, sans s'appuyer sur des fonctionnalités conçues à la main ou sur le traitement des données traditionnel.
En plus de l'interaction en langage naturel et de la reconnaissance de l'imagination motrice, ChatRobot Pro utilise également pleinement les capacités de raisonnement industriel de grands modèles pour réaliser une orchestration de tâches à longue séquence et une prise de décision complexe. Donner de puissantes capacités de contrôle intelligent et de prise de décision à différents organismes (qu'il s'agisse de bras robotiques industriels ou d'AGV, etc.) sera également l'orientation future du grand modèle innovant Qizhi Industrial.
4. Continuer à évoluer et à avancer
À l'ère de l'IA générative, il n'y a pas de précédent pour les applications industrielles. Qizhi a exploré diverses possibilités dans des scénarios industriels.
Zhang Faen qualifie de « prometteuse » la perspective de grands modèles dans le sens des services aux entreprises. Mais il a admis que pendant la période fenêtre du changement technologique, la compréhension de chacun est souvent inégale, en particulier pour les changements relativement importants, la compréhension des gens a besoin de temps pour être suivie, et il ne fait pas exception.
En plus des nouvelles applications natives, les performances et l'effet globaux de ChatDOC lancé l'année dernière ont été améliorés et les fonctions du produit sont devenues plus complètes. ChatBI a ajouté la prise en charge des données Excel et CSV, et désormais la précision de la génération d'instructions SQL et de rapports d'analyse a augmenté de 15 %. Les moteurs de diffusion de grands modèles sont plus faciles à déployer et offrent des performances d'inférence plus élevées.
"Innovation Qizhi perfectionnera davantage l'application ChatX construite directement sur la base des capacités de génération de base des grands modèles industriels", a déclaré Zhang Faen.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!