Am 5. Juli gab die Ant Group auf dem Forum „Vertrauenswürdige große Modelle helfen industrielle Innovation und Entwicklung“ auf der Weltkonferenz für künstliche Intelligenz 2024 den neuesten Entwicklungsfortschritt ihres selbst entwickelten Bailing-Modells bekannt: Das Bailing-Modell hat die Fähigkeit zu „sehen“. „Die nativen multimodalen Fähigkeiten „Zuhören“, „Sprechen“ und „Zeichnen“ können multimodale Daten wie Audio, Video, Bilder, Text usw. direkt verstehen und trainieren. Native Multimodalität gilt als einzige Möglichkeit zur AGI. In China haben nur wenige große Modellhersteller diese Fähigkeit erreicht. Der Reporter erkannte bei der Demonstration auf der Konferenz, dass die multimodale Technologie große Modelle dazu bringen kann, mehr wie Menschen wahrzunehmen und zu interagieren, was die Verbesserung des intelligenten Körpererlebnisses unterstützt und auf den „Alipay Intelligent Assistant“ angewendet wird Unterstützen Sie in Zukunft intelligentere Agenten-Upgrades.
1. (Xu Peng, Vizepräsident der Ant Group, stellte die nativen multimodalen Fähigkeiten von Bailing Large Model vor)
- Die multimodalen Fähigkeiten von Bailing Large Model haben in der chinesischen Grafik das GPT-4o-Niveau erreicht Das MMBench-CN-Bewertungsset für Textverständnis und Textverständnis hat in der multimodalen Sicherheitsfähigkeitsbewertung der Akademie für Informations- und Kommunikationstechnologie die hervorragende (höchste) Bewertung erreicht und ist in der Lage, umfangreiche Anwendungen zu unterstützen, und kann eine Reihe unterstützen von nachgelagerten Aufgaben wie AIGC, grafischer Dialog, Videoverständnis und digitale Menschen.
- Multimodale Großmodelltechnologie kann es der KI ermöglichen, die komplexen Informationen der menschlichen Welt besser zu verstehen und sie bei Anwendung auch besser an die menschlichen Interaktionsgewohnheiten anzupassen. Sie hat in vielen Bereichen großes Potenzial gezeigt, beispielsweise im intelligenten Kundenservice und im autonomen Bereich Fahrverhalten und medizinische Diagnosemöglichkeiten.
- Ant Group verfügt über eine Fülle von Anwendungsszenarien. Die multimodalen Fähigkeiten des großen Modells von Bailing wurden auch in Lebensdiensten, Suchempfehlungen, interaktiver Unterhaltung und anderen Szenarien eingesetzt.
- In Bezug auf Life-Services verwendet Ant Group multimodale Modelle zur Implementierung der ACT-Technologie, die es dem Agenten ermöglichen, bestimmte Planungs- und Ausführungsmöglichkeiten zu haben, beispielsweise die direkte Bestellung einer Tasse Kaffee im Starbucks-Applet basierend auf der Sprachangabe des Benutzers , diese Funktion ist derzeit auf Alipay verfügbar. Intelligenter Assistent ist online.
- Im medizinischen Bereich ermöglichen multimodale Funktionen Benutzern die Bedienung komplexer Aufgaben. Es kann mehr als 100 komplexe medizinische Testberichte identifizieren und interpretieren sowie Haargesundheit und Haarausfall erkennen, um Unterstützung bei der Behandlung zu leisten. (Das Publikum erlebte die Verwendung des intelligenten Alipay-Assistenten zum Bestellen von Kaffee in der Ant-Ausstellungshalle)
Am Startplatz demonstrierte Xu Peng, Vizepräsident der Ant Group, weitere Anwendungsszenarien, die die neu verbesserte multimodale Technologie erreichen kann :
- Bestanden In der natürlichen Form der Videokonversation kann der KI-Assistent die Kleidung des Benutzers identifizieren und passende Vorschläge für Datteln machen; Wählen Sie entsprechend den vom Anwender beschriebenen körperlichen Symptomen potenziell geeignete Arzneimittel aus einer Medikamentencharge aus und lesen Sie die Einnahmehinweise als Referenz für den Anwender durch.
- Basierend auf den multimodalen Fähigkeiten des großen Modells von Bailing hat die Ant Group die Praxis der groß angelegten Anwendungslandung in der Branche untersucht.
- Das gleichzeitig im Forum veröffentlichte „Alipay Multi-modal Medical Model“ ist die Praxis dieser Erforschung. Es wird davon ausgegangen, dass das multimodale medizinische Modell von Alipay Dutzende Milliarden chinesischer und englischer Grafiken und Texte, darunter Berichte, Bilder, Medikamente und andere multimodale Informationen, Hunderte Milliarden medizinischer Textkorpus und Dutzende Millionen hochqualitativer Texte hinzugefügt hat. hochwertige medizinische Wissenskarten, verfügt über professionelle medizinische Kenntnisse und belegt den ersten Platz auf der A-Liste und den zweiten Platz auf der B-Liste von promptCBLUE, der chinesischen medizinischen LLM-Bewertungsliste.
Basierend auf den multimodalen Fähigkeiten des Bailing-Großmodells kündigte SkySense, ein von der Ant Group und der Universität Wuhan gemeinsam entwickeltes Fernerkundungsmodell, im Forum auch einen Open-Source-Plan an. SkySense ist derzeit das multimodale Fernerkundungs-Basismodell mit der größten Parameterskala, der umfassendsten Aufgabenabdeckung und der höchsten Erkennungsgenauigkeit.
„Vom semantischen Verständnis einzelner Texte bis hin zu multimodalen Fähigkeiten ist es eine Schlüsselvariante der Technologie der künstlichen Intelligenz, und die durch die multimodale Technologie hervorgebrachten Anwendungsszenarien „Beobachten, Zuhören, Schreiben und Malen“ werden die KI-Leistung verbessern „Um näher am Menschen zu sein, wird Ant weiterhin in die Forschung und Entwicklung nativer Multimodalitätstechnologie investieren“, sagte Xu Peng.
Das obige ist der detaillierte Inhalt vonDer neueste Fortschritt des Ant Bailing-Großmodells: Es verfügt bereits über native multimodale Fähigkeiten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!