ChatGPT hat der KI-Branche eine Portion Hühnerblut injiziert. Alles, was einst unvorstellbar war, ist heute zur alltäglichen Praxis geworden.
greift weiterhin Text-to-3D an, das als Nachfolger von Diffusion(Bild) und GPT#🎜🎜 gilt #( Text) , der nächste Grenz-Hotspot im Bereich AIGC hat beispiellose Aufmerksamkeit erhalten.
Nein, ein Produkt namens ChatAvatar befindet sich im unauffälligen öffentlichen Betatest. Es zog schnell mehr als 700.000 Aufrufe und Aufmerksamkeit an und wurde zum heißesten(Spaces der Woche) #🎜 🎜 #.
△ChatAvatar unterstützt auch die Generierung von 3D-stilisierten Charakterbildern aus KI-generierten Einzelperspektiven/Mehrfachperspektiven. Perspektivische Originalgemälde. 3D-Technologie, die große Aufmerksamkeit erregt hat. Es funktioniert nicht nur gut, sondern, was noch wichtiger ist, es ist kostenlos spielbar. Einige Internetnutzer riefen aus:
Es ist so cool, ich habe das Gefühl, dass ich ganz einfach meinen eigenen digitalen Zwilling generieren kann.
Dies hat viele Internetnutzer dazu gebracht, es auszuprobieren und ihre Ideen einzubringen. Einige Leute kombinierten dieses Produkt mit ControlNet und stellten fest, dass der Effekt so zart und realistisch war, dass er unerwartet war. Dieses Text-zu-3D-Tool mit nahezu null Schwellenwert für die Verwendung heißt
ChatAvatar und wurde von inländischer KI erstellt vom Yingmo-Technologieteam des Unternehmens.
Es versteht sich, dass dies das weltweit erste produktionsfertige Text-zu-3D-Produkt ist. Es kann Filme und Fernsehsendungen durch einfachen Text, wie den Namen eines Stars oder das Aussehen einer gewünschten Figur, generieren . Level 3D hyperrealistische digitale menschliche Vermögenswerte. Die Effizienz ist auch sehr hoch. Es dauert im Durchschnitt nur 30 Sekunden, um ein Gesicht zu erstellen, das echt aussieht – sogar Ihr eigenes.
Zukünftig wird der Erzeugungsbereich auch auf andere dreidimensionale Vermögenswerte ausgeweitet.
Darüber hinaus verfügt das Modell über eine reguläre Topologie, PBR-Material mit 4k-Auflösung und Bindung. Es kann direkt an die Produktionspipeline von Produktions-Engines wie Unity, Unreal Engine und Maya angeschlossen werden.
Also, was für ein 3D-Generierungstool ist ChatAvatar? Welche Technologie steckt dahinter?
Schließen Sie das „Malen“ in 30 Sekunden ab.
Erleben Sie das Gameplay von ChatAvatar persönlich und stellen Sie fest, dass man sagen kann, dass es wirklich keine Schwelle gibt.
auf der offiziellen Website, und Sie können bei Bedarf 3D-Gesichter generieren, und realistische „menschliche Haut“, die ein angepasstes Modell bedeckt.
Während des gesamten Konversationsprozesses wird ChatBot Anleitung basierend auf den Bedürfnissen des Benutzers durchführen, um die Gedanken des Benutzers zum erforderlichen Modell so detailliert wie möglich zu verstehen.
Während der Erfahrung haben wir ChatBot ein solches 3D-Bild beschrieben, das wir generieren möchten: # 🎜🎜#
Klicken Sie links auf die Schaltfläche „Generieren“. In weniger als 10 Sekunden werden die ersten Prototypen von 9 verschiedenen 3D-Gesichtern, die auf der Grundlage der Beschreibung generiert wurden, auf dem Bildschirm angezeigt.
Nachdem Sie eines davon ausgewählt haben, werden das Modell und das Material basierend auf der Auswahl weiter optimiert. Schließlich erscheint das Modell-Rendering-Ergebnis nach dem Abdecken der Haut und der Rendering-Effekt unter unterschiedlichem Licht und Schatten wird angezeigt - diese Renderings erfolgen im Browser. In Echtzeit abgeschlossen:
Ziehen Sie mit der Maus, Sie können auch den Kopf drehen und hineinzoomen Um detailliertere lokale Effekte zu sehen, sind Poren und Akne deutlich sichtbar:
Es ist erwähnenswert, dass der Benutzer, wenn er ein Prompt-Engineering-Experte ist, die Generierung auch abschließen kann, indem er Prompt direkt in das Feld links eingibt.
Schließlich können Sie mit einem Klick ein digitales 3D-Kopf-Asset herunterladen, das direkt mit der Produktionsmaschine verbunden und gesteuert werden kann:
Obwohl in der Betaversion die Frisurenfunktion noch nicht gestartet wurde, ist sie insgesamt endgültig Die generierten 3D-Digital-Human-Assets und Beschreibungsinhalte weisen bereits einen hohen Grad an Übereinstimmung auf.
Auf der offiziellen Website werden auch viele von ChatAvatar-Benutzern generierte Assets angezeigt, mit unterschiedlichen Rassen, unterschiedlichen Hautfarben, unterschiedlichem Alter, Freuden und Sorgen, Schönheit, Hässlichkeit, Fett und Dünn und allen Arten von Aussehen.
Fassen wir die Highlights des ChatAvatar-Produkts zur Generierung digitaler 3D-menschlicher Assets zusammen:
Erstens ist es einfach zu bedienen; zweitens die Generationsspanne ist groß und die Gesichtszüge können geändert werden , und es kann auch digitale 3D-Assets erzeugen, die zum Gesicht passen, wie folgt:
Laut dem offiziellen Werbevideo kann ChatAvatar sogar noch mehr Charaktere generieren, die über die menschliche Kategorie hinausgehen. B. Charaktere in Film- und Fernsehwerken wie Avatar:
Das Wichtigste ist, dass ChatAvatar die Kompatibilitätsprobleme zwischen 3D-Modellen und herkömmlicher Rendering-Software löst.
Das bedeutet, dass die von ChatAvatar generierten 3D-Assets direkt in die Spiele-, Film- und Fernsehproduktionsprozesse integriert werden können.
Natürlich hat ChatAvatar bereits vor der offiziellen Anbindung an den industriellen Prozess Tausende von Künstlern und professionellen Künstlern zur Teilnahme an der ersten Runde der öffentlichen Beta angezogen, und verwandte Themen auf Twitter haben fast eine Million Aufrufe und Aufmerksamkeit erhalten.
Jeder Tweet kann über 50.000 Aufrufe haben.
Nicht umsonst habe ich viel „Leitungswasser“ angesammelt. Schauen Sie sich das 3D-Gesicht von Einstein an.
In Kombination mit ControlNet ist der erzeugte Effekt nicht geringer als der von Spiegelreflexfotos:
Nachdem viele Benutzer es erlebt hatten, begannen sie, sich vorzustellen, dieses Text-zu-3D-Tool in großem Maßstab einzusetzen in Spielen, Filmen und Fernsehen wartet auf industrielle Anwendung.
Es versteht sich, dass Benutzerfeedback eine wichtige Grundlage für das ChatAvatar-Team wird, um schnell zu iterieren und zu aktualisieren und so ein Datenschwungrad zu bilden, um zeitnah umfassendere und bedarfsgerechtere Funktionen bereitzustellen.
Tatsächlich sind die meisten KI-Text-zu-3D-Anwendungen für frühere Designer oder Unternehmen in der 3D-Branche nicht unwirksam, aber es gibt immer noch viele Schwierigkeiten, sie tatsächlich in den Industriedesignprozess zu implementieren.
Was sind die technischen Gründe dafür, dass ChatAvatar dieses Mal so viel Aufsehen erregen konnte?
Man sagt, dass KI den Menschen ersetzen wird. Tatsächlich ist es nicht so einfach, sie nur im Bereich Text-to-3D zu ersetzen.
Die größte Schwierigkeit besteht darin, dafür zu sorgen, dass die von KI generierten Dinge den Anforderungen der Branche an 3D-Assets aus den Standards entsprechen.
Wie verstehen Sie hier die Industriestandards? Aus Sicht des professionellen 3D-Kunstdesigns gibt es mindestens drei Aspekte:
Qualität, Steuerbarkeit und Generierungsgeschwindigkeit.
Das erste ist Qualität. Insbesondere für die Film-, Fernseh- und Spielebranche, die Wert auf visuelle Effekte legt, sind „unausgesprochene Branchenregeln“ wie topologische Regelmäßigkeit und Texturabbildungsgenauigkeit die ersten Schritte, die für KI-Produkte unternommen werden müssen, um 3D-Assets zu generieren, die den Pipeline-Anforderungen entsprechen. Hom.
Nehmen Sie als Beispiel die Regelmäßigkeit der Topologie, die sich im Wesentlichen auf die Angemessenheit des 3D-Asset-Routings bezieht.
Bei 3D-Assets wirkt sich die Regelmäßigkeit der Topologie häufig direkt auf den Animationseffekt, die Effizienz der Änderungsverarbeitung und die Texturzeichnungsgeschwindigkeit des Objekts aus:
Gemäß der Einführung der 3D-Kunst Design in der Branche. Der Zeitaufwand für die manuelle Neutopologie ist oft höher als die Produktion des 3D-Modells selbst, sogar um ein Vielfaches. Das heißt, egal wie cool die vom KI-Modell generierten 3D-Assets sind, wenn die generierte topologische Regelmäßigkeit nicht den Anforderungen entspricht, können die Kosten nicht grundlegend gesenkt werden. Ganz zu schweigen von der Texturgenauigkeit.
△Das ChatAvatar-Projekt von Yingmo Technology ist in Bezug auf Generierungsqualität, Geschwindigkeit und Standardkompatibilität besser als frühere Arbeiten ist eine erhebliche Verbesserung
Nehmen Sie als Beispiel die PBR-Texturen, die in der aktuellen Spiele-, Film- und Fernsehindustrie häufig benötigt werden. Sie umfassen eine Reihe von Texturen wie Reflektivitätskarten und Normalkarten, die dem entsprechen „Schichten“ von 2D-Bild-PSD-Dateien“ ist eine der wesentlichen Voraussetzungen für die Produktion von 3D-Asset-Pipelines.
Allerdings sind die derzeit von KI generierten 3D-Assets häufig ein „Ganzes“, und nur wenige können einzeln PBR-Texturen generieren, die den Anforderungen der industriellen Umgebung entsprechen.
Eine weitere wichtige Anforderung der CG-Branche an diese Technologie ist die Steuerbarkeit der generierten Inhalte.
Nehmen wir die bekannte 2D-Branche als Beispiel: Vor der Entstehung von ControlNet befand sich die 2D-AIGC-Branche in einem Zustand des „halbdunklen Fortschritts“.
Mit anderen Worten, KI kann Bilder von Objekten bestimmter Kategorien erzeugen, aber keine Objekte bestimmter Körperhaltungen. Der Generierungseffekt hängt vollständig von prompter Technik und „Metaphysik“ ab.
Nach dem Aufkommen von ControlNet wurde die Steuerbarkeit der 2D-KI-Bilderzeugung sprunghaft verbessert. Bei der 3D-KI ist man jedoch immer noch stark auf Professional angewiesen, um Assets mit entsprechenden Effekten zu generieren Tipps funktionieren.
Das Letzte ist die Generierungsgeschwindigkeit. Im Vergleich zum 3D-Kunstdesign liegt der Vorteil der KI-Generierung in der Geschwindigkeit. Wenn die Geschwindigkeit und Wirkung des KI-Renderings jedoch nicht mit der des manuellen Renderings mithalten kann, wird diese Technologie der Branche dennoch keine Vorteile bringen können.
Nimmt man NeRF, das derzeit in der KI-Technologie beliebt ist, als Beispiel, so stößt seine Industrialisierung auf Kompatibilitätsprobleme in Bezug auf Geschwindigkeit und Qualität.
Bei hoher Generierungsqualität dauert die 3D-Generierung auf Basis von NeRF oft lange; wenn jedoch Geschwindigkeit angestrebt wird, werden selbst die von NeRF generierten 3D-Assets überhaupt nicht in den industriellen Einsatz gelangen.
Aber selbst wenn dieses Problem gelöst ist, bleibt es immer noch ein großes Problem, wie man NeRF mit Mainstream-Engines in der traditionellen CG-Branche kompatibel machen kann, ohne an Genauigkeit zu verlieren.
Aus dem oben genannten industriellen Standardisierungsprozess ist nicht schwer zu erkennen, dass es zwei große Engpässe bei der Umsetzung gibt Die meisten KI-Text-zu-3D-Anwendungen :
Einer ist, dass das Prompt-Projekt manuell abgeschlossen werden muss, was für Nicht-KI-Profis oder Designer, die KI nicht verstehen, nicht benutzerfreundlich genug ist Ein weiterer Grund ist, dass die generierten 3D-Assets oft nicht dem Industriestandard entsprechen. Auch wenn sie gut aussehen, können sie nicht verwendet werden.
Als Antwort auf diese beiden Punkte hat ChatAvatar zwei spezifische und effektive Lösungen bereitgestellt.
Einerseits realisiert ChatAvatar neben der manuellen Eingabeaufforderungstechnik einen zweiten Weg und ist auch eine für normale Menschen besser geeignete Abkürzung: Beschreibung von Bedürfnissen durch direkten Dialog über den „Party A-Modus“ .
Auf dem offiziellen Twitter des Teams hieß es, dass ChatAvatar zur Realisierung dieser Funktion eine Methode zum Konvertieren von Konversationsbeschreibungen in Porträtfunktionen entwickelt hat, die auf den Funktionen von GPT basiert.
Designer müssen nur weiter mit GPT chatten und das „Gefühl“ beschreiben, das sie wollen:
GPT hilft automatisch beim Vervollständigen das prompte Projekt und liefern die Ergebnisse an AI:
Mit anderen Worten, wenn ControlNet der „Game Changer“ der 2D-Branche ist, dann für For In der 3D-Branche ist ChatAvatar, das Texte in 3D umwandeln kann, nichts weniger als ein Game-Changer in der Branche.
Wichtiger ist hingegen, dass ChatAvatar perfekt mit der CG-Pipeline kompatibel ist, d. h. die generierten Assets entsprechen den Branchenanforderungen hinsichtlich Topologie, Steuerbarkeit und Geschwindigkeit.
Dies bedeutet nicht nur, dass die heruntergeladenen Inhalte nach der Generierung von 3D-Assets direkt in verschiedene Postproduktionssoftware zur sekundären Bearbeitung importiert werden können, wodurch sie besser kontrollierbar sind Gleichzeitig können die generierten Modelle und hochpräzisen Materialkarten Auch im Post-Rendering einsetzbar. Äußerst realistische Rendering-Effekte werden erzielt.
Um einen solchen Effekt zu erzielen, entwickelte das Team ein progressives 3D-Generierungsframework DreamFace für ChatAvatar.
Der Schlüssel liegt in den zugrunde liegenden Daten, die zum Trainieren des Modells verwendet werden. Hierbei handelt es sich um den weltweit ersten großvolumigen, hochpräzisen Gesichtsdatensatz mit mehreren Ausdrücken, der von Yingmo Technology auf Basis des „Dome Light“ erfasst wurde Feld"
.Basierend auf diesem Datensatz kann DreamFace die Generierung von 3D-Assets auf Produktebene
effizient abschließen, d. h. die generierten Assets weisen eine regelmäßige Topologie, Materialien und Bindungen auf.DreamFace umfasst hauptsächlich drei Module: Geometriegenerierung, physikbasierte Materialdiffusion und Animationsfähigkeitsgenerierung.
Durch die Einführung einer externen 3D-Datenbank kann DreamFace Assets direkt ausgeben, die dem CG-Prozess entsprechen.
△Der Effekt des generierten Asset-gesteuerten Renderings
Die Lösung der beiden oben genannten großen technischen Engpässe hat den Trend der Zeiten, in denen „Generierung“ „Suche“ im Rahmen des AIGC ersetzen wird, wesentlich weiter beschleunigt Flut——Das Shadow Eye-Team glaubt, dass „Generation“ der Weg sein wird, digitale Assets für eine neue Generation zu erhalten. Wenn wir früher ein Bild oder Asset finden mussten, das unseren Anforderungen entsprach, nutzten wir normalerweise Suchmaschinen zur Abfrage. Das riesige „Suchfeld“ und die hübschen Asset-Karten, die auf der Homepage des ChatAvatar-Projekts angezeigt werden, sehen aus wie eine Suchmaschine, aber tatsächlich ist es eine völlig andere Art, Assets zu finden als die Suche.
△ChatAvatar-Projekthomepage
Zhang Qixuan, CTO von Yingmu Technology, stellte Folgendes vor: Wenn wir in der Vergangenheit eine Illustration brauchten, mussten wir möglicherweise wiederholt in mehreren Bibliotheken suchen oder sie mit Photoshop von Hand synthetisieren usw. Ein komplizierter Weg, um Ergebnisse zu erzielen. Aber nach dem Aufkommen von Technologien wie Stable Diffusion müssen Sie das gewünschte Bild nur noch durch Text beschreiben und können direkt Ergebnisse generieren, die Ihren Anforderungen entsprechen. Dies hat enorme Auswirkungen auf traditionelle Asset-Bibliotheken. Das Ziel von ChatAvatar ist es, die traditionelle suchbasierte 3D-Asset-Bibliothek durch 3D-Generierung zu ersetzen. Der nächste hochmoderne Hotspot im Bereich AIGCChatGPT hat mit einer Klappe Wellen geschlagen. Nach dem Eintritt in die KI 2.0-Ära hat sich die Aufmerksamkeit der Menschen auch auf multimodale KI gerichtet, die Bilder, Videos usw. umfasst. 3D und andere Informationen. Was den Bereich der 3D-Generierung betrifft, sei es die Film-, Fernseh- oder Spieleindustrie, ist der Markt für die Produktion und den Konsum von 3D-Inhalten bereits groß genug, wird jedoch durch technische Schwierigkeiten auf der Produktionsebene behindert. Transformer, das im Textbereich sehr beliebt ist, hat beispielsweise im Bereich der 3D-Generierung einen relativ begrenzten Nutzen. Letzten Sommer, als der BereichVenture Drawing
dank des Diffusionsmodells Ergebnisse erzielte, begannen die Menschen zu erwarten, dassText Generation 3D die gleiche erstaunliche Leistung erbringen würde. Sobald die 3D-Erstellungstechnologie der generativen KI ausgereift ist, wird die Erstellung von Inhalten wie VR und Video durchstarten.
△„Fotografie im Van-Gogh-Stil“, erzeugt durch das Diffusionsmodell Midjourney5.1
Tatsächlich unternehmen sowohl Technologieriesen als auch Start-up-Unternehmen heimlich Anstrengungen in Richtung Text-to-3D . Im September letzten Jahres veröffentlichte Google FreamFusion, das 3D-Modelle basierend auf Texteingabeaufforderungen generiert, und behauptete, dass dafür keine 3D-Trainingsdaten erforderlich seien und das Bilddiffusionsmodell nicht geändert werden müsse. Kurz darauf brachte Meta auch das Make-A-Video-Modell auf den Markt, mit dem mit einem Klick Videos aus Text generiert werden können. Zum nachfolgenden Text-zu-3D-KI-Modellteam gehörten auch NVIDIA Magic3D, OpenAIs neuestes Open-Source-Projekt Shap-E usw. Es wurden auch viele Beiträge auf der SIGGRAPH 2023 präsentiert, der wichtigsten Computergrafikkonferenz, die im August dieses Jahres stattfindet . Dieser Artikel bezieht sich auf Text-to-3D. Der Artikel von Yingmo Technology über DreamFace, ein textgesteuertes progressives 3D-Generierungs-Framework, ist einer davon. ChatAvatar ist außerdem das bisher generativste Modellprodukt, das sich auf digitale 3D-Menschenressourcen konzentriert.Das KI-Startup-Unternehmen hinter
影视科技 wurde 2020 vom MARS-Labor der Shanghai University of Science and Technology gegründet. Nach seiner Gründung erhielt es zwei Investitionsrunden von Qiji Chuangtan und Sequoia-Samen.
Das Unternehmen konzentriert sich auf die Erforschung und Produktion von Computergrafik und generativer KI. Im Jahr 2021, bevor AIGC große Wellen schlug, hatte das Unternehmen bereits Wand auf den Markt gebracht, die erste AIGC ToC-Malanwendung in China, und das Produkt stand einst ganz oben auf der Liste der AppStore-Partitionen.
Und dieses zukunftsorientierte Team, das in der Branche bereits bekannt ist, Durchschnittsalter liegt bei nur 25 Jahren#🎜 🎜#.
Nachdem ChatAvatar das erste Kommerzialisierungsszenario gezielt auf digitale Menschen ausgerichtet hat, ist ChatAvatar ihr jüngster Fortschritt in diese Richtung, indem es AIGC nutzt. Als neu eingeführtes Produkt hat ChatAvatar die Erwartungen des Shadow Eye-Teams in Bezug auf Produkteffekte wie Kompatibilität, Vollständigkeit und Genauigkeit übertroffen. Allerdings war die Anreise hierher laut Wu Di „sehr peinlich“. Der Hauptgrund ist nichts anderes als „Menschenmangel“. Derzeit hat Shadow Eye Fortschritte in der 3D-Generierungstechnologie für mehrere Kategorien gemacht, und der nächste Schritt besteht darin, „3D-generierte große Modelle“ auf den Markt zu bringen.△Schatten Moo Technology wird im Mai die erste multimodale plattformübergreifende 3D-Suchmaschine Rodin auf den Markt bringen, die mehrere 3D-Asset-Plattformen wie Sketchfab öffnen und die Suche nach 3D durch Text, 3D durch Bilder und sogar 3D durch 3D unterstützen wird. Die Suchmaschine ist lediglich die primäre Form von Rodin, und Shadow Eye baut Rodin in ein großes 3D-generiertes Modell ein. Um weiter voranzukommen, müssen sich dem Team weitere Ingenieurteams, technische Künstler und Produkttalente anschließen, die sich für generative KI einsetzen. Als Team mit F&E-Hintergrund sind solche Talente immer noch Mangelware. „Menschen sind das Maß aller Dinge“, sagte Wu Di, „Wir brauchen mehr Gleichgesinnte, die gemeinsam die innovative Entwicklung im 3D-Bereich vorantreiben.“ 🎜#Sie können sehen, dass die Technologie hinter ChatAvatar von Grund auf neu entwickelt wurde, was die kontinuierliche Innovation eines KI-Start-up-Unternehmens und den Wunsch des Unternehmens nach Talenten von klein bis groß offenbart, es zeigte auch, dass unter der Welle von AIGC jedes Segment möchte mit einem Herzen beginnen, das unter Wasser auftaucht. Sind Sie bereit, generative KI zu nutzen und ein Game Changer im Bereich Text-zu-3D zu werden?
Das obige ist der detaillierte Inhalt vonHolen Sie sich mit einer einzigen Karte in 30 Sekunden eine virtuelle 3D-Frau! Text to 3D generiert einen hochpräzisen digitalen Menschen mit klaren Porendetails und lässt sich nahtlos mit Maya, Unity und anderen Produktionstools verbinden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!