Welchen technischen Weg verfolgt FancyTech, wenn es die Kommerzialisierung von AIGC mit einem „vertikalen Modell' anführt?-KI-php.cn

Wir erleben eine weitere Runde technologischer Innovation. Dieses Mal stellt AIGC den Menschen Werkzeuge zur Verfügung, mit denen sie ihre Kreativität einfacher und beliebter machen können, aber die treibende Kraft dahinter ist nicht das „große“ Modell.

In den letzten zwei Jahren hat sich die AIGC-Technologie schneller entwickelt, als sich alle vorgestellt haben, und sie hat alle Bereiche erfasst, von Text über Bilder bis hin zu Videos. Die Diskussionen über den Kommerzialisierungsweg von AIGC haben nie aufgehört. Dabei gibt es Konsens und unterschiedliche Routen.

Einerseits sind die leistungsstarken Fähigkeiten des allgemeinen Modells erstaunlich und zeigen Anwendungspotenzial in allen Lebensbereichen. Insbesondere die Einführung von Architekturen wie DiT und VAR hat es Scaling Law ermöglicht, von der Textgenerierung zur visuellen Generierung überzugehen. Unter der Führung dieser Regel schreiten viele große Modellhersteller weiterhin in Richtung Erhöhung der Trainingsdaten, Investitionen in Rechenleistung und Akkumulation von Parametern voran.

Andererseits haben wir auch gesehen, dass ein universelles Modell nicht bedeutet, „alle zu töten“. Angesichts der vielen unterteilten Streckenaufgaben kann ein „gut trainiertes“ vertikales Modell bessere Ergebnisse erzielen.

Während die Großmodelltechnologie in eine Phase der beschleunigten Umsetzung eintritt, hat der letztgenannte Kommerzialisierungspfad schnell an Aufmerksamkeit gewonnen.

In diesem Evolutionsprozess sticht ein Startup-Unternehmen aus China, FancyTech, hervor: Es hat den Markt mit standardisierten Produkten für die kommerzielle Generierung visueller Inhalte schnell erweitert und die Überlegenheit des „vertikalen Modells“ auf der Ebene der industriellen Umsetzung nachgewiesen früher als seine Artgenossen.

Wenn man sich im Kreis der inländischen Großunternehmer umschaut, ist die Kommerzialisierungsbilanz von FancyTech für alle offensichtlich. Was jedoch weniger bekannt ist, ist das vertikale Modell und die technologischen Vorteile, mit denen dieses erst vor wenigen Jahren gegründete Unternehmen an der Spitze der Branche steht.

In einem exklusiven Interview sprach diese Website mit FancyTech über die technologischen Erkundungen, die sie unternehmen.

FancyTech veröffentlicht vertikales Videomodell DeepVideo

Wie durchbricht man Branchenbarrieren?

Im Allgemeinen kann die Feinabstimmung für nachgelagerte Aufgaben verwendet werden, nachdem die Nullstichproben-Generalisierungsfähigkeit eines allgemeinen Modells ein bestimmtes Niveau erreicht hat. Auf diese Weise werden heute auch viele große Modellprodukte auf den Markt gebracht. Aufgrund der tatsächlichen Wirkung kann jedoch nur eine „Feinabstimmung“ die Anforderungen industrieller Anwendungen nicht erfüllen, da die Aufgaben der Inhaltsgenerierung in jeder Branche ihre eigenen spezifischen und komplexen Standards haben.

Ein allgemeines Modell kann vielleicht 70 % der herkömmlichen Aufgaben erledigen, aber was Kunden wirklich brauchen, ist ein „vertikales Modell“, das 100 % ihrer Bedürfnisse erfüllen kann. Nehmen wir als Beispiel kommerzielles visuelles Design. In der Vergangenheit wurden entsprechende Arbeiten von Fachleuten mit langjähriger Erfahrung durchgeführt und mussten entsprechend den spezifischen Anforderungen der Marke entworfen und angepasst werden, was viel manuelle Erfahrung erforderte. Im Vergleich zu Indikatoren wie Ästhetik und Einhaltung von Anweisungen ist die „Produktrestaurierung“ ein Punkt, dem Marken bei dieser Aufgabe mehr Aufmerksamkeit schenken, und sie ist auch der entscheidende Faktor dafür, ob Marken bereit sind zu zahlen.

Im Prozess der Selbstentwicklung eines vertikalen Modells für kommerzielle Bilder/Videos hat FancyTech die Kernherausforderung zerlegt: wie man das Produkt ausreichend restauriert und in den Hintergrund einfügt, insbesondere im generierten Video, um kontrollierbare und inkonsistente Bewegungen zu erreichen des Produkts.

Welchen technischen Weg verfolgt FancyTech, wenn es die Kommerzialisierung von AIGC mit einem „vertikalen Modell anführt?

Mit der heutigen Entwicklung der Großmodelltechnologie ist für die Anwendungsschicht die Wahl des Open-Source- oder Closed-Source-Wegs nicht mehr das Kernproblem. Das vertikale Modell von FancyTech basiert auf dem zugrunde liegenden Open-Source-Algorithmus-Framework, überlagert mit eigener Datenanmerkung und Neuschulung und erfordert nur einige hundert GPUs für kontinuierliche Trainingsiterationen, um gute Generierungsergebnisse zu erzielen. Im Gegensatz dazu sind die beiden Faktoren „Produktdaten“ und „Trainingsmethoden“ entscheidender für den endgültigen Implementierungseffekt.

FancyTech hat die Idee der räumlichen Intelligenz eingeführt, um die 2D-Inhaltsgenerierung des Modells auf der Grundlage der Sammlung umfangreicher 3D-Trainingsdaten zu steuern. Insbesondere im Hinblick auf die Generierung von Bildinhalten schlug das Team ein „multimodales Feature-Gerät“ vor, um die Wiederherstellung des Produkts sicherzustellen, und nutzte eine spezielle Datenerfassung, um die natürliche Integration des Produkts und des Hintergrunds in Bezug auf Video sicherzustellen Bei der Inhaltsgenerierung rekonstruierte das Team das Video. Die generierten zugrunde liegenden Links dienen dazu, das Framework direktional zu gestalten und Datentechnik durchzuführen, um eine produktzentrierte Videogenerierung zu erreichen.

Echter Angriff zur Dimensionsreduzierung: Wie steuert „räumliche Intelligenz“ die Generierung von 2D-Inhalten?

Der Hauptgrund, warum viele Produkte zur visuellen Generierung unbefriedigend sind, liegt darin, dass aktuelle Modelle zur Bild- und Videogenerierung häufig auf der Grundlage von 2D-Trainingsdaten lernen und die reale physische Welt nicht verstehen.

Cela a atteint un consensus dans le domaine, et certains chercheurs pensent même que dans le paradigme de l'apprentissage autorégressif, la compréhension du monde par le modèle est toujours superficielle.

Mais dans la tâche de subdivision de la génération visuelle commerciale, il n'est pas totalement insoluble d'améliorer la compréhension du monde physique 3D du modèle et de mieux générer du contenu 2D.

FancyTech a migré les idées de recherche dans le domaine de « l'intelligence spatiale » vers la construction de modèles visuels génératifs. Différent des modèles génératifs généraux, l'idée de l'intelligence spatiale est d'apprendre des signaux originaux obtenus par un grand nombre de capteurs et de calibrer avec précision les signaux originaux obtenus par les capteurs pour donner au modèle la capacité de percevoir et de comprendre le monde réel.

Par conséquent, FancyTech remplace la prise de vue en studio traditionnelle par la numérisation lidar, accumule un grand nombre de paires de données 3D de haute qualité qui reflètent les différences avant et après l'intégration du produit, et combine les données de nuages de points 3D avec des données 2D pour servir conjointement de données de formation du modèle améliore la compréhension du modèle du monde réel.

Nous savons que lors de la génération de tout contenu visuel, la mise en forme des effets de lumière et d'ombre est une tâche très difficile. Des éléments tels que l'éclairage, les corps lumineux, le rétroéclairage et les points lumineux peuvent renforcer la superposition spatiale de l'image, mais il s'agit d'un « point de connaissance » difficile à comprendre pour les modèles génératifs.

Afin de collecter autant de données de lumière et d'ombre naturelles que possible, FancyTech a construit des dizaines de lumières avec une luminosité et une température de couleur réglables dans chaque environnement, ce qui signifie que chaque paire des données massives peut être superposée à plusieurs lumières. et les variations de luminosité et de température de couleur.

Welchen technischen Weg verfolgt FancyTech, wenn es die Kommerzialisierung von AIGC mit einem „vertikalen Modell anführt?

Cette collecte de données à haute intensité simule l'éclairage de scènes de tournage réelles, ce qui la rend plus conforme aux caractéristiques des scènes de commerce électronique.

Welchen technischen Weg verfolgt FancyTech, wenn es die Kommerzialisierung von AIGC mit einem „vertikalen Modell anführt?

Combiné à une accumulation de données 3D de haute qualité, FancyTech a réalisé une série d'innovations dans le cadre algorithmique, combinant organiquement les algorithmes spatiaux avec l'image et la vidéo algorithmes. Laissez le modèle mieux comprendre l’interaction entre les objets principaux et l’environnement.

Au cours du processus de formation, le modèle peut « émerger » dans une certaine mesure avec une compréhension du monde physique, de l'espace tridimensionnel, de la profondeur, de la réflexion et de la réfraction de la lumière, ainsi que de la lumière dans différents médias et différents matériaux. Les résultats de l'opération ont une compréhension plus profonde, et permettent finalement d'obtenir une « forte réduction » et une « hyper-fusion » des produits dans les résultats générés.

Quelles sont les innovations algorithmiques derrière la « forte réduction » et l'« hyper-fusion » ?

Pour les tâches courantes de génération d'images de scènes de produits, la méthode traditionnelle à ce stade utilise principalement des textures pour assurer la restauration de la partie du produit, puis met en œuvre l'édition de scènes d'images basées sur la technologie Inpainting . L'utilisateur sélectionne la zone qui doit être modifiée, entre dans l'invite ou fournit une image de référence pour guider la génération de la scène du produit. L'effet de fusion de cette méthode est meilleur, mais l'inconvénient est que la contrôlabilité des résultats de génération de scène n'est pas élevée, par exemple, elle n'est pas assez claire ou trop simple, et elle ne peut pas garantir le taux de disponibilité élevé d'une seule sortie.

Pour résoudre les problèmes qui ne peuvent pas être résolus par les méthodes actuelles, FancyTech propose son propre « générateur de fonctionnalités multimodal » pour extraire les caractéristiques du produit dans plusieurs dimensions, puis utiliser ces fonctionnalités pour générer des images de scènes intégrées.

Welchen technischen Weg verfolgt FancyTech, wenn es die Kommerzialisierung von AIGC mit einem „vertikalen Modell anführt?

Le travail d'extraction de caractéristiques peut être divisé en « caractéristiques globales » et « caractéristiques locales ». le produit, à l'aide de l'extraction VAE Encoder ; les fonctionnalités locales, y compris les détails du produit partout, sont extraites à l'aide de réseaux neuronaux graphiques. L'un des grands avantages du réseau neuronal graphique est qu'il peut extraire les informations de chaque pixel clé du produit et la relation entre les pixels clés, et améliorer la restauration des détails à l'intérieur du produit.

Dans la génération de contenu de produits en matériaux flexibles, l'effet obtenu par cette méthode est significativement amélioré :

Par rapport aux images , La génération de vidéo implique également le contrôle du mouvement du produit lui-même et les changements de lumière et d'ombre qu'il apporte. Pour les modèles généraux de génération vidéo, la difficulté réside dans l'incapacité de protéger indépendamment une certaine partie de la vidéo. Afin de résoudre ce problème, FancyTech a divisé la tâche en deux branches : « génération de mouvements de produits » et « intégration de scènes vidéo ».

Dans un premier temps, FancyTech a conçu des solutions de planification de mouvement ciblées pour contrôler le mouvement du produit sur l'écran, ce qui équivaut à pré-fixer le produit à chaque fois. dans la vidéo. Une image d'image
La deuxième étape consiste à réaliser une génération contrôlable de vidéo via le module de contrôle. Le module de contrôle adopte une conception flexible et est compatible avec différentes architectures telles que U-net et DiT, ce qui facilite son extension et son optimisation.

Auf der Datenebene werden zusätzlich zur Nutzung der einzigartigen Produktdatenressourcen von FancyTech zur Bereitstellung von Kontrolltraining und Produktschutz auch mehrere Open-Source-Datensätze hinzugefügt, um Funktionen zur Szenenverallgemeinerung sicherzustellen. Der Schulungsplan kombiniert vergleichendes Lernen und Kurslernen und erzielt letztendlich die Schutzwirkung von Gütern.

Lassen Sie die Dividenden der AIGC-Ära

vom vertikalen Modell ausgehen und sich hin zu mehr gewöhnlichen Menschen bewegen

Ob „universal“ oder „vertikal“, der Endpunkt beider Wege ist die Kommerzialisierung.

Der direkteste Nutznießer der Umsetzung des vertikalen Modells von FancyTech ist die Marke. In der Vergangenheit konnte der Produktionszyklus eines Werbevideos von der Planung über die Aufnahme bis zur Bearbeitung mehrere Wochen dauern. Aber in der AIGC-Ära dauert die Erstellung eines solchen Werbevideos nur zehn Minuten und die Kosten betragen nur ein Fünftel der ursprünglichen Kosten.

Mit den Vorteilen massiver einzigartiger Daten und Branchen-Know-how hat FancyTech durch die Vorteile des vertikalen Modells große Anerkennung gefunden. Es hat Verträge mit Samsung und LG mit koreanischen Partnern unterzeichnet und eine Zusammenarbeit mit Lazada begonnen. eine bekannte E-Commerce-Plattform in Südostasien; in den Vereinigten Staaten wurde sie von lokalen Marken wie Kate Sommerville und Solawave bevorzugt, sie wurde mit dem LVMH Innovation Award ausgezeichnet und es besteht eine intensive Zusammenarbeit mit Europa Kunden.

Zusätzlich zum vertikalen Kernmodell bietet FancyTech auch vollverknüpfte automatische Veröffentlichungs- und Datenrückmeldungsfunktionen für KI-Kurzvideos und fördert so das kontinuierliche Wachstum der Produktverkäufe.

Was noch wichtiger ist, ist, dass das vertikale Modell den Weg für die breite Öffentlichkeit visualisiert, AIGC-Technologie zur Verbesserung der Produktivität zu nutzen. Zum Beispiel kann ein traditionelles Straßenfotostudio mit Hilfe der Produkte von FancyTech die Geschäftstransformation von einfachen Porträtaufnahmen zur professionellen Produktion von kommerziellem Bildmaterial vollziehen, ohne professionelle Ausrüstung und Fachkräfte hinzuzufügen.

Jetzt kann fast jeder Videos drehen, Musik aufnehmen und seine Kreationen mit der Welt teilen, indem er einfach ein Mobiltelefon in die Hand nimmt. Stellen Sie sich eine Zukunft vor, in der AIGC erneut persönliche Kreativität freisetzt –

normale Menschen können berufliche Grenzen überschreiten und Ideen einfacher in die Realität umsetzen, wodurch die Produktivität jeder Branche sprunghaft gesteigert und weitere aufstrebende Branchen entstehen können. AIGC Von diesem Moment an Die durch die Technologie mit sich gebrachten Vorteile der Zeit beginnen, auch die einfachen Menschen wirklich zu erreichen.

Das obige ist der detaillierte Inhalt vonWelchen technischen Weg verfolgt FancyTech, wenn es die Kommerzialisierung von AIGC mit einem „vertikalen Modell' anführt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!