China hat eine lange Geschichte, ein tiefgreifendes kulturelles Erbe und eine große Anzahl kultureller Relikte. Da sich die Weisheit früherer Generationen herauskristallisiert hat, ist der Wert kultureller Relikte als Dokumente offensichtlich. Alte Bücher sind ein wichtiger Träger der Aufzeichnung der chinesischen Zivilisation und ein wertvolles kulturelles Erbe, das bis heute überliefert wird. Auch der Schutz kultureller Relikte ist ein wichtiges langfristiges Grundlagenwerk. Mehr als 2.800 Bibliotheken im ganzen Land sammeln mehr als 50 Millionen alte Bücher, von denen ein Drittel in unterschiedlichem Ausmaß beschädigt ist. Angesichts der vorhandenen Zahl an Mitarbeitern für die Restaurierung von Kulturdenkmälern wird es Hunderte von Jahren dauern, bis alle Kulturdenkmäler in der Sammlung wiederhergestellt sind.
„Travel Notes on Ancient Books“ ist ein Projekt zur Wiederbelebung antiker Bücher, das gemeinsam von ByteDance und „Chinas erstem historischen Archiv, der Dunhuang Academy, dem Gansu Slip Museum und der Nationalbibliothek“ (Nationalmuseum für klassische Bücher) ins Leben gerufen wurde Die vier wichtigsten Entdeckungen von Dokumenten – Orakelknochen der Yin-Ruinen, Juyan Han-Bambuszettel, posthume Schriften von Dunhuang und Ming- und Qing-Archive – lassen alte Bücher in digitaler Form lebendig werden . Dieses Projekt konzentriert sich auf interaktive VR-Dokumentationen, die sich auf die neueste 3D-Rekonstruktionstechnologie des Volcano Engine Multimedia Laboratory verlassen, Offline-Kulturrelikte in virtuelle PICO-Szenen replizieren und
selbst entwickelte Lichtfeld-Videotechnologiezum Sammeln anwenden Es stellt außerdem die Lichtfeldinformationen dynamischer Charaktere lebendig wieder her und bietet so ein hohes Maß an Betrachtungsfreiheit und interaktives Erlebnis in VR-Szenen. In diesen Dokumentarfilmen können Zuschauer PICO, Douyin-VR mit bloßem Auge und andere Methoden nutzen, um durch Zeit und Raum zu reisen, ohne das Haus zu verlassen, persönlich an historischen Ereignissen teilzunehmen und engen Kontakt mit alten Büchern zu haben und diese zu schätzen. Dieser Artikel konzentriert sich auf die 3D-Rekonstruktionstechnologie des Volcano Engine Multimedia Laboratory und die Prinzipien, Fortschritte und Anwendungsbereiche der Lichtfeld-Videotechnologie, um jedem ein besseres Verständnis und Verständnis der 3D-Rekonstruktionstechnologie zu ermöglichen und verwandte Technologien bei der Verwendung in tatsächlichen Produkten zu unterstützen und Anwendungen gelandet. 1. Technische Herausforderungen und SchwierigkeitenDie Digitalisierung kultureller Relikte erfordert eine dreidimensionale Rekonstruktion und digitale Restaurierung von kulturellen Relikten. Sie stellt auch eine große Herausforderung für die dreidimensionale Rekonstruktionstechnologie dar:
Die Sammlung kultureller Relikte erfordert die Verwendung von Geräten, die nicht in kulturelle Relikte eingreifen, können nicht verwendet werden. Herkömmliche Geräte wie hochpräzise Laser können nicht verwendet werden. Kulturrelikte werden normalerweise in Vitrinen aufbewahrt und sind schwer herauszunehmen, was auch höhere Anforderungen an die Rekonstruktionssammlung stellt Wie kann man diese rekonstruieren? Das Einpflanzen sehr dünner kultureller Relikte ist eine Schwierigkeit bei der Rekonstruktion der Gegenstände. Wie man kulturelle Relikte mit hohem Realismus reproduziert und ihre realistischen Texturen zum Ausdruck bringt, einschließlich der Wiederherstellung komplexer Materialien wie diffuser Reflexion, Spiegelreflexion und Transluzenz sowie der Rekonstruktion feiner Oberflächen, stellt ebenfalls eine technische Herausforderung dar. Für kulturelle Relikte wie z Als Grotten ist es notwendig, einen bestimmten Raum zu sammeln und zu rekonstruieren, um die Grotte mit einer rein visuellen Methode vollständig zu rekonstruieren. Um die kulturelle Förderung des Museums besser zu realisieren Um die Online-Restaurierung historischer Szenen zu realisieren, ist es notwendig, eine High-Fidelity-Rekonstruktion dynamischer Charaktere und Szenen durchzuführen. Für die aktuelle High-Fidelity-Rekonstruktion dynamischer Charaktere und Szenen fehlt jedoch eine vollständige und effektive Lösung.Die traditionelle 3D-Rekonstruktion nutzt den Prozess der Rekonstruktion der 3D-Informationen von Bildern auf der Grundlage von Sicht oder Multimodalität (Tiefendaten, z. B. Laser), mit denen statische Objekte und Szenen modelliert werden können, aber es fehlen effektive Methoden für dynamische Objekte und Szenen Eine Gesamtlösung für den Modellbau . Das Volcano Engine Multimedia Laboratory verfügt über selbstentwickelte Objektrekonstruktionstechnologie, Szenenrekonstruktionstechnologie und Lichtfeldvideotechnologie, die hochauflösende Formen statischer Objekte konstruieren und deren komplexe Materialien wiederherstellen können Städte Die effektive Modellierung von Parks, Wohnräumen usw. ist eine wichtige Grundlage für digitale Zwillinge; sie kann mithilfe fortschrittlicher Lichtfeld-Videotechnologie dynamische Objekte und dynamische Szenen rekonstruieren und reproduzieren, um eine On-Demand- und Live-Übertragung mit einem vollständigen Satz technischer Funktionen zu ermöglichen Lösungsplan.
2.1 Technologie zur Objektrekonstruktion: sowohl zum Schutz kultureller Relikte als auch zum genauen Scannen Im Projekt „Travel Notes on Ancient Books“ führte das Volcano Engine Multimedia Laboratory digitale Restaurierungen von mehr als 40 kulturellen Relikten durch. Bei der digitalen Restaurierung kultureller Relikte besteht die erste Schwierigkeit darin, dass kulturelle Relikte geschützt werden müssen und bestimmte Einschränkungen bei der Sammlungsausrüstung bestehen. Beispielsweise können häufig verwendete hochpräzise Lasergeräte nicht zum Scannen kultureller Relikte verwendet werden. Dies veranlasste das Team des „Volcano Engine Multimedia Laboratory“ dazu, einen „visionsbasierten Ansatz zur 3D-Rekonstruktion“ kultureller Relikte zu übernehmen.
Allerdings können herkömmliche visionsbasierte Rekonstruktionsmethoden schwach strukturierte Objekte nicht verarbeiten, und es ist auch schwierig, Gegenstände mit komplexen Formen (wie lange und schmale Hausschuhe, flache Orakelknochen) zu rekonstruieren. Zu diesem Zweck wird die technische Lösung von Signed Distance Fields (SDF) zur Darstellung dreidimensionaler Objekte verwendet, und die Methode des Deep Learning wird verwendet, um die oben genannten Rekonstruktionsschwierigkeiten zu überwinden. SDF stellt den Richtungsabstand von jedem Punkt im Raum zum Objekt dar. Es handelt sich um eine implizite Darstellung des zweidimensionalen SDF.
Schematisches Diagramm von SDF
Wie man das neuronale Netzwerk überwacht, um es genau an das SDF anzupassen, ist ein Problem, das untersucht werden muss. Verwenden Sie zunächst den Structure from Motion (SfM)-Algorithmus, um die Kamerahaltung des aufgenommenen Bildes genau zu berechnen. Mit der Kamerahaltung werden die von der SDF dargestellten räumlichen Informationen mithilfe der differenzierbaren Rendering-Methode auf das Bild gerendert, das gerenderte Bild mit dem aus dieser Perspektive erfassten Bild verglichen und das neuronale Netzwerk kontinuierlich optimiert, um die SDF besser zu machen In jeder Sammlungsperspektive stimmen die Rendering-Ergebnisse so gut wie möglich mit den tatsächlich aufgenommenen Bildern überein.
Um die Präzision der Rekonstruktion weiter zu verbessern, werden die durch die spärliche Rekonstruktion erhaltenen dreidimensionalen Punkte bei der Optimierung des SDF als Einschränkungen hinzugefügt, wodurch die detaillierten Merkmale des Objekts besser wiederhergestellt werden können. Um den Zweck einer vollständigen Rekonstruktion zu erreichen, kombiniert das Volcano Engine Multimedia Laboratory auch Segmentierungsalgorithmen und Rekonstruktionsalgorithmen, um den unteren Bereich des Objekts effektiv zu rekonstruieren.
Da das Objekt während des Scanvorgangs in einer bestimmten Position fixiert werden muss, kann kein Bild von der Unterseite des Objekts aufgenommen werden. Die vollständige Rekonstruktion eines Objekts besteht darin, das Problem der Rekonstruktion des Bodens des Objekts zu lösen. Die übliche Methode ist die Suspensionslinienmethode oder die Mehrsegmentrekonstruktion plus Nachbearbeitungsspleißen. Die Aufhängungsmethode ist für kulturelle Relikte nicht sicher genug, und der Verarbeitungsprozess nach dem Spleißen ist langwierig und kann nicht automatisiert werden. Zu diesem Zweck hat das Volcano Engine Multimedia Laboratory dem Rekonstruktionsalgorithmus eine automatisierte Bildsegmentierung hinzugefügt, die die aus den Vorwärts- und Rückwärtsaufnahmen entnommenen Daten vereinheitlichen und zusammen rekonstruieren kann, um direkt das vollständige Rekonstruktionsergebnis zu erhalten Die Rekonstruktionsergebnisse sind in der folgenden Abbildung dargestellt.
Ergebnisse modellieren, ohne die Technologie der vollständigen Rekonstruktion zu verwenden Die Übereinstimmung der Punkte führt zu einer ungenauen Wiederherstellung der Kameraposition, und eine weitere Hervorhebung zerstört die Konsistenz der Beobachtungsergebnisse zwischen verschiedenen Blickwinkeln, was zu Störungen bei der Rekonstruktion führt. Zu diesem Zweck hat Volcano Engine Multimedia Laboratory eine Reihe von Methoden zur Beseitigung von Glanzlichtern mit polarisiertem Licht zusammengefasst, mit denen eine große Anzahl von Glanzlichtern effektiv entfernt werden kann. Der Vergleich der Ergebnisse zur Glanzlichteliminierung ist in der folgenden Abbildung dargestellt.
Vor dem Eliminieren von Glanzlichtern
Nach dem Eliminieren von Glanzlichtern
Die Methoden des Volcano Engine Multimedia Laboratory können auch die Reflexion/Referenz simulieren Aktionseigenschaften verschiedener zu erreichender Objekte spezielle Modellierung materieller Objekte , Die Ergebnisse der Rekonstruktion kultureller Relikte sind in der folgenden Abbildung dargestellt.
Originalbild kultureller Relikte
Rekonstruktionsergebnisse kultureller Relikte
Einige der Kulturdenkmäler in den vier großen Museen sind wertvolle Kulturdenkmäler wie Papier- und Bambuszettel. Diese Kulturdenkmäler sind auch schwer aus den Vitrinen herauszunehmen und einzusammeln. Als Reaktion auf diese Situation hat Das Volcano Engine Multimedia Laboratory unabhängig ein Sammelgerät entwickelt, das optische Polarisatoren enthält, die Streulicht, Glanzlichter und Reflexionsprobleme beseitigen können, die durch Glasvitrinen verursacht werden, sodass wir währenddessen eine schützende Glashülle verwenden können. Führen Sie immer noch High-Fidelity-Scans und Rekonstruktionen kultureller Relikte durch. Artefakte in Glasvitrinen Ergebnisse der Artefaktrekonstruktion Darüber hinaus beinhaltet die Artikelrekonstruktionstechnologie des Volcano Engine Multimedia Laboratory auch genaue Posenschätzung, real Die Wiederherstellung komplexer Materialien wie sensorischer Texturen ( diffuse Reflexion, spiegelnde Reflexion, Transluzenz ) und die Rekonstruktion feiner Oberflächen wurden auch im Projekt „Reisenotizen zu alten Büchern“ verwendet, um wertvolle kulturelle Werte zu realisieren Die äußerst realistische 1:1-Restaurierung und Umwandlung in digitale Ressourcen ermöglichen es dem Publikum, in das Museum einzutauchen und die Sammlung tiefer in den Herzen der Menschen zu verankern. Die Objektrekonstruktionstechnologie des Volcano Engine Multimedia Laboratory ist nicht nur für kulturelle Relikte geeignet, sondern auch für einige Objekte, die mit traditioneller Rekonstruktion schwer zu verarbeiten sind Auch dünne Objekte wie Messerklingen können gute Rekonstruktionsergebnisse liefern. 2.2 Selbstgebauter Szenenrekonstruktionsalgorithmus: höhere Effizienz, höhere Genauigkeit Das Volcano Engine Multimedia Laboratory kombiniert KI-Technologie und die Grundprinzipien der Multi-View-Geometrie, um ein fortschrittliches, robustes, genaues und vollständiges visuelles Rekonstruktionsalgorithmus-Framework zu erstellen. Der Rekonstruktionsprozess besteht aus drei Schlüsselschritten : Bildverarbeitung, Punktwolkenoptimierung und Netzrekonstruktion . Das Volcano Engine Multimedia Laboratory nutzt fortschrittliche Technologie der künstlichen Intelligenz, um , Merkmalsextraktion und Matching zu verarbeiten und so viele Einschränkungen herkömmlicher Methoden zu überwinden. Anschließend werden der SfM-Algorithmus und die Bundle Adjustment (BA) verwendet, um spärliche geometrische Strukturen und Kameraparameter aus dem Bild zu extrahieren. Gleichzeitig entwickelte das Team einen Posenschätzungsalgorithmus, der die Dateneingabe mehrerer Sensoren wie Panoramakameras, Multikameragruppen, RGBD-Kameras, Lidar, GPS/IMU usw. unterstützt, um eine hochpräzise, multimodale Datenerfassung zu erreichen , adaptive spärliche Rekonstruktion. Um große Datenmengen zu verarbeiten, entwickelte das Team Blockrekonstruktions- und Kartenzusammenführungsstrategien, um eine parallele Rekonstruktion verteilter Cluster zu erreichen und so die Rekonstruktionseffizienz deutlich zu verbessern. Nach Abschluss der spärlichen Rekonstruktion der Szene . Das Team hat selbst entwickelte Tiefenschätzungsalgorithmen basierend auf monokularen Kameras, binokularen Kameras und Mehraugen-Stereovision. Es nutzt neuronale Netze, um eine dichte Tiefenschätzung durchzuführen und eine stabile und hervorragende Leistung in jeder Parallaxe und verschiedenen Texturumgebungen zu erzielen. Nachdem Sie die Punktwolkeninformationen erhalten haben, führen Sie eine Punktwolkenentrauschung und -vervollständigung durch und erreichen durch die Punktwolkenregistrierung eine geometrische Konsistenz der Szene. Schließlich wird die auf VoxelHash und bildsemantischen Informationen basierende Punktwolkenfusionsstrategie verwendet, um Rauschen weiter herauszufiltern und eine glattere und konsistentere vollständige Szenenpunktwolke zu erzeugen. Führen Sie nach Erhalt der Szenenpunktwolke eine Netzrekonstruktion durch. Das Volcano Engine Multimedia Laboratory hat selbst eine Vielzahl von Gitteroptimierungsalgorithmen entwickelt, um eine Gitterglättung, Rauschunterdrückung, Vereinfachung und Lückenfüllung zu erreichen und so ein verfeinertes, vollständigeres und qualitativ hochwertigeres Gittermodell zu erhalten. Dank hochpräziser Kamerapositionsschätzung und Bildqualitätsoptimierung wie Bild-Superauflösung während der Bildverarbeitung, kombiniert mit selbst entwickelten Mapping-Algorithmen, können hochwertige Texturkarten mit höherer Auflösung und weniger Nähten erhalten werden. Gleichzeitig wird der Textur-Neupackalgorithmus optimiert, um eine höhere Texturausnutzung zu erreichen, die Verschwendung von Speicherressourcen zu reduzieren und die effektive Texturauflösung zu verbessern. Traditioneller Bildregistrierungsalgorithmus Volcano Engine Video Cloud-Algorithmus Traditioneller Modellierungsalgorithmus Volcano Engine Video Cloud-Algorithmus Modellierungsergebnisse Die Objektrekonstruktionstechnologie und Szenenrekonstruktionstechnologie des Volcano Engine Multimedia Laboratory kann „kulturelle Relikte unterschiedlicher Größe und Form in gleichen Anteilen und mit hoher Präzision wiederherstellen“. Die oben genannte Technologie kann Offline-Kulturrelikte in Online umwandeln und die virtuelle Präsentation von Kulturrelikten in PICO und Douyin realisieren. Benutzer können mit Orakelknocheninschriften in ihren Händen spielen und den Text darauf deutlich sehen, wodurch ein Erlebnis beim Betrachten kultureller Relikte erreicht wird Dies ist bei herkömmlichen Besichtigungen nicht möglich, und gleichzeitig können Sie die Platzbeschränkungen überwinden und die Dunhuang-Grotten besichtigen. Darüber hinaus kann diese Technologie offline wertvolle kulturelle Relikte in permanente digitale Online-Ressourcen umwandeln, den digitalen Schutz kultureller Relikte realisieren und es künftigen Generationen ermöglichen, das Gesamtbild kultureller Relikte persönlich zu erleben. 2.3 Selbstentwickelte Lichtfeld-Videotechnologie: das Problem der Balance zwischen Kosten und Genauigkeit Um einen großen Tanz immersiv in den virtuellen Dunhuang-Grotten verfolgen und ein Erlebnis jenseits der Realität erleben zu können, wurde das Volcano Engine Multimedia Laboratory The Die selbst entwickelte Lichtfeld-Videotechnologie kann dynamische Charaktere und Szenen mit hoher Wiedergabetreue rekonstruieren und erreicht damit das fortgeschrittene Niveau der Branche Dynamische 3D-Netzdaten (Dynamic Mesh) können dynamische Charaktere und Szenen darstellen, aber wie man ein hochwertiges dynamisches 3D-Netz rekonstruiert und das neu gerenderte Bild so realistisch wie ein Foto macht, ist ein Problem. Neuronale Strahlungsfeldtechnologie Das Volcano Engine Multimedia Laboratory kombiniert neuronale Strahlungsfeldtechnologie mit traditioneller Mesh-Modellierungstechnologie. In der konkreten Praxis wird zunächst der grobe geometrische Umriss des Charakters rekonstruiert und die NeRF-Technologie verbessert, der geometrische Umriss wird a priori integriert, um Trainingsanleitungen hinzuzufügen, die dreidimensionale Raumgeometrie wird implizit erlernt und das Bild von a Die dichte neue Perspektive wird neu gerendert. Während des neuronalen Strahlungsfeld-Trainingsprozesses für dynamische Charakterszenen verwendete das Team einige Optimierungsstrategien, um den Effekt der neuen Perspektivengenerierung in dieser Szene zu verbessern, z. B. die Verwendung hierarchischer Ausdrücke basierend auf Hash-Codierung zur Verbesserung der Modelltrainingsgeschwindigkeit und die Verwendung von Streaming-Training Verbesserung der Bildkonsistenz von Szenen usw. Schließlich wird die Videofusionstechnologie verwendet, um Hintergrundinformationen automatisch zu lernen und eine Neubeleuchtung des Vordergrunds zu realisieren, sodass Vordergrundschauspieler und Hintergrundszenen nahtlos integriert werden können. Gleichzeitig kann die Lichtfeld-Videotechnik des Volcano Engine Multimedia Laboratory die Bearbeitung und Rekonstruktion realisieren und Replikation von NeRF Präsentieren Sie komplexe dynamische Szenen. Lichtfeld-Videotechnologie von Volcano Engine Multimedia Lab, die nur spärliche Eingaben mehrerer Kameras erfordert, kann dichte Lichtfelddaten generieren, die hauptsächlich neue Technologien zur Perspektivengenerierung auf Basis von Deep Learning nutzen. Im Vergleich zu herkömmlichen Videodaten zeichnen sich Lichtfeld-Videodaten durch ein großes Datenvolumen aus. Das Team verwendet die Multi-View-Aggregation-Codierungstechnologie, um die Lichtfelddaten zu komprimieren und den Übertragungs- und Speicherdruck zu verringern. In Kombination mit groß angelegter Live-Übertragungstechnologie und RTC Übertragungstechnologie ist es möglich, Lichtfeldvideos auf Abruf und live zu übertragen. Während die 3D-Technologie weiter reift, entwickelt Volcano The Die 3D-Technologie des Engine Multimedia Laboratory hat nicht nur spezifische Anwendungen im Bereich VR, autonomes Fahren, Live-Video, Spiele und andere Szenarien, sondern wird auch weiterhin in den Bereichen Industrie, medizinische Versorgung, Bauwesen und Heimtextilien erforscht. Luft- und Raumfahrt und andere Bereiche. Volcano Engine hofft, Objektrekonstruktionstechnologie, Szenenrekonstruktionstechnologie und Lichtfeldvideotechnologie umfassend auf Produkte und Projekte in verschiedenen Branchen anzuwenden, Unternehmenskunden zu bedienen und Benutzern ein höher aufgelöstes, interaktiveres und immersiveres innovatives Erlebnis zu bieten. Das Volcano Engine Multimedia Laboratory ist ein Forschungsteam von Bytedance. Es engagiert sich für die Erforschung modernster Technologien im Multimedia-Bereich und beteiligt sich an der internationalen Standardisierungsarbeit wird im TikTok-Multimedia-Geschäft häufig für Audio, Xigua-Video und andere Produkte eingesetzt und bietet technische Dienstleistungen für Unternehmenskunden von Volcano Engine. Seit der Gründung des Labors wurden viele Beiträge für die wichtigsten internationalen Konferenzen und Flaggschiff-Zeitschriften ausgewählt und gewannen mehrere internationale technische Wettbewerbsmeisterschaften, Brancheninnovationspreise und Auszeichnungen für die beste Arbeit. Die Szenenrekonstruktion ist eine Kombination aus Computer Vision und Photogrammetrie Es ist ein wichtiges Forschungsthema auf diesem Gebiet und hat auch wichtige Anwendungen in Smart Cities, virtueller Realität, digitaler Navigation und digitalem Denkmalschutz. Die dreidimensionale Rekonstruktion durch Sicht bietet die Vorteile einer hohen Erfassungseffizienz, niedriger Erfassungskosten, einer hohen Obergrenze der Genauigkeit und der Anpassungsfähigkeit an eine Vielzahl von Szenen. Sie kann jedoch auch unnötige Schäden an der Szene vermeiden, die durch andere Scangeräte verursacht werden steht auf Algorithmusebene vor vielen Herausforderungen.
In diesem Zusammenhang 3. Zusammenfassung und Ausblick
Das obige ist der detaillierte Inhalt vonMachen Sie kulturelle Relikte „lebendig', wird die 3D-Rekonstruktionstechnologie der Vulkan-Engine-Video-Cloud enthüllt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!