Obwohl die künstliche Intelligenz (KI) aufgrund exponentieller Entwicklungen immer weiter fortgeschritten ist, bestehen die Grenzen dieser modernen Technologie immer noch.
Können synthetische Daten also die Lösung für alle KI-bezogenen Probleme sein?
In der vierten industriellen Revolution hat jede Branche das Potenzial moderner Technologien wie künstliche Intelligenz (KI) und maschinelles Lernen (ML) entdeckt.
Fast jedes andere Unternehmen setzt KI ein, um effizientere Geschäftsprozesse zu schaffen und eine bessere Kundenzufriedenheit zu gewährleisten. Allerdings stehen Startups, SOHOs und kleine und mittlere Unternehmen (KMUs) bei der Einführung von KI vor einem großen Problem – dem sogenannten Kaltstartproblem. Während Startups und KMU im Allgemeinen nicht über die Ressourcen verfügen, um große Datenmengen zu sammeln, liegt das Kaltstartproblem im Wesentlichen im Mangel an solchen relevanten Daten.
Andererseits verfügen Branchenriesen bereits über die Ressourcen, reale Daten zu sammeln und diese zum Trainieren ihrer KI-Systeme zu nutzen. Daher sind die Gewinnchancen für kleine und mittlere Unternehmen groß. In diesem Fall können synthetische Daten der notwendige Wegbereiter sein.
Synthetische Daten können die treibende Kraft hinter datengesteuerten Geschäftsmodellen sein. Darüber hinaus haben Studien gezeigt, dass synthetische Daten die gleichen Ergebnisse liefern wie reale Daten. Synthetische Daten gelten als kostengünstiger und benötigen weniger Zeit für die Verarbeitung als echte Daten. Daher kann das Aufkommen synthetischer Daten die derzeit von großen Unternehmen dominierten Wettbewerbsbedingungen zugunsten von KMU und Start-ups ausgleichen.
Synthetische Daten sind computergenerierte künstliche Daten, die auf vom Benutzer angegebenen Parametern basieren, um sicherzustellen, dass die Daten den realen historischen Daten so nahe wie möglich kommen. Typischerweise werden Spiel-Engines wie Unreal Engine und Unity häufig als Simulationsumgebungen zum Testen und Trainieren von KI-basierten Anwendungen wie selbstfahrenden Autos verwendet. Die Entwicklung KI-gesteuerter Anwendungen auf Basis synthetischer Daten bietet viele Vorteile. Zu den Vorteilen gehören:
Das Finden, Aggregieren und Modellieren großer Mengen relevanter realer Daten ist ein langwieriger Prozess. Daher könnte die Generierung synthetischer Daten die beste Lösung sein. Mithilfe dieser Daten können Prototypen gebaut und getestet werden, um vor der Massenproduktion die gewünschten Ergebnisse zu erzielen. Die Erstellung von Prototypen mithilfe synthetischer Daten ist effizienter und kostengünstiger als die Erstellung realer Daten.
Open AI, ein gemeinnütziges Forschungsunternehmen für künstliche Intelligenz, entwickelt eine große Anzahl von Anwendungen, die auf künstlicher Intelligenz basieren. Unter diesen Anwendungen haben Forscher mit synthetischen Daten trainierte Roboter entwickelt, die eine neue Aufgabe erlernen können, nachdem sie nur einmal gesehen haben, wie eine Aktion ausgeführt wird. Ein kalifornisches Technologie-Startup entwickelt eine Plattform für künstliche Intelligenz mit einer ähnlichen Vision wie Amazon Go. Ziel des Startups ist es, mithilfe synthetischer Daten kassenfreie Lösungen für Convenience-Stores und Einzelhändler bereitzustellen. Sie haben außerdem KI-gestützte intelligente Systeme eingeführt, um jeden Käufer im Geschäft zu überwachen und seine Lernmuster zu identifizieren und zu analysieren.
Im November 2018 waren 500 Millionen Marriott-Kunden von einem aufsehenerregenden Datenverstoß betroffen. Von diesen 500 Millionen Menschen wurden 327 Millionen Nutzern ihre Daten, einschließlich Passinformationen, E-Mail-Adressen, Postanschriften und Kreditkarteninformationen, gestohlen. Aufgrund solcher Vorfälle machen sich die Menschen Sorgen um die Sicherheit und den Datenschutz ihrer Daten.
Synthetische Daten können solche Datenschutzprobleme effektiv lösen. Zu den synthetischen Daten zählen keine personenbezogenen Daten. Daher kann der Datenschutz problemlos gewährleistet werden. Synthetische Daten sind äußerst nützlich beim Training von KI-Systemen für Anwendungen im Gesundheitswesen. KI-Systeme benötigen oft echte Patientendaten. Dies gefährdet die Privatsphäre des Patienten. Synthetische Daten ermöglichen die Entwicklung fortschrittlicher Anwendungen der künstlichen Intelligenz im Gesundheitswesen unter Wahrung der Patientenvertraulichkeit.
Zum Beispiel verwenden Forscher von Nvidia in Zusammenarbeit mit der Mayo Clinic in Minnesota und dem MGH and BWH Clinical Data Science Center in Boston generative kontradiktorische Netzwerke, um synthetische Daten für das Training neuronaler Netzwerke zu generieren. Die generierten synthetischen Daten enthalten 3.400 MRTs aus dem Datensatz der Alzheimer's Disease Neuroimaging Initiative und 200 4D-MRTs und Tumoren des Gehirns aus dem Datensatz Multimodal Brain Tumor Image Segmentation Benchmark. Ebenso können simulierte Röntgenstrahlen neben tatsächlichen Röntgenstrahlen verwendet werden, um KI-Systeme darauf zu trainieren, mehrere Gesundheitszustände zu erkennen.
Einer der wichtigsten Prozesse bei der Entwicklung KI-gesteuerter Anwendungen ist das Testen der Systemleistung. Wenn das System nicht die gewünschte Leistung erbringt, muss es neu trainiert werden. In diesem Fall können synthetische Daten von Vorteil sein. Synthetische Daten können Szenarien zum Testen von KI-Systemen generieren, anstatt echte Daten zu verwenden oder das System in einer realen Umgebung zu testen. Diese Methode ist kostengünstiger und weniger zeitaufwändig als die Beschaffung realer Daten.
Ähnlich können synthetische Daten auch neue oder bestehende Systeme für Szenarien trainieren, die in der Zukunft auftreten könnten, denen reale Daten oder Ereignisse fehlen. Mit diesem Ansatz können Forscher futuristischere KI-Anwendungen entwickeln. Darüber hinaus ist die Umschulung von KI-Systemen mithilfe synthetischer Daten einfacher, da die Generierung synthetischer Daten einfacher ist als die Erfassung genauer Daten aus der realen Welt.
Aufgrund dieser Vorteile sind synthetische Daten zu einer zugänglichen Alternative zum Testen und Trainieren autonomer Fahrzeuge geworden. Viele Entwickler selbstfahrender Autos nutzen simulierte Spielumgebungen wie GTA V, um ihre KI-basierten Systeme zu trainieren. Ebenso baut May Mobility einen selbstfahrenden Mikromobilitätsdienst auf, indem es seine Fahrzeuge mithilfe synthetischer Daten trainiert.
Ein anderer Entwickler selbstfahrender Autos namens Waymo hat seine selbstfahrenden Autos bereits getestet, indem er 5 Milliarden Meilen auf simulierten Straßen und weitere 8 Millionen Meilen auf realen Straßen gefahren ist. Der Ansatz mit synthetischen Daten ermöglicht es Entwicklern, ihre selbstfahrenden Autos auf simulierten Straßen zu testen, was viel sicherer ist als direkte Tests auf tatsächlichen Straßen.
Die Beschaffung realer Daten ist ein langwieriger Prozess, der die Bezahlung von Anmerkungen und die Vermeidung von Urheberrechtsverletzungen umfasst. Darüber hinaus können reale Daten nur in bestimmten Szenarien mit ausreichend historischen Daten in einem bestimmten Bereich verwendet werden. Im Gegensatz zu realen Daten können synthetische Daten sofort jede Kombination aus Objekten, Szenen, Ereignissen und Personen darstellen. Synthetische Daten können allgemeine Datensätze generieren, die Nischenanwendungen entdecken können. Dadurch können Forscher mit synthetischen Daten endlose Möglichkeiten erkunden. Mehrere Startups schaffen eine offene Datenökonomie, indem sie Trainingsdatensätze entwickeln, die den Kundenanforderungen entsprechen.
Während synthetische Daten der KI dabei helfen können, unentdeckte Gebiete zu erreichen, können ihre Grenzen zu einem großen Hindernis für ihren Mainstream-Einsatz werden. Zunächst einmal simulieren synthetische Daten mehrere Eigenschaften realer Daten, reproduzieren jedoch nicht genau die Originaldaten. Bei der Modellierung solcher synthetischen Daten suchen KI-Systeme nur nach gemeinsamen Trends und Situationen in den realen Daten. Daher dürfen seltene Szenarien, die in extremen Fällen in realen Daten enthalten sind, niemals in synthetische Daten einbezogen werden.
Darüber hinaus haben Forscher noch keinen Mechanismus entwickelt, um zu überprüfen, ob die Daten korrekt sind. Fehler in realen Daten zu finden und zu reduzieren ist einfacher als die Verwendung synthetischer Daten. KI-gestützte Systeme haben bereits eine „dunkle Seite“, die unbeabsichtigte Voreingenommenheit fördert. Anhand synthetischer Daten ist es möglicherweise verfrüht, das Ausmaß und die Auswirkungen dieser Verzerrung vorherzusagen.
Unternehmen müssen verstehen, dass synthetische Daten eine relativ neue Entdeckung sind. Die Effizienz und Genauigkeit dieser Daten wurde nicht anhand aktueller Industriestandards bewertet. Daher sollten synthetische Daten nicht als eigenständige Datenquelle betrachtet werden. Insbesondere bei Anwendungen mit Sicherheitsbedenken, wie z. B. Anwendungen im Gesundheitswesen und selbstfahrenden Autos, müssen synthetische Daten mit realen Daten kombiniert werden, um KI-Systeme zu entwickeln. Anwendungen im Einzelhandel weisen jedoch einen geringeren Risikofaktor auf und können problemlos auf synthetische Daten zurückgreifen.
Für Testzwecke sind synthetische Daten eine praktikable und kostengünstige Lösung. Für andere Zwecke müssen die Ergebnisse eines KI-Systems jedoch gründlich untersucht und analysiert werden, bevor synthetische Daten als eigenständige Lösung eingesetzt werden können. Durch weitere Forschung könnten synthetische Daten für eine Vielzahl von Vorgängen zuverlässiger werden.
Das obige ist der detaillierte Inhalt vonKönnen synthetische Daten künstliche Intelligenz verbessern?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!