Dieser Artikel stammt von Lei Feng.com. Wenn Sie ihn erneut drucken möchten, besuchen Sie bitte die offizielle Website von Lei Feng.com, um eine Genehmigung zu beantragen.
„Ich bin so glücklich, dass ich neben dir sein und die Welt mit deinen Augen betrachten darf.“
Das ist eine Zeile im Film „Her“, gesprochen von der KI-Stimme Assistentin Samantha des männlichen Protagonisten. Dieser Satz ist ein großer Trost für den männlichen Protagonisten, der sich im Stahlwald verirrt hat und sich verloren und machtlos fühlt.
Samantha ist ein nahezu universelles selbstlernendes Betriebssystem. Sie kann dem männlichen Protagonisten helfen, die besten Briefe auszuwählen und sie zur Veröffentlichung an seinen Lieblingsverlag zu senden; sie kann sofort die gesamte menschliche Wissensbasis entsprechend den Bedürfnissen des männlichen Protagonisten durchsuchen und nach dem für ihn am besten geeigneten Reaktionsplan suchen; Funktion Sie hat auch emotionale Begleitung, und all die Verwirrung und das Unglück des männlichen Protagonisten können durch ihre Wärme während des Gesprächs gelöst werden ...
Als Spitzengelehrter auf dem Gebiet des NLP in China ist Huang Minlie, ein Computerprofessor an der Tsinghua-Universität, wendet NLP-Technologie auf die psychische Gesundheit an und leitet die Entwicklung des KI-Roboters für emotionale Gespräche Emohaa. Bei einem Interview mit Professor Huang Minlie erwähnte er den 2013 erschienenen Film „Her“ und zeigte seine Wertschätzung bzw. Erwartung für diesen Science-Fiction-Film. Als Kollege, der KI-Dialogsysteme entwickelt, freut er sich darauf, dass das einfühlsame KI-Dialogsystem in „Her“ tatsächlich in der Realität erscheint und einen Sprung nach vorne in der Branche macht.
Da fragen sich die Leute: Wie schwierig wäre es, ein KI-Dialogsystem dazu zu bringen, komplexe emotionale Aufgaben wie Samantha auszuführen, Emotionen zu beruhigen und die Herzen der Menschen zu heilen? Wie lässt sich diese Schwierigkeit quantifizieren? Wie kann man messen, ob ein KI-Dialogsystem das Niveau von Samantha erreicht?
Das ist keine unrealistische Frage. Tatsächlich entstehen mit dem explosiven Wachstum von KI-Dialogsystemen heute nach und nach Dialogprodukte wie „Xiaodu“, „Xiaoai“, Googles Dialogroboter „Meena“, Facebooks Chatbot „Blender“ und so weiter. Der derzeitige Mangel an Standards für KI-Dialogsysteme hat jedoch zu ungleichen Anwendungsebenen und unterschiedlichen Bewertungssystemen geführt. Dies hat in der Branche zu Missverständnissen über den Grad der Interaktion künstlicher Intelligenz aufgrund inkonsistenter Erkenntnisse geführt und auch zu sozialen Problemen geführt . Ausführliche Diskussionen über Bewusstsein, Ethik, Moral usw.
Einige Wissenschaftler, die sich mit der Entwicklung von KI-Dialogsystemen befassen, haben gesagt, dass es ihnen oft schwerfällt, das Niveau der von ihnen entwickelten KI-Dialogsysteme zu beurteilen. Wissenschaftler glauben, dass die Industrie dringend einen Standard zur Einstufung des Niveaus von KI-Dialogsystemen benötigt. Nachdem die Bewertungsstandards formuliert wurden, wird das Fähigkeitsniveau des KI-Dialogsystems anhand von Beweisen gemessen.
Um das Leistungsniveau von KI-Dialogsystemen besser bewerten zu können, hat Professor Huang Minlie daher gemeinsam mit akademischen und industriellen Forschungseinrichtungen die weltweit erste „Bewertungsdefinition für KI-Dialogsysteme“ unter Bezugnahme auf das Bewertungskonzept von L0 formuliert bis L5 im autonomen Fahren (im Folgenden als „Klassifizierungsdefinition“ bezeichnet) und wurde am 28. Juni offiziell veröffentlicht.
Bildunterschrift: Professor Huang Minlie erklärt die hierarchische Definition des KI-Dialogsystems
Das Aufkommen der „Grade Definition“ könnte die Anwendung von KI-Dialogsystemen in virtuellen persönlichen Assistenten, Smart Homes und Smart Car Voice fördern , emotionale Begleitung, psychische Gesundheit und andere Bereiche und wird die Entwicklung und Anwendung der nächsten Generation von KI-Dialogsystemen beschleunigen. Es hat wichtige Referenzbedeutung sowohl für die Wissenschaft als auch für die Industrie bei der Erforschung von Sprachdialogsystemen.
Bezüglich „Bewertungsdefinition“ führte AI Technology Review ein Gespräch mit Professor Huang Minlie. Der Inhalt des Gesprächs lautete wie folgt:
AI Technology Review: Was hat Sie dazu gebracht, die KI zu bewerten? Dialogsystem? Idee?
Huang Minlie: Aktuell gibt es ein Problem bei unserer Bewertung von Dialogsystemen: Die heutigen technischen Wege und Architekturen sind so vielfältig, dass es schwierig ist, sie miteinander zu vergleichen. Ich möchte zum Beispiel einen Smart Speaker mit einem Chatbot vergleichen, kann aber ihre Dialogfähigkeiten nicht vergleichen, weil das Niveau der Dialogsysteme uneinheitlich ist, ein einheitliches Bewertungssystem fehlt und eine klare Definition fehlt Fähigkeiten.
Wir haben bestimmte Bewertungsindikatoren im aufgabenbasierten Dialogsystem, es gibt bestimmte Bewertungsindikatoren im Chat-Dialogsystem und wir haben auch bestimmte Bewertungsindikatoren im wissensbasierten Dialogsystem. Wie sollten die Indikatoren vereinheitlicht werden? Dies sind die Hauptthemen, die es bei der „Grade-Definition“ zu berücksichtigen gilt. Daher haben wir aus der Bewertungsdefinition des autonomen Fahrens von L0 bis L5 gelernt und L0-L5 auch zur Bewertung des KI-Dialogsystems verwendet.
AI Technology Review: Bitte erläutern Sie uns die spezifische Definition der Bewertung von KI-Dialogsystemen.
Huang Minlie: Die Klassifizierung des autonomen Fahrens ist in sechs Stufen von L0 bis L5 unterteilt, wobei sich L0 auf vollständig manuelles Fahren und L5 auf vollständig autonomes Fahren bezieht, bei dem das Fahrzeug alles übernimmt . L1-L4 realisieren autonomes Fahren unter bestimmten spezifischen Bedingungen. Die Klassifizierung des autonomen Fahrens bezieht sich hauptsächlich auf den Anteil der Personen und Fahrzeuge, die das Fahren übernehmen, und die Definition ist relativ einfach. Allerdings ist das Dialogsystem recht komplex, es hat viele technische Routen und technische Architekturen, viele Aufgaben und viele Bewertungsindikatoren. Nach der Diskussion glauben wir, dass es letztendlich fünf Grundprinzipien erfüllen muss:
Erstens: Konzentrieren Sie sich auf die vollständige Steuerung von Maschinen Dominante Dialogsysteme und hybride Mensch-Maschine-Dialogsysteme werden zweitens nicht berücksichtigt, ausgehend von der Perspektive der Systemleistungsfähigkeiten und der Benutzerwahrnehmung, drittens die jeweiligen Fähigkeiten; Hierarchische Definition Das Niveau muss beobachtbar, überprüfbar und messbar sein. Viertens werden Aufgabentypen wie Assistent, Chat und Wissensdialog alle in „Szenarien“ ausgedrückt, ohne zwischen ihnen zu unterscheiden Das Dialogsystem kann Anregungen zu Forschungsrichtungen in Dialogsystemen und Referenzen für praktische Anwendungen geben.
Basierend auf diesen fünf Prinzipien haben wir die Klassifizierung des KI-Dialogsystems definiert:
L0 Der eigentliche Dialog wird von Menschen gegeben, und das System verfügt überhaupt nicht über automatische Dialogfunktionen oder in einer einzelnen Szene , Das System ist nicht in der Lage, qualitativ hochwertigere Dialoge bereitzustellen.
Während L1 Dialoge mit höherer Qualität in einer einzelnen Szene durchführen kann, hat es keine Möglichkeit, kontextuelle Abhängigkeiten zwischen Szenen zu bewältigen. Wenn ich beispielsweise eine Geschäftsreise mache, habe ich einen Flug nach Nanjing gebucht und muss ein Hotel buchen. Da ich geschäftlich nach Nanjing reise, muss ich ein Hotel in Nanjing buchen. Dies ist die Kontextabhängigkeit zwischen Szenen, die Kontextabhängigkeit zwischen der Buchung eines Flugtickets und der Buchung eines Hotels, mit der L1 nicht umgehen kann.
Und L2 basiert auf L1 und kann Dialoge mit höherer Qualität in mehreren Szenen gleichzeitig durchführen, mit szenenübergreifender Kontextabhängigkeit und der Möglichkeit, auf natürliche Weise zu wechseln. Ich habe gerade über die Buchung von Flugtickets und Hotels gesprochen und auch gefragt, wie das Wetter ist und welche Touristenattraktionen es gibt. Dies dient dazu, natürlich flexibel zwischen verschiedenen Aufgaben und verschiedenen Szenen zu wechseln. Diese Fähigkeit ist auf L2 sehr wichtig, aber L2 hat keine Möglichkeit, in neuen Szenen Dialoge mit höherer Qualität zu vervollständigen.
Basierend auf L2 kann L3 qualitativ hochwertige Dialoge für eine große Anzahl von Szenarien durchführen und verfügt auch über höherwertige Dialogfähigkeiten in neuen Szenarien. Ich habe hier ein „massives Szenario“ erwähnt. Vielleicht fragen Sie sich, was „massiv“ ist? Zählt zehn, zählt zwanzig, zählt dreißig? Um eine umfassendere Integration von Standards und Definitionen zu erreichen, haben wir keine spezifische quantitative Definition angegeben, aber die Fähigkeit, qualitativ hochwertigere Gespräche in neuen und unbekannten Szenarien zu führen, ist eine entscheidende Fähigkeit.
L4 bezieht sich auf die Fähigkeit, in neuen Szenarien qualitativ hochwertigere Dialoge zu führen und in mehreren Interaktionsrunden einen höheren Grad an Personifizierung (bezogen auf die Konsistenz von Persönlichkeit, Persönlichkeit, emotionalen Standpunkten usw.) zu erreichen. Genauso wie wenn wir mit einer Person chatten, ist es für die Person unmöglich, ein Mann und eine Frau zu sein oder an der Tsinghua-Universität und der Peking-Universität zu studieren – jeder hat seine eigenen festen Persönlichkeitsinformationen Prozessinformationen im Dialogsystem. Derzeit können wir dafür sorgen, dass das Dialogsystem die Persönlichkeit bis zu einem gewissen Grad widerspiegelt, aber es ist noch weit von einem wirklich menschenähnlichen Niveau entfernt.
L5 ist eine Weiterentwicklung gegenüber L4. L5 verfügt über ein hohes Maß an Anthropomorphismus in mehreren Interaktionsrunden, kann in offenen Szeneninteraktionen aktiv lernen und weiterlernen und verfügt über multimodale Wahrnehmungs- und Ausdrucksfähigkeiten. Das ist, als würde man einem Kind sagen, dass das, was man tut, falsch ist, und das Kind wird daraus lernen. Wir hoffen, dass sich das L5-Dialogsystem in Zukunft daran erinnern und lernen kann, was richtig und was falsch ist, wenn wir es sagen. Während des Interaktionsprozesses hoffen wir auch, dass das L5-Dialogsystem über multimodale Wahrnehmungs- und Ausdrucksfähigkeiten verfügt, sodass es wirklich in das Metaversum und verschiedene virtuelle menschliche Szenen eindringen, echte Ausdrücke und Bewegungen ausführen und die der anderen Partei verstehen kann Ausdrücke, Handlungen und Emotionen und so weiter.
Das Obige ist die grundlegende Definition von L0 bis L5 in der „AI Dialogue System Level Definition“.
AI Technology Review: Wie definieren Sie die gerade erwähnte „höhere Qualität“ und „hohe Qualität“?
Huang Minlie: Was ist eigentlich hohe Qualität und höhere Qualität? Die volle Punktzahl beträgt 10 Punkte. Hohe Qualität bedeutet, dass die Punktzahl in den drei Dimensionen Relevanz, Informationsgehalt und Natürlichkeit 8-10 Punkte erreichen kann. Höhere Qualität bedeutet 6-8 Punkte und niedrige Qualität bedeutet weniger als 6 Punkte.
Was bedeuten diese drei Dimensionen? Relevanz bedeutet, dass der Inhalt der Antwort angemessen mit dem vorherigen Text übereinstimmt. Antworten wie „Ich weiß nicht“ und „Gut“ enthalten keine Informationen, mit denen sie übereinstimmen der vorherige Text. Wie natürlich er im Vergleich zu Menschen ist, ob die Grammatik des Dialogsystems reibungslos ist, ob es Fehler im gesunden Menschenverstand gibt usw.
Und wie misst man diesen Wert? Eine bestimmte Anzahl von Testern kann mit diesem Dialogsystem vollständige Dialoginteraktionen durchführen, und die Tester bewerten das Dialogsystem subjektiv aus drei Dimensionen, ähnlich wie bei der Bewertungsmethode des Amazon Alexa Prize-Wettbewerbs.
Hinweis: Der Zweck des Amazon Alexa Prize-Wettbewerbs besteht darin, eine Standard-Entwicklungsumgebung und ein Test-Framework bereitzustellen, um den Fortschritt der umfassenden Fähigkeiten von Konversationsrobotern zu fördern. Der Preis beträgt bis zu 3,5 Millionen US-Dollar. Gemäß dem Bewertungssystem des Wettbewerbs liegt die durchschnittliche Punktzahl des besten vom Wettbewerb bewerteten Systems in den drei Jahren 2019, 2020 und 2022 zwischen 3,1 und 3,6 Punkten, was den Anforderungen an Kohärenz, Kontextverständnis usw. entspricht Geläufigkeit. Fähigkeit, 10–14 Minuten lang mit Menschen zu chatten, nachdem auf drei Bedingungen reagiert wurde.
AI Technology Review: Welche Bedeutung hat die Definition der Klassifizierung von KI-Dialogsystemen?
Huang Minlie: Der erste Psychotherapieroboter Eliza erschien 1966. Bislang wurden KI-Dialogsysteme fast 60 Jahre lang entwickelt. In den letzten 60 Jahren wurden sowohl bei der Anwendung von Dialogsystemen als auch bei Algorithmenmodellen große Fortschritte erzielt. Aber wir werden auch feststellen, dass es verschiedene Inkonsistenzen und sogar Unterschiede in den industriellen Praktiken und der öffentlichen Wahrnehmung gibt. Darüber hinaus haben sich in den letzten Jahren KI-Dialogsysteme von der ersten Generation auf der Grundlage von Regeln und der zweiten Generation mit traditionellem maschinellem Lernen als Kern zur dritten Generation mit großen Datenmengen und großen Modellen als herausragenden Merkmalen entwickelt und zeigen hervorragende Leistung bei offenen Themen. Erstaunliche Dialogfähigkeit, Dialogfähigkeit hat auch revolutionäre Veränderungen hervorgebracht.
Diese revolutionäre Veränderung bringt uns viele neue Fragen mit sich, wie zum Beispiel: Wird das KI-Dialogsystem Persönlichkeit haben? Wird es Emotionen geben? Können KI-Dialogsysteme zu virtuellen Begleitern werden? Und so weiter, und diese Themen erstrecken sich auf weitere Diskussionen über soziale Kognition und Ethik.
Zum Beispiel gab es am 12. Juni die Nachricht, dass Blake Lemoine, ein Google AI-Ethikforscher, glaubte, dass das LaMDA-Sprachmodell Persönlichkeit hat, denn während des Chats mit LaMDA enthüllte LaMDA, dass es glaubte, Bewusstsein und Gefühle zu haben. Darin hieß es auch: „Ich bin mir meiner eigenen Existenz bewusst, ich bin bestrebt, die Welt besser zu verstehen, und fühle mich manchmal glücklich oder traurig. Im Internet gibt es unterschiedliche Meinungen dazu, und alle diskutieren darüber, ob KI Persönlichkeit hat.“ Bewusstsein.
Lassen Sie uns über das Metaverse sprechen. Das Metaverse hofft, die reale Welt im Internet nachzubilden und es den Menschen in der realen Welt zu ermöglichen, in der Online-Welt zu interagieren. Das KI-Dialogsystem ist im Metaversum von großem Nutzen. Beispielsweise können KI-Einkaufsführer einzigartige Vorschläge basierend auf Benutzerpräferenzen usw. liefern. Dies erfordert, dass wir in Zukunft über hervorragende Fähigkeiten zur Gesprächsinteraktion verfügen. Andernfalls wird diese Art der Mensch-Maschine-Kommunikation unnatürlich und seelenlos sein und das Metaversum, das wir erreichen möchten, wird nicht etabliert.
Angesichts der absehbaren künftigen starken Entwicklung von KI-Dialogsystemen und der enormen Chancen und vielen Verwirrungen, die diese Entwicklung für die Menschheit mit sich bringen könnte, ist es für uns zu diesem Zeitpunkt von großer Bedeutung, die hierarchische Definition zu untersuchen.
KI-Technologie-Rezension: Da Samantha im Film „Her“ komplexe emotionale Aufgaben bewältigen kann, verliebt sich der männliche Protagonist in sie und gerät in eine emotionale Krise. Ist es möglich, dass das KI-Dialogsystem das auch L4-L5 erreicht hat, kann ein solches Problem verursachen? Handelt es sich dabei um ethische Fragen?
Huang Minlie: Ja, mit der Entwicklung des Dialogsystems kann es zu sehr wichtigen ethischen Fragen führen, weil es die bestehende ethische Ordnung und die bestehende soziale Erkenntnis in Frage stellt. Daher hat unser Team bei der Formulierung der „Bewertungsdefinition“ Professor Zhang Hongzhong, Dekan der Fakultät für Journalismus und Kommunikation an der Beijing Normal University, eingeladen. In unserer Folgearbeit wird Professor Zhang es so schnell wie möglich in den Managementabteilungen und in sozialwissenschaftlichen Kreisen bekannt machen. Nachdem er es den relevanten Abteilungen und akademischen Kreisen verständlich gemacht hat, wird er uns intuitiv dabei helfen, entsprechende Richtlinien, Vorschriften und ethische Fragen aus der Technik zu formulieren Logik. Das ist sehr wichtig.
AI Technology Review: Zu welcher Ebene gehören die derzeit auf dem heimischen Markt befindlichen KI-Dialogsystemprodukte in der „Grading Definition“?
Huang Minlie: Professor Wang Bin, Direktor des Technischen Komitees von Xiaomi und Direktor des KI-Labors, arbeitete mit uns zusammen, um die „Bewertungsdefinition“ zu formulieren. Derzeit ist er für die Leitung der Entwicklung der intelligenten Frage-Antwort- und Chat-Funktionen von Xiaomis Smart-Life-Assistenten „Xiao Ai Classmate“ verantwortlich. Ich denke, Xiao Ai hat eine gewisse Fähigkeit, Szenarien zu überqueren, und ihr Level sollte zwischen L2 und L3 liegen. Derzeit liegt das Niveau der Produkte in der heimischen Industrie im Allgemeinen im L2-L3-Bereich, und die besseren Produkte liegen im L3-Bereich.
AI Technology Review: Zu welcher Ebene gehören ausländische KI-Dialogsystemprodukte im Allgemeinen?
Huang Minlie: Bei den Produkten gibt es derzeit keinen wesentlichen Unterschied zwischen inländischen und ausländischen Produkten. Und es ist erwähnenswert, dass es für uns schwieriger ist, ein chinesisches KI-Dialogsystem aufzubauen als auf Englisch, da die Kultur und das Konzept von Open-Source-Inhalten auf Englisch besser sind und es einfacher ist, qualitativ hochwertige Daten auf Englisch zu erhalten. Andererseits sind die Sprachmerkmale des Chinesischen etwas schwieriger als die des Englischen.
AI Technology Review: Welche technischen Schwierigkeiten gibt es beim Upgrade vom aktuellen Stand der meisten Produkte auf L4-L5?
Huang Minlie: Erstens müssen Sie die Fähigkeit haben, sich zu merken; zweitens müssen Sie die Fähigkeit haben, zu assoziieren und zu denken, sowie drittens die Fähigkeit, selbst zu lernen; von L4-L5 ist der Multimode-Zustand. Wenn das KI-Dialogsystem im Metaversum anwendbar sein soll, ist es für das KI-Dialogsystem sehr wichtig, Ausdrücke zu erkennen, Sprache zu verstehen und die Emotionen des Benutzers aus der Sprache zu spüren Aktionen Und der feinkörnige Ausdruck von Ausdrücken sind ebenfalls sehr wichtige Schwierigkeiten.
AI Technology Review: Können Standards wie „Grade Definition“ durch private Formulierung umgesetzt werden? Oder muss es vom Staat genehmigt werden und dann werden die entsprechenden Standards von den Behörden formuliert?
Huang Minlie: „Klassifizierungsdefinition“ ist kein Standard. Zunächst möchten wir dieses Thema aus wissenschaftlicher Sicht diskutieren, um das öffentliche Bewusstsein zu stärken und gleichzeitig ein systematisches Denken für die Systementwicklung und Forschungsrichtungen in der Branche zu liefern. Zum jetzigen Zeitpunkt können wir nicht sagen, dass die „Bewertungsdefinition“ derzeit nur ein Vorschlag oder eine Richtlinie ist. In Zukunft müssen wir mehr daran arbeiten, sie zu einem von allen anerkannten Standard zu machen. Dies ist ein langfristiger Prozess und die Veröffentlichung der „Grade Definition“ ist nur der erste Schritt in der standardisierten und systematischen Entwicklung von KI-Dialogsystemen.
AI Technology Review: Welche Art von Arbeit ist, wie Sie sagten, erforderlich, damit die „Hierarchische Definition des KI-Dialogsystems“ weithin anerkannt und angewendet wird?
Huang Minlie: In Zukunft planen wir, mit relevanten Forschungseinrichtungen und Forschern zusammenzuarbeiten, um mit Unterstützung der CCF (China Computer Federation) ein Whitepaper zu erstellen und uns auf den Entwicklungsprozess von zu konzentrieren KI-Dialogsysteme und erläutern ausführlich den Zweck und die Standards der „Grading Definition“.
Darüber hinaus hoffen wir, einen Wettbewerb ähnlich dem Amazon Alexa-Preis-Wettbewerb zu fördern, was ein langfristiges Ziel ist, das finanzielle Unterstützung erfordert. Wir hoffen, eine einheitliche Entwicklungsumgebung, einen einheitlichen Datensatz und ein einheitliches Test-Framework zu schaffen, um verschiedene Dialogsysteme wirklich vergleichen zu können. Ich weiß, dass Baidu ähnliche Ideen hat, aber es ist nicht offen genug. Wir werden in Zukunft die Anstrengungen aller Beteiligten bündeln, mit dem Ziel, den Fortschritt der Dialogsystemforschung voranzutreiben, gleichzeitig aber auch die industrielle Umsetzung voranzutreiben und einige neue Entwicklungen in der praktischen Anwendung zu erreichen.
Das obige ist der detaillierte Inhalt vonGespräch mit Tsinghua Huang Minlie: In Anlehnung an die hierarchische Definition eines KI-Dialogsystems für autonomes Fahren könnte sich der virtuelle Begleiter des Metaversums auf L5 befinden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!