Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

王林
Freigeben: 2023-05-06 21:10:08
nach vorne
1340 Leute haben es durchsucht

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

1. Ein vertrauenswürdiger intelligenter Entscheidungsrahmen

Zuerst von allen Teilen Sie mit Ihnen einen vertrauenswürdigen, intelligenten Entscheidungsrahmen.

1. Entscheidungen, die wichtiger sind als Vorhersagen

in Realität In vielen Szenarien ist die Entscheidungsfindung wichtiger als die Vorhersage. Denn der Zweck der Vorhersage selbst besteht nicht nur darin, vorherzusagen, wie die Zukunft aussehen wird, sondern darin, durch Vorhersagen einige wichtige Verhaltensweisen und Entscheidungen in der Gegenwart zu beeinflussen.

In vielen Bereichen, auch im Bereich der Wirtschaftssoziologie, ist die Entscheidungsfindung sehr wichtig, wie zum Beispiel kontinuierliches Unternehmenswachstum, Die Entdeckung Neue Geschäftsmöglichkeiten usw. sowie die Frage, wie die endgültige Entscheidungsfindung durch Datenantrieb besser unterstützt werden kann, sind Teil der Arbeit im Bereich der künstlichen Intelligenz, die nicht ignoriert werden darf.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

2. Entscheidungsfindung überall #🎜🎜 Entscheidung -Szenarien gibt es überall. Das bekannte Empfehlungssystem, das einem Nutzer ein Produkt empfiehlt, trifft tatsächlich eine Auswahlentscheidung unter allen Produkten. Preisalgorithmen im E-Commerce, wie z. B. die Preisgestaltung für Logistikdienstleistungen usw., wie man in medizinischen Szenarien einen angemessenen Preis für eine Dienstleistung festlegt, welche Medikamente oder Behandlungen entsprechend den Symptomen des Patienten empfohlen werden sollten, all dies sind interventionelle Entscheidungen Szenarien.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung3. Gängige Entscheidungsmethoden 1: Verwenden Sie einen Simulator, um Entscheidungen zu treffen

#🎜🎜 ## 🎜🎜# Sowohl die Wissenschaft als auch die Industrie sind mit der Entscheidungsfindung vertraut. Es gibt einige gängige Methoden, um Entscheidungsprobleme zu lösen oder zu diskutieren .

Der erste gängige Ansatz besteht darin, einen Simulator zur Entscheidungsfindung zu nutzen, also Reinforcement Learning. Reinforcement Learning ist ein sehr leistungsfähiges Methodensystem zur Entscheidungsfindung. Es entspricht einer realen Szene (Umgebung) oder einer Simulation einer realen Szene, und dann kann ein intelligenter Agent kontinuierlich Versuch und Irrtum mit der realen Szene durchführen Schlüsselverhalten (Aktionen) und schließlich die Schlüsselaktionen finden, die in diesem realen Szenario die größte Belohnung (Belohnung) bieten.

Das gesamte Entscheidungssystem des Reinforcement Learning wird bei vielen praktischen Anwendungsproblemen das Erste sein, woran jeder denkt. In realen Anwendungsszenarien besteht die größte Herausforderung beim Einsatz von Reinforcement Learning jedoch darin, ob es einen guten Simulator für reale Szenarien gibt. Der Bau des Simulators selbst ist eine anspruchsvolle Aufgabe. Natürlich sind die Regeln für Spielszenarien wie Alphago-Schach im Allgemeinen relativ geschlossen und es ist relativ einfach, einen Simulator zu konstruieren. Im geschäftlichen und realen Leben handelt es sich jedoch meist um offene Szenarien, wie beispielsweise das fahrerlose Fahren, und es ist schwierig, einen sehr vollständigen Simulator bereitzustellen. Der Aufbau eines Simulators erfordert ein sehr tiefes Verständnis des Szenarios. Daher kann der Aufbau eines Simulators selbst ein schwierigeres Problem sein als das Treffen von Entscheidungen und Vorhersagen. Dies ist tatsächlich eine Einschränkung des verstärkenden Lernens.

4. Gängiger Ansatz zur Entscheidungsfindung 2: Vorhersagen nutzen, um Entscheidungen zu treffen

Ein weiterer gängiger Ansatz besteht darin, Vorhersagen zu nutzen, um Entscheidungen zu treffen. Das bedeutet, dass wir, obwohl wir nicht wissen, welche Art von Entscheidung jetzt gut ist, wenn es einen Prädiktor gibt, im Vorhersageraum „schießen können, wohin wir zeigen sollen“, wie auf der linken Seite der Abbildung unten gezeigt Wenn Sie beim Schießen auf ein Ziel herausfinden, welcher Pfeil besser schießt, können Sie das Schlüsselverhalten dieses Pfeils nutzen, um relevante Entscheidungen zu treffen. Wenn ein solcher Vorhersageraum vorhanden ist, können Vorhersagen zur Entscheidungsfindung genutzt werden. Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Aber die Wirkung der Entscheidungsfindung hängt von der Genauigkeit des Vorhersageraums ab, unabhängig davon, ob die Vorhersage korrekt ist oder nicht. Obwohl das Ziel im Vorhersageraum zehnmal getroffen wurde, betrug die Anzahl der Treffer bei der Anwendung auf tatsächliche Leben oder Produkte 0, was bedeutet, dass der Vorhersageraum ungenau ist. Bisher besteht das sicherste Szenario bei Vorhersageaufgaben darin, Vorhersagen unter der Annahme einer unabhängigen und identischen Verteilung zu treffen, d. h., dass die Testverteilung und die Trainingsverteilung derzeit die gleiche Verteilung aufweisen ) kann praktische Probleme gut lösen. Dies sagt uns: Ob die Vorhersagegenauigkeit gut ist oder nicht, hängt in gewissem Maße davon ab, ob die Verteilung der Testdaten und Trainingsdaten im tatsächlichen Szenario einer unabhängigen und identischen Verteilung genügt.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Denken Sie weiterhin gründlich über die Genauigkeit von Vorhersagen nach. Gehen Sie davon aus, dass ein Vorhersagemodell auf der Grundlage historischer Daten P(X,Y) erstellt wird, und untersuchen Sie dann die Vorteile, die einige verschiedene Schlüsselverhalten mit sich bringen, d. Im Einzelnen kann man es in zwei verschiedene Situationen unterteilen.

Die erste Kategorie besteht darin, den Wert einer bestimmten Entscheidungsvariablen zu optimieren. Wenn Sie im Voraus wissen, welche der Eingabevariablen

Die andere Kategorie besteht darin, die optimalen Entscheidungsvariablen zu suchen und ihre Werte zu optimieren. Es ist nicht im Voraus bekannt, welcher der vom Vorhersagemodell vorhergesagten Werte gut ist.

Basierend auf dieser Prämissenannahme wird P(X) tatsächlich geändert, wenn sich der Wert der Entscheidungsvariablen ändert, das heißt, wenn sich P(X) ändert, wird sich P(X,Y) definitiv ändern, dann unabhängig und gleichzeitig Die Verteilungsannahme selbst bricht zusammen, was bedeutet, dass die Vorhersagen tatsächlich sehr wahrscheinlich ungültig sind. Wenn daher das Entscheidungsproblem auf prädiktive Weise gelöst wird, löst dies das Problem der Verallgemeinerung außerhalb der Verteilung aus, da eine Änderung des Werts der Entscheidungsvariablen unweigerlich zu einer Verteilungsverschiebung führt. Im Falle einer Verteilungsabweichung gehört die Art und Weise, wie man Vorhersagen trifft, zum Vorhersageproblem der Verallgemeinerung außerhalb der Verteilung und ist nicht das Thema des heutigen Artikels. Wenn das Vorhersageproblem der Verallgemeinerung außerhalb der Verteilung im Bereich der Vorhersage gelöst werden kann, ist die Verwendung von Vorhersagen zur Entscheidungsfindung ebenfalls einer der möglichen Wege. Allerdings ist die derzeitige Verwendung von ID- (In-Distribution) oder direkten Vorhersagemethoden (direkte Vorhersage) zur Entscheidungsfindung theoretisch ungültig und problematisch.

5. Entscheidungsprobleme fallen in die Kategorie von Ursache und Wirkung Die sogenannte Entscheidungsfindung bezieht sich auf die Art der zu treffenden Entscheidung. Wir müssen uns fragen, warum eine solche Entscheidung getroffen wurde. Es ist offensichtlich, dass es eine Ursache-Wirkungs-Kette gibt dass wir zur Lösung von Entscheidungsproblemen Ursache und Wirkung nicht vermeiden können, das heißt, wir müssen von beobachtbaren Daten ausgehen (Kausalinformationen) und den relevanten Kausalmechanismus (Kausalmechanismus) verstehen und dann einige Strategien dafür entwerfen endgültige Entscheidungsfindung auf der Grundlage des Kausalmechanismus. Wenn wir den gesamten Prozess gründlich verstehen können, können wir den gesamten Kausalmechanismus perfekt wiederherstellen, sodass die Entscheidungsfindung kein Problem darstellt, da sie tatsächlich gleichbedeutend ist mit der Perspektive Gottes und es keine Herausforderung bei der Entscheidungsfindung gibt.

6. Eine Rahmenbeschreibung der Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Bereits 2015 veröffentlichte Jon Kleinberg in einem Artikel: Entscheidungsprobleme werden nicht durch kausale Mechanismen gelöst, das heißt, nicht alle Entscheidungen sind alle Probleme erfordern kausale Mechanismen zur Lösung. Jon Kleinberg ist ein bekannter Professor an der Cornell University. Der berühmte Hits-Algorithmus, die Sechs-Grad-Stiltheorie usw. sind allesamt Forschungsergebnisse von Jon Kleinberg. Jon Kleinberg veröffentlichte 2015 einen Artikel über Entscheidungsprobleme mit dem Titel „Prediction Policy Problems“[1]. Er glaubte, dass es sich bei einigen Entscheidungsproblemen um Vorhersagestrategieprobleme handelt, und um dieses Argument zu beweisen, gab er eine Rahmenbeschreibung der Entscheidungsfindung, wie in der folgenden Abbildung dargestellt.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Π ist die Auszahlungsfunktion, x0 ist die Entscheidungsvariable, Y wird durch Entscheidungsvariablen verursacht. Ergebnis , Π ist eigentlich eine Funktion von x0 und Y. Wie ändert sich dann x0 ? Wenn Π der größte ist, können Sie eine solche Ableitung finden:

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

und sie dann wie folgt erweitern:

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Nach der Erweiterung gemäß Y und x 0 Ideal oder nicht, die rechte Seite der Gleichung zeigt zwei Entscheidungsszenarien. Das erste Entscheidungsszenario ist, wenn Y und x0 irrelevant sind, das heißt, aber mit Y in Zusammenhang stehen. Wenn Sie in diesem Fall Y gut vorhersagen können, können Sie das vorhergesagte Y verwenden genutzt werden, um Entscheidungen gezielter zu treffen. Das ist das Problem der prädiktiven Entscheidungsfindung. Ein anderes Entscheidungsszenario besteht darin, dass x0 eine solche Entscheidung trifft, die sich auf Y auswirkt, und Y sich auf das Einkommen auswirkt. Dies ist ein kausales Entscheidungsproblem. Unter welchen Umständen sind Entscheidungsszenarien kausal und unter welchen Umständen prädiktiv? Natürlich gibt es später auch Fallerklärungen, die sowohl kausal als auch prädiktiv sind. An dieser Stelle erfolgt eine vorläufige Rahmenbeschreibung des Entscheidungsproblems. 7. Zwei Fälle von Entscheidungsszenarien ist die Entscheidungsvariable. Die Definitionen in den beiden Szenarien sind unterschiedlich.

Schauen Sie sich zunächst den Szenenfall links an. Es besteht kein Zusammenhang zwischen der Notwendigkeit, einen Regenschirm mitzubringen, und der Regenzeit, d , dann:

Wenn Sie also vorhersagen, ob es regnen wird oder nicht, werden die letztendlichen Vorteile anders sein. Bei diesem Beispiel handelt es sich also eindeutig um eine Vorhersageentscheidung.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Der Fall auf der rechten Seite ist: Wenn Sie ein Häuptling sind, sollten Sie jemanden dafür bezahlen, den Gottestanz aufzuführen, um für Regen zu beten? Tatsächlich hängt es weitgehend davon ab, ob der „Tanztanz“ Regen bringen kann ob es eine kausale Wirkung hat. auf der rechten Seite der Gleichung, wenn vorhergesagt werden kann, ob es regnen wird oder nicht, dann: ist 0, das heißt, es gibt tatsächlich keine Beziehung zwischen dem Einkommen (ob es regnet oder nicht) und der Entscheidungsvariablen (ob springen soll oder nicht). Dann handelt es sich hier nicht um eine prädiktive Entscheidung, sondern um eine rein kausale Entscheidung.

Anhand der beiden oben genannten Fallszenarien der tatsächlichen Entscheidungsfindung können Entscheidungsprobleme in zwei Kategorien unterteilt werden: prädiktive Entscheidungsfindung und kausale Entscheidungsfindung Entscheidungsfindung von Jon Kleinberg Die Formulierung des Problems verdeutlicht auch die Aufteilung der Entscheidungen gut.

8. Komplexität der Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

#🎜🎜 #

Ein Punkt in Jon Kleinbergs Artikel ist, dass es bei prädiktiven Entscheidungsproblemen nur darauf ankommt, ob die Vorhersage gut ist oder nicht. Der kausale Mechanismus ist nicht unbedingt notwendig Entscheidungsszenarien, verfügt über eine gute Ausdrucksfähigkeit bei Entscheidungsfragen und kann viele Situationen integrieren. Die tatsächliche Komplexität der Entscheidungsfindung übersteigt jedoch das bisherige Verständnis von Prognoseszenarien. In den meisten Fällen versuchen wir bei der Lösung von Vorhersageproblemen einfach unser Bestes (Best Effort) und versuchen, komplexere Modelle und mehr Daten zu verwenden, in der Hoffnung, die endgültige Genauigkeit zu verbessern, d. h. das Best Effort-Modell (Best Effort-Modell).

Aber es gibt weit mehr Einschränkungen in Entscheidungsszenarien als Vorhersagen. Die Entscheidungsfindung ist eigentlich die letzte Meile. Die endgültige Entscheidung wird tatsächlich alle Aspekte betreffen, viele Interessengruppen betreffen und sehr komplexe soziale und wirtschaftliche Faktoren einbeziehen. Ob bei ein und demselben Kredit beispielsweise Menschen unterschiedlichen Geschlechts und verschiedener Regionen diskriminiert werden, ist eine typische Frage der algorithmischen Fairness. Big Data ist bekannt und dasselbe Produkt hat für verschiedene Personen unterschiedliche Preise, was ebenfalls ein Problem darstellt. In den letzten Jahren hat jeder ein tiefes Verständnis für Informations-Cocooning entwickelt, das darin besteht, einem Benutzer kontinuierlich Empfehlungen basierend auf den Interessen oder Interessen des Benutzers in einem relativ engen Spektrum zu geben, wodurch ein Informations-Cocooning-Raum gebildet wird. Wenn die Dinge so weitergehen, werden einige schlechte kulturelle und soziale Phänomene auftreten. Daher müssen bei der Entscheidungsfindung mehr Faktoren berücksichtigt werden, um glaubwürdige Entscheidungen zu treffen.

9. Ein Rahmen für vertrauenswürdige intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Interpretieren Sie weiterhin den von Jon Kleinberg gegebenen Rahmen für Entscheidungsprobleme aus der Perspektive der Glaubwürdigkeit der Entscheidungsfindung. Obwohl Jon Kleinberg selbst dieses Entscheidungsproblem-Framework vorgeschlagen hat, um die Wirksamkeit des Vorhersagemodells für Entscheidungsprobleme zu befürworten, ist die Konnotation des Entscheidungsproblem-Frameworks tatsächlich sehr umfangreich Entscheidungsproblemrahmen.

Zuallererst ist das Element ganz rechts: # 🎜 🎜#

Das Zielen auf einige kontrafaktische Phänomene, das heißt, einige Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung Wenn es erscheint, welche Art von Änderungen werden in Y auftreten, ist eine typische kontrafaktische Argumentation, die den Kernbestandteil der Kausalität darstellt Natürlich ist es im Rahmen von Judea Pearl die dritte Leiter. Es gibt viele unterschiedliche Interpretationen und Erklärungen zum kontrafaktischen Denken. Das hier diskutierte kontrafaktische Denken wird derzeit als vernünftig angesehen.

Der zweite Term

entspricht tatsächlich der Einkommensfunktion und die Beziehung zwischen Modellergebnissen. Es gibt einfachere Szenarien für die Beziehung zwischen Y und Π. Wenn Sie beispielsweise Produkte empfehlen, welche Art von Produkten werden Benutzern empfohlen und welche Benutzer klicken darauf? Die endgültige optimierte Auszahlungsfunktion ist tatsächlich die Gesamtklickrate. Dies ist ein Szenario, in dem die Beziehung zwischen den beiden relativ einfach ist. Im tatsächlichen Geschäftsleben ist die Beziehung zwischen Y und Π jedoch, sei es aus Plattform- oder Regulierungsperspektive, in den meisten Fällen sehr kompliziert. In einem Fall, der später besprochen wird, kann man bei der Optimierung des Plattformumsatzes beispielsweise nicht nur auf die aktuelle Klickrate, sondern auch auf den langfristigen Umsatz achten Die Beziehung zwischen Y und Π wird relativ kompliziert sein, d. h. der Umsatz ist komplex.

Der dritte Punkt ist Y. Die Kernaufgabe besteht darin, Vorhersagen zu treffen. Wenn Vorhersagen jedoch zur Entscheidungsfindung verwendet werden und das Entscheidungsszenario sozialer Natur ist, z. B. Auswirkungen auf die persönliche Kreditwürdigkeit, wirkt es sich darauf aus, ob Wenn die College-Aufnahmeprüfung zugelassen wird, ob der Gefangene freigelassen wird usw., erfordern alle diese sogenannten Vorhersageaufgaben, dass die Vorhersage fair ist und keine sensiblen Dimensionsvariablen wie Geschlecht, Rasse, Identität usw. verwenden darf. Vorhersagen zu treffen.

Der vierte Punkt ist:

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

, der sich auf den Zusammenhang zwischen Nutzen und Entscheidungen bezieht. Im Allgemeinen sollten Entscheidungen unter der Prämisse der Maximierung der Rendite getroffen werden. Tatsächlich hat die Überwachung von Plattformalgorithmen sowohl im Inland als auch im Ausland schrittweise zugenommen, das heißt, dem Design der Auszahlungsfunktion wurden regulatorische Faktoren hinzugefügt, die der Entscheidungsfindung gewisse Einschränkungen auferlegten. Beispielsweise kann die Preisgestaltung nicht willkürlich von der Plattform festgelegt werden. Stattdessen sollten einige regulatorische Faktoren zur Auszahlungsfunktion hinzugefügt werden.

Dieser Entscheidungsproblemrahmen enthält Szenarien auf verschiedenen Ebenen und kann auch als die oben genannten vier verschiedenen Unterrichtungen betrachtet werden. Aber im Allgemeinen hängen die oben genannten vier Unterrichtungen stark mit der glaubwürdigen Entscheidungsfindung zusammen, das heißt, wenn Sie sicherstellen möchten, dass der Charakter glaubwürdig ist, müssen alle Aspekte der Faktoren berücksichtigt werden. Aber im Allgemeinen kann es einheitlich ausgedrückt werden, indem man den von Jon Kleinberg vorgegebenen Rahmen verwendet.

Im Folgenden werden die vier Unterrichtungen des vertrauenswürdigen intelligenten Entscheidungsrahmens vorgestellt: kontrafaktisches Denken, komplexe Vorteile, prädiktive Fairness und regulatorische Entscheidungsfindung.

2. Kontrafaktisches Denken bei vertrauenswürdiger intelligenter Entscheidungsfindung

Zunächst werden wir einige Gedanken und Praktiken zum kontrafaktischen Denken im Rahmen vertrauenswürdiger intelligenter Entscheidungsfindung vorstellen.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

1. Kontrafaktisches Denken

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Es gibt drei Szenarien beim kontrafaktischen Denken.

Die erste ist die durchschnittliche Wirkungsbewertung der Strategie (Off-Policy-Bewertung). Für eine bestimmte Richtlinie möchten wir keine AB-Tests durchführen, da die Kosten für AB-Tests zu hoch sind. Daher ist die Bewertung der Auswirkung der Richtlinie auf Offline-Daten gleichbedeutend mit dem Testen der gesamten Population, z. B. einer Gesamtwirkungsbewertung für alle Benutzergruppen.

Die zweite ist die individuelle Wirkungsbewertung der Strategie (kontrafaktische Vorhersage), die darin besteht, die Wirkung der Strategie auf individueller Ebene vorherzusagen. Es handelt sich nicht um eine allgemeine Plattformstrategie, sondern um die Art der Wirkung, die nach einer bestimmten Zeit eintreten wird Der Eingriff wird für eine Einzelperson durchgeführt.

Das dritte Thema ist die Richtlinienoptimierung, also die Frage, wie man die beste Intervention für eine Person auswählt. Im Gegensatz zur individuellen Effektvorhersage besteht die individuelle Effektvorhersage darin, zunächst zu wissen, wie man eingreift, und dann den Effekt nach dem Eingriff vorherzusagen. Bei der Optimierung der Strategie geht es nicht darum, im Voraus zu wissen, wie man eingreift, sondern herauszufinden, wie man nach dem Eingriff den besten Effekt erzielt.

2. Strategie-Durchschnittseffektbewertung

(1) Überblick über den Problemrahmen der Strategie-Durchschnittseffektbewertung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Die Strategie-Durchschnittseffektbewertung basiert auf der Strategie Π 0 Die von (Verhaltensrichtlinie) generierten Offline-Daten D bewerten den Nutzenwert (Nützlichkeit) der Richtlinie Π (Zielrichtlinie).

Π0 ist eine bestehende Strategie, beispielsweise die Empfehlungsstrategie, die in bestehenden Empfehlungssystemen verwendet wurde.

Die im Rahmen der bestehenden Strategie generierten Offline-Daten D enthalten mindestens drei Dimensionen, wie in der Abbildung oben dargestellt: xi sind die Hintergrundinformationen (Kontext), wie z. B. Benutzer und Produkte in Das Empfehlungssystem Die Attribute von Oder Kauf von Waren. Bewerten Sie den Nutzenwert (Utility) einer neuen Richtlinie Π (Zielrichtlinie) basierend auf historischen Daten. Der Gesamtrahmen besteht also darin, dass in einem bestimmten Kontext eine bestimmte Strategie (Richtlinie) über eine entsprechende Verhaltens- oder Interventionsvariable (Behandlung) verfügt. Wenn diese Interventionsvariable (Behandlung) ausgelöst wird, führt sie zu entsprechenden Ergebnissen. Unter diesen ist der Nutzwert (Utility) die oben genannte Auszahlung. Unter der Prämisse der Vereinfachung ist der Nutzwert die Summe der von allen Benutzern generierten Ergebnisse oder der durchschnittliche Effekt. (2) Bestehende Methoden zur Bewertung des durchschnittlichen Strategieeffekts

Die traditionelle Methode zur Bewertung des durchschnittlichen Strategieeffekts basiert auf der Ergebnisvorhersagemethode (direkte Methode) unter der neuen Richtlinie (Richtlinie). xi, für das Thema wird empfohlen, das entsprechende Verhalten anzuzeigen oder nicht anzuzeigen. Es ist notwendig, vorherzusagen, ob der Endbenutzer kaufen oder klicken wird, wenn die Belichtung erfolgt, dh das Endergebnis (Belohnung). ). Bitte beachten Sie jedoch, dass es sich bei der Belohnung tatsächlich um eine Vorhersagefunktion handelt, die anhand historischer Daten ermittelt wird. Die gemeinsame Verteilung (gemeinsame Verteilung) von x, a und r in den historischen Daten wurde tatsächlich unter Π0 generiert, und dann wird das unter Π0 generierte gemeinsame Verteilungsvorhersagemodell verwendet Bei Vorhersagen ist es offensichtlich, dass es sich hierbei um ein OOD-Problem (Out-of-Distribution) handelt. Wenn später ein OOD-Vorhersagemodell verwendet wird, kann das Datenverteilungs-Offset-Problem gemildert werden, wenn ein ID-Vorhersagemodell (In-Distribution) verwendet wird. Grundsätzlich wird es sicher Probleme geben. Dies ist die traditionelle Methode zur Bewertung der durchschnittlichen Wirksamkeit von Strategien.

Eine andere Methode basiert auf kausalen Schlussfolgerungen und führt den Propensity Score ein. Die Kernidee besteht darin, das Triplett (xi, ai, ri) unter der ursprünglichen Strategie zu verwenden, um die Endergebnisse zu gewichten. Das Gewicht sollte das Verhältnis der Expositionswahrscheinlichkeit (ai) von xi unter der neuen Strategie zur Expositionswahrscheinlichkeit (ai) von xi unter der ursprünglichen Strategie bei gegebenem xi sein, d. h. unter der neuen Strategie entspricht das Ergebnis a Triplett Ein Koeffizient zur Gewichtung. Der schwierigste Teil dieses Ansatzes besteht darin, dass bei der ursprünglichen Strategie nach Angabe von xi die Wahrscheinlichkeitsverteilung, die ai entspricht, tatsächlich unbekannt ist, da die ursprüngliche Strategie sehr komplex sein kann oder eine Überlagerung mehrerer Strategien sein kann Es gibt keine Möglichkeit, die entsprechende Verteilung genau zu beschreiben, daher ist eine Schätzung erforderlich. Dann besteht das Problem, ob die Schätzung korrekt ist und der geschätzte Wert auf dem Nenner liegt, was zu einer Verteilungsvarianz führt Die gesamte Methode muss sehr groß sein. Darüber hinaus gibt es Probleme bei der Schätzung des Neigungsindex (Propensity Score). Es wird davon ausgegangen, dass die Funktion des Neigungsindex (Propensity Score) linear oder nichtlinear ist, welche Form sie hat und ob die Schätzung genau ist , usw.

(3) Neue Methode zur Bewertung der durchschnittlichen Wirkung von Strategien: FCB-Schätzer

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Aus dem direkten Confounder-Balancing der Kausalität wird eine Methode zur direkten Gewichtung von Stichproben vorgeschlagen. Diese Methode stellt sicher, dass danach Gewichtung stimmt die Verteilung P(X|

ai

) jeder entsprechenden Aktionsgruppe im Allgemeinen mit P(X) überein.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Historische Daten werden unter dem angegebenen Π0 generiert, um den Grund zu beseitigen Π Die Verteilungsabweichung (Bias) verursacht durch 0 ist wie in der Abbildung oben dargestellt. Die ursprüngliche Datenverteilung P(X) liegt in Π0#🎜 Unter Einfluss von 🎜#, es entspricht der Aufteilung von P(X) in mehrere Unterverteilungen P(X|a=1), P(X|a=2), P(X|a=3), .., P(X|a=K), also eine Teilmenge von P(X), die verschiedenen Verhaltensweisen entspricht, ist eine erwartungstreue Verteilung, und es gibt Faktoren unter jeder Verhaltensgruppe Π Um die durch 0 verursachte Verzerrung zu beseitigen, können Sie die durch Π0 generierten historischen Daten neu gewichten, sodass alle Unterverteilungen nach der Gewichtung angezeigt werden liegen nahe an der ursprünglichen Verteilung P(X), d. h. die Stichproben werden direkt gewichtet.

Die Vorhersage der endgültigen Wirkung einer neuen Strategie auf der Grundlage historischer Daten erfordert zwei Schritte. Der erste Schritt besteht darin, die durch die ursprüngliche Strategie Π0 verursachte Verzerrung durch direkte Stichprobengewichtung wie oben erwähnt zu beseitigen. Der zweite Schritt besteht darin, den Effekt der neuen Strategie Π vorherzusagen, dh den endgültigen Effekt basierend auf der durch die neue Strategie Π verursachten Abweichung abzuschätzen. Daher ist es notwendig, die durch die neue Strategie Π verursachte Abweichung #🎜🎜 hinzuzufügen #

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung


# 🎜🎜#

# 🎜 🎜#

Deshalb: Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Darunter ist

w

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindungi

entspricht dem ersten Schritt des Entfernens von Π#🎜🎜 #0 Abweichung verursacht durch: # 🎜🎜##🎜🎜 # ist gleichbedeutend mit dem Hinzufügen der Abweichung der neuen Strategie, so dass der endgültige Effekt einer neuen ist Strategie kann vorhergesagt werden. Die spezifische Methode wird nicht im Detail beschrieben, Sie können jedoch auf das Papier [2] verweisen. Neue Methode Der endgültige Verbesserungseffekt des FCB Estimator ist in der Abbildung oben dargestellt. Ob in Bezug auf Bias oder RMSE, die relative Verbesserung beträgt etwa 15 % bis 20 %. Der FCB-Schätzer ist in verschiedenen Szenarien mit sich ändernden Stichprobengrößen und Kontextdimensionen deutlich besser als der Basiswert. Verwandte Artikel wurden in KDD 2019 veröffentlicht [2].

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

3. Strategie zur individuellen Effektvorhersage (1) Strategie zur individuellen Effektvorhersage Insgesamt Beschreibung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente EntscheidungsfindungDie strategische individuelle Wirkungsvorhersage besteht darin, die individuelle Heterogenität vollständig zu berücksichtigen und differenzierte Interventionen für Einzelpersonen direkt umzusetzen, d. h. den individuellen Willen zu respektieren und unterschiedliche Individuen zu behandeln verschiedene Interventionen umsetzen. (2) Einschränkungen bestehender Methoden#🎜 🎜#

Die übliche Methode zur Vorhersage der individuellen Wirkung einer Strategie besteht darin, die prädiktive Modellierung direkt an Einzelpersonen durchzuführen, d. h. basierend auf historische Beobachtungsdaten: # 🎜🎜#Dann wird das kontrafaktische Vorhersagemodell trainiert:

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

, das heißt, bei gegebenen X und T kann es vernünftig und genau vorhersagen, wie der tatsächliche Effekt y sein wird.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Wenn Sie Regressionsanalysen oder ähnliche Modelle direkt unter der Verteilung historischer Daten durchführen, treten Probleme auf. Da ti und xi in historischen Beobachtungsdaten nicht unabhängig sind, wird das direkte Erlernen der direkten Zuordnungsfunktion zwischen (X, T) und Y zwangsläufig von der Beziehung zwischen X und T beeinflusst Wenn ein xi gegeben ist, muss es in den historischen Daten ein entsprechendes ti geben. Beispielsweise sollte ti gleich 0 sein. Wenn beispielsweise in T eingegriffen wird Sie erzwingen t i In 1 geändert, folgt es tatsächlich nicht mehr der ursprünglichen historischen Verteilung, was bedeutet, dass das unter der historischen Datenverteilung erstellte ID-Vorhersagemodell (In-Distribution) ungültig ist und OOD (Out-of-Distribution) auslöst Verteilung) ).

Daher ist es bei der Erstellung des sogenannten Vorhersagemodells notwendig, die Korrelation zwischen X und T zu eliminieren und den Einfluss von X auf Y bzw. den Einfluss von T auf Y abzuschätzen. Wenn T eingegriffen oder verändert wird, hat das nichts mit

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Der traditionelle Ansatz besteht darin, die Stichproben-Neugewichtungsmethode (Sample Re-Weighting) zu verwenden, um den Zusammenhang zwischen X und T zu entfernen. Es gibt zwei Methoden: (1) Inverse Neigung Score-Gewichtung, (2) Variablenausgleich. Diese Methoden weisen jedoch Einschränkungen auf: Sie eignen sich nur für einfache Arten von Szenarien mit Interventionsvariablen (Behandlung), binären oder diskreten Werten. In realen Anwendungsszenarien, wie z. B. Empfehlungssystemen, hat die dazwischenliegende Variable (Behandlung) eine hohe Dimension und es werden Produkte empfohlen. Es handelt sich um ein Bündel, das heißt, es werden Empfehlungen aus vielen Produkten ausgesprochen. Wenn die Dimension der intervenierenden Variablen (Behandlung) sehr hoch ist, ist die Verwendung herkömmlicher Methoden zur direkten Korrelation der anfänglichen intervenierenden Variablen (Rohbehandlung) und der Störvariablen (Confounder) X sehr komplex, und selbst der Probenraum reicht zur Unterstützung nicht aus die hohe Dimension Die dazwischenliegende Variable (Behandlung).

(3) Neue Methode zur Vorhersage der individuellen Wirkung einer Strategie: VSR

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Wenn angenommen wird, dass die hochdimensionale intervenierende Variable (Behandlung) eine niedrigdimensionale latente Variablenstruktur aufweist , das heißt, die hochdimensionale Zwischenvariable (Behandlung) ist im Prinzip nicht zufällig. Beispielsweise weist in einem Empfehlungssystem ein Bündel von Produkten, die durch eine bestimmte Empfehlungsstrategie empfohlen werden, verschiedene Beziehungen zwischen den Produkten auf und es gibt niedrig-. dimensionale versteckte Variablen Die Variablenstruktur, also die empfohlene Produktliste, wird durch mehrere Faktoren bestimmt.

Wenn es unter der hochdimensionalen intervenierenden Variablen (Behandlung) eine latente Variable z gibt, kann das Problem tatsächlich in die Dekorrelation zwischen x und z umgewandelt werden, also mit dem latenten Faktor (latenter Faktor). ) ). Auf diese Weise kann eine Bündelbehandlung bei begrenztem Probenraum erreicht werden.

Daher wird eine neue Methode VSR vorgeschlagen. Bei der VSR-Methode besteht die erste darin, die latente Variable z (latente Variable z) der hochdimensionalen Interventionsvariablen (Behandlung) zu lernen, also einen Variations-Autoencoder (VAE) zum Lernen zu verwenden; w (x, z) Lernen, Dekorrelation zwischen x und z durch Neugewichtung der Stichprobe; schließlich kann unter Verwendung des Regressionsmodells direkt unter der neu gewichteten Korrelationsverteilung ein idealerer individueller Strategieeffekt erzielt werden.


Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Das obige Bild zeigt die experimentelle Verifizierung der neuen Methode VSR. In einigen Szenarien werden einige Daten über den Recsim-Simulator generiert und einige künstlich simulierte Daten zur Verifizierung. Es ist ersichtlich, dass die Leistung von VSR unter verschiedenen p-Werten relativ stabil ist, was im Vergleich zu anderen Methoden erheblich verbessert ist. Verwandte Artikel wurden in NeurIPS 2020 veröffentlicht [3].

4. Strategieoptimierung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Es gibt einen grundlegenden Unterschied zwischen der Strategieoptimierung und den beiden vorherigen Prognoseauswertungen. Bei der prädiktiven Bewertung wird im Voraus eine Strategie (Richtlinie) oder eine personalisierte Intervention (individuelle Behandlung) festgelegt, um das Endergebnis vorherzusagen. Strategieoptimierung, auch Strategielernen genannt, hat nur ein Ziel: größere Ergebnisse zu erzielen. Wenn beispielsweise das Einkommen steigen soll, welche Art von Intervention sollte umgesetzt werden.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Wenn es nun ein kontrafaktisches Vorhersagemodell f auf individueller Ebene gibt, das heißt, das individuelle Effektvorhersagemodell f der Strategie, das heißt, gegeben xi und t i Das entsprechende Ergebnis kann geschätzt werden, und dann kann T durchlaufen werden. Wenn t welchen Wert annimmt, ist der Wert von f der größte. Dies entspricht dem Aufbau eines besseren Vorhersageraums und dem „Zielen darauf, wo im Vorhersageraum getroffen werden soll“.

Es besteht jedoch ein Problem darin, das Problem der Richtlinienoptimierung auf die Konstruktion eines Vorhersagemodells für die individuelle Wirkung der Richtlinie zu reduzieren. Das Ziel der individuellen Effektvorhersage von Strategien ist, wie oben erwähnt, tatsächlich gleichbedeutend mit einer gegebenen Intervention. Wir hoffen, dass der Fehler zwischen der kontrafaktisch vorhergesagten Situation und der realen Situation so gering wie möglich ist, und hoffen, dass wir für alle gegebenen Interventionen einen Vergleich durchführen präzise. Das Ziel der Strategieoptimierung ist es, den Abstand zwischen dem pf und dem Ergebnis der aus Gottes Sicht optimalen Entscheidung zu finden Das Problem bei der Vorhersage des individuellen Effekts einer Strategie besteht darin, ob sie einen Bereich in der Nähe des optimalen Punkts finden kann und ob sie den optimalen Punkt genau vorhersagen kann. Strategieoptimierung und Strategieindividuelleffektvorhersage haben unterschiedliche Ziele und es gibt offensichtliche Unterschiede.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Wie im obigen Falldiagramm dargestellt, stellt die horizontale Achse unterschiedliche Eingriffe (Behandlungen) dar, die grüne Linie stellt die tatsächliche Funktion aus Gottes Sicht dar und spiegelt das tatsächliche Ergebnis unter einem bestimmten Eingriff wider Die rote Linie und die blaue Linie spiegeln die Ergebnisse der beiden Vorhersagemodelle wider. Aus der Perspektive der Bewertung der individuellen Effektvorhersage der Strategie ist es offensichtlich, dass die blaue Linie besser ist als die rote Linie. Die Gesamtabweichung der blauen Linie von der grünen Linie ist viel kleiner als die Gesamtabweichung der roten Linie die grüne Linie. Aber aus Sicht einer optimalen Entscheidungsfindung liegt das optimale Ergebnis der roten Linie näher am optimalen Ergebnis der grünen Linie aus Gottes Sicht, und der entsprechende Eingriff liegt auch näher, während die blaue Linie offensichtlich weiter entfernt ist. Daher führt eine bessere Strategie zur Vorhersage individueller Effekte möglicherweise nicht unbedingt zu einer optimalen Entscheidung. In realen Szenarien reicht die Datenmenge normalerweise nicht aus. Für eine Optimierung im gesamten Raum ist es besser, die Optimierung nur aus der Perspektive der Ergebnisse durchzuführen . Bei der Optimierung in einem Teilbereich sind Wirkung und Intensität der Optimierung unterschiedlich.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Daher wird eine neue Methode der strategischen Optimierung OOSR vorgeschlagen, mit dem Ziel, die Vorhersage und Optimierung von Interventionsbereichen mit besseren Ergebnissen zu stärken, anstatt den gesamten Raum zu optimieren. Daher gilt bei der Optimierung, bei der ergebnisorientierten Gewichtung, dass die Optimierung umso stärker ist, je näher der aktuelle Eingriff an der gegebenen optimalen Lösung liegt, die trainiert wurde.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Das obige Bild ist die experimentelle Überprüfung von OOSR. Es ist ersichtlich, dass die Verbesserung aus allen Blickwinkeln mit mehreren Verbesserungen und nach Änderung der Intensität der Auswahlverzerrung sehr offensichtlich ist. Die Wirkung bleibt gleich, sehr gut. Verwandte Artikel wurden in ICML 2022 veröffentlicht [4].

5. Zusammenfassung des kontrafaktischen Denkens

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Ob es sich um Strategiebewertung, Strategieoptimierung oder Strategie-Einzelwirkungsvorhersage handelt, wir nutzen tatsächlich Kausalität, um Entscheidungen vorherzusagen. Erfahren Sie mehr über Entscheidungen und treffen Sie Entscheidungen besser oder treffen Sie Entscheidungen personalisierter. Natürlich gibt es viele offene Fragen für verschiedene Szenarien. 3. Komplexe Vorteile bei vertrauenswürdiger, intelligenter Entscheidungsfindung

, denken Sie darüber nach Szenarien wie Empfehlungssysteme hoffen, dass Benutzer empfohlene Produkte oder Informationen kaufen oder darauf klicken, und es werden auch einige Anreize implementiert, z. B. Preisnachlässe oder Feedback zu roten Umschlägen usw. Es gibt viele ähnliche Strategien für den Geschäftsbetrieb, obwohl es Verkäufe gibt Kurzfristig ist der Verbesserungseffekt sehr groß, aber auf lange Sicht gibt es keine große Veränderung. Das heißt, viele kommerzielle Anreize machen Menschen, die nicht kaufen wollen, nicht zu Menschen Wer möchte kaufen, aber die Gesamtnachfrage pro Monat beträgt 4 Stück? Ich habe alle 4 Stück auf einmal gekauft, nachdem der Preis gesunken ist. Daher sollten wir bei der Optimierung des Modells nicht nur kurzfristige Vorteile berücksichtigen, sondern auch sowohl kurzfristige als auch langfristige Vorteile berücksichtigen, um gemeinsam Strategien zu optimieren.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente EntscheidungsfindungUm sowohl kurzfristige als auch langfristige Vorteile zu berücksichtigen und gemeinsam Strategien zu optimieren, gibt es zwei sehr wichtige Aspekte. Erstens müssen wir ein tieferes Verständnis der Verbraucherwahlmodelle erlangen. Wenn ein Benutzer angegeben ist, gibt es keine Möglichkeit, ein echtes Verbraucherauswahlmodell zu erhalten. Es muss kontinuierlich durch Forschung und Bergbau untersucht werden. Das andere besteht darin, zu untersuchen, was unter der Verbraucherauswahl geschieht Maximieren Sie langfristige Gewinne, kurzfristige Gewinne und das Gleichgewicht zwischen beiden. Die Arbeit in diesem Bereich ist in den beiden Abbildungen oben dargestellt, daher gehe ich hier nicht näher darauf ein.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Dem Endeffekt nach zu urteilen, wie im Bild oben gezeigt, kommt es in vielen realen Szenarien zu einer deutlichen Umsatzsteigerung. Verwandte Artikel wurden in NeurIPS 2022 veröffentlicht [5].

4. Prädiktive Fairness in der vertrauenswürdigen intelligenten Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Wenn die Vorhersage an der Entscheidungsfindung, insbesondere der sozialorientierten Entscheidungsfindung , es muss sein Die Fairness der Vorhersage muss berücksichtigt werden.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

In Bezug auf Fairness umfassen traditionelle Methoden DP und EO, die erfordern, dass die Akzeptanzwahrscheinlichkeit von Männern und Frauen gleich ist oder dass die Vorhersagefähigkeit von Männern und Frauen gleich ist, was relativ ist klassische Indikatoren. Aber DP und EO können das Problem der Fairness nicht grundsätzlich lösen.

Bei Universitätszulassungen sollte beispielsweise theoretisch die Zulassungsquote von Jungen und Mädchen in jedem Fachbereich gleich sein, tatsächlich wird sich jedoch herausstellen, dass die Zulassungsquote von Mädchen im Allgemeinen niedriger ist Tatsächlich handelt es sich hierbei um eine Art Simpson-Theorie-Paradoxon. Die Zulassung zur Universität ist im Wesentlichen ein fairer Fall, aber wenn sie durch den DP-Indikator erkannt wird, wird sie als unfair angesehen. Tatsächlich ist DP kein sehr perfekter Fairness-Indikator.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

EO Der Kern des Modells ist zwar, dass das Geschlecht an der Entscheidungsfindung beteiligt ist, aber in einem unfairen Szenario, wenn es einen perfekten Prädiktor für Männer und Frauen gibt, es gilt als fair. Dies zeigt, dass die Diskriminierungsrate von EO unzureichend ist.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Im Jahr 2020 wurde das Konzept der bedingten Fairness vorgeschlagen. Bedingte Fairness stellt nicht absolut sicher, dass das Endergebnis unabhängig von sensiblen Attributen ist, sondern dass bei bestimmten Fairnessvariablen das Endergebnis als fair gilt, wenn es unabhängig von sensiblen Attributen ist. Beispielsweise ist die Auswahl der Hauptfächer fair und eine faire Variable, da sie durch die subjektive Initiative der Studierenden entschieden werden kann und es kein Problem der Fairness gibt.

Dies zu tun bringt viele Vorteile mit sich. Aus der Perspektive der Vorhersage gibt es tatsächlich einen Kompromiss zwischen Fairness und Vorhersage. Das heißt, je stärker die Fairnessanforderung ist, desto weniger Vorhersagevariablen stehen zur Verfügung. Solange beispielsweise eine Variable im Zusammenhang mit dem Geschlecht und der Ergebnisentscheidung steht, kann sie im Rahmen des EO-Frameworks nicht verwendet werden. Wenn sie verwendet wird, weisen viele Variablen tatsächlich eine sehr hohe Vorhersageeffizienz auf, können jedoch keine Vorhersagen treffen. Unter bedingter Fairness kann jedoch bei gegebener Fairnessvariable garantiert werden, dass die Vorhersageeffizienz verfügbar ist, unabhängig davon, ob sie auf dem Link vorhanden ist oder nicht.

In diesem Rahmen wird das DCFR-Algorithmusmodell entworfen und vorgeschlagen, wie in den folgenden drei Abbildungen dargestellt.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Die folgende Abbildung zeigt die experimentelle Verifizierung des DCFR-Algorithmus. Insgesamt kann der DCFR-Algorithmus einen besseren Kompromiss zwischen Vorhersage und Fairness erzielen. Aus Sicht der Pareto-Optimalität ist die obere linke Kurve tatsächlich besser. Verwandte Artikel wurden in KDD 2020 veröffentlicht [6].

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

5. Regulatorische Entscheidungsfindung in vertrauenswürdiger intelligenter Entscheidungsfindung

Schließlich gibt es überwachte Entscheidungen in vertrauenswürdiger intelligenter Entscheidungsfindung.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Heutzutage verfügen Plattformen über viele personalisierte Preismechanismen. Im Wesentlichen kann eine personalisierte Preisgestaltung die Gesamteffizienz und den Gesamtmehrwert der Gesellschaft maximieren. Aber in einigen extremen Fällen werden Händler den gesamten Überschuss wegnehmen, ohne dass ein Überschuss für die Benutzer übrig bleibt. Das ist etwas, was wir nicht sehen wollen.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Insgesamt ist es notwendig, eine Strategie zu entwerfen, damit ein Teil der Übertragung durch den Händler als Überschuss angesehen werden kann, wenn der gesamte soziale Überschuss nicht stark beeinträchtigt wird Der Wohlstand wird den Verbrauchern geschenkt.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Schließlich wurde eine Kontrollmethode entwickelt, um dieses Problem zu lösen, wie im Bild unten gezeigt. Das heißt zum Beispiel, dass für dasselbe Produkt der Höchstpreis und der Mindestpreis eins nicht überschreiten oder ein bestimmtes Verhältnis nicht überschreiten dürfen. Es lässt sich theoretisch belegen, dass auf diese Weise gestaltete Regeln die oben genannten Optimierungsziele erreichen können.

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

Cui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung

In diesem Szenario muss im Wesentlichen durch das Hinzufügen einiger Einschränkungen zur Einkommensfunktion eine weitere Überlegungsebene bei der Entscheidungsfindung berücksichtigt werden. Daher können im Rahmen dieses Systems einige Strategien oder Instrumente im Zusammenhang mit der Aufsicht hinzugefügt werden. 6. Zusammenfassung der vertrauenswürdigen intelligenten Entscheidungsfindung Vorhersagen Einige Versuche zu einzelnen Punkten der Fairness und regulatorischen Entscheidungsfindung. Insgesamt ist der Entscheidungsspielraum weitaus größer als prognostiziert. Im Bereich der Entscheidungsfindung gibt es noch viele offene Fragen, die eng mit unserem Leben und Geschäft verbunden sind und die es wert sind, erkundet zu werden. Verwandte Artikel wurden im WWW 2022 veröffentlicht [7].

PS: Für viele technische Details in diesem Artikel können Sie sich auf die kürzlich vom Team von Cui Peng veröffentlichten Artikel zum Thema vertrauenswürdige intelligente Entscheidungsfindung beziehen.

7. Referenzen

[1] Jon Kleinberg, Jens Ludwig, Sendhil Mullainathan, Ziad Obermeyer, 2015.

[2] Hao Zou, Kun Kuang, Boqi Chen, Peng Cui, Peixuan Chen.

[3] Hao Zou, Peng Cui, Bo Li, Zheyan Shen, Jianxin Ma, Hongxia Yang, Yue He. Kontrafaktische Vorhersage für Bündelbehandlungen.

[4] Hao Zou, Bo Li, Jiangang Han, Shuiping Chen, Xuetao Ding, Peng Cui. Kontrafaktische Vorhersage für ergebnisorientierte Behandlungen, 2022.

[5] Renzhe Xu, Xingxuan Zhang, Bo Li, Yafeng Zhang, Xiaolong Chen, Peng Cui Produktranking für Umsatzmaximierung durch NeurIPS, 2022.

[6] Renzhe Xu, Peng Cui, Kun Kuang, Bo Li, Linjun Zhou, Zheyan Shen und Wei Cui.

[7] Renzhe Xu, Xingxuan Zhang, Peng Cui, Bo Li, Zheyan Shen, Jiazheng Xu. Regulierungsinstrumente für eine faire personalisierte Preisgestaltung, 2022.

Das obige ist der detaillierte Inhalt vonCui Peng, Tsinghua-Universität: Vertrauenswürdiger Rahmen und Praxis für intelligente Entscheidungsfindung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!