Erforschung und Anwendung der Baidu-Sortiertechnologie-KI-php.cn

1. Hintergrund

Lassen Sie uns zunächst den geschäftlichen Hintergrund, den Datenhintergrund und die grundlegende Algorithmusstrategie der umfassenden Informationsflussempfehlung von Baidu vorstellen. 1. Empfehlung für den umfassenden Informationsfluss von Baidu Wie Sie dem Bild oben entnehmen können, umfassen die empfohlenen Inhaltsformate immersive Empfehlungen ähnlich wie bei Douyin sowie einspaltige und zweispaltige Empfehlungen, ähnlich dem Layout von Xiaohongshu Notes. Es gibt auch viele Möglichkeiten für Benutzer, mit Inhalten zu interagieren. Sie können Inhalte auf der Zielseite kommentieren, mit „Gefällt mir“ markieren. Sie können auch die Autorenseite aufrufen, um relevante Informationen anzuzeigen und zu interagieren. Das Design des gesamten umfassenden Informationsflusses ist sehr reichhaltig und vielfältig und kann den unterschiedlichen Bedürfnissen und Interaktionsmethoden der Benutzer gerecht werden.

2. Datenhintergrund

Erforschung und Anwendung der Baidu-Sortiertechnologie

Aus Modellierungssicht gibt es drei Hauptherausforderungen:

Großer Maßstab

Erforschung und Anwendung der Baidu-Sortiertechnologie

. Das tägliche Anzeigeniveau übersteigt mehrere zehn Milliarden, daher muss das Modell einen Durchsatz von mehreren zehn Milliarden pro Tag haben. Die tägliche DAU übersteigt 100 Millionen, was auch bedeutet, dass das gesamte Modell mit hohem Durchsatz und hoher Skalierbarkeit entworfen werden muss. Für das Sortiermodell sind Hunderte Millionen Berechnungen pro Sekunde erforderlich. Daher müssen wir beim Entwurf des Modells nicht nur den Effekt berücksichtigen, sondern auch die Leistung. Es ist notwendig, einen guten Kompromiss zwischen Leistung und Effekt zu erzielen. Die Diversifizierung der Benutzerinteraktionsformen und -szenarien erfordert auch, dass das Modell mehrere Arten von Aufgaben vorhersagen kann.

Hohe Nachfrage. Der Reaktionszeitbedarf des gesamten Systems ist sehr hoch. End-to-End-Berechnungen erfolgen in Millisekunden. Bei Überschreitung der vorgegebenen Zeit wird ein Fehler zurückgegeben. Dadurch entsteht auch ein weiteres Problem, nämlich die Schwierigkeit, komplexe Strukturen online zu stellen.
Der Matthew-Effekt ist stark. Aus Sicht der Datenbeispiele ist der Matthew-Effekt sehr stark. Eine kleine Anzahl aktiver Top-Benutzer trägt zum größten Teil zum Verteilungsvolumen bei, und die beliebtesten Ressourcen decken auch den größten Teil des Anzeigevolumens ab. Unabhängig davon, ob es sich um die Benutzerseite oder die Ressourcenseite handelt, ist der Matthew-Effekt sehr stark. Daher muss der Matthew-Effekt während des Systemdesigns abgeschwächt werden, um Empfehlungen fairer zu gestalten.
3. Grundlegende Algorithmusstrategie

Das Modelldesign muss die Datenverteilung von Kopf und langem Schwanz ausbalancieren, um Genauigkeit und Generalisierungsfähigkeit sicherzustellen. Das Feature-Design berücksichtigt dies bereits, daher muss das Modelldesign auch sowohl die Generalisierung als auch die Genauigkeit berücksichtigen. Der Baidu-Empfehlungstrichter hat sehr strenge Leistungsanforderungen und erfordert daher ein gemeinsames Design in Architektur und Strategie, um ein Gleichgewicht zwischen Leistung und Wirkung zu finden. Darüber hinaus müssen hoher Durchsatz und Genauigkeit des Modells in Einklang gebracht werden.

Erforschung und Anwendung der Baidu-Sortiertechnologie

Die Gestaltung der Architektur muss umfassend aus zwei Dimensionen betrachtet werden: Leistung und Wirkung. Ein Modell kann nicht Dutzende Millionen Ressourcenbibliotheken verarbeiten, daher muss es in Schichten entworfen werden. Die Kernidee ist die Divide-and-Conquer-Methode. Da zwischen den einzelnen Schichten eine Korrelation besteht, ist ein mehrstufiges gemeinsames Training erforderlich, um die Effizienz zwischen mehrstufigen Trichtern zu verbessern. Darüber hinaus müssen elastische Rechenmethoden eingesetzt werden, um die Einführung komplexer Modelle bei nahezu unveränderten Ressourcen zu ermöglichen.

Das Tower of Hanoi-Projekt rechts im Bild oben setzt die Trennungsmodellierung von Benutzern und Ressourcen auf grober Layoutebene sehr geschickt um. Es gibt auch ein gemeinsames CTR3.0-Training, das ein mehrschichtiges und mehrstufiges gemeinsames Training ermöglicht. Das Feinranking ist beispielsweise das komplexeste und exquisiteste Modell im gesamten System Die Modellierung, das Feinranking und die Neuanordnung von Wise sind eng miteinander verbunden. Die von uns vorgeschlagene gemeinsame Trainingsmethode hat sehr gute Online-Ergebnisse erzielt.

Als nächstes werden wir es aus den drei Perspektiven Features, Algorithmen und Architektur näher vorstellen. ??

Die folgende Abbildung zeigt das Benutzer-Ressourcen-Szenario-Zustand-räumlich-zeitliche Beziehungs-Interaktionsmatrixdiagramm.

Unterteilen Sie zunächst alle Signale in die vier Dimensionen Benutzer, Ressourcen, Szenarien und Zustände, denn im Wesentlichen wollen wir die Beziehung zwischen Benutzern und Ressourcen modellieren. In jeder Dimension können verschiedene Porträtdaten erzeugt werden.

Aus Benutzersicht die grundlegendsten Porträts von Alter, Geschlecht und Sehenswürdigkeiten. Auf dieser Grundlage wird es auch einige feinkörnige Funktionen geben, wie etwa ähnliche Benutzer und das historische Präferenzverhalten der Benutzer für verschiedene Ressourcentypen. Sitzungsmerkmale sind hauptsächlich lang- und kurzfristige Verhaltenssequenzen. Es gibt viele Sequenzmodelle in der Branche, daher werde ich hier nicht auf Details eingehen. Unabhängig davon, welche Art von Sequenzmodell Sie erstellen, sind diskrete Sitzungsfunktionen auf Funktionsebene unverzichtbar. In der Suchmaschinenwerbung von Baidu wurde diese Art von feinkörniger Sequenzfunktion vor mehr als 10 Jahren eingeführt, die das Klickverhalten, das Verbrauchsverhalten usw. des Benutzers auf verschiedenen Ressourcentypen in verschiedenen Zeitfenstern sorgfältig darstellt.

In der Ressourcendimension wird es auch ID-artige Merkmale geben, um den Status der Ressource selbst aufzuzeichnen, die vom Speicher dominiert wird. Es gibt auch Klartext-Porträtfunktionen, um grundlegende Generalisierungsfunktionen zu erreichen. Neben grobkörnigen Merkmalen wird es auch detailliertere Ressourcenmerkmale geben, z. B. Einbettungsporträtmerkmale, die auf der Grundlage vorab trainierter Modelle wie Multimodalität und detaillierterer Modellierung der Beziehung zwischen Ressourcen in der diskreten Einbettung erstellt werden Raum. Es gibt auch statistische Porträtmerkmale, die die nachträgliche Leistung von Ressourcen unter verschiedenen Umständen beschreiben. Neben Lookalike-Funktionen können Benutzer Ressourcen auch umgekehrt charakterisieren, um die Genauigkeit zu verbessern.

In Bezug auf die Szenendimensionen gibt es unterschiedliche Szenenmerkmale wie einspaltige, immersive und zweispaltige Szenen.

Erforschung und Anwendung der Baidu-Sortiertechnologie

Benutzer konsumieren Feed-Informationen in verschiedenen Bundesstaaten unterschiedlich. Beispielsweise wirkt sich der Aktualisierungsstatus, die Art des Netzwerks, aus dem er stammt, und die Interaktionsform auf der Zielseite auf die zukünftige Entscheidungsfindung des Benutzers aus. Daher werden die Merkmale auch aus der Statusdimension beschrieben.

Stellt den Entscheidungsprozess der Benutzer-System-Interaktion umfassend anhand der vier Dimensionen Benutzer, Ressource, Status und Szenario dar. In vielen Fällen werden auch Kombinationen zwischen mehreren Dimensionen vorgenommen.

2. Prinzip des diskreten Feature-Designs

Als nächstes stellen wir das Prinzip des diskreten Feature-Designs vor.

Hochwertige Merkmale weisen normalerweise drei Merkmale auf: hohe Unterscheidungsfähigkeit, hohe Abdeckung und starke Robustheit.

Hohe Unterscheidungskraft: Nach dem Hinzufügen von Merkmalen ist der hintere Teil sehr unterschiedlich. Beispielsweise ist bei einer Stichprobe, die Merkmal a hinzufügt, die Lücke zwischen der hinteren Klickrate und der hinteren Klickrate, die Merkmal a nicht trifft, sehr groß.

Hohe Abdeckung: Wenn die Abdeckung der hinzugefügten Merkmale in der gesamten Stichprobe nur einige Zehntausendstel oder Hunderttausendstel beträgt, besteht eine hohe Wahrscheinlichkeit, dass die Merkmale nicht unterscheidbar sind, selbst wenn sie sehr unterscheidbar sind Wirkung.

Erforschung und Anwendung der Baidu-Sortiertechnologie

Starke Robustheit: Die Verteilung der Features selbst muss relativ stabil sein und darf sich im Laufe der Zeit nicht sehr drastisch ändern.

Zusätzlich zu den oben genannten drei Kriterien kann auch eine AUC-Beurteilung einzelner Merkmale vorgenommen werden. Verwenden Sie beispielsweise nur eine bestimmte Funktion, um das Modell zu trainieren und die Beziehung zwischen der Funktion und dem Ziel anzuzeigen. Sie können auch eine bestimmte Funktion entfernen und die Änderung der AUC sehen, nachdem Sie die Funktion verpasst haben.
Basierend auf den oben genannten Designprinzipien konzentrieren wir uns auf drei Arten wichtiger Features: Crossover-, Bias- und Sequenz-Features.
- In Bezug auf Cross-Features gibt es in der Branche Hunderte von verwandten Arbeiten. In der Praxis hat sich herausgestellt, dass keine Art von implizitem Feature-Crossover das explizite Feature-Crossover vollständig ersetzen kann Löschen Sie alle Cross-Features und verwenden Sie nur die implizite Darstellung. Explizite Merkmalsüberschneidungen können relevante Informationen darstellen, die implizite Merkmalsüberschneidungen nicht ausdrücken können. Wenn Sie tiefer gehen, können Sie natürlich AutoML verwenden, um den möglichen Funktionskombinationsraum automatisch zu durchsuchen. Daher erfolgt die Kreuzung zwischen Merkmalen in der Praxis hauptsächlich durch explizite Merkmalskreuzung und wird durch implizite Merkmalskreuzung ergänzt.
- Die Bias-Funktion bedeutet, dass Benutzerklicks nicht gleichbedeutend mit der Benutzerzufriedenheit sind, da es bei der Anzeige von Ressourcen verschiedene Verzerrungen gibt. Die häufigste ist beispielsweise die Positionsverzerrung. Die in der Kopfzeile angezeigten Ressourcen sind natürlich voreingenommen . Es ist wahrscheinlicher, dass darauf geklickt wird. Es gibt auch eine Systemvoreingenommenheit. Das System legt Wert darauf, das zu zeigen, was es für das Beste hält, aber es ist nicht unbedingt das wirklich Beste. Beispielsweise können neu veröffentlichte Ressourcen aufgrund fehlender späterer Informationen im Nachteil sein.
  Es gibt eine sehr klassische Struktur für voreingenommene Funktionen, nämlich die von Google vorgeschlagene Wide&Deep-Struktur. Auf der breiten Seite werden normalerweise verschiedene voreingenommene Funktionen platziert, die direkt online zugeschnitten werden können der Effekt einer unvoreingenommenen Schätzung.
- Das letzte ist die Sequenzfunktion, eine sehr wichtige Art der benutzerpersonalisierten Funktion. Der derzeitige Mainstream in der Branche besteht darin, sehr lange Sequenzen zu modellieren. In spezifischen Experimenten wird festgestellt, dass der Speicheraufwand langer Sequenzen normalerweise sehr groß ist. Wie im vorherigen Artikel erwähnt, müssen wir einen Kompromiss zwischen Leistung und Wirkung finden. Lange Sequenzen können offline vorberechnet werden, kurze Sequenzen können online in Echtzeit berechnet werden, daher kombinieren wir oft beide Methoden. Mithilfe des Gating-Netzwerks wird entschieden, ob der Benutzer derzeit kurze oder lange Sequenzen bevorzugt, um langfristige und kurzfristige Interessen auszugleichen. Dabei ist zu beachten, dass der Grenznutzen mit zunehmender Sequenzlänge abnimmt.
3. Optimiertes Funktionssystem des Empfehlungstrichters

Der gesamte Empfehlungstrichter ist in Schichten gestaltet, und jede Schicht wird gefiltert und gekürzt. Wie erreicht man maximale Effizienz in einem geschichteten Design mit Filterkürzung? Wie bereits erwähnt, werden wir gemeinsam Modelle trainieren. Darüber hinaus können verwandte Designs auch in der Dimension Feature Design durchgeführt werden. Hier gibt es auch einige Probleme:
- Um die Trichterdurchlaufrate zu verbessern, werden zunächst Rückruf und Grobranking direkt an die Feinranking-Bewertung oder Feinsortierung angepasst, was zu einer weiteren Verstärkung des Matthew-Effekts führt. Zu diesem Zeitpunkt ist das Rückruf-/Grobranking-Modell nicht das Benutzerverhalten, das den Lernprozess antreibt, sondern der passende Trichter. Das ist nicht das Ergebnis, das wir sehen wollen. Der richtige Ansatz besteht darin, das Entkopplungsdesign jeder Schicht des Trichtermodells zu empfehlen, anstatt die untere Schicht des Trichters direkt anzupassen.
- Der zweite Aspekt ist die grobe Sortierung, die theoretisch näher am Rückruf liegt und im Wesentlichen dem Ausgang für den einheitlichen Rückruf entspricht. Daher können auf der Ebene der Grobsortierung weitere Rückrufsignale eingeführt werden, z. B. Crowd-Voting-Signale für gemeinsame Empfehlungen, Diagrammindexpfade usw., sodass die Grobsortierung gemeinsam mit der Rückrufwarteschlange optimiert werden kann, sodass die Rückrufeffizienz erhöht wird der Ressourcen, die in die Feinsortierung gelangen, kann verbessert und optimiert werden.
- Die dritte Möglichkeit ist die Wiederverwendung von Berechnungen, die die Robustheit des Modells verbessern und gleichzeitig den Rechenaufwand reduzieren kann. Hierbei ist zu beachten, dass es häufig kaskadierte Modelle gibt. Das Modell der zweiten Ebene verwendet die Bewertungen des Modells der ersten Ebene. Dieser Ansatz ist sehr riskant, da der endgültige Schätzwert des Modells eine instabile Verteilung ist Wenn der Wert des Modells der ersten Ebene direkt als Merkmal verwendet wird, ist das Modell der unteren Ebene stark gekoppelt, was zu Systeminstabilität führt.
3. Algorithmus

Als nächstes stellen wir das Design des Kernalgorithmus vor.

1. Sortiermodell aus Systemperspektive

Schauen wir uns zunächst das Empfehlungssortiermodell an. Es wird allgemein angenommen, dass das Feinranking das genaueste Modell im Empfehlungssystem ist. In der Branche herrscht die Ansicht vor, dass das Groblayout mit dem Feinlayout verknüpft ist und aus dem Feinlayout gelernt werden kann. In der Praxis hat sich jedoch herausgestellt, dass das Groblayout nicht direkt aus dem Feinlayout gelernt werden kann, was zu vielen Problemen führen kann.

Wie Sie auf dem Bild oben sehen können, ist die Positionierung von Grobsortierung und Feinsortierung unterschiedlich. Im Allgemeinen sind die Trainingsmuster für die Grobsortierung dieselben wie die Muster für die Feinsortierung, bei denen es sich auch um Anzeigemuster handelt. Jedes Mal, wenn Zehntausende Kandidaten zur groben Einstufung und Bewertung zurückgerufen werden, werden mehr als 99 % der Ressourcen nicht angezeigt, und das Modell verwendet nur etwa ein Dutzend Ressourcen, die schließlich für das Training angezeigt werden, was die Unabhängigkeit unterbricht Unter der Annahme einer identischen Verteilung variiert die Verteilung von Offline-Modellen stark. Diese Situation ist beim Rückruf am schwerwiegendsten, da es sich bei den Rückrufkandidatensätzen um Millionen, Dutzende Millionen oder sogar Hunderte Millionen handelt und die meisten der zurückgegebenen Ergebnisse nicht angezeigt werden. Eine grobe Sortierung ist ebenfalls relativ schwerwiegend die Zehntausende. Die Feinsortierung ist relativ besser. Nach dem Durchlaufen des zweischichtigen Rückruftrichters und der Grobsortierung ist die grundlegende Qualität der Ressourcen gewährleistet. Daher ist das Problem der Offline-Verteilungsinkonsistenz beim Feinranking nicht so schwerwiegend, und es besteht keine Notwendigkeit, das Problem der Stichprobenauswahlverzerrung (SSB) zu sehr zu berücksichtigen. Da der Kandidatensatz jedoch klein ist, können umfangreiche Berechnungen durchgeführt werden Das Feinranking konzentriert sich auf Merkmalsüberschneidungen, Sequenzmodellierung usw. .

Der Grad der Grobsortierung kann jedoch nicht direkt aus der Feinsortierung gelernt werden, noch kann er ähnlich wie bei der Feinsortierung direkt neu berechnet werden, da der Berechnungsaufwand um ein Vielfaches höher ist als bei der Feinsortierung, wenn Sie die Feinsortierung direkt verwenden Das Designkonzept besteht darin, dass Online-Maschinen völlig unerträglich sind. Daher erfordert das grobe Layout ein hohes Maß an Geschick, um Leistung und Wirkung in Einklang zu bringen. Es handelt sich um ein leichtes Modul. Der Schwerpunkt der groben Sortieriteration unterscheidet sich von dem der Feinsortierung. Sie löst hauptsächlich Probleme wie Stichprobenauswahlverzerrung und Optimierung der Rückrufwarteschlange. Da die Grobsortierung eng mit dem Rückruf zusammenhängt, wird der durchschnittlichen Qualität von Tausenden von Ressourcen, die zur Feinsortierung zurückgeführt werden, mehr Aufmerksamkeit geschenkt als der genauen Sortierbeziehung. Das Feinranking steht in engerem Zusammenhang mit der Neuordnung und konzentriert sich mehr auf die AUC-Genauigkeit eines einzelnen Punkts.

Daher geht es bei der Gestaltung des Grobrankings eher um die Auswahl und Generierung von Stichproben sowie die Gestaltung von Generalisierungsmerkmalen und Netzwerken. Das verfeinerte Design kann komplexe Schnittfunktionen mehrerer Ordnungen, die Modellierung ultralanger Sequenzen usw. durchführen.

2. Verallgemeinerung sehr großer diskreter DNN

Die vorherige Einführung erfolgt auf der Makroebene.

Insbesondere im Hinblick auf den Modelltrainingsprozess besteht der derzeitige Mainstream in der Branche darin, diskretes DNN in extrem großem Maßstab zu verwenden, und das Generalisierungsproblem wird schwerwiegender sein. Da das diskrete DNN im ultragroßen Maßstab über die Einbettungsschicht hauptsächlich die Speicherfunktion übernimmt. Siehe die Abbildung oben. Der gesamte Einbettungsraum ist eine sehr große Matrix, normalerweise mit Hunderten von Milliarden oder Billionen Zeilen und 1.000 Spalten. Daher ist das Modelltraining vollständig verteilt, wobei Dutzende oder sogar Hunderte von GPUs das verteilte Training durchführen.

Theoretisch werden für eine so große Matrix keine heftigen Berechnungen direkt durchgeführt, sondern es werden Operationen ähnlich der Matrixzerlegung verwendet. Natürlich unterscheidet sich diese Matrixzerlegung von der Standard-SVD-Matrixzerlegung. Die Matrixzerlegung lernt hier zunächst die niedrigdimensionale Darstellung und reduziert den Rechen- und Speicheraufwand durch die gemeinsame Nutzung von Parametern zwischen Slots, d. h. sie wird in zerlegt zwei Matrizen. Die erste ist die Merkmals- und Darstellungsmatrix, die die Beziehung zwischen dem Merkmal und der niedrigdimensionalen Einbettung erlernt. Diese Einbettung ist sehr gering, und normalerweise wird eine Einbettung von etwa zehn Dimensionen ausgewählt. Die andere ist die Einbettungs- und Neuronenmatrix, und die Gewichte zwischen den einzelnen Slots werden gemeinsam genutzt. Dadurch wird das Lagervolumen reduziert und die Wirkung verbessert.

Low-dimensionales Einbettungslernen ist der Schlüssel zur Optimierung der Generalisierungsfähigkeit von Offline-DNN. Es entspricht der Durchführung einer spärlichen Matrixzerlegung. Daher liegt der Schlüssel zur Verbesserung der Generalisierungsfähigkeit des gesamten Modells Maßstab und Probennummer stimmen besser überein.

Optimieren Sie unter mehreren Gesichtspunkten:
- Zunächst aus der Einbettungsdimension, da die Anzeigemenge verschiedener Merkmale sehr unterschiedlich ist und die Anzeigemenge einiger Merkmale sehr hoch ist, z. B. des Kopfes Ressourcen: Hauptbenutzer können längere Einbettungsdimensionen verwenden. Dies ist die allgemeine Idee dynamischer Einbettungsdimensionen, das heißt, je länger die Einbettungsdimensionen angezeigt werden, desto vollständiger ist sie. Wenn Sie es etwas ausgefallener haben möchten, können Sie natürlich AutoML und andere Methoden verwenden, um Verstärkungslernen durchzuführen und automatisch nach der optimalen Einbettungslänge zu suchen.
- Der zweite Aspekt besteht darin, Schwellenwerte zu erstellen. Da verschiedene Ressourcen unterschiedliche Mengen anzeigen, muss auch berücksichtigt werden, wann eingebettete Darstellungen für Features erstellt werden.
3. Überanpassungsproblem

Die Branche verwendet normalerweise eine zweistufige Trainingsmethode, um einer Überanpassung vorzubeugen. Das gesamte Modell besteht aus zwei Schichten, eine ist eine große diskrete Matrixschicht und die andere ist eine kleine Schicht mit dichten Parametern. Die diskrete Matrixschicht lässt sich sehr leicht überanpassen, daher wird in der Industrie in der Regel One Pass Training verwendet, also Online-Lernen, bei dem alle Daten durchgereicht werden und Batch-Training nicht wie in der Wissenschaft durchgeführt wird.

Darüber hinaus verwendet die Branche normalerweise einen Timing-Validierungssatz, um das Überanpassungsproblem spärlicher Schichten zu lösen. Teilen Sie den gesamten Trainingsdatensatz entsprechend der Zeitdimension in viele Deltas, T0, T1, T2 und T3, auf. Jedes Training wird mit der diskreten Parameterschicht fixiert, die vor einigen Stunden trainiert wurde, und dann werden die nächsten Delta-Daten zur Feinabstimmung des dichten Netzwerks verwendet. Das heißt, durch Korrigieren der dünn besetzten Schicht und erneutes Trainieren anderer Parameter kann das Überanpassungsproblem des Modells gemildert werden.

Dieser Ansatz bringt auch ein weiteres Problem mit sich, da das Training geteilt ist und die diskreten Parameter zum Zeitpunkt T0 jedes Mal festgelegt werden müssen und dann die Verbindungsstufe zum Zeitpunkt t + 1 neu trainiert wird, was die Zeit nach unten zieht Das gesamte Training bringt Skalierbarkeitsherausforderungen mit sich. Daher wurde in den letzten Jahren ein einstufiges Training eingeführt, das heißt, die diskrete Darstellungsschicht und die dichte Netzwerkschicht werden gleichzeitig in einem Delta aktualisiert. Es gibt auch ein Problem beim einstufigen Training, da das gesamte Modell zusätzlich zu den Einbettungsfunktionen auch über viele kontinuierlich bewertete Funktionen verfügt. Diese kontinuierlich bewerteten Funktionen zählen daher möglicherweise die Anzeigeklicks Gefahr der Datenüberschreitung. Daher besteht in der tatsächlichen Praxis der erste Schritt darin, die Merkmale der Statistik zu entfernen, und der zweite Schritt besteht darin, das dichte Netzwerk zusammen mit der diskreten Darstellung unter Verwendung einer einstufigen Trainingsmethode zu trainieren. Darüber hinaus ist die gesamte eingebettete Länge automatisch skalierbar. Durch diese Methodenreihe kann das Modelltraining um etwa 30 % beschleunigt werden. Die Praxis zeigt, dass der Grad der Überanpassung dieser Methode sehr gering ist und der Unterschied zwischen der AUC von Training und Test 1/1000 oder weniger beträgt.

IV. Architektur

Als nächstes werde ich meine Gedanken und Erfahrungen zum Architekturdesign vorstellen.

1. System-Layer-Design-Prinzip

Das Kernprinzip des Systemdesigns ist die Divide-and-Conquer-Methode. Der Rückruf erfordert mehrere Kanäle. Das Hauptziel besteht darin, die Rückrufrate und den Umfang der Rückrufressourcen zu verbessern. Gleichzeitig sollte der Rückruf auch die Fragen der Exploration und Nutzung berücksichtigen, die die grundlegende Garantie für den Empfehlungseffekt darstellen. Die grobe Sortierung ist die erste Filterebene, hauptsächlich für die einfache Punktschätzung, und verbindet den vorherigen mit dem nächsten. Das Feinranking erfordert in der Regel umfangreiche Berechnungen und Vorhersagen. Es verwendet normalerweise sehr komplexe Strukturen und steht auch im Mittelpunkt der Branchenforschung. Die Neuanordnung ist die letzte Ebene und bestimmt die endgültige Anzeigereihenfolge. Basierend auf den Ergebnissen der Feineinstufung wird der Kontext berücksichtigt und eine komplexe Reihenfolgenvorhersage vorgenommen, d. h. eine listenweise Sortierung. Bei der Neuordnung müssen viele geschäftliche Einschränkungen berücksichtigt werden. Es enthält viele Regeln, einschließlich Trennung, LCN, Exit usw. Es handelt sich um ein Modul, das sowohl von Regeln als auch von Modellen gesteuert wird.

Die Ziele jeder Ebene des Empfehlungssystems sind grundsätzlich gleich, aber der Fokus jeder Ebene ist unterschiedlich. Beim Rückruf und der groben Einstufung liegt der Schwerpunkt auf der Generalisierung und der Rückrufrate, bei der Feineinstufung liegt der Schwerpunkt auf der Genauigkeit der Einzelpunkt-AUC und bei der Neuordnung liegt der Schwerpunkt auf der Gesamtsequenzoptimierung. Aus Datensicht gilt: Je näher der Rückruf an der Grobsortierung liegt, desto allgemeiner ist er, und je näher er an der Feinsortierung und Neuanordnung liegt, desto mehr Präzision ist erforderlich. Je näher an der Rückrufquelle, desto gravierender ist die Leistungseinschränkung, denn je mehr Kandidatenressourcen vorhanden sind, desto größer ist die Rechenkomplexität. Es ist ein Missverständnis, dass die Grobsortierung nur mit der Feinsortierung abgeglichen werden muss. Bei der Grobsortierung muss die Konsistenz mit der Feinsortierung berücksichtigt werden, sie kann jedoch nicht nur mit der Feinsortierung abgeglichen werden. Wenn Sie nichts für die grobe Sortierung tun und nur eine Ausrichtung und eine feine Sortierung vornehmen, wird dies zu einem sehr ernsten Pferd -Effekt führen. Denn gutes Ranking ist nicht die Grundwahrheit, sondern das Benutzerverhalten. Sie müssen das Benutzerverhalten gut erlernen, nicht das gute Ranking.

2. Mehrstufiges Modell-Gemeinschaftstraining

In den Anfangsjahren wurde die Neuordnung direkt anhand der Ergebnisse des Feinrankings trainiert , es ist sehr ernst. Andererseits kann die direkte Verwendung einer präzisen Bewertung für das Training leicht zu Online-Schwankungen führen.

Baidu Fengchao CTR 3.0 gemeinsames Trainingsprojekt für feines Ranking und Neuordnung nutzt sehr geschickt Modelle, um gleichzeitig zu trainieren, um das Problem der Punktekopplung zu vermeiden. Dieses Projekt verwendet die verborgene Schicht und die interne Bewertung des Feinranking-Subnetzwerks als Merkmale des Neuordnungs-Subnetzwerks. Anschließend werden die Feinranking- und Neuordnungs-Subnetzwerke getrennt und in ihren jeweiligen Modulen eingesetzt. Einerseits können die Zwischenergebnisse ohne das durch die Scoring-Kopplung verursachte Fluktuationsproblem gut wiederverwendet werden. Gleichzeitig wird die Genauigkeit der Neuanordnung um ein Perzentil verbessert. Dies war auch eines der Teilprojekte, die in diesem Jahr die höchste Auszeichnung von Baidu erhielten.

Beachten Sie außerdem, dass es sich bei diesem Projekt nicht um ESSM handelt, sondern um CTCVR-Modellierung und Mehrobjektivmodellierung. Das gemeinsame CTR3.0-Training löst hauptsächlich das Problem der Bewertung der Kopplungs- und Neuordnungsmodellgenauigkeit.

Außerdem müssen Rückruf und Grobsortierung entkoppelt werden, da neue Warteschlangen hinzukommen, was den neuen Warteschlangen möglicherweise nicht gerecht wird. Daher wird eine zufällige Maskierungsmethode vorgeschlagen, bei der einige Merkmale zufällig ausgeblendet werden, sodass der Kopplungsgrad nicht so stark ist.

3. Sparse-Routing-Netzwerk

Abschließend werfen wir einen Blick auf den Online-Bereitstellungsprozess. Die Skala der Modellparameter liegt in der Größenordnung von Hunderten von Milliarden bis Billionen, und es gibt viele Ziele. Die direkte Online-Bereitstellung ist sehr teuer, und wir können nicht nur den Effekt berücksichtigen, ohne die Leistung zu berücksichtigen. Ein besserer Weg ist die elastische Berechnung, ähnlich der Idee von Sparse MOE.

Rough Queue hat Zugriff auf viele Warteschlangen, mit Dutzenden oder sogar Hunderten von Warteschlangen. Diese Warteschlangen haben unterschiedliche Online-Werte (LTV). Die Verkehrswertschicht berechnet den Wert verschiedener Rückrufwarteschlangen für die Online-Klickdauer. Der Kerngedanke besteht darin, dass die Berechnungen umso komplexer sind, je größer der Gesamtbeitrag der Rückrufwarteschlange ist. Dadurch ist es möglich, mit begrenzter Rechenleistung höherwertigen Datenverkehr zu bedienen. Daher haben wir nicht die traditionelle Destillationsmethode verwendet, sondern eine ähnliche Idee wie Sparse MOE für elastisches Computing übernommen, nämlich das gemeinsame Design von Strategie und Architektur, sodass verschiedene Rückrufwarteschlangen das am besten geeignete Ressourcennetzwerk für die Berechnung verwenden können .

5. Zukunftspläne

Wie wir alle wissen, sind wir jetzt in die Ära der LLM-Großmodelle eingetreten. Baidus Untersuchung des Empfehlungssystems der nächsten Generation basierend auf dem großen LLM-Sprachmodell wird unter drei Aspekten durchgeführt.

Der erste Aspekt besteht darin, das Modell von der einfachen Vorhersage auf die Fähigkeit, Entscheidungen zu treffen, zu aktualisieren. Beispielsweise können wichtige Themen wie die effiziente Erkundung klassischer Kaltstartressourcen, immersives Feedback zu Sequenzempfehlungen und die Entscheidungskette von der Suche bis zur Empfehlung mithilfe großer Modelle gelöst werden.

Der zweite Aspekt betrifft die Unterscheidung bis zur Generierung. In Zukunft werden wir generative Empfehlungsmethoden untersuchen, z. B. die automatische Generierung von Empfehlungsgründen, die automatische Verbesserung von Long-Tail-Daten auf der Grundlage von Eingabeaufforderungen und generative Methoden Retrieval-Modell.

Der dritte Aspekt ist von der Black Box zur White Box. Im traditionellen Empfehlungssystem wird oft gesagt, dass neuronale Netzwerke eine Alchemie und eine Black Box sind einer der wichtigen Aufgaben der Zukunft. Basierend auf Ursache und Wirkung können wir beispielsweise die Gründe für Zustandsübergänge im Benutzerverhalten untersuchen, bessere unvoreingenommene Schätzungen der Empfehlungsgerechtigkeit vornehmen und eine bessere Szenenanpassung in Multi-Task-Machine-Learning-Szenarien durchführen.

Das obige ist der detaillierte Inhalt vonErforschung und Anwendung der Baidu-Sortiertechnologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!