Pratique et réflexion sur l'estimation et la fusion multi-objectifs de la recommandation vidéo Baidu-IA-php.cn

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

1. Introduction à l'arrière-plan vidéo Baidu

1. Forme de produit unifiée

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

D'une part, toutes les scènes vidéo de l'application Baidu ont été mises à niveau vers une immersion unifiée (haut et bas) forme interactive ; d'autre part, sur la base du grand modèle unifié de Baidu, nous avons intégré l'expérience des données et des recommandations dans tous les scénarios. L'unification de l'interaction et des données permet de mieux réaliser un gagnant-gagnant écologique et de promouvoir le développement à long terme de Baidu Video.

Afin de mieux cultiver les habitudes de consommation vidéo des utilisateurs, nous avons également créé une entrée de premier niveau pour la consommation vidéo (entrée de la barre de navigation inférieure). Si vous êtes intéressé, vous pouvez télécharger l'application Baidu. Si vous avez de bonnes suggestions ou de mauvais cas, vous êtes toujours invités à nous faire part de vos commentaires.

2. Rechercher + pousser deux moteurs pour répondre aux besoins des utilisateurs

Il convient de mentionner que Baidu a commencé en tant que moteur de recherche et que le taux d'utilisation de la recherche est extrêmement élevé. dans les scénarios de recommandation. Les données sont utilisées pour répondre aux besoins des utilisateurs via le double moteur « recherche + push ». La recherche concerne principalement des "personnes recherchant du contenu", les utilisateurs entreront clairement leurs besoins, tandis que les recommandations sont des "contenus recherchant des personnes". L'intégration des signaux de recherche et des signaux de recommandation dans tous les domaines pour obtenir une meilleure intégration de la recommandation et de la recherche est également l'un des avantages de Baidu.

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

2. Présentation du système de recommandation

1. Problèmes résolus par le système de recommandation

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

SCI, un nombre considérable de personnes dans le public manquent de compréhension de la recommandation technologie, il est nécessaire de présenter brièvement les problèmes à résoudre par la technologie recommandée. La plateforme recommandée compte trois acteurs :

Utilisateurs : Explorez le monde et découvrez ici de nouvelles perceptions.
Créateurs : la base des recommandations de plateforme et de la fourniture de contenu pour la plateforme ; la plateforme leur offre un large espace pour inspirer leur inspiration et leur création illimitées.
Annonceurs : Apporter un soutien financier à la survie de la plateforme La plupart des plateformes vivent de la publicité.

La plateforme de recommandation espère parvenir à un cycle vertueux de production, de consommation et de revenus. En tant que composant central de la plateforme, le système de recommandation résout principalement deux problèmes :

Mécanisme de sélection de contenu pour la survie de. le plus apte (face B) : comment obtenir une plus grande distribution de contenu de haute qualité et fidéliser des créateurs de haute qualité.
Expérience de consommation utilisateur ultime (côté C) : ce n'est que lorsque les demandes des utilisateurs sont satisfaites que l'amélioration continue de l'échelle peut être promue.

Lors de la conception des objectifs, nous devons considérer de manière globale les deux missions du système de recommandation

2 Aperçu du système de recommandation

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Le processus du système de recommandation est à peu près le suivant. : les ressources examinées seront d'abord poussées vers la base de données unifiée qui stocke les méta-informations ; après réception de la demande, le système de recommandation rappelle d'abord les ressources pertinentes via un moteur graphique, un rappel multi-cible, etc., il passera par deux ; des cycles de tri, à savoir un tri grossier et un tri fin, puis le modèle de fusion multi-objectif sélectionne certains contenus fortement pertinents pour l'utilisateur, enfin, grâce à la détection de la diversité, à la modélisation de séquences, au mécanisme de répartition du trafic et à d'autres stratégies, une liste de vidéos est créée ; généré et envoyé sur le téléphone mobile de l'utilisateur.

Le contenu suivant se concentrera principalement sur la fusion de conceptions et de modèles de cibles disposés avec précision

3. Conception et modélisation multi-objectifs

Tout d'abord, nous souhaitons introduire des Application de conception objective en recommandation vidéo

1. Réflexions sur la conception de la cible

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Tout d'abord, réfléchissez à la manière de concevoir la cible du système de recommandation dans le scénario vidéo immersif ?

Dans les systèmes de recommandation traditionnels, les utilisateurs consomment des ressources en cliquant sur du contenu ou des vidéos, exprimant ainsi clairement leur préférence pour la ressource. Par conséquent, dans les scénarios de recommandation traditionnels, le comportement de clic est un signal très important et une méthode de feedback claire et simple. Cependant, dans les scénarios immersifs, en raison du manque de retour clair, les préférences des utilisateurs s'expriment souvent à travers des comportements « cachés ». À l'heure actuelle, le temps de visionnage devient un signal extrêmement important dans les scénarios de recommandation immersifs

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

En plus de. ce qui précède En plus du temps de consommation, il est également nécessaire de prendre en compte le comportement des utilisateurs quittant activement le système, comme suivre, commenter, partager et aimer. Cependant, par rapport aux données de lecture, ces données comportementales sont très rares, peut-être seulement un millième de l'ordre. En plus de ces signaux interactifs, il existe également une partie très importante des données dans les recommandations de l'APP Baidu, qui est le signal de recherche. 70 % des utilisateurs de Baidu consomment à la fois des flux d'informations recommandés et des recherches. Par conséquent, le système de recommandation doit également décrire le signal de satisfaction du domaine de recherche de l'utilisateur.

Les créateurs de la face B ont besoin d'un mécanisme de concurrence pour éliminer les créateurs inférieurs en plus des signaux de consommation dont les utilisateurs de la face C sont satisfaits, stimuler le potentiel créatif des créateurs de haute qualité et parvenir ainsi à un cycle vertueux de production et consommation

2. Dimensions prises en compte dans la conception de la cible

Du point de vue du système de recommandation, l'utilisateur est l'annotateur de l'échantillon, et l'utilisateur a des expressions positives claires, telles que jouer, aimer, collectionner, commenter et autres comportements ; Il existe également des expressions négatives claires, telles que Je n'aime pas, les commentaires négatifs, les rapports, etc. En plus des expressions explicites, les utilisateurs auront également des expressions implicites, telles que l'appréciation exprimée lors de la fin de la lecture, la durée de la lecture, la consommation de la page de l'auteur, la lecture des recommandations associées, etc., ou l'aversion exprimée lors d'une lecture courte, d'une fenêtre contextuelle rapide, etc. . Par conséquent, lors de la conception des objectifs, nous devons réfléchir sous tous les aspects, équilibrer les signaux explicites et implicites et éviter de concevoir un système de recommandation « partiel ». Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

3. Modélisation globale de la satisfaction

En plus des objectifs de base ci-dessus, nous concevrons également des objectifs de haut niveau, en n'utilisant plus simplement les commentaires des utilisateurs. Par exemple, comme le montre le côté droit de la figure ci-dessus, nous avons lancé un modèle basé sur les retours de satisfaction des utilisateurs. Dans la première étape, grâce à des signaux denses tels que l'achèvement et la durée de la diffusion, des règles ou des modèles simples sont utilisés pour adapter les retours de satisfaction des utilisateurs afin d'obtenir une étiquette de satisfaction des utilisateurs relativement dense. Dans la deuxième étape, un modèle de satisfaction est construit sur la base de cette étiquette, en utilisant l'intégration générée par le modèle de recherche push à grande échelle, l'intégration sous-jacente Wenxin, et la modélisation des caractéristiques du portrait d'utilisateur et de la séquence comportementale pour évaluer le gain de satisfaction du domaine recommandé relatif. au domaine de recherche. Si un utilisateur a consommé un certain point d'intérêt dans la recherche, le système de recommandation peut recommander un contenu de meilleure qualité basé sur le modèle de satisfaction, ce qui peut rendre l'intégration de la recherche et pousser plus facilement et mieux migrer les intérêts de recherche vers le flux. Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

4. Modélisation de la valeur à long terme (Long Term Value)

Dans l'article précédent, nous avons présenté comment estimer le temps de lecture et l'interaction du contenu actuel. Nous pouvons utiliser le comportement de consommation historique des utilisateurs comme échantillons ou fonctionnalités pour prédire si le contenu à venir aura des commentaires positifs ou négatifs, et s'il y aura une interaction et une consommation satisfaisantes Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Nous pouvons en outre réfléchir à la question de savoir s'il existe une relation entre le contenu de consommation futur de l'utilisateur et le contenu de consommation actuel ? Par exemple, si les utilisateurs regardent les vidéos de Guo Degang maintenant et s'ils continuent à consommer les vidéos de Yu Qian le Nième jour suivant, ces vidéos de Yu Qian sont-elles « inspirées » par les vidéos de Guo Degang ? La consommation de points d’intérêt futurs peut-elle être considérée comme une « continuation » des points d’intérêt actuels ? La réponse est oui. Par conséquent, nous avons introduit le système LTV dans le système pour attribuer le futur contenu de valeur à long terme à la recommandation de la vidéo actuelle

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Supposons que V₀ est la valeur de la vidéo actuelle, V₁, V₂,... V_n est la vidéo que l'utilisateur consommera dans le futur En supposant que V₂ et V_n sont une consommation satisfaisante et une continuation de V₀. peut être attribué à V₀.

Il existe de nombreuses méthodes d'attribution. Selon le scénario commercial de Baidu Feed, l'attribution comprend les trois parties suivantes :

Attribution fonctionnelle : si vous visualisez les ressources montées via des recommandations pertinentes, alors cette partie de la. le signal de consommation de ressources peut être attribué à V₀.
Attribution de l'association de rappel : par exemple, l'étape de rappel est implicitement rappelée via itemCF et ainsi de suite.
Corrélation : par exemple, la corrélation entre les ressources peut être mesurée via une intégration multimodale ou une intégration de grand modèle recommandée, telle que V_n et V_{0 Si} a un score de corrélation relativement élevé, la valeur de V_n peut être attribuée à V₀.

Bien entendu, cette attribution est pondérée. Nous utilisons l'intervalle de temps de V₀ et la corrélation de V₀ pour ajuster le poids d'attribution de la consommation future de vidéos de l'utilisateur, obtenant ainsi la valeur actuelle. valeur à long terme de la vidéo V₀. Après avoir défini un objectif de valeur à long terme, l’apprentissage est relativement simple. La première étape consiste à normaliser l’objectif, puis à le modéliser directement.

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Sur la base de l'abstraction et du peignage de la situation commerciale actuelle, nous partirons des trois directions suivantes pour faire un résumé simple lors de la conception des objectifs du système de recommandation

Multi-objectif, premier report Après la modélisation de base des cibles physiques, vient ensuite la modélisation de certains objectifs de haut niveau pour décrire la satisfaction de l'ensemble de la scène. En même temps, il est également nécessaire de réguler l'écologie.
Créez de la valeur future.
En plus de la dimension ressource, d'autres dimensions peuvent également être envisagées, comme la modélisation de la dimension auteur.

Pour considérer de manière globale les différentes orientations de développement, les objectifs du système de recommandation doivent être abordés sous plusieurs angles

5 Les changements technologiques du modèle Baidu Feed, l'évolution de l'expérience liée

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Le développement. des scénarios de recommandation actuels de Baidu Il a été divisé en trois scénarios principaux :

Flux d'informations « recommandé » : Il existe depuis de nombreuses années.
Scène « Découverte » : En revanche, le flux principal est plus orienté information, tandis que « Découverte » est plus vivant et proche de la vie.
Scène « Immersive » : flux de consommation vidéo pure.

Le développement et l'évolution des produits Baidu ont conduit à un changement progressif des objectifs de classement. Initialement, il n'avait pour objectif principal qu'un seul domaine, puis s'est développé en plusieurs domaines et objectifs multiples. Il a désormais réalisé une modélisation complète de l'ensemble du domaine, intégrant des échantillons de plusieurs domaines pour parvenir à un partage complet des informations. Ce qui suit présentera le contenu spécifique de la modélisation complète dans tous les domaines

6. Modélisation multi-objectifs inter-domaines

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Tout d’abord, jetons un coup d’œil à ce que l’industrie a fait. Qu'il s'agisse de MMoE, PLE ou du réseau STAR, PEPNet et d'autres structures sur lesquelles travaille Alibaba, ainsi que des sociétés comme Google et Tencent, ils ne ménagent aucun effort pour concevoir diverses structures de réseau basées sur leurs propres activités, dans l'espoir de partagez-les dans des scénarios hétérogènes. Des informations plus utiles. Ces travaux résolvent principalement deux problèmes :

Le problème de migration des signaux inter-domaines, et comment mieux migrer entre deux domaines différents pour réaliser le partage d'informations entre domaines.
Le problème du transfert négatif entre plusieurs cibles est l'effet de bascule de plusieurs cibles.

De même, le système de recommandation Baidu est également confronté à ces deux problèmes.

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Il existe de nombreuses cibles de sous-domaines différentes dans le scénario de Baidu, et la corrélation entre ces cibles est faible, ce qui peut conduire à une migration négative entre plusieurs cibles. Pour résoudre ce problème, il faut analyser les PNR entre différentes cibles et découvrir les différences de corrélation entre elles. En d'autres termes, comment décrire les informations utilisateur dans des scénarios hétérogènes et comment mettre en œuvre la migration d'informations hétérogènes sont des problèmes qui doivent être résolus par la structure du modèle

Selon les besoins commerciaux de Baidu, nous avons conçu une superposition inter-domaines. La structure du réseau multi-objectifs adopte la structure Gating. Cette structure est principalement divisée en trois couches : la première est le réseau de partage personnalisé comme couche inférieure ; la deuxième couche est le réseau GCG pour l'extraction d'informations inter-domaines et la dernière couche est le réseau multi-objectifs de sous-domaines. Grâce à cette conception, nous pouvons effectuer une estimation multi-objectif pour chaque domaine tout en partageant des informations

Cette solution présente une amélioration significative par rapport au multi-objectif à domaine unique. L'AUC du premier lancement est environ 3 à 9 000 fois plus élevée. . indiquer. Comme le montre le coin inférieur droit de la figure ci-dessus, après avoir obtenu l'intégration des caractéristiques des utilisateurs dans plusieurs domaines et effectué une réduction de dimensionnalité TSNE, sauf que la recherche C et le deuxième saut sont relativement proches, la distinction entre les deux autres scénarios est encore relativement évident, indiquant que le modèle peut apprendre les différences entre les scènes. Il est raisonnable qu'il n'y ait pas beaucoup de différence entre les scénarios de recherche C et de deuxième saut. Ce sont tous deux des scénarios vidéo, et l'interaction et l'intérêt de l'utilisateur ne sont pas très différents.

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Le scénario commercial Baidu comporte plus de 40 cibles physiques, 4 grands sous-domaines et 6 formulaires, dont vidéo, graphiques, dynamiques, petits programmes, etc. Nous espérons que le modèle pourra fonctionner correctement dans de nombreuses entreprises complexes. Présentons brièvement la structure du modèle. La première couche est le réseau commun, qui sert de base à la division de domaine, sélectionnant des échantillons satisfaisants de plusieurs cibles dans chaque scène et réalisant une cartographie d'intégration personnalisée via le réseau de portes. La deuxième couche est l'extraction d'informations inter-domaines, qui implémente des fonctionnalités uniques et des fonctionnalités partagées personnalisées au sein du domaine via le réseau CGC. Les deux construisent conjointement l'extraction d'informations inter-domaines. L'avantage est qu'elle conserve non seulement la richesse des informations au sein du domaine, mais extrait également les informations partagées de scènes hétérogènes. La troisième couche est la modélisation multi-objectifs des sous-domaines. Nous avons également un article correspondant en cours de publication sur ce sujet. Les amis intéressés par les détails peuvent le lire.

4. Fusion multi-objectifs

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Le processus d'évolution de la fusion multi-objectifs de Baidu est similaire à celui de l'industrie. La première est la fusion des connaissances préalables, qui, bien que simple et directe, nécessite beaucoup de main d’œuvre. Ensuite, nous sommes passés à LTR, et l'effet a été remarquable. Cependant, l'inconvénient était que cela nécessitait des ajustements fréquents lorsque l'activité changeait. Dans le même temps, la relation de commande partielle changeait également avec les changements dans la stratification de l'activité et des utilisateurs. Ensuite, nous avons adopté un modèle de valeur de fusion multi-objectif, en utilisant une approche optimale séquentielle. Après une courte période d'utilisation, nous sommes passés à la méthode que nous utilisons actuellement - l'apprentissage évolutif ES (Evolution Strategy)

Pratique et réflexion sur lestimation et la fusion multi-objectifs de la recommandation vidéo Baidu

Pour utiliser ES, vous devez d'abord définir une récompense, qui est l'étoile du Nord. indicateur. Les récompenses de Baidu sont la profondeur de la session (durée + longueur de l'étape) et l'interaction. Les indicateurs commerciaux correspondant à la durée et à la longueur de l'étape sont la durée et le volume de lecture vidéo. Ces deux indicateurs reflètent la rétention des utilisateurs, c'est-à-dire LT. De plus, il existe des informations interactives, qui représentent l'accumulation d'actifs par l'utilisateur dans l'APP, comme le fait de prêter attention au comportement de l'auteur. En fait, il espère pouvoir retrouver l'auteur après sa mise à jour. Qu'il s'agisse d'augmenter le nombre de consommations ou d'interactions, nous espérons que les utilisateurs pourront utiliser cette application plus longtemps

Notre version initiale est un modèle heuristique simple, tandis que l'ES en ligne actuel effectue des calculs plus avancés, tels que l'introduction d'informations sur différents scénarios et groupes de personnes

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!