KDD2024最佳學生論文解讀，中科大、華為諾亞：序列推薦新典範DR4SR-人工智慧-PHP中文網

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本實驗室工作由認知智慧陳恩紅團隊與華為諾亞方舟實驗室完成。陳恩紅教授團隊深耕資料探勘、機器學習領域，在頂尖期刊與會議發表多篇論文，Google學術論文引用超兩萬次。諾亞方舟實驗室是華為公司從事人工智慧基礎研究的實驗室，秉持理論研究與應用創新並重的理念，致力於推動人工智慧領域的技術創新與發展。

8 月25 日- 29 日在西班牙巴塞隆納舉行的第30 屆ACM 知識發現與資料探勘大會(KDD2024) 上，中國科學技術大學認知智能全國重點實驗室陳恩紅教授、 IEEE Fellow，和華為諾亞聯合發表的論文“Dataset Regeneration for Sequential Recommendation”，獲2024 年大會Research Track 唯一最佳學生論文獎。論文第一作者為中科大認知智能全國重點實驗室陳恩紅教授，連德富教授，與王皓特任副研究員共同指導的博士生尹銘佳同學，華為諾亞劉勇、郭威研究員也參與了論文的相關工作。這是自 KDD 於 2004 年設立該獎項以來，陳恩紅教授團隊的學生第二次榮獲該獎項。

論文連結: https://arxiv.org/abs/2405.17795
程式碼連結: https://github.

程式碼連結: https://github.com/USTC -StarTeam/DR4SR

研究動機

KDD2024最佳學生論文解讀，中科大、華為諾亞：序列推薦新典範DR4SR 研究動機

研究動機為了獲得最佳的訓練數據，研究團隊的關鍵思路是學習一個明確包含物品轉移模式的新數據集。具體來說，他們將推薦系統的建模過程分為兩個階段：從原始資料集中提取轉移模式，並基於學習使用者偏好。由於學習從的映射涉及兩個隱含的映射：，因此這個過程具有挑戰性。為此，研究團隊探索了開發一個明確表示中的物品轉移模式的資料集的可能性，這使得我們可以將學習過程明確地分為兩個階段，其中相對更容易學習。因此，他們的主要關注點是學習一個有效的的映射函數，這是一個一對多的映射。研究團隊將這個學習過程定義為資料集重生成範式，如圖 1 所示，其中「重生成」意味著他們不引入任何額外信息，僅依賴原始資料集。 ^{中下時生成，研究團隊提出了}一種新穎的以數據為中心的範式－用於序列推薦的資料集重生成（DR4SR），旨在將原始資料集重生成一個資訊豐富且具有通用性的資料集。具體來說，研究團隊首先建立了一個預訓練任務，使得資料集重生成成為可能。接著，他們提出了一種多樣性增強的重生成器，以在重生成過程中建模序列和模式之間的一對多關係。最後，他們提出了一種混合推理策略，以在探索與利用之間取得平衡，產生新的資料集。

資料集重生成過程雖具通用性，但可能不完全適合特定目標模型。為解決這個問題，研究團隊提出了 DR4SR+，這是一個模型感知的重生成過程，它根據目標模型的特性自訂資料集。 DR4SR + 透過雙層優化問題和隱式微分技術，個人化評分並優化重生成資料集中的模式，以增強資料集效果。

研究方法

在本項研究中，研究團隊提出了一個名為「用於序列推薦的資料重生成」（DR4SR）的以資料為中心的框架，旨在將原始資料集重生成一個資訊豐富且具有通用性的資料集，如圖2 所示。由於資料重生成過程是獨立於目標模型的，因此重生成的資料集可能不一定符合目標模型的需求。因此，研究團隊將 DR4SR 擴展為模型感知版本，即 DR4SR+，以針對特定的目標模型自訂重生成的資料集。

模型無感知的資料集重生成

KDD2024最佳學生論文解讀，中科大、華為諾亞：序列推薦新典範DR4SR

中對中之後吧

資料重產生預訓練任務的建構：‍

^{中下對上進行之前訓練🎜>能夠將} 重產生對應的模式。研究團隊將整個預訓練資料集記作

促進多樣性的重生成器： KDD2024最佳學生論文解讀，中科大、華為諾亞：序列推薦新典範DR4SR

借助預訓練任務，研究團隊現在可以預先訓練一個資料集重生成器。本文中，他們採用 Transformer 模型作為重生成器的主要架構，其生成能力已被廣泛驗證。資料集重生成器由三個模組組成：一個用於獲取原始資料集中序列表示的編碼器、一個用於重生成模式的解碼器，以及一個用於捕捉一對多映射關係的多樣性增強模組。接下來，研究團隊將分別介紹這些模組。

編碼器由多個堆疊的多頭自註意力（MHSA）和前饋網路（FFN）層組成。至於解碼器，它將重生成資料集 X' 中的模式作為輸入。解碼器的目標是在給定編碼器產生的序列表示的情況下重構模式

KDD2024最佳學生論文解讀，中科大、華為諾亞：序列推薦新典範DR4SR

然而，從一個序列中可以提取多個模式，這在訓練過程中會帶來挑戰。為了解決這一一對多映射問題，研究團隊進一步提出了一個多樣性增強模組。

具體而言，研究團隊透過將目標模式的訊息整合到解碼階段，來自適應地調節原始序列的影響。首先，他們將編碼器產生的記憶

投影到

個不同的向量空間中，也就是 。理想情況下，不同的目標模式應與不同的記憶相符。為此，他們還引入了一個 Transformer 編碼器來編碼目標模式並取得 。他們將 KDD2024最佳學生論文解讀，中科大、華為諾亞：序列推薦新典範DR4SR

壓縮成一個機率向量： KDD2024最佳學生論文解讀，中科大、華為諾亞：序列推薦新典範DR4SR

KDD2024最佳學生論文解讀，中科大、華為諾亞：序列推薦新典範DR4SR

其中

，

是選擇第 k 個記憶的機率。為了確保每個記憶空間得到充分訓練，我們不執行硬選擇，而是透過加權求和得到最終的記憶： KDD2024最佳學生論文解讀，中科大、華為諾亞：序列推薦新典範DR4SR

最終，可以利用所獲得的記憶來促進解碼過程，並有效捕捉序列與模式之間複雜的一對多關係。

模型感知的資料集重生成

由於前面的重生成過程與目標模型無關，因此重生成的資料集可能對於特定的目標模型來說並不是最優的。因此，他們將模型無關的資料集重生成過程擴展為模型感知的重生成過程。為此，在資料集重生成器的基礎上，他們引入了一個資料集個性化器，用於評估重生成資料集中每個資料樣本的評分。然後，研究團隊進一步透過隱式微分有效地優化資料集個人化器。

資料集個人化器：

研究團隊的目標是訓練一個參數為 KDD2024最佳學生論文解讀，中科大、華為諾亞：序列推薦新典範DR4SR