KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에 학술적, 기술적인 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 작업은 National Key Laboratory의 IEEE Fellow의 후원을 받았습니다. Chen Enhong 팀과 Huawei의 Noah's Ark Laboratory가 인지 지능 개발을 완료했습니다. Chen Enhong 교수 팀은 데이터 마이닝 및 기계 학습 분야에 깊이 관여하고 있으며 최고의 저널과 컨퍼런스에 많은 논문을 발표했으며 Google Scholar 논문은 20,000회 이상 인용되었습니다. 노아의 방주 연구소(Noah's Ark Laboratory)는 인공 지능에 대한 기초 연구에 종사하는 화웨이의 연구소로 이론적 연구와 응용 혁신을 동등하게 강조한다는 개념을 고수하며 인공 지능 분야의 기술 혁신과 개발을 촉진하는 데 전념하고 있습니다.

8월 25일부터 29일까지 스페인 바르셀로나에서 열린 제30회 ACM Conference on Knowledge Discovery and Data Mining(KDD2024)에서 대학 국립인지지능연구소 Chen Enhong 교수가 중국 과학기술부 IEEE 펠로우인 화웨이 노아(Huawei Noah)와 공동으로 발표한 논문 "Dataset Re Generation for Sequential Recommendation"이 2024 컨퍼런스 연구 트랙에서 유일하게 최우수 학생 논문상을 수상했습니다. 논문의 첫 번째 저자는 중국 과학 기술 대학의 국가 핵심 인지 지능 연구소의 Chen Enhong 교수와 Lian Defu 교수, 그리고 Wang Haote가 부연구원으로 공동 지도하는 박사 과정 학생 Yin Mingjia입니다. 화웨이 노아 류용(Noah Liu Yong)과 궈 웨이(Guo Wei) 연구원도 논문 관련 작업에 참여했습니다. 천은홍 교수팀 학생들이 이 상을 수상한 것은 2004년 KDD가 설립된 이후 두 번째다.

KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

논문 링크: https://arxiv.org/abs/2405.17795
코드 링크: https://github.com/USTC -StarTeam/DR4SR

연구동기

순서 추천 시스템(SR)은 사용자의 변화하는 선호도를 포착하는 것을 목표로 하기 때문에 최신 추천 시스템의 중요한 부분입니다. 최근 몇 년 동안 연구자들은 서열 추천 시스템의 기능을 향상시키기 위해 많은 노력을 기울여 왔습니다. 이러한 방법은 일반적으로 고정 데이터 세트를 기반으로 효과적인 모델을 개발하는 모델 중심 패러다임을 따릅니다. 그러나 이 접근 방식은 데이터의 잠재적인 품질 문제와 결함을 간과하는 경우가 많습니다. 이러한 문제를 해결하기 위해 학계에서는 고정 모델을 활용하여 고품질 데이터 세트를 생성하는 데 중점을 둔 데이터 중심 패러다임을 제안했습니다. 우리는 이것을 "데이터세트 재구성" 문제로 규정합니다.

최고의 학습 데이터를 얻기 위해 연구팀의 핵심 아이디어는 항목 전송 패턴이 명시적으로 포함된 새로운 데이터 세트를 학습하는 것입니다. 구체적으로 추천 시스템의 모델링 과정을 원본 데이터 세트에서 전송 패턴 〈🎜〉을 추출하는 단계와 〈🎜〉을 기반으로 사용자 선호도 〈🎜〉를 학습하는 두 단계로 나누었습니다. KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

에서 매핑을 학습하는 데는 두 가지 암시적 매핑인 KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

이 포함되므로 이 프로세스는 어렵습니다. 이를 위해 연구팀은 KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

의 항목 전달 패턴을 명시적으로 나타내는 데이터 세트를 개발할 가능성을 탐색했습니다. 이를 통해 학습 과정을 두 단계로 명시적으로 구분할 수 있으며, 여기서 KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

는 상대적으로 배우기 쉽습니다. 따라서 일대다 매핑인 KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

의 효율적인 매핑 기능을 배우는 것이 주요 초점입니다. 연구팀은 이 학습 과정을 그림 1과 같이 데이터 세트 재생성 패러다임으로 정의합니다. 여기서 "재생성"은 추가 정보를 도입하지 않고 원본 데이터 세트에만 의존한다는 것을 의미합니다. KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

^{Abbildung. 1 Das zentrale Paradigma, Dataset Regeneration for Sequence Recommendation (DR4SR)}, zielt darauf ab, den ursprünglichen Datensatz in einen informativen und verallgemeinerbaren Datensatz zu rekonstruieren. Konkret erstellte das Forschungsteam zunächst eine Vortrainingsaufgabe, um die Neugenerierung des Datensatzes zu ermöglichen. Als nächstes schlugen sie einen durch Diversität verbesserten Regenerator vor, um Eins-zu-viele-Beziehungen zwischen Sequenzen und Mustern während des Regenerationsprozesses zu modellieren. Schließlich schlagen sie eine hybride Inferenzstrategie vor, um ein Gleichgewicht zwischen Exploration und Nutzung zu finden und so neue Datensätze zu generieren.

Der Prozess der Datensatzrekonstruktion ist allgemein, eignet sich jedoch möglicherweise nicht vollständig für ein bestimmtes Zielmodell. Um dieses Problem zu lösen, schlug das Forschungsteam DR4SR+ vor, einen modellbewussten Regenerationsprozess, der den Datensatz entsprechend den Eigenschaften des Zielmodells anpasst. DR4SR+ personalisiert die Bewertung und optimiert die Muster im rekonstruierten Datensatz durch ein zweischichtiges Optimierungsproblem und implizite Differenzierungstechniken, um den Datensatzeffekt zu verbessern.

Forschungsmethoden

In dieser Studie schlug das Forschungsteam eine A-Daten- Das zentrale Framework namens „Data Regeneration for Sequence Recommendation“ (DR4SR) zielt darauf ab, den ursprünglichen Datensatz in einen informativen und verallgemeinerbaren Datensatz zu rekonstruieren, wie in Abbildung 2 dargestellt. Da der Datenregenerierungsprozess unabhängig vom Zielmodell ist, erfüllt der regenerierte Datensatz möglicherweise nicht unbedingt die Anforderungen des Zielmodells. Daher erweiterte das Forschungsteam DR4SR zu einer modellbewussten Version, nämlich DR4SR+, um den regenerierten Datensatz an das spezifische Zielmodell anzupassen.

Modellagnostische Datensatzrekonstruktion

Abbildung 2. Regenerator um die automatische Neugenerierung von Datensätzen zu erleichtern. Allerdings fehlen im Originaldatensatz Überwachungsinformationen zum Erlernen des Datensatzregenerators. Daher müssen sie dies durch selbstüberwachtes Lernen erreichen. Zu diesem Zweck führen sie eine Vortrainingsaufgabe ein, um das Erlernen des durch Diversität verbesserten Regenerators zu steuern. Nach Abschluss des Vortrainings nutzte das Forschungsteam außerdem eine hybride Inferenzstrategie, um einen neuen Datensatz zu regenerieren.

KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

Aufgabe zur Datenrekonstruktion vor dem Training:‍

^图3

为了构建预训练任务，他们首先通过基于规则的方法获取物品转移模式。然后，要求重生成器 KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

能够将

重生成对应的模式

。研究团队将整个预训练数据集记作 KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

促进多样性的重生成器：

借助预训练任务，研究团队现在可以预训练一个数据集重生成器。本文中，他们采用 Transformer 模型作为重生成器的主要架构，其生成能力已被广泛验证。数据集重生成器由三个模块组成：一个用于获取原始数据集中序列表示的编码器、一个用于重生成模式的解码器，以及一个用于捕捉一对多映射关系的多样性增强模块。接下来，研究团队将分别介绍这些模块。

编码器由多个堆叠的多头自注意力（MHSA）和前馈网络（FFN）层组成。至于解码器，它将重生成数据集 X' 中的模式作为输入。解码器的目标是在给定编码器生成的序列表示的情况下重构模式

KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

然而，从一个序列中可以提取多个模式，这在训练过程中会带来挑战。为了解决这一一对多映射问题，研究团队进一步提出了一个多样性增强模块。

具体而言，研究团队通过将目标模式的信息整合到解码阶段，来自适应地调节原始序列的影响。首先，他们将编码器生成的记忆 KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

投影到 K 个不同的向量空间中，即 KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

。理想情况下，不同的目标模式应与不同的记忆匹配。为此，他们还引入了一个 Transformer 编码器来编码目标模式并获取 KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

。他们将

压缩成一个概率向量：

KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

其中

，

是选择第 k 个记忆的概率。为了确保每个记忆空间得到充分训练，我们不执行硬选择，而是通过加权求和得到最终的记忆：

KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임

最终，可以利用获取的记忆来促进解码过程，并有效捕捉序列与模式之间复杂的一对多关系。

模型感知的数据集重生成

由于前面的重生成过程与目标模型无关，因此重生成的数据集可能对于特定的目标模型来说并不是最优的。因此，他们将模型无关的数据集重生成过程扩展为模型感知的重生成过程。为此，在数据集重生成器的基础上，他们引入了一个数据集个性化器，用于评估重生成数据集中每个数据样本的评分。然后，研究团队进一步通过隐式微分有效地优化数据集个性化器。

数据集个性化器：

研究团队的目标是训练一个参数为 KDD2024 최우수 학생 논문, 중국 과학기술대학교 Huawei Noah 해석: 시퀀스 추천 DR4SR의 새로운 패러다임