정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명-일체 포함-php.cn

정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명

1. 장면 소개

정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명

먼저, 이 글에 등장하는 시나리오인 '좋은 물건' 시나리오를 소개하겠습니다. 위치는 타오바오 홈페이지의 4각형 그리드에 있으며, 1홉 선택 페이지와 2홉 수락 페이지로 나누어져 있습니다. 수락 페이지에는 두 가지 주요 형태가 있습니다. 하나는 이미지 및 텍스트 수락 페이지이고 다른 하나는 짧은 비디오 수락 페이지입니다. 이 시나리오의 목표는 주로 사용자에게 만족스러운 상품을 제공하고 GMV의 성장을 촉진하여 전문가 공급을 더욱 활용하는 것입니다.

2. 인기 편향이란 무엇이며 왜

다음은 이 글의 초점인 인기 편향입니다. 인기 편향이란 무엇입니까? 인기 편향은 왜 발생하는가?

1. 인기 편향이란?

정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명

인기 편향에는 매튜 효과, 정보 누에고치방, 직관적으로 말하면 폭발적인 카니발입니다. 제품은 인기가 많을수록 노출되기 쉽습니다. 이로 인해 고품질의 롱테일 상품이나 전문가가 만든 신제품이 노출될 기회가 없이 탄생하게 됩니다. 크게 두 가지 폐해가 있는데, 첫째는 사용자 개인화가 부족하다는 것이고, 둘째는 전문가가 만든 신제품이 충분히 노출되지 않아 전문가의 참여감이 떨어진다는 점이다. 인기 편향.

위 사진 오른쪽의 파란색 히스토그램에서 알 수 있듯이 특정일 노출된 상위 10% 제품이 특정일 노출의 63%를 차지해 매튜효과가 매우 크다는 것을 증명합니다. 좋은 제품을 사용할 수 있는 시나리오에서는 심각합니다.

2. 인기 편향은 왜 발생하나요?

다음으로 인기 편향이 발생하는 이유를 살펴보겠습니다. 먼저, 회상 잘림에서 인기 편향을 완화하는 작업을 수행하는 이유를 명확히 해야 합니다. 순위 모델은 제품의 CTR에 적합하며 훈련 샘플에는 긍정적인 샘플과 부정적인 샘플이 포함됩니다. CTR이 높은 제품은 노출될 가능성이 더 높습니다. 그러나 리콜 단계에서는 일반적으로 트윈 타워 모델을 사용합니다. 그 부정적인 샘플은 일반적으로 두 가지 방법으로 생성됩니다. 첫 번째는 전역 무작위 음성 샘플링이고 두 번째는 배치 내 음성 샘플링입니다. 동일한 A 배치는 양성 샘플의 다른 노출 로그를 음성 샘플로 취하므로 매튜 효과를 어느 정도 완화할 수 있습니다. 그러나 실험을 통해 글로벌 네거티브 샘플링의 실제 온라인 효율성 효과가 더 좋을 것이라는 사실을 발견했습니다. 그러나 추천 시스템의 전역 무작위 음성 샘플링은 모델에 긍정적인 피드백만 제공하기 때문에 인기 편향으로 이어질 수 있습니다. 이러한 편향은 인기 분포 차이와 사전 지식 간섭에 기인할 수 있습니다. 즉, 사용자는 더 인기 있는 항목을 클릭하는 경향이 있습니다. 따라서 모델은 관련성과 관계없이 인기 있는 항목을 우선적으로 추천할 수 있습니다.

또한 노출 빈도에 따라 제품을 그룹화하고 각 그룹의 긍정적인 샘플의 평균 점수를 계산하여 위 그림의 오른쪽 녹색 선과 같이 인기 분포의 차이를 분석했습니다. 모든 샘플이 양성 샘플이더라도 노출 빈도에 따라 평균 점수도 감소하는 것으로 나타났습니다. 추천 시스템 모델을 학습할 때 인기 분포와 롱테일 분포에 차이가 있습니다. 모델은 항목의 ID 특성에 인기 정보를 주입하는 경향이 있어 인기 분포에 차이가 발생합니다. 폭발성이 높은 제품에서 얻은 훈련 횟수는 롱테일 제품보다 훨씬 커서 폭발성이 높은 제품에 모델이 과적합되며, 롱테일 제품에서는 충분한 훈련과 합리적인 벡터 표현을 얻기가 어렵습니다. 위 그림의 오른쪽 TSN 차트에서 볼 수 있듯이 파란색 점은 노출도가 높은 상품의 상품 벡터를 나타내고, 빨간색 점은 롱테일 상품의 상품 벡터를 나타내며 분포에 큰 차이가 있음을 보여줍니다. 그리고 위 그림의 오른쪽 빨간선과 같이 노출수가 감소할수록 적중률도 감소하게 됩니다. 따라서 우리는 인기편향이 인기분포의 차이와 롱테일 분포의 차이에 기인한다고 본다.

3. 인기 편향에 대한 현재 솔루션

정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명

현재 업계 솔루션 에는 주로 IPS(역성향점수)와 인과 추론의 두 가지 유형이 있습니다.

1. 역성향점수(IPS)

일반인 용어로는 노출도가 높은 확률상품에 지나치게 집중하지 않도록 메인 태스크 손실 기능에서 노출도가 높은 확률상품의 비중을 낮추는 것을 의미하므로 제품 전체에 긍정적인 샘플 분포를 더욱 고심할 수 있다는 것입니다. 그러나 이 방법은 노출 확률을 미리 예측해야 하기 때문에 불안정하고 실패하거나 변동이 크기 쉽습니다.

2. 인과 추론

i는 제품 특성, u는 사용자 특성, c는 모델에 입력되는 인과 관계 다이어그램을 나타냅니다. . 클릭률을 예측합니다. z로 표시되는 이 모델에 인기 편향도 적용하면 클릭률뿐만 아니라 제품 i의 기능 표현에도 영향을 미칩니다. 인과 추론 방법은 나에 z.

더 간단한 방법은 제품의 일부 통계적 특성을 사용하여 별도의 바이어스 타워를 얻는 것입니다. 이때 모델은 실제 클릭률과 다른 하나의 점수를 출력합니다. 제품의 인기 점수, 온라인 예측 시 제품의 인기 점수는 인기 편차의 디커플링을 달성하기 위해 제거됩니다.

두 번째 방법은 사용자 클릭을 군중 관심과 실제 관심이라는 두 가지 범주로 분류하고 각각 샘플에 대한 공동 학습을 구축하는 것입니다. 이는 두 개의 모델을 얻는 것과 같습니다. 하나는 사용자의 무리 관심 점수를 얻기 위한 모델이고, 다른 하나는 사용자의 실제 관심 점수를 얻기 위한 모델입니다. 실제로 인과 추론에는 문제가 있습니다. 인기 분포의 차이는 해결하지만 롱테일 제품에 대한 훈련 데이터 부족 문제는 해결할 수 없습니다. 현재 솔루션은 인기 편향을 제거하는 경향이 있지만, 생존을 위해 "매튜 효과"가 필요한 추천 시스템에 항상 도움이 되는 것은 아닙니다. 따라서 추천 시스템에서 인기 편향을 완전히 제거하지 않는 것이 좋습니다. 인기 있는 항목은 일반적으로 품질이 더 높으며 사용자도 군중심리와 실제 관심을 모두 가지고 있기 때문에 인기 편향을 완전히 제거하면 사용자 만족도에 영향을 미치게 됩니다. 무리의 이익. 인기편향은 이를 악화시키지 않고 합리적으로 활용되어야 한다.

4. CD2AN 기본 프레임워크

정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명

이번에 탐구할 작업은 인기 편향을 합리적으로 사용하는 방법입니다. "편향되지 않고 완전히 학습된 제품 표현을 추출하는 방법은 무엇입니까? "인기 분포의 차이를 해결하려면 제품 ID에서 실제 콘텐츠 벡터와 인기 벡터를 분리해야 합니다. 롱테일 분포 차이를 해결하기 위해 도메인 적응 패러다임을 활용하여 전체 분포를 정렬하고 대조 학습 패러다임을 활용하여 인스턴스 분포를 정렬합니다.

먼저 기본 모델의 기본 구조를 소개하겠습니다. 기본 모델은 실제로 클래식 트윈 타워 모델입니다. 다음으로는 앞서 언급한 두 가지 문제(인기분포 차이와 롱테일 분포 차이)를 어떻게 해결하는지 자세히 소개하겠습니다.

1. 인기 분포 차이를 완화하는 기능 분리 모듈

정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명

특징 분리 모듈은 추천 시스템의 인기 편향 문제를 해결하기 위해 이 기사에서 제안한 솔루션입니다. 이 모듈은 항목 벡터 표현의 속성 정보에서 인기 정보를 분리하여 항목 벡터 표현에 대한 인기의 영향을 줄입니다. 구체적으로 이 모듈에는 인기도 인코더와 속성 인코더가 포함되어 있으며, 다층 퍼셉트론의 조합을 통해 각 항목의 속성 및 인기 벡터 표현을 학습합니다. 이 모듈의 입력은 위 모델 구조의 오른쪽 부분에 표시된 것처럼 항목 ID, 항목 카테고리, 브랜드 등과 같은 항목의 속성 특성입니다. 여기에는 인기 정보를 항목 속성 정보와 분리하는 것을 목표로 직교 정규화와 인기 유사성 정규화를 포함하여 두 가지 제약 조건이 있습니다. 그 중 인기 유사성 정규화를 통해 모듈은 아이템 속성에 포함된 인기 정보를 실제 인기 정보와 정렬하도록 유도하고, 직교 정규화를 통해 모듈은 인코딩에 서로 다른 정보를 유지하도록 유도하여 분리된 인기도 정보를 얻습니다. 및 아이템 속성 정보.

위 모델 구조의 왼쪽 부분에 표시된 것처럼 실제 인기를 학습하기 위한 모듈도 필요합니다. 입력은 주로 제품의 통계적 특성이며, 그런 다음 MLP를 거쳐 결과를 얻습니다. 진짜 인기 표현.

2. 정규화로 분포 차이 완화

정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명

다음으로 롱테일 분포 차이 문제를 해결하고 싶습니다.

인기 상품과 롱테일 상품의 유통 정렬을 달성하기 위해 전이 학습 아이디어를 활용합니다. 원래 2타워 모델에서는 노출되지 않은 제품을 도입하고 MMD 손실 함수를 사용했습니다(위 그림의 왼쪽 상단 참조). 이 손실 함수는 인기 제품 도메인과 롱테일의 클러스터 중심이 되기를 바라고 있습니다. 제품 도메인은 그림의 오른쪽 상단에 있는 개략도에 표시된 것처럼 위에 표시된 것처럼 가능한 한 가깝습니다. 이러한 종류의 도메인 정렬은 감독되지 않고 부정적인 전송을 생성할 수 있으므로 다음과 같은 최적화를 수행했습니다. 노출되지 않은 샘플의 작업 손실에 영향을 미치지 않도록 도메인 정렬 손실에 대한 노출된 샘플의 기울기를 중지합니다. 지식 증류를 도입했습니다. 우리는 또한 더 나은 제품 벡터 표현을 배우기 위해 인스턴스 정렬 아이디어를 활용합니다. 주요 아이디어는 제품의 동시 발생이 더 효과적일수록 벡터 표현이 더 유사하다는 것입니다. 여기서 어려운 점은 쌍을 구성하는 방법입니다. 이러한 쌍은 사용자가 과거에 행한 행동이 있는 제품 순서에 자연스럽게 존재합니다. 사용자를 예로 들면, 샘플에는 사용자의 행동 순서와 대상 제품이 포함됩니다. 그러면 대상 제품과 사용자의 행동 순서에 있는 각 제품이 동시에 발생하는 쌍을 형성할 수 있습니다. 고전적인 대조 학습 손실 함수를 기반으로 사용자의 관심 다양성과 제품 빈도도 고려합니다. 구체적인 손실 함수 공식은 위 그림의 왼쪽 아래 부분에서 볼 수 있습니다.

위 그림의 오른쪽 하단과 같이 직관적인 도식을 볼 수 있습니다. 회색 점은 대상 제품, 주황색 점은 사용자의 행동 순서, 파란색 점은 당사가 얻은 부정적인 샘플입니다. 무작위 네거티브 샘플링. 우리는 대조 학습 방법을 통해 사용자 행동 순서의 각 제품을 목표 제품에 가깝게 제한하는 학습을 희망합니다.

3. 편견과 편견 없는 합동 훈련

정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명

위 모듈은 제품의 편견 없는 콘텐츠 표현과 분리된 인기 표현을 어떻게 적용해야 할까요? 편향되지 않은 모델과 편향된 모델의 공동 학습 방법을 사용합니다. 인기도 정보를 사용할 수 있도록 분리 모듈과 정규화를 기반으로 편향된 모델을 도입합니다. 인기 편향만 상속하면 편향이 악화되지 않습니다. 온라인 서비스 부분에서는 위 그림의 오른쪽과 같이 매개변수 α를 통해 편향되지 않은 제품 표현과 편향된 제품 표현을 융합하여 온라인 제품 표현을 얻습니다. 이 α는 인기정보에 어느 정도 관심이 집중되어 있는지를 상기시켜주는 조정값이다.

4. 오프라인 및 온라인 실험

정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명

위 사진은 이 모델의 오프라인 및 온라인 효과를 보여줍니다. 오프라인 실험에서는 리콜 결과에서 얼마나 많은 항목이 노출도가 높은 항목인지 측정하기 위해 C-Ratio 지표를 도입했습니다. 오프라인 실험을 통해 각 모듈이 어느 정도 기여하는 것을 확인할 수 있습니다. Unbiased 모델은 온라인 효율성 지표에서 이득이 없어 인기 정보가 유용하다는 것을 나타내며, 인기 정보를 활용하려면 여전히 편향 모델을 사용해야 합니다.

정확한 추천의 비밀: 알리바바의 분리된 도메인 적응 편견 없는 리콜 모델에 대한 자세한 설명

마지막으로 모델 결과를 시각적으로 표시했습니다. 우리는 새로운 모델 구조가 실제로 폭발성이 높은 제품과 롱테일 제품의 분포를 정렬할 수 있음을 발견했습니다. 제품의 분리된 인기 표현 벡터와 편견 없는 콘텐츠 표현은 교차점이 거의 없으며 동일한 목적의 제품이 더 많을 수 있습니다. α를 조정함으로써 모델은 사용자의 관심분야와 실제 관심분야에 방향성을 맞출 수 있습니다.

오늘 공유된 논문의 제목은 "추천자에서 인기 편향 활용을 위한 공동 훈련 분리된 도메인 적응 네트워크"입니다.

5. Q&A 세션

Q1: 노출되지 않은 샘플은 어떻게 샘플에 추가되나요?

A1: 하나의 샘플에 대해 대상 양성 샘플과 해당 카테고리를 얻은 다음 오프라인에서 대상 양성 샘플과 동일한 카테고리의 여러 제품을 무작위로 샘플링하여 교육에 탑재할 수 있습니다. 견본.

Q2: 같은 종류의 노출되지 않은 샘플을 도입하면 학습 난이도가 높아질까요?

A2: 도입된 노출되지 않은 샘플에는 라벨이 없으며 감독되지 않은 방식으로 배포됩니다. 부정적인 전송이 있을 수 있습니다. 이 문제를 해결하기 위해 두 가지 기술을 사용했습니다. 노출된 샘플은 도메인에서 정렬됩니다. 노출되지 않은 샘플의 경우 작업 손실에 영향을 미치지 않도록 지식 증류를 위해 정밀한 순위를 도입할 수 있습니다.