먼저 Tencent Weishi의 빨간 봉투 인센티브 사업 배경을 간략하게 소개하겠습니다. 다른 제품 및 시나리오와 마찬가지로, 주어진 예산 내에서 Tencent Weishi 사용자에게 일부 현금 인센티브를 발행하여 현금 인센티브를 통해 사용자의 다음날 유지 및 당일 사용 시간을 극대화하기를 희망합니다. 현금 인센티브의 주요 형태는 부정기적으로 사용자에게 무제한, 금액의 현금 빨간 봉투를 발행하는 것입니다. 위에서 언급한 세 가지 "불확실성"은 궁극적으로 알고리즘에 의해 결정됩니다. 이 세 가지 "불확실성"을 레드 엔벨로프 인센티브 전략의 세 가지 요소라고도 합니다.
다음으로 다양한 현금 인센티브 전략의 추상적인 형태에 대해 이야기해 보겠습니다. 첫 번째는 레드 엔벨로프 시퀀스(Red Envelope Sequence)의 형태로 전략을 표현한 것으로, 레드 엔벨로프 시퀀스(Red Envelope Sequence)에 넘버링을 한 뒤 원-핫(One-Hot) 형태로 각 치료법을 독립적으로 넘버링하는 방식이다. 각 빨간 봉투 사이의 양과 기타 세부 전략 및 그에 따른 효과 등 더 세부적인 내용을 묘사할 수 있다는 장점이 있습니다. 그러나 이를 위해서는 전략을 표현하기 위해 필연적으로 더 많은 변수가 필요하게 되며, 전략을 탐색하고 선택할 때 더 많은 계산이 필요하게 됩니다. 전략을 나타내기 위해 요소가 3개인 벡터를 사용하는 두 번째 형식은 탐색이 더 유연하고 효율적이지만 일부 세부 사항을 무시합니다. 세 번째 방법은 보다 수학적입니다. 즉, 빨간색 봉투 시퀀스가 직접 시간 t에 대한 함수가 되고 함수의 매개변수가 전략을 나타내는 벡터를 형성할 수 있습니다. 인과관계 문제의 모델링과 전략의 표현은 인과관계 추정의 정확성과 효율성을 크게 결정합니다.
좋은 정책 추상화와 벡터 표현이 있다고 가정하고, 다음으로 해야 할 일은 알고리즘 프레임워크를 선택하는 것입니다. 여기에는 세 가지 프레임워크가 있습니다. 첫 번째프레임워크는 업계에서 비교적 성숙한 것으로, 인과 추론과 다목적 제약 조건 최적화를 결합하여 전략을 할당하고 최적화합니다. 이 프레임워크에서 인과 추론은 주로 다양한 전략에 해당하는 핵심 사용자 지표를 추정하는 역할을 하며, 이를 사용자 유지 및 기간 개선이라고 합니다. 추정 후 예산 제약을 충족시키기 위해 다중 목표 제약 최적화를 사용하여 오프라인 예산 전략 할당을 수행합니다. 두 번째 유형은 다중 목적 제약 조건 최적화 방법을 결합한 오프라인 강화 학습입니다. 나는 개인적으로 이 방법이 두 가지 주요 이유로 더 유망하다고 생각합니다. 첫 번째 이유는 실제 적용 시나리오에는 많은 전략이 있으며 강화 학습 자체가 전략 공간을 효율적으로 탐색할 수 있다는 것입니다. 동시에 강화 학습은 전략 간의 종속성을 모델링할 수 있습니다. 오프라인 강화학의 본질은 실제로는 그 자체로 강력한 인과적 특성을 갖는 반사실적 추정의 문제라는 것입니다. 불행하게도 우리 시나리오에서는 오프라인 강화 학습 방법을 시도했지만 온라인 효과는 원하는 효과를 얻지 못했습니다. 그 이유는 한편으로는 방법의 문제이고 다른 한편으로는 주로 데이터에 의해 제한되기 때문입니다. 좋은 오프라인 강화학습 모델을 훈련하려면 데이터의 전략 분포가 충분히 넓거나 전략 분포가 충분히 균일해야 합니다. 즉, 무작위 데이터를 사용하든 관찰 데이터를 사용하든 가능한 한 많은 전략을 탐색하고 분포가 상대적으로 균등하여 추정 분산의 수를 줄일 수 있기를 바랍니다. 마지막 알고리즘 프레임워크는 광고 시나리오에서 상대적으로 성숙합니다. 온라인 강화 학습을 사용하여 트래픽과 예산을 제어합니다. 이 방식의 장점은 온라인 긴급상황에 적시에 신속하게 대응할 수 있음과 동시에 예산을 보다 정확하게 통제할 수 있다는 점이다. 원인과 결과가 도입된 후에는 트래픽 선택이나 제어에 사용하는 지표가 더 이상 ECPM 지표가 아닙니다. 현재 추정되는 유지율과 기간이 개선될 수도 있습니다. 일련의 실용적인 시도 끝에 우리는 마침내 인과 추론과 다목적 제한 최적화가 결합된 첫 번째 알고리즘 프레임워크를 선택했습니다. 이는 더 안정적이고 제어 가능하며 온라인 엔지니어링에 덜 의존하기 때문입니다.
첫 번째 알고리즘 프레임워크의 파이프라인은 아래 그림에 나와 있습니다. 먼저 오프라인에서 사용자 특성을 계산한 후 인과 모델을 사용하여 다양한 전략에 따라 사용자의 핵심 지표 개선을 추정합니다. 이를 업리프트라고 합니다. 예상되는 개선 사항을 기반으로 다중 목표 최적화를 사용하여 최적의 전략을 해결하고 할당합니다. 전체 프로세스의 계산 속도를 높이기 위해 구조화할 때 군중을 미리 클러스터링합니다. 즉, 이 클러스터의 사람들이 동일한 원인과 결과를 가지고 있다고 믿고 그에 따라 동일한 전략을 할당합니다. 같은 클러스터에 있는 사람들.
위의 논의를 바탕으로 전략을 어떻게 추상화하는지에 집중해 보겠습니다. 먼저 인과관계 다이어그램을 어떻게 추상화하는지 살펴보겠습니다. 빨간 봉투 인센티브 시나리오에서 모델링해야 할 원인과 결과는 여러 날과 여러 개의 빨간 봉투에 반영됩니다. 이전 빨간색 봉투는 다음 빨간색 봉투를 받을지 여부에 확실히 영향을 미치기 때문에 이는 본질적으로 시간에 따라 변하는 치료 효과 문제이며 오른쪽에 표시된 시계열 인과 다이어그램으로 추상화됩니다.
하루에 여러 개의 빨간 봉투를 예로 들면, T의 모든 첨자는 빨간 봉투의 일련 번호를 나타냅니다. 이때 T는 현재 레드엔벨롭의 수량과 마지막 레드엔벨롭이 발행된 이후의 시간 간격으로 구성된 벡터를 나타낸다. Y는 빨간 봉투가 발행된 후 사용자의 사용 시간과 다음날 보유율의 증가입니다. X는 사용자의 시청 행동이나 인구통계학적 특성 등 현재 순간까지 관찰된 교란변수입니다. 물론 사용자의 간헐적인 체류나 간헐적인 중지 등 U로 표시되는 관찰되지 않은 교란변수가 많이 있습니다. 관찰되지 않은 중요한 혼란 변수는 사용자의 마음이며, 여기에는 주로 빨간색 봉투 인센티브 금액에 대한 사용자의 가치 평가가 포함됩니다. 이러한 소위 마음은 시스템 내에서 일부 통계적 양이나 통계적 특성을 통해 표현하기 어렵습니다.
빨간 봉투 전략을 시계열 형식으로 모델링하는 것은 매우 복잡하므로 합리적인 단순화를 수행했습니다. 예를 들어 U가 현재 순간에는 T, X, Y에만 영향을 미치고, 다음 순간에는 U, 즉 사용자의 마음에만 영향을 미친다고 가정해 보겠습니다. 즉, 다음 순간의 가치 평가나 사고방식에 영향을 미침으로써 미래 Y에만 영향을 미칠 것입니다. 그러나 일련의 단순화 후에도 전체 시계열 인과 다이어그램이 여전히 매우 조밀하여 합리적인 추정을 하기 어렵다는 것을 알 수 있습니다. 그리고 시간 변화 추세 효과(Time Varying Trend Effect)를 해결하기 위해 G-method를 사용하는 경우 훈련을 위해 많은 양의 데이터가 필요하지만 실제로 우리가 얻는 데이터는 매우 희박하므로 온라인에서 좋은 효과를 얻기가 어렵습니다. 그래서 결국 우리는 많은 단순화를 하여 오른쪽 아래 그림과 같은 포크 구조(Fork)를 얻었습니다. 그날의 모든 빨간 봉투 전략을 집합화했는데, 이는 전략의 세 가지 요소(빨간 봉투 인센티브 총량, 총 시간, 총 횟수)로 구성된 벡터로 T로 표시됩니다. X는 T-1 시점의 교란변수로, 해당 날짜의 사용자 과거 행동과 인구통계학적 특성을 나타냅니다. Y는 해당 날짜의 사용자 사용 시간을 나타내며, 이는 사용자의 다음날 사용 시간 지표입니다. 이 방법은 빨간 봉투 간의 상호 작용과 같은 많은 세부 사항을 무시하는 것처럼 보입니다. 그러나 거시적 관점에서 볼 때 이 전략은 더 안정적이며 그 효과를 더 잘 측정할 수 있습니다. ㅋㅋㅋ 이전에는 One-Hot을 사용하여 세 요소 벡터에 독립적으로 번호를 매기고 세 요소를 분리하고 시간 함수를 사용하여 다변수 처리를 구성해 보았습니다. 처음 두 가지 전략은 이해하기 더 쉬우며, 마지막 방법은 다음에 소개하겠습니다. 위의 그림을 보세요. 우리는 각각 t에 대해 세 요소의 사인 함수를 구성했습니다. 즉, 시간 T가 주어지면 각각 양, 시간 간격 및 개수를 얻을 수 있습니다. 우리는 전략의 세 가지 요소를 표현하는 것과 유사하게 이러한 함수에 해당하는 매개변수를 새 벡터의 요소로 사용합니다. 전략을 표현하기 위해 함수를 사용하는 목적은 더 많은 세부 정보를 유지하는 것입니다. 처음 두 방법은 전략의 조합을 통해 빨간색 봉투의 평균 양과 분포 간격만 알 수 있으며 함수를 사용하면 이를 더 자세히 표현할 수 있기 때문입니다. 그러나 이 방법은 더 많은 변수를 도입하여 계산을 더욱 복잡하게 만들 수 있습니다.
전략 표현을 마친 후 인과 모델을 선택하여 인과 효과를 추정할 수 있습니다. T의 3가지 요소를 나타내는 One-Hot 형태로 x-Learner 모델을 이용하여 각 전략을 모델링하고, 총합이 가장 작은 전략을 기준 전략으로 사용하여 모든 전략의 치료 효과를 계산하고 평가합니다. 이 경우 효율성이 매우 낮고 모델의 일반화가 부족하다고 느낄 수 있습니다. 따라서 우리는 방금 언급한 세 번째 전략, 즉 정현파 함수 요소의 벡터를 사용하여 처리를 형성하는 전략을 추가로 채택합니다. 다음으로 단일 DML 모델을 사용하여 기본 전략과 관련된 모든 전략의 성능을 추정합니다. 또한 y는 교란변수와 인과효과의 선형가중치, 즉 치료효과에 교란변수를 더한 값과 같다고 가정하여 최적화 DML도 만들었다. 이러한 방식으로 벡터 요소 간의 교차 항과 고차 항이 인위적으로 구성됩니다. 이는 비선형 함수를 도입하기 위해 다항식 커널 함수를 구성하는 것과 같습니다. 이를 바탕으로 DML은 기본 전략에 비해 크게 향상되었습니다. 아래 그림을 분석하면 DML 모델이 비용이 적게 들고 ROI가 향상되어 리소스를 보다 효율적으로 사용할 수 있다는 것을 알 수 있습니다.
앞서 우리는 몇 가지 방법 추상화와 모델 선택에 대해 주로 논의했습니다. 연습 과정에서 One-Hot을 수행할 때 무엇을 해야 하는지와 같은 좀 더 비즈니스 지향적인 문제도 발견하게 됩니다. 이때 배치별 확장 전략을 구현했습니다. 먼저 전략의 3가지 요소를 통해 시드전략을 수립한 후, 고품질 시드를 수동으로 선별, 보유하고 확대한다. 확장 후에는 출시 첫 2주 등 일정 기간을 기준으로 새로운 전략을 일괄적으로 출시하고 각 전략의 무작위 트래픽 크기가 일관되거나 비교할 수 있도록 보장합니다. 이 과정에서 시간 요소의 영향은 실제로 무시되며, 덜 효과적인 전략이 지속적으로 교체되어 전략 모음이 풍부해집니다. 또한 시간 요소는 무작위 트래픽 전략의 비교 여부에 확실히 영향을 미칩니다. 따라서 우리는 적용되는 타임 슬라이스의 일관성을 보장하기 위해 타임 슬라이스 회전과 유사한 방법을 구축하여 전략에 대한 시간 요소의 영향을 제거함으로써 얻은 무작위 트래픽을 모델 학습에 사용할 수 있습니다.
그리고 새로운 전략을 생성하는 방법은 무엇입니까? 간단한 방법은 등급 검색 또는 유전자 알고리즘을 사용하는 것입니다. 이는 검색에 더 일반적으로 사용되는 알고리즘입니다. 또한 바람직하지 않은 일부 빨간색 봉투 시퀀스 유형을 잘라내는 등 수동 가지치기를 결합할 수 있습니다. 또 다른 방법으로는 오프라인 강화학습 방법인 BanditNet을 이용하여 보이지 않는 전략을 계산하는 것, 즉 반사실적 효과를 추정한 후, 추정된 값을 이용하여 전략을 선택하는 것이다. 물론, 이를 검증하기 위해서는 결국 온라인 랜덤 트래픽을 사용해야 할 것입니다. 그 이유는 이 오프라인 강화 학습 방법의 분산이 매우 클 것이기 때문입니다.
위에서 언급한 문제 외에도 몇 가지 비즈니스 지향적인 문제도 직면하게 됩니다. 첫 번째 질문은 사용자 정책의 업데이트 주기는 어떻게 됩니까? 모든 사용자 정책을 자주 업데이트하면 더 좋을까요? 이와 관련하여 우리의 실제 경험은 사람마다 다릅니다. 예를 들어, 빈도가 높은 사용자에 대한 전략은 더 천천히 변경되어야 합니다. 한편으로는, 높은 빈도의 사용자가 인센티브 금액을 포함하여 우리의 형식에 이미 익숙하기 때문입니다. 빨간색 봉투 금액이 크게 변경되면 해당 지표에 확실히 영향을 미치게 됩니다. 따라서 실제로 빈도가 높은 사용자에 대해서는 일주일에 한 번 업데이트하는 주간 업데이트 전략을 유지하지만 신규 사용자의 경우 업데이트 주기가 더 짧습니다. 그 이유는 우리가 신규 사용자에 대해 아는 바가 거의 없고, 적절한 전략을 보다 신속하게 탐색하고 신속하게 대응하여 사용자 상호 작용을 기반으로 전략 변경을 할 수 있기를 원하기 때문입니다. 신규 사용자의 행동 또한 매우 드물기 때문에 이 경우 일일 수준을 사용하여 신규 사용자 또는 빈도가 낮은 일부 사용자를 업데이트하겠습니다. 또한 기능 노이즈의 영향을 피하기 위해 전략의 안정성도 모니터링해야 합니다. 오른쪽에는 우리가 구축한 파이프라인이 나와 있습니다. 여기에서는 치료 효과가 안정적인지 모니터링하고, 금액과 횟수 등 오늘의 전략과 어제의 전략의 차이 등 사용자가 지정한 최종 전략도 매일 모니터링하게 됩니다. 또한 전략의 안정성을 보장하기 위해 주로 디버깅 및 빠른 재생을 위해 온라인 전략의 정기적인 스냅샷을 찍을 것입니다. 또한 소규모 트래픽에 대한 실험도 수행하고 안정성을 모니터링할 예정입니다. 안정성 요구 사항을 충족하는 소규모 트래픽 실험만 기존 전략을 대체하는 데 사용됩니다.
두 번째 질문은 신규 사용자와 일부 특수 사용자를 위한 전략이 독립적인지 여부입니다. 예를 들어, 신규 사용자의 경우 먼저 강력한 인센티브를 제공한 다음 시간이 지남에 따라 인센티브의 강도가 감소합니다. 사용자가 정상적인 라이프사이클에 진입한 후, 우리는 그를 위한 정기적인 인센티브 전략을 구현할 것입니다. 동시에 특별히 민감한 그룹의 경우 금액에 대한 제한 정책이 있을 것입니다. 이를 위해 우리는 이 그룹에 적응할 수 있는 독립적인 모델도 훈련할 것입니다.
세 번째 질문은 '전체 알고리즘 프레임워크에서 인과 추론이 얼마나 중요한가요?'입니다. 이론적 관점에서 우리는 인과 추론이 인센티브 알고리즘에 큰 이점을 가져오기 때문에 핵심이라고 믿습니다. 회귀 및 분류 모델과 비교할 때 인과 추론은 비즈니스 목표와 일치하며 본질적으로 ROI 지향적이므로 개선 정도에 대한 최적화 목표를 가져옵니다. 그러나 우리는 예산을 할당할 때 모든 사용자에게 최적의 전략을 선택할 수 없으며 인과 효과가 개인에 비해 상대적으로 적다는 점을 모두에게 상기시키고 싶습니다. 예산을 할당할 때 사용자 인과 효과의 일부 차이가 제거될 가능성이 매우 높습니다. 이때 우리의 제한된 최적화는 전략 효과에 큰 영향을 미칠 것입니다. 따라서 클러스터링을 수행할 때 더 나은 클러스터링 결과를 얻기 위해 심층 클러스터링 SCCL 방법과 같은 더 많은 클러스터링 방법도 시도했습니다. 우리는 또한 BNN이나 Dragonnet 등과 같은 심층 인과 모델의 일부 반복을 수행했습니다.
실습 중에 심층 인과 모델의 오프라인 지표가 실제로 크게 개선되었지만 온라인 효과가 충분히 안정적이지 않다는 것을 발견했습니다. 주된 이유는 누락된 값이 발생하기 때문입니다. 동시에 특징 계획 방법이 딥러닝 온라인 모델의 안정성에 큰 영향을 미친다는 사실도 발견했기 때문에 결국에는 DML 방법을 안정적으로 사용하는 경향이 있습니다.
이제 인센티브 시나리오에 대한 공유를 마치겠습니다. 다음으로, 우리 팀의 다른 두 학생에게 공급 및 수요 최적화 시나리오에 대한 실용적이고 이론적 탐구를 공유해 달라고 요청하고 싶습니다.
다음으로, 수요공급 측면에서 텐센트 마이크로비전의 사업배경을 소개하겠습니다. 짧은 동영상 플랫폼인 Weishi는 다양한 카테고리의 동영상을 보유하고 있습니다. 시청 관심도가 서로 다른 사용자 그룹의 경우 다양한 사용자 특성에 따라 각 카테고리의 노출 비율이나 인벤토리 비율을 적절하게 할당해야 합니다. 목표는 사용자 경험과 사용자 시청 시간을 향상시키는 것입니다. 그 중 사용자의 경험은 다음과 같습니다. 3초 빠른 스와이프 비율 지표를 기준으로 측정되며, 시청 시간은 주로 총 재생 시간을 기준으로 측정됩니다. 동영상 카테고리의 노출 비율이나 인벤토리 비율을 조정하는 방법은 무엇입니까? 우리가 고려하는 주요 방법은 일부 범주를 비례적으로 늘리거나 줄이는 것입니다. 증가 및 감소 비율은 사전 설정된 값입니다.
다음으로 사용자 경험과 시청 시간을 최대화하기 위해 알고리즘을 사용하여 어떤 카테고리를 늘리고 어떤 카테고리를 뺄지 결정해야 하며 동시에 다음과 같은 몇 가지 제약 조건을 충족해야 합니다. 총 노출 제한으로. 이 곳에서는 세 가지 주요 모델링 아이디어를 요약합니다. 첫 번째는 보다 간단한 아이디어입니다. 즉, 증가 및 감소를 0과 1의 처리 변수로 직접 처리하고 인과 효과를 추정한 다음 다중 목표 제한 최적화를 수행하여 최종 전략을 얻는 것입니다. 두 번째 아이디어는 치료를 보다 정확하게 모델링하는 것입니다. 예를 들어 카테고리의 노출 비율은 0과 1 사이에서 연속적으로 변하는 변수입니다. 그런 다음 해당 인과 효과 곡선 또는 인과 효과 함수를 맞춘 다음 다중 목적 제약 최적화를 수행하고 최종적으로 최종 전략을 얻습니다. 방금 언급한 두 가지 방법은 2단계 방법임을 알 수 있습니다. 세 번째 아이디어, 인과효과 추정에 제약을 도입하여 제약을 만족하는 최적의 전략을 구합니다. 이는 나중에 여러분과 공유하고 싶은 연구 내용이기도 합니다.
먼저 처음 두 가지 모델링 아이디어에 집중해 보겠습니다. 주의해야 할 몇 가지 모델링 포인트가 있습니다. 첫 번째 점은 인과효과 추정의 정확성을 확보하기 위해서는 모집단을 나누어 각 모집단에 대한 이진치료 또는 연속치료의 인과효과를 추정해야 한다는 점이다. 방금 정 선생님께서는 Kmeans 클러스터링이나 심층 클러스터링을 사용하는 등 사람을 분류하는 방법에 대해서도 언급하셨습니다. 두 번째 요점은 무작위가 아닌 실험 데이터에 대한 모델 효과를 평가하는 방법입니다. 예를 들어 AB 테스트를 수행하지 않고 오프라인으로 모델의 효과를 평가해야 합니다. 이 문제에 대해서는 오프라인 평가를 위한 PPT에서 위에 색인된 논문에 언급된 일부 지표를 참고할 수 있습니다. 세 번째로 주목해야 할 점은 유사한 카테고리 간의 밀집화 문제 등 카테고리 간의 상관관계와 상호 영향을 최대한 고려해야 한다는 점이다. 이러한 요인들이 인과효과 추정에 포함될 수 있다면 더 나은 결과를 얻을 수 있을 것이다.
다음으로 이러한 모델링 아이디어를 세부적으로 개발하겠습니다. 먼저, 첫 번째 모델링 방법은 0과 1의 처리를 정의하는 것으로, 이 두 가지 유형의 개입을 늘리거나 줄이는 수단을 나타내는 데 사용됩니다. 왼쪽의 간략한 원인 및 결과 다이어그램을 참조할 수 있습니다. 여기서 x는 관련 통계 특성 및 기타 사용자 속성 등과 같은 사용자의 일부 특성을 나타냅니다. y는 우리가 관심을 갖는 목표로, 3초 가속률 또는 총 재생 시간입니다. 또한, 사용자의 우연한 사용, 빠른 스와이프, 이탈 등 일부 관찰되지 않은 교란 변수에 주의할 필요가 있으며, 동일한 사용자가 실제로 여러 사람에 의해 사용될 수 있으며, 이는 사용자의 다중 정체성 문제이기도 합니다. 또한 추천 전략의 지속적인 반복 및 업데이트도 관찰 데이터에 영향을 미치며 사용자 관심 사항의 이동도 관찰 범위를 벗어납니다. 이러한 관찰되지 않은 교란변수는 인과관계 추정에 어느 정도 영향을 미칠 수 있습니다.
이런 종류의 모델링에서는 일반적인 인과효과 추정 방법을 해결할 수 있습니다. 예를 들어 인과 효과를 추정할 수 있는 T-Learner, X-Learner 또는 DML을 고려할 수 있습니다. 물론 이 간단한 모델링 방법에도 몇 가지 문제가 있습니다. 예를 들어 이진 처리를 사용하여 모델링하면 너무 단순화됩니다. 또한, 이 방법에서는 각 카테고리를 개별적으로 고려하고, 카테고리 간의 상관관계는 고려하지 않습니다. 마지막 문제는 전체 질문에서 노출 순서, 내용의 질 등 구체적인 요소를 고려하지 않았다는 점입니다.
다음으로 두 번째 모델링 아이디어를 소개하겠습니다. 예를 들어, k개의 비디오 카테고리가 있고 치료를 k차원 원인 벡터로 간주합니다. 벡터의 각 위치는 영화, TV 버라이어티 쇼 또는 MOBA 이벤트 등과 같은 범주를 나타냅니다. 0과 1은 여전히 증가 또는 감소를 나타냅니다. 이때 다차원 벡터의 치료에 대한 인과효과 추정은 DML 알고리즘을 통해 해결할 수 있다. 우리는 일반적으로 모두 0인 처리 벡터를 대조군으로 취급합니다. 이 방법은 각 카테고리를 별도로 고려하지 않는다는 문제를 해결하지만 여전히 몇 가지 잠재적인 문제가 있습니다. 첫 번째는 너무 많은 카테고리로 인해 발생하는 차원 폭발의 문제입니다. 차원이 증가할수록 각 위치에 0과 1이라는 두 가지 상황이 있기 때문에 잠재적인 순열과 조합의 수가 기하급수적으로 늘어나 원인과 결과에 영향을 미치게 됩니다. 효과 추정의 정확성으로 인해 간섭이 발생합니다. 또한, 앞서 언급한 노출 순서, 내용 등의 요소도 고려되지 않습니다.
이진 가변 처리의 모델링 아이디어를 공유한 후, 다음으로 처리의 고유한 특성에 더욱 부합하는 보다 세부적인 방식으로 처리를 모델링할 수 있습니다. 노출 비율 자체가 연속 변수이므로 모델링에 연속 처리를 사용하는 것이 더 합리적이라는 것을 알았습니다. 이 모델링 아이디어에 따라 먼저 군중을 나누어야 합니다. 각 그룹의 사람들에 대해 각 범주를 개별적으로 모델링하여 단일 그룹*단일 범주의 인과 효과 곡선을 얻습니다. 왼쪽 그림에 표시된 것처럼 인과 효과 곡선은 우리가 관심을 갖는 목표에 대한 다양한 범주의 비율의 영향을 나타냅니다. 이러한 인과관계 곡선을 추정하기 위해 저는 주로 DR-Net과 VC-Net이라는 두 가지 가능한 알고리즘을 공유합니다. 두 알고리즘 모두 딥러닝의 범주에 속합니다. 모델의 구조는 오른쪽 그림과 같습니다.
먼저 DR-Net을 소개합니다. 모델의 입력 x는 먼저 여러 개의 완전히 연결된 레이어를 거쳐 z라는 암시적 표현을 얻습니다. DR-Net은 연속 처리를 여러 블록으로 나누고 각 블록이 하위 네트워크를 훈련하여 목표 변수를 예측하는 이산화 전략을 채택합니다. DR-Net은 이산화 전략을 채택하기 때문에 얻어지는 최종 인과효과 곡선은 엄밀하게 연속적이지 않지만, 이산화가 얇아질수록 최종 추정치는 연속형 곡선에 가까워집니다. 물론 이상적인 분할이 얇아지면 더 많은 매개변수가 발생하고 과적합 위험이 높아집니다. 다음으로 VC-Net에 대해 공유하겠습니다. VC-Net은 DR-Net의 단점을 어느 정도 개선합니다. 우선 VC-Net 모델의 입력은 여전히 X인데, 이는 사용자의 특성이기도 합니다. 또한 여러 개의 완전히 연결된 레이어 이후에 먼저 암시적 표현 Z를 얻습니다. 하지만 Z에서는 성향 점수를 예측하는 모듈이 먼저 연결됩니다. 연속 처리 조건에서 성향은 주어진 X 조건에서 처리 t의 확률 밀도이며 그림에 π로도 표시됩니다. 다음으로 Z 이후의 네트워크 구조를 살펴보겠습니다. DR-Net의 이산화 연산과 달리 VC-Net은 가변 계수 네트워크 구조를 사용합니다. 즉, Z 이후의 각 모델 매개변수는 t에 대한 매개변수입니다. 여기서 언급한 문헌의 저자들은 기저함수법을 사용하여 각 함수를 기저함수의 선형결합으로 표현하는데, 이를 θ(t)라고도 표기합니다. 이런 식으로 함수의 추정은 기저함수의 선형결합에 대한 모수추정이 된다. 그래서 이런 식으로 모델의 매개변수 최적화에는 문제가 없으며, VC-Net으로 얻은 인과효과 곡선도 연속적인 곡선이다. VC-Net이 해결하고자 하는 목적함수는 여러 부분으로 구성되어 있습니다. 한편으로, 이는 목표에 대한 최종 예측의 제곱 손실로 구성되며, 이는 그림에서 μ입니다. 한편, 성향의 확률밀도의 대수손실로도 구성된다. 이 두 부분 외에도 저자는 목적 함수에 Targeted Regularization이라는 페널티 항을 추가하여 이중 강인한 추정 속성을 얻을 수 있습니다. 구체적인 세부 사항에 관심이 있는 친구들은 위에 색인된 두 개의 원본 논문을 참조하여 자세한 내용을 확인할 수 있습니다.
마지막으로, 곧 여러분과 공유할 연구 결과를 위한 기반을 마련해 보겠습니다. 우리는 각 비디오 카테고리의 노출 비율이 다차원 연속 벡터임을 확인했습니다. 다차원적인 이유는 여러 개의 비디오 카테고리가 있고 각 차원이 비디오 카테고리를 나타내기 때문입니다. 연속적인 주된 이유는 각 영상 카테고리의 노출 비율이 연속적이며, 그 값이 0에서 1 사이이기 때문이다. 동시에 모든 비디오 카테고리의 총 노출 비율이 1과 같아야 한다는 자연스러운 제약이 있습니다. 따라서 우리는 이러한 다차원 연속 벡터를 치료로 간주할 수 있습니다.
오른쪽에 표시된 벡터가 이에 대한 예입니다. 우리의 목표는 총 플레이 시간을 최대화하기 위한 최적의 노출 비율을 찾는 것입니다. 전통적인 인과 구조에서는 알고리즘이 이러한 다차원적이고 연속적이고 제약이 없는 문제를 해결하기가 어렵습니다. 다음으로, 이러한 문제에 대한 연구를 공유합니다.
MDPP Forest 이 작업은 팀이 수요와 공급 문제를 연구할 때 수행한 문제에 대한 방법 탐색이자 혁신적인 솔루션입니다. 당시 우리 팀은 각 사용자에게 가장 좋은 비디오 카테고리 노출 비율을 할당하는 문제에 직면했을 때 기존의 다른 일반적인 방법으로는 기대에 더 부합하는 결과를 얻을 수 없다는 것을 발견했습니다. 따라서 일정 기간의 시행과 개선을 거쳐 우리 팀이 설계한 방법은 오프라인에서 좋은 결과를 얻을 수 있으며 권장 사항에 협력하여 최종적으로 특정 전략적 이점을 얻을 수 있습니다. 그런 다음 우리는 이 작업을 논문으로 편집했고, KDD 2022에 게재될 만큼 운이 좋았습니다.
먼저 문제의 배경을 소개합니다. 수요와 공급 측면에서 단편 영상을 대중 과학, 영화 및 TV, 야외 음식 등 콘텐츠에 따라 다양한 카테고리로 분류합니다. 동영상 카테고리 노출 비율은 사용자가 시청한 전체 동영상 중 이러한 다양한 카테고리의 동영상이 차지하는 비율을 나타냅니다. 사용자는 카테고리별로 선호도가 매우 다르며, 플랫폼은 사례별로 각 카테고리에 대한 최적의 노출 비율을 결정해야 하는 경우가 많습니다. 재정렬 단계에서는 다양한 유형의 동영상 추천을 제어합니다. 회사의 큰 과제는 플랫폼에서 각 사용자의 시간을 최대화하기 위해 최상의 비디오 노출 비율을 할당하는 방법입니다.
이러한 문제의 가장 큰 어려움은 다음 세 가지 점에 있습니다. 첫 번째는 짧은 동영상 추천 시스템에서 각 사용자가 보는 동영상은 자신의 특성과 매우 강한 상관관계를 갖는다는 것입니다. 이는 선택적인 편향입니다. 따라서 편향을 제거하기 위해서는 인과 추론과 관련된 알고리즘을 사용해야 합니다. 두 번째는 비디오 카테고리 노출 비율이 연속적이고 다차원적이며 제한된 처리라는 것입니다. 현재 인과 추론 및 정책 최적화 분야에서 이러한 복잡한 문제를 해결하는 매우 성숙한 방법은 없습니다. 세 번째는 오프라인 데이터에서는 각 개인의 실제 최적 노출 비율을 선험적으로 알 수 없기 때문에 이 방법을 평가하기가 어렵습니다. 실제 환경에서는 추천하는 하위 링크일 뿐입니다. 최종 실험 결과는 자체 계산 목표에 대한 이 방법의 정확성을 판단할 수 없습니다. 따라서 이 시나리오의 문제를 정확하게 평가하는 것은 어렵습니다. 효과 평가를 어떻게 진행하는지 나중에 소개하겠습니다.
먼저 통계에서 데이터를 인과 다이어그램으로 추상화합니다. 그 중 벡터. Y는 사용자의 시청 시간으로, 작업 목표에 대한 반응입니다. 우리 모델링의 목표는 특정 사용자 특성 X 하에서 고차원의 최적 비디오 카테고리 노출 비율을 제공하여 사용자의 시청 시간 기대치를 최대화하는 것입니다. 이 문제는 단순히 인과관계 다이어그램으로 표현되는 것처럼 보이지만 앞에서 언급한 큰 문제가 있습니다. 우리의 처리 방식은 여러 카테고리의 노출 비율을 카테고리 노출 비율로 설명하여 다차원 벡터를 구성하는 것입니다. 연속적인 값을 가지며 벡터의 합은 1입니다. 이 문제는 더 복잡합니다.
이와 관련하여 우리의 방법도 인과 결정 숲(Causal Forest)을 기반으로 합니다. 일반적인 인과 의사 결정 트리는 1차원 이산 값으로만 치료 문제를 해결할 수 있습니다. 중간 분할 기준 함수의 계산을 개선하여 분할 중에 일부 고차원 연속 정보를 추가하여 고차원 연속 값 및 제한된 처리 문제를 해결할 수 있습니다.
우선, 지속적 치료 문제를 해결합니다. 그림에서 볼 수 있듯이 Y에 대한 T의 효과는 연속 곡선입니다. 먼저 이것이 단조롭게 증가하는 곡선이라고 가정해 보겠습니다. 데이터의 모든 처리 값에 대해 이를 탐색하고 왼쪽 및 오른쪽 샘플의 Y 평균을 계산하여 왼쪽의 Y 평균과 오른쪽의 Y 평균 사이의 차이가 가장 큰 지점, 즉, 평균 인과적 이익이 가장 큰 지점. 이 지점을 연속 치료 공간에서 가장 효율적인 지점인 최대 차이 지점이라고 부르는데, 이는 치료가 Y를 크게 변경할 수 있음을 의미합니다. 최대 차이 점은 단일 차원에서 얻으려는 점입니다.
그러나 방금 언급한 방법은 단조롭게 증가하는 곡선에만 적합합니다. 그러나 실제로 대부분의 문제는 그다지 좋지 않습니다. 특히 노출 비율 문제는 더욱 그렇습니다. 이 문제에서 효과 곡선은 일반적으로 산 모양입니다. 즉, 먼저 증가한 다음 감소합니다. 사용자가 좋아하는 동영상을 더 많이 추천하면 사용자의 시청 시간이 늘어날 수 있습니다. 하지만 이 유형을 너무 많이 추천하면 전체 동영상 추천이 매우 단조롭고 지루해지며, 다른 사용자가 볼 수 있는 동영상 유형의 노출 공간도 밀려나게 됩니다. 좋다. 따라서 곡선은 일반적으로 산 모양이지만 다른 모양일 수도 있습니다. 어떤 모양의 T-곡선에 적응하려면 적분 연산, 즉 누적을 위한 값 범위 간격을 찾아야 합니다. 누적곡선에서 왼쪽과 오른쪽의 평균값을 계산하고, 오른쪽의 오각별처럼 양쪽의 평균값의 차이가 가장 큰 지점도 계산합니다. 사진. 이 점을 선호도 차이의 최대점, 즉 우리의 MDPP라고 할 수 있다.
위에서 연속 문제를 해결하는 방법을 소개했는데, 방금 언급한 곡선은 1차원일 뿐이고 a에 해당합니다. 단일 비디오 카테고리. 다음으로 다차원 문제를 해결하기 위해 휴리스틱 차원 순회 아이디어를 사용합니다. 분류 점수를 계산할 때 휴리스틱 아이디어를 사용하여 K 차원을 무작위로 정렬하고 각 차원에서 D 지표의 집계, 즉 합산 연산을 수행합니다. 고차원 정보 엔트로피로 D*를 구한 후 제약 조건은 모든 MDPP의 합이 1이라는 것입니다. 여기서 우리는 다음 두 가지 상황을 고려해야 합니다. 하나는 K 차원을 횡단한 후 MDPP의 합이 1에 도달하지 않는 경우입니다. 이러한 상황에 대응하여 모든 MDPP의 합을 더해 1로 정규화하겠습니다. 두 번째 경우는 K 차원보다 작은 K' 차원만 통과하면 MDPP의 합이 1에 도달한다는 것입니다. 이를 위해 순회를 중지하고 MDPP를 나머지 "리소스 양"으로 설정합니다. 이는 1에서 이전에 계산된 MDPP 값의 합계를 뺀 값이므로 제약 조건을 고려할 수 있습니다.
또한 위의 트리 구조에는 두 가지 주요 의미가 있기 때문에 숲을 소개하겠습니다. 첫 번째는 모델의 견고성을 향상시키기 위해 여러 학습자를 사용할 수 있는 전통적인 배깅 앙상블 아이디어입니다. 두 번째는 차원 순회에서는 노드가 분할될 때마다 K' 차원만 계산되고 일부 차원은 포함되지 않는다는 것입니다. 각 차원이 분할에 참여할 수 있는 기회를 동일하게 유지하려면 여러 개의 트리를 구축해야 합니다.
또 다른 문제가 있습니다. 알고리즘에는 세 가지 순회 계층이 포함되어 있으므로 모든 트리 모델에는 고유값 순회가 필요하며 추가로 도입된 차원 순회가 있습니다. MDPP 순회를 검색합니다. 이러한 3계층 순회는 효율성을 매우 낮춥니다. 따라서 고유값 순회 및 MDPP 순회에 가중치가 있는 분위수 그래프 방법을 사용하고 분위수 지점에서만 해당 결과를 계산하므로 알고리즘 복잡도를 크게 줄일 수 있습니다. 동시에 우리는 이러한 분위점을 "누적 값 범위"의 경계점으로 발견하여 계산 및 저장량을 크게 줄일 수 있습니다. q개의 분위수가 있다고 가정하면, 각 분위수 간격에서 샘플 수와 y의 평균값을 얻기 위해 q번만 계산하면 됩니다. 이러한 방식으로 양쪽 평균 간의 차이 d를 계산할 때마다 q 값을 왼쪽으로 나누어야 합니다. 오른쪽의 두 부분에 대해 각 간격의 평균값에 대한 가중합을 수행하면 됩니다. 더 이상 분위수 지점의 왼쪽과 오른쪽에 있는 모든 샘플의 평균을 다시 계산할 필요가 없습니다. 아래 실험 부분을 입력해 보겠습니다.
우리의 실험적 평가는 본질적으로 전략 평가 문제이므로 전략 평가와 관련된 지표를 도입했습니다. 첫 번째는 주요 후회(Main Regret)로, 전체 전략의 수익률과 이론적 최적 수익률 간의 격차를 측정합니다. 다른 하나는 Main Treatment Square Error로, 다차원 Treatment에서 각 Treatment 차원의 추정값과 최적값 사이의 차이를 측정하는 데 사용됩니다. 두 지표 모두 작을수록 좋습니다. 그러나 이 두 가지 평가지표를 설정함으로써 발생하는 가장 큰 문제는 최적의 값을 어떻게 결정하느냐이다.
저희 비교 방법을 소개합니다. 첫째, 인과 추론에 일반적으로 사용되는 두 가지 방법이 있는데, 하나는 완전한 통계 이론을 갖춘 DML이고, 다른 하나는 네트워크 모델 DR-Net과 VC-Net입니다. 이러한 방법은 1차원 문제만 처리할 수 있지만, 이 기사의 문제에 대해서는 다차원 문제를 처리하기 위해 몇 가지 조정을 했습니다. 즉, 먼저 각 차원의 절대값을 계산한 다음 정규화를 수행했습니다. 다음 두 논문에는 OPE와 OCMD라고 부르는 전략 최적화 방법도 있습니다. 이 두 기사에서는 자신의 방법이 다차원 문제에 적합하다고 언급하지만, 차원이 너무 많으면 이러한 방법이 효과적이지 않다는 점도 지적합니다.
모델 효과를 간단하고 직접적으로 비교하기 위해 실제 문제를 시뮬레이션하고 시뮬레이션 데이터 세트의 단순화된 버전을 생성했습니다. 특징 공간 x는 6가지 차원의 사용자 특징과 2가지 행동 특징을 나타냅니다. 다양한 특성을 가진 샘플의 경우 먼저 최적의 전략을 가정합니다. 그림에서 보는 바와 같이, 예를 들어 45세 미만, 교육수준 2 이상, 행동특성 0.5 이상의 사용자가 6개 영상 카테고리에서 최고를 기록하고 있다. 왼쪽의 공식을 사용하여 먼저 사용자에 대한 노출 전략을 무작위로 생성한 다음 노출 전략과 실제 최적 전략 간의 격차와 시뮬레이션된 사용자의 지속 시간을 계산합니다. 전략이 사용자의 최적 전략에 가까우면 사용자의 지속 시간 y가 길어집니다. 이런 방식으로 우리는 그러한 데이터 세트를 생성했습니다. 이 시뮬레이션된 데이터 세트의 장점은 최적의 값을 직접 가정하여 평가에 매우 편리하다는 것입니다. 다른 하나는 데이터가 상대적으로 단순하여 알고리즘 결과를 분석하기가 더 쉽다는 것입니다.
방금 언급한 유형의 사람들에 대해 해당 치료의 평균값을 계산하는 다양한 방법이 제공되는 시뮬레이션 데이터 세트에 대한 실험 결과를 살펴보겠습니다. 첫 번째 라인은 이론적 최적이고, 두 번째 라인은 MDPP 포리스트이고, 세 번째 라인은 MDPP 포리스트를 기반으로 하며 분할 기준에 일부 페널티 조건을 추가합니다. 우리의 방법과 이론적 최적 사이의 차이가 매우 작다는 것을 알 수 있습니다. 다른 여러 가지 방법은 특별히 극단적이지는 않지만 상대적으로 균등합니다. 또한 오른쪽의 MR 및 MTSE 수치를 보면 두 가지 방법에도 매우 분명한 장점이 있습니다.
시뮬레이션 데이터 세트 외에도 실제 비즈니스 데이터를 기반으로 반합성 데이터도 구축했습니다. 데이터는 Tencent Weishi 플랫폼에서 제공됩니다. Xi는 사용자의 20차원 특성을 나타내고, 처리 ti는 10차원 벡터를 구성하는 다차원 동영상 카테고리 노출 비율을 나타내며, yi(ti)는 i번째 사용자의 사용시간을 나타낸다. 실제 시나리오의 특징 중 하나는 사용자의 실제 최적 영상 노출 비율을 알 수 없다는 것입니다. 따라서 우리는 클러스터 중심 규칙에 따라 함수를 구성하고 실제 y를 대체할 가상 y를 생성하여 샘플의 y가 더 나은 규칙성을 갖도록 합니다. 여기서는 특정 공식에 대해 자세히 설명하지 않겠습니다. 관심 있는 학생들은 원문을 읽어보세요. 이것이 가능한 이유는 무엇입니까? 우리 알고리즘의 핵심은 x와 t 사이의 혼란스러운 효과를 해결할 수 있어야 한다는 것입니다. 즉, 온라인 사용자는 편향된 전략의 영향을 받습니다. 전략의 효과를 평가하기 위해 x와 t만 유지하고 y를 변경하여 문제를 더 잘 평가합니다.
우리의 알고리즘은 또한 시뮬레이션된 데이터 세트보다 훨씬 더 뛰어나며 장점도 훨씬 더 큽니다. 이는 데이터가 복잡할 때 MDPP 포리스트 알고리즘이 더 안정적이라는 것을 보여줍니다. 그리고 숲의 크기인 합성 데이터에 대한 하이퍼파라미터에 대해서도 살펴보겠습니다. 오른쪽 아래 그림에서 숲 크기가 증가함에 따라 두 가지 분할 기준에 따라 지표가 더 잘 수렴되는 것을 볼 수 있습니다. 250개의 나무로 최적의 효과를 얻으면 약간의 과적합이 발생합니다.
A: 제가 이해한 바는, 우리가 하는 일은 노출 비율 제약 조건을 갖춘 최적화이고 이 과정에서 우리는 상대적인 가치이기 때문입니다. 순회하는 과정에서 최적의 분할 지점을 찾고, 더 많은 노출을 얻으려면 어떤 카테고리에 우선순위를 두어야 하는지 찾아봅니다. 이 과정에서 비례적으로 크기가 조정된다는 것을 확인할 수 있다면 괜찮습니다.
저는 동일한 뷰를 갖고 있으므로 비례적으로 크기를 조정하세요. 1은 강력한 제약이므로 처음에 계산한 값은 확실히 정확히 1은 아니지만 더 낮거나 높을 것입니다. 그 이상이면 강한 제약이라는 고유한 조건을 충족시킬 수 있는 방법이 없고, 정규화된 사고 방식을 사용하는 것이 더 자연스럽습니다. 각 카테고리 간의 상대적인 크기 관계를 고려하기 때문입니다. 절대적인 가치의 문제보다는 상대적인 크기의 관계가 더 중요하다고 생각합니다.
위 내용은 미시적 인센티브 및 수요 공급 시나리오에 인과 추론 적용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!