사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래-일체 포함-php.cn

1. 사용자 초상화 소개

초상화는 사람이 이해할 수 있고, 기계가 읽고 쓸 수 있는 구조화된 사용자 설명입니다. 개인화된 서비스를 제공할 뿐만 아니라, 기업의 전략적 의사결정과 비즈니스 분석에 중요한 역할을 합니다.

1. 인물사진 분류

데이터 출처에 따라 사회적 일반 지식 카테고리와 도메인 지식 카테고리로 구분됩니다. 일반 사회초상화는 시간 차원에 따라 정적 범주와 동적 범주로 나눌 수 있는데, 가장 일반적인 정적 일반 사회초상화에는 성별, 호적, 졸업학교 등과 같은 인구통계학적 특성이 포함됩니다. 이러한 내용은 비교적 오랜 기간에 걸쳐 표시됩니다. 시간은 상대적으로 정적입니다. 사진에 사용하는 것 외에도 인구통계학, 인구통계학, 사회학 등에서도 자주 사용됩니다. 인생 단계 초상화라고도 알려진 역동적인 사회 일반 초상화가 더 중요합니다. 예를 들어 전자 상거래에서는 사람들의 소득이 경력 개발에 따라 계속 변하고 쇼핑 경향도 변할 것이므로 이러한 인생 단계 초상화는 매우 실용적입니다. 값.

위의 일반 초상화 외에도 회사는 더 많은 도메인 지식 초상화를 구축할 수 있습니다. 도메인 지식 초상화는 시간 차원에서 반정적 지식과 동적 지식으로 나눌 수 있으며, 더 나아가 장기, 순환, 단기, 미래 속성 초상화로 세분화할 수 있습니다. 이러한 시간 차원의 초상은 행동 모델, 관심 모델, 의도 모델을 포함하는 개념적 장과 얽혀 있습니다.

행동 모델은 주로 사용자가 매일 아침 출퇴근 중에 무엇을 하는지, 저녁에 퇴근 후 무엇을 하는지, 주중에 무엇을 하는지, 주말에 무엇을 하는지 등 사용자의 순환적 행동을 추적합니다. 다른 주기적 행동. 관심 모델은 도메인 지식 내에서 특정 공동 모델링 및 태그 정렬을 수행합니다. 예를 들어, 사용자는 APP와 같은 플랫폼 제품과 상호 작용한 후 일부 작업 로그를 얻을 수 있으며 일부 구조화되고 레이블이 지정된 데이터를 추출할 수 있습니다. 카테고리로 나누어 특정 가중치를 부여한 다음 최종적으로 정렬하여 특정 관심 프로필을 형성할 수 있습니다. 의도 모델은 미래 시제에 가깝고 사용자의 미래 의도를 예측한다는 점에 유의해야 합니다. 하지만 새로운 사용자가 상호작용하기 전에 그들의 의도를 어떻게 예측할 수 있을까요? 이 문제는 실시간 및 미래 인물 사진에 더 편향되어 있으며 인물 데이터의 전체 인프라 구조에 대한 요구 사항도 더 높습니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

2. 사용자 인물 사진의 기본 적용 아키텍처

이미지의 개념과 일반적인 분류를 이해한 후, 사용자 인물 사진의 기본 적용 프레임워크를 간략하게 소개하겠습니다. 전체 프레임워크는 네 가지 수준으로 나눌 수 있습니다. 첫 번째는 데이터 수집, 두 번째는 데이터 전처리, 세 번째는 이러한 처리된 데이터를 기반으로 한 인물 사진의 구성 및 업데이트이며 마지막으로 사용 프로토콜이 정의됩니다. 다운스트림 사용자가 다양한 애플리케이션에서 이미지를 보다 편리하고 빠르고 효율적으로 사용할 수 있도록 하는 애플리케이션 계층입니다.

우리는 이 프레임워크에서 사용자 프로파일링 애플리케이션과 사용자 프로파일링 알고리즘이 매우 광범위하고 복잡한 의미를 이해해야 한다는 것을 알 수 있습니다. 고품질의 데이터를 얻고 보다 자신감 있는 인물 사진을 구축하려면 다양한 전처리 방법이 필요합니다. 여기에는 데이터 마이닝, 기계 학습, 지식 그래프 및 통계 학습과 같은 다양한 측면이 포함됩니다. 사용자 초상화와 기존 검색 추천 알고리즘의 차이점은 도메인 전문가와 긴밀히 협력하여 반복 및 주기를 통해 지속적으로 고품질 초상화를 구축해야 한다는 것입니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

2. 온톨로지에 기반한 전통적인 사용자 초상화

사용자 초상화는 사용자 행동 데이터와 정보에 대한 심층적인 분석을 통해 확립된 개념입니다. 사용자의 관심사, 선호도, 행동 패턴을 이해함으로써 사용자에게 개인화된 서비스와 경험을 더 잘 제공할 수 있습니다.

초창기 사용자 초상화는 온톨로지 개념에서 유래한 지식 그래프에 주로 의존했습니다. 반면에 존재론은 철학의 범주에 속합니다. 우선, 온톨로지의 정의는 초상화의 정의와 매우 유사합니다. 인간이 이해할 수 있고 기계가 읽고 쓸 수 있는 개념 체계입니다. 물론 이 개념 체계 자체는 개체, 속성, 관계, 공리 등으로 구성되어 있어 그 복잡성이 매우 높을 수 있습니다. 온톨로지를 기반으로 한 사용자 초상화의 장점은 사용자와 콘텐츠를 분류하기 쉽고, 인간이 직관적으로 이해할 수 있는 데이터 보고서를 생성한 후 보고서의 관련 결론을 기반으로 의사결정을 내리는 것이 편리하다는 것입니다. 딥러닝이 아닌 시대에 이것이 기술적인 형태로 선택된 이유.

다음으로 온톨로지의 몇 가지 기본 개념을 소개하겠습니다. 온톨로지를 구축하려면 먼저 도메인 지식, 즉 엔터티, 속성, 관계 및 공리를 구성하고 이를 RDF 및 OWL과 같은 기계가 읽을 수 있는 형식으로 처리해야 합니다. 물론, 더 간단한 데이터 형식을 사용할 수도 있고, 심지어 온톨로지를 데이터를 저장하고, 읽고, 쓰고, 분석할 수 있는 관계형 데이터베이스나 그래프 데이터베이스로 변질시킬 수도 있습니다. 이러한 종류의 초상화를 얻는 방법은 일반적으로 해당 분야 전문가를 통해 구축하거나 기존 업계 표준을 기반으로 강화하고 개선하는 것입니다. 예를 들어, 타오바오가 채택한 제품 라벨링 시스템은 실제로 다양한 제조 상품 산업에 대한 국가의 공공 표준을 활용하고 이를 기반으로 강화되고 반복됩니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

아래 그림은 3개의 노드를 포함하는 매우 간단한 온톨로지 예시입니다. 그림의 엔터티는 엔터테인먼트 분야의 관심 태그입니다. 예를 들어 Netflix와 같은 플랫폼에는 각각 많은 영화가 있습니다. 영화에는 고유한 ID가 있으며 각 영화에는 제목, 주연 역할 등 고유한 속성이 있습니다. 이 개체도 범죄 시리즈에 속하며 범죄 시리즈는 액션 영화의 하위 카테고리에 속합니다. 이 시각적 다이어그램을 기반으로 아래 그림의 오른쪽에 RDF 텍스트 문서를 작성합니다. 이 문서에는 우리가 직관적으로 이해할 수 있는 엔터티 속성 관계 외에도 "가 갖는 제약"과 같은 몇 가지 원칙도 정의되어 있습니다. 영화의 기본 개념 영역에 대해 영화 감독을 엔터티로 사용하여 온톨로지로 구축하는 등 다른 개념 영역이 있는 경우 영화 감독은 "제목 있음" 속성을 가질 수 없습니다. . 이상은 온톨로지에 대한 간략한 소개이다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

온톨로지를 기반으로 사용자 초상화를 만드는 초기에는 구성된 구조화된 태그의 가중치를 계산하기 위해 TF-IDF와 유사한 방법이 사용되었습니다. TF-IDF는 과거에는 검색 필드나 텍스트 주제 필드에서 주로 사용되었는데, 이는 주로 특정 검색어나 주제 단어의 가중치를 계산하는 방식이었습니다. 사용자 인물 사진에 적용할 경우, 이전 예에서 TF는 이 태그 카테고리에서 사용자가 시청한 영화 또는 단편 비디오의 수를 계산하는 것입니다. IDF는 먼저 각 태그 카테고리에서 사용자가 시청한 영화 또는 단편 비디오의 수를 계산합니다. 모든 기록 보기를 확인한 다음 그림의 IDF 및 TF *IDF 공식에 따라 계산합니다. TF-IDF의 계산 방법은 매우 간단하고 안정적이며 해석이 가능하고 사용하기도 쉽습니다.

그러나 단점도 분명합니다. TF-IDF는 태그 세분화에 매우 민감하지만 온톨로지 구조 자체에는 둔감합니다. 인기가 없는 관심사를 과도하게 강조하고 사용자와 같은 사소한 솔루션으로 이어질 수 있습니다. 특정 태그 아래의 비디오에서는 TF가 매우 작고 IDF가 매우 커질 수 있으며 대중적인 관심에 가까운 값이 될 수 있습니다. 더 중요한 것은 시간이 지남에 따라 사용자 초상화를 업데이트하고 조정해야 하며 기존 TF-IDF 방법은 이러한 상황에 적합하지 않다는 것입니다. 따라서 연구자들은 동적 업데이트의 요구를 충족시키기 위해 온톨로지의 구조화된 표현을 기반으로 가중치가 부여된 사용자 초상화를 직접 구성하는 새로운 방법을 제안했습니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

이 알고리즘은 온톨로지의 리프 카테고리에서 시작하여 해당 태그 아래 사용자의 미디어 소비 행동을 사용하여 가중치를 0으로 초기화한 후 사용자의 행동에 의해 정의된 f_behavior 함수에 따라 업데이트됩니다. . f_behavior 기능은 전자상거래 분야의 클릭, 추가 구매 및 주문, 비디오 분야의 재생 및 완료 등 다양한 사용자 소비 수준에 따라 다양한 암시적 피드백 신호를 제공합니다. 동시에 우리는 다양한 사용자 행동에 대해 다양한 강도의 피드백 신호를 제공할 것입니다. 예를 들어 전자상거래 소비 행동에서 주문 > 구매 > 비디오 소비 클릭, 더 높은 재생 완료율, 더 높은 재생 기간 등입니다. 더 강한 f_behavior 값도 설정됩니다.

리프 클래스 대상 서명 가중치를 업데이트한 후에는 상위 클래스 가중치를 업데이트해야 합니다. 상위 클래스를 업데이트할 때 1보다 작은 붕괴 계수를 정의해야 한다는 점에 유의하세요. 왜냐하면, 그림에서 볼 수 있듯이, 사용자들은 '전쟁'에서 '제2차 세계대전'이라는 하위 카테고리에 관심을 가질 수도 있지만, 다른 전쟁 주제에는 관심을 갖지 않을 수도 있기 때문입니다. 이 감쇠 계수는 하이퍼파라미터로 사용자 정의될 수 있습니다. 이 정의는 하위 범주 레이블 수의 역수를 감쇠 계수로 사용할 수도 있으므로 각 하위 범주의 관심 항목이 동일하다는 점을 강조합니다. 예를 들어, 일부 대규모 상위 카테고리 노드에는 광범위하고 밀접하게 관련되지 않은 하위 카테고리 테마가 포함되어 있습니다. 일반적으로 이러한 작품의 수는 매우 많습니다. 감쇠 속도는 더 빠르게 설정될 수 있으며, 더 작은 하위 카테고리 레이블은 틈새 시장에 관심이 있을 수 있으며 하위 카테고리 항목 간의 관계는 상대적으로 가깝고 감쇠 속도는 많지 않습니다. 적절하게 작게 설정할 수 있습니다. 즉, 온톨로지에서 정의된 이러한 도메인 지식 속성을 기반으로 감쇠 계수를 설정할 수 있습니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

위 방법은 구조화된 태그의 업데이트 효과를 얻을 수 있으며 기본적으로 TF-IDF 효과와 같거나 심지어 능가할 수 있습니다. 그러나 시간 척도 속성, 즉 시간을 구축하는 방법이 부족합니다. 더 민감한 인물 사진입니다.

처음에는 가중치 자체의 업데이트를 추가로 조정할 수 있다고 생각했습니다. 장기 및 단기 사용자 초상화를 구분해야 하는 경우 가중치에 슬라이딩 창을 추가하고 시간 감소 계수 a(0-1 사이)를 정의할 수 있습니다. 슬라이딩 창의 기능은 사용자에게만 집중하는 것입니다. 그 이유는 사용자의 장기적인 관심도 생활 단계의 변화에 따라 천천히 변하기 때문입니다. 예를 들어, 사용자는 특정 유형을 좋아할 수 있습니다. 1~2년 동안 영화를 보더니 더 이상 좋아하지 않습니다.

또한 이 공식은 운동량을 사용한 Adam 그래디언트 업데이트 방법과 유사하다는 것을 알 수 있습니다. 가중치 업데이트가 어느 정도 역사나 현재에 더 집중되도록 a의 크기를 조정합니다. 구체적으로, a가 작을수록 현재에 더 집중하게 되고, 그러면 역사적 축적이 더 크게 감쇠됩니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

위의 방법론은 사용자가 받은 정보에 국한되지만 일반적으로 사용자 콜드 스타트 또는 사용자가 노출되지 않았을 때 태그 손실 상황이 많이 발생합니다. 이 콘텐츠는 사용자가 좋아하지 않는다는 의미는 아닙니다. 이러한 경우에는 이자완성 및 이자추론이 필요합니다.

가장 기본적인 방법은 추천 시스템에서 협업 필터링을 사용하여 초상화를 완성하는 것입니다. 가로 축은 사용자이고 세로 축은 이 매우 큰 매트릭스의 요소입니다. 이 라벨에 대한 사용자의 반응입니다. 이러한 요소는 0 또는 1이거나 관심 가중치일 수 있습니다. 물론 이 행렬을 인구통계학적 초상화에 맞게 변형할 수도 있습니다. 예를 들어 학생인지, 직업인지, 어떤 직업인지 등을 라벨로 표현할 수도 있습니다. 이 행렬을 구성하기 위한 코딩 방법도 있습니다. 또한 행렬 분해를 적용하여 누락된 고유값을 완성할 수도 있습니다. 이때 최적화 목표는 아래 그림과 같습니다.

이 수식에서 볼 수 있듯이 원래 행렬은 M이고 완성 행렬은 낮은 순위 행렬입니다. 왜냐하면 다수의 사용자의 관심사가 유사하다고 가정하기 때문입니다. 유사한 사용자의 경우 레이블 행렬은 낮은 순위여야 합니다. 마지막으로 음수가 아닌 행렬 분해 목표를 달성하기 위해 이 행렬에 대해 정규화가 수행됩니다. 이 방법은 실제로 우리에게 가장 친숙한 확률적 경사하강법을 사용하여 풀 수 있습니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

물론, 행렬 분해를 통해 누락된 속성이나 관심 사항을 추론하는 것 외에도 전통적인 기계 학습 방법도 사용할 수 있습니다. 이때 유사한 사용자는 유사한 관심사를 가질 것이라고 가정합니다. 이때 KNN 분류 또는 회귀를 사용하여 관심도를 추론할 수 있습니다. 구체적인 방법은 사용자의 가장 가까운 이웃 관계 맵을 구축한 다음 가장 큰 태그를 추가하는 것입니다. 사용자의 가장 가까운 이웃 k개 중 이웃의 수. 사용자의 누락된 속성에 가중 평균이 할당됩니다. 이웃 관계 그래프는 직접 구축할 수도 있고, 소셜 네트워크의 사용자 초상화나 기업 지도인 B면의 비즈니스 초상화와 같이 미리 만들어진 이웃 그래프 구조일 수도 있습니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

위는 온톨로지의 전통 초상화 구성에 대한 소개입니다. 전통적인 초상화 구성 알고리즘의 가치는 매우 간단하고 직접적이며 이해하기 쉽고 구현하기 쉽다는 것입니다. 동시에 그 효과도 좋기 때문에 특히 고차 알고리즘으로 완전히 대체되지는 않습니다. 초상화를 디버깅해야 할 때 기존 알고리즘 클래스가 더 편리합니다.

3. 프로파일링 알고리즘 & 딥러닝

1. 프로파일링 알고리즘에 대한 딥러닝 알고리즘의 가치

딥러닝 시대에 돌입한 후에는 모두가 더 발전하기를 바랍니다. 딥러닝 알고리즘을 결합하여 프로파일링 알고리즘의 효과. 프로파일링 알고리즘에 대한 딥 러닝의 가치는 무엇입니까?

우선 더 강력한 사용자 표현 기능이 있어야 합니다. 딥러닝과 머신러닝 분야에는 표현 학습, 즉 메트릭 학습이라는 특별한 범주가 있습니다. 사용자 표현. 두 번째는 더 간단한 모델링 프로세스입니다. 딥러닝의 엔드 투 엔드 접근 방식을 사용하여 모델링 프로세스를 단순화할 수 있습니다. 많은 경우에는 기능을 구성하고 일부 기능 엔지니어링을 수행한 다음 신경망을 다음과 같이 처리하면 됩니다. 블랙박스 기능이 입력되고 라벨 또는 기타 감독 정보가 세부 사항에 주의를 기울이지 않고 출력에서 정의됩니다.

다시 한번 딥러닝의 강력한 표현 능력을 바탕으로 많은 작업에서 더 높은 정확도를 달성했습니다. 그러면 딥러닝을 통해 다중 모드 데이터를 균일하게 모델링할 수도 있습니다. 전통적인 알고리즘 시대에는 데이터 전처리에 많은 에너지를 소비해야 합니다. 예를 들어 위에서 언급한 비디오 유형 태그를 추출하려면 먼저 비디오를 잘라낸 다음 주제를 추출하고 식별하는 매우 복잡한 전처리가 필요합니다. 그 안에 얼굴을 하나씩 추가하고 마지막으로 초상화를 만듭니다. 딥러닝을 이용하면 통일된 사용자나 아이템 표현을 원할 때 멀티모달 데이터를 엔드투엔드(end-to-end)로 직접 처리할 수 있습니다.

마지막으로 반복 중에 비용을 최대한 절감할 수 있기를 바랍니다. 이전 글에서 언급했듯이 프로파일링 알고리즘의 반복과 검색 프로모션 등 다른 유형의 알고리즘의 반복의 차이점은 수동 참여가 많이 필요하다는 것입니다. 때로 가장 신뢰할 수 있는 데이터는 사람이 주석을 달거나 설문지 등을 통해 수집한 데이터일 때가 있습니다. 이런 데이터를 얻는 데 드는 비용이 꽤 높으니 어떻게 하면 더 적은 비용으로 더 많은 주석 가치를 지닌 데이터를 얻을 수 있을까요? 이 문제 역시 딥러닝 시대에 더 많은 아이디어와 해결책을 갖고 있습니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

2. 딥러닝 기반 구조화된 라벨 예측

C-HMCNN은 화려한 네트워크 구조가 아닌 정의에 적합한 알고리즘 프레임워크입니다. 라벨의 경우, 특히 구조화된 라벨 분류 또는 예측의 경우.

핵심은 계층 구조의 태그를 평면화한 후 예측하는 것입니다. 아래 그림의 오른쪽과 같이 네트워크는 구조의 수준과 깊이를 고려하지 않고 3개의 ABC 태그에 대한 예측 확률을 직접 제공합니다. 손실 공식 설계는 구조화된 태그를 최대한 위반하는 결과를 처벌할 수도 있습니다. 공식은 먼저 리프 범주 B와 C에 대해 고전적인 교차 엔트로피 손실을 사용하고 상위 범주 _{, y에 대해 max(y}B_pB)를 사용합니다. _Cp_C)을 사용하여 구조적 정보를 제한하고 1-max(p_B, p_C)를 사용하여 하위 범주가 참이라고 예측되는 경우에만 상위 범주 A를 예측합니다. 상위 클래스 대상 레이블이 false인 경우 하위 클래스 범주의 예측은 가능한 한 0에 가까워지도록 강제되어 구조화된 레이블에 대한 제약 조건을 달성합니다. 이 모델링의 장점은 손실 계산이 매우 간단하며 모든 레이블을 동일하게 예측하고 레이블 트리의 깊이 정보를 거의 무시할 수 있다는 것입니다.

마지막으로 언급할 점은 이 방법에서는 각 라벨이 0 또는 1이어야 한다는 것입니다. 예를 들어 P_B는 사용자의 좋아요 또는 싫어요만을 나타낼 뿐이며 다중 카테고리로 설정할 수 없습니다. 다중 카테고리는 더 많아질 것입니다. 설정하기 어렵기 때문에 이 모델을 모델링할 때 모든 레이블을 평탄화한 다음 0과 1을 예측하는 것과 같습니다. 평탄화로 인해 발생할 수 있는 문제 중 하나는 레이블 트리 구조의 상위 레이블에 하위 레이블이 많을 때 매우 큰 규모의 다중 레이블 분류 문제에 직면하게 된다는 것입니다. 이를 처리하는 일반적인 방법은 다음과 같습니다. 어떤 수단을 사용하여 미리 필터링하면 사용자가 관심 태그를 인식하지 못할 수도 있습니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

3. 표현 학습을 기반으로 한 유사

사용자 인물 사진의 응용에서는 유사 개념이 자주 사용됩니다. 세로 다운스트림 애플리케이션에서는 유사를 사용하여 광고를 위한 잠재적인 사용자 그룹을 타겟팅할 수도 있습니다. 또한 유사는 시드 사용자를 기반으로 타겟 속성이 누락된 일부 사용자를 찾은 다음 이러한 사용자의 해당 누락 속성을 대체하거나 표현할 수 있습니다. 시드 사용자와 함께.

Lookalike의 애플리케이션에는 가장 강력한 표현 학습기가 필요합니다. 아래 그림과 같이 가장 일반적으로 사용되는 표현 모델링 방법에는 세 가지가 있습니다.

첫 번째는 다중 분류 방법입니다. 여러 분류 레이블 세로 데이터가 있는 경우 예측하려는 특정 유형의 레이블에 대한 감독 신호를 사용하여 더 많은 타겟 표현을 학습할 수 있습니다. 타겟 라벨 누락 예측에 유용합니다.

두 번째는 AE(자동 인코더) 패러다임입니다. 모델 구조는 감독 정보에 주의할 필요가 없으며 먼저 인코딩 모드를 찾으면 됩니다. 정보를 압축하고 표현을 얻는 이 패러다임은 감독 데이터가 충분하지 않을 때 더 안정적입니다.

세 번째는 그래프 패러다임입니다. 현재 GNN, GCN 등의 그래프 네트워크는 인물 사진을 포함하여 점점 더 많은 분야에서 사용되고 있으며, GNN은 최대 우도법을 기반으로 비지도 학습하거나 감독할 수 있습니다. 라벨 정보를 사용하여 훈련하고 다중 분류 패러다임보다 뛰어난 성능을 발휘합니다. 그래프 구조는 레이블 정보를 표현하는 것 외에도 더 많은 그래프 구조 정보를 포함할 수 있기 때문입니다. 표시된 그래프 구조가 없는 경우 그래프를 구성하는 방법은 여러 가지가 있습니다. 예를 들어 전자상거래 분야에서 잘 알려진 추천 알고리즘인 Swing i2i는 사용자의 공동 구매 또는 공동 시청 기록을 기반으로 이분 그래프를 구성합니다. 이러한 그래프 구조는 또한 더 나은 사용자 표현을 학습하는 데 도움이 될 수 있습니다. 풍부한 표현이 있으면 일부 시드 사용자를 선택하여 가장 가까운 이웃 검색을 사용하여 원을 확장한 다음 확장된 사용자를 사용하여 누락된 태그 또는 대상을 추론할 수 있습니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

소규모 애플리케이션에서는 최근접이웃 검색을 수행하는 것이 매우 쉽지만, 수억 명의 월간 활성 사용자가 있는 대규모 플랫폼과 같은 매우 대규모 데이터에서는 KNN을 수행하는 것이 문제입니다. 이러한 사용자에 대한 검색은 시간이 많이 소요되므로 현재 가장 일반적으로 사용되는 방법은 효율성을 위해 정확도를 교환하는 것이 특징인 근사 최근접 검색 방법이지만 검색 시간은 단축됩니다. 원래 폭력적인 검색의 1/1000, 1/1, 또는 심지어 1/100000.

현재 근사 최근접 검색의 효과적인 방법은 그래프 인덱스 기반의 벡터 검색 알고리즘이며, 이러한 방법은 일부 대형 모델에서 가장 인기 있는 개념인 대형 모델 시대에 정점에 이르렀습니다. --RAG(Retrieval Enhancement Generation) 텍스트 검색을 위해 검색 향상에서 채택한 핵심 방법은 벡터 검색입니다. 가장 널리 사용되는 방법은 HNSW, NSG 및 SSG입니다. 후자의 두 가지 원본 오픈 소스 코드와 구현 링크도 아래 그림에 배치되어 있습니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

4. 능동적 학습을 기반으로 한 인물 사진 반복

인물 사진 반복 과정에서 여전히 커버할 수 없는 사각지대가 있습니다. 매우 좋습니다. 결국 많은 방법이 여전히 수동 수집 방법으로 대체됩니다. 그러나 활동이 적은 사용자가 너무 많기 때문에 라벨링을 위해 더 가치 있고 대표적인 사용자만 선택할 수 있다면 더 가치 있는 데이터를 수집할 수 있습니다. 따라서 우리는 불확실한 학습에 대한 저비용 초상화 반복을 구현합니다. .

먼저, 기존의 주석이 달린 데이터를 기반으로 불확실성 예측이 포함된 분류 모델을 학습합니다. 사용된 방법은 확률 학습 분야의 고전적인 방법인 베이지안 네트워크입니다. 베이지안 네트워크의 특징은 예측 시 확률을 제공할 수 있을 뿐만 아니라 예측 결과의 불확실성도 예측할 수 있다는 것입니다.

베이지안 네트워크는 아래 그림의 오른쪽에 표시된 것처럼 구현하기가 매우 쉽습니다. 원래 네트워크 구조에 몇 가지 특수 레이어를 추가하면 됩니다. 피드포워드 네트워크. 베이지안 네트워크는 각각 정확히 동일한 네트워크 매개변수를 갖는 여러 하위 네트워크를 포함합니다. 그러나 드롭아웃 계층의 특성으로 인해 무작위로 삭제될 때 각 네트워크 매개변수가 무작위로 삭제될 확률은 다릅니다. 추론을 위해 훈련되었습니다. 드롭아웃을 사용할 때도 드롭아웃이 유지되는데, 이는 다른 필드에서 드롭아웃이 사용되는 방식과 다릅니다. 다른 분야에서는 훈련 중에만 드롭아웃이 수행되고, 추론 중에 모든 매개변수가 적용되어 최종적으로 로짓과 확률 값이 계산되어야만 드롭아웃으로 인한 예측값의 스케일 배가가 복원됩니다.

베이지안 네트워크의 차이점은 피드포워드 추론 중에 모든 드롭아웃 무작위성이 유지되어야 하므로 각 네트워크가 이 레이블에 대해 서로 다른 확률을 제공한 다음 이 확률 집합을 계산한다는 것입니다. 평균은 실제로 다음의 결과입니다. vote와 예측하려는 확률 값을 동시에 사용하여 예측의 불확실성을 표현하기 위해 이 확률 값 집합에 대해 분산 계산을 수행합니다. 샘플이 서로 다른 드롭아웃 매개변수 표현식을 거치면 최종적으로 얻어지는 확률 값이 달라집니다. 확률 값의 분산이 클수록 학습 과정에서 확률 확실성은 작아집니다. 마지막으로 불확실성이 높은 라벨 예측 샘플을 수동으로 라벨링할 수 있으며, 확실성이 높은 라벨의 경우 기계 라벨링 결과를 직접 채택할 수 있습니다. 그런 다음 계속해서 능동 학습 프레임워크의 첫 번째 단계로 돌아가서 순환합니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

5. 대형 모델 세계 지식을 기반으로 한 인물 주석/예측

대형 모델 시대에는 인물 주석을 위해 대형 모델에 대한 세계 지식도 도입될 수 있습니다. 다음 그림은 두 가지 간단한 예를 보여줍니다. 왼쪽에는 사용자 초상화에 주석을 달기 위해 대형 모델이 사용되며 사용자의 시청 기록이 특정 순서로 구성되어 프롬프트를 형성할 수 있음을 알 수 있습니다. 사용자가 어떤 장르, 감독, 배우 등을 좋아할지 분석합니다. 오른쪽에는 제품의 이름을 분석하고 대형 모델에 제품 이름을 제공하여 해당 제품이 어떤 카테고리에 속하는지 추측하는 대형 모델이 있습니다.

이 시점에서 우리는 큰 문제는 대형 모델의 출력이 구조화되지 않고 상대적으로 원시적인 텍스트 표현이며 일부 후처리가 필요하다는 점을 발견했습니다. 예를 들어 대규모 모델의 출력에 대해 개체 인식, 관계 인식, 규칙 마이닝, 개체 정렬 등을 수행해야 하며, 이러한 후처리는 지식 그래프 또는 온톨로지 범주의 기본 응용 규칙에 속합니다.

이미지 주석을 위해 대형 모델에 대한 세계적 지식을 활용하면 왜 더 나은 결과를 얻을 수 있고 심지어 노동력의 일부를 대체할 수도 있나요? 대규모 모델은 광범위한 개방형 네트워크 지식에 대해 학습되는 반면 추천 시스템, 검색 엔진 등은 자체 폐쇄형 플랫폼에 있는 사용자와 제품 라이브러리 간의 일부 과거 상호 작용 데이터만 보유하기 때문에 이러한 데이터는 실제로 시스템 로그입니다. , 많은 부분이 상호 연관되어 있어 기존 플랫폼에서는 닫힌 지식을 통해 해석하기 어렵지만, 대형 모델의 세계 지식은 닫힌 시스템에서 누락된 지식을 채워줌으로써 더 나은 그림을 그리는 데 도움이 될 수 있습니다. 초상화 라벨링 또는 예측. 대형 모델은 세계 자체의 개념 체계를 고품질로 추상적으로 표현한 것으로 이해될 수도 있습니다. 이러한 개념 체계는 초상화와 라벨링 시스템에 매우 적합합니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

4. 요약 및 전망

마지막으로 현재 사용자 인물 사진의 한계점과 향후 개발 방향을 간략하게 요약해 보겠습니다.

첫 번째 질문은 기존 이미지의 정확성을 더욱 향상시키는 방법입니다. 정확도 향상을 저해하는 요소는 다음과 같습니다. 첫 번째는 가상 ID에서 자연인으로의 통합입니다. 실제로 사용자는 동일한 계정에 로그인할 수 있는 장치가 여러 개 있으며, 포트도 여러 개 있고 채널도 여러 개 있을 수 있습니다. 예를 들어 사용자가 다른 앱에 로그인했지만 이러한 앱은 동일한 그룹에 속해 있습니다. 그룹 내의 자연인을 연결하고 모든 가상 ID를 동일한 사람에게 매핑한 다음 식별할 수 있습니까?

두 번째는 가족 공유 계정의 주체 식별 문제입니다. 이런 문제는 영상 분야, 특히 장편 영상 분야에서 흔히 발생하는데, 예를 들어 사용자가 분명히 40세 정도의 성인인데, 사실 추천 내용은 모두 만화인 경우가 있습니다. 가족은 계정을 공유합니다. 이러한 상황에 대응하여 우리는 현재 시간과 행동 패턴을 파악하여 인물 사진을 신속하고 실시간으로 업데이트하고 현재 대상이 누구인지 파악하여 타겟 맞춤 서비스를 제공할 수 있는 몇 가지 수단을 사용할 수 있습니까?

세 번째는 다중 시나리오 연계의 실시간 의도 예측입니다. 플랫폼이 특정 단계까지 발전한 후에도 검색 및 프로모션 이미지가 여전히 상대적으로 단편화되어 있음을 발견했습니다. 예를 들어 사용자가 방금 추천 장면에 들어와 이제 더 나은 검색을 제공할 수 있는 경우가 있습니다. 방금 추천 장면의 실시간 의도에 따라 추천 단어를 검색했거나 방금 검색한 내용을 토대로 사용자가 보고 싶어할 만한 다른 카테고리를 확산하고 예측할 수 있나요? 의도 예측을 수행합니다.

닫힌 온톨로지에서 열린 온톨로지로의 전환은 이미징 분야에서도 시급히 해결해야 할 문제입니다. 오래 전에는 온톨로지를 정의하기 위해 상대적으로 견고한 산업 표준이 사용되었지만 이제는 많은 시스템의 온톨로지가 짧은 비디오 플랫폼과 같은 점진적인 업데이트에 완전히 개방되어 있으며 짧은 비디오 자체의 다양한 태그가 계속됩니다. 시간이 지날수록 계속해서 등장하는 핫한 말과 핫태그가 많다. 개방형 온톨로지에서 이미지의 적시성을 향상시키고, 노이즈를 제거한 다음, 더 많은 것을 탐색하고 몇 가지 방법을 사용하여 이미지의 정확성을 향상시키는 방법도 연구할 가치가 있는 질문입니다.

마지막으로 딥러닝 시대에 프로파일링 알고리즘, 특히 딥러닝을 적용한 프로파일링 알고리즘의 해석성을 향상시키는 방법과 프로파일링 알고리즘에서 대형 모델을 더 잘 구현하는 방법은 향후 연구 방향이 될 것입니다.

사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래

위는 이번에 공유한 내용입니다. 모두들 감사합니다!

5. Q&A

Q1: 인물사진 처리와 실제 적용 사이의 연결고리는 매우 길며 실제 비즈니스에서 AB 테스트를 사용하는 경우 수용 효과에 문제가 많을 수 있습니다. 인물 사진 AB 테스트에 관해 공유할 만한 경험이 있나요?

A1: 인물 사진 신청 링크가 상대적으로 길어요. 초상화가 주로 알고리즘을 제공하는 경우 초상화의 정확도에서 다운스트림 모델까지의 정확도 손실에 실제로 차이가 있습니다. 사실 저는 세로형 AB 테스트를 특별히 추천하지는 않습니다. 더 나은 적용 방법은 운영 직원에게 가서 사용자 선택 및 광고 고정 투자 및 쿠폰과 같은 더 운영적인 응용 시나리오에 사용하는 것입니다. 대규모 판매 목표 전달과 같은 시나리오에서 AB 테스트를 수행합니다. 그 효과는 인물 사진을 직접적으로 기반으로 하기 때문에 상대적으로 짧은 링크를 통해 이러한 종류의 애플리케이션 측 협업 온라인 AB 테스트를 고려할 수 있습니다. 또한 AB 테스트 외에도 최적화 전후의 이미지를 기반으로 사용자에게 정렬 결과를 추천하고 사용자가 어느 것이 적합한지 평가할 수 있도록 하는 교차 검증이라는 또 다른 테스트 방법도 고려할 것을 제안할 수 있습니다. 더 나은. 예를 들어 일부 대형 모델 제조업체에서는 모델이 두 가지 결과를 출력하도록 한 다음 사용자가 어떤 대형 모델이 더 나은 텍스트를 생성하는지 결정할 수 있다는 것을 알 수 있습니다. 사실 이렇게 교차 확인하는 것이 더 효과적일 수 있다고 생각하는데, 이는 초상화 자체와도 직접적인 관련이 있습니다.

Q2: 베이지안 네트워크 테스트 세트에 드롭아웃이 있나요?

A2: 테스트 세트에 드롭아웃이 있다는 의미는 아니지만, 추론을 테스트할 때 무작위 추론을 위해 네트워크에서 드롭아웃의 무작위 특성을 계속 유지한다는 의미입니다.

Q3: 개인 정보 보호 및 보안 문제를 고려하여 고객 데이터를 내보낼 수 없는 경우 대규모 모델의 결과를 사용하는 방법.

A3: 솔직히 말해서 현재 업계에는 그다지 좋은 솔루션이 없습니다. 그러나 두 가지 방법이 있을 수 있습니다. 하나는 지역화된 대형 모델의 추론 배포를 수행하기 위해 상호 신뢰하는 제3자를 고려하는 것입니다. 또 다른이자 최근의 새로운 개념은 연합 학습이 아닌 연합 네트워크라고 합니다. 연합 네트워크에 포함된 몇 가지 가능성을 살펴볼 수 있습니다.

Q4: 라벨링 외에도 대형 모델과 결합 시 언급할 수 있는 다른 조합이 있나요?

A4: 주석 외에도 사용자의 분석과 추론도 있습니다. 기존 인물 사진을 기반으로 사용자의 다음 의도를 추론할 수도 있고, 대량의 사용자 데이터를 수집하고 대규모 모델을 사용하여 제약이 있는 일부 지역 또는 기타 사용자 패턴을 분석할 수도 있습니다. 실제로 이에 대한 몇 가지 오픈 소스 데모가 있으며 이 방향을 탐색할 수 있습니다.

위 내용은 사용자 프로파일링 알고리즘: 역사, 현재 상황 및 미래의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!