DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC-일체 포함-php.cn

DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC

王林

풀어 주다： 2023-04-11 21:31:04

앞으로

1132명이 탐색했습니다.

DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC

문서 링크: https://arxiv.org/pdf/2105.10375.pdf

응용 프로그램 및 코드:

Background

이미지 분류는 현재 가장 성공적인 AI입니다. 실용적인 응용 기술 중 하나가 사람들의 일상 생활에 통합되었습니다. 이미지 분류, 이미지 검색, OCR, 콘텐츠 검토, 인식 인증 및 기타 분야와 같은 대부분의 컴퓨터 비전 작업에 널리 사용됩니다. 일반적인 합의는 다음과 같습니다. "데이터 세트가 더 크고 ID가 더 많으면 적절하게 훈련되면 해당 분류 작업의 효과가 더 좋아질 것입니다." 그러나 수천만 개, 심지어 수억 개의 ID에 직면했을 때 현재 널리 사용되는 DL 프레임워크로는 이러한 초대형 분류 훈련을 저렴한 비용으로 직접 수행하기가 어렵습니다.

이 문제를 해결하는 가장 직관적인 방법은 클러스터링을 통해 더 많은 그래픽 카드 리소스를 소비하는 것이지만, 그럼에도 불구하고 대규모 ID 하의 분류 문제는 여전히 다음과 같은 문제를 갖게 됩니다.

1) 비용 문제 : 분산 훈련 프레임워크 + 대용량 데이터의 경우 메모리 오버헤드, 다중 시스템 통신, 데이터 저장 및 로딩이 더 많은 리소스를 소비하게 됩니다.

2) 롱테일 문제: 실제 시나리오에서 데이터 세트가 수억 개의 ID에 도달하면 대부분의 ID에 있는 이미지 샘플 수가 데이터의 롱테일 분포가 매우 작은 경우가 많습니다. 이는 매우 명백하며 직접적인 학습을 통해 더 큰 데이터를 얻는 것은 어렵습니다.

이 기사의 나머지 장에서는 초대형 분류 프레임워크를 위한 기존 솔루션과 저비용 분류 프레임워크 FFC의 해당 원리 및 요령에 중점을 둘 것입니다.

방법

방법을 소개하기 전에 이 기사에서는 먼저 현재 초대형 분류의 주요 과제를 검토합니다.

과제 포인트 1: 여전히 비용이 높습니다

ID 수가 많을수록 분류가 많을수록 다음 개략도에 표시된 것처럼 컴퓨터의 메모리 요구 사항이 커집니다. 비디오 메모리가 클수록 더 많은 시스템 카드가 필요하고 비용이 높을수록 해당 카드의 비용도 높아집니다. 다중 시스템 협업을 위한 하드웨어 인프라. 동시에 분류 ID의 수가 매우 큰 규모에 도달하면 분류기의 마지막 레이어에서 주요 계산량이 낭비되고 뼈대 네트워크에 소요되는 시간은 무시할 수 있습니다.

DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC

도전 포인트 2: 롱테일 학습의 어려움

실제 시나리오에서 대부분의 수억 개의 ID에는 이미지 샘플이 거의 없으며 롱테일 데이터 분포가 매우 분명합니다. , 직접 훈련은 수렴하기 어렵습니다. 동일한 가중치로 훈련하면 롱테일 샘플이 압도되고 충분히 학습되지 않습니다. 현재, 불균형 표본이 일반적으로 사용됩니다. 이 연구 주제에 대해 참조로 사용할 수 있는 방법이 많이 있습니다. 간단한 초대형 분류 프레임워크에 통합하는 데 더 적합한 방법은 무엇입니까? 위의 두 가지 과제에 대해 먼저 기존의 실행 가능한 솔루션을 살펴보고 위의 두 가지 과제를 잘 해결할 수 있는지 살펴보겠습니다.

실행 가능한 방법 1: 메트릭 학습

실행 가능한 방법 2: PFC 프레임워크

DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC

가능한 방법 3: VFC 프레임워크

DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC

본 논문의 방법: FFC 프레임워크

대규모 분류를 위해 FC로 학습할 때의 손실 함수는 다음과 같습니다. :

DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC

모든 역전파 프로세스에서 모든 클래스 센터가 업데이트됩니다.

DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC

그러나 FC가 너무 크므로 직관적인 아이디어는 클래스의 특정 비율을 합리적으로 선택하는 것입니다. center 즉, Vj는 다음과 같이 1입니다. Part:

DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC

위의 동기는 다음과 같은 예비 계획으로 이어집니다.

DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC

우선, 롱테일의 영향을 해결하기 위해 , 이 기사에서는 id 샘플링을 기반으로 하는 id_loader 및 인스턴스 샘플링을 기반으로 하는 두 개의 로더를 소개합니다. 각 epoch마다 샘플이 많은 클래스와 샘플이 적은(few-shot) 클래스는 학습의 기회를 가질 수 있습니다.

둘째, 훈련이 시작되기 전에 샘플의 일부를 id 그룹에 보냅니다. 여기서는 id 샘플의 10%가 그룹에 들어간다고 가정합니다. 이때 갤러리에서는 임의의 매개변수를 사용합니다.

그런 다음 훈련이 시작되면 배치 샘플이 하나씩 프로브 넷으로 들어갑니다. 그런 다음 각 배치의 샘플에는 두 가지 상황이 있습니다. 1.) 그룹에 이 샘플과 동일한 ID를 가진 기능이 있습니다. 2.) 그룹에 유사한 샘플의 기능이 없습니다. 이 두 가지 경우에 대해 각각 기존 ID와 새 ID라고 부릅니다. 기존 샘플의 경우 특징과 그룹의 특징을 이용하여 내적을 하고, 라벨과 함께 교차 엔트로피 손실 함수를 계산한 후 반환합니다. 새로운 샘플의 경우 그룹 내 샘플과의 코사인 유사성을 최소화합니다.

마지막으로 기존 수업 센터 가중치 부여 원칙에 따라 그룹 내 기능이 업데이트되고 새로운 수업 센터로 대체됩니다. 갤러리 넷의 경우 이동 평균 전략을 사용하여 프로브의 매개변수를 점진적으로 업데이트합니다.

본 논문의 방법: 트릭 소개

1.) 도입된 ID 그룹의 크기는 조정 가능한 매개 변수이며 일반적으로 기본값은 30,000입니다.

2.) 안정적인 훈련을 달성하기 위해 moco 클래스 방법을 참조하고 해당 수렴 조건은 다음과 같습니다.

DAMO 아카데미의 오픈소스 저비용 대규모 분류 프레임워크 FFC