OpenOOD 업데이트 v1.5: 포괄적이고 정확한 배포되지 않은 감지 코드 라이브러리 및 테스트 플랫폼, 온라인 순위 및 원클릭 테스트 지원-일체 포함-php.cn

OOD(Out-of-distribution) 감지는 개방형 지능형 시스템의 안정적인 작동을 위해 매우 중요하지만 현재의 객체 지향 감지 방법은 "평가 불일치" 문제로 어려움을 겪고 있습니다.

이전 작업 OpenOOD v1은 OOD 감지 평가를 통합했지만 여전히 확장성과 유용성에 한계가 있습니다.

최근 개발팀은 다시 한번 OpenOOD v1.5를 제안했습니다. 이전 버전에 비해 새로운 OOD 탐지 방법 평가는 정확성, 표준화 및 사용자 친화성을 보장하는 데 크게 향상되었습니다.

OpenOOD 업데이트 v1.5: 포괄적이고 정확한 배포되지 않은 감지 코드 라이브러리 및 테스트 플랫폼, 온라인 순위 및 원클릭 테스트 지원 Pictures

Paper: https://arxiv.org/abs/2306.09301

OpenOOD 코드베이스: https://github.com/Jingkang50/OpenOOD

OpenOOD 리더보드: https://zjysteven. github.io/OpenOOD/

특히 OpenOOD v1.5는 평가 기능을 ImageNet과 같은 대규모 데이터 세트로 확장하고 중요하지만 아직 개발되지 않은 전체 스펙트럼 OOD 감지를 연구하며 새로운 기능을 도입합니다. -사용할 평가자.

이 작업은 또한 포괄적인 실험 결과를 통한 심층 분석과 통찰력에 기여하여 OOD 감지 방법에 대한 지식 기반을 풍부하게 합니다.

이러한 개선 사항을 통해 OpenOOD v1.5는 OOD 연구의 발전을 촉진하고 OOD 탐지 연구에 대한 보다 강력하고 포괄적인 평가 벤치마크를 제공하는 것을 목표로 합니다.

연구 배경

잘 훈련된 이미지 분류기의 경우 오픈 월드에서 안정적으로 작동할 수 있게 해주는 핵심 기능은 알려지지 않은 배포되지 않은(OOD) 샘플을 감지하는 것입니다.

예를 들어, 우리는 고양이와 개 사진 세트를 사용하여 고양이와 개 분류기를 훈련했습니다. 분포 내(ID) 샘플, 즉 여기서는 고양이와 개 사진의 경우 분류기가 이를 해당 카테고리로 정확하게 식별할 것으로 자연스럽게 기대합니다.

배포되지 않은 OOD 샘플, 즉 고양이와 개 이외의 사진(예: 비행기, 과일 등)의 경우 모델이 알 수 없는 새로운 개체/개념임을 감지할 수 있기를 바랍니다. , 따라서 배포판 내에서 고양이나 개 카테고리로 분류할 수 없습니다.

이 문제는 최근 폭넓은 주목을 받고 있는 배포외 탐지(OOD 탐지)이며, 새로운 작품이 속속 등장하고 있습니다. 그러나 이 분야가 급속도로 확대되고 있는 반면, 여러 가지 이유로 해당 분야의 발전 현황을 추적하고 측정하는 것이 어려워지고 있다.

원인 1: 일관되지 않은 테스트 OOD 데이터 세트.

다양한 딥 러닝 작업의 급속한 발전은 통합 테스트 데이터 세트(이미지 분류를 위한 CIFAR, ImageNet, 객체 감지를 위한 PASCAL VOC, COCO와 마찬가지로)와 분리될 수 없습니다.

그러나 안타깝게도 OOD 감지 분야에는 통합되고 널리 채택되는 OOD 데이터 세트가 항상 부족했습니다. 이로 인해 위 그림과 같이 기존 작업의 실험 설정을 다시 살펴보면 사용된 OOD 데이터가 매우 불일치하다는 것을 알 수 있습니다(예를 들어 ID 데이터인 CIFAR-10의 경우 일부 작업에서는 MNIST와 SVHN을 사용합니다. OOD로 일부 작품에서는 CIFAR-100, Tiny ImageNet을 OOD로 사용합니다. 이러한 상황에서 모든 방법을 직접적이고 공정하게 비교하는 것은 심각한 어려움에 직면합니다.

이유 2: 혼란스러운 용어.

OOD 감지 외에도 "OSR(Open-Set Recognition)" 및 "참신성 감지"와 같은 다른 용어도 문헌에 자주 등장합니다.

그들은 본질적으로 동일한 문제에 초점을 맞추며 일부 실험 설정의 세부 사항에는 약간의 차이만 있습니다. 그러나 서로 다른 용어로 인해 방법 간에 불필요한 분기가 발생할 수 있습니다. 예를 들어 OOD 감지와 OSR은 한때 두 개의 독립적인 작업으로 간주되었으며 서로 다른 분기 간에는 동일한 문제를 함께 비교하는 방법이 거의 없었습니다.

원인 3: 잘못된 작동.

많은 연구에서 연구자들은 매개변수를 조정하거나 모델을 훈련시키기 위해 OOD 테스트 세트의 샘플을 직접 사용하는 경우가 많습니다. 이러한 작업은 방법의 OOD 감지 기능을 과대평가하게 됩니다.

위의 문제는 분명히 해당 분야의 질서 있는 개발에 해를 끼치며, 기존 및 미래의 OOD 탐지 방법을 테스트하고 평가하기 위한 통합된 벤치마크와 플랫폼이 시급히 필요합니다.

OpenOOD는 그러한 도전 속에서 탄생했습니다. 첫 번째 버전은 중요한 진전을 이루었지만 규모가 작고 사용성 측면에서 개선이 필요한 문제를 안고 있습니다.

따라서 OpenOOD v1.5의 새 버전에서는 이를 더욱 강화하고 업그레이드하여 대다수 연구자를 위한 포괄적이고 정확하며 사용하기 쉬운 테스트 플랫폼을 만들기 위해 노력하고 있습니다.

요약하면 OpenOOD에는 다음과 같은 중요한 기능과 기여가 있습니다.

1 거대한 모듈식 코드 기반.

이 코드 베이스는 모델 구조, 데이터 전처리, 후처리, 교육, 테스트 등을 이해하고 모듈화하여 재사용 및 개발을 용이하게 합니다. 현재 OpenOOD는 이미지 분류 작업을 위해 약 40개의 최첨단 OOD 감지 방법을 구현합니다.

OpenOOD 업데이트 v1.5: 포괄적이고 정확한 배포되지 않은 감지 코드 라이브러리 및 테스트 플랫폼, 온라인 순위 및 원클릭 테스트 지원 그림

2. 한 번의 클릭으로 테스트할 수 있는 평가기.

위 그림과 같이 OpenOOD의 평가자는 몇 줄의 코드만으로 지정된 ID 데이터 세트에 대해 제공된 분류기와 후처리기의 OOD 감지 테스트 결과를 제공할 수 있습니다.

해당 OOD 데이터는 평가자가 내부적으로 결정하여 제공하므로 테스트의 일관성과 공정성이 보장됩니다. 또한 평가자는 표준 OOD 감지(표준 OOD 감지) 및 전체 스펙트럼 OOD 감지(전체 스펙트럼 OOD 감지) 시나리오를 모두 지원합니다(나중에 자세히 설명).

3. 온라인 순위.

OpenOOD를 사용하여 CIFAR-10, CIFAR-100, ImageNet-200 및 ImageNet-1K의 4가지 ID 데이터 세트에 대해 약 40가지 OOD 탐지 방법의 성능을 비교하고 그 결과를 공개 순위 목록으로 만들었습니다. 언제든지 현장에서 가장 효과적이고 유망한 방법을 모든 사람이 이해하는 데 도움이 되기를 바랍니다.

4. 실험 결과의 새로운 발견.

OpenOOD의 종합적인 실험 결과를 바탕으로 우리는 논문에서 많은 새로운 발견을 제공합니다. 예를 들어 OOD 탐지와 관련이 거의 없는 것처럼 보이지만 데이터 증대는 실제로 OOD 탐지 성능을 효과적으로 향상시킬 수 있으며 이러한 개선은 특정 OOD 탐지 방법을 통해 가져온 개선과 직교하고 보완적입니다.

또한, 전체 스펙트럼 OOD 검출에서 기존 방법의 성능이 만족스럽지 않다는 것을 발견했으며, 이는 향후 분야에서 해결해야 할 중요한 문제이기도 합니다.

문제 설명

이 부분에서는 표준 및 전체 스펙트럼 OOD 감지의 목표를 간략하고 대중적으로 설명합니다. 더 자세하고 공식적인 설명을 보려면 우리 논문을 읽어보세요.

OpenOOD 업데이트 v1.5: 포괄적이고 정확한 배포되지 않은 감지 코드 라이브러리 및 테스트 플랫폼, 온라인 순위 및 원클릭 테스트 지원 Pictures

먼저 배경을 살펴보세요. 우리가 고려하는 이미지 분류 시나리오에서 분포 내(ID) 데이터는 해당 분류 작업에 의해 정의됩니다. 예를 들어 CIFAR-10 분류의 경우 ID 분포는 10개의 의미 범주에 해당합니다.

OOD의 개념은 ID를 기준으로 형성됩니다. ID 의미 카테고리 이외의 모든 의미 카테고리에 해당하고 ID 카테고리와 다른 사진은 배포되지 않은 OOD 이미지입니다. 동시에 우리는 다음과 같은 두 가지 유형의 분배 이동에 대해 논의할 필요가 있습니다.

의미적 변화: 위 그림의 가로축에 해당하는 깊은 의미 수준에서 분포가 변경됩니다. 예를 들어, 의미 범주는 훈련 중 고양이와 개이고, 의미 범주는 테스트 중 비행기와 과일입니다.

공변량 이동: 위 그림의 세로 축에 해당하는 표면 통계 수준에서 분포가 변경됩니다(의미는 변경되지 않은 채 유지됨). 예를 들어 훈련 중에는 깨끗하고 자연스러운 고양이와 개 사진이 있고, 테스트 중에는 노이즈가 추가된 고양이와 개 사진이나 손으로 그린 이미지가 있습니다.

위 배경을 위 그림과 결합하면 표준 및 전체 스펙트럼 OOD 감지를 쉽게 이해할 수 있습니다.

표준 OOD 감지

목표(1): ID 데이터를 정확하게 분류할 수 있도록 ID 분포에 대해 분류기를 훈련합니다. 여기서는 테스트 ID 데이터와 훈련 ID 데이터 사이에 공변량 이동이 없다고 가정합니다.

목표(2): 훈련된 분류자를 기반으로 모든 샘플을 ID/OOD라는 두 가지 범주로 분류할 수 있도록 OOD 감지 방법을 설계합니다. 위 그림에서 해당하는 것은 (a)와 (c) + (d)를 구별한 것입니다.

전체 스펙트럼 OOD 감지

목표(1): 표준 OOD 감지와 유사하지만 차이점은 공변량 이동이 고려된다는 것입니다. 훈련 이미지를 바탕으로 분류기는 해당 ID 카테고리를 정확하게 분류해야 합니다. 예를 들어 고양이와 개 분류기는 "깨끗한" 고양이와 개 사진을 정확하게 분류할 뿐만 아니라 시끄럽고 흐릿한 고양이와 개를 일반화할 수 있어야 합니다. 영화).

목표(2): 또한 일반(공변량 이동 없음) ID 샘플과 함께 OOD 샘플과 구별되어야 하는 공변량 이동 ID 샘플을 고려합니다. 위 그림의 (a) + (b)와 (c) + (d)의 구별에 해당합니다.

전체 스펙트럼 OOD 테스트가 왜 중요한가요?

친숙한 친구들은 전체 스펙트럼 OOD 탐지의 대상(1)이 실제로 또 다른 매우 중요한 연구 주제인 분포 외 일반화(OOD 일반화)에 해당한다는 것을 발견했을 수 있습니다.

OOD 일반화에서 OOD는 공변량 변화가 있는 표본을 의미하는 반면, OOD 탐지에서 OOD는 의미 변화가 있는 표본을 의미한다는 점을 명확히 할 필요가 있습니다.

두 종류의 교대는 현실 세계에서 매우 일반적입니다. 그러나 기존 OOD 일반화와 표준 OOD 감지는 둘 중 하나만 고려하고 다른 하나는 무시합니다.

반면, 전체 스펙트럼 OOD 감지는 자연스럽게 동일한 시나리오에서 두 오프셋을 함께 고려하여 이상적인 분류기가 열린 세상에서 어떻게 작동할지에 대한 우리의 기대를 더 정확하게 반영합니다.

실험 결과 및 새로운 발견

버전 1.5에서 OpenOOD는 6개의 벤치마크 데이터 세트(표준 OOD 감지용 4개, 전체 스펙트럼 OOD 감지용 2개)에 대해 거의 40가지 방법을 비교합니다. 통합되고 포괄적인 테스트가 수행되었습니다.

구현된 방법과 데이터 세트는 논문에 설명되어 있으며 누구나 확인하실 수 있습니다. 모든 실험은 OpenOOD 코드 베이스에서도 재현 가능합니다. 여기에서는 비교 결과에서 도출된 결과를 직접 논의합니다.

OpenOOD 업데이트 v1.5: 포괄적이고 정확한 배포되지 않은 감지 코드 라이브러리 및 테스트 플랫폼, 온라인 순위 및 원클릭 테스트 지원 Pictures

발견 1: 단일 승자는 없습니다.

위 표에서 어떤 방법도 모든 벤치마크 데이터 세트에서 일관되게 뛰어난 성능을 제공할 수 없다는 것을 어렵지 않게 찾을 수 있습니다.

예를 들어 사후 추론 방법인 ReAct와 ASH는 대규모 데이터 세트 ImageNet에서 잘 수행되지만 CIFAR에서는 다른 방법에 비해 이점이 없습니다.

반면, RotPred 및 LogitNorm과 같이 훈련에 제약 조건을 추가하는 일부 훈련 방법은 소규모 데이터 세트에 대한 후처리 방법보다 우수하지만 ImageNet에서는 뛰어나지 않습니다.

발견 2: 데이터 증강에 도움이 됩니다.

위 표에 표시된 것처럼 데이터 증강은 OOD 탐지를 위해 특별히 설계되지는 않았지만 OOD 탐지 성능을 효과적으로 향상시킬 수 있습니다. 더욱 놀라운 점은 데이터 증강으로 인한 개선과 특정 OOD 후처리 방법으로 인한 개선이 서로 증폭된다는 점입니다.

AugMix를 예로 들면, 가장 간단한 MSP 후처리기와 결합하면 ImageNet-1K Near-OOD 감지율이 77.49%에 도달하는데, 이는 데이터 향상 없이 교차 엔트로피 손실보다 낮습니다(corss- 엔트로피 손실) 훈련의 탐지율은 77.38%로 1.47% 더 높습니다.

그러나 AugMix가 더욱 진보된 ASH 후처리 프로세서와 결합되면 해당 감지율은 교차 엔트로피 기준보다 3.99% 더 높고 테스트에서 가장 높은 82.16%에 도달합니다. 이러한 결과는 데이터 향상과 사후 처리의 결합이 향후 OOD 감지 기능을 더욱 향상시킬 수 있는 큰 잠재력을 가지고 있음을 보여줍니다.

발견 3: 전체 스펙트럼 감지는 현재 감지기에 문제가 됩니다.

위 그림에서 장면이 표준 OOD 감지에서 전체 스펙트럼 OOD 감지로 전환되면(즉, 공변량 이동 ID 이미지가 테스트 ID 데이터에 추가됨) 대부분의 성능이 모든 방법은 상당한 성능 저하를 나타냅니다(검출률이 10% 이상 감소).

이는 현재 방법이 실제 의미가 변경되지 않은 공변량 이동 ID 이미지를 OOD로 분류하는 경향이 있음을 의미합니다.

이 동작은 인간의 인식에 위배됩니다(또한 전체 스펙트럼 OOD 감지의 대상이기도 함). 인간 라벨러가 고양이와 개 사진에 라벨을 지정하고 있다고 가정해 보겠습니다. 이때 그/그녀에게 시끄럽고 흐릿한 고양이와 개 사진의 경우, 여전히 그것이 고양이/개라는 것과 그것이 알려지지 않은 유통 외부 OOD 데이터가 아닌 유통 내부 ID 데이터라는 것을 인식해야 합니다.

일반적으로 현재 방법으로는 전체 스펙트럼 OOD 감지를 효과적으로 해결할 수 없으며, 이는 향후 해당 분야에서 중요한 문제가 될 것이라고 믿습니다.

또한 여기에 나열되지 않은 많은 결과가 있습니다. 예를 들어 데이터 증강은 전체 스펙트럼 OOD 탐지 등에 여전히 효과적입니다. 다시 한 번, 누구나 우리 논문을 읽는 것을 환영합니다.

Outlook

OpenOOD의 코드 베이스, 테스터, 순위, 벤치마크 데이터 세트 및 자세한 테스트 결과를 통해 각계각층의 연구자들이 한자리에 모여 해당 분야의 발전을 촉진할 수 있기를 바랍니다. OpenOOD를 사용하여 OOD 탐지를 개발하고 테스트하는 모든 분들을 기대합니다.

또한 피드백 제공, OpenOOD 코드 베이스 및 순위표에 최신 방법 추가, OpenOOD의 향후 버전 확장 등 OpenOOD에 대한 모든 형태의 기여를 환영합니다.

참고자료: https://arxiv.org/abs/2306.09301

위 내용은 OpenOOD 업데이트 v1.5: 포괄적이고 정확한 배포되지 않은 감지 코드 라이브러리 및 테스트 플랫폼, 온라인 순위 및 원클릭 테스트 지원의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!