'스파스 코딩'은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함-일체 포함-php.cn

심층 신경망은 이미지 분류에 있어 강력한 경험적 성능을 갖고 있지만 이러한 모델은 종종 "블랙박스"로 간주되며 "설명하기 어렵다"는 이유로 가장 비판을 받습니다.

반대로 희소 컨벌루션 모델은 신호가 컨볼루셔널 사전에 있는 여러 요소의 선형 조합으로 구성될 수 있다고 가정하는 자연 이미지를 분석하는 강력한 도구이기도 합니다. 해석 가능성 및 생물학적 타당성.

실제 응용에서는 희소 컨볼루션 모델이

원칙적으로 작동하더라도 경험적으로 설계된 딥 네트워크에 비해 마땅한 성능 이점을 보여주지 않습니다.

최근

Ma Yi 교수 연구 그룹은 NeurIPS 2022에서 이미지 분류에 희소 컨볼루션 모델의 적용을 검토하는 새로운 논문을 발표했으며, 희소 컨볼루션 모델의 실증적 성능과 신뢰성을 성공적으로 해결했습니다.

스파스 코딩은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함

문서 링크: https://arxiv.org/pdf/2210.12945.pdf

코드 링크: https://github.com/Delay-Xili/SDNet

기사에서 제안한

미분화 가능한 최적화 계층은 표준 quasi-convolutional 계층을 대체하기 위해 CSC(Convolutional Sparse Coding) 을 사용합니다.

결과에 따르면 기존 신경망과 비교할 때 이러한 모델은 CIFAR-10, CIFAR-100 및 ImageNet 데이터 세트에서 똑같이 강력한 경험적 성능을 나타냅니다.

희소 모델링의 강력한 복구 특성을 활용함으로써 연구원들은 희소 정규화와 데이터 재구성 항 사이의 간단하고 적절한 절충만으로 이러한 모델이 입력 손상에서 살아남을 수 있을 뿐만 아니라

적대적인 섭동이 더 강력하다는 것을 보여줍니다. .

스파스 코딩은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함

Ma Yi 교수는 1995년 칭화대학교에서 자동화 및 응용수학 복수학사 학위를 취득한 후, 미국 버클리 캘리포니아대학교에서 수학하고, 1997년 EECS에서 석사학위를 받았습니다. 수학 석사 학위를 취득하고 2000년 이학사 학위를 취득하여 EECS 박사 학위를 취득했습니다.

졸업 후 일리노이 대학교 어바나-샴페인에서 가르쳤으며 전기컴퓨터공학과 역사상 최연소 부교수가 되었습니다.

2009년에는 Microsoft Research Asia의 Visual Computing Group 선임 연구원으로 재직했습니다. 2014년에 그는 ShanghaiTech University의 정보 과학 기술 대학에 정규직으로 합류했습니다.

2018년 캘리포니아 대학교 버클리 캠퍼스와 칭화-버클리 심천 연구소에 합류했습니다. 현재 버클리 대학교 전기 공학 및 컴퓨터 과학과 교수로 재직하고 있으며 ACM의 IEEE 펠로우이기도 합니다. Fellow, SIAM Fellow

Ma Yi 교수의 연구 관심분야는 3D 컴퓨터 비전, 고차원 데이터를 위한 저차원 모델, 확장성 최적화 및 기계 학습입니다. 최근 연구 주제에는 대규모 3D 기하학적 재구성 및 상호 작용이 포함됩니다. 저차원 모델과 심층 네트워크 간의 관계.

Sparse Convolution

심층 컨볼루션 네트워크(ConvNets)가 이미지 분류의 주류 방법이 되었고 그 성능이 다른 모델을 능가하지만 컨볼루션, 비선형 함수, 정규화 등과 같은 내부 구성 요소는 데이터는 아직 설명되지 않았습니다.

해석 가능한 표현을 학습하는 능력과 강력한 이론적 보장(예: 손상된 데이터 처리)을 지원하는 희소 데이터 모델링은 많은 신호 및 이미지 처리 응용 프로그램에서 널리 사용되었지만 ImageNet과 같은 데이터에서의 성능은 세트의 분류 성능은 경험적 심층 모델보다 여전히 열등합니다.

강력한 성능을 지닌 희소 모델에도 여전히 결함이 있습니다.

1) 네트워크 구조를 특별히 설계해야 하므로 모델의 적용 가능성이 제한됩니다.

2) 학습 계산 속도는 몇 배입니다.

3) 해석성과 견고성 측면에서 뚜렷한 이점을 보여주지 않습니다.

연구원들은 본 논문에서 시각적 인식 프레임워크를 제안하여 레이어 입력이 모든 데이터 포인트가 공유하는 사전의 몇 개의 원자로 구성될 수 있다는 가정하에 간단한 설계를 통해 희소 모델링이 딥러닝과 결합될 수 있음을 입증했습니다. (atom)을 사용하여 표준 ConvNet과 동일한 성능을 달성하는 동시에 더 나은 계층적 해석성과 안정성을 제공합니다.

이 방법은 암시적 레이어에 희소 모델링을 캡슐화하고 이를 표준 ConvNet의 컨벌루션 레이어 대신 사용합니다.

전통적인 완전 연결 또는 컨벌루션 계층에서 사용되는 명시적 함수와 관련하여 숨겨진 계층은 암시적 함수를 사용합니다. 본 논문에서 은닉층은 계층의 입력변수와 가중치 매개변수의 최적화 문제를 기반으로 정의되며, 은닉층의 출력은 최적화 문제의 해결책이다.

다차원 입력 신호가 주어지면 더 나은 희소 출력으로 역 매핑을 수행하도록 레이어의 기능을 정의할 수 있으므로 출력 채널 수가 입력과 다를 수 있으므로 위의 Lasso가 최적입니다. 유형 최적화 문제는 희소 솔루션에서 찾을 수 있습니다.

스파스 코딩은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함

이 히든 레이어는 CSC(Convolutional Sparse Coding) 모델을 구현합니다. 여기서 입력 신호는 컨볼루셔널 사전에 있는 원자의 희소 선형 조합으로 근사화됩니다. 이 컨벌루션 사전은 역전파를 통해 훈련되는 CSC 계층의 매개변수로 간주될 수 있습니다.

스파스 코딩은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함

CSC 모델의 목표는 A(z) 연산자를 통해 입력 신호를 재구성하는 것입니다. 여기서 특징 맵 z는 A에서 컨볼루션 필터의 위치와 값을 지정합니다. 모델링 차이를 허용하기 위해 재구성이 정확할 필요는 없습니다.

결정된 CSC 계층의 입출력 매핑을 기반으로 해당 최적화를 해결하여 순방향 전파를 수행할 수 있으며, 입력 x와 매개변수에 대한 최적 계수 해의 기울기를 구하여 역전파를 수행할 수 있습니다. ㅏ .

그런 다음 교차 엔트로피 손실을 최소화하여 종단 간 방식으로 레이블이 지정된 데이터에서 CSC 계층이 있는 전체 네트워크를 훈련할 수 있습니다.

스파스 코딩은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함

실험 결과

분류 성능 비교

실험에 사용된 데이터 세트는 CIFAR-10과 CIFAR-100이며, 각 데이터 세트에는 50,000개의 학습 이미지가 포함되어 있습니다. 그리고 10,000 테스트 이미지에서는 각 이미지의 크기가 32×32이고 RGB 채널이 있습니다.

표준 네트워크 아키텍처인 ResNet-18 및 ResNet-34와 방법을 비교한 것 외에도 연구원들은 숨겨진 계층 아키텍처가 있는 MDEQ 모델 및 희소 모델링 아키텍처가 있는 SCN과도 비교했습니다.

스파스 코딩은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함

실험 결과, 유사한 모델 규모에서 SDNet-18/34의 Top-1 정확도는 ResNet-18/34와 비슷하거나 높으며 추론 속도도 비슷하다는 것을 알 수 있습니다. 결과는 SDNet 모델이 손상된 이미지를 처리하는 데 추가 이점을 갖고 있기 때문에 기존 데이터 기반 모델에 대한 강력한 대안으로서 이 네트워크의 잠재력을 보여줍니다.

SDNet-18 모델을 유사한 모델 크기의 MDEQ 모델과 비교한 결과, SDNet-18이 MDEQ보다 정확할 뿐만 아니라 훨씬 더 빠르다는 것을 알 수 있습니다(>7배). MDEQ는 SDNet처럼 손상된 데이터를 처리할 수 없다는 점에 유의해야 합니다.

SCN 네트워크도 희소 모델링을 사용하여 Top-1 정확도를 달성했지만 SCN의 중요한 단점은 훈련 속도가 매우 느리다는 것입니다. 그 이유는 SCN이 패치 기반 희소 코딩 모델을 사용하기 때문일 수 있습니다. 이미지의 경우 컨벌루션 희소 코딩 모델과 비교하여 각 순방향 패스에서 더 많은 희소 코딩 문제를 해결해야 하며 병렬 컴퓨팅의 이점을 얻을 수 없습니다.

입력 섭동에 대한 강력한 추론 처리

입력 섭동에 대한 방법의 견고성을 테스트하기 위해 연구원들은 CIFAR-10-C 데이터 세트를 사용했습니다. 여기서 데이터는 다양한 유형의 합성 잡음과 심하게 손상되었습니다.

모델의 CSC 레이어는 입력 신호와 재구성된 신호 사이의 입력별 차이에 페널티를 주기 때문에 이론적으로 SDNet은 추가 노이즈 처리에 더 적합해야 합니다.

스파스 코딩은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함

그래서 실험 부분에서는 주로 CIFAR-10-C의 4가지 유형의 추가 노이즈인 가우시안 노이즈, 샷 노이즈, 스펙클 노이즈 및 임펄스 노이즈에 중점을 두고 SDNet-18의 정확도를 평가합니다. ResNet-18과 성능을 비교합니다.

스파스 코딩은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함

다양한 유형의 노이즈와 다양한 심각도(레벨 0, 1, 2의 임펄스 노이즈 제외)에 대해 훈련 중에 사용된 값과 다른 λ 값을 적절하게 선택하면 테스트 성능을 향상시키는 데 도움이 될 수 있음을 알 수 있습니다.

스파스 코딩은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함

특히 λ의 함수인 정확도 곡선은 성능이 먼저 증가했다가 감소하는 단봉 모양을 나타냅니다. 또한 각 데이터 손상 유형에서 성능 최고점에 도달하는 람다 값은 손상 심각도에 따라 단조롭게 증가하며 이는 예상과 일치하는 관찰입니다.

적대적 섭동 처리

연구원들은 PGD를 사용하여 CIFAR-10 테스트 데이터 세트의 SDNet(λ=0.1)에서 적대적 섭동을 생성했습니다. 섭동의 Lπ 패러다임은 8/255입니다. 섭동 L2 정규형은 0.5입니다.

스파스 코딩은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함

ResNet-18과 비교하면 λ=0.1의 경우 SDNet의 성능은 ResNet보다 크게 뛰어나지는 않지만 매개변수 λ를 조정하면 견고성 정확도가 크게 향상될 수 있음을 알 수 있습니다. .

위 내용은 '스파스 코딩'은 이론에서 실습으로 이어집니다! NeurIPS 2022에서 Ma Yi 교수의 새로운 작업: 희소 컨볼루션 성능과 견고성이 ResNet을 능가함의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!