맹목적으로 대형 모델을 쫓아 컴퓨팅 파워를 쌓지 마세요! Shen Xiangyang, Cao Ying 및 Ma Yi는 AI를 이해하기 위한 두 가지 기본 원칙인 절약과 자기 일관성을 제안했습니다.-일체 포함-php.cn

지난 2년 동안 “큰 힘(컴퓨팅 파워)으로 기적을 일으키는” 대형 모델은 대부분의 인공지능 분야 연구자들이 추구하는 트렌드가 되었습니다. 그러나 그 뒤에 숨은 엄청난 계산 비용과 리소스 소비 문제가 점차 명백해졌습니다. 일부 과학자들은 대형 모델을 진지하게 살펴보고 적극적으로 해결책을 찾기 시작했습니다. 새로운 연구에 따르면 AI 모델의 뛰어난 성능을 달성하는 것이 반드시 힙 컴퓨팅 성능과 힙 크기에 의존하는 것은 아닙니다.

딥 러닝은 10년 동안 호황을 누렸습니다. 지난 10년간의 연구와 실천 동안 딥 러닝의 기회와 병목 현상이 많은 관심과 논의를 불러일으켰다고 할 수 있습니다.

그중 가장 눈길을 끄는 병목 차원은 딥 러닝의 블랙박스 특성(해석력 부족)과 "노력한 만큼의 기적적인 결과"(모델 매개변수가 점점 커지고 컴퓨팅 파워 요구 사항이 점점 커지고 있음)입니다. 계산 비용도 점점 더 커지고 있습니다. 또한 모델 안정성이 부족하고 보안 취약성 등의 문제도 있다.

본질적으로 이러한 문제는 부분적으로 심층 신경망의 "개방 루프" 시스템 특성으로 인해 발생합니다. 딥러닝의 B면에 대한 "저주"를 깨기 위해서는 단순히 모델 규모와 컴퓨팅 성능을 확장하는 것만으로는 충분하지 않을 수 있으며, 대신 인공 지능 시스템의 기본 원리에서, 그리고 그 근원을 추적해야 합니다. 새로운 관점(예: 폐쇄 루프) "지능"을 이해합니다.

7월 12일, 인공 지능 분야의 유명한 중국 과학자 세 명인 Ma Yi, Cao Ying, Shen Xiangyang이 arXiv에 공동으로 " 출현을 위한 절약과 자기 일관성의 원칙에 관하여 "라는 글을 게재했습니다. of Intelligence"는 심층 네트워크를 이해하기 위한 새로운 프레임워크인 압축 폐쇄 루프 전사를 제안합니다.

이 프레임워크에는 AI 모델 학습 과정에서 "무엇을 배울 것인가"와 "어떻게 배울 것인가"에 각각 해당하는 간결함과 자기 일관성이라는 두 가지 원칙이 포함되어 있으며, 이는 두 가지 주요 기반으로 간주됩니다. 인공/자연지능을 구성하며 국내외 인공지능 연구 분야에서 폭넓은 관심을 받아왔다.

不盲追大模型与堆算力！沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性

논문 링크:

https://arxiv.org/pdf/2207.04630.pdf

세 명의 과학자는 실제 지능에는 두 가지 특성이 있어야 한다고 믿습니다. 하나는 설명 가능성이고 다른 하나는 해석 가능성입니다. 계산가능성이다.

그러나 지난 10년 동안 인공 지능의 발전은 주로 "무차별" 훈련 모델을 사용하는 딥 러닝 방법을 기반으로 했습니다. 이 경우 AI 모델은 인식을 위한 기능적 모듈도 얻을 수 있습니다. 학습된 특징 표현은 암시적이어서 해석하기 어려운 경우가 많습니다.

또한, 모델을 훈련하기 위해 엄청난 컴퓨팅 성능에만 의존함으로써 AI 모델의 규모가 계속 증가하고 컴퓨팅 비용도 계속 증가하며 착륙 애플리케이션에 많은 문제가 발생했습니다. 학습된 표현의 다양성 부족으로 이어지는 신경 붕괴, 훈련의 안정성 부족으로 이어지는 모드 붕괴, 적응성에 대한 낮은 모델 민감도 및 치명적인 망각 등이 있습니다.

3명의 과학자는 위의 문제가 발생하는 이유는 현재 딥 네트워크에서는 분류를 위한 판별 모델과 샘플링 또는 재생을 위한 생성 모델의 훈련이 대부분 분리되어 있기 때문이라고 생각합니다. 이러한 모델은 일반적으로 감독 또는 자체 감독을 통해 엔드투엔드 교육이 필요한 개방형 루프 시스템입니다. Wiener와 다른 사람들은 그러한 개방 루프 시스템이 자동으로 예측 오류를 수정할 수 없고 환경 변화에 적응할 수 없다는 사실을 오랫동안 발견해 왔습니다.

따라서 그들은 시스템이 스스로 오류를 수정하는 방법을 배울 수 있도록 제어 시스템에 "폐쇄 루프 피드백"을 도입할 것을 옹호합니다. 이 연구에서 그들은 또한 판별 모델과 생성 모델을 사용하여 완전한 폐쇄 루프 시스템을 형성함으로써 시스템이 독립적으로(외부 감독 없이) 학습할 수 있고 더 효율적이고 안정적이며 적응 가능하다는 것을 발견했습니다.

不盲追大模型与堆算力！沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性

캡션: 왼쪽부터 Shun Xiangyang(홍콩, 중국, 심천 총장 교수, 국립공정원 외국학자, 전 Microsoft 글로벌 부사장), Cao Ying(전국 마이크로소프트 글로벌 부사장) 캘리포니아 대학교 버클리 국립과학원 교수)와 메이 이(버클리 캘리포니아 대학교 교수).

지능의 두 가지 원칙: 단순성과 자기 일관성

이 연구에서 세 명의 과학자는 인공지능의 구성을 설명하기 위해 두 가지 기본 원칙, 즉 단순성과 자기 일관성('자기 일관성'이라고도 함)을 제안했습니다. "), 시각적 이미지 데이터 모델링을 예로 들면 압축된 폐쇄 루프 전사 프레임워크는 절약 및 자체 일관성의 첫 번째 원칙에서 파생됩니다.

단순함

소위 단순성은 "무엇을 배울 것인가"입니다. 지능적 절약의 원칙은 시스템이 계산적으로 효율적인 방식으로 간결하고 구조화된 표현을 얻도록 요구합니다. 즉, 지능형 시스템은 실제 감각 데이터에서 유용한 구조를 간단하고 효율적으로 시뮬레이션할 수 있는 한 세계를 설명하는 모든 구조화된 모델을 사용할 수 있습니다. 시스템은 기본적이고 보편적이며 계산 및 최적화가 쉬운 측정항목을 사용하여 학습 모델의 품질을 정확하고 효율적으로 평가할 수 있어야 합니다.

시각적 데이터 모델링을 예로 들면 절약 원칙은 다음 목표를 달성하기 위해 (비선형) 변환 f를 찾으려고 시도합니다.

압축: 고차원 감각 데이터 x를 저차원 표현 z로 매핑

선형화: 비선형 하위 다양체에 분산된 객체의 각 클래스를 선형 하위 공간으로 매핑합니다.

협박화: 서로 다른 클래스를 독립적이거나 최대로 비일관적인 기반으로 하위 공간으로 매핑합니다.

즉, 고차원 공간의 일련의 저차원 하위 다양체에 위치할 수 있는 실제 데이터가 독립적인 저차원 선형 부분 공간 계열로 변환됩니다. 이 모델을 "선형 판별 표현"(선형 판별 표현, LDR)이라고 하며 압축 프로세스는 그림 2에 나와 있습니다.

不盲追大模型与堆算力！沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性

그림 2: 일반적으로 여러 비선형 저음에 분산되는 선형 및 판별 표현 찾기 -차원 세분화 다양체의 고차원 감각 데이터는 하위 다양체와 동일한 차원을 갖는 일련의 독립적인 선형 부분 공간에 매핑됩니다.

LDR 모델 계열에는 본질적인 절약 척도가 있습니다. 즉, LDR이 주어지면 모든 하위 공간에 걸쳐 모든 기능이 포함된 총 "볼륨"과 각 범주의 기능이 포함된 "볼륨"의 합계를 계산할 수 있습니다. 이 두 볼륨 사이의 비율은 LDR 모델이 얼마나 좋은지에 대한 자연스러운 척도를 제공합니다(종종 클수록 더 좋음).

정보 이론에 따르면 분포의 양은 비율 왜곡으로 측정할 수 있습니다.

Ma Yi 팀이 2022년에 발표한 "ReduNet: A White-box Deep Network from the 원리 of Maximizing Rate Reduction"에서는 가우스 속도 왜곡 기능을 사용하고 일반적인 딥 네트워크(예: ResNet)를 선택하면 코딩 속도를 최소화하여 매핑 f(x, θ)를 모델링합니다.

不盲追大模型与堆算力！沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性

그림 5: 비선형 매핑의 빌딩 블록 f. 왼쪽: 선형 연산자 확장 또는 압축, 비선형 소프트맥스, 연결 건너뛰기 및 정규화로 정확하게 구성된 투영된 경사 상승의 반복인 ReduNet 레이어. 그림의 중앙과 오른쪽: 각각 ResNet과 ResNeXt의 한 레이어.

예민한 독자라면 이러한 그래프가 ResNeXt의 병렬 열(그림 5 오른쪽) 및 전문가 혼합(MoE)을 포함하여 ResNet(그림 5 중간)과 같은 인기 있는 "시도 및 테스트된" 심층 네트워크와 매우 유사하다는 것을 인식했을 것입니다. .

최적화 계획을 펼치는 관점에서 이는 심층 신경망 클래스에 대한 강력한 설명을 제공합니다. 최신 딥 네트워크가 등장하기 전에도 ISTA 또는 FISTA와 같은 희소성을 찾기 위한 반복적 최적화 방식은 학습 가능한 딥 네트워크로 해석되었습니다.

실험을 통해 그들은 압축이 아키텍처 및 매개변수를 포함한 심층 신경망을 완전히 해석 가능한 흰색 상자로 도출하는 건설적인 방법을 탄생시킬 수 있음을 보여줍니다. 레이어 쌍은 간결한 원칙을 촉진합니다. 성적 목표의 반복적이고 점진적인 최적화 . 따라서 이렇게 얻은 딥 네트워크인 ReduNets는 데이터 X를 입력으로 시작하여 각 레이어의 연산자와 매개 변수가 완전히 순방향 전개 방식으로 구성되고 초기화됩니다.

이것은 딥 러닝에서 널리 사용되는 방식과 매우 다릅니다. 무작위로 구성되고 초기화된 네트워크로 시작한 다음 역전파를 통해 전역적으로 조정합니다. 일반적으로 뇌는 대칭 시냅스와 복잡한 형태의 피드백이 필요하기 때문에 학습 메커니즘으로 역전파를 활용하지 않을 것으로 믿어집니다. 여기서 순방향 언롤 최적화는 하드와이어될 수 있어 구현 및 활용이 더 쉬운 인접 레이어 간의 작업에만 의존합니다.

지난 10년 동안의 인공 신경망의 "진화"는 이해하기 쉽고, 딥 네트워크 자체의 역할이 (그라디언트 기반) 반복 최적화를 수행하여 데이터를 압축, 선형화 및 희소화하는 것임을 깨닫고 나면 설명하는 데 특히 도움이 됩니다. MLP에서 CNN, ResNet, Transformer에 이르기까지 인간 선택 프로세스를 통해 눈에 띄는 AI 시스템은 소수에 불과합니다.

반면 신경 아키텍처 검색과 같은 네트워크 구조에 대한 무작위 검색은 일반적인 작업을 효과적으로 수행할 수 있는 네트워크 아키텍처를 생성하지 않습니다. 그들은 성공적인 아키텍처가 데이터 압축을 위한 반복적 최적화 체계를 시뮬레이션하는 데 점점 더 효과적이고 유연해진다는 가설을 세웠습니다. 이는 앞서 언급한 ReduNet과 ResNet/ResNeXt 간의 유사성으로 예시될 수 있습니다. 물론 다른 예도 많이 있습니다.

자기 일관성

자기 일관성은 "학습 방법"에 관한 것입니다. 즉, 자율 지능 시스템은 관찰된 것과 관찰된 것 사이의 내부 차이를 최소화하여 외부 세계를 관찰하는 가장 일관성 있는 모델을 추구합니다. 재생산 .

절약의 원칙만으로는 학습 모델이 외부 세계 데이터를 인식하는 데 중요한 정보를 모두 포착할 수 있다고 보장할 수 없습니다.

예를 들어 교차 엔트로피를 최소화하여 각 클래스를 1차원 "원-핫" 벡터로 매핑하는 것은 절약적인 형태로 볼 수 있습니다. 좋은 분류기를 학습할 수 있지만 학습된 특징은 "신경 붕괴"라고 알려진 단일 항목으로 붕괴됩니다. 이렇게 학습된 특징에는 원본 데이터를 재생성할 만큼 충분한 정보가 포함되어 있지 않습니다. 보다 일반적인 종류의 LDR 모델을 고려하더라도 속도 감소 목표만으로는 환경 기능 공간의 정확한 크기를 자동으로 결정하지 않습니다. 특징 공간 차원이 너무 낮으면 학습된 모델이 데이터에 과소적합되고, 너무 높으면 모델이 과적합될 수 있습니다.

그들의 관점에서 지각의 목표는 예측 가능한 모든 지각 내용을 학습하는 것입니다. 지능형 시스템은 한번 생성되면 아무리 노력해도 자체적으로 구별할 수 없는 압축된 표현에서 관찰된 데이터의 분포를 재생성할 수 있어야 합니다.

논문에서는 일관성과 절약이라는 두 가지 원칙이 매우 상호보완적이며 항상 함께 사용해야 함을 강조합니다. 자체 일관성만으로는 압축이나 효율성의 향상을 보장할 수 없습니다.

수학적으로나 계산적으로, 매개변수가 초과된 모델을 사용하여 교육 데이터를 맞추거나 데이터 분포의 내장 함수를 학습하지 않고도 동일한 차원을 가진 도메인 간에 일대일 매핑을 설정하여 일관성을 보장합니다. 구조가 매우 쉽습니다. . 압축을 통해서만 지능형 시스템이 고차원 감각 데이터에서 고유한 저차원 구조를 발견하고 향후 사용을 위해 가장 컴팩트한 방식으로 특징 공간에서 이러한 구조를 변환하고 표현하도록 할 수 있습니다.

또한 압축을 통해서만 과잉 매개변수화의 이유를 쉽게 이해할 수 있습니다. 예를 들어 일반적으로 수백 개의 채널을 통해 기능 부스팅을 수행하는 DNN과 같이 순수한 목적이 고차원 기능 공간에서의 압축이라면, 그런 다음 과적합으로 이어지지 않습니다. 부스팅은 데이터의 비선형성을 줄여 압축 및 선형화를 더 쉽게 만듭니다. 후속 레이어의 역할은 압축(및 선형화)을 수행하는 것이며 일반적으로 레이어가 많을수록 압축 성능이 향상됩니다.

LDR과 같은 구조화된 표현으로 압축하는 특별한 경우에 논문에서는 일종의 자동 인코딩(자세한 내용은 원본 논문 참조)을 "전사"라고 부릅니다. 여기서 어려운 점은 목표를 계산적으로 다루기 쉽고 물리적으로 달성 가능하게 만드는 것입니다.

비율 감소 ΔR은 축퇴 분포 간의 명확한 기본 거리 측정값을 제공합니다. 그러나 이는 일반 분포가 아닌 부분 공간이나 가우시안 혼합에만 작동합니다! 그리고 내부 구조적 표현 z의 분포는 원래 데이터 x가 아닌 부분 공간 또는 가우스의 혼합일 것으로 예상할 수 있습니다.

이것은 "자기 일관성 있는" 표현 학습에 대한 다소 심오한 질문으로 이어집니다. 자율 시스템이 외부 세계의 내부 모델이 올바른지 확인하기 위해 실제로 데이터 공간의 차이를 측정해야 합니까?

답은 '아니오'입니다.

핵심은 x와 x^를 비교하기 위해 에이전트가 동일한 매핑 f를 통해 각각의 내부 특성 z = f(x) 및 z^ = f(x^)만 비교하면 된다는 것입니다. z 컴팩트하고 구조적입니다.

不盲追大模型与堆算力！沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性

z 공간의 분포 차이를 측정하는 것은 실제로 잘 정의되어 있고 효율적입니다. 틀림없이 자연 지능에서는 내부 측정 차이를 학습하는 것이 독립적인 자율 시스템을 갖춘 두뇌가 할 수 있는 유일한 일입니다.

이것은 그림 6에 표시된 전체 프로세스와 함께 "폐쇄 루프" 피드백 시스템을 효과적으로 생성합니다.

不盲追大模型与堆算力！沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性

그림 6: 비선형 데이터 하위 다양체를 LDR로 압축한 폐쇄 루프 전사(내부적으로 z와 z^ 간의 차이를 비교하고 최소화함으로써). 이로 인해 인코더/센서 f와 디코더/컨트롤러 g 사이에 자연스러운 추적 및 비행 게임이 발생하여 디코딩된 x^(파란색 점선)의 분포가 관찰된 데이터 x(검은색 점선)의 분포를 추적하고 일치시킵니다. 실선) .

생성기 g에 대한 DNN 분류기를 별도로 학습하는 일반적인 관행을 폐루프 시스템의 개방형 부분을 학습하는 것으로 해석할 수 있습니다(그림 6). 현재 널리 사용되는 이 접근 방식은 제어 분야에서 오랫동안 문제가 있고 비용이 많이 드는 것으로 알려진 개방 루프 제어와 매우 유사합니다. 이러한 부분을 교육하려면 원하는 출력(예: 클래스 레이블)에 대한 감독이 필요합니다. 매개변수 또는 작업이 변경되면 이러한 개방형 루프 시스템의 배포는 본질적으로 안정성, 견고성 또는 적응성이 부족합니다. 예를 들어, 지도 환경에서 훈련된 심층 분류 네트워크는 새로운 데이터 범주로 새로운 작업을 처리하기 위해 재훈련될 경우 종종 치명적인 망각을 겪습니다.

반대로 폐쇄 루프 시스템은 본질적으로 더 안정적이고 적응력이 뛰어납니다. 실제로 Hinton et al.은 이미 1995년에 이를 제안했습니다. 차별적 부분과 생성적 부분은 각각 완전한 학습 과정의 "깨어남" 단계와 "수면" 단계로 결합되어야 합니다.

그러나 루프를 닫는 것만으로는 충분하지 않습니다.

논문에서는 모든 지능형 에이전트가 자기비판을 통해 스스로 학습할 수 있도록 내부 게임 메커니즘이 필요하다고 주장합니다! 다음은 보편적으로 효과적인 학습 방법으로서의 게임의 개념입니다. 즉, 적대적 비판에 대해 현재 모델이나 전략을 반복적으로 적용하여 폐쇄 루프를 통해 받은 피드백을 기반으로 모델이나 전략을 지속적으로 개선합니다!

이러한 프레임워크 내에서 인코더 f는 이중 역할을 합니다. 속도 감소 ΔR(Z)를 최대화하여 데이터 x의 표현 z를 학습하는 것 외에도(섹션 2.1에서 수행됨) 다음 역할도 해야 합니다. 피드백 데이터 x와 생성된 x^ 사이의 차이를 능동적으로 감지하는 "센서"입니다. 디코더 g는 또한 두 가지 역할을 수행합니다. 이는 f에 의해 감지된 x와 xˆ 사이의 차이에 연결된 컨트롤러이고 목표를 달성하기 위해 전체 코딩 속도를 최소화하려고 하는 디코더입니다(특정 정확도 제공). .

따라서 최적의 "간소하고" "일관적인" 표현 튜플(z, f, g)은 f(θ)와 g(θ) 사이의 제로섬 게임의 평형점으로 해석될 수 있습니다. 결합 비율 감소의 유용성에 기반하지 않음:

不盲追大模型与堆算力！沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性

위 논의는 감독 상황에서 두 가지 원칙의 성능을 나타냅니다.

하지만 논문에서는 그들이 제안한 압축된 폐쇄 루프 전사 프레임워크가 자체 모니터링과 자기 비판을 통해 자체 학습이 가능하다는 점을 강조합니다!

또한 비율 감소는 학습 구조에 대한 명시적(부분 공간 유형) 표현을 찾았으므로 새로운 작업/데이터를 학습할 때 과거 지식을 더 쉽게 유지하고 자체 유지하는 사전(기억) 역할을 할 수 있습니다. 일관성 .

최근 경험적 연구에 따르면 이는 치명적인 망각을 겪지 않고 좋은 LDR 표현을 점진적으로 학습할 수 있는 고정 메모리를 갖춘 최초의 독립형 신경 시스템을 생성할 수 있음을 보여줍니다. 그러한 폐쇄 루프 시스템의 경우 망각은 (어떤 것이든) 매우 우아합니다.

또한 학습된 표현은 검토를 위해 이전 범주의 이미지가 시스템에 다시 공급될 때 더욱 통합될 수 있습니다. 이는 인간의 기억 기능과 매우 유사합니다. 어떤 의미에서 이 제한된 폐쇄 루프 공식은 기본적으로 시각적 기억 형성이 베이지안 및 적응성을 가질 수 있도록 보장합니다. 이러한 특성이 뇌에 이상적이라고 가정합니다.

그림 8에서 볼 수 있듯이 학습된 자동 인코딩은 우수한 샘플 일관성을 나타낼 뿐만 아니라 학습된 특징도 명확하고 의미 있는 로컬 저차원(얇은) 구조를 나타냅니다.

不盲追大模型与堆算力！沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性

그림 8: 왼쪽: CIFAR-10 데이터세트(10개의 클래스가 있는 50,000개 이미지)의 비지도 설정에서 학습된 자동 인코딩된 x와 해당 디코딩된 x^ 간의 비교. 오른쪽: 10개 클래스에 대한 비지도 학습 기능의 t-SNE 및 여러 동네 및 관련 이미지의 시각화. 수백 차원의 특징 공간에서 투영된 시각화된 특징의 국지적으로 얇은(거의 1차원) 구조에 주목하세요.

더 놀랍게도 훈련 중에 클래스 정보가 제공되지 않은 경우에도 클래스에 대해 학습된 특성에 하위 공간 또는 특성 관련 블록 대각선 구조가 나타나기 시작합니다(그림 9)! 따라서 학습된 특징의 구조는 영장류 뇌에서 관찰되는 범주 선택 영역과 유사합니다.

不盲追大模型与堆算力！沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性

그림 9: 폐쇄 루프 전사를 통해 10개 카테고리(CIFAR-10)에 속하는 50,000개 이미지에 대한 비지도 학습 기능 간의 상관 관계. 클래스에 맞는 블록 대각선 구조는 감독 없이 나타납니다.

범용 학습 엔진: 3D 비전과 그래픽 결합

문서 요약, 간결함 및 자기 일관성은 외부 관찰과 내부 표현 간의 비선형 매핑 모델로서 심층 네트워크의 역할을 드러냅니다.

또한 논문에서는 폐쇄 루프 압축 구조가 본질적으로 어디에나 존재하며 모든 지능 생물에 적용 가능하다는 점을 강조합니다. 이는 뇌(감각 정보 압축), 척수 회로(근육 운동 압축), 및 DNA(단백질의 기능을 압축하는 정보) 등 생물학적 예가 있습니다. 따라서 그들은 압축된 폐쇄 루프 전사가 모든 지능적인 행동 뒤에 있는 보편적인 학습 엔진일 수 있다고 믿습니다. 이를 통해 지능형 유기체와 시스템은 복잡해 보이고 조직화되지 않은 것처럼 보이는 입력에서 저차원 구조를 발견하고 개선하며, 이를 기억하고 활용할 수 있는 컴팩트하고 조직화된 내부 구조로 변환할 수 있습니다.

이 프레임워크의 일반성을 설명하기 위해 이 논문에서는 3D 인식과 의사 결정이라는 두 가지 다른 작업을 연구합니다(LeCun은 자율 지능 시스템의 이 두 가지 핵심 모듈을 고려합니다). 이 글은 3D 인식에서의 컴퓨터 비전과 컴퓨터 그래픽의 폐쇄 루프만을 체계적으로 소개하고 있습니다.

David Marr가 자신의 영향력 있는 저서에서 제안한 3D 비전의 고전적인 패러다임 Vision은 3D 인식 작업을 여러 모듈식 프로세스로 나누는 "분할 및 정복" 접근 방식을 옹호합니다. 스케치), 중간 수준 2.5D 구문 분석(예: 그룹화, 분할, 모양 및 배경), 고급 3D 재구성(예: 포즈, 모양) 및 인식(예: 개체), 반면에 압축된 폐쇄 루프는 전사 프레임워크는 “공동 구축”을 옹호합니다.

인식은 압축된 폐쇄 루프 전사입니까? 더 정확하게 말하면, 세계에 있는 물체의 모양, 외양, 심지어 역학까지의 3D 표현은 인지된 모든 시각적 관찰을 그에 따라 해석하기 위해 우리 두뇌가 내부적으로 개발한 가장 간결하고 구조화된 표현이어야 합니다. 그렇다면 이 두 가지 원칙은 간결하고 구조화된 3D 표현이 찾아야 할 내부 모델임을 시사합니다. 이는 아래 그림에 표시된 것처럼 폐쇄 루프 컴퓨팅 프레임워크 내에서 컴퓨터 비전과 컴퓨터 그래픽을 통합할 수 있고 통합해야 함을 의미합니다.

不盲追大模型与堆算力！沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性

그림 10: 시각적 통합을 위한 컴퓨터 비전과 그래픽 간의 폐쇄 루프 관계 입력 구조화된 3D 모델

컴퓨터 비전은 모든 2D 시각적 입력에 대해 내부 3D 모델을 재구성하고 식별하는 전진 프로세스로 흔히 설명되는 반면, 컴퓨터 그래픽은 내부 3D 모델을 렌더링하고 애니메이션하는 역 프로세스를 나타냅니다. 이 두 프로세스를 폐쇄 루프 시스템에 직접 결합하면 계산상으로나 실제적으로 큰 이점을 얻을 수 있습니다. 기하학, 시각적 외관 및 역학(예: 희소성 및 부드러움)의 모든 풍부한 구조를 가장 컴팩트한 통합 3D 모델에서 함께 사용할 수 있습니다. 모든 시각적 입력과 일치합니다.

컴퓨터 비전의 인식 기술은 컴퓨터 그래픽이 모양과 외관 공간에서 컴팩트한 모델을 구축하고 사실적인 3D 콘텐츠를 만드는 새로운 방법을 제공하는 데 도움이 될 수 있습니다. 반면, 컴퓨터 그래픽스의 3D 모델링 및 시뮬레이션 기술은 컴퓨터 비전 알고리즘으로 분석된 실제 객체와 장면의 속성과 동작을 예측, 학습, 검증할 수 있습니다. 시각 및 그래픽 커뮤니티에서는 오랫동안 "종합 분석" 접근 방식을 사용해 왔습니다.

외모와 형태의 획일적인 표현? 주어진 이미지 세트로부터 학습하여 새로운 관점이 생성되는 이미지 기반 렌더링은 절약적이고 일관된 원칙을 통해 비전과 그래픽 사이의 격차를 해소하려는 초기 시도로 볼 수 있습니다. 특히, 플렌옵틱 샘플링은 필요한 최소한의 이미지 수(절약성)로 앤티앨리어싱 이미지(자체 일관성)를 달성할 수 있음을 보여줍니다.

광범위한 지능

지능의 신경과학

사람들은 기본적인 지능 원리가 뇌의 설계에 중요한 영향을 미칠 것으로 예상할 것입니다. 절약과 자기 일관성의 원리는 영장류 시각 시스템에 대한 여러 실험적 관찰에 새로운 빛을 비췄습니다. 더 중요한 것은 향후 실험에서 무엇을 찾아야 하는지를 밝혀준다는 것입니다.

저자 팀은 단순히 내부의 간결하고 예측 가능한 표현을 찾는 것만으로도 "자기 감독"을 달성하고 압축된 폐쇄 루프 전사를 통해 학습된 최종 표현에 구조가 자동으로 나타날 수 있음을 입증했습니다.

예를 들어, 그림 9는 비지도 데이터 전사 학습이 다양한 범주의 특징을 자동으로 구별하여 뇌에서 관찰되는 범주 선택 표현에 대한 설명을 제공한다는 것을 보여줍니다. 이러한 특징은 또한 영장류 두뇌의 희소 코딩 및 부분 공간 코딩에 대한 광범위한 관찰에 대한 합리적인 설명을 제공합니다. 또한 시각적 데이터 모델링 외에도 최근 신경과학 연구에서는 뇌에서 발생하는 다른 구조적 표현(예: "장소 세포")도 가장 압축된 방식으로 공간 정보를 인코딩한 결과일 수 있음을 시사합니다.

MCR2(Maximum Coding Rate Reduction) 원리는 베이지안 추론으로 에너지를 최소화하려고 시도하는 인지과학의 '자유 에너지 최소화 원리'와 정신적으로 유사하다고 할 수 있습니다. 그러나 자유 에너지의 일반적인 개념과 달리 속도 감소는 닫힌 형식으로 표현될 수 있기 때문에 계산적으로 다루기 쉽고 직접적으로 최적화할 수 있습니다. 또한 이 두 가지 원칙의 상호 작용은 올바른 모델(클래스)의 자율 학습이 최소화보다는 이 유틸리티의 폐쇄 루프 최대화 게임을 통해 수행되어야 함을 시사합니다. 따라서 그들은 압축된 폐쇄 루프 전사 프레임워크가 베이지안 추론이 실제로 어떻게 구현될 수 있는지에 대한 새로운 관점을 제공한다고 믿습니다.

이 프레임워크는 또한 뇌에서 사용하는 전반적인 학습 아키텍처를 설명하는 것으로 믿고 있으며, 역전파를 통해 무작위 네트워크에서 학습할 필요 없이 최적화 방식을 전개하여 피드포워드 세그먼트를 구축할 수 있습니다. 또한 학습을 안내하기 위해 폐쇄 루프 피드백 시스템을 형성할 수 있는 프레임워크의 보완적인 생성 부분이 있습니다.

마지막으로, 프레임워크는 압축된 폐쇄 루프 전사와 공명하는 계산 방식인 "예측 코딩"의 뇌 메커니즘에 관심이 있는 많은 신경과학자들이 추구하기 어려운 "예측 오류" 신호를 공개합니다. , 들어오는 관측값과 생성된 관측값 간의 차이는 표현의 마지막 단계에서 측정되어야 합니다.

더 높은 수준의 지능을 향하여

Ma Yi 등의 연구에서는 압축된 폐쇄 루프 전사가 1995년에 Hinton 등이 제안한 프레임워크보다 계산적으로 더 다루기 쉽고 확장 가능하다고 믿습니다. 더욱이, 비선형 인코딩/디코딩 매핑(종종 심층 네트워크로 나타남)의 반복 학습은 본질적으로 외부의 정리되지 않은 원시 감각 데이터(예: 시각, 청각 등)와 내부의 컴팩트하고 구조화된 표현 사이에 중요한 연결을 제공합니다.

그러나 그들은 이 두 가지 원칙이 반드시 지능의 모든 측면을 설명하는 것은 아니라는 점도 지적했습니다. 높은 수준의 의미론적, 상징적, 논리적 추론의 출현과 발전을 뒷받침하는 계산 메커니즘은 여전히 파악하기 어렵습니다. 오늘날까지 이러한 고급 상징 지능이 지속적인 학습을 통해 발생할 수 있는지 아니면 하드 코딩되어야 하는지에 대한 논쟁이 있습니다.

세 과학자의 견해에 따르면, 각각 이산(객체) 범주에 해당하는 하위 공간과 같은 구조화된 내부 표현은 높은 수준의 의미 또는 상징적 개념이 출현하는 데 필요한 중간 단계입니다. 이러한 추상적 이산 개념 간의 기타 통계적, 인과적 또는 논리적 관계는 각 노드가 하위 공간/범주를 나타내는 컴팩트하고 구조화된(예: 희소) 그래프로 더욱 단순화되고 모델링될 수 있습니다. 자동 인코딩을 통해 그래프를 학습하여 자체 일관성을 보장할 수 있습니다.

그들은 공유 가능한 상징적 지식을 갖춘 고급 지능의 출현과 발전은 개별 에이전트가 학습한 간결하고 구조화된 표현을 통해서만 가능하다고 추측합니다. 따라서 지능형 시스템 간의 효과적인 정보 교환이나 지식 전달을 통해 고급 지능(고급 지능이 존재하는 경우) 출현을 위한 새로운 원리를 탐구해야 한다고 제안했습니다.

또한 더 높은 수준의 지능은 이 기사에서 제안하는 두 가지 원칙과 두 가지 공통점을 가져야 합니다.

해석 가능성: 모든 원칙은 측정 가능한 목표를 포함하여 지능의 계산 메커니즘을 흰색 상자로 드러내는 데 도움이 되어야 합니다. 관련 계산 아키텍처 및 표현 학습을 위한 구조.
계산 가능성: 모든 새로운 지능 원리는 계산이 가능하고 확장 가능해야 하며 컴퓨터나 자연 물리학을 통해 달성 가능해야 하며 궁극적으로 과학적 증거로 확인되어야 합니다.

해석 가능성과 계산 가능성만이 현재의 비싸고 시간이 많이 걸리는 "시행 착오" 방법에 의존하지 않고 인공 지능의 발전을 앞당길 수 있으며 이를 완료하는 데 필요한 최소한의 데이터 및 컴퓨팅 리소스를 설명할 수 있습니다. 단순히 "더 클수록 좋다"는 무차별 접근 방식을 옹호하는 것이 아닙니다. 지혜는 가장 유능한 사람들의 특권이 되어서는 안 됩니다. 올바른 원칙을 갖춘다면 누구나 크든 작든 차세대 지능형 시스템을 설계하고 구축할 수 있어야 하며, 그 자율성, 역량 및 효율성은 궁극적으로 모방하거나 심지어 모방할 수도 있습니다. 동물과 인간을 능가합니다.

문서 링크:

https://arxiv.org/pdf/2207.04630.pdf

위 내용은 맹목적으로 대형 모델을 쫓아 컴퓨팅 파워를 쌓지 마세요! Shen Xiangyang, Cao Ying 및 Ma Yi는 AI를 이해하기 위한 두 가지 기본 원칙인 절약과 자기 일관성을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!