연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.-일체 포함-php.cn

어제 전체 커뮤니티에서 가장 인기 있었던 주제는 다름 아닌 Google AI 리더인 Jeff Dean의 논문 참여에 의문을 제기하는 Reddit의 기계 학습 연구원이었습니다. "대규모 다중 작업 학습 시스템에서 작업의 동적 도입에 대한 진화적 접근 방식"이라는 논문이 목요일 사전 인쇄 논문 플랫폼 arXiv에 제출되었습니다. 연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

논문에서 Jeff Dean 등은 대규모 다중 작업 모델을 생성하는 동시에 새로운 작업의 동적이고 지속적인 추가를 지원하는 진화적인 알고리즘을 제안했습니다. 생성된 다중 작업 모델은 드물게 활성화되고 통합됩니다. 작업 기반 라우팅. 새로운 방법은 공공 데이터로만 훈련된 모델에 대해 CIFAR-10에서 99.43%의 새로운 업계 최고 인식 정확도를 달성하는 등 69개 이미지 분류 작업에서 경쟁력 있는 결과를 달성합니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

의문이 제기된 것은 CIFAR-10에서 달성된 이 새로운 SOTA이며, 이전 SOTA는 99.40이었습니다. 그녀는 "이 결과를 생성하는 데 총 17,810 TPU 코어 시간이 필요했습니다. Google에서 일하지 않으면 시간당 $3.22의 주문형 결제를 사용해야 하고 훈련된 모델 비용은 $57,348입니다.

"라고 말했습니다. , 그녀는 "Jeff Dean은 5년 동안 4인 가족을 부양할 만큼 충분한 돈을 썼고, CIFAR-10에서 0.03% 개선을 달성하고, 새로운 SOTA를 만들었습니다. 다 그럴만한 가치가 있나요?"

이 질문은 현장의 많은 사람들에게 반향을 불러일으켰습니다. 일부 연구자들은 "딥러닝에 대한 관심이 거의 사라졌다. 소규모 실험실의 실무자로서 컴퓨팅 예산 측면에서 거대 기술 기업과 경쟁하는 것은 기본적으로 불가능하다. 좋은 이론적 아이디어를 갖고 있다고 해도, 또한 세상의 빛을 보기 어렵게 만드는 주류 환경의 편견일 수도 있습니다. 이는 불공평한 경쟁의 장을 만듭니다.” 그는 "우리 연구의 목표는 더 높은 품질의 cifar10 모델을 얻는 것이 아니며, 원저자의 비용 계산 방법에도 문제가 있다"고 말했습니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다. Jeff Dean의 답변 전문

이 논문 는 나와 Andrea Gesmundo의 공동 작업으로 함께 완성되었으며 Andrea Gesmundo가 논문 작업의 대부분을 수행했습니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다. 논문 주소: https://arxiv.org/pdf/2205.12755.pdf

제가 말씀드리고 싶은 것은 이 연구의 목표는 고품질의 cifar10 모델을 얻는 것이 아니라는 것입니다. 오히려 본 연구에서는 실행 중인 시스템에 새로운 작업을 동적으로 도입하고 기존 모델의 표현을 재사용하고 드물게 새로운 매개변수를 도입하는 새로운 작업에 대한 고품질 모델을 성공적으로 얻을 수 있는 설정을 탐구합니다. 치명적인 망각 또는 부정적인 이주로.

이 연구의 실험은 여러 독립적인 시각화 작업 벤치마크에서 69개의 다양한 작업 흐름을 동적으로 도입하여 이러한 모든 작업에 대한 고품질 솔루션을 공동으로 생성할 수 있는 다중 작업 시스템으로 끝날 수 있음을 보여줍니다. 결과 모델은 주어진 작업에 대해 드물게 활성화되며 시스템은 새로운 작업에 대해 점점 더 적은 수의 새로운 매개변수를 도입합니다(아래 그림 2 참조). 멀티태스킹 시스템은 이 작업 흐름이 끝날 때 증분 작업에 대해 1.4%의 새로운 매개변수만을 도입했으며, 각 작업은 모델의 전체 매개변수의 평균 2.3%를 활성화했습니다. 작업 간에는 상당한 표현 공유가 있으며, 진화 프로세스는 그것이 타당한 시기와 새로운 훈련 가능한 매개변수가 새로운 작업에 도입되어야 하는 시기를 결정하는 데 도움이 됩니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다. 또한 원래 게시물의 작성자가 비용을 잘못 계산한 것 같습니다. 실험은 cifar10 모델을 훈련하는 대신 69개 작업을 공동으로 해결하는 다중 작업 모델을 훈련하는 것이었습니다. 아래 표 7에서 볼 수 있듯이 사용된 계산은 TPUv3 코어와 TPUv4 코어를 혼합하여 사용하므로 코어 시간은 가격이 다르기 때문에 단순히 계산할 수 없습니다.

특별히 긴급한 작업이 있거나 cifar10+68 작업을 신속하게 교육해야 하는 경우를 제외하고 이러한 유형의 연구에서는 선제적인 가격, 즉 $0.97/시간 TPUv4, $0.60/시간 TPUv3(그들이 말한 것과는 다름)로 리소스를 쉽게 사용할 수 있습니다. 온디맨드 가격은 시간당 $3.22입니다. 이러한 가정 하에서 표 7에 설명된 컴퓨팅 퍼블릭 클라우드 비용은 약 $13,960(12,861 TPUv4 칩 시간 및 2,474.5 TPUv3 칩 시간의 선점형 가격 사용) 또는 작업당 약 $202입니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

저는 활성화가 희박한 모델을 보유하고 (적절한 경우) 표현을 공유하고 치명적인 망각을 피할 수 있는 기존 시스템에 새로운 작업을 동적으로 도입할 수 있는 것이 중요하다고 생각합니다. 이러한 연구는 적어도 탐구할 가치가 있습니다. 이 시스템은 또한 특별히 공식화할 필요 없이 새로운 작업이 자동으로 시스템에 통합될 수 있다는 장점이 있는데(이것이 진화적 검색 프로세스가 수행하는 작업입니다), 이는 지속적으로 학습하는 시스템의 유용한 속성인 것 같습니다.

본 논문의 코드는 오픈소스이므로 직접 확인해 보실 수 있습니다.

코드 주소: https://github.com/google-research/google-research/tree/master/muNet

원본 게시물의 작성자가 Jeff Dean

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

님의 답변을 본 후, 원본 게시물 저자는 다음과 같이 말했습니다: 명확히 하기 위해 Jeff Dean의 이 논문(각 작업에서 모델 증강을 생성하는 데 사용되는 진화 패턴)이 정말 흥미롭다고 생각합니다. 다른 논문이 생각나지만 제목이 기억나지 않습니다. 다른 모듈의 숨겨진 상태를 각 레이어 입력의 일부로 사용하지만 기존 구성 요소의 가중치를 업데이트하지 않고 각 새 작업에 대해 전체 아키텍처에 새 모듈을 추가하는 방법에 대해 대략적으로 설명합니다.

각 작업에 대해 모델에 모듈을 구축하는 아이디어도 있습니다. 아기 사슴이 태어난 지 몇 분 만에 어떻게 걸을 수 있는지 아시나요? 이와 대조적으로 그 당시 갓 태어난 새끼 사슴은 움직임을 감지하거나 세상을 모델링하는 방법을 배우기 위한 "훈련 데이터"가 본질적으로 없었으며, 대신 새끼 사슴이 기본 기술을 갖기 위해 유전되어야 하는 뇌의 특수 구조를 활용해야 했습니다. . 이러한 구조는 매우 유용하므로 새롭지만 관련된 제어 작업으로 빠르게 일반화될 수 있습니다.

그래서 이 문서를 통해 저는 새로운 작업을 더 효율적으로 학습하는 데 사용할 수 있는 이미 존재하는 상속 가능한 구조의 개발에 대해 생각하게 되었습니다.

다른 연구실의 연구원도 같은 아이디어를 가지고 있을 수 있지만 기존 설정에서 대규모 클라우드 플랫폼으로 이동할 여유가 없기 때문에 훨씬 더 나쁜 결과를 얻을 수 있습니다. 그리고 커뮤니티가 이제 SOTA 결과에 지나치게 집중하고 있기 때문에 그들의 연구는 출판될 수 없습니다. 비용은 작업당 "고작" $202이지만, 문제를 해결하려면 많은 반복이 필요합니다.

따라서 큰 컴퓨팅 예산을 확보할 수 없는 사람들에게는 기본적으로 두 가지 옵션만 있습니다. 하나는 Google이 기존 모델을 공개적으로 배포하고 필요에 따라 이를 미세 조정할 수 있기를 기도하고 희망하는 것입니다. 그러나 모델은 우리가 제거할 수 없는 편견이나 적대적인 약점을 학습했을 수도 있다는 것이 밝혀졌습니다. 두 번째는 아무것도 하지 않고 누워 있는 것입니다.

그래서 내 문제는 이 연구에만 있는 것이 아닙니다. OpenAI가 GPT-4에 수천억 달러(비유적으로 말하면)를 지출하고 싶다면 더 많은 전력을 공급하십시오. 이것은 사람들이 실제 업무에서 더 나은 성과를 거두도록 돕기보다는 현란함, 큰 숫자, 사치에 지나치게 보상하는 과학 및 출판 문화입니다. 제가 가장 좋아하는 논문은 2019년 van der Oord가 쓴 "Representation Learning with Contrastive Predictive Coding"입니다. 이 논문에서는 감독되지 않은 사전 훈련 작업을 사용한 다음 작은 레이블 하위 집합에 대한 지도 훈련을 사용하여 복제본 레이블이 지정된 모든 데이터의 정확도 결과를 달성하고 이에 대해 논의합니다. 데이터 효율성 측면에서 이러한 개선이 이루어졌습니다. 나는 이러한 결과를 작업에 재현하고 사용하여 시간과 비용을 절약했습니다. 이 논문을 토대로 저는 그의 박사과정 학생이 되고 싶습니다.

그러나 OpenAI는 "Language Models are Few-Shot Learners"라는 논문에서 더 큰 변형 모델 GPT-3을 제안했으며, 이 논문은 거의 4,000회에 달하는 인용과 NeurIPS 2020 최우수 논문 상을 받았으며, 언론 전체의 주목도 받았습니다.

위 내용은 연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!