기술 주변기기 일체 포함 텍스트 내 학습의 수학

텍스트 내 학습의 수학

Feb 26, 2025 am 12:03 AM

현대적인 대형 언어 모델 (LLM)의 주요 기능인 컨텍스트 학습 (ICL)을 통해 입력 프롬프트 내 예제에 따라 변압기가 적응할 수 있습니다. 몇 가지 작업 예제를 사용하여 소수의 프롬프트는 원하는 동작을 효과적으로 보여줍니다. 그러나 변압기는 어떻게 이러한 적응을 달성합니까? 이 기사는 ICL의 잠재적 메커니즘을 탐구합니다

ICL의 핵심은 다음과 같습니다. 주어진 예제 쌍 ((x, y)),주의 메커니즘은 새로운 쿼리 (x)를 출력 (y)에 매핑하는 알고리즘을 배울 수 있습니다. SoftMax주의 및 가장 가까운 이웃 검색

SoftMax주의 공식은 다음과 같습니다 The Math Behind In-Context Learning

역 온도 매개 변수 도입, c

,주의 할당을 수정합니다 :

c

가 무한대에 접근 할 때,주의는 가장 유사한 토큰에만 초점을 맞춘 한 가지 벡터가됩니다. 효과적으로 가장 가까운 이웃 검색입니다. 유한 한

c

를 사용하면주의가 가우시안 커널 스무딩과 유사합니다. 이는 ICL이 입력 출력 쌍에서 가장 가까운 이웃 알고리즘을 구현할 수 있음을 시사합니다. 시사점 및 추가 연구 트랜스포머를 이해하는 방법을 이해하면 (가장 가까운 이웃과 같은) Automl의 문이 열립니다. Hollmann et al. 합성 데이터 세트에서 변압기를 훈련시켜 전체 Automl 파이프 라인을 배우고 단일 패스의 새로운 데이터에서 최적의 모델과 하이퍼 파라미터를 예측했습니다. Anthropic의 2022 년 연구는 메커니즘으로서 "유도 헤드"를 시사합니다. 이 쌍의주의 헤드는 복사 및 완전한 패턴을 복사합니다. 예를 들어, "... a, b ... a"가 주어지면 이전 컨텍스트에 따라 "B"를 예측합니다. 최근 연구 (Garg et al. 2022, Oswald et al. 2023) 링크 변압기의 ICL을 그라디언트 하강에 연결합니다. 선형주의, SoftMax 작동을 생략 : The Math Behind In-Context Learning

는 전제 조건 구배 하강 (PGD)과 비슷합니다

하나의 선형주의 층은 하나의 PGD 단계를 수행합니다 결론 주의 메커니즘은 학습 알고리즘을 구현하여 데모 쌍에서 학습하여 ICL을 가능하게합니다. 다중주의 층과 MLP의 상호 작용은 복잡하지만 연구는 ICL의 역학에 대한 빛을 발산합니다. 이 기사는 이러한 통찰력에 대한 높은 수준의 개요를 제공합니다 추가 읽기 :

    텍스트 내 학습 및 유도 헤드
  • 변압기는 텍스트에서 무엇을 배울 수 있습니까? 간단한 기능 클래스의 사례 연구
  • 변압기는 그라디언트 하강에 의해 텍스트 내에서 학습됩니다 변압기는 텍스트 내 학습을위한 전제 조건 구배 하강을 구현하는 법을 배웁니다.
  • 승인 이 기사는 미시간 대학교 (University of Michigan)의 2024 년 가을 대학원 과정에서 영감을 받았습니다. 모든 오류는 전적으로 저자입니다.

위 내용은 텍스트 내 학습의 수학의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

뜨거운 기사 태그

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

MCP (Model Context Protocol) 란 무엇입니까? MCP (Model Context Protocol) 란 무엇입니까? Mar 03, 2025 pm 07:09 PM

MCP (Model Context Protocol) 란 무엇입니까?

Omniparser V2 및 Omnitool을 사용하여 지역 비전 에이전트 구축 Omniparser V2 및 Omnitool을 사용하여 지역 비전 에이전트 구축 Mar 03, 2025 pm 07:08 PM

Omniparser V2 및 Omnitool을 사용하여 지역 비전 에이전트 구축

REPLIT 에이전트 : 실제 예제가있는 가이드 REPLIT 에이전트 : 실제 예제가있는 가이드 Mar 04, 2025 am 10:52 AM

REPLIT 에이전트 : 실제 예제가있는 가이드

나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다! 나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다! Mar 20, 2025 pm 03:34 PM

나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다!

활주로 ACT-One Guide : 나는 그것을 테스트하기 위해 스스로 촬영했다 활주로 ACT-One Guide : 나는 그것을 테스트하기 위해 스스로 촬영했다 Mar 03, 2025 am 09:42 AM

활주로 ACT-One Guide : 나는 그것을 테스트하기 위해 스스로 촬영했다

Elon Musk & Sam Altman은 5 천억 달러 이상의 Stargate 프로젝트를 충돌시킵니다. Elon Musk & Sam Altman은 5 천억 달러 이상의 Stargate 프로젝트를 충돌시킵니다. Mar 08, 2025 am 11:15 AM

Elon Musk & Sam Altman은 5 천억 달러 이상의 Stargate 프로젝트를 충돌시킵니다.

DeepSeek은 3FS 및 Smallpond 프레임 워크를 릴리스합니다 DeepSeek은 3FS 및 Smallpond 프레임 워크를 릴리스합니다 Mar 03, 2025 pm 07:07 PM

DeepSeek은 3FS 및 Smallpond 프레임 워크를 릴리스합니다

5 Grok 3 3을 쉽게 만들 수있는 프롬프트 5 Grok 3 3을 쉽게 만들 수있는 프롬프트 Mar 04, 2025 am 10:54 AM

5 Grok 3 3을 쉽게 만들 수있는 프롬프트

See all articles