GPT-4 및 LLM: Microsoft 팀은 5가지 주요 과학 분야를 다루는 230페이지 분량의 기사인 과학적 발견의 영향을 탐구합니다.

콘텐츠를 다시 작성할 때 원본 텍스트는 중국어로 다시 작성해야 하며 원본 영어 문장은 나타날 필요가 없습니다.

얼마 전 Microsoft DeepSpeed 팀은 최적화를 목표로 DeepSpeed4Science라는 새로운 프로그램을 출시했습니다. AI 시스템을 통한 기술 과학적 발견을 가능하게 합니다.

11월 13일, Microsoft 팀은 arXiv 사전 인쇄 플랫폼에 "The Impact of Large Language Models on Scientific Discovery: A Preminary Study Using GPT-4"라는 제목의 기사를 arXiv 사전 인쇄 플랫폼에 게시했습니다

이 기사의 길이는 230페이지에 달했습니다

GPT-4 및 LLM: Microsoft 팀은 5가지 주요 과학 분야를 다루는 230페이지 분량의 기사인 과학적 발견의 영향을 탐구합니다.

논문 링크: https://arxiv.org/abs/2311.07361

최근 몇 년간 자연어 처리 분야의 획기적인 발전은 강력한 대형 언어 모델(LLM)의 출현으로 정점에 이르렀습니다. 자연어 이해, 생성, 번역 등 다양한 분야의 역량을 갖추고 있으며, 언어 처리 이상의 업무까지 확장됩니다.

이 보고서에서 Microsoft 연구원은 최첨단 언어 모델 GPT-4에 초점을 맞춰 과학적 발견/연구의 맥락에서 LLM의 성과를 심층적으로 살펴봅니다. 연구는 신약 발견, 생물학, 전산 화학(DFT 및 MD), 재료 설계, 편미분 방정식(PDE) 등 다양한 과학 분야에 걸쳐 이루어집니다.

GPT-4를 평가하는 과학적 임무를 위해서는 다양한 연구 분야에서 잠재력을 활용하고, 특정 분야의 전문성을 검증하고, 과학적 진보를 가속화하고, 자원 할당을 최적화하고, 미래 모델 개발을 안내하고, 학제간 연구를 촉진하는 것이 중요합니다. 탐색 방법에는 모델이 복잡한 과학적 개념과 관계를 이해하는 데 도움이 되는 질적 통찰력을 제공할 수 있는 전문가 중심 사례 평가와 잘 정의된 영역별 문제를 해결하는 모델의 능력을 정량적으로 평가하는 비정기적인 벤치마킹이 주로 포함됩니다. 예비 조사를 통해 GPT-4는 다양한 과학적 응용 분야에서 큰 잠재력을 갖고 있으며 복잡한 문제 해결 및 지식 통합 작업을 처리하는 능력을 입증했습니다. 연구자들은 위에서 언급한 분야(예: 신약 발견, 생물학, 컴퓨터 화학, 재료 설계 등)에서 GPT-4의 성능을 분석하여 장점과 한계를 강조했습니다. GPT-4의 지식 기반, 과학적 이해 능력, 과학적 수치 계산 능력, 다양한 과학적 예측 능력을 종합적으로 평가합니다

GPT-4는 특정 요구 사항을 충족하는 데 도움이 되는 생물학 및 재료 설계 분야의 광범위한 도메인 지식을 보유하고 있습니다. 신약 발견과 같은 다른 영역에서 GPT-4는 강력한 특성 예측 기능을 입증했습니다. 그러나 전산화학, 편미분방정식 등 연구 분야에서는 GPT-4가 연구자들의 예측과 계산에 도움이 될 것으로 기대되지만, 정확도를 높이기 위한 추가적인 노력이 필요하다. 인상적인 기능에도 불구하고 GPT-4는 여전히 정확도 향상을 위한 미세 조정의 필요성과 같은 정량적 컴퓨팅 작업에 대한 개선 사항을 제공합니다.

연구자들은 이 보고서가 과학 연구 및 응용 분야에 LLM을 활용하려는 연구자와 실무자에게 유용할 수 있기를 바랍니다. 자연어 처리의 특정 분야를 발전시키는 데 관심이 있는 사람들도 있습니다. LLM 및 대규모 기계 학습 분야는 빠르게 발전하고 있으며, 미래 세대의 LLM에는 이 보고서에 언급되지 않은 추가 기능이 있을 수 있다는 점을 강조하는 것이 중요합니다. 특히 LLM과 전문 과학 도구 및 모델의 통합과 기초 과학 모델의 개발은 두 가지 유망한 연구 방향을 나타냅니다.

약물 발견

약물 발견은 의학 발전에서 제약 산업이 중요한 역할을 하는 중요한 부분입니다. 약물 발견에는 표적 식별, 리드 최적화, 전임상 테스트를 포함한 복잡한 다학문적 프로세스가 포함되어 궁극적으로 안전하고 효과적인 약물의 개발로 이어집니다.

GPT-4는 발견 프로세스 가속화, 검색 및 디자인 비용 절감, 창의성 향상 등 신약 발견에 큰 잠재력을 가지고 있습니다. 이 장에서는 먼저 정성적 테스트를 통해 약물 발견에 대한 GPT-4의 지식을 연구한 다음, 약물-표적 상호작용/결합 친화도 예측, 분자 특성 예측, 역합성 예측을 포함한 여러 핵심 작업에 대한 정량적 테스트를 통해 GPT-4의 예측 능력을 조사합니다

재작성된 내용 : 첫 번째 예는 주어진 약물 이름의 화학식, IUPAC 이름 및 SMILES를 생성하는 것과 관련됩니다. 이는 이름을 약물의 다른 표현으로 변환하는 것입니다. Afatinib이 입력 약물로 사용되었습니다. GPT-4는 올바른 화학식 C24H25ClFN5O3와 올바른 IUPAC 이름을 성공적으로 출력했으며, 이는 GPT-4가 Afatinib 약물을 인식하고 있음을 나타냅니다. 그러나 생성된 SMILES가 올바르지 않습니다. 따라서 연구원들은 GPT-4가 SMILES를 재생하도록 지침을 제공했습니다. 불행하게도 GPT-4가 "각 원자 유형의 원자 수에 주의를 기울이고" 올바른 IUPAC 및 화학 공식을 기반으로 SMILES를 생성해야 한다는 명시적인 요구 사항에도 불구하고 여러 실험에서 생성된 SMILES 시퀀스는 여전히 부정확했습니다

GPT-4 및 LLM: Microsoft 팀은 5가지 주요 과학 분야를 다루는 230페이지 분량의 기사인 과학적 발견의 영향을 탐구합니다.

첫 번째 이미지는 약물 이름 및 기타 약물 표현의 번역을 보여줍니다. (논문에서 인용)

Biology

이 장에서 연구자들은 생물학적 언어 이해, 내장된 생물학적 지식을 활용한 추론, 생물학적 분자 및 생물학적 실험을 설계합니다. 관찰에 따르면 GPT-4는 복잡한 생물학적 언어를 처리하고, 생물정보학 작업을 수행하고, 심지어 생물학적 설계에서 과학적 보조자 역할을 하는 능력을 보여줌으로써 생물학 분야에 기여할 수 있는 큰 잠재력을 보여줍니다. GPT-4의 생물학적 개념에 대한 광범위한 이해와 설계 작업의 과학적 보조자로서의 큰 잠재력은 생물학 분야를 발전시키는 데 있어 중요한 역할을 강조합니다.

먼저 생물학적 서열 기호와 텍스트 기호를 처리하는 GPT-4의 능력을 평가했습니다.

연구원들은 GPT-4에 생물학적 서열과 텍스트 기호 간 변환을 요청했습니다. 1) 주어진 단백질 서열의 단백질 이름을 출력합니다. 2) 주어진 이름의 단백질 서열을 출력합니다. 각 작업 전에는 정보 유출을 방지하기 위해 세션을 다시 시작합니다. GPT-4는 시퀀스-텍스트 기호 변환에 대해 알고 있지만 직접 조회(BLAST 시퀀스라고도 함) 자체는 할 수 없는 것으로 나타났습니다. 한편, GPT-4는 생물학적 서열(단백질 및 DNA 포함, 후자는 표시되지 않음)에 대한 텍스트 태그를 선호합니다. 텍스트 기호가 제공되면 디자인 철학으로 인해 더 풍부한 정보를 제공합니다. 시퀀스를 생성하면 GPT-4의 치명적인 동작이 발생할 수 있다는 점도 지적했다는 점에 유의하는 것이 중요합니다. 아래 이미지에서 볼 수 있듯이 GPT-4는 올바른 UniProt ID를 반환했지만 시퀀스를 생성하는 데 어려움을 겪었습니다. 여러 가지 다른 프롬프트를 시도하면 시퀀스 생성이 충돌합니다.

GPT-4 및 LLM: Microsoft 팀은 5가지 주요 과학 분야를 다루는 230페이지 분량의 기사인 과학적 발견의 영향을 탐구합니다.

그림 2: 시퀀스 기호와 텍스트 기호 간의 변환. (출처: 논문)

Computational Chemistry

화학 컴퓨팅은 화학의 복잡한 문제를 해결하기 위해 컴퓨터 방법과 기술을 사용하는 학제간 분야입니다. 화학 계산은 원자 수준의 상호 작용에 대한 깊은 이해를 제공할 뿐만 아니라 실험 작업을 안내하는 분자 시스템 연구에서 오랫동안 없어서는 안 될 도구였습니다. 화학 계산은 미시적 및 거시적 수준에서 분자 구조, 화학 반응 및 물리적 현상을 이해하는 데 중요한 역할을 합니다. 이 장에서는 계산 화학 분야에서 GPT-4의 기능에 중점을 둘 것입니다. 우리는 전자 구조 방법과 분자 역학 시뮬레이션에서의 응용을 탐구하고 두 가지 실제 사례를 보여줌으로써 다양한 관점에서 GPT-4의 서비스 기능을 보여줄 것입니다. 요약하자면, GPT-4는 다양한 방식으로 전산화학 연구자들을 도울 수 있습니다

이 연구는 양자 화학 및 물리학의 개념을 설명하는 GPT-4의 능력을 평가하는 것으로 시작되었습니다. 평가에서는 밀도 함수 이론(DFT), 파동 함수 이론(WFT) 등 현장에서 일반적으로 사용되는 방법을 다룹니다.

GPT-4 및 LLM: Microsoft 팀은 5가지 주요 과학 분야를 다루는 230페이지 분량의 기사인 과학적 발견의 영향을 탐구합니다. 그림 3: 밀도 함수 이론의 개념 테스트. (출처: 논문)

위의 예에서 GPT-4는 밀도 함수 이론, KohnSham 밀도 함수 이론 및 무궤도 밀도 함수 이론의 개념에 대한 좋은 이해를 제공합니다.

Material Design

이 장에서는 재료 디자인 분야에서 GPT-4의 역량을 연구합니다. 연구원들은 초기 개념화부터 후속 검증 및 합성에 이르기까지 재료 설계 프로세스의 모든 측면을 다루는 포괄적인 작업 세트를 설계했습니다. 목표는 GPT-4의 전문성과 실제 응용 프로그램에서 의미 있는 통찰력과 솔루션을 생성하는 능력을 평가하는 것입니다. 설계된 작업은 배경 지식, 설계 원리, 후보 식별, 후보 구조 생성, 속성 예측 및 합성 조건 예측을 포함한 다양한 측면을 다룹니다. 전체 설계 프로세스를 다루면서 특히 결정질 무기 재료, 유기 폴리머 및 MOF(금속-유기 프레임워크)와 같은 보다 복잡한 재료에 대한 재료 설계에 대한 GPT-4의 숙련도에 대한 전반적인 평가를 제공하는 것이 목표입니다.

평가는 주로 이 전문 분야에서 GPT-4의 역량에 대한 질적 평가에 중점을 두었으며 가능한 경우에만 통계 점수가 부여된다는 점은 주목할 가치가 있습니다.

연구진은 먼저 일반화학에 따른 분류, 음이온 종류에 따른 분류 등 요구사항이 다른 현재의 고체전해질이 어떻게 분류되는지 조사했습니다. 또한 그들은 이러한 분류 기준에 따른 예를 요청했습니다. 그림 4에 표시된 것처럼 모든 답변은 사실이며 대부분 정확합니다. 이러한 분류 기준은 문헌에 잘 표현되어 있지 않기 때문에 GPT-4는 화학이 무엇을 의미하는지 비교적 명확하게 이해해야 합니다.

GPT-4 및 LLM: Microsoft 팀은 5가지 주요 과학 분야를 다루는 230페이지 분량의 기사인 과학적 발견의 영향을 탐구합니다.

원본 논문에 따르면 다시 작성해야 할 내용은 다음과 같습니다. 그림 4: 고체의 무기 분류 전해질

부분미분방정식

부분미분방정식(PDE)은 물리학, 공학, 생물학, 금융 등 다양한 분야에 광범위하게 응용되는 수학에서 중요하고 매우 활발한 연구 분야입니다. 편미분 방정식은 유체 역학 및 열 전달부터 전자기장 및 그룹 역학에 이르기까지 광범위한 현상을 모델링하고 이해하는 데 중요한 역할을 합니다.

이 장에서는 편미분 방정식의 기본 이해, 편미분 방정식 풀기, 편미분 방정식 연구에서 AI 지원 등 편미분 방정식의 여러 측면에 대한 GPT-4의 기술을 연구합니다. 연구자들은 선형 방정식, 비선형 방정식, 확률론적 PDE 등 다양한 형태의 PDE에 대한 모델을 평가합니다. 연구에 따르면 GPT-4는 다양한 방식으로 연구자에게 도움이 될 수 있습니다.

첫 번째 질문은 편미분 방정식의 정의와 형태에 관한 것입니다. GPT-4는 그림 5와 같이 편미분 방정식에 대해 잘 설명합니다. 사용자의 지시에 따라 GPT-4는 편미분 방정식의 명확한 개념과 선형 또는 비선형, 타원, 포물선 또는 쌍곡선 범주를 제공합니다. 해당 분야에 새로 입문한 사람들은 이러한 개념과 분류를 통해 이점을 얻을 수 있습니다.

GPT-4 및 LLM: Microsoft 팀은 5가지 주요 과학 분야를 다루는 230페이지 분량의 기사인 과학적 발견의 영향을 탐구합니다.

그림 5: PDE의 기본 개념 소개. (출처: 논문)

미래 전망

본 연구에서는 다양한 자연과학 분야에서 LLM의 역량과 한계를 탐색하고 다양한 업무를 다룹니다. 우리의 주요 목표는 최첨단 LLM GPT-4와 과학적 발견의 잠재력에 대한 예비 평가를 제공하고 다양한 분야의 연구자들에게 귀중한 자원과 도구를 제공하는 것입니다

광범위한 분석을 통해 연구는 문헌 합성부터 속성 예측 및 코드 생성에 이르기까지 수많은 과학 작업에 대한 숙련도에서 GPT-4의 잠재력. 인상적인 기능에도 불구하고 특정 데이터 형식 처리의 어려움, 응답 불일치, 간헐적인 환각 등 GPT-4(및 유사한 LLM)의 한계를 인식하는 것이 중요합니다.

연구원들은 이번 탐사가 자연 과학에서 GPT-4의 잠재력을 이해하고 인식하는 데 중요한 첫 단계라고 믿습니다. 장점과 단점에 대한 자세한 개요를 제공함으로써 연구자들이 GPT-4(또는 기타 LLM)를 일상 업무에 통합할 때 정보에 입각한 결정을 내릴 수 있도록 돕고 한계를 염두에 두고 최적의 적용을 보장하기 위한 것입니다.

또한 과학적 발견 능력을 향상시키는 것을 목표로 GPT-4 및 기타 LLM에 대한 추가 탐구 및 개발이 권장됩니다. 여기에는 교육 프로세스 개선, 분야별 데이터 및 아키텍처 병합, 다양한 과학 분야에 맞춤화된 전문 지식 통합이 포함될 수 있습니다.

인공 지능 분야가 계속 발전함에 따라 GPT-4와 같은 복잡한 모델의 통합은 과학 연구 및 혁신을 가속화하는 데 점점 더 중요한 역할을 할 것입니다.

마지막으로 이 연구는 LLM이 과학 연구 측면에서 개선해야 할 사항을 요약합니다. 이를 바탕으로 LLM을 강화하거나 과학적 혁신을 촉진하기 위한 잠재적인 방향을 논의합니다.

위 내용은 GPT-4 및 LLM: Microsoft 팀은 5가지 주요 과학 분야를 다루는 230페이지 분량의 기사인 과학적 발견의 영향을 탐구합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!