LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.-일체 포함-php.cn

Background

대형모델(LLM)은 인공지능(AGI) 발전의 새로운 방향을 제시하며, 인터넷, 서적, 기타 말뭉치 등 대규모 공공데이터를 통해 대규모 자기주도 학습을 진행합니다. 강력한 언어 이해력, 언어 생산, 추론 및 기타 능력을 얻습니다. 그러나 대규모 모델은 여전히 프라이빗 도메인 데이터를 활용하는 데 몇 가지 어려움에 직면해 있습니다. 프라이빗 도메인 데이터는 특정 기업이나 개인이 소유한 데이터를 말하며 일반적으로 도메인별 지식을 포함하고 있으며 대규모 모델과 프라이빗 도메인 지식을 결합하면 큰 가치를 제공할 수 있습니다.

개인 도메인 지식은 데이터 형태에 따라 비정형 데이터와 정형 데이터로 나눌 수 있습니다. 문서와 같은 비정형 데이터는 일반적으로 검색을 통해 강화되며, 랭체인과 같은 도구를 사용하면 질의응답 시스템을 신속하게 구현할 수 있습니다. 데이터베이스(DB)와 같은 구조화된 데이터에는 유용한 정보를 얻기 위해 데이터베이스와 상호 작용하고 쿼리하고 분석하기 위한 대규모 모델이 필요합니다. 최근 LLM을 사용하여 지능형 데이터베이스 생성, BI 분석 수행, 자동 테이블 구성 완료 등 대규모 모델 및 데이터베이스를 중심으로 일련의 제품 및 애플리케이션이 파생되었습니다. 그 중에서도 데이터베이스와 자연어로 상호작용하는 text-to-SQL 기술은 늘 기대되는 방향이었습니다.

학계에서는 과거 text-to-SQL 벤치마크가 소규모 데이터베이스에만 중점을 두었습니다. 가장 발전된 LLM은 이미 85.3%의 실행 정확도를 달성했지만 이는 LLM이 이미 자연어로 사용될 수 있다는 의미입니다. 데이터베이스용 인터페이스?

신세대 데이터 세트

최근 Alibaba는 홍콩 대학 및 기타 기관과 함께 새로운 벤치마크 BIRD(Can LLM이 이미 데이터베이스 인터페이스 역할을 할 수 있습니까? 대규모 데이터베이스 기반 텍스트를 위한 BIg 벤치)를 출시했습니다. ) 95개의 대규모 데이터베이스와 고품질 Text-SQL 쌍을 포함하며 최대 33.4GB의 데이터 저장 용량을 갖춘 대규모 실제 데이터베이스 -SQL). 이전의 최고 모델은 BIRD에서 40.08%의 평가만을 달성했는데, 이는 인간의 결과인 92.96%와는 여전히 거리가 멀기 때문에 여전히 과제가 존재한다는 것을 증명합니다. 저자는 SQL의 정확성을 평가하는 것 외에도 모델이 올바른 SQL을 작성할 수 있을 뿐만 아니라 효율적인 SQL을 작성할 수 있기를 바라며 SQL 실행 효율성에 대한 평가도 추가했습니다.

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

논문: https://arxiv.org/abs/2305.03111

홈페이지: https://bird-bench.github.io

코드: https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/bird

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

현재 BIRD의 데이터, 코드, 목록은 오픈소스로 공개되어 있으며 전 세계적으로 다운로드 횟수는 10000을 초과했습니다. BIRD는 출시 이후 트위터에서 광범위한 관심과 토론을 불러일으켰습니다.

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

해외 유저들의 댓글도 매우 흥미롭습니다.

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

놓쳐서는 안 될 LLM 프로젝트

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

매우 유용한 체크포인트, 개선의 온상

AI가 도움을 줄 수는 있지만 아직은 대체할 수는 없습니다

내 직업은 지금은 안전합니다...

방법 개요

새로운 과제

이 연구는 주로 Spider 및 WikiSQL과 같은 과거에 인기 있었던 테스트 벤치마크의 Text-to-SQL 평가를 지향하며 소량의 데이터베이스 스키마에만 중점을 둡니다. 데이터베이스 콘텐츠로 인해 학술 연구 결과와 실제 응용 프로그램 간에 차이가 있습니다. BIRD는 대규모 및 실제 데이터베이스 콘텐츠, 자연어 질문과 데이터베이스 콘텐츠 간의 외부 지식 추론, 대규모 데이터베이스 처리 시 SQL의 효율성이라는 세 가지 새로운 과제에 중점을 둡니다.

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

우선, 데이터베이스에는 방대하고 시끄러운 데이터 값이 포함되어 있습니다. 왼쪽 예시에서는 데이터베이스의 문자열을 부동 소수점 값으로 변환(Float)한 후 집계 계산(Aggregation)을 수행하여 평균 급여를 계산해야 합니다.

두 번째로 외부 지식 추론이 필요합니다. , 중간 예에서는 사용자에게 정확한 답변을 반환하기 위해 모델은 대출에 적합한 계좌 유형이 "OWNER"("OWNER")여야 함을 먼저 알아야 하며, 이는 거대한 데이터베이스 뒤에 숨겨진 미스터리를 나타냅니다. 때로는 외부 지식과 추론이 필요합니다.

마지막으로 쿼리 실행 효율성을 고려해야 합니다. 오른쪽 예에서 보다 효율적인 SQL 쿼리를 사용하면 속도가 크게 향상될 수 있습니다. 이는 사용자가 올바른 SQL을 작성할 뿐만 아니라 특히 대규모 데이터베이스에서 효율적인 SQL 실행을 기대하기 때문에 업계에 큰 가치가 있습니다. ;

데이터 주석

BIRD는 주석 처리 중에 질문 생성과 SQL 주석을 분리합니다. 동시에 문제 및 SQL 주석 담당자가 데이터베이스를 더 잘 이해할 수 있도록 데이터베이스 설명 파일을 작성하는 전문가가 추가됩니다.

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

1. 데이터베이스 수집: 저자는 Kaggle 및 CTU Praha Relational Learning Repository와 같은 오픈 소스 데이터 플랫폼에서 80개의 데이터베이스를 수집하고 처리했습니다. 현재 대규모 모델에서 현재 데이터베이스가 학습되는 것을 방지하기 위해 실제 테이블 데이터를 수집하고, ER 다이어그램을 작성하고, 데이터베이스 제약 조건을 설정하여 15개의 데이터베이스를 블랙박스 테스트로 수동으로 생성했습니다. BIRD의 데이터베이스에는 블록체인, 스포츠, 의료, 게임 등을 포괄하는 37개 분야의 여러 분야의 패턴과 값이 포함되어 있습니다.

2. 문제 수집: 먼저 작성자는 데이터베이스에 대한 설명 파일을 작성하기 위해 전문가를 고용합니다. 설명 파일에는 전체 열 이름, 데이터베이스 값에 대한 설명 및 값을 이해하는 데 사용되는 외부 지식이 포함됩니다. 그런 다음 미국, 영국, 캐나다, 싱가포르 및 기타 국가에서 11명의 원어민을 모집하여 BIRD에 대한 질문을 생성했습니다. 모든 연사는 최소한 학사 학위 이상의 학위를 가지고 있습니다.

3. SQL 생성: BIRD용 SQL을 생성하기 위해 데이터 엔지니어와 데이터베이스 과정 수강생으로 구성된 글로벌 주석 팀이 모집되었습니다. 데이터베이스와 참조 데이터베이스 설명 파일이 주어지면 어노테이터는 질문에 정확하게 답하기 위해 SQL을 생성해야 합니다. 동일한 질문에 두 명의 주석자가 주석을 달아야 하는 Double-Blind 주석 방법이 채택되었습니다. 이중맹검 주석은 단일 주석으로 인해 발생하는 오류를 최소화할 수 있습니다.

4. 품질 검사: 품질 검사는 결과 실행의 효율성과 일관성이라는 두 부분으로 나뉩니다. 유효성은 실행의 정확성을 요구할 뿐만 아니라 실행 결과가 널(NULL)이 될 수 없는 것을 요구합니다. 전문가들은 SQL 실행 결과가 유효할 때까지 문제 조건을 점진적으로 수정해 나갈 것입니다.

5. 난이도 구분: text-to-SQL의 난이도 지수는 연구자들에게 알고리즘 최적화를 위한 참고 자료를 제공할 수 있습니다. Text-to-SQL의 난이도는 SQL의 복잡성뿐만 아니라 문제 난이도, 추가 지식을 통한 이해의 용이성, 데이터베이스 복잡성 등의 요소에 따라 달라집니다. 따라서 저자는 SQL 주석 작성자에게 주석 프로세스 중 난이도를 평가하도록 요청하고 난이도를 쉬움, 보통, 어려움의 세 가지 범주로 나누었습니다.

데이터 통계

1. 질문 유형 통계: 질문은 기본 유형과 추론 유형의 두 가지 범주로 나뉩니다. 기본 질문 유형에는 기존 Text-to-SQL 데이터 세트에서 다루는 질문이 포함되고, 추론 질문 유형에는 값을 이해하기 위해 외부 지식이 필요한 질문이 포함됩니다.

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

2. 데이터베이스 배포: 저자는 선버스트 그래프를 사용합니다. 데이터베이스 도메인과 해당 데이터 크기 간의 관계를 표시합니다. 반경이 클수록 해당 데이터베이스를 기반으로 하는 text-SQL이 더 많아지고 그 반대도 마찬가지입니다. 색상이 진할수록 데이터베이스 크기가 커집니다. 예를 들어 donor는 벤치마크에서 가장 큰 데이터베이스로 4.5GB의 공간을 차지합니다.

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

3.SQL 분포: 저자는 SQL 토큰 수, 키워드 수, n-gram 유형 수의 4가지 차원을 통해 BIRD의 SQL이 가장 다양하고 복잡하다는 것을 증명합니다. , 그리고 JOIN의 수.

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

평가 지표

1. 모델에서 예측한 SQL 실행 결과와 주석이 추가된 실제 SQL 실행 결과의 차이를 비교합니다.

2. 점수: 동시에 SQL의 정확성과 효율성을 고려하여 모델이 예측한 SQL 실행 속도와 실제 레이블이 지정된 SQL 실행 속도의 상대적인 차이를 비교하며, 실행 시간을 효율성의 주요 지표로 간주합니다.

실험 분석

저자는 이전 벤치마크 테스트에서 뛰어난 성능을 보인 학습형 T5 모델과 LLM(대형 언어 모델)을 기준 모델로 선정했습니다: Codex(code-davinci-002) 및 ChatGPT (gpt-3.5-터보). 다단계 추론이 실제 데이터베이스 환경에서 대규모 언어 모델의 추론 기능을 자극할 수 있는지 더 잘 이해하기 위해 Chain-of-Thought 버전도 제공됩니다. 기본 모델은 두 가지 설정으로 테스트됩니다. 하나는 전체 스키마 정보 입력이고, 다른 하나는 문제와 관련된 데이터베이스 값에 대한 인간의 이해이며 모델이 데이터베이스를 이해하는 데 도움이 되는 자연어 설명(지식 증거)으로 요약됩니다. .

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

저자는 몇 가지 결론을 내립니다.

1. 추가 지식 획득: 데이터베이스 가치 이해에 대한 지식 증가 증거가 명백한 효과 개선을 가져오며, 이는 실제 데이터베이스에서 다음과 같습니다. 의미론적 분석 기능에만 의존하는 것만으로는 충분하지 않습니다. 데이터베이스 값을 이해하면 사용자가 더 정확하게 답변을 찾는 데 도움이 됩니다.

2. 사고 연결이 반드시 완전히 유익한 것은 아닙니다. 모델에 주어진 데이터베이스 값 설명과 제로샷이 없는 경우 모델 자체의 COT 추론이 더 정확하게 답변을 생성할 수 있습니다. 그러나 추가 지식(지식 증거)이 제공되었을 때 LLM은 COT를 수행하도록 요청받았으며 그 효과가 중요하지 않거나 심지어 감소하는 것으로 나타났습니다. 따라서 이 시나리오에서는 LLM이 지식 충돌을 일으킬 수 있습니다. 모델이 외부 지식을 수용하고 자체의 강력한 다단계 추론을 통해 이익을 얻을 수 있도록 이러한 갈등을 해결하는 방법이 향후 주요 연구 방향이 될 것입니다.

3. 인간과의 격차: BIRD는 인간 지표도 제공합니다. 저자는 처음으로 테스트 세트에 직면했을 때 Annotator의 성능을 테스트하기 위해 시험을 사용하고 이를 인간 지표의 기초로 사용합니다. 실험에 따르면 현재 최고의 LLM은 여전히 인간보다 훨씬 뒤처져 있으며, 이는 여전히 과제가 존재한다는 것을 증명합니다. 저자는 상세한 오류 분석을 수행하고 향후 연구를 위한 몇 가지 잠재적인 방향을 제시했습니다.

LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.

결론

데이터베이스 분야에 LLM을 적용하면 사용자에게 더욱 스마트하고 편리한 데이터베이스 상호 작용 경험을 제공할 수 있습니다. BIRD의 출현은 자연어와 실제 데이터베이스 간의 지능적인 상호 작용 개발을 촉진하고, 실제 데이터베이스 시나리오를 위한 텍스트-SQL 기술의 발전을 위한 여지를 제공하며, 연구자가 보다 발전되고 실용적인 데이터베이스 애플리케이션을 개발하는 데 도움이 될 것입니다.

위 내용은 LLM이 데이터베이스를 만났을 때: Alibaba DAMO Academy와 HKU가 새로운 Text-to-SQL 벤치마크를 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!