AIGC에 대해 더 알고 싶다면 다음을 방문하세요.
51CTO AI에 대한 새로운 평가가 매일 게시되는 것으로 보이며 그 중 다수가 프레임워크의 검색 단계에 중점을 둡니다. 문제의. 그러나 생성적 측면(모델이 검색된 정보를 어떻게 합성하고 표현하는지)도 실제로 똑같이 중요할 수 있습니다. 많은 실제 적용 사례에서는 시스템이 컨텍스트에서 데이터를 반환해야 할 뿐만 아니라 이 정보를 보다 복잡한 응답으로 변환해야 함을 입증합니다.
이를 위해 GPT-4, Claude 2.1 및 Claude 3 Opus 세 가지 모델의 세대 성능을 평가하고 비교하기 위해 여러 가지 실험을 수행했습니다. 이 기사에서는 우리가 그 과정에서 접한 이러한 모델의 연구 방법, 결과 및 뉘앙스를 자세히 설명하고 이것이 생성 AI를 구축하는 데 중요한 이유를 설명합니다.
추가 참고 사항
초기 조사 결과 Claude가 GPT-4보다 우수한 것으로 나타났지만, 후속 테스트에서는 전략적 프롬프트 엔지니어링 기술의 출현으로 GPT-4가 더 광범위한 평가 성능을 능가하는 것으로 나타났습니다. 즉, RAG 시스템의 고유한 모델 동작과 신속한 엔지니어링에는 여전히 많은 문제가 있습니다. 프롬프트 템플릿에 "자신을 설명하고 질문에 답해주세요"를 추가하면 GPT-4의 성능이 두 배 이상 크게 향상됩니다. LLM이 답변을 말하면 아이디어를 더욱 발전시키는 데 도움이 되는 것임이 분명합니다. 해석을 통해 모델은 임베딩/어텐션 공간에서 정답을 다시 실행하는 것이 가능합니다.많은 실제 응용 프로그램에서 RAG 시스템의 가치는 특정 사실이나 정보를 찾는 능력뿐만 아니라 더 넓은 프레임워크 내에서 정보를 통합하고 맥락화하는 능력에도 있습니다. 생성 단계를 통해 RAG 시스템은 단순한 사실 검색을 넘어 진정한 지능적이고 적응 가능한 응답을 제공할 수 있습니다.
테스트 #1: 날짜 매핑
우리가 실행한 초기 테스트는 무작위로 검색된 두 개의 숫자(하나는 월을 나타내고 다른 하나는 일을 나타냄)에서 날짜 문자열을 생성하는 것으로 구성되었습니다. 모델의 임무는 다음과 같습니다.
난수 #1 검색 마지막 숫자를 분리하고 1씩 증가시킵니다. 결과를 기반으로 날짜 문자열에 대한 월을 생성합니다.이러한 예상치 못한 실험 결과에 힘입어 우리는 실험에 새로운 변수를 도입했습니다. 우리는 GPT-4에게 "자신을 설명하고 질문에 답하라"고 지시했는데, 이는 Claude 모델에서 자연스럽게 출력된 것과 유사한 보다 자세한 응답을 장려하는 프롬프트였습니다. 따라서 이 작은 조정의 영향은 광범위합니다.
그림 3: 타겟 프롬프트 결과의 초기 테스트
GPT-4 모델의 성능이 크게 향상되어 후속 테스트에서 완벽한 결과를 얻었습니다. Claude 모델의 결과도 향상되었습니다.
이 실험은 언어 모델이 생성 작업을 처리하는 방식의 차이점을 강조할 뿐만 아니라 힌트 엔지니어링이 성능에 미치는 잠재적인 영향도 보여줍니다. Claude의 강점은 장황한 것으로 보이며 이는 GPT-4에 대한 복제 가능한 전략으로 밝혀졌으며 모델이 추론을 처리하고 제시하는 방식이 생성 작업의 정확성에 큰 영향을 미칠 수 있음을 시사합니다. 전반적으로, 겉보기에 작아 보이는 "설명하십시오" 문장을 포함하여 우리의 모든 실험에서 모델의 성능을 향상시키는 역할을 했습니다.
그림 4: 세대를 평가하기 위한 4가지 추가 테스트
검색된 정보를 다양한 형식으로 합성하고 변환하기 위한 주류 모델을 평가하기 위해 4가지 추가 테스트를 수행했습니다. 능력:
예상대로 각 모델은 문자열 연결에서 강력한 성능을 보였으며, 이는 또한 텍스트 조작이 언어 모델의 근본적인 강점이라는 이전 이해를 반복합니다.
그림 5: 통화 형식 테스트 결과
통화 형식 테스트에서는 Claude 3와 GPT-4가 거의 완벽하게 수행되었습니다. Claude 2.1의 성능은 일반적으로 좋지 않습니다. 정확도는 마크 길이에 따라 크게 달라지지 않지만 일반적으로 포인터가 컨텍스트 창의 시작 부분에 가까울수록 정확도는 낮아집니다.
그림 6: Haystack 웹사이트의 공식 테스트 결과
한 세대의 테스트에서 우수한 결과를 얻었음에도 불구하고 Claude 3의 정확도는 검색 전용 실험에서 떨어졌습니다. 이론적으로는 단순히 숫자를 검색하는 것이 숫자를 조작하는 것보다 더 쉬울 것입니다. 이는 성능 저하를 놀랍게 만들고 이 영역을 추가로 테스트할 계획입니다. 오히려 이러한 반직관적인 하락은 RAG로 개발할 때 검색과 생성을 모두 테스트해야 한다는 생각을 더욱 확증해 줍니다.
다양한 생성 작업을 테스트한 결과 Claude와 GPT-4 두 모델 모두 문자열 조작과 같은 사소한 작업에 능숙하지만 보다 복잡한 시나리오에서는 장단점이 분명해졌습니다(https:/ /arize.com/blog-course/research-techniques-for-better-retrieved- Generation-rag/). LLM은 여전히 수학에 능숙하지 않습니다! 또 다른 주요 결과는 "자체 설명" 힌트의 도입으로 GPT-4의 성능이 크게 향상되어 모델 힌트를 제공하는 방법과 모델의 추론을 명확하게 하는 방법의 중요성이 강조된다는 점입니다. 결과.
이러한 결과는 LLM 평가에 더 넓은 의미를 갖습니다. 상세한 Claude와 처음에는 덜 상세한 GPT-4와 같은 모델을 비교할 때 RAG 평가(https://arize.com/blog-course/rag-evaluation/) 기준은 이전의 강조점을 넘어서야 한다는 것이 분명해졌습니다. 올바른 섹스를 하는 것입니다. 모델 응답의 장황함은 인식된 성능에 큰 영향을 미칠 수 있는 변수를 도입합니다. 이러한 미묘한 차이는 모델의 기능을 더 잘 이해하고 보다 공정한 비교를 보장하기 위해 향후 모델 평가에서 평균 응답 길이를 주목할만한 요소로 고려해야 함을 시사할 수 있습니다.
Zhu Xianzhong, 51CTO 커뮤니티 편집자, 51CTO 전문 블로거, 강사, 웨이팡 대학의 컴퓨터 교사이자 프리랜스 프로그래밍 업계의 베테랑입니다.
원제: 검색 증강 세대에서 세대 부분을 올바르게 얻는 팁, 저자: Aparna Dhinakaran
링크:
nce.com/tips-for-getting-the- Generation-part-right-in-retrieval-augmented -세대-7deaa26f28dc.
AIGC에 대해 자세히 알아보려면 다음을 방문하세요.
51CTO AI.x 커뮤니티
https://www.51cto.com/aigc/
위 내용은 생성 AI 모델 빅 PK——GPT-4, Claude 2.1 및 Claude 3.0 Opus의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!