首页 > 科技周边 > 人工智能 > Llama 3 与 GPT-4:哪个更好?

Llama 3 与 GPT-4:哪个更好?

William Shakespeare
发布: 2024-12-13 16:24:00
原创
665 人浏览过

Llama 3 和 GPT-4 是两种可供公众使用的最先进的大语言模型 (LLM)。让我们通过在多模态、上下文长度、性能和成本方面比较这两种模型来看看哪个 LLM 更好。

什么是 GPT-4?

Asking GPT-4o using ChatGPT

GPT-4是OpenAI开发的最新大语言模型(LLM)。它建立在旧版 GPT-3 模型的基础上,同时使用不同的训练技术和使用更大数据集的优化。这显着增加了 GPT-4 的参数大小,据传 GPT-4 的较小专家模型总共有 1.7 万亿个参数。通过新的训练、优化和更多参数,GPT-4 在推理、解决问题、上下文理解和更好地处理细微指令方面提供了改进。

该模型目前有三种变体:

  • GPT-4: GPT-3 的演变,在速度、准确性和知识库方面有了显着改进。
  • GPT-4 Turbo: GPT-4 的优化版本,旨在提供更快的性能,同时降低运营成本。
  • GPT-4o (Omni): 通过集成多模式输入和输出(包括文本、视觉和音频)来扩展 GPT-4 的功能。

您现在可以通过订阅 OpenAI 的 API 服务、与 ChatGPT 交互或通过 Descript、Perplexity AI 和 来自 Microsoft 的各种 copilots 等服务来访问所有三个 GPT-4 模型.

骆驼 3 是什么?

Asking Llama 3 using chat

Llama 3 是由 Meta AI(Facebook、Instagram 和 WhatsApp 的母公司)开发的开源法学硕士,使用监督微调、拒绝抽样和策略优化相结合的方式进行训练,并使用包括数百万个在内的多样化数据集进行训练。人工注释的示例。其训练重点是高质量的提示和偏好排名,旨在创建一个多功能且有能力的AI模型。

目前有两个Llama 3模型可供公众使用:Llama 3 8B和Llama 3 70B。 “B”代表十亿,指的是模型的参数大小。 Meta 还在训练 Llama 3 400B 模型,预计将于 2024 年末推出。

您可以通过其生成人工智能聊天机器人 Meta AI 访问 Llama 3。或者,您可以通过下载 Llama 3 模型并通过 Ollama、Open WebUI 或 LM Studio 加载它们,在计算机上本地运行 LLM。

多模态

GPT-4o的发布终于实现了具有多模式能力的GPT-4的初步营销。现在可以通过使用 GPT-4o 模型与 ChatGPT 交互来访问这些多模式功能。截至 2024 年 6 月,GPT-4o 没有任何生成视频和音频的集成方式。然而,它确实具有基于视频和音频输入生成文本和图像的功能。

Llama 3 还计划为即将推出的 Llama 3 400B 提供多模式模型。它很可能会集成与 CLIP(对比语言成像器预训练)类似的技术,以使用零样本学习技术生成图像。但由于 Llama 400B 仍处于训练阶段,8B 和 70B 模型生成图像的唯一方法是使用 LLaVa、Visual-LLaMA 和 LLaMA-VID 等扩展。截至目前,Llama 3 纯粹是一个基于语言的模型,可以将文本、图像和音频作为输入来生成文本。

上下文长度

上下文长度是指模型一次可以处理的文本量。在考虑法学硕士的能力时,这是一个重要因素,因为它决定了模型在与用户交互时可以使用的上下文量。一般来说,上下文长度越高,LLM 就越好,因为它提供了更高水平的连贯性、连续性,并且可以减少交互过程中错误的重复。

Model

Training Data Description

Params

Context Length

GQA

Token Count

Knowledge Cutoff

Llama 3

Mix of publicly available online data

8B

8k

Yes

15T

March, 2023

Llama 3

Mix of publicly available online data

70B

8k

Yes

15T

December, 2023

模型
训练数据描述 参数 上下文长度 GQA 令牌计数 知识截止
Llama 3 公开在线数据的混合 8B 8k 15T 2023 年 3 月
骆驼 3 公开在线数据的混合 70B 8k 15T 2023 年 12 月

Llama 3 模型的上下文长度有效为 8,000 个标记(约 6,400 个单词)。这意味着 Llama 3 模型将在您的交互中记忆大约 6,400 个单词的上下文。超过 8,000 个令牌限制的任何单词都将被遗忘,并且在交互过程中不会提供任何进一步的上下文。

多模式旗舰型号,比 GPT-4 Turbo 更便宜、更快。

Model

Description

Context Window

Training Data

GPT-4o

Multimodal flagship model, cheaper and faster than GPT-4 Turbo.

128,000 tokens (API)

Up to Oct 2023

GPT-4-Turbo

Streamlined GPT-4 Turbo model with vision capabilities.

128,000 tokens (API)

Up to Dec 2023

GPT-4

First GPT-4 model

8,192 tokens

Up to Sep 2021

Model
描述 上下文窗口 训练数据
GPT-4o 128,000 个代币 (API) 截至 2023 年 10 月
GPT- 4-Turbo 流线型 GPT-4 Turbo 型号具有视觉功能。 128,000 个代币 (API) 截至 2023 年 12 月
GPT-4 第一个 GPT-4 模型 8,192 个代币 截至 2021 年 9 月

相比之下,GPT-4 现在支持 ChatGPT 用户的上下文长度明显更大,为 32,000 个令牌(约 25,600 个单词),为使用 API 端点的用户支持 128,000 个令牌(约 102,400 个单词)。这使得 GPT-4 模型在管理广泛的对话以及阅读长文档甚至整本书的能力方面具有优势。

性能

让我们通过查看 Llama 3 2024 年 4 月 18 日的 Meta AI 基准报告GPT-4 2024 年 5 月 14 日的 GitHub 报告来比较性能由 OpenAI 提供。以下是结果:

Model

MMLU

GPQA

MATH

HumanEval

DROP

GPT-4o

88.7

53.6

76.6

90.2

83.4

GPT-4 Turbo

86.5

49.1

72.2

87.6

85.4

Llama3 8B

68.4

34.2

30.0

62.2

58.4

Llama3 70B

82.0

39.5

50.4

81.7

79.7

Llama3 400B

86.1

48.0

57.8

84.1

83.5

模型
MMLU GPQA 数学 HumanEval DROP
GPT-4o 88.7 53.6 76.6 90.2 83.4
GPT-4涡轮 86.5 49.1 72.2 87.6 85.4
Llama3 8B 68.4 34.2 30.0 62.2 58.4
Llama3 70B 82.0 39.5 50.4 81.7 79.7
Llama3 400B 86.1 48.0 57.8 84.1 83.5

以下是每个标准的评估内容:

  • MMLU(大规模多任务语言理解): 评估模型理解和回答各种学术问题的能力科目。
  • GPTQA(通用问答): 评估模型回答开放域事实问题的技能
  • 数学: 测试模型的能力解决数学问题。
  • HumanEval: 衡量模型根据人类给定的编程提示生成正确代码的能力。
  • DROP(段落离散推理): 评估模型根据文本段落执行离散推理和回答问题的能力。

最近的基准测试突出了 GPT-4 和 Llama 3 模型之间的性能差异。尽管 Llama 3 8B 模型似乎明显落后,但 70B 和 400B 模型在学术和常识、阅读和理解、推理和逻辑以及 GPT-4o 和 GPT-4 Turbo 模型方面提供了较低但相似的结果。编码。然而,在纯数学方面,Llama 3 模型的性能还无法接近 GPT-4。

成本

成本是关键许多用户的因素。 OpenAI 的 GPT-4o 模型向所有 ChatGPT 用户免费提供,每 3 小时限制 16 条消息。如果您需要更多,则必须订阅 ChatGPT Plus,每月花费 20 美元,将 GPT-4o 的消息限制扩展到 80 条,同时还可以访问其他 GPT-4 模型。

开启另一方面,Llama 3 8B 和 70B 型号都是免费和开源的,这对于寻求经济高效的解决方案而不影响性能的开发人员和研究人员来说是一个显着的优势。表演。

可访问性

GPT-4 模型可通过 OpenAI 的 ChatGPT 生成式 AI 聊天机器人及其 API 广泛访问。您还可以在 Microsoft Copilot 上使用 GPT-4,这是免费使用 GPT-4 的一种方式。这种广泛的可用性确保用户可以在不同的用例中轻松利用其功能。相比之下,Llama 3 是一个开源项目,提供模型灵活性并鼓励人工智能社区内更广泛的实验和协作。这种开放获取方法可以使人工智能技术民主化,使其可供更广泛的受众使用。

虽然两种模型都很容易获得,但 GPT-4 更容易使用,因为它集成到了流行的生产力工具和服务中。另一方面,Llama 3 主要集成到 Amazon Bedrock、Ollama 和 DataBricks 等研究和商业平台(Meta AI 聊天辅助除外),这对更大的非技术用户市场没有吸引力。

GPT-4 与 Llama 3:哪个更好?

那么,哪个LLM更好呢?我不得不说 GPT-4 是更好的 LLM。 GPT-4 在多模态方面表现出色,具有处理文本、图像和音频输入的高级功能,而 Llama 3 的类似功能仍在开发中。 GPT-4 还提供了更大的上下文长度和更好的性能,并且可以通过流行的工具和服务广泛访问,使其更加用户友好。

但是,重要的是要强调 Llama 3 模型的表现非常出色一个免费的开源项目。因此,Llama 3 仍然是一个杰出的法学硕士,因其免费和开源的性质而受到研究人员和企业的青睐,同时提供令人印象深刻的性能、灵活性和可靠的隐私功能。虽然普通消费者可能不会立即使用 Llama 3,但它仍然是许多研究人员和企业最可行的选择。

总而言之,尽管 GPT-4 因其先进的多模态功能、更大的上下文长度和Llama 3 无缝集成到广泛使用的工具中,以其开源特性提供了一个有价值的替代方案,允许更大程度的定制和节省成本。因此,就应用而言,GPT-4 非常适合那些寻求模型的易用性和全面功能的人,而 Llama 3 则非常适合寻求灵活性和适应性的开发人员和研究人员。

以上是Llama 3 与 GPT-4:哪个更好?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板