2023 年 6 个最佳大型语言模型-人工智能-PHP中文网

现在是人工智能季节，科技公司正在大量生产大型语言模型，就像面包店里的面包一样。新型号发布得很快，而且跟踪变得越来越困难。

但在众多新版本中，只有少数模型上升到了顶峰，并证明自己是大型语言模型空间中真正的竞争者。随着 2023 年底的临近，我们整理了您应该尝试的六种最令人印象深刻的大型语言模型。

1. OpenAI 的 GPT-4

The 6 Best Large Language Models in 2023

GPT-4 是迄今为止最先进的公开可用的大型语言模型。 GPT-4 由 OpenAI 开发并于 2023 年 3 月发布，是 2018 年开始的生成式预训练 Transformer 系列的最新迭代。凭借其巨大的功能，GPT-4 已成为使用最广泛、最受欢迎的大型语言之一世界上的模型。

虽然尚未得到官方证实，但消息人士估计 GPT-4 可能包含惊人的 1.76 万亿个参数，大约是其前身 GPT-3.5 的十倍，是 Google 旗舰产品 PaLM 2 的五倍。如此庞大的规模启用 GPT-4 的多模式功能，使其能够处理文本和图像作为输入。因此，除了文本之外，GPT-4 还可以解释和描述视觉信息，例如图表和屏幕截图。其多模态性质提供了对现实世界数据更加人性化的理解。

在科学基准测试中，GPT-4 在各种测试中显着优于其他当代模型。虽然基准测试本身并不能完全展示模型的优势，但现实世界的用例表明 GPT-4 非常擅长直观地解决实际问题。 GPT-4 目前的收费为每月 20 美元，可通过 ChatGPT 的 Plus 计划访问。

2. Anthropic 的 Claude 2

虽然不如 GPT-4 流行，但 Anthropic AI 开发的 Claude 2 可以与 GPT -4 的技术基准和实际性能相匹配几个领域。在一些标准化测试中，包括选择性考试，Claude 2 的表现优于 GPT-4。与 GPT -4 的 8k 和 32k 令牌模型相比，AI 语言模型在大约 100,000 个令牌时还具有极其优越的上下文窗口。尽管较大的上下文长度并不总是意味着更好的性能，但 Claude 2 扩展的容量提供了明显的优势，例如消化整本 75,000 字的书籍进行分析。

在整体性能方面，GPT-4 仍然优越，但我们的内部测试显示 Claude 2 在多项创意写作任务中超过了它。根据我们的评估，Claude 2 在编程和数学技能方面也落后于 GPT-4，但擅长提供类似人类的创造性答案。当我们提示此列表中的所有模型编写或重写创意作品时，十分之六，我们选择了 Claude 2 的结果，因为它的结果听起来很自然，类似于人类。目前，Claude 2 可通过 Claude AI 聊天机器人免费使用。还有一个 20 美元的付费计划可以访问额外的功能。

尽管财务支持比 OpenAI 和 Microsoft 等巨头少，但 Anthropic 的 Claude 2 AI 模型在与流行的 GPT 模型和 Google 的 PaLM 系列的竞争中拥有自己的优势。对于资源较少的 AI 来说，Claude 2 的竞争力令人印象深刻。如果被迫押注哪种现有模型在不久的将来最有可能与 GPT 竞争，Claude 2 似乎是最安全的赌注。尽管在资金方面处于劣势，但 Claude 2 的先进功能表明它甚至可以与资金雄厚的庞然大物正面交锋（尽管值得注意的是，谷歌已经为 Anthropic 做出了几项重大贡献）。该型号的性能超出了其重量级别，并显示出作为新兴挑战者的前景。

3. OpenAI 的 GPT-3.5

虽然 GPT-4 的发布黯然失色，但 GPT-3.5 及其 1750 亿个参数不容小觑。通过专注于性能、准确性和安全性的迭代微调和升级，GPT-3.5 较原始的 GPT-3 模型有了很大的进步。尽管它缺乏 GPT -4 的多模态能力，并且在上下文长度和参数数量方面落后，但 GPT-3.5 仍然具有很强的能力，GPT-4 是唯一能够果断超越其全面性能的模型。

尽管是 GPT 系列中的第二梯队模型，GPT-3.5 仍然可以保持自己的地位，甚至在多个基准测试中超越 Google 和 Meta 的旗舰模型。在与 Google PaLM 2 的数学和编程技能并行测试中，差异并不明显，GPT-3.5 在某些情况下甚至具有轻微优势。 GPT-3.5 在幽默和叙事写作等更具创造性的任务中取得了决定性的领先。

因此，虽然 GPT-4 标志着人工智能领域的一个新里程碑，但 GPT-3.5 仍然是一个令人印象深刻的强大模型，能够与最先进的替代方案竞争，有时甚至超越它们。它的持续改进确保了即使与更华丽的下一代车型相比，它也能保持相关性。

4. Google 的 PaLM 2

在评估 AI 模型的功能时，经过验证的公式是阅读技术报告并检查基准分数，但要结合你所学到的一切加盐并亲自测试模型。尽管看起来违反直觉，但基准测试结果并不总是与某些人工智能模型的实际性能相符。理论上，Google 的 PaLM 2 应该是 GPT-4 杀手，官方测试结果表明它在某些基准测试中与 GPT-4 相匹配。然而，在日常使用中，却出现了不同的情况。

在逻辑推理、数学和创造力方面，PaLM 2 不及 GPT-4。它在一系列创意写作任务上也落后于 Anthropic 的 Claude。然而，尽管 Google 的 PaLM 2 未能名副其实地成为 GPT-4 杀手，但它本身仍然是一个强大的语言模型，具有巨大的功能。围绕它的大部分负面情绪源于与 GPT-4 等模型的比较，而不是完全糟糕的性能。

PaLM 2 拥有 3400 亿个参数，是世界上最大的模型之一。它特别擅长多语言任务，并拥有强大的数学和编程能力。尽管不是最擅长的，PaLM 2 在写作等创造性任务上也相当高效。因此，尽管基准测试描绘了一幅乐观的图景，但并未完全实现，PaLM 2 仍然展示了令人印象深刻的人工智能技能，即使没有全面超越所有竞争对手。

5. TII 的 Falcon-180B

除非您一直跟上 AI 语言模型发布的快速步伐，否则您可能从未遇到过 Falcon-180B。由阿联酋技术创新研究所开发的 Falcon-180 拥有 1800 亿个参数，是目前最强大的开源语言模型之一，尽管它缺乏 GPT 模型的知名度或 Meta 的 Llama 2 的广泛使用。错误 - Falcon-180B 可以与同类中最好的产品正面交锋。

基准测试结果显示，Falcon-180B 的性能优于大多数开源模型，并可与 PaLM 2 和 GPT-3.5 等商业巨头竞争。在测试数学、编码、推理和创意写作任务时，它甚至有时超过了 GPT-3.5 和 PaLM 2。如果对 GPT-4、GPT-3.5 和 Falcon-180B 进行排名，我们会将 Falcon-180B 完全置于 GPT-4 和 GPT-3.5 之间，因为它在多个用例中的优势。

虽然我们不能自信地说它在整体性能上优于 GPT-3.5，但它本身就证明了这一点。虽然晦涩难懂，但该模型值得关注，因为它可以匹配或超过更知名的替代方案的功能。您可以在 Hugging Face（一个开源 LLM 平台）上尝试 Falcon-180B 模型。

6. Meta AI 的 Llama 2

Llama 2 是 Meta AI 的 700 亿参数大语言模型，建立在其前身 Llama 1 的基础上。虽然比领先模型小，但 Llama 2 明显在基准测试和实际使用中优于大多数公开的开源法学硕士。 Falcon-180B 是一个例外。

我们针对 GPT-4、GPT-3.5、Claude 2 和 PaLM 2 测试了 Llama 2，以评估其功能。毫不奇怪，GPT-4 几乎在所有参数上都优于 Llama 2。然而，Llama 2 在多项评估中仍能与 GPT-3.5 和 PaLM 2 抗衡。虽然声称 Llama 2 优于 PaLM 2 并不准确，但 Llama 2 解决了困扰 PaLM 2 的许多问题，包括编码任务。 Claude 2 和 GPT-3.5 在某些领域击败了 Llama 2，但仅在有限数量的任务中明显更好。

因此，虽然开源 Llama 2 的功能没有超过最大的专有模型，但其性能却超出了其重量级别。作为一个公开可用的模型，它表现出了令人印象深刻的性能，在特定评估中可与 PaLM 2 等人工智能巨头相媲美。 Llama 2 让我们一睹开源语言模型的未来潜力。

AI 模型之间的性能差距正在缩小

尽管 AI 领域正在飞速发展，但 OpenAI 的 GPT-4 仍然处于领先地位。然而，虽然 GPT-4 在规模和性能方面仍然无与伦比，但像 Claude 2 这样的模型表明，只要有足够的技能，较小的模型就可以在某些领域展开竞争。谷歌的PaLM 2尽管没有达到一些崇高的期望，但仍然展示了强大的功能。 Falcon-180B 证明，只要有足够的资源，开源计划可以与行业巨头并肩作战。

以上是2023 年 6 个最佳大型语言模型的详细内容。更多信息请关注PHP中文网其他相关文章！