如何在本地下载并安装 Llama 2-人工智能-PHP中文网

考虑到这一点，我们创建了一个分步指南，介绍如何使用 Text-Generation-WebUI 在计算机上本地加载量化的 Llama 2 LLM。

为什么在本地安装 Llama 2

人们选择直接运行 Llama 2 的原因有很多。有些是出于隐私考虑，有些是为了定制，还有一些是为了离线功能。如果您正在为您的项目研究、微调或集成 Llama 2，那么通过 API 访问 Llama 2 可能不适合您。在PC上本地运行LLM的目的是减少对第三方AI工具的依赖，并随时随地使用AI，而不必担心将潜在的敏感数据泄露给公司和其他组织。

话虽如此，让我们从本地安装 Llama 2 的分步指南开始。

步骤 1：安装 Visual Studio 2019 构建工具

为了简化操作，我们将使用 Text-Generation-WebUI 的一键安装程序（用于通过 GUI 加载 Llama 2 的程序）。但是，要使此安装程序正常工作，您需要下载 Visual Studio 2019 构建工具并安装必要的资源。

下载：Visual Studio 2019（免费）

继续下载该软件的社区版。现在安装 Visual Studio 2019，然后打开该软件。打开后，勾选“使用 C++ 进行桌面开发”复选框并点击安装。 How to Download and Install Llama 2 Locally

现在您已经安装了使用 C++ 进行的桌面开发，是时候下载 Text-Generation-WebUI 一键安装程序了。

步骤 2：安装 Text-Generation-WebUI

Text-Generation-WebUI 一键安装程序是一个脚本，它会自动创建所需的文件夹并设置 Conda 环境和所有必要的要求运行人工智能模型。

要安装脚本，请单击“代码”>“下载一键安装程序”下载 ZIP。

下载：Text-Generation-WebUI 安装程序（免费）

下载后，将 ZIP 文件解压到您的首选位置，然后打开解压的文件夹。在该文件夹中，向下滚动并查找适合您的操作系统的启动程序。通过双击相应的脚本来运行程序。如果您使用的是 Windows，则对于 MacOS 选择 start_windows 批处理文件，对于 Linux 选择 start_macos shell script，对于 Linux 选择 start_linux shell script。 How to Download and Install Llama 2 Locally

您的防病毒软件可能会发出警报；这可以。该提示只是运行批处理文件或脚本的防病毒误报。仍然单击“运行”。终端将打开并开始设置。早些时候，安装程序将暂停并询问您正在使用什么 GPU。选择计算机上安装的适当类型的 GPU，然后按 Enter 键。对于没有专用显卡的，选择无（我想在CPU模式下运行模型）。请记住，与使用专用 GPU 运行模型相比，在 CPU 模式下运行要慢得多。 How to Download and Install Llama 2 Locally

设置完成后，您现在可以在本地启动 Text-Generation-WebUI。您可以通过打开您喜欢的 Web 浏览器并在 URL 上输入提供的 IP 地址来完成此操作。 How to Download and Install Llama 2 Locally

WebUI 现已可供使用。 How to Download and Install Llama 2 Locally

但是，该程序只是一个模型加载器。让我们下载 Llama 2 以启动模型加载器。

步骤 3：下载 Llama 2 模型

在决定您需要哪一个 Llama 2 版本时，需要考虑很多事情。其中包括参数、量化、硬件优化、大小和用法。所有这些信息都可以在模型名称中找到。

参数：用于训练模型的参数数量。更大的参数可以产生更强大的模型，但会牺牲性能。用法：可以是标准的，也可以是聊天的。聊天模型经过优化可用作 ChatGPT 等聊天机器人，而标准模型是默认模型。硬件优化：指什么硬件最能运行模型。 GPTQ 意味着模型针对在专用 GPU 上运行进行了优化，而 GGML 则针对在 CPU 上运行进行了优化。量化：表示模型中权重和激活的精度。对于推理，q4 的精度是最佳的。尺寸：指具体型号的尺寸。

请注意，某些模型的排列方式可能不同，甚至可能不显示相同类型的信息。然而，这种类型的命名约定在 HuggingFace 模型库中相当常见，因此仍然值得理解。

在此示例中，模型可以被识别为中型 Llama 2 模型，该模型使用专用 CPU 针对聊天推理进行了优化，并使用 130 亿个参数进行训练。

对于在专用 GPU 上运行的，选择 GPTQ 模型，而对于使用 CPU 的，选择 GGML。如果您想像使用 ChatGPT 一样与模型聊天，请选择聊天，但如果您想试验模型的全部功能，请使用标准模型。至于参数，要知道使用更大的模型会以牺牲性能为代价提供更好的结果。我个人建议您从 7B 型号开始。至于量化，请使用 q4，因为它仅用于推理。

下载：GGML（免费）

下载：GPTQ（免费）

既然您知道您需要哪一版本的 Llama 2，请继续下载您想要的模型。

就我而言，由于我在超级本上运行此程序，因此我将使用针对聊天进行微调的 GGML 模型 llama-2-7b-chat-ggmlv3.q4_K_S.bin。

下载完成后，将模型放入text- Generation-webui-main >楷模。

现在您已下载模型并将其放置在模型文件夹中，是时候配置模型加载器了。

步骤 4：配置 Text-Generation-WebUI

现在，让我们开始配置阶段。

再次通过运行 start_（您的操作系统）文件打开 Text-Generation-WebUI（请参阅上面的步骤）。在 GUI 上方的选项卡上，单击模型。单击模型下拉菜单中的刷新按钮并选择您的模型。现在单击模型加载器的下拉菜单，并为使用 GTPQ 模型的用户选择 AutoGPTQ，为使用 GGML 模型的用户选择 ctransformers。最后，单击“加载”以加载您的模型。 How to Download and Install Llama 2 Locally

要使用该模型，请打开“聊天”选项卡并开始测试该模型。 How to Download and Install Llama 2 Locally

恭喜您，您已在本地计算机上成功加载 Llama2！

尝试其他 LLM

既然您已经知道如何使用 Text-Generation-WebUI 直接在计算机上运行 Llama 2，那么除了 Llama 之外，您还应该能够运行其他 Llama。只需记住模型的命名约定，并且只有模型的量化版本（通常是 q4 精度）才能加载到常规 PC 上。 HuggingFace 上提供了许多量化的法学硕士。如果您想探索其他模型，请在 HuggingFace 的模型库中搜索 TheBloke，您应该会找到许多可用的模型。

以上是如何在本地下载并安装 Llama 2的详细内容。更多信息请关注PHP中文网其他相关文章！