首页 > 系统教程 > 操作系统 > 规范启动为ML初学者的数据科学堆栈

规范启动为ML初学者的数据科学堆栈

Jennifer Aniston
发布: 2025-03-17 10:22:09
原创
371 人浏览过

数据科学是数据的研究。它涉及收集,分析和解释大量信息。数据科学家使用这些信息来做出决策,解决问题并预测未来的趋势。

数据科学家使用各种工具和技术来分析和解释复杂的数据集。这有助于企业和组织做出更好的决策。

如果您是从数据科学开始的初学者,那么在建立适当的数据科学环境方面,您可能会面临一些挑战。

以下是建立数据科学环境对初学者可能具有挑战性的一些原因:

  1. 软件安装:新手通常在安装必要的软件(例如编程语言(例如Python或r),库和工具(例如Jupyter Notebooks或Rstudio))方面很难。
  2. 了解依赖关系:软件通常需要其他软件的特定版本才能正常工作。如果无法正确管理,这可能会令人困惑,并导致错误。
  3. 学习曲线:数据科学涉及学习新技能,包括编程,统计和机器学习。对于初学者来说,这可能是压倒性的。
  4. 数据处理:处理数据可能很复杂,尤其是在处理大型或混乱的数据集时。了解如何清洁,存储和处理数据至关重要,但最初可能很难掌握。
  5. 版本控制:跟踪代码和数据的更改很重要,但设置和管理可能很棘手,尤其是对于诸如GIT之类的版本控制系统的人。
  6. 选择合适的工具:有许多可用的工具和框架,为特定项目选择合适的工具可能会使初学者令人生畏。

通过了解这些挑战,初学者可以更好地准备自己,并寻求正确的资源和支持以克服它们。

对于新的数据科学家来说,最初的障碍可能具有挑战性,但是随着持久性和一致的学习,旅程将变得更加顺利。

多亏了Canonical的数据科学堆栈(DSS) ,现在设置数据科学变得更加容易。在本教程中,我们将讨论什么是数据科学堆栈,以及如何在Ubuntu操作系统中轻松快速地设置数据科学环境

目录

什么是数据科学堆栈(DSS)?

Canonical的数据科学堆栈(DSS)是数据科学家和机器学习工程师的开箱即用解决方案。

数据科学堆栈通过提供预先配置的环境,包括所有必要的工具和库,用于机器学习和数据分析,从而简化了设置过程。

通过设计用于在Ubuntu工作站上运行并优化GPU的使用,DSS可以增强机器学习模型的性能,这对计算密集型任务特别有益。

DSS允许用户更多地关注其模型的开发和优化,而不是环境设置的技术。

这可以节省大量时间,否则将花费在安装和配置各个组件上。

数据科学堆栈中包括什么?

数据科学堆栈(DSS)为数据科学家和机器学习工程师提供了一个全面而整合的环境。这是它提供的:

  1. 预安装的工具:DSS包括流行的开源工具,例如Microk8sJupyterlabMLFlow ,这对于数据探索,模型开发和实验跟踪至关重要。
  2. 机器学习框架:默认情况下,它具有两个广泛使用的机器学习框架, PytorchTensorflow ,它们可以用于建筑和培训模型。
  3. 命令行接口(CLI) :DSS提供了一种直观的CLI,用于部署这些工具和框架,从而更容易管理和扩展环境。
  4. 用户界面:部署后,用户可以访问工具的UI,以便在无需手动设置的情况下开始从事其数据科学项目。
  5. 包装依赖性:DSS处理包装依赖性,以确保所有工具,库和框架彼此兼容并顺利进行。
  6. 硬件兼容性:它旨在与机器的硬件兼容,优化工具和框架的性能
  7. 简化的配置:传统上,在工作站上设置机器学习环境可能很复杂且难以逆转。 DSS通过提供有效利用工作站的GPU的可访问,可访问,隔离和可重现的ML环境来解决这一问题。
  8. GPU配置:DSS通过包括GPU操作员来简化GPU配置,该操作员管理GPU用于机器学习任务的设置和使用,从而有效利用其计算能力。

总体而言,DSS旨在为数据科学和机器学习提供无忧且优化的环境,使用户可以专注于其核心任务,而不是技术设置和维护其工具。

在Ubuntu安装数据科学堆栈(DSS)

要开始使用数据科学堆栈(DSS)进行机器学习和数据科学,请按照以下步骤设置您的环境:

先决条件

  • 操作系统:确保您的系统上安装了Ubuntu 22.04 LTS或Ubuntu 24.04 LTS。
  • Internet连接:您需要一个主动的Internet连接才能下载并安装必要的软件。
  • SNAP :确保在系统上安装了SNAP,因为安装Microk8和DSS所需。

设置Microk8

DSS使用Microk8作为其容器编排系统,允许工作负载访问主机的GPU。

要在Ubuntu上安装Microk8,请运行:

 $ sudo snap安装microk8s  - 渠道1.28/稳定 - 经典
登录后复制

接下来,启用所需的服务:

 $ sudo microk8s启用存储DNS RBAC
登录后复制

安装DSS CLI

数据科学堆栈通过命令行接口(CLI)管理。

使用以下命令安装DSS CLI:

 $ sudo snap install data-science-stack-通道最新/稳定
登录后复制

完成这些步骤后,您将安装DSS的基础组件并准备使用。现在,您可以继续设置机器学习环境,并开始使用DSS CLI开始运行第一笔笔记本。

数据科学堆栈开始

安装Microk8和DSS CLI后,下一步是在Microk8s顶部初始化DSS并准备MLFLOW以供使用。

初始化DSS和MLFLOW

要初始化DSS,您需要使用THEDSS InitializeCommand,该启动量可以在Microk8s群集中设置必要的资源。

 $ DSS初始化-kubeconfig =“ $(sudo microk8s config)”
登录后复制

- kubeconfigflag用于指定Microk8S生成的Kubernetes配置文件的路径。

DSS初始化命令可能需要几分钟才能完成。在此期间,DSS CLI将显示表示部署进度的消息。您会看到类似于以下信息的消息:

 [INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
登录后复制

此消息表明,DSS正在等待TensorFlow笔记本电脑的部署准备就绪。在系统设置环境并确保正确配置所有组件的情况下,请耐心等待。

初始化完成后,您将看到下面的输出:

 [info]执行初始化命令
[info]存储提供kubeconfig到/home/ostechnix/snap/data-science-stack/16/.dsss/config
[INFO]等待命名空间DSS中的部署MLFlow准备就绪...
[info]命名空间DSS中的部署MLFLOF已准备就绪
[INFO] DSS初始化。要创建第一个笔记本电脑运行命令:

DSS创建

示例:
  DSS创建mynotebook -image = pytorch
  DSS创建mynotebook -image = kubeflownotebookswg/jupyter-scipy:v1.8.0
登录后复制

规范启动为ML初学者的数据科学堆栈

现在,您将准备开始使用MLFlow跟踪服务器和DSS提供的其他组件。

然后,您可以继续在DSS环境中创建并运行第一个机器学习笔记本。

开始您的第一本Jupyter笔记本

要使用数据科学堆栈(DSS)启动第一个Jupyter笔记本,您需要使用Thedss CreateCommand,这使您可以指定要创建的笔记本的类型。

在这里,我们正在创建一个带有CUDA支持的tensorflow笔记本,名为My-Tensorflow-Notebook:

 $ dss创建my-tensorflow-notebook -image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0
登录后复制

成功创建笔记本后,您将看到下面的输出:

 [info]执行创建命令
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[info]命名空间DSS中的部署my-tensorflow notebook已准备就绪
[INFO]成功:笔记本My-Tensorflow-Notebook成功创建了。
[INFO]访问笔记本,请访问http://10.152.183.253:80。
登录后复制

规范启动为ML初学者的数据科学堆栈

笔记本准备好后,该命令显示一个URL,您可以使用该URL访问Jupyterlab UI。

要开始使用笔记本电脑,请打开Web浏览器,然后将提供的URL输入地址栏。

如您在上面的输出中看到的那样,我们可以从Web浏览器访问http://10.152.183.253:80的新创建的笔记本。用您自己的URL替换URL。

这将带您进入Jupyterlab接口,您可以在其中创建新笔记本电脑,上传数据并使用TensorFlow和CUDA开始机器学习任务。

规范启动为ML初学者的数据科学堆栈

请记住,URL中的IP地址和端口号可能会根据您的特定设置而有所不同。

就是这样。您现在可以开始与笔记本互动。

查看DSS状态

要快速检查您的数据科学堆栈(DSS)环境的状态,包括MLFLOW的状态和GPU加速度的可用性,您可以使用如下所示。

 $ DSS状态
登录后复制

THEDSS STATUCMAND将为您提供DSS环境当前状态的摘要。这是输出外观的示例:

 [INFO] MLFLOW部署:准备就绪
[info] mlflow URL:http://10.152.183.157:5000
[INFO] GPU加速度:禁用
登录后复制

输出的说明:

  • MLFLOW部署:Ready表示MLFlow跟踪服务器正在启动并运行。
  • MLFlow URL提供了您可以在其中访问MLFlow UI以跟踪机器学习实验的URL。
  • GPU加速度:禁用表明,在当前DSS环境中没有可用或配置的GPU。

要验证,请从Web浏览器打开MLFLOW URL http://10.152.183.157:5000。

这将打开Web浏览器中的MLFlow仪表板。

MLFlow仪表板中的实验选项卡:

规范启动为ML初学者的数据科学堆栈

由于这是我们的新装置,因此还没有实验。为了创建实验,请使用MLFlow实验CLI。

MLFlow仪表板中的模型选项卡:

规范启动为ML初学者的数据科学堆栈

列表DSS命令

要查看数据科学堆栈(DSS)的可用命令列表,您可以将DSS命令与-HELP选项一起使用。

在您的终端中运行以下命令:

 $ dss-螺旋
登录后复制

这将显示命令列表以及其目的的简要说明。

如果您需要有关特定DSS命令的更多详细信息,则可以使用命令,然后使用-HELP选项。

例如,要获取有关初始化命令的详细信息,您将运行:

 $ DSS日志 - 螺旋
登录后复制

从microk8s中删除数据科学堆栈

如果您不再需要DSS,则可以使用DSS Purge命令从Microk8s群集中删除数据科学堆栈。

要删除DSS,请在您的终端中执行以下命令:

 $ DSS清除
登录后复制

该命令将完全删除所有DSS组件,包括Jupyter笔记本电脑,MLFLOW服务器以及DSS环境中存储的任何数据。

重要的是要注意,此操作是不可逆转的,并且DSS环境中的所有数据将永久丢失。在进行清除之前,请确保备份任何重要数据。

删除DSS CLI和MICROK8S

当DSS Purge命令从Microk8s群集中删除DSS组件时,它不会删除DSS CLI或Microk8s群集本身。如果您也想删除这些内容,则需要删除它们各自的快照:

要删除DSS CLI,请使用以下命令:

 $ sudo snap删除数据科学堆栈
登录后复制

要删除microk8s,请使用以下命令:

 $ sudo snap删除microk8s
登录后复制

通过遵循以下步骤,您可以从系统中完全删除数据科学堆栈(DSS)及其相关组件。

常见问题(常见问题解答)

问:什么是数据科学堆栈(DSS)?

答:数据科学堆栈(DSS)是一个用于机器学习和数据科学的全面,现成的环境。它旨在简化数据科学工具和框架的设置和管理,使用户可以专注于其核心任务,而不是环境配置的复杂性。

问:DSS中包含哪些工具?

答:DSS包括各种开源工具,例如Jupyter笔记本,MLFLOW和流行的机器学习框架,例如Tensorflow和Pytorch。它还提供了一个容器编排系统Microk8s,用于管理工作负载。

问:如何安装DSS?

答:要安装DSS,您需要使用Ubuntu 22.04 LTS或Ubuntu 24.04 LTS,Internet连接并安装了SNAP。然后,您可以使用SNAP命令安装Microk8和DSS CLI。有关详细说明,请参阅《官方文档或安装指南》。

问:如何使用DSS启动jupyter笔记本?

答:您可以使用DSS Create命令启动带有DSS的Jupyter笔记本,为笔记本指定所需的图像。例如,要启动TensorFlow笔记本电脑,您将使用DSS创建My-TensorFlow-Notebook -image = KubeFlownoteBookswg/jupyter-tensorflow-cuda:v1.8.0。

问:DSS状态命令的目的是什么?

答:DSS状态命令可快速概述DSS环境的当前状态,包括MLFLOW的状态和GPU加速度的可用性。它可以帮助您验证所有组件的运行正确。

问:如何从环境中删除DSS?

答:要删除DSS,您可以使用DSS Purge命令,该命令将删除所有DSS组件,包括Jupyter Notebooks和MLFlow服务器。请注意,此操作是不可逆转的,将导致DSS环境中所有数据的丢失。

问:在哪里可以找到有关DSS命令的更多信息?

答:您可以通过使用DSS -HELP命令来列出所有可用命令和DSS - 螺旋,以获取特定命令的详细用法。

问:DSS可以免费使用吗?

是的,DSS基于开源工具,可以免费使用。

问:DSS适合数据科学的初学者?

答:是的,DSS的设计为用户友好,可以成为初学者的好工具,因为它降低了设置数据科学环境的复杂性。它提供了现成的优化环境,使用户可以快速开始从事数据科学项目。

结论

总之,数据科学堆栈(DSS)简化了数据科学任务的设置。它提供了一系列工具,可以很好地合作,从而更容易快速启动项目。

无论您是数据科学的新手还是经验丰富,DSS都可以通过处理技术设置来帮助您专注于工作。这是一个可靠的工具,支持有效的数据分析和模型构建。

资源

  • 数据科学堆栈(DSS)文档

相关阅读

  • 如何在Linux上安装Anaconda
  • 如何在Linux中安装Miniconda

以上是规范启动为ML初学者的数据科学堆栈的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板