数据科学是数据的研究。它涉及收集,分析和解释大量信息。数据科学家使用这些信息来做出决策,解决问题并预测未来的趋势。
数据科学家使用各种工具和技术来分析和解释复杂的数据集。这有助于企业和组织做出更好的决策。
如果您是从数据科学开始的初学者,那么在建立适当的数据科学环境方面,您可能会面临一些挑战。
以下是建立数据科学环境对初学者可能具有挑战性的一些原因:
通过了解这些挑战,初学者可以更好地准备自己,并寻求正确的资源和支持以克服它们。
对于新的数据科学家来说,最初的障碍可能具有挑战性,但是随着持久性和一致的学习,旅程将变得更加顺利。
多亏了Canonical的数据科学堆栈(DSS) ,现在设置数据科学变得更加容易。在本教程中,我们将讨论什么是数据科学堆栈,以及如何在Ubuntu操作系统中轻松快速地设置数据科学环境。
目录
Canonical的数据科学堆栈(DSS)是数据科学家和机器学习工程师的开箱即用解决方案。
数据科学堆栈通过提供预先配置的环境,包括所有必要的工具和库,用于机器学习和数据分析,从而简化了设置过程。
通过设计用于在Ubuntu工作站上运行并优化GPU的使用,DSS可以增强机器学习模型的性能,这对计算密集型任务特别有益。
DSS允许用户更多地关注其模型的开发和优化,而不是环境设置的技术。
这可以节省大量时间,否则将花费在安装和配置各个组件上。
数据科学堆栈(DSS)为数据科学家和机器学习工程师提供了一个全面而整合的环境。这是它提供的:
总体而言,DSS旨在为数据科学和机器学习提供无忧且优化的环境,使用户可以专注于其核心任务,而不是技术设置和维护其工具。
要开始使用数据科学堆栈(DSS)进行机器学习和数据科学,请按照以下步骤设置您的环境:
DSS使用Microk8作为其容器编排系统,允许工作负载访问主机的GPU。
要在Ubuntu上安装Microk8,请运行:
$ sudo snap安装microk8s - 渠道1.28/稳定 - 经典
接下来,启用所需的服务:
$ sudo microk8s启用存储DNS RBAC
数据科学堆栈通过命令行接口(CLI)管理。
使用以下命令安装DSS CLI:
$ sudo snap install data-science-stack-通道最新/稳定
完成这些步骤后,您将安装DSS的基础组件并准备使用。现在,您可以继续设置机器学习环境,并开始使用DSS CLI开始运行第一笔笔记本。
安装Microk8和DSS CLI后,下一步是在Microk8s顶部初始化DSS并准备MLFLOW以供使用。
要初始化DSS,您需要使用THEDSS InitializeCommand,该启动量可以在Microk8s群集中设置必要的资源。
$ DSS初始化-kubeconfig =“ $(sudo microk8s config)”
- kubeconfigflag用于指定Microk8S生成的Kubernetes配置文件的路径。
DSS初始化命令可能需要几分钟才能完成。在此期间,DSS CLI将显示表示部署进度的消息。您会看到类似于以下信息的消息:
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
此消息表明,DSS正在等待TensorFlow笔记本电脑的部署准备就绪。在系统设置环境并确保正确配置所有组件的情况下,请耐心等待。
初始化完成后,您将看到下面的输出:
[info]执行初始化命令 [info]存储提供kubeconfig到/home/ostechnix/snap/data-science-stack/16/.dsss/config [INFO]等待命名空间DSS中的部署MLFlow准备就绪... [info]命名空间DSS中的部署MLFLOF已准备就绪 [INFO] DSS初始化。要创建第一个笔记本电脑运行命令: DSS创建 示例: DSS创建mynotebook -image = pytorch DSS创建mynotebook -image = kubeflownotebookswg/jupyter-scipy:v1.8.0
现在,您将准备开始使用MLFlow跟踪服务器和DSS提供的其他组件。
然后,您可以继续在DSS环境中创建并运行第一个机器学习笔记本。
要使用数据科学堆栈(DSS)启动第一个Jupyter笔记本,您需要使用Thedss CreateCommand,这使您可以指定要创建的笔记本的类型。
在这里,我们正在创建一个带有CUDA支持的tensorflow笔记本,名为My-Tensorflow-Notebook:
$ dss创建my-tensorflow-notebook -image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0
成功创建笔记本后,您将看到下面的输出:
[info]执行创建命令 [INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪... [INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪... [INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪... [info]命名空间DSS中的部署my-tensorflow notebook已准备就绪 [INFO]成功:笔记本My-Tensorflow-Notebook成功创建了。 [INFO]访问笔记本,请访问http://10.152.183.253:80。
笔记本准备好后,该命令显示一个URL,您可以使用该URL访问Jupyterlab UI。
要开始使用笔记本电脑,请打开Web浏览器,然后将提供的URL输入地址栏。
如您在上面的输出中看到的那样,我们可以从Web浏览器访问http://10.152.183.253:80的新创建的笔记本。用您自己的URL替换URL。
这将带您进入Jupyterlab接口,您可以在其中创建新笔记本电脑,上传数据并使用TensorFlow和CUDA开始机器学习任务。
请记住,URL中的IP地址和端口号可能会根据您的特定设置而有所不同。
就是这样。您现在可以开始与笔记本互动。
要快速检查您的数据科学堆栈(DSS)环境的状态,包括MLFLOW的状态和GPU加速度的可用性,您可以使用如下所示。
$ DSS状态
THEDSS STATUCMAND将为您提供DSS环境当前状态的摘要。这是输出外观的示例:
[INFO] MLFLOW部署:准备就绪 [info] mlflow URL:http://10.152.183.157:5000 [INFO] GPU加速度:禁用
输出的说明:
要验证,请从Web浏览器打开MLFLOW URL http://10.152.183.157:5000。
这将打开Web浏览器中的MLFlow仪表板。
MLFlow仪表板中的实验选项卡:
由于这是我们的新装置,因此还没有实验。为了创建实验,请使用MLFlow实验CLI。
MLFlow仪表板中的模型选项卡:
要查看数据科学堆栈(DSS)的可用命令列表,您可以将DSS命令与-HELP选项一起使用。
在您的终端中运行以下命令:
$ dss-螺旋
这将显示命令列表以及其目的的简要说明。
如果您需要有关特定DSS命令的更多详细信息,则可以使用命令,然后使用-HELP选项。
例如,要获取有关初始化命令的详细信息,您将运行:
$ DSS日志 - 螺旋
如果您不再需要DSS,则可以使用DSS Purge命令从Microk8s群集中删除数据科学堆栈。
要删除DSS,请在您的终端中执行以下命令:
$ DSS清除
该命令将完全删除所有DSS组件,包括Jupyter笔记本电脑,MLFLOW服务器以及DSS环境中存储的任何数据。
重要的是要注意,此操作是不可逆转的,并且DSS环境中的所有数据将永久丢失。在进行清除之前,请确保备份任何重要数据。
当DSS Purge命令从Microk8s群集中删除DSS组件时,它不会删除DSS CLI或Microk8s群集本身。如果您也想删除这些内容,则需要删除它们各自的快照:
要删除DSS CLI,请使用以下命令:
$ sudo snap删除数据科学堆栈
要删除microk8s,请使用以下命令:
$ sudo snap删除microk8s
通过遵循以下步骤,您可以从系统中完全删除数据科学堆栈(DSS)及其相关组件。
答:数据科学堆栈(DSS)是一个用于机器学习和数据科学的全面,现成的环境。它旨在简化数据科学工具和框架的设置和管理,使用户可以专注于其核心任务,而不是环境配置的复杂性。
问:DSS中包含哪些工具?答:DSS包括各种开源工具,例如Jupyter笔记本,MLFLOW和流行的机器学习框架,例如Tensorflow和Pytorch。它还提供了一个容器编排系统Microk8s,用于管理工作负载。
问:如何安装DSS?答:要安装DSS,您需要使用Ubuntu 22.04 LTS或Ubuntu 24.04 LTS,Internet连接并安装了SNAP。然后,您可以使用SNAP命令安装Microk8和DSS CLI。有关详细说明,请参阅《官方文档或安装指南》。
问:如何使用DSS启动jupyter笔记本?答:您可以使用DSS Create命令启动带有DSS的Jupyter笔记本,为笔记本指定所需的图像。例如,要启动TensorFlow笔记本电脑,您将使用DSS创建My-TensorFlow-Notebook -image = KubeFlownoteBookswg/jupyter-tensorflow-cuda:v1.8.0。
问:DSS状态命令的目的是什么?答:DSS状态命令可快速概述DSS环境的当前状态,包括MLFLOW的状态和GPU加速度的可用性。它可以帮助您验证所有组件的运行正确。
问:如何从环境中删除DSS?答:要删除DSS,您可以使用DSS Purge命令,该命令将删除所有DSS组件,包括Jupyter Notebooks和MLFlow服务器。请注意,此操作是不可逆转的,将导致DSS环境中所有数据的丢失。
问:在哪里可以找到有关DSS命令的更多信息?答:您可以通过使用DSS -HELP命令来列出所有可用命令和DSS
是的,DSS基于开源工具,可以免费使用。
问:DSS适合数据科学的初学者?答:是的,DSS的设计为用户友好,可以成为初学者的好工具,因为它降低了设置数据科学环境的复杂性。它提供了现成的优化环境,使用户可以快速开始从事数据科学项目。
总之,数据科学堆栈(DSS)简化了数据科学任务的设置。它提供了一系列工具,可以很好地合作,从而更容易快速启动项目。
无论您是数据科学的新手还是经验丰富,DSS都可以通过处理技术设置来帮助您专注于工作。这是一个可靠的工具,支持有效的数据分析和模型构建。
资源:
相关阅读:
以上是规范启动为ML初学者的数据科学堆栈的详细内容。更多信息请关注PHP中文网其他相关文章!