規範啟動為ML初學者的數據科學堆棧-Linux-PHP中文網

數據科學是數據的研究。它涉及收集，分析和解釋大量信息。數據科學家使用這些信息來做出決策，解決問題並預測未來的趨勢。

數據科學家使用各種工具和技術來分析和解釋複雜的數據集。這有助於企業和組織做出更好的決策。

如果您是從數據科學開始的初學者，那麼在建立適當的數據科學環境方面，您可能會面臨一些挑戰。

以下是建立數據科學環境對初學者可能具有挑戰性的一些原因：

軟件安裝：新手通常在安裝必要的軟件（例如編程語言（例如Python或r），庫和工具（例如Jupyter Notebooks或Rstudio））方面很難。
了解依賴關係：軟件通常需要其他軟件的特定版本才能正常工作。如果無法正確管理，這可能會令人困惑，並導致錯誤。
學習曲線：數據科學涉及學習新技能，包括編程，統計和機器學習。對於初學者來說，這可能是壓倒性的。
數據處理：處理數據可能很複雜，尤其是在處理大型或混亂的數據集時。了解如何清潔，存儲和處理數據至關重要，但最初可能很難掌握。
版本控制：跟踪代碼和數據的更改很重要，但設置和管理可能很棘手，尤其是對於諸如GIT之類的版本控制系統的人。
選擇合適的工具：有許多可用的工具和框架，為特定項目選擇合適的工具可能會使初學者令人生畏。

通過了解這些挑戰，初學者可以更好地準備自己，並尋求正確的資源和支持以克服它們。

對於新的數據科學家來說，最初的障礙可能具有挑戰性，但是隨著持久性和一致的學習，旅程將變得更加順利。

多虧了Canonical的數據科學堆棧（DSS） ，現在設置數據科學變得更加容易。在本教程中，我們將討論什麼是數據科學堆棧，以及如何在Ubuntu操作系統中輕鬆快速地設置數據科學環境。

什麼是數據科學堆棧（DSS）？

Canonical的數據科學堆棧（DSS）是數據科學家和機器學習工程師的開箱即用解決方案。

數據科學堆棧通過提供預先配置的環境，包括所有必要的工具和庫，用於機器學習和數據分析，從而簡化了設置過程。

通過設計用於在Ubuntu工作站上運行並優化GPU的使用，DSS可以增強機器學習模型的性能，這對計算密集型任務特別有益。

DSS允許用戶更多地關注其模型的開發和優化，而不是環境設置的技術。

這可以節省大量時間，否則將花費在安裝和配置各個組件上。

數據科學堆棧中包括什麼？

數據科學堆棧（DSS）為數據科學家和機器學習工程師提供了一個全面而整合的環境。這是它提供的：

預安裝的工具：DSS包括流行的開源工具，例如Microk8s ， Jupyterlab和MLFlow ，這對於數據探索，模型開發和實驗跟踪至關重要。
機器學習框架：默認情況下，它具有兩個廣泛使用的機器學習框架， Pytorch和Tensorflow ，它們可以用於建築和培訓模型。
命令行接口（CLI） ：DSS提供了一種直觀的CLI，用於部署這些工具和框架，從而更容易管理和擴展環境。
用戶界面：部署後，用戶可以訪問工具的UI，以便在無需手動設置的情況下開始從事其數據科學項目。
包裝依賴性：DSS處理包裝依賴性，以確保所有工具，庫和框架彼此兼容並順利進行。
硬件兼容性：它旨在與機器的硬件兼容，優化工具和框架的性能
簡化的配置：傳統上，在工作站上設置機器學習環境可能很複雜且難以逆轉。 DSS通過提供有效利用工作站的GPU的可訪問，可訪問，隔離和可重現的ML環境來解決這一問題。
GPU配置：DSS通過包括GPU操作員來簡化GPU配置，該操作員管理GPU用於機器學習任務的設置和使用，從而有效利用其計算能力。

總體而言，DSS旨在為數據科學和機器學習提供無憂且優化的環境，使用戶可以專注於其核心任務，而不是技術設置和維護其工具。

在Ubuntu安裝數據科學堆棧（DSS）

要開始使用數據科學堆棧（DSS）進行機器學習和數據科學，請按照以下步驟設置您的環境：

先決條件

操作系統：確保您的系統上安裝了Ubuntu 22.04 LTS或Ubuntu 24.04 LTS。
Internet連接：您需要一個主動的Internet連接才能下載並安裝必要的軟件。
SNAP ：確保在系統上安裝了SNAP，因為安裝Microk8和DSS所需。

設置Microk8

DSS使用Microk8作為其容器編排系統，允許工作負載訪問主機的GPU。

要在Ubuntu上安裝Microk8，請運行：

 $ sudo snap安裝microk8s  - 渠道1.28/穩定 - 經典

登入後複製

接下來，啟用所需的服務：

 $ sudo microk8s啟用存儲DNS RBAC

登入後複製

安裝DSS CLI

數據科學堆棧通過命令行接口（CLI）管理。

使用以下命令安裝DSS CLI：

 $ sudo snap install data-science-stack-通道最新/穩定

登入後複製

完成這些步驟後，您將安裝DSS的基礎組件並準備使用。現在，您可以繼續設置機器學習環境，並開始使用DSS CLI開始運行第一筆筆記本。

數據科學堆棧開始

安裝Microk8和DSS CLI後，下一步是在Microk8s頂部初始化DSS並準備MLFLOW以供使用。

初始化DSS和MLFLOW

要初始化DSS，您需要使用THEDSS InitializeCommand，該啟動量可以在Microk8s群集中設置必要的資源。

 $ DSS初始化-kubeconfig =“ $（sudo microk8s config）”

登入後複製

- kubeconfigflag用於指定Microk8S生成的Kubernetes配置文件的路徑。

DSS初始化命令可能需要幾分鐘才能完成。在此期間，DSS CLI將顯示表示部署進度的消息。您會看到類似於以下信息的消息：

 [INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒...

登入後複製

此消息表明，DSS正在等待TensorFlow筆記本電腦的部署準備就緒。在系統設置環境並確保正確配置所有組件的情況下，請耐心等待。

初始化完成後，您將看到下面的輸出：

 [info]執行初始化命令
[info]存儲提供kubeconfig到/home/ostechnix/snap/data-science-stack/16/.dsss/config
[INFO]等待命名空間DSS中的部署MLFlow準備就緒...
[info]命名空間DSS中的部署MLFLOF已準備就緒
[INFO] DSS初始化。要創建第一個筆記本電腦運行命令：

DSS創建

示例：
  DSS創建mynotebook -image = pytorch
  DSS創建mynotebook -image = kubeflownotebookswg/jupyter-scipy：v1.8.0

登入後複製

規範啟動為ML初學者的數據科學堆棧

現在，您將準備開始使用MLFlow跟踪服務器和DSS提供的其他組件。

然後，您可以繼續在DSS環境中創建並運行第一個機器學習筆記本。

開始您的第一本Jupyter筆記本

要使用數據科學堆棧（DSS）啟動第一個Jupyter筆記本，您需要使用Thedss CreateCommand，這使您可以指定要創建的筆記本的類型。

在這裡，我們正在創建一個帶有CUDA支持的tensorflow筆記本，名為My-Tensorflow-Notebook：

 $ dss創建my-tensorflow-notebook -image = kubeflownotebookswg/jupyter-tensorflow-cuda：v1.8.0

登入後複製

成功創建筆記本後，您將看到下面的輸出：

 [info]執行創建命令
[INFO] Waiting for deployment my-tensorflow-notebook in namespace dss to be ready...
[INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒...
[INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒...
[info]命名空間DSS中的部署my-tensorflow notebook已準備就緒
[INFO]成功：筆記本My-Tensorflow-Notebook成功創建了。
[INFO]訪問筆記本，請訪問http://10.152.183.253:80。

登入後複製

規範啟動為ML初學者的數據科學堆棧

筆記本準備好後，該命令顯示一個URL，您可以使用該URL訪問Jupyterlab UI。

要開始使用筆記本電腦，請打開Web瀏覽器，然後將提供的URL輸入地址欄。

如您在上面的輸出中看到的那樣，我們可以從Web瀏覽器訪問http://10.152.183.253:80的新創建的筆記本。用您自己的URL替換URL。

這將帶您進入Jupyterlab接口，您可以在其中創建新筆記本電腦，上傳數據並使用TensorFlow和CUDA開始機器學習任務。

規範啟動為ML初學者的數據科學堆棧

請記住，URL中的IP地址和端口號可能會根據您的特定設置而有所不同。

就是這樣。您現在可以開始與筆記本互動。

查看DSS狀態

要快速檢查您的數據科學堆棧（DSS）環境的狀態，包括MLFLOW的狀態和GPU加速度的可用性，您可以使用如下所示。

 $ DSS狀態

登入後複製

THEDSS STATUCMAND將為您提供DSS環境當前狀態的摘要。這是輸出外觀的示例：

 [INFO] MLFLOW部署：準備就緒
[info] mlflow URL：http：//10.152.183.157:5000
[INFO] GPU加速度：禁用

登入後複製

輸出的說明：

MLFLOW部署：Ready表示MLFlow跟踪服務器正在啟動並運行。
MLFlow URL提供了您可以在其中訪問MLFlow UI以跟踪機器學習實驗的URL。
GPU加速度：禁用表明，在當前DSS環境中沒有可用或配置的GPU。

要驗證，請從Web瀏覽器打開MLFLOW URL http://10.152.183.157:5000。

這將打開Web瀏覽器中的MLFlow儀表板。

MLFlow儀表板中的實驗選項卡：

規範啟動為ML初學者的數據科學堆棧

由於這是我們的新裝置，因此還沒有實驗。為了創建實驗，請使用MLFlow實驗CLI。

MLFlow儀表板中的模型選項卡：

規範啟動為ML初學者的數據科學堆棧

列表DSS命令

要查看數據科學堆棧（DSS）的可用命令列表，您可以將DSS命令與-HELP選項一起使用。

在您的終端中運行以下命令：

 $ dss-螺旋

登入後複製

這將顯示命令列表以及其目的的簡要說明。

如果您需要有關特定DSS命令的更多詳細信息，則可以使用命令，然後使用-HELP選項。

例如，要獲取有關初始化命令的詳細信息，您將運行：

 $ DSS日誌 - 螺旋

登入後複製

從microk8s中刪除數據科學堆棧

如果您不再需要DSS，則可以使用DSS Purge命令從Microk8s群集中刪除數據科學堆棧。

要刪除DSS，請在您的終端中執行以下命令：

 $ DSS清除

登入後複製

該命令將完全刪除所有DSS組件，包括Jupyter筆記本電腦，MLFLOW服務器以及DSS環境中存儲的任何數據。

重要的是要注意，此操作是不可逆轉的，並且DSS環境中的所有數據將永久丟失。在進行清除之前，請確保備份任何重要數據。

刪除DSS CLI和MICROK8S

當DSS Purge命令從Microk8s群集中刪除DSS組件時，它不會刪除DSS CLI或Microk8s群集本身。如果您也想刪除這些內容，則需要刪除它們各自的快照：

要刪除DSS CLI，請使用以下命令：

 $ sudo snap刪除數據科學堆棧

登入後複製

要刪除microk8s，請使用以下命令：

 $ sudo snap刪除microk8s

登入後複製

通過遵循以下步驟，您可以從系統中完全刪除數據科學堆棧（DSS）及其相關組件。

常見問題（常見問題解答）

問：什麼是數據科學堆棧（DSS）？

答：數據科學堆棧（DSS）是一個用於機器學習和數據科學的全面，現成的環境。它旨在簡化數據科學工具和框架的設置和管理，使用戶可以專注於其核心任務，而不是環境配置的複雜性。

問：DSS中包含哪些工具？

答：DSS包括各種開源工具，例如Jupyter筆記本，MLFLOW和流行的機器學習框架，例如Tensorflow和Pytorch。它還提供了一個容器編排系統Microk8s，用於管理工作負載。

問：如何安裝DSS？

答：要安裝DSS，您需要使用Ubuntu 22.04 LTS或Ubuntu 24.04 LTS，Internet連接並安裝了SNAP。然後，您可以使用SNAP命令安裝Microk8和DSS CLI。有關詳細說明，請參閱《官方文檔或安裝指南》。

問：如何使用DSS啟動jupyter筆記本？

答：您可以使用DSS Create命令啟動帶有DSS的Jupyter筆記本，為筆記本指定所需的圖像。例如，要啟動TensorFlow筆記本電腦，您將使用DSS創建My-TensorFlow-Notebook -image = KubeFlownoteBookswg/jupyter-tensorflow-cuda：v1.8.0。

問：DSS狀態命令的目的是什麼？

答：DSS狀態命令可快速概述DSS環境的當前狀態，包括MLFLOW的狀態和GPU加速度的可用性。它可以幫助您驗證所有組件的運行正確。

問：如何從環境中刪除DSS？

答：要刪除DSS，您可以使用DSS Purge命令，該命令將刪除所有DSS組件，包括Jupyter Notebooks和MLFlow服務器。請注意，此操作是不可逆轉的，將導致DSS環境中所有數據的丟失。

問：在哪裡可以找到有關DSS命令的更多信息？

答：您可以通過使用DSS -HELP命令來列出所有可用命令和DSS - 螺旋，以獲取特定命令的詳細用法。

問：DSS可以免費使用嗎？

是的，DSS基於開源工具，可以免費使用。

問：DSS適合數據科學的初學者？

答：是的，DSS的設計為用戶友好，可以成為初學者的好工具，因為它降低了設置數據科學環境的複雜性。它提供了現成的優化環境，使用戶可以快速開始從事數據科學項目。