Canonical은 ML 초보자를위한 데이터 과학 스택을 시작합니다-리눅스-php.cn

데이터 과학 은 데이터 연구입니다. 여기에는 많은 양의 정보 수집, 분석 및 해석이 포함됩니다. 데이터 과학자들은이 정보를 사용하여 결정을 내리고 문제를 해결하며 미래 추세를 예측합니다.

데이터 과학자들은 다양한 도구와 기술을 사용하여 복잡한 데이터 세트를 분석하고 해석합니다. 이를 통해 비즈니스와 조직이 더 나은 결정을 내릴 수 있습니다.

데이터 과학을 시작으로 초보자라면 적절한 데이터 과학 환경을 설정하는 데 몇 가지 어려움이있을 수 있습니다.

초보자에게는 데이터 과학 환경을 설정하는 데 어려움을 겪을 수있는 몇 가지 이유가 있습니다.

소프트웨어 설치 : 초보자는 종종 프로그래밍 언어 (Python 또는 R 등), 라이브러리 및 도구 (Jupyter Notebooks 또는 Rstudio)와 같은 필요한 소프트웨어를 설치하는 데 어려움을 겪습니다.
의존성 이해 : 소프트웨어에는 종종 특정 버전의 다른 소프트웨어가 올바르게 작동해야합니다. 제대로 관리하지 않으면 혼란스럽고 오류로 이어질 수 있습니다.
학습 곡선 : 데이터 과학에는 프로그래밍, 통계 및 기계 학습을 포함한 새로운 기술을 학습해야합니다. 이것은 초보자에게 압도적 일 수 있습니다.
데이터 처리 : 특히 크거나 지저분한 데이터 세트를 처리 할 때 데이터 작업은 복잡 할 수 있습니다. 데이터를 청소, 저장 및 처리하는 방법을 이해하는 것은 중요하지만 처음에는 파악하기가 어려울 수 있습니다.
버전 제어 : 코드 및 데이터의 변경 사항을 추적하는 것이 중요하지만 특히 GIT와 같은 새로운 버전 제어 시스템의 경우 설정 및 관리가 까다로울 수 있습니다.
올바른 도구 선택 : 사용 가능한 많은 도구와 프레임 워크가 있으며 특정 프로젝트에 적합한 도구를 선택하는 것은 초보자에게 어려울 수 있습니다.

이러한 과제를 이해함으로써 초보자는 자신을 더 잘 준비하고 올바른 자원과이를 극복 할 수있는 지원을 구할 수 있습니다.

초기 장애물은 새로운 데이터 과학자에게는 어려울 수 있지만 지속성과 일관된 학습으로 여행은 더 매끄럽게 될 것입니다.

Canonical의 DSS (Data Science Stack) 덕분에 데이터 과학 설정이 훨씬 쉬워졌습니다. 이 튜토리얼에서는 데이터 과학 스택이 무엇인지 ,이를 사용하여 Ubuntu 운영 체제에서 데이터 과학 환경을 쉽고 빠르게 설정하는 방법에 대해 논의 할 것입니다.

데이터 과학 스택 (DSS)이란 무엇입니까?
데이터 과학 스택에 포함 된 것은 무엇입니까?
우분투에 데이터 과학 스택 (DSS)을 설치하십시오
- 전제 조건
- microk8s 설정
- DSS CLI 설치
데이터 과학 스택을 시작합니다
- DSS 및 MLFLOW 초기화
- 첫 번째 Jupyter 노트북을 시작합니다
- DSS 상태를 봅니다
- 목록 DSS 명령
- Microk8s에서 데이터 과학 스택 제거
- DSS CLI 및 Microk8을 제거하십시오
자주 묻는 질문 (FAQ)
결론

데이터 과학 스택 (DSS)이란 무엇입니까?

Canonical의 DSS (Data Science Stack)는 데이터 과학자 및 기계 학습 엔지니어를위한 기본적인 솔루션입니다.

데이터 과학 스택은 기계 학습 및 데이터 분석에 필요한 모든 도구 및 라이브러리를 포함하는 사전 구성된 환경을 제공하여 설정 프로세스를 단순화합니다.

Ubuntu 워크 스테이션에서 실행되도록 설계되고 GPU 사용을 최적화함으로써 DSS는 기계 학습 모델의 성능을 향상시킬 수 있으며, 이는 특히 계산 집약적 인 작업에 유리합니다.

DSS를 통해 사용자는 환경 설정의 기술보다는 모델의 개발 및 최적화에 더 집중할 수 있습니다.

이로 인해 개별 구성 요소를 설치하고 구성하는 데 소비되는 상당한 시간을 절약 할 수 있습니다.

데이터 과학 스택에 포함 된 것은 무엇입니까?

DSS (Data Science Stack)는 데이터 과학자 및 기계 학습 엔지니어에게 포괄적이고 통합 된 환경을 제공합니다. 제공하는 내용은 다음과 같습니다.

사전 설치된 도구 : DSS에는 데이터 탐색, 모델 개발 및 실험 추적에 필수적인 Microk8s , Jupyterlab 및 MLFlow 와 같은 인기있는 오픈 소스 도구가 포함되어 있습니다.
머신 러닝 프레임 워크 : 기본적으로 널리 사용되는 두 가지 머신 러닝 프레임 워크 인 Pytorch 및 Tensorflow가 제공되며 모델 구축 및 교육 모델에 사용할 수 있습니다.
CLI (Command Line Interface) : DSS는 이러한 도구 및 프레임 워크를 배포하기위한 직관적 인 CLI를 제공하므로 환경을보다 쉽게 관리하고 확장 할 수 있습니다.
사용자 인터페이스 : 배포 후 사용자는 도구의 UI에 액세스하여 수동 설정의 번거 로움없이 데이터 과학 프로젝트 작업을 시작할 수 있습니다.
포장 의존성 : DSS는 포장 종속성을 처리하여 모든 도구, 라이브러리 및 프레임 워크가 서로 호환되고 원활하게 작동하도록합니다.
하드웨어 호환성 : 기계의 하드웨어와 호환되도록 설계되어 도구 및 프레임 워크의 성능을 최적화합니다.
단순화 된 구성 : 전통적으로 워크 스테이션에서 머신 러닝 환경을 설정하는 것은 복잡하고 역전하기가 어려울 수 있습니다. DSS는 워크 스테이션의 GPU를 효율적으로 활용하는 접근성, 생산 준비, 분리 및 재현 가능한 ML 환경을 제공함으로써이를 해결합니다.
GPU 구성 : DSS는 기계 학습 작업을위한 GPU의 설정 및 사용을 관리하여 계산 전력을 효과적으로 활용하는 GPU 연산자를 포함하여 GPU 구성을 단순화합니다.

전반적으로 DSS는 데이터 과학 및 기계 학습에 번거롭고 최적화 된 환경을 제공하여 사용자가 도구의 기술 설정 및 유지 보수보다는 핵심 작업에 집중할 수 있도록합니다.

우분투에 데이터 과학 스택 (DSS)을 설치하십시오

머신 러닝 및 데이터 과학을 위해 DSS (Data Science Stack)를 사용하기 시작하려면 다음 단계를 따라 환경을 설정하십시오.

전제 조건

운영 체제 : 시스템에 Ubuntu 22.04 LTS 또는 Ubuntu 24.04 LT가 설치되어 있는지 확인하십시오.
인터넷 연결 : 필요한 소프트웨어를 다운로드하고 설치하려면 활발한 인터넷 연결이 필요합니다.
SNAP : MicroK8 및 DSS를 설치하는 데 필요한 시스템에 SNAP가 시스템에 설치되어 있는지 확인하십시오.

microk8s 설정

DSS는 MicroK8을 컨테이너 오케스트레이션 시스템으로 사용하여 워크로드가 호스트의 GPU에 액세스 할 수 있도록합니다.

우분투에 microk8을 설치하려면 실행하십시오.

 $ Sudo Snap Install Microk8s -Channel 1.28/안정 -클래식

로그인 후 복사

다음으로 필요한 서비스를 활성화합니다.

 $ sudo microk8s는 스토리지 dns rbac을 활성화합니다

로그인 후 복사

DSS CLI 설치

데이터 과학 스택은 명령 줄 인터페이스 (CLI)를 통해 관리됩니다.

다음 명령으로 DSS CLI를 설치하십시오.

 $ Sudo Snap Data-Science-Stack 설치 -Channel 최신/안정

로그인 후 복사

이 단계가 완료되면 DSS의 기본 구성 요소가 설치되어 사용할 준비가되어 있습니다. 이제 기계 학습 환경을 설정하고 DSS CLI를 사용하여 첫 노트북을 실행하기 시작할 수 있습니다.

데이터 과학 스택을 시작합니다

MicroK8 및 DSS CLI를 설치 한 후 다음 단계는 Microk8 위에 DSS를 초기화하고 사용하기 위해 MLFLOW를 준비하는 것입니다.

DSS 및 MLFLOW 초기화

DSS를 초기화하려면 Microk8S 클러스터 내에서 필요한 리소스를 설정하는 THEDSS InitializeCommand를 사용해야합니다.

 $ dss 초기화 -kubeconfig = "$ (sudo microk8s config)"

로그인 후 복사

--kubeconfigflag는 microk8에 의해 생성 된 Kubernetes 구성 파일의 경로를 지정하는 데 사용됩니다.

DSS 초기화 명령은 완료하는 데 몇 분이 걸릴 수 있습니다. 이 기간 동안 DSS CLI는 배포 진행 상황을 나타내는 메시지를 표시합니다. 다음과 유사한 메시지가 표시됩니다.

 [Info] 네임 스페이스 DSS의 배포를 기다리는 대기 준비 ...

로그인 후 복사

이 메시지는 DSS가 Tensorflow 노트북의 배치가 준비되기를 기다리고 있음을 나타냅니다. 시스템이 환경을 설정하고 모든 구성 요소가 올바르게 구성되도록 인내하십시오.

초기화가 완료되면 다음과 같은 출력이 표시됩니다.

 [정보] 초기화 명령 실행
[info] 저장 kubeconfig를 /home/ostechnix/snap/data-science-stack/16/.dss/config에 제공했습니다
[정보] 네임 스페이스 DSS의 배포 MLFLOW를 기다리는 대기 준비 ...
[정보] 네임 스페이스 DSS의 배포 MLFLOW가 준비되었습니다
[정보] DSS가 초기화되었습니다. 첫 노트를 만들려면 명령을 실행합니다.

DSS 생성

예 :
  DSS는 my-notebook을 작성합니다 --Image = pytorch
  DSS 생성 my-notebook -Image = kubeflownotebookswg/jupyter-scipy : v1.8.0

로그인 후 복사

Canonical은 ML 초보자를위한 데이터 과학 스택을 시작합니다

이제 MLFlow 추적 서버 및 DSS에서 제공하는 기타 구성 요소를 사용할 준비가됩니다.

그런 다음 DSS 환경 내에서 첫 머신 러닝 노트북을 만들고 실행할 수 있습니다.

첫 번째 Jupyter 노트북을 시작합니다

DSS (Data Science Stack)를 사용하여 첫 번째 Jupyter 노트북을 시작하려면 THEDSS CreateCommand를 사용해야합니다.

여기, 우리는 CUDA 지원이 포함 된 My-Tensorflow-Notebook이라는 Tensorflow 노트북을 만들고 있습니다.

 $ dss my-tensorflow-notebook을 생성 --image = kubeflownotebookswg/jupyter-tensorflow-cuda : v1.8.0

로그인 후 복사

노트북을 성공적으로 작성하면 다음과 같은 출력이 표시됩니다.

 [정보] Create Command 실행
[Info] 네임 스페이스 DSS의 배포를 기다리는 대기 준비 ...
[Info] 네임 스페이스 DSS의 배포를 기다리는 대기 준비 ...
[Info] 네임 스페이스 DSS의 배포를 기다리는 대기 준비 ...
[Info] 네임 스페이스 DSS의 배포 My-TensorFlow-Notebook이 준비되었습니다
[Info] 성공 : 노트북 my-tensorflow-notebook이 성공적으로 만들어졌습니다.
[정보] http://10.152.183.253:80의 노트에 액세스하십시오.

로그인 후 복사

Canonical은 ML 초보자를위한 데이터 과학 스택을 시작합니다

노트북이 준비되면 명령에는 jupyterlab ui에 액세스하는 데 사용할 수있는 URL이 표시됩니다.

노트북 작업을 시작하려면 웹 브라우저를 열고 제공된 URL을 주소 표시 줄에 입력하십시오.

위의 출력에서 볼 수 있듯이 웹 브라우저에서 새로 만든 노트북 (http://10.152.183.253:80)에 액세스 할 수 있습니다. URL을 자신의 것으로 바꾸십시오.

이렇게하면 Jupyterlab 인터페이스로 이동하여 새 노트북을 만들고 데이터를 업로드하며 Tensorflow 및 Cuda를 사용하여 기계 학습 작업을 시작할 수 있습니다.

Canonical은 ML 초보자를위한 데이터 과학 스택을 시작합니다

URL의 IP 주소와 포트 번호는 특정 설정에 따라 다를 수 있습니다.

그게 다야. 이제 노트북과 상호 작용을 시작할 수 있습니다.

DSS 상태를 봅니다

MLFLOW 상태 및 GPU 가속도의 가용성을 포함하여 DSS (Data Science Stack) 환경의 상태를 빠르게 확인하려면 아래와 같은 THEDSS 상태 명령을 사용할 수 있습니다.

 $ dss 상태

로그인 후 복사

THEDSS StatusCommand는 DSS 환경의 현재 상태에 대한 요약을 제공합니다. 다음은 출력이 어떻게 보일지에 대한 예입니다.

 [정보] mlflow 배포 : 준비
[정보] mlflow URL : http://10.152.183.157:5000
[정보] GPU 가속도 : 비활성화

로그인 후 복사

출력 설명 :

MLFLOW 배포 : Ready는 MLFLOW 추적 서버가 UP 및 실행 중임을 나타냅니다.
MLFLOW URL은 MLFLOW UI에 액세스하여 기계 학습 실험을 추적 할 수있는 URL을 제공합니다.
GPU 가속도 : 비활성화 된 결과 는 현재 DSS 환경에서 사용할 수 있거나 구성된 GPU가 없음을 보여줍니다.

확인하려면 웹 브라우저에서 mlflow url http://10.152.183.157:5000을 엽니 다.

웹 브라우저에서 mlflow 대시 보드가 열립니다.

mlflow 대시 보드의 실험 탭 :

Canonical은 ML 초보자를위한 데이터 과학 스택을 시작합니다

새로운 설치이므로 아직 실험이 없습니다. 실험을 만들려면 MLFLOW 실험 CLI를 사용하십시오.

MLFlow 대시 보드의 모델 탭 :

Canonical은 ML 초보자를위한 데이터 과학 스택을 시작합니다

목록 DSS 명령

DSS (Data Science Stack)에 사용 가능한 명령 목록을 보려면 -HELP 옵션과 함께 DSS 명령을 사용할 수 있습니다.

터미널에서 다음 명령을 실행하십시오.

 $ dss- 헬프

로그인 후 복사

이것은 그들의 목적에 대한 간단한 설명과 함께 명령 목록을 표시합니다.

특정 DSS 명령에 대한 자세한 정보가 필요한 경우 명령과 -HELP 옵션을 사용할 수 있습니다.

예를 들어, 초기화 명령에 대한 세부 정보를 얻으려면 실행됩니다.

 $ dss 로그 -헬프

로그인 후 복사

Microk8s에서 데이터 과학 스택 제거

더 이상 DSS가 필요하지 않은 경우 DSS 퍼지 명령을 사용하여 Microk8S 클러스터에서 데이터 과학 스택을 제거 할 수 있습니다.

DSS를 제거하려면 터미널에서 다음 명령을 실행하십시오.

 $ dss 퍼지

로그인 후 복사

이 명령은 Jupyter 노트북, MLFlow 서버 및 DSS 환경에 저장된 데이터를 포함한 모든 DSS 구성 요소를 완전히 제거합니다.

이 조치는 돌이킬 수 없으며 DSS 환경 내의 모든 데이터는 영구적으로 손실됩니다. 퍼지를 진행하기 전에 중요한 데이터를 백업하십시오.

DSS CLI 및 Microk8을 제거하십시오

DSS Purge 명령은 Microk8S 클러스터에서 DSS 구성 요소를 제거하지만 DSS CLI 또는 MicroK8S 클러스터 자체를 제거하지는 않습니다. 이것들을 제거하려면 해당 스냅을 삭제해야합니다.

DSS CLI를 제거하려면 다음 명령을 사용하십시오.

 $ Sudo Snap Data-Science-Stack을 제거하십시오

로그인 후 복사

microk8을 제거하려면 다음 명령을 사용하십시오.

 $ sudo snap microk8을 제거합니다

로그인 후 복사

이 단계를 수행하면 시스템에서 DSS (Data Science Stack) 및 관련 구성 요소를 완전히 제거 할 수 있습니다.

자주 묻는 질문 (FAQ)

Q : DSS (Data Science Stack) 란 무엇입니까?

A : DSS (Data Science Stack)는 기계 학습 및 데이터 과학을위한 포괄적 인 준비된 환경입니다. 데이터 과학 도구 및 프레임 워크의 설정 및 관리를 단순화하도록 설계되었으며, 사용자는 환경 구성의 복잡성보다는 핵심 작업에 집중할 수 있습니다.

Q : DSS에는 어떤 도구가 포함되어 있습니까?

A : DSS에는 Jupyter Notebook, MLFlow 및 Tensorflow 및 Pytorch와 같은 인기있는 기계 학습 프레임 워크와 같은 다양한 오픈 소스 도구가 포함되어 있습니다. 또한 워크로드 관리를위한 컨테이너 오케스트레이션 시스템 인 Microk8S를 제공합니다.

Q : DSS를 어떻게 설치합니까?

A : DSS를 설치하려면 Ubuntu 22.04 LTS 또는 Ubuntu 24.04 LTS, 인터넷 연결 및 SNAP 설치가 있어야합니다. 그런 다음 SNAP 명령을 사용하여 MicroK8 및 DSS CLI를 설치할 수 있습니다. 자세한 지침은 공식 문서 또는 설치 안내서를 참조하십시오.

Q : DSS로 Jupyter 노트북을 어떻게 시작합니까?

A : DSS Create 명령을 사용하여 DSS와 함께 Jupyter 노트북을 시작할 수 있으며 노트북에 원하는 이미지를 지정합니다. 예를 들어, Tensorflow 노트북을 시작하려면 DSS를 사용하여 My-TensorFlow-Notebook을 작성합니다. image = Kubeflownotebookswg/jupyter-tensorflow-cuda : v1.8.0.

Q : DSS 상태 명령의 목적은 무엇입니까?

A : DSS 상태 명령은 MLFLOW 상태 및 GPU 가속도의 가용성을 포함하여 DSS 환경의 현재 상태에 대한 빠른 개요를 제공합니다. 모든 구성 요소가 올바르게 작동하는지 확인하는 데 도움이됩니다.

Q : 환경에서 DSS를 제거하려면 어떻게해야합니까?

A : DSS를 제거하려면 Jupyter 노트북 및 MLFlow 서버를 포함한 모든 DSS 구성 요소를 제거하는 DSS Purge 명령을 사용할 수 있습니다. 이 동작은 돌이킬 수 없으며 DSS 환경 내에서 모든 데이터가 손실됩니다.

Q : DSS 명령에 대한 자세한 정보는 어디에서 찾을 수 있습니까?

A : DSS -HELP 명령을 사용하여 사용 가능한 모든 명령 및 DSS 를 나열하여 특정 명령에 대한 자세한 사용을 얻을 수 있도록 DSS 명령에 대한 자세한 정보를 찾을 수 있습니다.

Q : DSS가 무료로 사용할 수 있습니까?

예, DSS는 오픈 소스 도구를 기반으로하며 무료로 사용할 수 있습니다.

Q : DSS는 데이터 과학의 초보자에게 적합합니까?

A : 예, DSS는 사용자 친화적으로 설계되었으며 데이터 과학 환경 설정의 복잡성을 줄이기 때문에 초보자에게 훌륭한 도구가 될 수 있습니다. 기성품 및 최적화 된 환경을 제공하여 사용자가 데이터 과학 프로젝트 작업을 신속하게 작업 할 수 있습니다.

결론

요약하면 DSS (Data Science Stack)는 데이터 과학 작업을위한 설정을 단순화합니다. 함께 잘 작동하는 도구 모음을 제공하여 프로젝트를 신속하게 시작할 수 있습니다.

DSS는 데이터 과학을 처음 사용하거나 경험이 있든 경험이 있든 기술 설정을 처리하여 작업에 집중할 수 있도록 도와줍니다. 효율적인 데이터 분석 및 모델 구축을 지원하는 신뢰할 수있는 도구입니다.

자원 :

데이터 과학 스택 (DSS) 문서

관련 읽기 :

Linux에 Anaconda를 설치하는 방법
Linux에 미니콘다를 설치하는 방법

위 내용은 Canonical은 ML 초보자를위한 데이터 과학 스택을 시작합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!