Canonical lance la pile de science des données pour les débutants ML-Linux-php.cn

La science des données est l'étude des données. Il s'agit de collecter, d'analyser et d'interpréter de grandes quantités d'informations. Les scientifiques des données utilisent ces informations pour prendre des décisions, résoudre des problèmes et prédire les tendances futures.

Les scientifiques des données utilisent divers outils et techniques pour analyser et interpréter des ensembles de données complexes. Cela aide les entreprises et les organisations à prendre de meilleures décisions.

Si vous êtes un débutant en commençant par la science des données, vous ferez probablement face à plusieurs défis dans la mise en place d'un environnement de science des données approprié.

Voici quelques raisons pour lesquelles la création d'un environnement de science des données peut être difficile pour les débutants:

Installation de logiciels : les débutants ont souvent du mal à installer les logiciels nécessaires, tels que les langages de programmation (comme Python ou R), les bibliothèques et les outils (comme Jupyter Notebooks ou Rstudio).
Comprendre les dépendances : les logiciels nécessitent souvent des versions spécifiques d'autres logiciels fonctionnent correctement. Cela peut être déroutant et entraîner des erreurs si elle n'est pas gérée correctement.
Courbe d'apprentissage : la science des données implique l'apprentissage de nouvelles compétences, y compris la programmation, les statistiques et l'apprentissage automatique. Cela peut être écrasant pour les débutants.
Gestion des données : le travail avec les données peut être complexe, en particulier lorsque vous traitez avec des ensembles de données importants ou désordonnés. Comprendre comment nettoyer, stocker et traiter les données est crucial mais peut être difficile à saisir au départ.
Contrôle de version : garder une trace des modifications du code et des données est importante, mais peut être difficile à configurer et à gérer, en particulier pour les nouveaux systèmes de contrôle de version comme Git.
Choisir les bons outils : il existe de nombreux outils et frameworks disponibles, et le choix des bons pour un projet spécifique peut être intimidant pour les débutants.

En comprenant ces défis, les débutants peuvent mieux se préparer et rechercher les bonnes ressources et le soutien pour les surmonter.

Les obstacles initiaux peuvent être difficiles pour les nouveaux scientifiques des données, mais avec une persistance et un apprentissage cohérent, le voyage deviendra plus lisse.

Grâce à la pile de science des données de Canonical (DSS) , la configuration de la science des données est devenue beaucoup plus facile maintenant. Dans ce tutoriel, nous discuterons de la pile de science des données et de la façon de les utiliser pour configurer un environnement de science des données facilement et rapidement dans les systèmes d'exploitation Ubuntu .

Table des matières

Qu'est-ce que la pile de science des données (DSS)?
Qu'est-ce qui est inclus dans la pile de science des données?
Installer Data Science Stack (DSS) dans Ubuntu
- Condition préalable
- Configuration des microk8
- Installation de la CLI DSS
Commencer avec la pile de science des données
- Initialisation DSS et MLFlow
- Démarrage de votre premier cahier Jupyter
- Afficher le statut DSS
- Listing des commandes DSS
- Suppression de la pile de science des données de Microk8
- Retirez DSS CLI et Microk8
Questions fréquemment posées (FAQ)
Conclusion

Qu'est-ce que la pile de science des données (DSS)?

La pile de science des données (DSS) de Canonical est une solution prête à l'emploi pour les scientifiques des données et les ingénieurs d'apprentissage automatique.

La pile de science des données simplifie le processus de configuration en fournissant un environnement préconfiguré qui inclut tous les outils et bibliothèques nécessaires pour l'apprentissage automatique et l'analyse des données.

En étant conçu pour fonctionner sur des postes de travail Ubuntu et en optimisant l'utilisation des GPU, DSS peut améliorer les performances des modèles d'apprentissage automatique, ce qui est particulièrement bénéfique pour les tâches à forte intensité de calcul.

Le DSS permet aux utilisateurs de se concentrer davantage sur le développement et l'optimisation de leurs modèles plutôt que sur les détails techniques de la configuration de l'environnement.

Cela peut économiser beaucoup de temps qui serait autrement consacré à l'installation et à la configuration des composants individuels.

Qu'est-ce qui est inclus dans la pile de science des données?

Le Data Science Stack (DSS) fournit un environnement complet et intégré pour les scientifiques des données et les ingénieurs d'apprentissage automatique. Voici ce qu'il offre:

Outils préinstallés : DSS comprend des outils d'oer-source populaires comme les Microk8 , JupyterLab et MLFlow , qui sont essentiels pour l'exploration des données, le développement du modèle et le suivi des expériences.
Cadres d'apprentissage automatique : par défaut, il est livré avec deux cadres d'apprentissage automatique largement utilisés, Pytorch et TensorFlow , qui sont prêts à l'emploi pour la construction et la formation de modèles.
Interface de ligne de commande (CLI) : DSS fournit une CLI intuitive pour déployer ces outils et ces cadres, ce qui facilite la gestion et l'échelle de l'environnement.
Interfaces utilisateur : Après le déploiement, les utilisateurs peuvent accéder aux UIS des outils pour commencer à travailler sur leurs projets de science des données sans les tracas de la configuration manuelle.
Dépendances de l'emballage : DSS gère les dépendances d'emballage, garantissant que tous les outils, bibliothèques et cadres sont compatibles entre eux et fonctionnent en douceur ensemble.
Compatibilité matérielle : il est conçu pour être compatible avec le matériel de la machine, optimisant les performances des outils et des frameworks
Configuration simplifiée : traditionnellement, la configuration des environnements d'apprentissage automatique sur les postes de travail peut être complexe et difficile à inverser. DSS aborde cela en fournissant des environnements ML accessibles, prêts à la production, isolés et reproductibles qui utilisent efficacement les GPU d'une station de travail.
Configuration du GPU : DSS simplifie la configuration du GPU en incluant l' opérateur GPU , qui gère la configuration et l'utilisation des GPU pour les tâches d'apprentissage automatique, en tirant parti efficacement leur puissance de calcul.

Dans l'ensemble, DSS vise à fournir un environnement sans tracas et optimisée pour la science des données et l'apprentissage automatique, permettant aux utilisateurs de se concentrer sur leurs tâches de base plutôt que sur la configuration technique et la maintenance de leurs outils.

Installer Data Science Stack (DSS) dans Ubuntu

Pour commencer à utiliser la pile de science des données (DSS) pour l'apprentissage automatique et la science des données, suivez ces étapes pour configurer votre environnement:

Condition préalable

Système d'exploitation : Assurez-vous que vous avez installé Ubuntu 22.04 LTS ou UBUNTU 24.04 installé sur votre système.
Connexion Internet : vous aurez besoin d'une connexion Internet active pour télécharger et installer le logiciel nécessaire.
SNAP : assurez-vous que Snap est installé sur votre système, car il est nécessaire pour installer des Microk8 et DSS.

Configuration des microk8

DSS utilise Microk8S comme système d'orchestration de conteneurs, qui permet aux charges de travail d'accéder aux GPU de l'hôte.

Pour installer des microk8 sur Ubuntu, exécuter:

 $ sudo snap install Microk8s - Channel 1.28 / stable - Classic

Copier après la connexion

Ensuite, activez les services requis:

 $ sudo microk8s activer le stockage DNS RBAC

Copier après la connexion

Installation de la CLI DSS

La pile de science des données est gérée via une interface de ligne de commande (CLI).

Installez DSS CLI avec la commande suivante:

 $ sudo snap installer data-science-stack - Channel Dernier / stable

Copier après la connexion

Avec ces étapes terminées, vous aurez installé les composants fondamentaux de DSS et prêts à l'emploi. Vous pouvez maintenant procéder à la configuration de vos environnements d'apprentissage automatique et à commencer à exécuter vos premiers ordinateurs portables à l'aide de la CLI DSS.

Commencer avec la pile de science des données

Après avoir installé Microk8s et le DSS CLI, l'étape suivante consiste à initialiser DSS au-dessus des microk8 et à préparer MLFlow à utiliser.

Initialisation DSS et MLFlow

Pour initialiser DSS, vous devrez utiliser TheDSS InicizIzecommand, qui met en place les ressources nécessaires dans le cluster Microk8s.

 $ dss initialize --kubEconfig = "$ (sudo microk8s config)"

Copier après la connexion

Le - KuBEConfigflag est utilisé pour spécifier le chemin d'accès au fichier de configuration de Kubernetes généré par Microk8s.

La commande DSS Initialize peut prendre quelques minutes. Pendant ce temps, le DSS CLI affichera des messages indiquant la progression du déploiement. Vous verrez des messages similaires à ce qui suit:

 [Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ...

Copier après la connexion

Ce message indique que DSS attend que le déploiement du cahier TensorFlow soit prêt. Soyez patient car le système configure l'environnement et garantit que tous les composants sont correctement configurés.

Une fois l'initialisation terminée, vous verrez une sortie comme ci-dessous:

 [Info] Exécution de la commande Initialize
[Info] Stockage fourni KubEconfig à /home/ostechnix/snap/data-science-stack/16/.dsss/config
[Info] En attente de déploiement MLFlow dans DSS d'espace de noms pour être prêt ...
[Info] Déploiement mlflow dans l'espace de noms DSS est prêt
[Info] DSS initialisé. Pour créer votre premier cahier, exécutez la commande:

DSS Créer

Exemples:
  DSS Créer My-noteBook --image = Pytorch
  DSS Créer My-noteBook --image = KubeFlowoteBookSwg / Jupyter-Scipy: v1.8.0

Copier après la connexion

Canonical lance la pile de science des données pour les débutants ML

Maintenant, vous serez prêt à commencer à utiliser le serveur de suivi MLFlow et d'autres composants fournis par DSS.

Vous pouvez ensuite procéder à la création et à l'exécution de votre premier ordinateur portable d'apprentissage automatique dans l'environnement DSS.

Démarrage de votre premier cahier Jupyter

Pour démarrer votre premier ordinateur portable Jupyter à l'aide de la pile de science des données (DSS), vous devrez utiliser TheDSS CreateCommand, qui vous permet de spécifier le type de cahier que vous souhaitez créer.

Ici, nous créons un ordinateur portable TensorFlow nommé My-TensorFlow-Notebook avec support CUDA:

 $ dss Créer My-Tensorflow-notebook --image = kubeflowotebookswg / jupyter-tensorflow-cuda: v1.8.0

Copier après la connexion

Lors de la création réussie du cahier, vous verrez une sortie comme ci-dessous:

 [Info] Exécution de la commande de création
[Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ...
[Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ...
[Info] En attente de déploiement My-Tensorflow-notebook dans l'espace de noms DSS pour être prêt ...
[Info] Déploiement My-TensorFlow-notebook dans l'espace de noms DSS est prêt
[Info] Succès: Notebook My-TensorFlow-notebook créé avec succès.
[Info] Accédez au cahier à http://10.152.183.253:80.

Copier après la connexion

Canonical lance la pile de science des données pour les débutants ML

Une fois le cahier prêt, la commande affiche une URL que vous pouvez utiliser pour accéder à l'interface utilisateur de JupyterLab.

Pour commencer à travailler avec votre cahier, ouvrez un navigateur Web et entrez l'URL fournie dans la barre d'adresse.

Comme vous le voyez dans la sortie ci-dessus, nous pouvons accéder au bloc-notes nouvellement créé sur http://10.152.183.253:80 à partir d'un navigateur Web. Remplacez l'URL par le vôtre.

Cela vous amènera à l'interface JupyterLab où vous pouvez créer de nouveaux ordinateurs portables, télécharger des données et commencer vos tâches d'apprentissage automatique à l'aide de TensorFlow et Cuda.

Canonical lance la pile de science des données pour les débutants ML

N'oubliez pas que l'adresse IP et le numéro de port dans l'URL peuvent varier en fonction de votre configuration spécifique.

C'est ça. Vous pouvez maintenant commencer à interagir avec votre cahier.

Afficher le statut DSS

Pour vérifier rapidement l'état de votre environnement de pile de science des données (DSS), y compris l'état de MLFlow et la disponibilité de l'accélération du GPU, vous pouvez utiliser TheDSS StatusCommand comme ci-dessous.

 Statut de $ DSS

Copier après la connexion

TheDSS StatusCommand vous fournira un résumé de l'état actuel de votre environnement DSS. Voici un exemple de ce à quoi pourrait ressembler la sortie:

 [Info] Département MLFlow: prêt
[Info] URL mlflow: http://10.152.183.157:5000
[Info] Accélération du GPU: désactivé

Copier après la connexion

Explication de la sortie:

Déploiement MLFlow: Ready indique que le serveur de suivi MLFlow est opérationnel.
L'URL MLFlow fournit l'URL où vous pouvez accéder à l'interface utilisateur MLFlow pour suivre vos expériences d'apprentissage automatique.
Accélération GPU: Désactivé montre qu'il n'y a pas de GPU disponible ou configuré pour une utilisation dans l'environnement DSS actuel.

Pour vérifier, ouvrez l'URL MLFlow http://10.152.183.157:5000 de votre navigateur Web.

Cela ouvrira le tableau de bord MLFlow dans votre navigateur Web.

Onglet Expériences dans le tableau de bord MLFlow:

Canonical lance la pile de science des données pour les débutants ML

Puisqu'il s'agit de notre nouvelle installation, il n'y a pas encore d'expériences. Pour créer une expérience, utilisez les expériences MLFlow CLI.

Onglet Modèles dans le tableau de bord MLFlow:

Canonical lance la pile de science des données pour les débutants ML

Listing des commandes DSS

Pour afficher la liste des commandes disponibles pour la pile de science des données (DSS), vous pouvez utiliser la commande DSS avec l'option - Help.

Exécutez la commande suivante dans votre terminal:

 $ dss - help

Copier après la connexion

Cela affichera une liste de commandes ainsi qu'une brève description de leur objectif.

Si vous avez besoin d'informations plus détaillées sur une commande DSS spécifique, vous pouvez utiliser la commande suivie de l'option - Help.

Par exemple, pour obtenir des détails sur la commande Initialize, vous exécuteriez:

 $ dss journaux - help

Copier après la connexion

Suppression de la pile de science des données de Microk8

Si vous n'avez plus besoin de DSS, vous pouvez utiliser la commande DSS Purge pour supprimer la pile de science des données de votre cluster Microk8s.

Pour supprimer DSS, exécutez la commande suivante dans votre terminal:

 $ dss purge

Copier après la connexion

Cette commande supprimera complètement tous les composants DSS, y compris les ordinateurs portables Jupyter, le serveur MLFlow et toutes les données stockées dans l'environnement DSS.

Il est important de noter que cette action est irréversible et que toutes les données de l'environnement DSS seront perdantes en permanence. Assurez-vous de sauvegarder toutes les données importantes avant de procéder à la purge.

Retirez DSS CLI et Microk8

Alors que la commande DSS Purge supprime les composants DSS du cluster Microk8s, il ne supprime pas le DSS CLI ou le cluster Microk8s lui-même. Si vous souhaitez également les supprimer, vous devrez supprimer leurs snaps respectifs:

Pour supprimer le DSS CLI, utilisez la commande suivante:

 $ sudo snap supprimer la pile de données

Copier après la connexion

Pour supprimer les microk8, utilisez la commande suivante:

 $ sudo snap supprimer les microk8

Copier après la connexion

En suivant ces étapes, vous pouvez complètement supprimer la pile de science des données (DSS) et ses composants associés de votre système.

Questions fréquemment posées (FAQ)

Q: Qu'est-ce que la pile de science des données (DSS)?

R: Data Science Stack (DSS) est un environnement complet et prêt à gérer pour l'apprentissage automatique et la science des données. Il est conçu pour simplifier la configuration et la gestion des outils et des cadres de science des données, permettant aux utilisateurs de se concentrer sur leurs tâches de base plutôt que sur les subtilités de la configuration de l'environnement.

Q: Quels outils sont inclus dans DSS?

R: DSS comprend une variété d'outils open-source tels que Jupyter Notebook, MLFlow et des cadres d'apprentissage automatique populaires comme TensorFlow et Pytorch. Il fournit également un système d'orchestration de conteneurs, Microk8, pour gérer les charges de travail.

Q: Comment installer DSS?

R: Pour installer DSS, vous devez avoir Ubuntu 22.04 LTS ou Ubuntu 24.04 LTS, une connexion Internet et un snap installé. Ensuite, vous pouvez installer Microk8s et le DSS CLI à l'aide de commandes SNAP. Pour des instructions détaillées, reportez-vous au guide officiel de documentation ou d'installation.

Q: Comment démarrer un cahier Jupyter avec DSS?

R: Vous pouvez démarrer un ordinateur portable Jupyter avec DSS à l'aide de la commande DSS Create, en spécifiant l'image souhaitée pour votre ordinateur portable. Par exemple, pour démarrer un cahier TensorFlow, vous utiliseriez DSS Create My-Tensorflow-noteBook --image = KubeFlowoteBookSwg / Jupyter-Tensorflow-Cuda: v1.8.0.

Q: Quel est le but de la commande DSS Status?

R: La commande DSS Status fournit un aperçu rapide de l'état actuel de votre environnement DSS, y compris l'état de MLFlow et la disponibilité de l'accélération GPU. Il vous aide à vérifier que tous les composants fonctionnent correctement.

Q: Comment supprimer le DSS de mon environnement?

R: Pour supprimer DSS, vous pouvez utiliser la commande DSS Purge, qui supprimera tous les composants DSS, y compris les ordinateurs portables Jupyter et le serveur MLFlow. Notez que cette action est irréversible et entraînera la perte de toutes les données dans l'environnement DSS.

Q: Où puis-je trouver plus d'informations sur les commandes DSS?

R: Vous pouvez trouver des informations détaillées sur les commandes DSS en utilisant la commande DSS --Help pour répertorier toutes les commandes et DSS - help pour obtenir une utilisation détaillée pour une commande spécifique.

Q: Le DSS est-il gratuit?

Oui, DSS est basé sur des outils open source et est libre à utiliser.

Q: Le DSS est-il adapté aux débutants en science des données?

R: Oui, DSS est conçu pour être convivial et peut être un excellent outil pour les débutants car il réduit la complexité de la mise en place d'un environnement de science des données. Il fournit un environnement prêt à l'emploi et optimisé qui permet aux utilisateurs de commencer à travailler rapidement sur des projets de science des données.

Conclusion

En résumé, la pile de sciences des données (DSS) simplifie la configuration des tâches de science des données. Il fournit une collection d'outils qui fonctionnent bien ensemble, ce qui facilite le démarrage des projets rapidement.

Que vous soyez nouveau dans la science des données ou que DSS vous aide à vous concentrer sur votre travail en gérant la configuration technique. Il s'agit d'un outil fiable qui prend en charge une analyse efficace des données et une construction de modèles.

Ressource :