Table des matières
Qu'est-ce qu'AWS Glue ?
Qu'est-ce que le robot d'exploration AWS Glue ?
Qu'est-ce que le catalogue de données Glue ?
Pourquoi utiliser Amazon Athena et AWS Glue ?
4 principaux cas d'utilisation d'Amazon Athena
3 cas d'utilisation clés d'AWS Glue
Démarrer avec AWS Glue : Comment obtenir des données d'AWS Glue vers Amazon Athena
Maison base de données SQL Comment utiliser les robots d'exploration AWS Glue avec Amazon Athena

Comment utiliser les robots d'exploration AWS Glue avec Amazon Athena

Oct 22, 2024 am 10:33 AM
sql

En tant que professionnel des données, vous traitez d'immenses quantités de données provenant d'un variété de sources. Cela peut faire de la gestion et de l'analyse des données un défi. Heureusement, deux services AWS peuvent vous aider : AWS Glue et Amazon Athéna. 

Lorsque vous intégrez ces services, vous libérez tout le potentiel de découverte, catalogage et interrogation de données au sein de l'écosystème AWS. Allons découvrez comment ils peuvent rationaliser votre flux de travail d'analyse de données.

Comment utiliser les robots dexploration AWS Glue avec Amazon Athena

Qu'est-ce qu'AWS Glue ?

Colle AWS est un service géré sans serveur qui vous permet de découvrir, préparer, déplacer et intégrer des données provenant de plusieurs sources. En tant qu'intégration de données service, AWS Glue vous donne le pouvoir de gérer les données de manière centralisée emplacement sans avoir à gérer l'infrastructure.

Qu'est-ce que le robot d'exploration AWS Glue ?

Glue les robots d'exploration sont des outils automatisés de découverte de données qui analysent des données source pour classer, regrouper et cataloguer automatiquement les données qu’elle contient. Il crée ensuite de nouvelles tables ou met à jour des tables existantes dans vos données AWS Glue. Catalogue.

Qu'est-ce que le catalogue de données Glue ?

Le catalogue de données AWS Glue est un index de l'emplacement de vos données, schéma et métriques d’exécution. Vous avez besoin de ces informations pour créer et surveillez vos tâches d'extraction, de transformation et de chargement (ETL). 

Pourquoi utiliser Amazon Athena et AWS Glue ?

Maintenant que nous avons couvert les bases d'Amazon Athena, AWS Glue et AWS Les Glue Crawlers, parlons-en un peu plus en profondeur.

4 principaux cas d'utilisation d'Amazon Athena

Amazon Athena offre un moyen simplifié et flexible d'analyser pétaoctets de données là où ils vivent. Par exemple, Athéna peut analyser données ou créer des applications à partir d'un Amazon Simple Storage Service (S3) lac de données et 30 sources de données, y compris des sources de données sur site ou d'autres systèmes cloud utilisant SQL ou Python. 

Il existe quatre principaux cas d'utilisation d'Amazon Athena :

  1. Exécuter des requêtes sur S3, des centres de données sur site ou sur d'autres cloud 

  2. Préparer les données pour les modèles d'apprentissage automatique

  3. Utiliser des modèles d'apprentissage automatique dans les requêtes SQL ou Python pour simplifier les tâches complexes, telles que la détection d'anomalies, la cohorte de clients analyses et prévisions de ventes

  4. Effectuer des analyses multicloud (comme interroger des données dans Azure Synapse Analytics puis visualisation des résultats avec Amazon QuickSight)

3 cas d'utilisation clés d'AWS Glue

Maintenant que nous avons couvert Amazon Athena, parlons d'AWS Glue. Vous pouvez faire différentes choses avec AWS Glue. 

Tout d'abord, vous pouvez utiliser les moteurs d'intégration de données AWS Glue, qui vous permettent pour obtenir des données de plusieurs sources différentes. Cela inclut Amazon S3, Amazon DynamoDB et Amazon RDS, ainsi que les bases de données exécutées sur Amazon EC2 (qui s'intègre à AWS Glue studio) et AWS Glue for Ray, Python Shell et Apache Spark. 

Une fois les données interfacées et filtrées pour qu'elles puissent interagir avec emplacements pour charger ou créer des données, cette liste s'agrandit pour inclure les données de des endroits comme Amazon Redshift, des lacs de données et des entrepôts de données.

Vous pouvez également utiliser AWS Glue pour exécuter vos tâches ETL. Ces emplois vous permettent pour séparer les données des clients, protéger les données des clients en transit et à reposez-vous et accédez aux données client uniquement lorsque cela est nécessaire en réponse au client demandes. Lors du provisionnement d'une tâche ETL, tout ce que vous avez à faire est de fournir sources de données d'entrée et cibles de données de sortie dans votre espace privé virtuel cloud.

La dernière façon d'utiliser AWS Glue consiste à utiliser un catalogue de données pour découvrez et recherchez rapidement plusieurs ensembles de données AWS sans déplacer le données. Une fois les données cataloguées, elles sont immédiatement disponibles pour la recherche et interrogez à l'aide d'Amazon Athena, d'Amazon EMR et d'Amazon Redshift Spectres.

Démarrer avec AWS Glue : Comment obtenir des données d'AWS Glue vers Amazon Athena

Alors, comment pouvez-vous obtenir des données d'AWS Glue vers Amazon Athena ? Suivez ces étapes :

  1. Commencez par télécharger des données vers une source de données. Le plus populaire L'option est un compartiment S3, mais les tables DynamoDB et Amazon RedShift sont également choix. 

  2. Sélectionnez votre source de données et créez un classificateur si nécessaire. Un classificateur lit les données et génère un schéma s'il reconnaît le format. Vous pouvez créer des classificateurs personnalisés pour voir différents types de données. 

  3. Créez un robot. 

  4. Définissez un nom pour le robot, puis choisissez vos sources de données et ajoutez des classificateurs personnalisés pour vous assurer qu'AWS Glue reconnaît le correctement les données.

  5. Configurez un rôle de gestion des identités et des accès (IAM) pour vous assurer que le robot d'exploration peut exécuter les processus correctement.

  6. Créer une base de données qui contiendra l’ensemble de données. Définissez quand et à quelle fréquence le robot d'exploration fonctionne pour garder vos données à jour.

  7. Exécutez le robot d'exploration. Ce processus peut prendre un certain temps selon quelle est la taille de l'ensemble de données. Une fois le robot exécuté avec succès, vous voir les modifications apportées aux tables dans la base de données.

Maintenant que vous avez terminé ce processus, vous pouvez accéder à Amazon Athena et exécutez les requêtes dont vous avez besoin pour filtrer les données et obtenir le les résultats que vous recherchez.


Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel PHP
1592
276
Quels sont les types de données BLOB et CLOB dans SQL? Quels sont les types de données BLOB et CLOB dans SQL? Aug 07, 2025 pm 04:22 PM

BlobstoresbinaryDatalikeImages, Audio, Orpdfsasrawbytes withoutCharacterencoding, tandis que les opérations de tassement de tassement

Comment trouver la somme d'une colonne dans SQL? Comment trouver la somme d'une colonne dans SQL? Aug 08, 2025 pm 05:54 PM

TofindTheSumofacolumninsQL, fonction usethesum (), qui a détruit la thèse de l'allnumericvaliesInaspecifiedColumn WhipIgningNulls; 1.Usebasicsyntax: selectSum (Column_Name) AsaliasfromTable_name; 2.enSureThecolumnhasnumericdatatoElorDerearr

Comment obtenir le premier et dernier jour de l'année à SQL? Comment obtenir le premier et dernier jour de l'année à SQL? Aug 11, 2025 pm 05:42 PM

ThefirstdayoftheyEaS a obtenu la constatation de l'instructifation de la 1et-theguvenyear, et dethelastdayisdecember31stoftheSameyear, avec la révocation du système de databases.

Comment rejoindre un tableau à lui-même en SQL Comment rejoindre un tableau à lui-même en SQL Aug 16, 2025 am 09:37 AM

Aself-joinisusedtocomparerowswithinthesametable,suchasinhierarchicaldatalikeemployee-managerrelationships,bytreatingthetableastwoseparateinstancesusingaliases,asdemonstratedwhenlistingemployeesalongsidetheirmanagers'nameswithaLEFTJOINtoincludetop-lev

Comprendre le contexte et les autorisations d'exécution de SQL Comprendre le contexte et les autorisations d'exécution de SQL Aug 16, 2025 am 08:57 AM

Le contexte d'exécution SQL fait référence à l'identité ou au rôle lors de l'exécution des instructions SQL, qui déterminent les ressources et les autorisations de fonctionnement qui peuvent être accessibles. Le paramètre d'autorisation doit suivre le principe des autorisations minimales, et les autorisations courantes incluent la sélection, l'insertion, l'exécution, etc. Pour résoudre les problèmes d'autorisation, vous devez confirmer le nom de connexion, les autorisations de rôle, les paramètres d'exécution et l'autorisation de schéma. La réalisation de commutation de contexte peut être mise en œuvre via Executeas, mais l'attention doit être accordée à l'existence des utilisateurs, à l'octroi de l'autorisation et à l'impact de la sécurité des performances. Il est recommandé d'éviter d'attribuer arbitrairement les rôles DB_OWNER ou SYSADMIN. Le compte de demande ne doit accéder qu'aux objets nécessaires et être autorisés via le schéma.

Quelle est l'instruction ALTER TABLE dans SQL? Quelle est l'instruction ALTER TABLE dans SQL? Aug 08, 2025 pm 02:13 PM

ThealterTableStatementsUsesedTomodifyAnExistSingTable’sstructurewithoutrecreatingit; 1.AddanewColumnusingAddColumn; 2.Dropacolumn retireroPColumn, quialsodeletesitsdata; 3.RenameacolumnusingRenameColumn, withyntaxConsistentinmysql, sqlServer, andPostgreSql; 4

Comment créer une vue dans SQL Comment créer une vue dans SQL Aug 11, 2025 pm 12:40 PM

La syntaxe pour la création d'une vue est l'instruction CreateEviewView_NAMEASSELECT; 2. La vue ne stocke pas les données réelles, mais est basée sur les résultats de requête en temps réel de la table sous-jacente; 3. La vue peut être modifiée à l'aide de CreateOrReplaceView; 4. La vue peut être supprimée via DropView; 5. La vue convient pour simplifier les requêtes complexes, fournir un contrôle d'accès aux données et maintenir la cohérence de l'interface, mais l'attention doit être accordée aux performances et à la logique, et se termine enfin par une phrase complète.

Comment utiliser la jointure extérieure complète dans SQL? Comment utiliser la jointure extérieure complète dans SQL? Aug 17, 2025 am 12:25 AM

AfulLouterJoinernsallRowsfrombothtables, avec un NulswherenomatchExists; 1) itcombinesMatchingRecordSandincludsUnsUrmatchedrowsfrombothleftandRightTables; 2)

See all articles