Comment utiliser les robots d'exploration AWS Glue avec Amazon Athena
En tant que professionnel des données, vous traitez d'immenses quantités de données provenant d'un variété de sources. Cela peut faire de la gestion et de l'analyse des données un défi. Heureusement, deux services AWS peuvent vous aider : AWS Glue et Amazon Athéna.
Lorsque vous intégrez ces services, vous libérez tout le potentiel de découverte, catalogage et interrogation de données au sein de l'écosystème AWS. Allons découvrez comment ils peuvent rationaliser votre flux de travail d'analyse de données.

Qu'est-ce qu'AWS Glue ?
Colle AWS est un service géré sans serveur qui vous permet de découvrir, préparer, déplacer et intégrer des données provenant de plusieurs sources. En tant qu'intégration de données service, AWS Glue vous donne le pouvoir de gérer les données de manière centralisée emplacement sans avoir à gérer l'infrastructure.
Qu'est-ce que le robot d'exploration AWS Glue ?
Glue les robots d'exploration sont des outils automatisés de découverte de données qui analysent des données source pour classer, regrouper et cataloguer automatiquement les données qu’elle contient. Il crée ensuite de nouvelles tables ou met à jour des tables existantes dans vos données AWS Glue. Catalogue.
Qu'est-ce que le catalogue de données Glue ?
Le catalogue de données AWS Glue est un index de l'emplacement de vos données, schéma et métriques d’exécution. Vous avez besoin de ces informations pour créer et surveillez vos tâches d'extraction, de transformation et de chargement (ETL).
Pourquoi utiliser Amazon Athena et AWS Glue ?
Maintenant que nous avons couvert les bases d'Amazon Athena, AWS Glue et AWS Les Glue Crawlers, parlons-en un peu plus en profondeur.
4 principaux cas d'utilisation d'Amazon Athena
Amazon Athena offre un moyen simplifié et flexible d'analyser pétaoctets de données là où ils vivent. Par exemple, Athéna peut analyser données ou créer des applications à partir d'un Amazon Simple Storage Service (S3) lac de données et 30 sources de données, y compris des sources de données sur site ou d'autres systèmes cloud utilisant SQL ou Python.
Il existe quatre principaux cas d'utilisation d'Amazon Athena :
Exécuter des requêtes sur S3, des centres de données sur site ou sur d'autres cloud
Préparer les données pour les modèles d'apprentissage automatique
Utiliser des modèles d'apprentissage automatique dans les requêtes SQL ou Python pour simplifier les tâches complexes, telles que la détection d'anomalies, la cohorte de clients analyses et prévisions de ventes
Effectuer des analyses multicloud (comme interroger des données dans Azure Synapse Analytics puis visualisation des résultats avec Amazon QuickSight)
3 cas d'utilisation clés d'AWS Glue
Maintenant que nous avons couvert Amazon Athena, parlons d'AWS Glue. Vous pouvez faire différentes choses avec AWS Glue.
Tout d'abord, vous pouvez utiliser les moteurs d'intégration de données AWS Glue, qui vous permettent pour obtenir des données de plusieurs sources différentes. Cela inclut Amazon S3, Amazon DynamoDB et Amazon RDS, ainsi que les bases de données exécutées sur Amazon EC2 (qui s'intègre à AWS Glue studio) et AWS Glue for Ray, Python Shell et Apache Spark.
Une fois les données interfacées et filtrées pour qu'elles puissent interagir avec emplacements pour charger ou créer des données, cette liste s'agrandit pour inclure les données de des endroits comme Amazon Redshift, des lacs de données et des entrepôts de données.
Vous pouvez également utiliser AWS Glue pour exécuter vos tâches ETL. Ces emplois vous permettent pour séparer les données des clients, protéger les données des clients en transit et à reposez-vous et accédez aux données client uniquement lorsque cela est nécessaire en réponse au client demandes. Lors du provisionnement d'une tâche ETL, tout ce que vous avez à faire est de fournir sources de données d'entrée et cibles de données de sortie dans votre espace privé virtuel cloud.
La dernière façon d'utiliser AWS Glue consiste à utiliser un catalogue de données pour découvrez et recherchez rapidement plusieurs ensembles de données AWS sans déplacer le données. Une fois les données cataloguées, elles sont immédiatement disponibles pour la recherche et interrogez à l'aide d'Amazon Athena, d'Amazon EMR et d'Amazon Redshift Spectres.
Démarrer avec AWS Glue : Comment obtenir des données d'AWS Glue vers Amazon Athena
Alors, comment pouvez-vous obtenir des données d'AWS Glue vers Amazon Athena ? Suivez ces étapes :
Commencez par télécharger des données vers une source de données. Le plus populaire L'option est un compartiment S3, mais les tables DynamoDB et Amazon RedShift sont également choix.
Sélectionnez votre source de données et créez un classificateur si nécessaire. Un classificateur lit les données et génère un schéma s'il reconnaît le format. Vous pouvez créer des classificateurs personnalisés pour voir différents types de données.
Créez un robot.
Définissez un nom pour le robot, puis choisissez vos sources de données et ajoutez des classificateurs personnalisés pour vous assurer qu'AWS Glue reconnaît le correctement les données.
Configurez un rôle de gestion des identités et des accès (IAM) pour vous assurer que le robot d'exploration peut exécuter les processus correctement.
Créer une base de données qui contiendra l’ensemble de données. Définissez quand et à quelle fréquence le robot d'exploration fonctionne pour garder vos données à jour.
Exécutez le robot d'exploration. Ce processus peut prendre un certain temps selon quelle est la taille de l'ensemble de données. Une fois le robot exécuté avec succès, vous voir les modifications apportées aux tables dans la base de données.
Maintenant que vous avez terminé ce processus, vous pouvez accéder à Amazon Athena et exécutez les requêtes dont vous avez besoin pour filtrer les données et obtenir le les résultats que vous recherchez.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!
Outils d'IA chauds
Undress AI Tool
Images de déshabillage gratuites
Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes
AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.
Clothoff.io
Dissolvant de vêtements AI
Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !
Article chaud
Outils chauds
Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit
SublimeText3 version chinoise
Version chinoise, très simple à utiliser
Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP
Dreamweaver CS6
Outils de développement Web visuel
SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)
Quels sont les types de données BLOB et CLOB dans SQL?
Aug 07, 2025 pm 04:22 PM
BlobstoresbinaryDatalikeImages, Audio, Orpdfsasrawbytes withoutCharacterencoding, tandis que les opérations de tassement de tassement
Comment trouver la somme d'une colonne dans SQL?
Aug 08, 2025 pm 05:54 PM
TofindTheSumofacolumninsQL, fonction usethesum (), qui a détruit la thèse de l'allnumericvaliesInaspecifiedColumn WhipIgningNulls; 1.Usebasicsyntax: selectSum (Column_Name) AsaliasfromTable_name; 2.enSureThecolumnhasnumericdatatoElorDerearr
Comment obtenir le premier et dernier jour de l'année à SQL?
Aug 11, 2025 pm 05:42 PM
ThefirstdayoftheyEaS a obtenu la constatation de l'instructifation de la 1et-theguvenyear, et dethelastdayisdecember31stoftheSameyear, avec la révocation du système de databases.
Comment rejoindre un tableau à lui-même en SQL
Aug 16, 2025 am 09:37 AM
Aself-joinisusedtocomparerowswithinthesametable,suchasinhierarchicaldatalikeemployee-managerrelationships,bytreatingthetableastwoseparateinstancesusingaliases,asdemonstratedwhenlistingemployeesalongsidetheirmanagers'nameswithaLEFTJOINtoincludetop-lev
Comprendre le contexte et les autorisations d'exécution de SQL
Aug 16, 2025 am 08:57 AM
Le contexte d'exécution SQL fait référence à l'identité ou au rôle lors de l'exécution des instructions SQL, qui déterminent les ressources et les autorisations de fonctionnement qui peuvent être accessibles. Le paramètre d'autorisation doit suivre le principe des autorisations minimales, et les autorisations courantes incluent la sélection, l'insertion, l'exécution, etc. Pour résoudre les problèmes d'autorisation, vous devez confirmer le nom de connexion, les autorisations de rôle, les paramètres d'exécution et l'autorisation de schéma. La réalisation de commutation de contexte peut être mise en œuvre via Executeas, mais l'attention doit être accordée à l'existence des utilisateurs, à l'octroi de l'autorisation et à l'impact de la sécurité des performances. Il est recommandé d'éviter d'attribuer arbitrairement les rôles DB_OWNER ou SYSADMIN. Le compte de demande ne doit accéder qu'aux objets nécessaires et être autorisés via le schéma.
Quelle est l'instruction ALTER TABLE dans SQL?
Aug 08, 2025 pm 02:13 PM
ThealterTableStatementsUsesedTomodifyAnExistSingTable’sstructurewithoutrecreatingit; 1.AddanewColumnusingAddColumn; 2.Dropacolumn retireroPColumn, quialsodeletesitsdata; 3.RenameacolumnusingRenameColumn, withyntaxConsistentinmysql, sqlServer, andPostgreSql; 4
Comment créer une vue dans SQL
Aug 11, 2025 pm 12:40 PM
La syntaxe pour la création d'une vue est l'instruction CreateEviewView_NAMEASSELECT; 2. La vue ne stocke pas les données réelles, mais est basée sur les résultats de requête en temps réel de la table sous-jacente; 3. La vue peut être modifiée à l'aide de CreateOrReplaceView; 4. La vue peut être supprimée via DropView; 5. La vue convient pour simplifier les requêtes complexes, fournir un contrôle d'accès aux données et maintenir la cohérence de l'interface, mais l'attention doit être accordée aux performances et à la logique, et se termine enfin par une phrase complète.
Comment utiliser la jointure extérieure complète dans SQL?
Aug 17, 2025 am 12:25 AM
AfulLouterJoinernsallRowsfrombothtables, avec un NulswherenomatchExists; 1) itcombinesMatchingRecordSandincludsUnsUrmatchedrowsfrombothleftandRightTables; 2)


