Gestion de grands ensembles de données dans Pandas avec des flux de travail
De nombreuses applications du monde réel impliquent des ensembles de données trop volumineux pour tenir en mémoire. Pandas fournit un support hors noyau pour gérer efficacement ces données. Cet article traite des meilleures pratiques pour accomplir les flux de travail de base à l'aide de Pandas.
1. Chargement de fichiers plats dans une structure de base de données permanente sur disque
Utilisez HDFStore pour stocker de grands ensembles de données sur disque. Parcourez les fichiers et ajoutez-les à HDFStore, en utilisant la lecture morceau par morceau pour éviter les problèmes de mémoire. Définissez une carte de groupe reliant les groupes de champs et les colonnes de données pour une sélection efficace ultérieurement.
2. Interrogation de la base de données pour récupérer des données
Pour récupérer des données pour les structures de données Pandas, sélectionnez un groupe dans le HDFStore en fonction de la carte de groupe. Vous pouvez éventuellement spécifier les colonnes souhaitées ou appliquer des critères de filtrage en utilisant « où ».
3. Mise à jour de la base de données après avoir manipulé des pièces dans Pandas
Créez de nouvelles colonnes en effectuant des opérations sur les colonnes sélectionnées. Pour ajouter ces nouvelles colonnes à la base de données, créez un nouveau groupe dans le HDFStore et ajoutez les nouvelles colonnes, en garantissant la définition des colonnes de données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!