Pandas : découper de grands DataFrames en morceaux
Des erreurs de mémoire peuvent survenir lorsque vous travaillez avec des dataframes étendus. Pour atténuer ce problème, il devient essentiel de partitionner la trame de données en parties gérables. Cette approche consiste à découper la trame de données, à la transmettre via une fonction de traitement, puis à concaténer les morceaux résultants en une trame de données unique et complète.
Par exemple, considérons une grande trame de données avec plus de 3 millions de lignes de données. Pour éviter l'épuisement de la mémoire, nous pouvons utiliser l'une des deux méthodes suivantes pour découper le dataframe :
Après le découpage, les morceaux sont traités individuellement à l'aide d'une fonction désignée. Par la suite, ces morceaux traités sont recombinés en une seule trame de données à l'aide de la fonction concat de Pandas.
Cette approche permet un traitement efficace de trames de données volumineuses tout en atténuant les limitations de mémoire. En découpant la trame de données en morceaux plus petits, nous pouvons éviter de surcharger les ressources mémoire et garantir une exécution fluide.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!