Diviser un grand DataFrame Pandas
Considérons un grand DataFrame Pandas composé de 423244 lignes. Il est nécessaire de diviser ce DataFrame en quatre parties égales. Cependant, une tentative utilisant np.split(df, 4) génère une erreur "ValueError : la division du tableau n'entraîne pas une division égale".
Pour résoudre ce problème, np.array_split doit être utilisé. Contrairement à np.split, np.array_split permet à indices_or_sections d'être un entier qui ne produit pas de division d'axe égale.
<code class="python">import pandas as pd import numpy as np # Create a DataFrame df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'], 'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'], 'C': np.random.randn(8), 'D': np.random.randn(8)}) # Split the DataFrame into three equal parts result = np.array_split(df, 3) # Print the results for i in range(len(result)): print(f"Part {i + 1}:") print(result[i]) print()</code>
Ce code divisera le DataFrame en trois parties à peu près égales. Le nombre de pièces peut être ajusté selon les besoins.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!