大規模なデータベースと Pandas DataFrame を操作する場合のメモリの管理
大規模なデータベースを処理して Pandas DataFrame に直接ロードすると、メモリ エラーが発生することがよくあります。 小規模なクエリは機能する可能性がありますが、システム メモリ容量を超えると問題が発生します。 幸いなことに、Pandas はそのようなデータセットを処理するための効率的なソリューションを提供します。
チャンクサイズ反復子メソッド
大きな CSV ファイルの処理と同様に、Pandas の read_sql
関数は iterator
および chunksize
パラメーターを提供します。 iterator=True
を設定し、chunksize
を指定すると、管理可能な部分でデータベース クエリを処理できます。
コード例:
<code class="language-python">import pandas as pd sql = "SELECT * FROM MyTable" chunksize = 10000 # Adjust as needed for chunk in pd.read_sql_query(sql, engine, chunksize=chunksize): # Process each chunk individually</code>
この反復的なアプローチでは、より小さく制御された増分でデータを処理することでメモリの過負荷を防ぎます。
非常に大規模なデータセットを処理するための追加戦略
チャンクサイズの方法が十分でない場合は、次の代替手段を検討してください。
以上がデータベースから大規模な Pandas データフレームを作成するときにメモリ エラーを回避するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。