Pandas を使用してワークブックから特定のワークシートを効率的にロードする
Pandas の pd.read_excel() 関数は、Excel ワークブックを読み取るための強力なツールです。ただし、複数のワークシートを含む大きなファイルを操作する場合、特に少数の特定のシートのデータのみが必要な場合は、ワークブック全体のロードが非効率になる可能性があります。
pd.read_excel( )
特定のワークシートで pd.read_excel() を使用すると、ワークブック全体がロードされたように見えます記憶に。これは、パンダが内部で ExcelFile オブジェクトを使用してワークブックを表すためです。 ExcelFile オブジェクトは、どのワークシートが指定されているかに関係なく、初期化中にファイル全体を解析します。
特定のシートを効率的にロードする
ロード プロセスを最適化するには、pd の使用を検討してください。 .ExcelFile オブジェクトを直接呼び出します。ワークブックのパスを使用して ExcelFile オブジェクトをインスタンス化すると、ファイル全体を再ロードせずに特定のワークシートにアクセスできます。
例:
xls = pd.ExcelFile('path_to_file.xls') df1 = pd.read_excel(xls, 'Sheet1') df2 = pd.read_excel(xls, 'Sheet2')
この方法では、ワークブック全体が作成中に 1 回だけロードされます。 ExcelFile オブジェクトの。後続の pd.read_excel() の呼び出しでは、ファイルの再ロードのオーバーヘッドを発生させることなく、指定されたワークシートからデータが取得されます。
複数のシートのロード
さらに、 pd.read_excel() にシート名またはインデックスのリストを指定して、複数のシートを同時にロードできます。これにより、キーがシート名またはインデックス、値が対応するデータ フレームであるディクショナリが返されます。
例:
sheet_list = ['Sheet1', 'Sheet2'] df_dict = pd.read_excel(xls, sheet_list)
すべてのシートをロード
ワークブック内のすべてのワークシートをロードする必要がある場合は、sheet_name パラメーターを次のように設定します。なし:
df_dict = pd.read_excel(xls, sheet_name=None)
以上がPandas を使用して大きな Excel ファイルから特定のワークシートを効率的にロードするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。