Pandas は、Python で一般的に使用されるデータ処理および分析ツールであり、Excel ファイルを読み取り、処理するための一連の便利な方法を提供します。この記事では、Pandas が Excel ファイルを読み取るための一般的な方法をいくつか紹介し、読者がそれらをよりよく理解して適用できるように具体的なコード例を示します。
1. Pandas の read_excel() 関数を使用して Excel ファイルを読み取る
Pandas は、Excel ファイルを直接読み取り、DataFrame オブジェクトに変換できる read_excel() 関数を提供します。この関数の基本的な使用法は次のとおりです。
import pandas as pd # 读取Excel文件 df = pd.read_excel('filename.xlsx', sheetname='sheet1')
ここで、「filename.xlsx」は、読み取る Excel ファイルの名前であり、相対パスまたは絶対パスを指定できます。 Sheetname パラメーターは、読み取るワークシートの名前を指定するために使用されます。これには、特定のワークシート名またはインデックスを指定できます。
デモンストレーションの便宜のために、次の内容を含むdata.xlsx
という名前のサンプル Excel ファイルを作成します:
名前 年齢 性別
Zhang San 25 Male
Li Si 30 Female
王五 28 Male
次に、read_excel() 関数を使用してデータを読み取り、出力します。
import pandas as pd # 读取Excel文件 df = pd.read_excel('data.xlsx', sheetname='Sheet1') # 打印数据 print(df)
実行結果は次のとおりです。
名前 年齢 性別
0 Zhang San 25 Male
1 Li Si 30 Female
2 Wang Wu 28 Male
Excelファイルを読み込んだ後、DataFrame上でさまざまなデータ加工や分析を行うことができます物体。
2. 複数のワークシートからデータを読み取る
Excel ファイルに複数のワークシートが含まれている場合、sheetname パラメーターを指定することで、指定したワークシートからデータを読み取ることができます。このとき、read_excel() 関数は、ワークシート名をキーとして、対応する DataFrame オブジェクトを値として持つ辞書を返します。例は次のとおりです:
import pandas as pd # 读取Excel文件的所有工作表 dfs = pd.read_excel('filename.xlsx', sheetname=None) # 打印所有工作表的数据 for sheetname, df in dfs.items(): print(sheetname, ": ", df)
3. データを読み取る列範囲を指定する
Excel ファイル内の列データの一部だけを読み取りたい場合があります。このとき、usecolsパラメータを指定することで、読み込む列の範囲を制限できます。例は次のとおりです:
import pandas as pd # 读取Excel文件的指定列范围 df = pd.read_excel('filename.xlsx', usecols='A:C') # 打印数据 print(df)
4. null 値の処理
Excel ファイルを読み取るときに、null 値が含まれる状況に遭遇することがよくあります。 Pandas は、この状況を簡単に処理するために fillna() 関数を提供します。例は次のとおりです。
import pandas as pd # 读取Excel文件并处理空值 df = pd.read_excel('filename.xlsx') df.fillna(value=0, inplace=True) # 打印数据 print(df)
上の例では、fillna() 関数を使用して null 値を 0 で埋めており、inplace=True は元の DataFrame オブジェクトで直接変更することを意味します。
上記は、Pandas が Excel ファイルを読み取るためのいくつかの一般的な方法とサンプル コードです。読者は、自分のニーズに応じて適切な方法を選択し、Pandas のデータ処理および分析機能をさらに探索して適用できます。
以上がPandasを使用してExcelファイルを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。