pandas を使用して Excel ファイルを読み取り、データのインポートと分析を簡単に実装します
pandas は、Python でデータ分析するための強力なツールです。さまざまな形式を分析できます。データは処理されます。柔軟かつ効率的に。データ分析では Excel が一般的に使用されるデータ形式であり、pandas は Excel ファイルをデータにすばやくインポートし、データを分析および処理できる便利なインターフェイスを提供します。
この記事では、pandas ライブラリを使用して Excel ファイルを読み取る方法と、pandas を使用してデータ分析を行う方法を、コード例を示しながら紹介します。
1. Excel ファイルの読み取り
Excel ファイルを読み取るには、pandas が提供する read_excel 関数を使用して、Excel ファイルを直接読み取り、DataFrame データ型に変換できます。以下は、Excel ファイルを読み取るコード例です。
import pandas as pd # 读取Excel文件 filename = 'data.xlsx' df = pd.read_excel(filename) # 查看数据前5行 print(df.head())
上記のコードでは、最初に pandas ライブラリをインポートし、エイリアスを pd として指定しました。次に、pd.read_excel 関数を使用してファイル data.xlsx を読み取り、読み取ったデータを df という名前の DataFrame に保存します。最後に、head メソッドを使用してデータの最初の 5 行を表示します。
2. データ分析
# 删除含有缺失值的行 df = df.dropna() # 删除重复行 df = df.drop_duplicates() # 转换数据类型为float df['column1'] = df['column1'].astype(float) # 查看数据信息 print(df.info())
上記のコードでは、まず、dropna メソッドを使用して欠損値を含むすべての行を削除し、次に、drop_duplicates メソッドを使用して重複する行を削除します。次に、astypeメソッドを使用してcolumn1のデータ型をfloat型に変換します。最後に、info メソッドを使用してデータ情報を表示します。
統計分析はデータ分析の重要なステップの 1 つであり、Pandas はデータの統計分析を実装するためのさまざまな方法を提供します。
以下はデータ分析のサンプル コードです:
# 计算各列的平均值、标准差、最大/最小值 print(df.mean()) print(df.std()) print(df.max()) print(df.min()) # 按照一列的值进行分组,并计算每组中数据的平均值 print(df.groupby('column1').mean()) # 绘制柱状图 df['column1'].plot(kind='bar')
上記のコードでは、平均値、標準偏差、最大値、最小値を使用して平均値、標準偏差、最大/最小値を計算します。各列のそれぞれ。次に、groupby メソッドを使用して、column1 の値でグループ化し、各グループのデータの平均を計算します。最後に、plot メソッドを使用してヒストグラムを描画します。
3. 概要
この記事では、pandas を使用して Excel ファイルを読み取り、データを処理および分析する方法を紹介します。 Pandas には、データ分析をより簡単かつ効率的に行うための便利な操作が多数用意されています。データ分析やマイニング作業には、パンダを学習すると非常に役立ちます。
以上がpandas を使用して Excel ファイルを読み取り、データのインポートと分析を簡単に実装しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。