Heim > Backend-Entwicklung > Python-Tutorial > Entdecken Sie Datenbereinigungs- und Vorverarbeitungstechniken mit Pandas

Entdecken Sie Datenbereinigungs- und Vorverarbeitungstechniken mit Pandas

WBOY
Freigeben: 2024-01-13 12:49:05
Original
688 Leute haben es durchsucht

Entdecken Sie Datenbereinigungs- und Vorverarbeitungstechniken mit Pandas

Besprechen Sie die Methode der Datenbereinigung und -vorverarbeitung mit Pandas.

Einführung:
Bei der Datenanalyse und beim maschinellen Lernen sind Datenbereinigung und -vorverarbeitung sehr wichtige Schritte. Als leistungsstarke Datenverarbeitungsbibliothek in Python verfügt Pandas über umfangreiche Funktionen und flexible Operationen, die uns dabei helfen können, Daten effizient zu bereinigen und vorzuverarbeiten. In diesem Artikel werden mehrere häufig verwendete Pandas-Methoden untersucht und entsprechende Codebeispiele bereitgestellt.

1. Datenlesen
Zuerst müssen wir die Datendatei lesen. Pandas bietet viele Funktionen zum Lesen von Datendateien in verschiedenen Formaten, einschließlich CSV, Excel, SQL-Datenbank usw. Am Beispiel des Lesens einer CSV-Datei können Sie die Funktion read_csv() verwenden.

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')
Nach dem Login kopieren

2. Datenbeobachtung
Bevor wir die Datenbereinigung und -vorverarbeitung durchführen, müssen wir die Gesamtsituation der Daten beobachten. Pandas bietet einige Methoden zum schnellen Anzeigen grundlegender Informationen zu den Daten.

  1. Sehen Sie sich die ersten Datenzeilen an.

    df.head()
    Nach dem Login kopieren
  2. Zeigen Sie grundlegende Statistiken Ihrer Daten an.

    df.describe()
    Nach dem Login kopieren
  3. Sehen Sie sich die Spaltennamen der Daten an.

    df.columns
    Nach dem Login kopieren

3. Der Umgang mit fehlenden Werten ist ein wichtiger Schritt bei der Datenbereinigung, und Pandas bietet einige Methoden zum Umgang mit fehlenden Werten.

  1. Fehlende Werte ermitteln.

    df.isnull()
    Nach dem Login kopieren

  2. Entfernen Sie Zeilen oder Spalten mit fehlenden Werten.

    # 删除包含缺失值的行
    df.dropna(axis=0)
    
    # 删除包含缺失值的列
    df.dropna(axis=1)
    Nach dem Login kopieren

  3. Fehlende Wertefüllung.

    # 使用指定值填充缺失值
    df.fillna(value)
    
    # 使用均值填充缺失值
    df.fillna(df.mean())
    Nach dem Login kopieren

4. Die Verarbeitung doppelter Werte

Doppelte Werte beeinträchtigen die Datenanalyse und -modellierung, daher müssen wir uns mit doppelten Werten befassen.

  1. Duplikate Werte ermitteln.

    df.duplicated()
    Nach dem Login kopieren

  2. Entfernen Sie doppelte Werte.

    df.drop_duplicates()
    Nach dem Login kopieren

5. Datenkonvertierung

Die Datenkonvertierung ist ein wichtiger Teil der Vorverarbeitung, und Pandas bietet viele Methoden zur Datenkonvertierung.

  1. Datensortierung.

    # 按某一列升序排序
    df.sort_values(by='column_name')
    
    # 按多列升序排序
    df.sort_values(by=['column1', 'column2'])
    Nach dem Login kopieren

  2. Datennormalisierung.

    # 使用最小-最大缩放(Min-Max Scaling)
    df_scaled = (df - df.min()) / (df.max() - df.min())
    Nach dem Login kopieren

  3. Datendiskretisierung.

    # 使用等宽离散化(Equal Width Binning)
    df['bin'] = pd.cut(df['column'], bins=5)
    Nach dem Login kopieren

6. Funktionsauswahl

Entsprechend den Anforderungen der Aufgabe müssen wir geeignete Funktionen für die Analyse und Modellierung auswählen. Pandas bietet einige Methoden zur Funktionsauswahl.

  1. Wählen Sie Funktionen nach Spalte aus.

    # 根据列名选择特征
    df[['column1', 'column2']]
    
    # 根据列的位置选择特征
    df.iloc[:, 2:4]
    Nach dem Login kopieren

  2. Wählen Sie Funktionen basierend auf den Bedingungen aus.

    # 根据条件选择特征
    df[df['column'] > 0]
    Nach dem Login kopieren

7. Datenzusammenführung

Wenn wir mehrere Datensätze zusammenführen müssen, können wir zum Zusammenführen die von Pandas bereitgestellte Methode verwenden.

  1. Nach Zeilen zusammenführen.

    df1.append(df2)
    Nach dem Login kopieren

  2. Nach Spalten zusammenführen.

    pd.concat([df1, df2], axis=1)
    Nach dem Login kopieren

8. Datenspeicherung

Wenn wir mit der Verarbeitung der Daten fertig sind, können wir die verarbeiteten Daten schließlich in einer Datei speichern.

# 保存到csv文件
df.to_csv('processed_data.csv', index=False)

# 保存到Excel文件
df.to_excel('processed_data.xlsx', index=False)
Nach dem Login kopieren
Fazit:

In diesem Artikel werden einige gängige Methoden zur Datenbereinigung und -vorverarbeitung mithilfe von Pandas vorgestellt, darunter Datenlesen, Datenbeobachtung, Verarbeitung fehlender Werte, Verarbeitung doppelter Werte, Datentransformation, Funktionsauswahl, Datenzusammenführung und Datenspeicherung. Durch die leistungsstarken Funktionen und flexiblen Operationen von Pandas können wir die Datenbereinigung und -vorverarbeitung effizient durchführen und so eine solide Grundlage für die anschließende Datenanalyse und -modellierung schaffen. In praktischen Anwendungen können Studierende je nach Bedarf geeignete Methoden auswählen und diese in Verbindung mit tatsächlichem Code anwenden.

Das obige ist der detaillierte Inhalt vonEntdecken Sie Datenbereinigungs- und Vorverarbeitungstechniken mit Pandas. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage