Verwenden Sie Pandas, um TXT-Dateidaten einfach zu verarbeiten
Bei der Datenanalyse und -verarbeitung stoßen wir häufig auf Situationen, in denen die aus TXT-Dateien gelesenen Daten verarbeitet werden müssen. Beispielsweise ist das Datenformat verwirrend und muss bereinigt werden. Einige Spalten sind ungültig und müssen gelöscht werden. Diese Aufgaben erfordern möglicherweise viel Arbeit und Zeit, aber wir können diese Vorgänge problemlos über die Pandas der Python-Bibliothek ausführen.
In diesem Artikel werden Codebeispiele kombiniert, um Ihnen zu zeigen, wie Sie Pandas zum Verarbeiten von TXT-Dateidaten verwenden.
Bevor wir die Pandas-Bibliothek verwenden, müssen wir sie zuerst vorstellen. In Python-Skripten wird allgemein vereinbart, die Pandas-Bibliothek in pd umzubenennen, um nachfolgende Aufrufe zu erleichtern.
import pandas as pd
Zuerst müssen wir die Daten in der TXT-Datei lesen. In Pandas verwenden wir die Funktion pd.read_csv() zum Einlesen von Daten. Obwohl der Funktionsname csv enthält, eignet sich diese Funktion auch zum Lesen von TXT-Dateien.
data = pd.read_csv('data.txt', sep=' ', header=None)
Die Funktionsparameter werden wie folgt erklärt:
Nachdem wir die Daten gelesen haben, können wir den Inhalt und die Form der Daten anzeigen, indem wir die Daten ausdrucken.
print(data)
Ausgabeergebnis:
0 1 2 0 A 123 1.0 1 B 321 2.0 2 C 231 NaN 3 D 213 4.0 4 E 132 3.0
Es ist ersichtlich, dass die gelesenen Daten in Daten in Form eines DataFrame gespeichert wurden.
Die gelesenen Daten können viele Formatunregelmäßigkeiten oder Fehler aufweisen, weshalb wir die Daten bereinigen müssen. Beispielsweise fehlen möglicherweise Werte in einigen Zeilen oder Spalten, und wir müssen sie füllen oder löschen. Der Datentyp einiger Spalten entspricht möglicherweise nicht unseren Anforderungen und wir müssen sie in numerische oder Zeichenfolgentypen usw. konvertieren .
a. Zeilen mit fehlenden Werten löschen
Wir können die Funktion dropna() verwenden, um Zeilen mit fehlenden Werten zu löschen.
data_clean = data.dropna()
Diese Funktion löscht alle Zeilen, die fehlende Werte in den Daten enthalten, und gibt einen DataFrame nur mit vollständigen Daten zurück.
b. Fehlende Werte auffüllen
Wenn Zeilen mit fehlenden Werten nicht gelöscht werden können, können wir diese fehlenden Werte auffüllen. Verwenden Sie einfach die Funktion fillna().
data_fill = data.fillna(0)
Diese Funktion füllt die fehlenden Werte mit 0. Wenn Sie sie mit anderen Werten füllen möchten, können Sie den entsprechenden Wert in den Klammern übergeben.
c. Datentypen konvertieren
Bei der Datenanalyse müssen bestimmte Datentypen für die anschließende Berechnung oder Verarbeitung in numerische oder Zeichentypen umgewandelt werden. In Pandas können Sie die Funktion astype() zur Typkonvertierung verwenden.
data_conversion = data_clean.astype({'1': 'int', '2': 'str'})
Diese Funktion kann den Typ von Spalte 1 in data_clean in einen Ganzzahltyp (int) und den Typ von Spalte 2 in einen String-Typ (str) konvertieren.
Abschließend müssen wir die bereinigten und verarbeiteten Daten in einer neuen TXT-Datei speichern. In Pandas können wir dies mit der Funktion to_csv() erreichen.
data_clean.to_csv('data_clean.txt', index=False, header=False, sep=' ')
Die Funktionsparameter werden wie folgt erklärt:
Codebeispiel
Nachfolgend finden Sie das vollständige Codebeispiel, das Sie in ein Python-Skript kopieren und ausführen können.
import pandas as pd # 读入数据 data = pd.read_csv('data.txt', sep=' ', header=None) print('原始数据: ', data) # 删除含有缺失值的行 data_clean = data.dropna() print('处理后数据(删除缺失值): ', data_clean) # 填充缺失值 data_fill = data.fillna(0) print('处理后数据(填充缺失值): ', data_fill) # 转换数据类型 data_conversion = data_clean.astype({'1': 'int', '2': 'str'}) print('处理后数据(类型转换): ', data_conversion) # 保存新数据 data_clean.to_csv('data_clean.txt', index=False, header=False, sep=' ')
In diesem Artikel erfahren Sie, wie Sie mit Pandas TXT-Dateidaten einfach verarbeiten, einschließlich Lesen, Bereinigen, Konvertieren und Speichern von Daten. Als eines der wichtigen Datenverarbeitungstools in Python können Pandas uns dabei helfen, Data-Mining- und Analyseaufgaben effizienter zu erledigen.
Das obige ist der detaillierte Inhalt vonVerwenden Sie Pandas, um TXT-Dateidaten einfach zu verarbeiten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!