Python ist eine im Bereich der Datenwissenschaft weit verbreitete Programmiersprache auf hoher Ebene. Sie wird häufig bei der Datenerfassung, -bereinigung, -analyse und -visualisierung eingesetzt. Datenverarbeitung ist eine Kernkompetenz in der Datenverarbeitung. In diesem Artikel werden einige gängige Datenverarbeitungstechniken in Python vorgestellt, die den Lesern helfen sollen, Daten besser zu verarbeiten und zu analysieren.
Im Prozess der Datenregularisierung ist es häufig erforderlich, verschiedene Datentypen zu konvertieren, darunter Zeichenfolgen, Ganzzahlen, Gleitkommazahlen und boolesche Werte. Python bietet leistungsstarke Typkonvertierungsfunktionen wie int(), float(), str(), bool() usw., die einen Datentyp in einen anderen Datentyp konvertieren können, wie zum Beispiel:
# 将字符串转换成整数 age_str = '18' age_int = int(age_str) # 将整数转换成字符串 age_int = 18 age_str = str(age_int) # 将浮点数转换成整数 height_float = 1.75 height_int = int(height_float) # 将整数转换成布尔值 num = 0 is_zero = bool(num) # False
Bei der Verarbeitung einer großen Datenmenge kann es zu doppelten Daten kommen und es müssen Datendeduplizierungstechniken verwendet werden. Mit der Funktion set() in Python können doppelte Elemente schnell aus einer Liste entfernt werden, zum Beispiel:
# 去除列表中的重复元素 lst = [1, 2, 3, 2, 4, 1] lst_unique = list(set(lst)) print(lst_unique) # [1, 2, 3, 4]
Im Prozess der Datenregularisierung ist es manchmal notwendig, fehlende Werte für eine bessere Folge einzugeben Verarbeitung. Die Funktion fillna() in Python kann zum bequemen Füllen von Daten verwendet werden, zum Beispiel:
# 对缺失值进行填充 import pandas as pd df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [18, None, 21], 'gender': ['F', 'M', None]}) df_fill = df.fillna(value={'age': df['age'].mean(), 'gender': 'U'}) print(df_fill)
Das Ausgabeergebnis lautet wie folgt:
name age gender 0 Alice 18.0 F 1 Bob 19.5 M 2 Charlie 21.0 U
Im Prozess der Datenregularisierung kann eine Datenumformung erforderlich sein um es für die spätere Verarbeitung besser zu machen. Mit der Funktion „pivot()“ in Python können Daten leicht umgeformt werden, zum Beispiel:
# 数据重塑 import pandas as pd df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'gender': ['F', 'M', 'M'], 'subject': ['Math', 'Math', 'English'], 'score': [90, 87, 88]}) df_res = df.pivot(index='name', columns='subject', values='score') print(df_res)
Das Ausgabeergebnis lautet wie folgt:
subject English Math name Alice NaN 90.0 Bob NaN 87.0 Charlie 88.0 NaN
Bei tatsächlichen Vorgängen werden Daten normalerweise in verschiedenen Tabellen gespeichert und müssen gespeichert werden verschmelzen. Die Verwendung der Funktion merge() in Python kann das Zusammenführen von Daten erleichtern, zum Beispiel:
# 数据合并 import pandas as pd df1 = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [18, 19, 21], 'gender': ['F', 'M', 'M']}) df2 = pd.DataFrame({'name': ['Alice', 'Bob'], 'score': [90, 87]}) df_merge = pd.merge(df1, df2, on='name') print(df_merge)
Das Ausgabeergebnis lautet wie folgt:
name age gender score 0 Alice 18 F 90 1 Bob 19 M 87
Zusammenfassend umfassen Datenformungstechniken in Python Datentypkonvertierung, Datendeduplizierung, Datenfüllung und Datenumformung und Datenzusammenführung usw. Diese Techniken können den Lesern helfen, Daten besser zu verarbeiten und zu analysieren und die Effizienz und Genauigkeit der Datenverarbeitung zu verbessern.
Das obige ist der detaillierte Inhalt vonDatenverarbeitungstechniken in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!