Der Inhalt dieses Artikels befasst sich mit der Datenvorverarbeitung (Code) in Python. Ich hoffe, dass er für Freunde hilfreich ist.
1. Standardbibliothek importieren2. Datensatz importierenFehlende Daten
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
dataset = pd.read_csv('data (1).csv') # read_csv:读取csv文件 #创建一个包含所有自变量的矩阵,及因变量的向量 #iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。 X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。 y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据
from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理
#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])
from sklearn.preprocessing import LabelEncoder,OneHotEncoder labelencoder_X=LabelEncoder() X[:,0]=labelencoder_X.fit_transform(X[:,0]) onehotencoder=OneHotEncoder(categorical_features=[0]) X=onehotencoder.fit_transform(X).toarray() #因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字 labelencoder_y=LabelEncoder() y=labelencoder_y.fit_transform(y)
(1) Standardbibliothek importieren (2) Datensatz importieren
(3) Wenige fehlen und werden klassifiziert (4) Teilen Sie den Datensatz in einen Trainingssatz und einen Testsatz auf
(5) Feature-Skalierung ist in den meisten Fällen nicht erforderlich, aber in einigen Fällen ist eine Feature-Skalierung erforderlich
Das obige ist der detaillierte Inhalt vonDatenvorverarbeitung in Python (Code). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!