如何在Python中使用scikit-learn機器學習庫。-Python教學-PHP中文網

前言

scikit-learn是Python中最受歡迎的機器學習函式庫之一，它提供了各種各樣的機器學習演算法和工具，包括分類、迴歸、聚類、降維等。

scikit-learn的優點有：

簡單易用：scikit-learn 的介面簡單易懂，可以讓使用者輕鬆地上手進行機器學習。統一的API：scikit-learn 的 API 非常統一，各種演算法的使用方法基本上一致，使得學習和使用變得更加方便。
大量實作了機器學習演算法：scikit-learn 實作了各種經典的機器學習演算法，而且提供了豐富的工具和函數，使得演算法的偵錯和最佳化變得更加容易。
開源免費：scikit-learn 是完全開源的，而且是免費的，任何人都可以使用和修改它的程式碼。
高效穩定：scikit-learn 實現了各種高效的機器學習演算法，可以處理大規模資料集，並且在穩定性和可靠性方面表現出色。 scikit-learn因為API非常的統一而且模型相對較簡單所以非常適合入門機器學習。這裡我的推薦方式是結合官方文件進行學習，不僅有每個模型的適用範圍介紹還有程式碼範例。

線性迴歸模型-LinearRegression

LinearRegression模型是基於線性迴歸的模型，適用於解決連續變數的預測問題。此模型的基本思想是建立一個線性方程，將自變數與因變數之間的關係建模為一條直線，並利用訓練資料擬合該直線，從而求出線性方程的係數，再用此方程式對測試數據進行預測。

LinearRegression模型適用於自變數和因變數之間存在線性關係的問題，例如房價預測、銷售預測、使用者行為預測等。當然，當自變數和因變數之間的關係為非線性時，LinearRegression模型的表現會比較差。此時可採用多項式迴歸、嶺迴歸、Lasso迴歸等方法來解決。

準備資料集

在拋開其它因素影響後，學習時間和學習成績之間存在著一定的線性關係，當然這裡的學習時間指的是有效學習時間，表現為隨著學習時間的增加成績也會增加。所以我們準備一份學習時間和成績的資料集。資料集內部分資料如下：

學習時間,分數
0.5,15
0.75,23
1.0,14
1.25,42
1.5,21
1.75,28
1.75,35
2.0,51
2.25,61
2.5,49

使用LinearRegression

確定特徵和目標

在學習時間和成績間，學習時間為特徵，也即自變量；成績為標籤也即因變量，所以我們需要在準備好的學習時間和成績資料集中提取特徵和標籤。

import pandas as pd import numpy as np from sklearn.metrics import r2_score, mean_squared_error from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression # 读取学习时间和成绩CSV数据文件 data = pd.read_csv('data/study_time_score.csv') # 提取数据特征学习时间 X = data['学习时间'] # 提取数据目标(标签)分数 Y = data['分数']

登入後複製

劃分訓練集和測試集

在特徵及標籤資料準備好以後，使用scikit-learn的LinearRegression進行訓練，將資料集劃分為訓練集和測試集。

""" 将特征数据和目标数据划分为测试集和训练集 通过test_size=0.25将百分之二十五的数据划分为测试集 """ X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state=0) x_train = X_train.values.reshape(-1, 1) model.fit(x_train, Y_train)

登入後複製

選擇模型，對資料進行擬合

將測試集和訓練集準備好以後,我們就可以選擇合適的模型對訓練集進行擬合，以便能夠預測出其它特徵對應的目標

# 选择模型，选择模型为LinearRegression model = LinearRegression() # Scikit-learn中，机器学习模型的输入必须是一个二维数组。我们需要将一维数组转换为二维数组，才能在模型中使用。 x_train = X_train.values.reshape(-1, 1) # 进行拟合 model.fit(x_train, Y_train)

登入後複製

得到模型參數

由於資料集只包含學習時間和成績兩個是一個很簡單的線性模型，其背後的數學公式也即y=ax b ,其中y因變數也就是成績, x自變數也即學習時間。

""" 输出模型关键参数 Intercept: 截距 即b Coefficients: 变量权重 即a """ print('Intercept:', model.intercept_) print('Coefficients:', model.coef_)

登入後複製

回測

上面擬合模型只用到了測試集數據，下面我們需要使用測試集數據對模型的擬合進行一個回測，在使用訓練集擬合後，我們就可以對特徵測試集進行預測，透過得到的目標預測結果與實際目標的值進行比較，我們就可以得到模型的適配度了。

# 转换为n行1列的二维数组 x_test = X_test.values.reshape(-1, 1) # 在测试集上进行预测并计算评分 Y_pred = model.predict(x_test) # 打印测试特征数据 print(x_test) # 打印特征数据对应的预测结果 print(Y_pred) # 将预测结果与原特征数据对应的实际目标值进行比较，从而获得模型拟合度 # R2 (R-squared)：模型拟合优度，取值范围在0~1之间，越接近1表示模型越好的拟合了数据。 print("R2:", r2_score(Y_test, Y_pred))

登入後複製

程式執行結果
根據上述的程式碼我們需要確定LinearRegression模型的擬合度，也就是這些資料到底適合不適合使用線性模型進行擬合，程式的運行結果如下：

預測結果:
[47.43726068 33.05457106 49.83437561 63.41802692 41.8439249561 63.41802692 41.843992 .84880093 26.66226456 71.40841004 18.67188144 88.9872529
63.41802692 42.6430308 21.86803469 69.81033341 66.61418017 33.05457106
58.623797038.624197054384197058.6237970543841705438. 95418 20.26995807 77.80071653
28.26034119 13.87765157 61.81995029 90.58532953 77.80071. R2: 0.8935675710322939

以上是如何在Python中使用scikit-learn機器學習庫。的詳細內容。更多資訊請關注PHP中文網其他相關文章！