社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

PHPz

發布： 2023-04-12 20:40:01

轉載

1299 人瀏覽過

資料科學和機器學習正變得越來越流行。

進入這個領域的人數，每天都在成長。

這意味著，許多資料科學家在建立第一個機器學習模型時，並沒有豐富的經驗，所以很容易發生錯誤。

以下是機器學習解決方案中一些最常見的初學者錯誤。

機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

在需要的地方沒有使用資料歸一化

對初學者來說，把特徵放入模型，然後等著它給出預測，這似乎是一件很容易的事。

但是在某些情況下，得到的結果可能會令人失望，因為你遺漏了一個非常重要的步驟。

機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

某些類型的模型需要讓資料歸一化，包含線性迴歸、經典神經網路等。這些類型的模型使用特徵值乘以訓練的權重。如果特徵沒有被歸一化，可能會發生一個特徵的可能值範圍與另一個特徵的可能值範圍非常不同的情況。

假設，一個特徵的值在[0, 0.001]範圍內，另一個特徵的值在[100000, 200000]範圍內。對於兩個特徵同等重要的模型，第一個特徵的權重將是第二個特徵的權重的100'000'000倍。巨大的權重可能會為模型帶來嚴重的問題。例如，存在一些異常值。

此外，估計各種特徵的重要性會變得非常困難，因為大權重可能意味著該特徵很重要，或者可能僅僅意味著它具有較小的值。

而在歸一化後，所有特徵都在相同的值範圍內，通常是[0, 1]或[-1, 1]。在這種情況下，權重將處於相似的範圍內，並且將與每個特徵的真正重要性密切對應。

整體而言，在需要的地方使用資料歸一化，將產生更好、更準確的預測結果。

認為特徵越多越好

有人可能認為加入的特徵越多越好，這樣模型就會自動選擇並使用最好的特徵。

在實踐中，並不是這樣的。在大多數情況下，具有精心設計和選擇特徵的模型將顯著優於具有10倍以上特徵的類似模型。

模型的特徵越多，過度擬合的風險就越大。即使在完全隨機的數據中，模型也能夠找到一些訊號——有時更弱，有時更強。

機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

當然，隨機雜訊中沒有真正的訊號。但是，如果我們有足夠的雜訊列，那麼該模型就有可能根據偵測到的錯誤訊號使用其中的一部分。發生這種情況時，模型預測品質會降低，因為它們將部分基於隨機雜訊。

的確存在各種用於特徵選擇的技術，它們可以在這種情況下提供幫助。但本文不討論它們。

記住，最重要的是－你應該能夠解釋你擁有的每一個特徵，並明白為什麼這個特性會幫助你的模型。

在需要外推法時使用基於樹的模型

樹模型受到歡迎的最主要原因除了它是實力擔當，還有就是因為它很好用。

#

機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

但是，它並不是百試百靈的。在某些情況下，使用基於樹的模型很可能會是錯誤。

樹模型沒有推論能力。這些模型永遠不會給出大於訓練資料中看到的最大值的預測值。他們也永遠不會輸出比訓練中的最小值更小的預測。

但在某些任務中，外推能力或許佔據主要角色。例如，如果利用該模型預測股票價格，有可能未來的股票價格將比以往任何時候都高。所以在這種情況下，基於樹的模型將不再適用，因為它們的預測結果將被限制在接近歷史最高價格的水平。

機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

那這個問題又該怎麼解決呢？

其實，條條大路通羅馬！

一種選擇是預測變化或差異，而不是直接預測值。

另一個解決方案是對此類任務使用不同的模型類型，例如能夠外推的線性迴歸或神經網路。

多此一舉的歸一化

#大家一定不陌生資料歸一化的重要性。但是不同的任務需要不同的歸一化方式，倘若類型按錯了，那便會得不償失！

機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

基於樹的模型不需要資料歸一化，因為特徵原始值不會用作乘數，並且異常值也不會影響它們。

神經網路可能也不需要歸一化－例如，如果網路已經包含內部處理歸一化的層（例如Keras函式庫的BatchNormalization）。

機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

在某些情況下，線性迴歸可能也不需要資料歸一化。這是指所有特徵都在相似的值範圍內，並且具有相同的意義。例如，如果模型應用於時間序列數據，並且所有特徵都是相同參數的歷史值。

在實務上，應用不必要的資料歸一化不一定會損害模型。大多數情況下，這些情況下的結果將與跳過的歸一化非常相似。但是，進行額外的不必要的資料轉換會使解決方案複雜化，並且會增加引入一些錯誤的風險。

所以，具體是用，還是不用，實踐出真知！

資料外洩

資料外洩，要比我們想像得更容易。

請看以下程式碼片段：

機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

實際上，「sum_feature 」和「diff_feature」這兩個特徵都是不正確的。

#

它們正在「洩漏」訊息，因為在拆分為訓練/測試集後，具有訓練資料的部分將包含測試行中的一些資訊。這雖然會得到更好的驗證結果，但當應用於實際資料模型時，就會效能暴跌。

正確的做法是先進行訓練/測試拆分。然後才套用特徵生成功能。一般來說，分別處理訓練集和測試集是一種很好的特徵工程模式。

在某些情況下，必須在兩者之間傳遞一些資訊——例如，我們可能希望測試集使用相同的StandardScaler ，該StandardScaler用於訓練集並在其上進行了訓練。但這只是個案，所以，我們還是需要具體問題具體分析！

機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」

從錯誤中學習是件好事。但最好從別人的錯誤中學習——希望本文所提供的錯誤範例能幫助你。

#

以上是機器學習天降福音！資料科學家、Kaggle大師發布「ML避坑寶典」的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

機器學習解決方案

來源：51cto.com

上一篇：李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍下一篇：全球供應鏈中斷將如何推動機器人的採用?

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

編碼的關鍵：為初學者釋放 C 的力量

2024-10-13 11:44:01
使用 PHP 和 MySQL 將您的網站連接到資料庫

2024-10-13 09:56:31
使用 Python 解決問題：作為初學者，解鎖強大的解決方案

2024-10-11 20:58:41
Python 的力量，簡單：一種適合初學者的程式設計方法

2024-10-11 16:53:11
PHP 與社群媒體：將您的網站與世界融為一體

2024-10-11 11:54:51
使用 PHP 的動態圖像畫廊：在線展示您的作品

2024-10-10 16:21:01
使用 PHP 建立 API 和 Web 服務

2024-10-10 15:18:02
揭秘 Java：為新程式設計師提供一條清晰、簡單的道路

2024-10-10 13:34:01
使用 C 創建遊戲和圖形：有趣且實用的介紹

2024-10-10 13:26:26
王者榮耀程咬金怎麼玩？

2024-10-10 11:38:42

最新問題

google 瀏覽器手機版顯示的怎麼實現老師您好，google 瀏覽器怎麼變成手機版樣式的？

來自於 2024-04-23 00:22:19

0

9

1588

傳回值中變數的格式是什麼？我是php的新學習者。我發現有一段程式碼：if($x<time()){return[false,'error'];}邏輯或變數並不重要，但我不明白[false,'error'...

來自於 2024-04-06 21:55:20

0

1

778

數獨檢查器無法運作？誰能幫我辨識錯誤？我嘗試了在線編輯器上的所有方法，但仍然收到錯誤。但當我在我的機器上的VSCode上執行此操作時，它工作正常。我很困惑，在沒有發現錯誤的情況下無法提交程式碼。我不知道該去哪裡找了。我...

來自於 2024-04-06 21:21:07

0

1

474

MERN stack搜尋方塊和複選框的正規表示式篩選器我正在嘗試透過邊做邊學來了解MERN堆疊如何協同工作，並且我正在遵循bezcoder的這些教程：Node.js/Express/MongoDb（Github整個程式碼）和React...

來自於 2024-04-06 14:53:12

0

1

425

我在使用CSS網格時遇到了高度不符合預期的問題，我可能犯了哪些錯誤？我目前正在學習CSS網格，並且被要求將其分解為網格來製作這張卡片。附上了我想要製作的網格的圖片。實際上有一個更大的網格（在CSS中稱為profile-grid），所有這些卡片都排列...

來自於 2024-04-06 12:52:14

0

1

339

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1421228
php入門教程之一週學會PHP

4264933
JAVA 初級入門影片教學

2516010
小甲魚零基礎入門學習Python影片教學

506192
PHP 零基礎入門教學

861303

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板