15年軟體架構師經驗摘要：在ML領域，初學者踩過的五個坑-人工智慧-PHP中文網

15年軟體架構師經驗摘要：在ML領域，初學者踩過的五個坑

王林

發布： 2023-04-11 19:31:25

轉載

1309 人瀏覽過

資料科學和機器學習正變得越來越流行，這個領域的人數每天都在增加。這意味著有許多資料科學家在建立他們的第一個機器學習模型時沒有豐富的經驗，而這也是錯誤可能會發生的地方。

近日，軟體架構師、資料科學家、Kaggle 大師Agnis Liukis 撰寫了一篇文章，他在文中談了談在機器學習中最常見的一些初學者錯誤的解決方案，以確保初學者了解並避免它們。

15年軟體架構師經驗摘要：在ML領域，初學者踩過的五個坑

##Agnis Liukis 擁有超過15 年的軟體架構和開發經驗，他熟練掌握Java、JavaScript、Spring Boot、React.JS 和Python 等語言。此外，Liukis 還對數據科學和機器學習感興趣，他多次參加 Kaggle 比賽並取得好成績，已達到 Kaggle 比賽大師級別。

以下是文章內容：

在機器學習領域，這 5 個坑，你踩過嗎？

1、在需要的地方沒有使用資料歸一化（data normalization）

對資料進行歸一化操作，然後取得特徵，並將其輸入到模型中，讓模型做出預測，這種方法是很容易的。但在某些情況下，這種簡單方法的結果可能會讓人失望，因為它缺少一個非常重要的部分。

某些類型的模型需要資料歸一化，如線性迴歸、經典神經網路等。這類模型使用特徵值去乘訓練值的權重。在非歸一化特徵的情況下，一個特徵值的可能範圍可能不同於另一個特徵值的可能範圍。

假設一個特徵的值在 [0，0.001] 範圍內，另一個特徵的值在 [100000，200000] 範圍內。對於使兩個特徵同等重要的模型，第一個特徵的權重將比第二個特徵的權重大 1 億倍。巨大的權重可能會為模型帶來嚴重問題，例如存在一些異常值的時候。此外，估計各種特徵的重要性變得困難，因為權重大可能意味著特徵很重要，但也可能只是意味著其特徵值很小。

歸一化後，所有特徵的值都在相同的範圍內，通常為 [0，1] 或 [-1，1]。在這種情況下，權重將在相似的範圍內，並與每個特徵的實際重要性密切對應。

總的來說，在需要的地方使用資料歸一化將產生更好、更準確的預測。

2、認為特徵越多越好

有人可能會認為加入所有特徵是一個好主意，認為模型會自動選擇並使用最好的特徵。實際上，這種想法很難成真。

模型的特徵越多，過度擬合的風險就越大。即使在完全隨機的數據中，模型也能夠找到一些特徵（訊號），儘管有時較弱，有時較強。當然，隨機雜訊中沒有真實訊號。但如果我們有足夠多的雜訊列，則該模型有可能根據偵測到的故障訊號使用其中的一部分。當這種情況發生時，模型預測品質將會降低，因為它們在一定程度上是基於隨機雜訊。

現在有許多技術幫助我們進行特徵選擇。但你要記住，你需要解釋你擁有的每一個特徵，以及為什麼這個特徵會幫助你的模型。