python - sklearn如何訓練大規模資料集-PHP中文網路問答

文章專題學習下載問答程式設計字典遊戲最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

python - sklearn如何訓練大規模資料集

typecho 2017-06-28 09:22:17

976

問題一：

現在我有40多萬條的數據，需要對該數據使用某種機器學習分類演算法建立模型，遇到的問題是因為數據過於龐大不能一次性的進行數據的讀取，所以想問一下該如何處理數據？

問題二：

關於sklearn交叉驗證有個疑問：假如我有10000個訓練數據，由交叉驗證原理可以將這一萬個訓練數據集使用KFold方法分成n組訓練(train數據佔0.7)，現在搞不懂的就是我對第一組的訓練集進行fit()，然後對測試集進行預測驗證得到預測的準確率，但是得到預測準確率有什麼用呢？會對下一次的訓練有影響嗎？還有上一次的訓練模型會被用到下次的fit()函數嗎？

typecho

Following the voice in heart.

全部回覆 (3)

三叔2017-06-28 09:24:17 3樓

我最近在學大數據的資料探勘與分析這一塊，對於問題一，我有個思路你參考一下:既然無法一次性讀取，可以建立分佈式數據模型，分次讀取數據，確定地址datanode（可以是某個變數名稱），建立一個namenode（名字與該位址對應的表格），然後取得資料的時候，先在namenode中確認位址（需要的是哪一個變數對應的資料），再造訪該位址取得數據進行處理。由於初學，我只是提供下我個人的思路，答案不唯一，僅供參考，各路大牛不喜勿噴。

點贊+0

新增回覆

仅有的幸福2017-06-28 09:24:17 2樓

40萬沒多少啊，頂多幾G吧......
如果真的是內存小到8G也沒有，那還是得看你具體場景啊，舉個列子，單純算tf-idf，一個generator，記憶體中只有最後的tf-idf字典。

交叉驗證只是為了選取誤差最小的一個，你提到的前面的影響後面，是boosting的概念。

點贊+0

新增回覆

仅有的幸福2017-06-28 09:24:17 1樓

這種問答網站最好是一個問題一個坑，必要時兩個分開的問題給連結連相關性，避免 Double-barreled question

(1) 見How to optimize for speed，你會發現有很多可以調控試驗的方式，包括(a)盡量使用簡單的算法計巧(b)針對現實狀況做記憶體使用及速度的側寫( c)試著用Numpy陣列取代所有nested loops (d)必要時使用Cython Wrapper 去調更有效率的C/C++函式庫。這些只是基本原則和方向，其實還是要看你要操作問題的瓶頸分析，是速度還是空間，把程式碼優化後再考慮是否要用平行運算等手段

(2) 你這問題得區分數學和實證上要求的差異，希望你對過擬合(overfitting)及underfitting的實證及數學意義有所掌握，這裡的問答還蠻不錯的，讀一下有幫助的。

點贊+0

新增回覆