python - sklearn如何訓練大規模資料集
typecho
typecho 2017-06-28 09:22:17
0
3
879

問題一:

現在我有40多萬條的數據,需要對該數據使用某種機器學習分類演算法建立模型,遇到的問題是因為數據過於龐大不能一次性的進行數據的讀取,所以想問一下該如何處理數據?

問題二:

關於sklearn交叉驗證有個疑問:假如我有10000個訓練數據,由交叉驗證原理可以將這一萬個訓練數據集使用KFold方法分成n組訓練(train數據佔0.7),現在搞不懂的就是我對第一組的訓練集進行fit(),然後對測試集進行預測驗證得到預測的準確率,但是得到預測準確率有什麼用呢?會對下一次的訓練有影響嗎?還有上一次的訓練模型會被用到下次的fit()函數嗎?

typecho
typecho

Following the voice in heart.

全部回覆(3)
三叔

我最近在学大数据的数据挖掘与分析这一块,对于问题一,我有个思路你参考一下:既然无法一次性读取,可以建立分布式数据模型,分次读取数据,确定地址datanode(可以是某个变量名),建立一个namenode(名字与该地址对应的表),然后获取数据的时候,先在namenode中确认地址(需要的是哪一个变量对应的数据),再访问该地址获取数据进行处理。由于初学,我只是提供下我个人的思路,答案不唯一,仅供参考,各路大牛不喜勿喷。

熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!