Wie sklearn große Datensätze trainiert – Stack Overflow
typecho
typecho 2017-06-28 09:22:17
0
3
954

Frage 1:

Jetzt habe ich mehr als 400.000 Daten. Ich muss einen Klassifizierungsalgorithmus für maschinelles Lernen verwenden, um ein Modell für diese Daten zu erstellen. Das Problem ist, dass die Daten zu groß sind und nicht auf einmal gelesen werden können Ich möchte dazu fragen: Wie werden die Daten verarbeitet?

Frage 2:

Ich habe eine Frage zur sklearn-Kreuzvalidierung: Wenn ich 10.000 Trainingsdaten habe, können diese 10.000 Trainingsdatensätze mithilfe der KFold-Methode basierend auf dem Kreuzvalidierungsprinzip in n Trainingsgruppen unterteilt werden (die Zugdaten machen 0,7 aus). Das heißt, ich führe fit() für den Trainingssatz der ersten Gruppe durch und führe dann eine Vorhersageüberprüfung für den Testsatz durch, um die Vorhersagegenauigkeit zu erhalten Genauigkeit? Wird es Auswirkungen auf die nächste Trainingseinheit haben? Wird außerdem das zuletzt trainierte Modell in der nächsten fit()-Funktion verwendet?

typecho
typecho

Following the voice in heart.

Antworte allen (3)
三叔

我最近在学大数据的数据挖掘与分析这一块,对于问题一,我有个思路你参考一下:既然无法一次性读取,可以建立分布式数据模型,分次读取数据,确定地址datanode(可以是某个变量名),建立一个namenode(名字与该地址对应的表),然后获取数据的时候,先在namenode中确认地址(需要的是哪一个变量对应的数据),再访问该地址获取数据进行处理。由于初学,我只是提供下我个人的思路,答案不唯一,仅供参考,各路大牛不喜勿喷。

    仅有的幸福

    40万没多少啊,顶多几G吧......
    如果真的是内存小到8G也没有,那还是得看你具体场景啊,举个列子,单纯算tf-idf,一个generator,内存中只有最后的tf-idf字典。

    交叉验证只是为了选取误差最小的一个,你提到的前面的影响后面,是boosting的概念。

      仅有的幸福

      這種問答網站最好是一個問題一個坑,必要時兩個分開的問題給連結連相關性,避免 Double-barreled question

      (1) 見How to optimize for speed,你會發現有很多可以調控試驗的方式,包括(a)儘量使用簡單的演算法計巧 (b)針對現實狀況做記憶体使用及速度的側寫 (c)試著用Numpy陣列取代所有nested loops (d)必要時使用Cython Wrapper 去調更有效率的C/C++函數庫。這些只是基本原則和方向,實際上還是要看你要操作問題的瓶頸分析,是速度還是空間,把代碼最佳化後再考慮是否要用平行計算等手段

      (2) 你這問題得區分 數學 和 實證 上要求的差異,希望你對 过拟合(overfitting)及 underfitting的 實證及數學意義有所掌握,這裡的問答還蠻不錯的,讀一下有幫助的。

        Neueste Downloads
        Mehr>
        Web-Effekte
        Quellcode der Website
        Website-Materialien
        Frontend-Vorlage
        Über uns Haftungsausschluss Sitemap
        Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!