sklearn이 대규모 데이터 세트를 훈련하는 방법
질문 1: 이제 400,000개 이상의 데이터가 있습니다. 이 데이터에 대한 모델을 구축하려면 일종의 기계 학습 분류 알고리즘을 사용해야 합니다. 제가 직면한 문제는 데이터가 너무 커서 한 번에 읽을 수 없다는 것입니다. 그래서 저는 데이터를 어떻게 해야 하는지 묻고 싶습니다. 질문 2: sklearn 교차 검증에 관한 내용이 있습니다...
typecho 2017-06-28 09:22:17 0 3 1057
python - sklearn을 사용하여 큰 텍스트의 tfidf 기능을 찾으시겠습니까?
위 데이터는 Reuters 데이터 세트의 7303 훈련 세트에서 얻은 것이며 sklearn을 사용하여 tfidf 기능을 얻은 결과는 모두 0입니다. 무슨 일이 일어나고 있는 걸까요? 이 데이터의 일부를 가져오면 이러한 작은 데이터 부분에 대한 올바른 tfidf 결과를 얻을 수 있습니다.
大家讲道理 2017-06-28 09:23:35 0 1 758
python - 트리 모델에서 이산 변수를 하나로 통합해야 합니까?
구체적으로 sklearn의 GBDT를 예로 들면, 데이터가 모두 이산적인 경우 직접 학습할 수 있나요? 데이터에 연속성이 있다면 직접 훈련할 수 있나요?
黄舟 2017-05-18 10:46:59 0 1 821