python - 在推荐系统、机器学习中，如何将一个完整的数据集划分为训练集和测试集

Question

如题，有没有快速一点的方法，我如果要做多折交叉验证，应该怎么去划分数据集

黄舟 · Answer

平均分成10份，循環10次，每次選1份作為測試集，9份做訓練集

PHP中文网 · Answer

一般來講，做cross validation的時候，大家會把k設為5或10。也就是說，將資料（隨機）分成k份，其中k-1份为训练，1份做測試。不過話說回來，都要做cross validation了，應該是快不了的。

PHP中文网 · Answer

可以用3.1. Cross-validation: evaluating estimator performance

>>> from sklearn.model_selection import cross_val_score
>>> clf = svm.SVC(kernel='linear', C=1)
>>> scores = cross_val_score(clf, iris.data, iris.target, cv=5)
>>> scores                                              
array([ 0.96...,  1.  ...,  0.96...,  0.96...,  1.        ])