> 데이터 베이스 > MySQL 튜토리얼 > 【机器学习基础】机器学习中的三个技巧原则

【机器学习基础】机器学习中的三个技巧原则

WBOY
풀어 주다: 2016-06-07 15:11:51
원래의
1137명이 탐색했습니다.

奥卡姆剃刀原则(Occam's Razor) 有一句话是这样说的,An explanation of the data should be mad as simple as possible,but no simpler。 在机器学习中其意义就是,对数据最简单的解释也就是最好的解释(The simplest model that fits the data is also t

奥卡姆剃刀原则(Occam's Razor)

有一句话是这样说的,"An explanation of the data should be mad as simple as possible,but no simpler"。
在机器学习中其意义就是,对数据最简单的解释也就是最好的解释(The simplest model that fits the data is also the most plausible)。

【机器学习基础】机器学习中的三个技巧原则

比如上面的图片,右边是不是比左边解释的更好呢?显然不是这样的。

如无必要,勿增实体
奥卡姆剃刀定律,即简单有效原则,说的是,切勿浪费较多东西去做,用较少的东西,同样可以做好的事情。

所以,相比复杂的假设,我们更倾向于选择简单的、参数少的假设;同时,我们还希望选择更加简单的模型,使得有效的假设的数量不是很多。
另一种解释是,假设有一个简单的假设H,如果它可以很好的区分一组数据,那么说明这组数据确实是存在某种规律性。

抽样偏差(Sampling Bias)

If the data is sampled in a biased way,learning will produce a similarily biased outcome.
这句话告诉我们,如果抽样的数据是有偏差的,那么学习的效果也是有偏差的,这种情形称作是抽样偏差。
在实际情况中,我们需要训练数据和测试数据来自同一分布。
为了避免这样的问题,我们可以做的是要了解测试环境,让训练环境或者说是训练数据和测试环境尽可能的接近。

数据窥探(Data Snooping)

你在使用数据任何过程都是间接的窥探了数据,所以你在下决策的时候,你要知道,这些数据可能已经被你头脑中的模型复杂度所污染。
有效避免这种情况的方法有:

  • 做决定之前不要看数据
  • 要时刻存有怀疑


Github主页(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿