统计¶
不管是回归还是分类,机器学习几乎处处都应用到了统计学知识。
本文旨在简要的对统计学的两大学派–贝叶斯学派与频率学派进行介绍。
统计学从某种意义上来说可以分成频率与贝叶斯两大学派,他们之间的最大差别产生于对参数空间\(\theta\)的不同看法。
参数指事情发生的背景情况。
频率学派¶
频率学派认为参数是一个客观存在,它虽未知但却是固定的。因此,频率学派所关注的是 哪个值最有可能是参数的真值 。所以频率学派关心似然(likelihood)
、置信区间(confidence interval)
。
贝叶斯学派¶
贝叶斯学派认为参数空间里的每个值都有可能是参数的真值,区别只是概率不同。所以贝叶斯学派引入了先验信念(prior belief)
和后验信念(posterior belief)
这样的概念来设法找出参数空间上的每个值的概率。
例子
当你在你女朋友的包里发现了一条不属于你且被使用过的男士内裤时,你该如何判断你是不是有了一(或多)顶绿帽子的概率?在收集到十万个结果之后,频率学派告诉你你被绿了的可能是x%。但贝叶斯学派还需要一个证据(evidence),比如样貌或者专业,最后再告诉你根据你女朋友的样貌或者专业,你被绿了的可能性是y%。
如果你真的在你女朋友的包里发现了一条不属于你且被使用过的男士内裤,那么你被绿了。
由于贝叶斯方法本身存在很多问题,比如当先验选的不好时你甚至都很难写出后验的具体形式,故虽然贝叶斯学派有着更为久远的历史,但是频率学派发展一直要好很多。近年来,得益于计算机等的高速发展,贝叶斯学派也受到了越来越多的关注。在下一篇文章当中,我们将对贝叶斯定理进行简单介绍。