Return to site

Statistical Learning Theory Learn notes - part I

统计学习理论

· 知识,统计学习

重读 李航的《统计学习方法》

    结合 CS229T/STAT231 Statistical Learning Theory 的课程Note https://github.com/staticor/cs229t/blob/master/lectures/notes.pdf

Statistical Learning Methods

Machine learning has become an indispensible part of many application areas, in both science (biology, neuroscience, psychology, astronomy, etc.) and engineering (natural language processing, computer vision, robotics, etc.). But machine learning is not a single approach; rather, it consists of a dazzling array of seemingly disparate frame- works and paradigms spanning classification, regression, clustering, matrix factoriza- tion, Bayesian networks, Markov random fields, etc.

如果被问到统计学习和机器学习的差异与联系, 我是有些不知所措的。二者有着太多的相似之处,

我给出的答案是相同的理论, 不同的侧重 ──统计学习重理论而轻工程实现,而后者则一定要照顾到计算机这个算法实现者。

大学时候没好好学习,现在在还过去的债

例子: 我们用 LR(logistic regression)来训练一组特征为词袋的语料, 在1000篇文稿中收获了8%的训练误差(训练集),在100篇文档中得到了13%的测试误差(预测集)。这意谓着什么呢?

  • 现有的结论说明我们的模型怎样? 如果shuffle数据后重新训练/测试,是否得到一致的结果?
  • 如果扩大训练样本数量为原来的两倍, 对于测试误差应该有何变化?
  • 如果扩大特征数量为原来的两倍呢?
  • 如果扩大要预测参数的数量呢?
  • 是否能用正则化?可以使用哪些正则化的方法?
  • 将LR模型改为 SVM(多项式核)或者是神经网络,模型会明显改进吗?

theory 关注什么

theory 与之相对的是practice。 理论重假设。

Stanford的统计学习课重点围绕四部分: 渐近、一致收敛、核方法、线上学习(online learning)。

回忆 · 统计

统计学习关于数据的假设是同类数据具有一定的统计规律性, 这是统计学习的前提, 例如英文文章中单词出现的频数、网页的流量等。 由于统计上有规律可循,所以可以用概率来描述信息,例如可以用随机变量描述数据中的特征。

假设数据是独立同分布产生的, (简记为 i.i.d.) 。

我们统计学习的模型是属于某个函数的集合, 称为 hypothesis space.

选择某种评价准则(evaluation criterion), 从假设空间中选取一个最优模型, 使它对已知数据及未知测试数据在给定的评定准则下有最优的预测。

回忆, 大学课程, 概率论与数理统计中的参数估计:

给定一组样本(假定他们是从某高斯分布中抽取出来的),根据这组样本如何估计总体的统计量(均值之类)。估计的结果和样本容量有什么关系呢?

x(1),...,x(n) ∼ N(θ∗,σ2I) 样本均值 theta_mark 是 N个样本的算术平均。

以上是简短的对统计知识的recall。

进一步地, 可以联想 指数函数族 (Exponential families)

以我的理解, 统计学习对于数学知识的要求更加严格。

统计学习的组成要素

统计学习三个要素: 模型, 策略和算法。

首要考虑是学习什么样的模型, 在李航《统计学习》一书中, 由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型。 它们分别对应着不同类别的假设空间 。

有了假设空间,接着要考虑模型产生的数据和真实数据的差异,即损失函数(风险函数), 如常见的0-1损失, 平方损失,绝对损失,对数损失。

常用经验风险损失+结构风险最小化来定义优化的策略。

第三Part, 算法。

算法是指学习模型的具体计算方法。

接上一部分,如果说确定了一个最小化目标函数, 那么算法就是指在假设空间内求解最优函数的方法。 大多数场景下, 即使解析解(能用公式符号直接表达出最优解, 例如最小二乘)存在,也很难计算(大矩阵求逆)。 这就需要数值计算了。

谢谢当时的数值计算老师(三强老师), 是我本科数学第一个考100分的科目。

: p

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly