1. 人工智能的提出和发展历史
1.1 正式诞生:达特茅斯会议(1956)



可能并不需要真正定义一个符号系统(代表逻辑推理),引出后来的统计学习方法来做AI的思路(数据:题海战术),1993年后统计学习的本质并未改变。




如何利用常识?
1.2 人工智能的方法论
完全基于概率统计的模型


手工设计基于人类知识,自主学习基于数据,两者的使用主要取决于处理的任务需要,没有优劣之分。

在满足可行性、优越性及必要性的前提下,什么情况使用深度学习的方法:
- 没有现有知识可以直接建模
- 复杂度过高

2. 计算机视觉
2.1 计算机视觉的定义
计算机视觉就是处理输入信号或输出信号是图像的问题,计算机图形学更偏向输出信号为图像。

2.2 计算机视觉的发展历史




小结: 计算机视觉是人工智能的一个分支。由于图像的存储和处理需要消耗更多资源,计算机视觉的发展略微滞后于人工智能,但也同样精彩。计算机视觉的发展历史,是手工特征和神经网络(连结主义)不断角力的过程,而时下流行的深度学习正是连结主义的最强武器。同时,计算机视觉的发展还是时代的产物,受到大算力和大数据的极大推动。
2.3 计算机视觉的典型问题和应用
摄像机标定:摄像机的内外参数在空间中体现如何,拍摄的物体有多远、多大。
密集表示:对人的身体进行切片,每一片对应身体的特定部位
2.4 计算机视觉的现状和挑战
长尾分布: 少数类别有大部分数据,而多数类别只有小部分数据。往往会对头部数据过拟合,从而在预测时忽略尾部的类别。长尾效应无法通过指标体现,任何测试集都有自身的局限性。缺乏常识知识


某种指标在任务层面的过拟合难以避免

2.5 计算机视觉与人工智能其他领域的联系
本节列举了:与计算机视觉互利的机器学习理论,与其互反的计算机图形学,以及与其互补的自然语言处理。未来可以从图像信号采样、标注、学习等方面推进。
3. 统计学习基础
3.1 统计学习的基本概念
这一小节,主要讲述统计学习的基础知识。作者通过三个典型案例,即一维拟合问题、图像分类问题、游戏策略问题,讲述统计学习的通用流程和基本概念。统计学习方法本质上是求解概率模型,因而可以使用贝叶斯定理进行推导,并且从概率角度定义生成式模型和判别式模型。


Note:为什么不定义一个参数来而使用十个参数来做这件事?
补充说明:
-
数据分布(域):决定了问题的难度甚至可行性,数据分布会影响评价指标、模型设计和优化。
-
评价指标:决定了算法的好坏,在不均匀甚至长尾分布的数据上,不同的评价指标会导致截然不同的结果。长尾分布的数据虽少,但往往是决定算法是否可靠的关键。没有完美的评价指标,指标随着任务的需求而变化。
-
模型复杂度和参数:解决同一问题的模型,可以有不同的复杂度(最近邻方法、线性回归法、CNN)。超参数是一种强先验,体现着人类对特定问题的理解。
-
优化过程中的挑战:实际问题中,数据和参数的维度过高(不同维度重要性差别很大);过拟合现象(把握合适的度非常困难)


概率模型:统计学习一般基于概率论和统计, 从数据分布的假设出发 ,利用贝叶斯定理,推出优化目标。

其中求导过程两边取对数,参数只有一个其他均视为常数。

L1范数与损失函数的等高面相切的部分更有可能在坐标轴上,因此L1范数会使参数更稀疏?


3.2 最近邻法和线性回归
在这一小节,作者主要讲述统计学习中两个最基础的方法,即最近邻法和线性回归法。最近邻法虽然简单直观,但由于缺乏参数的辅助,在高维空间中不易推广。引入参数后,最简单的模型是线性回归,它不仅具有解析解,而且能够自由地控制模型复杂度。这两种模型各有利弊,共同构成了统计学习的奠基部分。


最后一句不是很理解,如何推导


直观理解维度诅咒的例子:d维空间中将一个单位球半径为1减为0.99,那么减少了多少体积?体积与半径d次方成正比,即d很大,体积几乎为0。高维空间中的几乎所有的点,如果在体积中均匀采样的话,几乎所有点都位于球面的附近。

最近邻法无法判断不同特征的重要程度,每个位置的权重都是一样的,无法学习特征的重要性。将数据投影到更高效的空间中,通过学习调节参数。


此处的线性反映在求导后可变参数都是一次的

多项式的次数L是一个超参数,在事先不知道目标函数时,多采用增大特征集的方式来提高拟合效果,过大会过拟合。带参模型的线性回归方法优于无参的最近邻法。

为什么不使用一维的值作为函数值? 预测的值在语义空间上没有连续性,无法充当分类结果。希望的y应该两两类别之间的距离一样?为什么需要让两两类别之间的距离一样?存疑
是否使用one-hot
编码取决于离散特征的取值之间有没有大小的意义,分类任务不同类别的值没有大小的意义。对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m
个二元特征,并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的。使用one-hot
编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot
编码,会让特征之间的距离计算更加合理。

无参的最近邻法效果比线性回归法更好,分析现象产生的原因。
最近邻法中每一个点控制了其附近的一块区域,而线性回归法在整个空间中划分。哪种方法合理呢?不是说有参数就好,在这种情况下,最近邻法虽然没有参数却可以更好的适应空间的性质。实验结果表明高维空间上让每个点控制一块区域比在整个空间上划线效果更好,推出参数不一定总能带来精度上的增益,更本质的是空间的复杂度不允许我们使用线性的分界面来做,因此模型虽然有参数了,但模型的设计还要符合实际的情况。
此处可以仔细思考作者的思考过程是如何针对两种方法效果的差异,推导出结论的。

3.3 降维方法和统计学习三要素
在这一小节,作者主要讲述降维方法,并据此引出统计学习的三个基本要素。原始的最近邻法和线性回归法都很难扩展到高维数据中,其主要原因是维度诅咒的存在。统计学习方法可以通过降维缓解这一问题,而降维的 本质是将数据分布等信息存储于模型参数中,从而达到增加信息熵的目的。 按照这种思路,统计学习的三要素可以确定为数据、模型、算力,而其他重要的元素与三要素之间有着密切的联系。

有没有方法可以在考虑语义监督的同时引入非线性呢?
两层神经网络可以视为主成分分析的改进
其他著名降维方法:自编码机。利用降维后恢复原数据的方式,无监督地学习数据内在分布。变分自编码机,使得压缩后的数据满足某种特定分布,从而允许通过采样来生成高维数据。
相对关系的具体阐述见[A],降维后数据之间的相对关系保留的很好。t-SNE是通过各种近似的方法优化,所以复杂度高;而PCA是个迭代过程使用矩阵运算即可。
3.4 模型优化的欠拟合和过拟合
在这一小节,作者主要讲述模型优化的全景以及其中最常见的困难,即欠拟合和过拟合。模型优化是一个系统性工程,而当特征空间性质复杂、训练数据减少时,就很容易出现欠拟合和过拟合的问题。以一维拟合问题为例,可以观察到数据量和模型复杂度对于拟合程度的影响。最后,将拟合程度归结为从偏差和方差的平衡,并且得到结论:没有最好的模型,只有最合适的模型。
多项式系数的大小可以作为模型是否过拟合的指标 ,正则化实际是约束了多项式系数。
3.5两个经典的统计学习范式
4. 视觉模型设计的基本原则
在这一章,作者首先分析视觉信号的重要性质,并由此引出统计学习方法需要满足的三大基本原则。它们之间的对应关系是:视觉信号的语义对应关系复杂——层次性原则;视觉信号的语义信息密度低——最小描述原则;视觉信号连续变化且边界模糊——分散表示原则。
4.1 层次性原则
在这一小节,作者主要讲述第一个基本原则:层次性原则。图像信号的基本单元是像素,而像素和语义之间存在着巨大的语义鸿沟。通过简单的或者手工定义的函数,很难跨越语义鸿沟;往往需要使用分步设计的思想,构造基本操作的复合函数,来实现复杂映射关系。层次性原则催生了局部设计理念,也是深度学习的重要基石。
性质2:图像的语义信息密度低
了解词袋模型的局限性,对理解当前的深度学习方法是很有帮助的
这里作者再次强调了深度学习和强化学习今后一定能好的联系在一起,处理更复杂的问题。
4.2最小描述原则
在这一小节,作者主要讲述第二个基本原则:最小描述原则。图像信号的语义密度低,因此从统计学习角度看,从中抽取紧凑特征并且基于低维特征学习语义,能够降低模型的结构风险。最小描述原则在一系列统计学习模型中都有所体现。从一般意义上说,它所追求的目标,是压缩率和恢复率间的权衡,但是如何衡量恢复效果,是一个触及视觉本质的难题。
压缩不够会过拟合,压缩过了又会丢失重要维度信息。
最小描述原则的本质是数据的不均匀分布,只有不均匀的分布才能被压缩。
4.3 分散表示原则
在这一小节,作者主要讲述第三个基本原则:分散表示原则。图像信号的域特性很强,因而不同场景的数据间分布差异巨大。分布间的变换通常不完全可控,而域迁移(迁移学习)就是处理不可控变换的有效手段。在深度学习的基础上,域迁移可以通过微调神经网络的参数来实现,而微调的力度则需要根据实际情况来确定。
微调的参数越多,越容易过拟合。
如何决定模型微调的力度?取决于域间差异、新域数据的多少。
图像信号采样与语义的相关性很低,本质上还是缺乏常识
4.4 三大原则的结合
图像的基本性质决定了我们处理问题的原则,基本原则又催生了具体的解决方案,方案不一定是最好的,但指导原则是相对固定的。
区别二中指出了NLP长期领先CV的部分原因
问题还在特征的表达上,我们并不知道特征和语义之间的关系,如何使特征和常识、知识联系起来。