因为最近要学习的去烟/雾项目是关于计算机视觉的,这方面还算是一个小白,所以选择了 Stanford 的 CS231n 来学习一下,给自己建立一个比较系统的框架。
课程总体大纲(Lecture 1) Lecture 1 主要是这门课的课程概览,介绍了课程的总体框架,大概分为以下四个部分: 1. 深度学习基础 2. 视觉世界感知与理解 3. 生成式与交互式的视觉智能 4. 以人为中心的应用与影响 其实也分别对应了现代视觉智能的四个层次:基础的方法论、经典的判别任务、生成与交互以及社会技术系统视角。 在 Lecture 1 的基础模块中首先强调了图像分类是计算机视觉的核心任务,因为其是很多复杂任务的“原型”:检测、分割、视频理解等都可以视为在分类之上增加结构约束或输出维度。 所谓的图像分类,其实也就是学习一个函数:
输入:图像x x x (本质上是像素构成的张量)。 输出:类别(或者类别概率)y y y 。 模型:f θ ( x ) f_{\theta}(x) f θ ( x ) ,参数为 θ \theta θ 。 课程在基础模块中会用图像分类依次引出 Linear classifier、Regularization&Optimization 以及 Neural Networks,实际上就是用最简单的模型建立从输入到输出的一个数学框架,在发现模型会过拟合/训练困难后引入正则化与优化的方法,在发现线性表达能力的局限性以后引入神经网络。 真实世界的视觉远不止分类,除了分类以外还有语义分割(每个像素输出语义类别(只分“类”不分“实例”))、目标检测(输出多个目标的类别+边界框)、实例分割(像素级输出,并区分同类不同个体)。 而在模型方面,模型不仅仅是 MLP,在视觉中更常见的是 CNN、RNN、Transformers。因为图像不是一维向量,而是具有局部相关性与空间结构的信号。
CNN 使用“局部感受野+权重共享”引入归纳偏置,更加符合图像的统计规律。 Transformer 使用注意力机制建模更长程依赖,并与大规模预训练相结合,成为了现代视觉/多模态的关键骨干。 Lecture 1 还提到,现代深度学习离不开“规模化训练”,现代模型与数据集都很大,单 GPU 往往不够,需要并行训练。而并行训练包括了 数据并行:复制模型,切分数据。 模型并行:切分模型到不同设备。 同步 vs 异步梯度更新。 除了 2D 图像识别以外,当前计算机视觉领域比较前沿的部分还包括:
自监督学习:数据不完全依赖人工标注,通过设计预训练目标,让模型从数据本身学习表示。 生成式建模:风格迁移与“文生图/扩散模型”,模型不仅能够“判别”,还能够生成。 视觉-语言模型(VLM):VLM、对比学习与检索增强等方向表明,视觉与语言的融合越来越重要。 3D 视觉:强调 2D 图像走向三维理解与重建,是视觉智能的重要扩展。 具身智能:智能体需要在环境中感知并且行动,视觉已经成为“闭环决策系统”的一部分。 图像分类任务与数据驱动方法(Lecture 2) 图像分类任务 给定:
一张图像x x x (本质上是一个张量,如 32 × 32 × 3 32\times 32\times 3 32 × 32 × 3 的 RGB 像素)。 一个标签集合(dog/cat/truck/...) 目标就是学习一个函数 f f f ,将图像映射到类别。 显然这个任务揭示了,计算机看到的和人类看到的并不一样,课程使用了一个案例:
人看到的是猫,但是计算机看到的是一堆 0-255 的数字,也就是人类语义与像素表示之间存在语义鸿沟(semantic gap)。 该任务的挑战就在于“语义等价≠像素等价”,即在人类语义上是同一个东西,但是在像素表示上却可能相差非常远,这直接导致了像素距离是不可靠的。 例如以下几点:
视角变化:同一个物体,从不同的角度看,外观的差异极大。在像素层面上几乎所有的像素都会发生改变,物体的轮廓、比例、遮挡关系都会发生变化。 光照变化:同一个物理在不同光照条件下也不同。在像素层面上的体现就是像素值直接依赖光照强度、阴影区域的细节丢失、颜色分布的整体偏移等。 背景杂乱:物体并不总是在“干净背景”中,背景可能会与物体的颜色/纹理相似(伪装)。在像素层面上的体现是背景像素往往数量多于物体像素,且背景对特征的影响更大。 遮挡:物体被部分遮挡。在像素层面上就导致了关键结构缺失、轮廓不完整以及训练中看到的“整体模式”在测试时不存在。 形变:非刚性物体的姿态变化,在像素层面上同一物体的几何结构不固定、局部模式位置也发生变化。 类内差异:同一类别内部差异巨大,如品种、型号、风格不同。这导致了像素和语义的错位,类内的差异也许可能会大于类间的差异,“看起来更像别的类”的同类样本大量存在。 上下文依赖:物体的合理性依赖于上下文,在像素层面上就导致了一些歧义,局部外观可能并不足以区分类别,模型会利用上下文来作为“捷径”。 为什么需要机器学习 因为图像分类不像排序数字一样能够写出明确的规则,历史上使用过边缘、角点之类的手工流程,但是实际上很难覆盖现实情况的复杂性。
所以采用了数据驱动的机器学习:
收集带标签的数据。 使用算法训练分类器。 在新图像上评估泛化性能。 Nearest Neighbor/KNN(非参数化模型) Nearest Neighbor 最简单的分类算法,不涉及参数学习。
训练阶段:简单地记忆所有的训练数据和标签,时间复杂度为 O ( 1 ) O(1) O ( 1 ) 。 预测阶段:计算测试图像与所有训练图像的距离,将最近的训练图像的标签作为预测结果。时间复杂度为 O ( N ) O(N) O ( N ) ,其中 N N N 是训练样本数。 该算法的问题是,测试时间随数据量线性增长,这在实际应用中是不可接受的(我们希望训练慢,测试快)。 至于如何计算距离,此处主要有两种距离:
L1 (Manhattan) distance:d 1 ( I 1 , I 2 ) = ∑ p ∣ I 1 p − I 2 p ∣ d_{1}(I_{1},I_{2})=\sum_{p}\mid I_{1}^p - I_{2}^p \mid d 1 ( I 1 , I 2 ) = ∑ p ∣ I 1 p − I 2 p ∣ ,即将两张图像所有对应像素的差的绝对值求和。L1 距离依赖于坐标系的旋转,对坐标轴敏感。 L2(Euclidean) distance:d 2 ( I 1 , I 2 ) = ∑ p ( I 1 p − I 2 p ) 2 d2(I_1,I_2)=\sqrt{ \sum_{p}(I_{1}^p−I_{2}^p)^2 } d 2 ( I 1 , I 2 ) = ∑ p ( I 1 p − I 2 p ) 2 ,即欧几里得距离。L2 距离具有旋转不变性,通常对坐标轴不敏感。 KNN 为了解决最近邻算法对噪声敏感的问题(例如,一个异常点可能导致决策边界出现孤岛),引入了 K 值。
机制:找到距离最近的 K 个样本,通过多数投票决定类别。 效果:当 K > 1 时,决策边界会变得更加平滑,抗噪能力增强。 超参数选择 K 的取值和距离度量的选择(L1 或者 L2)被称为超参数,不是通过训练得到的,而是需要人为设定。 Lecture 2 中提到了实验的一些方法论:
不能在测试集上调整超参数,这会导致“数据泄露”,使得评估结果无法反映模型的泛化能力。 正确的做法是将数据划分为训练集、验证集和测试集:需要在训练集上训练;在验证集上评估不同超参数的表现,选择最佳组合;仅在最后一次使用测试集来报告性能。 此外还有交叉验证:在数据量较少的时候,将训练的数据分为 M 折,轮流作为验证集,但是在实际的深度学习中,因为计算成本较高,通常不常用,更多地采用单一训练集划分。
线性分类器 线性分类器采用参数化方法的思想,不需要记住所有的数据,而是去学习一个带有参数的函数。
输入:图像 x x x 。 输出:每个类别一个分数,所谓的分数即模型认为这张图属于某一类的证据强度。 参数:权重矩阵 W W W 和偏置 b b b 。 具体的形式是:
f ( x , W ) = W x + b f(x,W) = Wx+b f ( x , W ) = W x + b 这个评分函数有两种解释视角:
代数/视觉:矩阵 W W W 的每一行可以看成是一个类别的模板,线性分类器本质上是在计算输入图像与各个类别模板的内积(相似度)。从这个视角看,每个类别就只能够学习一个模板,若一类物体有多种形态,则线性分类器只能学到一个平均后的模板。 几何视角:线性分类器在高维空间中学习超平面来切割空间。W x + b = 0 Wx+b=0 W x + b = 0 这个公式定义了决策的边界,即一个相比于给定数据维数空间少 1 的切面将空间一分为二(只能切分一次)。局限性在于其无法解决非线性可分问题(例如 XOR 问题,或者环形分布的数据结构)。 Loss Function + Optimization 要选择一个好的 W W W ,需要定义一个 Loss Function 来衡量当前的 W W W 有多差,以及用 optimization 来找到最小 loss 的参数。
Softmax 最终希望将分数转化为概率,而概率必须≥0 且概率的总和必须=1。由此引出了 Softmax 函数:
P ( Y = k ∣ X = x i ) = e S y i ∑ j e S j P(Y=k \mid X=x_{i}) = \frac{e^{S_{y_{i}}}}{\sum_{j}e^{S_{j}}} P ( Y = k ∣ X = x i ) = ∑ j e S j e S y i 其中对每个分数取指数(保证非负),然后处以所有指数之和(归一化到 1)。
Softmax Loss 如果正确类别的概率越大,我们越满意;因此损失可以取负对数:
L i = − l o g p L_{i}=-log \ p L i = − l o g p 正确类的概率接近 1→loss 接近 0。 正确类的概率很小→ loss 很大。 而优化的目标就是最小化损失函数,由此我们就能够得到这一个新的 Softmax 损失函数。
初始化时的 loss Lecture 2 中还给到了一个很实用的 tips:如果在刚开始是各类的概率近似等于 1 C \frac{1}{C} C 1 ,那么 L i = − log ( 1 C ) = l o g C L_{i}=-\log\left( \frac{1}{C} \right) =log C L i = − log ( C 1 ) = l o g C , 如当 C =10 时,即有十个类,那么一开始的 loss 就约为 log 10 ≈ 2.3 \log10 ≈ 2.3 log 10 ≈ 2.3 。以后在训练模型的时候,看到初始 loss 在 log C \log C log C 附近,则通常是正常的。
SVM loss SVM loss 的定义如下:
L i = ∑ j ≠ y i { 0 if s y i ≥ s j + 1 s j − s y i + 1 otherwise = ∑ j ≠ y i max ( 0 , s j − s y i + 1 ) L_i = \sum_{j \ne y_i}
\begin{cases}
0 & \text{if } s_{y_i} \ge s_j + 1 \\
s_j - s_{y_i} + 1 & \text{otherwise}
\end{cases}
= \sum_{j \ne y_i} \max(0,\, s_j - s_{y_i} + 1) L i = j = y i ∑ { 0 s j − s y i + 1 if s y i ≥ s j + 1 otherwise = j = y i ∑ max ( 0 , s j − s y i + 1 ) SVM loss 不关心概率,只关心是否满足间隔,即关注 correct 和 incorrect 的分数差,如果正确类分数比所有错误类都至少高出 1,则样本的损失直接变为 0。
SVM 和 Softmax 的区别是 SVM 有“够了就停”的硬阈值,只要满足 loss=0 ,梯度=0,样本就不会再推动参数进行更新;而 Softmax 则没有“硬停止”, 但是会收益递减,只要正确类的概率还不是 1,就还有 loss,继续把正确类的分数抬高,正确类的概率会更接近 1,loss 会继续下降——只是下降幅度会越来越小,收益递减。
Regularization & Optimization(Lecture 3) Regularization 一个完整的损失函数 L 由两部分构成:
L ( W ) = 1 N ∑ i = 1 N L i ( f ( x i , W ) , y i ) ⏟ Data Loss + λ R ( W ) ⏟ Regularization Loss L(W) = \underbrace{\frac{1}{N} \sum_{i=1}^{N} L_{i}(f(x_{i}, W), y_{i})}_{\text{Data Loss}} + \underbrace{\lambda R(W)}_{\text{Regularization Loss}} L ( W ) = Data Loss N 1 i = 1 ∑ N L i ( f ( x i , W ) , y i ) + Regularization Loss λ R ( W ) Data Loss:迫使模型拟合训练数据。 Regularization Loss:迫使模型保持“简单”,防止过拟合。 λ:调节两者之间的权衡。 根据奥卡姆剃刀原则,最简单的就是最好的,所以要通过正则化来迫使模型,往简单的方向贴近,使其能够拥有更好的泛化能力。
常见的正则化项R ( W ) = ∑ k ∑ l W k , l 2 R(W)=\sum_{k}\sum_{l}W^2_{k,l} R ( W ) = k ∑ l ∑ W k , l 2 其具有惩罚大的权重值的特性(每个权重值一旦变大,代价值会“二次增长”),且更加倾向于让权重向量 W W W 更加分散,例如其认为权重向量 [ 0.25 , 0.25 , 0.25 , 0.25 ] [0.25,0.25,0.25,0.25] [ 0.25 , 0.25 , 0.25 , 0.25 ] 要优于 [ 1 , 0 , 0 , 0 ] [1,0,0,0] [ 1 , 0 , 0 , 0 ] 。如果输入的数据受到噪声干扰,其分散的权重能够利用所有输入特征的微小贡献,而不是过度依赖某一特征,从而提高泛化能力。
R ( W ) = ∑ k ∑ l ∣ W k , l ∣ R(W)=\sum_{k}\sum_{l}\mid W_{k,l} \mid R ( W ) = k ∑ l ∑ ∣ W k , l ∣ 其更加倾向于产生稀疏的权重矩阵,即许多元素变为 0,用一个最简单的一维目标来看:
min w 1 2 ( w − a ) 2 + λ ∣ w ∣ \min_{w} \frac{1}{2}(w-a)^2+\lambda\mid w \mid w min 2 1 ( w − a ) 2 + λ ∣ w ∣ 其最优解是 w ∗ = s i g n ( a ) ⋅ m a x ( ∣ a ∣ − λ , 0 ) w^*=sign(a)\cdot max(\mid a \mid -\lambda,0) w ∗ = s i g n ( a ) ⋅ ma x ( ∣ a ∣ − λ , 0 ) ,只要 ∣ a ∣ ≤ λ \mid a\mid \leq \lambda ∣ a ∣≤ λ ,其最优解就是 w ∗ = 0 w^*=0 w ∗ = 0 。
Optimization Gradient 优化的目标是寻找参数 W W W ,使得损失函数 L ( W ) L(W) L ( W ) 最小化。Lecture 3 提到在参数空间采用随机搜索的效果很差,因此应当使用梯度。 在一维上有:
d f ( x ) d x = lim h → 0 f ( x + h ) − f ( x ) h \frac{df(x)}{dx} = \lim_{h \to 0} \frac{f(x+h)-f(x)}{h}
d x df ( x ) = h → 0 lim h f ( x + h ) − f ( x ) 而在多维,梯度(Gradient,∇ W L \nabla_{W}L ∇ W L )的定义就是对每个变量求偏导数所组成的向量,其几何意义为指向函数增长最快的方向,而梯度的负方向即为最速下降方向,也就是我们所要寻找的优化方法。
梯度的计算有两种:
数值梯度:使用有限差分近似 d f ( x ) d x = lim h → 0 f ( x + h ) − f ( x ) h \frac{df(x)}{dx} = \lim_{h \to 0} \frac{f(x+h)-f(x)}{h} d x df ( x ) = lim h → 0 h f ( x + h ) − f ( x ) ,其计算较慢,主要用于梯度检查以调试代码。 解析梯度:使用微积分的链式法则推导公式,例如设输入为 x ∈ R D x\in\mathbb{R}^D x ∈ R D ,权重矩阵为W ∈ R C × D W\in\mathbb{R}^{C\times D} W ∈ R C × D ,先通过线性层得到分数(logits)s = W x s = Wx s = W x ,再用 softmax 得到概率向量 p = s o f t m a x ( s ) p=\mathrm{softmax}(s) p = softmax ( s ) ,其中 p k = e s k ∑ j e s j p_k=\frac{e^{s_k}}{\sum_j e^{s_j}} p k = ∑ j e s j e s k ,最后用交叉熵定义损失 L = − log p y L=-\log p_y L = − log p y (y y y 为真实类别)。因为 L L L 对 W W W 的依赖路径是 W → s → p → L W\rightarrow s\rightarrow p\rightarrow L W → s → p → L ,所以求 ∂ L ∂ W \frac{\partial L}{\partial W} ∂ W ∂ L 的核心就是沿着这条“复合函数链”应用链式法则:∂ L ∂ W = ∂ L ∂ s ⋅ ∂ s ∂ W \frac{\partial L}{\partial W}=\frac{\partial L}{\partial s}\cdot\frac{\partial s}{\partial W} ∂ W ∂ L = ∂ s ∂ L ⋅ ∂ W ∂ s 。其中第一项 ∂ L ∂ s \frac{\partial L}{\partial s} ∂ s ∂ L 是 softmax 与 cross-entropy 组合后的经典结果:令 one-hot 标签向量为 y oh ∈ R C y_{\text{oh}}\in\mathbb{R}^C y oh ∈ R C ,则有 ∂ L ∂ s = p − y oh \frac{\partial L}{\partial s}=p-y_{\text{oh}} ∂ s ∂ L = p − y oh ;第二项来自线性层 ,其局s = W x s=Wx s = W x 部导数体现为“每个 logit 对对应行权重的梯度等于输入”,把上游梯度链回来即可得到 ∂ L ∂ W k j = ( p k − ( y oh ) k ) x j \frac{\partial L}{\partial W_{kj}}=(p_k-(y_{\text{oh}})_k)x_j ∂ W kj ∂ L = ( p k − ( y oh ) k ) x j 。将所有分量写成矩阵形式,最终得到非常紧凑的解析梯度公式:∂ L ∂ W = ( p − y oh ) x T \frac{\partial L}{\partial W}=(p-y_{\text{oh}})x^T ∂ W ∂ L = ( p − y oh ) x T 。这就是所谓“解析梯度是链式法则推导出来的”:把整体损失看成一连串算子(计算图)的复合,每一步只算局部梯度,再把上游梯度按链式法则传回去,最终拼出对所有参数的全局梯度。 一般而言,使用解析梯度训练,使用数值梯度检查代码是否写错。 Gradient Descent 最基础的参数更新公式如下所示:
W t + 1 = W t − η ⋅ ∇ W L ( W t ) W_{t+1}=W_{t}-\eta \cdot \nabla_{W}L(W_{t}) W t + 1 = W t − η ⋅ ∇ W L ( W t ) 其中 η \eta η 是学习率,深度学习中最重要的超参数之一,其如果太小,则收敛的速度会极慢,容易陷入局部最优;如果其学习过快,会导致其不收敛或震荡、损失值爆炸以及模型不稳定。
Stochastic Gradient Descent 由于在整个训练集上计算梯度计算量过大,实际应用中采用 Mini-batch 来近似真实梯度,这样做的计算效率比较高,更新频率也比较快。 但是还是要说说其存在的问题:
Poor Conditioning:如果 loss 在某个方向变化得很快,另一个方向很慢,SGD 会在陡峭方向抖动,在平缓方向进展缓慢,方向呈现“之”字型。 从数学本质上看,是由于其 Hessian(二阶偏导数矩阵)决定,设 H 为损失函数的 Hessian 矩阵,其特征值 λ \lambda λ 描述了局部的曲率,其中λ m a x \lambda_{max} λ ma x 为最大特征值,对应曲率最大的方向,λ m i n \lambda_{min} λ min 为最小特征值,对应曲率最小的方向,条件数定义为最大绝对特征值与最小绝对特征值之比:c o n d ( H ) = ∣ λ m a x ∣ ∣ λ m i n ∣ cond(H)= \frac{\mid \lambda_{max}\mid}{\mid \lambda_{min \mid}} co n d ( H ) = ∣ λ min ∣ ∣ λ ma x ∣ ,当 c o n d ( H ) cond(H) co n d ( H ) 很大时(即病态条件),损失函数在一个方向极其拉伸,在另一个方向极其压缩,SGD 的收敛速度与条件数直接相关,条件数越大,收敛所需的迭代次数越多,优化越困难。 Local minima/Saddle points:此处探讨的是梯度为零的临界点对优化的阻碍。早期的优化理论比较担心局部极小值,但是在高维深度学习中,鞍点比局部极小值要更加常见: 鞍点是指在该点处梯度为零,但是在某些方向上是局部极小值,在另一些方向上是局部极大值。从数学概率上看,要形成一个局部极小值,Hessian 矩阵的所有 D D D 个特征值都必须为正,假设每个特征值的符号是随机的,在一个深度神经网络的参数空间中,D D D 往往是数百万甚至数亿,全正的概率无限接近 0,因此绝大多数梯度为 0 的点,都是一部分特征值为正,一部分为负的鞍点。鞍点附近的梯度极其微小,且 SGD 依赖于梯度更新,若梯度趋近于 0, 参数更新几乎停止,模型会长时间卡在鞍点附近导致假死。
Gradient Noise:由于将全量梯度下降简化为了小批量随机梯度下降,从期望上看,只要时间足够,下降的方向大体是对的;从方差的角度看,由于采样的随机性,导致近似梯度含有噪声,这导致即使在真正的极小值点,小批量的梯度也不一定是 0。实际影响的表现是参数更新的轨迹不再是平滑的曲线,而是充满了随机抖动,且收敛的精度下降,会在最优点的附近游走。此外还有双刃剑效应:如果不随着训练逐渐减小学习率,噪声会阻止模型的收敛;而好处在于这种噪声实际上又引入了某种退火机制,当卡在浅层的局部极小值或鞍点附近时,梯度的随机波动可能恰好把参数带出这个区域,从而有机会找到更好的解。 SGD+Momentum 为了解决这个问题,引入了物理学中的“速度”的概念,利用梯度的移动平均来对参数进行更新:
v t + 1 = ρ v t + ∇ L ( W t ) W t + 1 = W t − α v t + 1 \begin{aligned}
v_{t+1} &= \rho v_{t} + \nabla L(W_{t}) \\
W_{t+1} &= W_{t} - \alpha v_{t+1}
\end{aligned} v t + 1 W t + 1 = ρ v t + ∇ L ( W t ) = W t − α v t + 1 其中 ρ \rho ρ 为摩擦系数,通常设置为 0.9 或 0.99,其作用为在震荡方向上正负梯度相互抵消,减少震荡;在平坦方向上梯度累积,加速收敛;同时利用惯性冲过梯度为 0 的区域。
自适应学习率算法 在之前的算法中,对所有的参数使用同一个全局学习率 η \eta η ,自适应学习率的核心思想就是为每个参数 w i w_{i} w i 维护一个特定的学习率,若某个参数的梯度一直很大,就降低它的学习率,如果某个参数的梯度一直很小,就增加它的学习率,本质上是在对梯度进行归一化。
RMSProp 在 Momentum 的基础上,加上“按维度缩放”的思想:根据历史平方梯度(带衰减)做元素级的缩放,即对每个参数除以其历史梯度的均方根。
Cache 更新:c a c h e = d e c a y ⋅ c a c h e + ( 1 − d e c a y ) ⋅ ( ∇ W ) 2 cache=decay \cdot cache + (1-decay) \cdot (\nabla W)^2 c a c h e = d ec a y ⋅ c a c h e + ( 1 − d ec a y ) ⋅ ( ∇ W ) 2 。 参数更新:W = W − η c a c h e + ϵ ∇ W W=W-\frac{\eta}{\sqrt{ cache + \epsilon }}\nabla W W = W − c a c h e + ϵ η ∇ W 。 其效果是在梯度大的方向减小补偿,在梯度小的方向增大补偿,从而自动调整轨迹,于此同时由于衰减率的加入,可以防止由于梯度平方恒为正时 cache 变量单调递增而导致学习率在模型未收敛时就因为过小而停止学习的问题。 Adam 这是深度学习中最常用的默认优化器,其结合了 Momentum 与 RMSProp。其主要维护两个状态变量:
一阶矩(m m m ):梯度的移动平均≈均值。 二阶矩(v v v ):梯度平方的移动平均≈未中心化的方差。 初始算法如下:
偏差修正:由于 m m m 和 v v v 初始化为 0 向量,且 β 1 \beta_1 β 1 和 β 2 \beta_2 β 2 接近 1(衰减很慢),在训练初期,m m m 和v v v 的值会严重偏向于 0。为了修正此初始化偏差,Adam 引入了修正项:
m ^ t = m t 1 − β 1 t v ^ t = v t 1 − β 2 t \begin{aligned}
\hat{m}_{t} &= \frac{m_{t}}{1-\beta_{1}^{t}} \\
\hat{v}_{t} &= \frac{v_{t}}{1-\beta_{2}^{t}}
\end{aligned} m ^ t v ^ t = 1 − β 1 t m t = 1 − β 2 t v t 当 t t t 很大时,β t ≈ 0 \beta^t ≈0 β t ≈ 0 ,修正项不起作用。 当 t t t 很小时,β t \beta^t β t 接近 1,分母很小,从而放大了 m m m 和 v v v , 抵消了初始化的零偏差。 最终的 Adam 更新公式如下:
w t + 1 = w t − η ⋅ m ^ t v ^ t + ϵ w_{t+1}=w_{t}-\eta \cdot \frac{\hat{m}_{t}}{\sqrt{ \hat{v}_{t}} + \epsilon} w t + 1 = w t − η ⋅ v ^ t + ϵ m ^ t 超参数调优策略 Lecture 3 最后讨论了在训练的过程中应当如何动态调整学习率:
学习率衰减:可以采用Step Decay,即每隔几轮 epoch 将学习率减半或变为 0.1 倍;或者 Cosine Decay,即学习率随着时间按照余弦函数曲线下降,最后趋近于 0。 Linear Warmup:在训练初期现先将学习率从 0 线性增加到预设值,用于稳定训练初期的剧烈梯度变化。 二阶优化:牛顿法和 Hessian 矩阵,虽然收敛极快,但是需要计算 N × N N\times N N × N 的 Hessian 矩阵极其逆矩阵,对于深度神经网络而言,其显存和计算成本不可接受,因此主要还是使用一阶方法。
参考如下:
https://cs231n.stanford.edu/index.html