动手学PyTorch | (37) 优化与深度学习-白红宇

动手学PyTorch | (37) 优化与深度学习

阅读量：4037 次

发布时间：2019-05-24

本文共 2765 字，大约阅读时间需要 9 分钟。

本节将讨论优化与深度学习的关系，以及优化在深度学习中的挑战。在⼀个深度学习问题中，我们通常会预先定义一个损失函数。有了损失函数以后，我们就可以使用优化算法试图将其最小化。在优化中，这样的损失函数通常被称作优化问题的目标函数(objective function)。依据惯例，优化算法通常只考虑最⼩化⽬标函数。其实，任何最大化问题都可以很容易地转化为最小化问题，只需令⽬标函数的相反数为新的⽬标函数即可。

1. 优化与深度学习的关系

虽然优化为深度学习提供了最小化损失函数的⽅法，但本质上，优化与深度学习的目标是有区别的。在(模型选择、欠拟合和过拟合)中，我们区分了训练误差和泛化误差。由于优化算法的目标函数通常是⼀个基于训练数据集的损失函数，优化的目标在于降低训练误差。而深度学习的目标在于降低泛化误差。为了降低泛化误差，除了使用优化算法降低训练误差以外，还需要注意应对过拟合。

之后的几节中，我们只关注优化算法在最小化⽬标函数（基于训练集的损失函数）上的表现，⽽不关注模型的泛化误差。

2. 优化在深度学习中的挑战

我们在(线性回归)中对优化问题的解析解和数值解做了区分。深度学习中绝⼤多数⽬标函数都很复杂。因此，很多优化问题并不存在解析解，⽽需要使用基于数值方法的优化算法找到近似解，即数值解。本书中讨论的优化算法都是这类基于数值方法的算法。为了求得最⼩化⽬标函数的数值解，我们将通过优化算法有限次迭代更新模型参数来尽可能降低损失函数的值。

优化在深度学习中有很多挑战。下⾯描述了其中的两个挑战，即局部最⼩值和鞍点。为了更好地描述问题，我们先导入本节中实验需要的包或模块。

%matplotlib inlineimport syssys.path.append(".") import d2lzh_pytorch as d2lfrom mpl_toolkits import mplot3d # 三维画图import numpy as np

局部最小值

对于目标函数f(x),如果f(x)在x上的值⽐在x邻近的其他点的值更小，那么f(x)可能是一个局部最⼩值(local minimum)。如果f(x)在x上的值是目标函数在整个定义域上的最小值，那么f(x)是全局最小值(global minimum)。

例如：

我们可以大致找出该函数的局部最小值和全局最⼩值的位置。需要注意的是，图中箭头所指示的只是⼤致位置。

def f(x):    return x * np.cos(np.pi * x)d2l.set_figsize((4.5, 2.5))x = np.arange(-1.0, 2.0, 0.1)fig,  = d2l.plt.plot(x, f(x))fig.axes.annotate('local minimum', xy=(-0.3, -0.25), xytext=(-0.77, -1.0),                  arrowprops=dict(arrowstyle='->'))fig.axes.annotate('global minimum', xy=(1.1, -0.95), xytext=(0.6, 0.8),                  arrowprops=dict(arrowstyle='->'))d2l.plt.xlabel('x')d2l.plt.ylabel('f(x)');

深度学习模型的⽬标函数可能有若干局部最优值。当一个优化问题的数值解在局部最优解附近时，由于此时目标函数有关解的梯度接近或变成零，最终迭代求得的数值解可能只令目标函数局部最⼩化⽽非全局最小化。

鞍点

刚刚我们提到，梯度接近或变成零可能是由于当前解在局部最优解附近造成的。事实上，另一种可能性是当前解在鞍点(saddle point)附近。

举个例子，给定函数：

我们可以找出该函数的鞍点位置。

x = np.arange(-2.0, 2.0, 0.1)fig, = d2l.plt.plot(x, x**3)fig.axes.annotate('saddle point', xy=(0, -0.2), xytext=(-0.52, -5.0),                  arrowprops=dict(arrowstyle='->'))d2l.plt.xlabel('x')d2l.plt.ylabel('f(x)');

再举个定义在二维空间的函数的例子，例如:

我们可以找出该函数的鞍点位置。也许你已经发现了，该函数看起来像⼀个⻢鞍，⽽鞍点恰好是⻢鞍上可坐区域的中心。

x, y = np.mgrid[-1: 1: 31j, -1: 1: 31j]z = x**2 - y**2ax = d2l.plt.figure().add_subplot(111, projection='3d')ax.plot_wireframe(x, y, z, **{'rstride': 2, 'cstride': 2})ax.plot([0], [0], [0], 'rx')ticks = [-1,  0, 1]d2l.plt.xticks(ticks)d2l.plt.yticks(ticks)ax.set_zticks(ticks)d2l.plt.xlabel('x')d2l.plt.ylabel('y');

在图的鞍点位置，⽬标函数在x轴⽅向上是局部最⼩值，但在y轴⽅向上是局部最大值。

假设⼀个函数的输⼊为k维向量，输出为标量，那么它的海森矩阵(Hessian matrix)有k个特征值。该函数在梯度为0的位置上可能是局部最小值、局部最大值或者鞍点。

1) 当函数的海森矩阵在梯度为零的位置上的特征值全为正时，该函数得到局部最小值。

2)当函数的海森矩阵在梯度为零的位置上的特征值全为负时，该函数得到局部最大值。

3)当函数的海森矩阵在梯度为零的位置上的特征值有正有负时，该函数得到鞍点。

随机矩阵理论告诉我们，对于一个大的⾼斯随机矩阵来说，任⼀特征值是正或者是负的概率都是0.5。那么，以上第一种情况的概率为 $0.5^{k}$ .由于深度学习模型参数通常都是高维的( k很大)，⽬标函数的鞍点通常⽐局部最小值更常见。

在深度学习中，虽然找到⽬标函数的全局最优解很难，但这并⾮必要。我们将在接下来的几节中逐一介绍深度学习中常用的优化算法，它们在很多实际问题中都能够训练出⼗分有效的深度学习模型。

3. 小结

1）由于优化算法的目标函数通常是一个基于训练数据集的损失函数，优化的⽬标在于降低训练误差。

2）由于深度学习模型参数通常都是高维的，目标函数的鞍点通常比局部最小值更常见。

转载地址：http://xwsdi.baihongyu.com/

你可能感兴趣的文章