abcd游戏怎么玩 黑魔法猜东西游戏原理( 四 )


abcd游戏怎么玩 黑魔法猜东西游戏原理


那么此时的误差是:
abcd游戏怎么玩 黑魔法猜东西游戏原理


可以看到,这是与维数无关的!
如果让激活函数为
abcd游戏怎么玩 黑魔法猜东西游戏原理


,那么
abcd游戏怎么玩 黑魔法猜东西游戏原理


就是以
abcd游戏怎么玩 黑魔法猜东西游戏原理


为激活函数的两层神经网络 。此结果意味着:这一类(可以表示成期望)的函数 , 都可以由两层神经网络逼近,且逼近误差的速率与维数无关!
对于一般的双层神经网络,我们可以得到一系列类似的逼近结果 。其中关键的问题是:到底什么样的函数可以被双层神经网络逼近?为此 , 我们引入Barron空间的定义:
abcd游戏怎么玩 黑魔法猜东西游戏原理


Barron空间的定义
参考:E, Chao Ma, Lei Wu (2019)
对于任意的Barron函数,存在一个两层神经网络
abcd游戏怎么玩 黑魔法猜东西游戏原理


,其逼近误差满足:
abcd游戏怎么玩 黑魔法猜东西游戏原理



可以看到这一逼近误差与维数无关?。ü赜谡獠糠掷砺鄣南附冢梢圆慰迹篍, Ma and Wu (2018, 2019), E and Wojtowytsch (2020) 。其他的关于Barron space的分类理论 , 可以参考Kurkova (2001), Bach (2017),
Siegel and Xu (2021))
类似的理论可以推广到残差神经网络(residual neural network) 。在残差神经网络中,我们可以用流-诱导函数空间(flow-induced function space)替代Barron空间 。
2.4 泛化性:训练误差与测试误差的差别
人们一般会期待,训练误差与测试误差的差别会正比于
abcd游戏怎么玩 黑魔法猜东西游戏原理


(n是样本数量) 。然而,我们训练好的机器学习模型和训练数据是强相关的,这导致这样子的Monte-Carlo速率不一定成立 。为此,我们给出了如下的泛化性理论:
abcd游戏怎么玩 黑魔法猜东西游戏原理



简言之 , 我们用Rademacher复杂度来刻画一个空间在数据集上拟合随机噪声的能力 。Rademacher复杂度的定义为:
abcd游戏怎么玩 黑魔法猜东西游戏原理


其中
abcd游戏怎么玩 黑魔法猜东西游戏原理


是取值为1或-1的独立同分布的随机变量 。

abcd游戏怎么玩 黑魔法猜东西游戏原理


是李朴西斯空间中的单位球时,其Rademacher复杂度正比于
abcd游戏怎么玩 黑魔法猜东西游戏原理



当d增加时,可以看到拟合需要的样本大小指数上升 。这其实是另一种形式的维度灾难 。
2.5 训练过程的数学理解
关于神经网络的训练,有两个基本的问题:
?
梯度下降方法到底能不能快速收敛?
?
训练得到的结果,是否有比较好的泛化性?
对于第一个问题,答案恐怕是悲观的 。Shamir(2018)中的引理告诉我们,基于梯度的训练方法,其收敛速率也受维度灾难的影响 。而前文提到的Barron space,虽然是建立逼近理论的好手段,但对于理解神经网络的训练却是一个过大的空间 。
特别地,这样子的负面结果可以在高度超参数(highly over-parameterized regime)的情形(即m>>n)下得到具体刻画 。在此情形下,参数的动力学出现了尺度分离的现象:对于如下的两层神经网络:

推荐阅读