第14章 一不小心站在了技术发展的最前沿

如果我们给网络很多层,它们之间的梯度会越来越小,传到前面几层时,梯度几乎“消失”了。这就是“梯度消失”问题。

梯度太小,无法有效调整那些神经元的连接强度,网络的训练就会变得非常困难。

想象你在爬一个大山,山的坡度越来越平,最终你几乎感受不到自己在上升了,这时你很难再判断该怎么继续往上爬。

在神经网络里,梯度消失的问题就是这种感觉,网络不知道该如何继续改进。

而梯度爆炸又是另外的一个极端。

假设这次你站在一座非常陡的悬崖边,一不小心就滚下去了!

因为坡度太陡了,你的速度变得非常快,失控了。

在神经网络中,这种情况也被称为“梯度爆炸”

当梯度太大时,参数的调整会变得过于剧烈,网络的学习变得不稳定,甚至会导致训练失败。

这就像你在陡峭的悬崖边滑落,一下子失去了控制。

网络的参数变化过大,导致结果变得很不稳定,甚至完全错误。

概括地说:

梯度消失就像在一座越来越平的山坡上,梯度变得很小,神经网络不知道该怎么调整,进而学习变得很慢,甚至无法进步。

梯度爆炸就像从悬崖边滚下去,梯度变得很大,网络的学习变得过于剧烈,结果会非常不稳定,训练过程变得不可控。

这两个问题经常会出现在深层神经网络中。