Vanishing Gradient
Das Vanishing Gradient Problem war lange das Haupthindernis für Deep Learning. Bei tiefen Netzen mit Sigmoid-Aktivierung wurden die Gradienten in den unteren Schichten so winzig, dass die Schichten nichts mehr lernten. ReLU und ResNets haben dieses Problem gelöst.