Optimierung

Stochastic Gradient Descent (SGD)

SGD ist die Standard-Variante des Gradientenabstiegs für große Datensätze. Statt den Fehler über *alle* Daten zu berechnen (zu langsam), berechnet man ihn nur für ein kleines, zufälliges Batch. Das Ergebnis ist 'verrauscht' (stochastisch), konvergiert aber im Durchschnitt schneller zur Lösung.

Training