Stochastic Gradient Descent (SGD)
SGD ist die Standard-Variante des Gradientenabstiegs für große Datensätze. Statt den Fehler über *alle* Daten zu berechnen (zu langsam), berechnet man ihn nur für ein kleines, zufälliges Batch. Das Ergebnis ist 'verrauscht' (stochastisch), konvergiert aber im Durchschnitt schneller zur Lösung.