Checkpoint
Ein Checkpoint ist eine gespeicherte Momentaufnahme (Snapshot) eines KI-Modells während des Trainingsprozesses. Da das Training großer Modelle oft Wochen oder Monate dauert und auf tausenden GPUs läuft, sind Systemabstürze oder Hardwarefehler unvermeidlich. Ohne Checkpoints müsste man bei jedem Fehler wieder ganz von vorne anfangen.
Checkpoints speichern den exakten Zustand aller Parameter (Gewichte, Biases, Optimizer-Status) zu einem bestimmten Zeitpunkt (z.B. 'Epoche 5, Schritt 1000'). Sie dienen aber nicht nur als Backup ('Save Game'), sondern sind auch wichtig für die Modellauswahl. Oft performt das allerletzte Modell am Ende des Trainings schlechter als ein früheres Modell (wegen Overfitting). Durch Checkpoints kann man nachträglich das beste Modell aus der gesamten Trainingshistorie auswählen ('Early Stopping').