DPO (Direct Preference Optimization)
DPO ist eine neuere, effizientere Methode als RLHF, um Sprachmodelle an menschliche Präferenzen anzupassen. Statt ein komplexes separates Reward-Modell zu trainieren, optimiert DPO das Sprachmodell direkt auf den Vergleichsdaten ('A ist besser als B'). Es ist stabiler und ressourcenschonender.