Training

DPO (Direct Preference Optimization)

DPO ist eine neuere, effizientere Methode als RLHF, um Sprachmodelle an menschliche Präferenzen anzupassen. Statt ein komplexes separates Reward-Modell zu trainieren, optimiert DPO das Sprachmodell direkt auf den Vergleichsdaten ('A ist besser als B'). Es ist stabiler und ressourcenschonender.

Method

Alle Begriffe anzeigen

Verwandte Begriffe