Training

Reinforcement Learning from Human Feedback (RLHF)

RLHF ist die Methode, die Chatbots wie ChatGPT erst wirklich nutzbar und sicher gemacht hat ('Aligment'). Ein reines Sprachmodell, das auf dem Internet trainiert ist, kann zwar sprechen, ist aber oft toxisch, unhilfreich oder lügt.

Mit RLHF wird das Modell 'erzogen': Menschen bewerten verschiedene Antworten des Modells ('Antwort A ist besser als Antwort B'). Aus diesen Daten lernt ein 'Reward Model', was Menschen bevorzugen. Das Sprachmodell wird dann mittels Reinforcement Learning (PPO) so optimiert, dass es diesen menschlichen Präferenzen folgt. Es lernt, hilfreich, ehrlich und harmlos zu sein. Ohne RLHF wären moderne LLMs kaum als Produkt einsetzbar.

Alignment Safety

Alle Begriffe anzeigen

Verwandte Begriffe