RL

Policy

Im Reinforcement Learning (RL) ist die Policy (Strategie oder Politik) das 'Gehirn' des Agenten. Sie ist eine Funktion oder ein Mapping, das definiert, wie sich der Agent in einer bestimmten Situation verhalten soll. Sie ordnet jedem wahrgenommenen Zustand (State) eine Aktion (Action) zu.

Man unterscheidet zwischen deterministischen Policies (immer wenn ich X sehe, tue ich Y) und stochastischen Policies (wenn ich X sehe, tue ich mit 80% Y und 20% Z). Das Ziel des RL-Trainings ist es, die 'optimale Policy' zu finden, die den erwarteten kumulierten Gewinn (Reward) über die Zeit maximiert.

Strategy