RL

Exploration vs Exploitation

Das Exploration vs. Exploitation Dilemma ist das zentrale Problem im Reinforcement Learning (und im Leben). Soll der Agent eine Aktion wählen, von der er weiß, dass sie eine gute Belohnung bringt (Exploitation / Ausnutzen), oder soll er etwas Neues ausprobieren, das vielleicht riskant ist, aber eine noch höhere Belohnung bringen könnte (Exploration / Erkunden)? Algorithmen wie Epsilon-Greedy balancieren dies: Meistens nutzt man das Bestehende, aber ab und zu wagt man das Neue.

Dilemma