Random Forest
Der Random Forest (Zufallswald) ist einer der beliebtesten und robustesten Algorithmen für klassisches Machine Learning bei Tabellendaten. Er basiert auf der Idee des 'Bagging' (Bootstrap Aggregating). Statt einen einzigen Entscheidungsbaum zu trainieren (der zu Fehlern neigt), trainiert man hunderte verschiedene Bäume.
Jeder Baum sieht nur einen zufälligen Teil der Daten und einen zufälligen Teil der Merkmale. Am Ende darf jeder Baum abstimmen ('Klassifikation') oder es wird der Durchschnitt gebildet ('Regression'). Durch diese 'Weisheit der Vielen' eliminiert der Random Forest die Schwächen einzelner Bäume, verhindert Overfitting und liefert sehr zuverlässige Ergebnisse ohne viel Parameter-Tuning.