Dataset
Ein Dataset (Datensatz) ist die fundamentale Basis jedes Machine-Learning-Projekts. Es ist eine geordnete Sammlung von Daten, die für das Training, die Validierung und das Testen von Algorithmen verwendet wird. Die Qualität ('Garbage In, Garbage Out'), Größe und Repräsentativität des Datasets bestimmt maßgeblich die Intelligenz und Fairness der resultierenden KI.
Man unterscheidet zwischen Trainingsdaten (zum Lernen der Parameter), Validierungsdaten (zum Tunen der Hyperparameter) und Testdaten (zur finalen Bewertung). Berühmte öffentliche Datasets wie 'ImageNet' (Millionen kategorisierter Bilder) oder 'MNIST' (handgeschriebene Ziffern) dienen als Benchmarks, an denen sich neue Algorithmen messen. Heute sind proprietäre, hochwertige Datasets oft das wichtigste Kapital ('Moat') von KI-Firmen.