Daten

Noise

Noise (Rauschen) bezeichnet in der Datenverarbeitung alle unerwünschten, zufälligen oder irrelevanten Variationen in einem Datensignal, die die eigentliche Information überlagern. Bei Bildern kann dies 'Schnee' oder Grieseln sein, bei Audio ein Hintergrundrauschen, bei Texten Tippfehler oder irrelevante Füllwörter.

Im Machine Learning ist Noise eine Herausforderung: Wenn ein Modell versucht, das Rauschen in den Trainingsdaten zu lernen und als Muster zu interpretieren, führt dies zu Overfitting ('Es lernt den Dreck mit'). Andererseits kann künstlich hinzugefügtes Rauschen (Data Augmentation) helfen, ein Modell robuster gegenüber Störungen zu machen ('Denoising Autoencoders'). Die Kunst liegt darin, das Signal vom Rauschen zu trennen.

Problem Cleaning