Architektur

Vision Language Model (VLM)

VLMs geben KI Augen. Sie können Bilder beschreiben und Fragen dazu beantworten. Das ermöglicht Blindenassistenten und visuelle Suche.

Multimodal Vision