Multimodale KI-Systeme

09.04.2024

Was sind multimodale KI-Systeme?
OpenAI hat kürzlich ihr Text-zu-Video-Modell namens Sora vorgestellt.
Sora beeindruckt nicht nur durch die Fähigkeit, hochwertige Videos zu erstellen und damit kostengünstig qualitatives Filmmaterial zu produzieren.
Besonders faszinierend sind die "Emergent Properties" - Eigenschaften, die als Nebenprodukt des Trainingsprozesses von KI-Modellen entstehen.
Bei Sora umfassen diese "Emergent Properties" physikalische Gesetze, die das Modell erlernt, um sie in Videos präzise darzustellen.
Jim Fan, Lead AI Researcher bei NVIDIA, hebt hervor, dass das Modell durch das Training mit Videos nicht nur Videoerstellung lernt, sondern auch physikalische Gesetze begreift, die unser Verständnis der Welt vertiefen.
Menschen lernen ja auch nicht nur aus Texten und Büchern, sondern unter anderem durch visuelle, akustische und taktile Reize.
Wenn wir das KI-Video-Modell mit einem KI-Text-Modell und anderen spezialisierten KI-Modellen kombinieren, entsteht ein multimodales KI-System.
Es kann visuell, textuell, akustisch und taktil lernen und interagieren, was ein umfassendes Verständnis unserer komplexen Welt ermöglicht.
Diese Kombination wird in der KI-Forschung als Multimodalität bezeichnet.
Viele Experten (z.B. der Godfather of AI Geoffrey Hinton sehen darin den Schlüssel zu einer Intelligenz, die die menschliche übertreffen wird.
Solche Systeme könnten wissenschaftliche Durchbrüche ermöglichen und Paradigmenwechsel einleiten, ähnlich den Errungenschaften Galileos.