2013 bis heute: Multimodale KI revolutioniert die Mensch-Maschine-Interaktion
17.05.2024 15 min
Zusammenfassung & Show Notes
Der Weg nach KAI – Episode 5: Multimodale KI revolutioniert die Mensch-Maschine-Interaktion
In dieser spannenden Episode tauchen wir ein in die faszinierende Welt der multimodalen KI und beleuchten die jüngsten Entwicklungen von Google und OpenAI.
Wir beginnen unsere Reise im Jahr 2013 mit einem Rückblick auf die visionäre, aber letztlich gescheiterte AR-Brille "Google Glass". Trotz anfänglicher Startschwierigkeiten ließ sich Google nicht entmutigen und präsentierte nun mit "Astra" ein beeindruckendes multimodales KI-Modell, das wie der legitime Nachfolger von Google Glass wirkt.
Wir klären, was "multimodal" in der KI bedeutet und warum die Fähigkeit, verschiedene Datentypen zu kombinieren, so wichtig für leistungsstarke KI-Systeme ist. Anhand eindrucksvoller Demos zeigen wir, wie Astra Objekte erkennt, Szenen analysiert und sogar kreative Aufgaben meistert.
Doch OpenAI steht dem in nichts nach: Nur einen Tag vor Googles Präsentation stellte das Unternehmen sein neues Sprachmodell GPT-4o vor, das mit emotionaler Intelligenz und natürlicher Konversation glänzt. Wir vergleichen die beiden Giganten und wagen einen Blick in die Zukunft der Mensch-Maschine-Interaktion.
Zum Abschluss werfen wir einen kritischen Blick auf den Stand der Technik für die deutsche Sprache und erörtern, welche Möglichkeiten sich durch die Verschmelzung von Sprach-KI und AR ergeben könnten.
In dieser spannenden Episode tauchen wir ein in die faszinierende Welt der multimodalen KI und beleuchten die jüngsten Entwicklungen von Google und OpenAI.
Wir beginnen unsere Reise im Jahr 2013 mit einem Rückblick auf die visionäre, aber letztlich gescheiterte AR-Brille "Google Glass". Trotz anfänglicher Startschwierigkeiten ließ sich Google nicht entmutigen und präsentierte nun mit "Astra" ein beeindruckendes multimodales KI-Modell, das wie der legitime Nachfolger von Google Glass wirkt.
Wir klären, was "multimodal" in der KI bedeutet und warum die Fähigkeit, verschiedene Datentypen zu kombinieren, so wichtig für leistungsstarke KI-Systeme ist. Anhand eindrucksvoller Demos zeigen wir, wie Astra Objekte erkennt, Szenen analysiert und sogar kreative Aufgaben meistert.
Doch OpenAI steht dem in nichts nach: Nur einen Tag vor Googles Präsentation stellte das Unternehmen sein neues Sprachmodell GPT-4o vor, das mit emotionaler Intelligenz und natürlicher Konversation glänzt. Wir vergleichen die beiden Giganten und wagen einen Blick in die Zukunft der Mensch-Maschine-Interaktion.
Zum Abschluss werfen wir einen kritischen Blick auf den Stand der Technik für die deutsche Sprache und erörtern, welche Möglichkeiten sich durch die Verschmelzung von Sprach-KI und AR ergeben könnten.