Wenn zwei Klatscher genügen
Wie lokale KI digitale Selbstbestimmung zurückgeben könnte
07.05.2026 28 min
Zusammenfassung & Show Notes
Was früher nach Science-Fiction klang, lässt sich heute mit vergleichsweise einfacher Hardware selbst umsetzen.
In dieser Folge geht es um ein privates Projekt: einen lokalen KI-gestützten Sprachassistenten nach dem Vorbild von JARVIS aus Iron Man – komplett offline und ohne Cloud-Anbindung.
Das System kombiniert verschiedene Open-Source-Modelle für Spracherkennung, Sprachsynthese und Textverarbeitung und steuert direkt das Betriebssystem eines normalen MacBooks. Aktiviert wird der Assistent sogar über ein Doppelklatschen.
Doch hinter dem spielerischen Charakter steckt ein viel größeres Thema:
Lokale KI-Systeme könnten nicht nur Datenschutz und Kontrolle verändern, sondern auch enorme Chancen für Barrierefreiheit und individuelle Assistenzsysteme schaffen.
Die Folge zeigt, warum leistungsfähige KI heute nicht mehr nur großen Unternehmen vorbehalten ist – sondern zunehmend zu einem Werkzeug für kreative Eigeninitiative wird.
Über diese Episode: In dieser Folge widmen wir uns der spannenden Frage, wie weit wir eigentlich davon entfernt sind, uns einen eigenen „JARVIS“ (bekannt aus den Iron-Man-Filmen) zu bauen. Die Antwort: Näher, als die meisten denken. Wir beleuchten das Projekt von Tobias Wachtel, der auf seinem normalen MacBook Pro einen komplett lokalen, offline-fähigen KI-Assistenten entwickelt hat, der durch einfaches Händeklatschen aktiviert wird.
Die Architektur des Systems (Die drei Schichten):
Die Architektur des Systems (Die drei Schichten):
- Schicht 1: Der „Türsteher“ (Audio-Trigger): Ein Hintergrundprogramm lauscht auf einen spezifischen akustischen Fingerabdruck – ein Doppelklatschen. Dabei musste explizit programmiert werden, dass immer das interne MacBook-Mikrofon genutzt wird, da verbundene AirPods solche Geräusche für eine bessere Sprachqualität automatisch herausfiltern.
- Schicht 2: Der Dirigent (Automation): Nach dem Klatschen startet eine Choreografie über AppleScript-Befehle: Ein Chrome-Fenster mit Musik (AC/DC) öffnet sich, ein eigenes Dashboard geht intelligent in den Vollbildmodus und ein Sprachfenster erscheint.
-
Schicht 3: Die KI-Engines: Hier arbeiten drei künstliche Intelligenzen lokal zusammen, um in unter drei Sekunden zu reagieren:
- Whisper (faster-whisper): Wandelt die gesprochene deutsche Sprache in unter zwei Sekunden in Text um.
- Llama 3.2 (über Ollama): Ein effizientes Sprachmodell von Meta (drei Milliarden Parameter), das durch einen Systemprompt darauf trainiert ist, knapp, präzise und leicht ironisch zu antworten.
- Piper: Ein Text-to-Speech-Tool, das aus dem Text mithilfe der freiwillig eingesprochenen deutschen Stimme „Thorsten“ wieder Sprache macht.
Technische Hürden & das eigene Interface: Das Projekt entstand auf einer Beta-Version von macOS 26, was zu einigen kreativen Workarounds zwang – etwa der Umstieg von der Bibliothek PyQt auf Tkinter, was wiederum komplexe Threading-Probleme mit sich brachte. Um das von Apple integrierte „Audio Ducking“ (das unerwünschte automatische Leiserstellen der Musik, während der Assistent spricht) zu umgehen, schickt Piper die synthetisierte Sprache trickreich am System vorbei direkt an die Soundkarte. Das visuelle Iron-Man-Interface (mit rotierenden Ringen und wandernden Punkten je nach Status) wurde komplett selbst per Programmcode auf eine leere Leinwand gezeichnet, was dem Assistenten eine ganz eigene Persönlichkeit und Lebendigkeit verleiht.
Warum das mehr als eine Spielerei ist: Das System zeigt ein enormes Potenzial für mehr Autonomie im Alltag und in der Pflege. Eine bettlägerige Person könnte allein durch Klatschen den Pflegedienst rufen, Angehörige informieren, das Licht dimmen oder ein Hörbuch starten. Die dafür nötigen Bausteine sind alle längst existent, funktionsfähig und günstig.
Zentrale Erkenntnisse der Folge:
Warum das mehr als eine Spielerei ist: Das System zeigt ein enormes Potenzial für mehr Autonomie im Alltag und in der Pflege. Eine bettlägerige Person könnte allein durch Klatschen den Pflegedienst rufen, Angehörige informieren, das Licht dimmen oder ein Hörbuch starten. Die dafür nötigen Bausteine sind alle längst existent, funktionsfähig und günstig.
Zentrale Erkenntnisse der Folge:
- Lokale KI ist reif: Werkzeuge wie Whisper und Llama sind frei verfügbar, funktionieren ohne Cloud (Datenschutz!) und laufen auf ganz normaler Hardware.
- Die Engpassstelle ist die Integration, nicht die Technik: Jede Komponente ist machbar, aber das nahtlose Zusammenspiel mit der richtigen Latenz und im passenden Kontext ist die eigentliche Arbeit.
- Spielen ist die ehrlichste Forschung: Echte Herausforderungen und Grenzen findet man nicht bei der Planung am Whiteboard, sondern beim pragmatischen Bauen.
- Vom Gimmick zur Infrastruktur: Was heute als Bastelprojekt mit dem Laptop im Wohnzimmer beginnt, legt den Grundstein für den normalen Einsatz von KI in der Pflege, Forschung und Bildung in fünf bis zehn Jahren.
Kennt ihr jemanden, für den eine solche Klatsch-Automation ein Stück Selbstbestimmung bedeuten würde? Dann leitet diese Folge unbedingt weiter! Und wenn ihr selbst Lust bekommen habt, zu experimentieren: Whisper, Ollama und Piper sind völlig frei verfügbar. Ein erstes funktionsfähiges System lässt sich bereits an einem Wochenende bauen.