Alle Modelle gleich? Warum Tools jetzt wichtiger sind als KI-Benchmarks
Wie KI zur Commodity wird – und warum unser Workflow darüber entscheidet, was am Ende wirklich zählt.
03.12.2025 6 min
Zusammenfassung & Show Notes
In dieser Folge der KI Kantine spreche ich darüber, warum wir die einzelnen KI-Modelle kaum noch auseinanderhalten können – und warum das plötzlich überhaupt kein Problem mehr ist. Die Modelle konvergieren, die Tools divergieren: Updates liefern nur noch minimale Benchmark-Verbesserungen, aber Entwicklungsumgebungen wie Cursor oder Googles Antigravity machen den eigentlichen Produktivitätssprung.
Wir reden darüber, dass KI zunehmend wie Strom funktioniert: Der Nutzer fragt nicht mehr, woher er kommt, sondern ob der Toaster läuft. Genau so egal wird das konkrete Modell, solange der Workflow stimmt. Das eigentliche Bottleneck ist inzwischen das Interface. Chat-basiertes Prompting nutzt nur einen Bruchteil dessen, was moderne Modelle könnten. Neue Interfaces, die navigieren, planen und proaktiv Vorschläge machen, werden deshalb entscheidend für die nächste Evolutionsstufe.
Die KI-Kantine ist ein Projekt von Michael Busch – Entwickler, Unternehmer und neugieriger Kantinenphilosoph.
Hier geht’s regelmäßig zur Mittagspause um Künstliche Intelligenz im echten Entwickleralltag – verständlich, praxisnah und mit einer Prise Skepsis.
Neue Folgen erscheinen regelmäßig – meistens genau dann, wenn du dir eh gerade ein Tablett schnappst.
Hier geht’s regelmäßig zur Mittagspause um Künstliche Intelligenz im echten Entwickleralltag – verständlich, praxisnah und mit einer Prise Skepsis.
Neue Folgen erscheinen regelmäßig – meistens genau dann, wenn du dir eh gerade ein Tablett schnappst.
📬 Fragen, Feedback oder eigene KI-Erlebnisse? Schreib mir an podcast@ki-kantine.de
Alle Folgen & mehr: https://ki-kantine.letscast.fm/
Alle Folgen & mehr: https://ki-kantine.letscast.fm/
Transkript
(Transkribiert von TurboScribe.ai. Upgrade auf Unbegrenzt, um diese Nachricht zu entfernen.) Mahlzeit.
Mahlzeit.
Sag mal, welches KI-Modell nimmst du eigentlich
im Moment immer?
Das kann ich dir eigentlich gar nicht so
genau sagen.
Ich finde, man kann die Modelle mittlerweile gar
nicht mehr auseinanderhalten.
In Cursor hast du mittlerweile so eine riesige
Auswahl.
Opus 4.5, Sony 4.5, Codex.
Ich könnte mir mit verbundenen Augen irgendwas aussuchen
und es würde trotzdem mittlerweile funktionieren.
Aha.
Und es war Anfang des Jahres noch ganz
anders.
Das war richtig nervig.
Die Modelle haben ständig deinen Code nicht verstanden
oder sind abgestürzt oder haben halluziniert.
Und dann kam Update raus.
Und dann hast du den Unterschied sofort gemerkt.
Es war immer eine extreme Verbesserung.
Also es war wie damals Windows 95 auf
Windows XP.
Jetzt sind die alle schon so gut, dass
du die Unterschiede praktisch gar nicht mehr merkst.
Klar, in den Benchmarks steht dann immer, Opus
4.5 hat 89,3 und Sony 4
.5 hat nur 86,6.
Aber mal ehrlich, das sind ein bisschen über
2%.
Wo merkt man denn so einen Unterschied?
Also ich merke den nicht.
Die einzige Frage, die wirklich zählt ist, funktioniert
es oder spinnt es rum?
Hat es die Datei gelesen und hat es
die Aufgabe fertig gemacht?
Und im Prinzip ist es bei allen großen
Modellen.
Ja, hat es gemacht.
Interessant.
Also ich glaube, dass der Durchschnitts-User überhaupt
nicht mehr auf die spezifischen Modelle achten muss.
Wenn du schnell sein willst, dann nimmst du
zum Beispiel Cursor Composer.
Und wenn du irgendwie ein bisschen länger nachdenken
willst, dann nimmst du Reasoning Modell.
Aber welches Modell es genau ist, ist egal.
Behalt es halt dann und fertig.
Und damit hast du auch viel weniger FOMO.
Früher hast du wieder gelesen, es gibt ein
neues Modell, das ist da und da viel,
viel besser.
Und da muss ich mich sofort mit beschäftigen
und ich muss das nutzen.
Heute bei 0,3% besser, who cares.
Aber jetzt ist halt die Entwicklungsumgebung viel wichtiger.
Also wenn wir jetzt Cursor nehmen zum Beispiel,
mit dem ich ja viel arbeite.
Und ich finde, Cursor hat mehr für meine
Produktivität getan als jedes einzelne Modellupdate in diesem
Jahr.
Denn Cursor hat es schon in ein richtig
schönes Paket gepackt.
So ein echter Developer-Workflow.
Du kannst planen, erfickst dir die ganzen Lint
-Errors.
Also die Tools divergieren jetzt und die Modelle
konvergieren.
Damit meine ich, dass ein mittelmäßiges Modell immer
noch mit einem guten Workflow das beste Modell
ohne Workflow schlägt.
Und zwar wirklich deutlich.
Aha.
Man könnte fast sagen, wir sind jetzt mit
der KI in die Strom-Ära gerutscht.
Wenn du heute einen Toaster bedienen willst, dann
fragst du dich nicht, ist der Strom jetzt
aus Solar oder ist der von irgendwelcher Windkraft?
Nö, du machst den runter und dann soll
er dein Brot toasten.
Ob das jetzt Solarstrom ist, Kohle, Atomkraft, das
ist ja erstmal irrelevant, solange der Toaster funktioniert.
Dadurch werden diese KI-Modelle zur Commodity, also
nur noch ein Gebrauchsgegenstand.
Uns geht jetzt halt mehr um das Interface,
um den Workflow und um den Speed.
Da sieht man auch daran, dass das mit
den Kosten gar nicht mehr so ein großes
Thema ist.
Vor einem halben Jahr hat ständig jeder sich
darüber aufgeregt, wie hoch denn die Kosten sind,
um einen vernünftigen Code zu schreiben.
Die Kosten sind echt gesunken und auch im
Prinzip bei allen Modellen vergleichbar.
Aber das Chat-Interface ist jetzt auch der
Flaschenhals.
So eine Chatbox ist ja okay für schnelle
Antworten.
Es ist aber ein beschissenes Medium, um herauszufinden,
was so ein fortgeschrittenes System eigentlich alles kann.
Das Interface verbirgt Möglichkeiten, verengt die Interaktion auf
das, was ich tippen kann.
Alles hängt ja nur noch von meiner eigenen
Vorstellungskraft ab, von meinem Wording und von meiner
Fähigkeit zu prompten.
Und es ist ja auch das Absurde.
Ich beschreibe eine Aufgabe an etwas, das das
Problem bereits besser versteht als ich.
Der langsamere Denker führt den schnelleren Denker.
Das ist ja schon ein bisschen Paradox.
Und weil jetzt bald Weihnachten ist, wenn du
zu deinen Eltern fährst und die mal wieder
ein Problem im Computer haben, und wenn du
dann nur exakt das machst, was sie sagen,
dann kommt dir überhaupt nicht weiter.
Es wäre doch frustrierend für alle, denn die
wissen ja irgendwie gar nicht, was noch alles
geht.
Ja, da hast recht.
Das heißt, die meiste Power der Modelle bleibt
ungenutzt, weil das Interface eben nur reaktiv und
stumm ist.
Wir brauchen also Interfaces, wo die KI ihre
Fähigkeiten zeigen kann, wo die Vorschläge macht, den
Kontext versteht, ohne dass ich den magischen Satz
erraten muss, also sprich das Prompt.
Und da ist jetzt hier die neueste Entwicklungsumgebung
Anti-Gravity von Google total spannend, weil die
kann selbstständig durch den Browser navigieren und im
Prinzip kann die dir im Browser zeigen, was
sie meint.
Und auch der Cursor kann erstmal einen riesigen
Plan aufstellen, was er alles vorhat zu machen.
Du kannst ihn eben rumkorrigieren und verändern und
musst dir nämlich nicht alles selbst ausdenken.
Also nicht mehr, welches Modell, sondern welches Tool
hilft mir, dieses Modell richtig zu nutzen.
Also ich habe hier das Modell Messer und
ich habe das Modell Gabel und ich weiß
auch genau, wie ich das nutzen muss.
Können wir jetzt endlich mal essen?
Das ist die KI-Kantine.
Wir sitzen in der KI-Kantine.
Die KI-Kantine ist ein Projekt von Michael
Busch, der auch beim nächsten Mal wieder ein
frisches KI-Gericht auftischt mit einer Prise Ponz
und einer Beilage Skepsis.
Wir sitzen in der KI-Kantine.
Hier ist die KI-Kantine.