Die KI Kantine - Der Podcast

Michael Busch

Spezialisten fürs Sprachmodell – LoRA und Finetuning erklärt

Wie aus einem Bürogebäude mit tausenden Mitarbeitern ein cleveres Spezialistenteam wird

03.09.2025 5 min

Zusammenfassung & Show Notes

In dieser Folge der KI Kantine erklärt Buschi, warum man ein Sprachmodell nicht immer komplett neu trainieren muss, um es schlauer zu machen. Statt alle Mitarbeiter in einem riesigen Bürogebäude umzuschulen, setzt man einfach ein paar Spezialisten ein – das ist die Idee hinter LoRA (Low-Rank Adaptation). Im Kantinen-Gespräch zeigt Buschi, wie diese Metapher hilft, Finetuning von LLMs zu verstehen, welche Vorteile und Grenzen es gibt und warum gute Daten entscheidend sind. 

Die KI-Kantine ist ein Projekt von Michael Busch – Entwickler, Unternehmer und neugieriger Kantinenphilosoph.

Hier geht’s regelmäßig zur Mittagspause um Künstliche Intelligenz im echten Entwickleralltag – verständlich, praxisnah und mit einer Prise Skepsis.

Neue Folgen erscheinen regelmäßig – meistens genau dann, wenn du dir eh gerade ein Tablett schnappst.

📬 Fragen, Feedback oder eigene KI-Erlebnisse? Schreib mir an podcast@ki-kantine.de

Alle Folgen & mehr: https://ki-kantine.letscast.fm/

Transkript

(Transkribiert von TurboScribe.ai. Upgrade auf Unbegrenzt, um diese Nachricht zu entfernen.) Mahlzeit. Sag mal, hast du schon mal was von Laura gehört? So heißt doch der Papagei von meiner Tante Gertrud. Jetzt ernsthaft? Nee, war nur ein Spaß. Das steht für Low-Rank Adaptation. Und das ist ein cleverer Weg, um mehr Wissen in so eine KI reinzukriegen, ohne die jetzt nochmal komplett von vorne alles lernen zu lassen. Aha. Du kannst dir ja so ein Large-Language -Model wie so ein 50-stöckiges Bürogebäude vorstellen. Und da sitzen in jedem Stockwerk tausende Mitarbeiter. Und jeder Mitarbeiter, der hat eine eigene, klar definierte Aufgabe. Und das kann man vergleichen mit den Model -Gewichten, wie man das nennt. Das ist im Prinzip das, was das Model gelernt hat. Und wenn du dich so mit einem LLM unterhältst, dann ist es im Prinzip so, als würdest du jetzt zum Fördner gehen und deine Frage dort abgeben. Und der Fördner hackt die dann in kleine Teile. Das sind dann die sogenannten Token. Sagen wir mal, das ist jeweils ein Wort. Und der schickt jetzt dieses Wort und deine gesamte Anfrage an jede Fachabteilung. Und jede Fachabteilung beurteilt aufgrund deren Wissen, was die nächst sinnvolle Antwort darauf ist. Und die schicken dann das Anfangswort mit der Gesamtfrage und ihre eigenen Gedanken dazu wiederum in eine andere Fachabteilung. So wandern eigentlich ganz viele Einzelteile deiner Frage durch dieses Bürogebäude, durch die Stockwerke und kommt irgendwann zu einem Punkt, wo alles dann zusammengefasst wird und es eine Ausgabe gibt. Interessant! Jetzt gibt es aber vielleicht irgendwas, was dieses Sprachmodell noch nicht gelernt hat, weil es sehr speziell ist. Zum Beispiel juristische Texte oder irgendein ganz spezielles Wissen, das man in dem Shop braucht. Sagen wir mal, ein Apothekenshop. Dann könnten wir jetzt hingehen und sagen, okay, ihr Bürogebäude macht alle eine Weiterbildung. Jeder Einzelne. Das hat die Gefahr, dass bei dieser Weiterbildung das ursprüngliche Wissen verloren geht und alles auch nicht mehr so richtig schlüssig ist. Außerdem ist es sehr aufwendig und teuer. Aha. Und da kommt dann diese Lora ins Spiel. Denn so eine Lora ist eigentlich wie 50 oder 100 Spezialisten, die jetzt in manchen Büros sitzen und dem, der normalerweise dort im Bürogebäude arbeitet, helfen. Ihm vielleicht sogar so sagen, Achtung, das machen wir jetzt in dem Fall anders. Und wenn man die nicht mehr braucht, dann kann man die wieder entlassen. Dann ist aber das Bürogebäude und die Funktion wieder so, wie sie vorher war. Das sind also nur Aushilfen für ganz spezielle Themen. Aha. Aber Feintuning nutzt man häufig in Chatbots oder eben, wenn es medizinisch oder rechtlich sehr präzise sein muss. Und dazu kann man dann eine ziemlich einfache LLM nehmen, die normal die Sprache versteht und alles. Und dann kann man so eine neutrale LLM aufpimpen, indem man dieses Spezialwissen da rein macht. Interessant. Das Erstellen von so einer Lora ist echt gar nicht so schwierig. Im Prinzip brauchst du ein großes JSON-File und da gibt es Input und Output. Du sagst also, wenn dieser Input kommt, ist das der gewünschte Output. Und wenn man dann viele verschiedene Fälle gibt, dann entsteht daraus ein neues Wissen, das das allgemeine LLM-System noch nicht kannte. Aha. Und dabei muss man natürlich immer bedenken, sind die Daten nicht gut, lernt er auch nicht gut. Ich habe da gehört, eine Abkürzung dafür ist GIGO, Garbage In, Garbage Out. Aber wenn du das wirklich gut machst, dann hast du ein kleines Modell, das sogar bei dir lokal laufen kann, das aber ein sehr spezielles, für dich notwendiges Wissen hat. Das einzige für mich Notwendige ist jetzt hier mein Hühnerfrikassee. Können wir jetzt endlich mal essen. Das ist die KI-Kantine. Wir sitzen in der KI-Kantine. Die KI-Kantine ist ein Projekt von Michael Busch, der auch beim nächsten Mal wieder ein frisches KI-Gericht auftischt mit einer Prise Pommes und einer Beilage Skepsis. Wir sitzen in der KI-Kantine. Hier ist die KI-Kantine.