Wenn KI den Faden verliert und gedanklich abschweift
Große Sprachmodelle scheitern an echten Gesprächen – was ein neues Paper enthüllt
28.07.2025 7 min
Zusammenfassung & Show Notes
Der gegebene Text untersucht die Leistung großer Sprachmodelle (LLMs) in mehrstufigen Konversationen, insbesondere wenn Benutzeranweisungen anfänglich unvollständig sind. Die Forschung zeigt einen erheblichen Leistungsabfall von durchschnittlich 39 % bei LLMs in diesen multi-turn Szenarien im Vergleich zu vollständig spezifizierten, einstufigen Interaktionen. Dieser Rückgang wird hauptsächlich durch eine erhöhte Unzuverlässigkeit (durchschnittlich 112 % Anstieg) und einen geringeren Fähigkeitsverlust (durchschnittlich 16 % Rückgang) verursacht. Die Studie identifiziert mehrere Gründe für dieses Phänomen, einschließlich vorzeitiger Antwortversuche, übermäßiger Abhängigkeit von früheren (falschen) Antworten und einer Tendenz zu wortreichen, oft verwirrenden Reaktionen. Auch Methoden wie das Rekapitulieren von Informationen oder das Reduzieren der Temperatur, die in einfacheren Kontexten helfen, zeigen sich in komplexen, mehrstufigen Gesprächen als weitgehend ineffektiv, was die Notwendigkeit robusterer LLM-Fähigkeiten für solche Interaktionen unterstreicht.
Link zum Paper: https://arxiv.org/pdf/2505.06120
Link zum Paper: https://arxiv.org/pdf/2505.06120