![]() |
Knowledge Science - Alles über KI, ML und NLPAuthor: Sigurd Schacht, Carsten Lanquillon Language: de Genres: Education, Technology Contact email: Get it Feed URL: Get it iTunes ID: Get it |
Listen Now...
Episode 230 - Wenn KI lügt, obwohl sie es besser weiß – der MASK-Benchmark und warum Ehrlichkeit ≠ Genauigkeit ist
Episode 230
Saturday, 2 May, 2026
Send us Fan MailSprachmodelle werden immer leistungsfähiger – aber werden sie auch ehrlicher? Der neue MASK-Benchmark zeigt: Je mächtiger ein Modell, desto eher weicht es unter Druck von seinem eigenen Faktenwissen ab. Sigurd und Carsten diskutieren, warum klassische Benchmarks an ihre Grenzen stoßen, was das für agentische Systeme bedeutet und wie dynamische Evaluierungsframeworks aussehen müssten, die nicht innerhalb weniger Jahre saturieren.Support the show






