allfeeds.ai

 

Knowledge Science - Alles über KI, ML und NLP  

Knowledge Science - Alles über KI, ML und NLP

Author: Sigurd Schacht, Carsten Lanquillon

Language: de

Genres: Education, Technology

Contact email: Get it

Feed URL: Get it

iTunes ID: Get it


Get all podcast data

Listen Now...

Episode 230 - Wenn KI lügt, obwohl sie es besser weiß – der MASK-Benchmark und warum Ehrlichkeit ≠ Genauigkeit ist
Episode 230
Saturday, 2 May, 2026

Send us Fan MailSprachmodelle werden immer leistungsfähiger – aber werden sie auch ehrlicher? Der neue MASK-Benchmark zeigt: Je mächtiger ein Modell, desto eher weicht es unter Druck von seinem eigenen Faktenwissen ab. Sigurd und Carsten diskutieren, warum klassische Benchmarks an ihre Grenzen stoßen, was das für agentische Systeme bedeutet und wie dynamische Evaluierungsframeworks aussehen müssten, die nicht innerhalb weniger Jahre saturieren.Support the show

 

We also recommend:


Die Befreiung des Klangs / The Liberation of Sound
Verena Rein

Mondo Nerd Lega Nerd

The Cloud Evangelist Podcast
Richard Morrell

Auto Mundial
Auto Mundial

WP Builds
Nathan Wrigley

Manchester Futurists
Manchester Futurists

You Wear It Well
Wareable

Talking With Tech AAC Podcast
Rachel Madel and Chris Bugaj

Time Extend
Time Extend

Performing Capers
Shaper/Caper

Dev Note Podcast
zorig

Quinto Poder con Hiram Enriquez
Hiram Enriquez