KI-Agenten liefern Ergebnisse – aber denken sie auch wissenschaftlich?
Ein Forschungsteam unter gemeinsamer Leitung von Kevin Maik Jablonka vom Helmholtz-Institut für Polymere in Energieanwendungen Jena (HIPOLE Jena) und N. M. Anoop Krishnan vom Indian Institute of Technology Delhi hat mit Corral einen neuen Benchmark für KI-Agenten in der Wissenschaft entwickelt. Der Preprint „AI scientists produce results without reasoning scientifically“ ist auf arXiv erschienen (https://doi.org/10.48550/arXiv.2604.18805). Die Analyse zeigt, dass aktuelle Systeme zwar wissenschaftliche Workflows ausführen und Ergebnisse liefern können; häufig folgen sie dabei aber nicht den Grundprinzipien wissenschaftlicher Prüfung und Schlussfolgerung.