KI-Agenten liefern Ergebnisse – aber denken sie auch wissenschaftlich?

Corral macht sichtbar, wie KI-Agenten zu ihren Ergebnissen kommen: Der Benchmark zerlegt Agentenläufe in Hypothesen, Tests, Evidenz, Urteile und Korrekturen. So lassen sich produktive Formen wissenschaftlichen Schlussfolgerns ebenso erkennen wie problematische Muster, etwa wenn Evidenz nicht berücksichtigt wird.

Corral macht sichtbar, wie KI-Agenten zu ihren Ergebnissen kommen: Der Benchmark zerlegt Agentenläufe in Hypothesen, Tests, Evidenz, Urteile und Korrekturen. So lassen sich produktive Formen wissenschaftlichen Schlussfolgerns ebenso erkennen wie problematische Muster, etwa wenn Evidenz nicht berücksichtigt wird. © HIPOLE Jena / Corral

Ein Forschungsteam unter gemeinsamer Leitung von Kevin Maik Jablonka vom Helmholtz-Institut für Polymere in Energieanwendungen Jena (HIPOLE Jena) und N. M. Anoop Krishnan vom Indian Institute of Technology Delhi hat mit Corral einen neuen Benchmark für KI-Agenten in der Wissenschaft entwickelt. Der Preprint „AI scientists produce results without reasoning scientifically“ ist auf arXiv erschienen (https://doi.org/10.48550/arXiv.2604.18805). Die Analyse zeigt, dass aktuelle Systeme zwar wissenschaftliche Workflows ausführen und Ergebnisse liefern können; häufig folgen sie dabei aber nicht den Grundprinzipien wissenschaftlicher Prüfung und Schlussfolgerung.

Künstliche Intelligenz soll künftig nicht nur Texte schreiben oder Daten auswerten, sondern auch wissenschaftliche Experimente planen, Ergebnisse analysieren und neue Erkenntnisse gewinnen. Doch wann betreibt ein KI-System tatsächlich Wissenschaft? Reicht es, wenn am Ende ein richtiges Ergebnis steht – oder muss auch der Weg dorthin wissenschaftlichen Standards genügen? Diese Frage untersucht der neue Preprint des Teams um Jablonka.

Mit Corral haben die Forschenden einen Benchmark entwickelt, der KI-basierte wissenschaftliche Agenten nicht nur nach dem Ergebnis bewertet, sondern auch danach, wie sie zu diesem Ergebnis kommen. Dafür analysierte das Team mehr als 25.000 Agentenläufe in acht wissenschaftlichen Aufgabenfeldern – von molekularen Simulationen und Materialdatenanalyse über spektroskopische Strukturaufklärung bis hin zu hypothesengetriebenen chemischen Tests. Bewertet wurde nicht nur, ob eine Aufgabe gelöst wurde, sondern auch, ob die Systeme gesammelte Hinweise berücksichtigen, Hypothesen entwickeln und prüfen sowie ihre Annahmen bei widersprüchlichen Ergebnissen korrigieren.

„Wir müssen klarer benennen, welche Art von wissenschaftlichem Denken wir von solchen KI-Systemen erwarten“, sagt Jablonka. „Wenn es um wissenschaftliche Strenge geht, können bessere Trainingsverfahren helfen. In Bereichen, in denen wir belastbare Prozessgarantien brauchen, werden wir aber vermutlich andere Systeme benötigen – etwa mit symbolischen und formal überprüfbaren Komponenten.“

HIPOLE Jena ist ein Institut des Helmholtz-Zentrums Berlin für Materialien und Energie (HZB) auf dem Campus und in Kooperation mit der Friedrich-Schiller-Universität Jena sowie dem Center for Energy and Environmental Chemistry Jena (CEEC). Helmholtz AI hat zu dem Preprint bereits eine ausführliche Einordnung veröffentlicht: https://www.helmholtz.ai/detail/do-ai-scientists-actually-do-science-new-benchmark-probes-the-reasoning-behind-the-results-featuring-dr-kevin-maik-jablonka-helmholtz-ai-associate/

hs

  • Link kopieren

Das könnte Sie auch interessieren

  • Materialchemie gestaltet die Zukunft der Katalyse
    Science Highlight
    29.05.2026
    Materialchemie gestaltet die Zukunft der Katalyse
    Die synthetische Materialchemie der Zukunft kann als Werkzeug dienen, um smarte und adaptive Elektrokatalysatoren zu entwickeln. Das Forschungsfeld entwickelt sich aktuell rasant, mit In-situ-Analytik, datengestützten Entdeckungen und autonomer Robotik. Diese neuen Ansätze könnten die Entdeckung langlebiger und effizienter Katalysatoren für die zukünftige Energieumwandlung und die Dekarbonisierung der chemischen Industrie beschleunigen. Einen Überblick bietet nun ein Beitrag aus dem Team des Katalyse-Experten Dr. Prashanth Menezes im renommierten Fachjournal Angewandte Chemie.
  • Imaging-Ellipsometrie für die Prozesskontrolle in Dünnschichtbauelementen
    Science Highlight
    22.05.2026
    Imaging-Ellipsometrie für die Prozesskontrolle in Dünnschichtbauelementen
    Ein deutsch-israelisches Forschungsteam unter der Leitung von Dr. Andreas Furchner hat gezeigt, wie Imaging-Ellipsometrie die zerstörungsfreie Charakterisierung und Qualitätskontrolle mikrostrukturierter MXene-Dünnschichten während der Bauelementherstellung ermöglicht. Die Autoren nutzten zwei komplementäre ellipsometrische Ansätze für einen präzisen, skalenübergreifenden Zugang zu Materialeigenschaften. Die Arbeit etabliert Imaging-Ellipsometrie als leistungsfähige Methode zur Überwachung von Schichthomogenität, Bauelementintegrität und Funktionalität entlang des Herstellungsprozesses, einschließlich lithografischer Schritte. Die Studie wurde in Applied Physics Letters veröffentlicht und als „Editor’s Pick“ ausgewählt.
  • BESSY II: Eingebauter Sauerstoff verkürzt die Lebensdauer von Feststoffbatterien
    Science Highlight
    08.05.2026
    BESSY II: Eingebauter Sauerstoff verkürzt die Lebensdauer von Feststoffbatterien
    Feststoffbatterien sind sicher und leistungstark, aber ihre Kapazität nimmt zurzeit noch rasch ab. Ein Team der TU Wien, der Humboldt-Universität zu Berlin und des HZB hat nun eine TiS₂|Li₃YCl₆-Halbzelle an BESSY II analysiert. Dafür nutzte das Team eine spezielle Probenumgebung, die eine zerstörungsfreie Untersuchung unter realen Betriebsbedingungen ermöglicht. Durch die Kombination von Weich- und Hart-Röntgen-Photoelektronenspektroskopie (XPS und HAXPES) konnte ein neuer Degradationsmechanismus identifiziert werden. Dabei spielte das Element Sauerstoff eine besondere Rolle. Die Studie liefert wertvolle Einblicke, um Design und Fertigung von Feststoffbatterien zu verbessern.