7. Februar 2024 |

KI-Forscher Philipp Hennig erhält ERC Consolidator Grant der Europäischen Union

Datensparsamkeit für künstliche Intelligenz

Philipp Hennig (image: Philipp Hennig).

Der Tübinger KI-Forscher Philipp Hennig wird in den kommenden fünf Jahren Methoden entwickeln, mit denen die Ressourcen Rechenzeit und Datenmenge beim maschinellen Lernen effizienter verwaltet werden können. Für dieses Forschungsprojekt warb er erfolgreich einen Consolidator Grant des Europäischen Forschungsrats (European Research Council, ERC) ein.

Zielsetzung von ANUBIS

Das Projekt „Advanced Numerical Uncertainty for Bayesian Inference in Science” (kurz: ANUBIS) wird über eine Laufzeit von fünf Jahren mit rund zwei Millionen Euro gefördert. Philipp Hennig ist Professor für die Methoden des Maschinellen Lernens im Fachbereich Informatik der Universität Tübingen, Teil der Cyber Valley Community, Mitglied im Vorstand des Tübingen AI Centers und im Exzellenzcluster „Maschinelles Lernen: Neue Perspektiven für die Wissenschaft“.

Das Projekt ANUBIS verfolgt das Ziel, die Rechenressourcen von wissenschaftlichen KI-Anwendungen ganzheitlich und durchgängig zu managen. In Klimamodellen, geologischen oder neurowissenschaftlichen Simulationen treten viele Inferenzprobleme auf, bei denen man von einer Information bzw. einem Datensatz indirekt auf die Information schließt, die eigentlich gesucht wird. “Um solche Inferenzprobleme zu lösen, brauchen wir große Datenmengen und große Rechenressourcen", erklärt Hennig. "Ein einziger Teildatensatz zum Beispiel aus der Klimaforschung kann da schon einmal 100 Terabyte (also 100.000 Gigabyte) groß sein.”

Herausforderungen bei der Datenverarbeitung

In dem Projekt wird das, was ein Computer tut – Rechnen – als Quelle von Information betrachtet. Diese Information betrifft Fragen, die nicht endgültig und perfekt beantwortet werden können (wie etwa "Wie wird das Wetter in 10 Jahren?”). Solche Fragen bestehen meist aus unendlich vielen Teilfragen, die durch die Rechnung nicht vollständig beantwortet werden. Darum soll der Computer, während er diese Teilfragen beantwortet, gleichzeitig mitloggen (“Buch führen”), welche Teile der Frage schon beantwortet sind, und wie gut. Das ist auch deshalb gar nicht so einfach, weil das Buchführen selbst auch wieder eine Rechnung ist. Damit das Ganze machbar bleibt, muss also das Buchführen etwas einfacher sein als die Rechnung selbst.

Innovative Lösungsansätze

Dazu wird es nötig sein, moderne Methoden des maschinellen Lernens zu erweitern, damit ihre Funktionalität mit dem neuen Konzept gut harmoniert. Vorteile der erweiterten Methodik sind nicht nur sparsamere Algorithmen, sondern auch neue Funktionalität. "Für Forscherinnen und Forscher aus den Geo-, Klima- oder Neurowissenschaften wird es dann leichter sein, ganz unterschiedliche Arten von Daten wie etwa konkrete Messdaten, Simulationsdaten und Expertenwissen flexibel in ihren Code einfließen zu lassen”, sagt Hennig. “Dabei muss die Unsicherheit der Informationen aus den verschiedenen Datenquellen quantifiziert werden. Beides war mit den bisherigen Methoden nicht möglich."