In den Fängen der Bequemlichkeit: KI unter der Lupe
Wissenschaftler aus Tübingen und Toronto fordern stärkere Testverfahren für Algorithmen
Das interdisziplinäre Team aus Wissenschaftlern der Universität Tübingen (Robert Geirhos, Claudio Michaelis, Wieland Brendel, Matthias Bethge, Felix Wichmann) und der Universität Toronto, Kanada (Jörn-Henrik Jacobsen, Richard Zemel) beobachtete, dass viele Fehler von KI sozusagen heimlich entstehen und zunächst unbemerkt bleiben. Beispielsweise scheint eine KI auf den ersten Blick hervorragend zu erkennen, welche Tiere sich auf einem Foto befinden. Erst bei genauerem Hinsehen stellt sich heraus, dass die KI eine deutlich bequemere Strategie gefunden hat und manchmal einfach nur auf den Hintergrund achtet: So wird eine leere grüne Hügellandschaft von der KI kurzerhand als „Herde grasender Tiere“ bezeichnet – denn oft stehen Tiere vor grünem Hintergrund –, während eine Kuh vor einem unüblichen Hintergrund, beispielsweise am Strand, dagegen nicht erkannt wird. Was zunächst wie ein lustiger Fehler wirkt, kann durchaus ernste Konsequenzen nach sich ziehen. Denn ähnliche KI-Verfahren werden beispielsweise auch in Autos mit modernen Fahrassistenz-Systemen zur Erkennung von Fußgängern eingesetzt und in der Medizin bei der Früherkennung von Krebserkrankungen getestet.
Dieses „Shortcut Learning“ ist kein Phänomen, das nur bei KI-Systemen vorkommt, im Gegenteil. Derartige Abkürzungen beim Lernen sind ebenfalls in der Natur zu beobachten, auch bei Menschen. Ein Beispiel: Wenn Schülerinnen und Schüler im Geschichtsunterricht lediglich Jahreszahlen auswendig lernen, ohne ein tieferes Verständnis für historische Zusammenhänge zu entwickeln, nur um die spezifischen Anforderungen einer Klassenarbeit zu erfüllen. Oder ein Beispiel aus der Tierwelt: Bei einem Experiment, in dem Ratten durch ein Labyrinth mit unterschiedlich gefärbten Wänden zum Ziel finden mussten, waren die Tiere schnell zielsicher unterwegs. Verblüffenderweise fanden sie sich viel besser zurecht, als es die Versuchsleiter erwartet hatten. Die Fähigkeit, Farben optisch unterscheiden zu können, ist bei dieser Rattengattung nämlich nicht besonders ausgeprägt. Erst nach einer genauen Überprüfung der Testergebnisse wurde klar, dass die Tiere nicht mit ihren Augen durchs Labyrinth fanden. Sie hatten stattdessen dank ihres ausgeprägten Geruchssinns die richtige Route erlernt, denn die verschiedenen Wandfarben rochen unterschiedlich.
Analog dazu suchen sich auch KI-Systeme oftmals irgendeinen Weg zum Ziel, der sich für das System gerade am meisten anbietet. Das mag bei Bildern von Kühen in unterschiedlichen Landschaften nicht weiter tragisch sein. Dieses Verhalten wird aber dann problematisch, wenn etwa Banken bei der Kreditvergabe Algorithmen einsetzen. So kann es in den USA vorkommen, dass über die Postleitzahl des Antragstellers auf das soziale Milieu geschlossen wird – und damit auch über die Wahrscheinlichkeit der Rückzahlung, also die Kreditwürdigkeit. Die Abkürzung in diesem Fall: Über die Angabe der Postleitzahl gewinnt eine Korrelation an entscheidender Bedeutung. Ob es aber einen kausalen Zusammenhang zwischen der Postleitzahl und der tatsächlichen Kreditwürdigkeit des Bankkunden gibt, kann der Algorithmus nicht ermitteln.
In ihrem Aufsatz, einem „Perspective Article“, der in der Fachzeitschrift „Nature Machine Intelligence“ veröffentlicht wurde, beschreiben die Wissenschaftler das gemeinsame Muster hinter vielen dieser von anderen Forschenden berichteten Anekdoten. Sie fordern, dass KI in Zukunft stärker unter die Lupe genommen wird. Gute Testnoten von KI-Lernverfahren in den gängigen Testverfahren sind nicht ausreichend, um eine gute Alltagstauglichkeit zu garantieren. Konkret regen die Autoren an, in der KI-Forschung stärkere Testverfahren zu entwickeln und anzuwenden. „Die gängigen Standard-Testverfahren sind zu schwach, denn dadurch werden die Algorithmen häufig nur auf ähnlichen Daten getestet“, sagt Robert Geirhos, Doktorand an der Universität Tübingen und Erstautor der Arbeit. „Wir plädieren deshalb dafür, dass KI-Systeme mit deutlich schwereren Datensätzen getestet werden, in denen Unerwartetes abgefragt wird und ihnen so Transferleistungen abverlangt werden.“
Denn solange man nicht untersucht hat, ob ein Algorithmus mit unerwarteten Bildern, wie beispielsweise einer Kuh am Strand, problemlos zurechtkommt, muss man zumindest in Betracht ziehen, dass das KI-System auf dem Weg zur Antwort eine Abkürzung genommen hat. „Zum Glück ist das ,Abkürzen’ für einen Algorithmus aber nicht die einzige Option, sondern nur die bequemste“, betont Geirhos. „Wenn man KI entsprechend herausfordert, kann sie durchaus hochkomplexe Zusammenhänge erlernen.“