Künstliche Intelligenz ist unerwartet oft eine Mogelpackung!

Liebe Leute!
Auch modernste AI-Systeme sind oft gar nicht so schlau, sondern benutzen "Kluger Hans"-Strategien!

Der Kluge Hans

Zur Erinnerung: "Kluger Hans" (1), so nannte man ein Pferd, das - angeleitet vom Mathematiklehrer Wilhelm von Osten - in den Jahren vor dem ersten Weltkrieg einiges Aufsehen erlangt hatte, weil es angeblich rechnen und zählen konnte. Durch Klopfen eines Hufes oder durch Nicken/Schütteln des Kopfes konnte Hans arithmetische Aufgaben lösen, buchstabieren oder Personen abzählen. Er konnte sogar die Quadratwurzel aus 16 berechnen! Auch eine 1904 eingesetzte 13-köpfige wissenschaftliche Kommission der Preußischen Akademie der Wissenschaften konnte keinen Betrug feststellen, denn Hans lieferte korrekte Ergebnisse, auch wenn Wilhelm von Osten gar nicht anwesend war.
Trotzdem hatte das Pferd natürlich keine Ahnung von Mathematik. Der entscheidende Hinweis war schließlich, dass Hans versagte, wenn der Fragesteller die Antwort selbst nicht wusste. Denn das Pferd rechnete nicht, sondern deutete feinste Nuancen in Gesichtsausdruck und Körpersprache seines menschlichen Gegenübers. Bis heute weiß man aufgrund fehlender Videomitschnitte nicht, welche unbewussten Signale das Pferd erkannt hatte. Hans fand 1916 in den Wirren des ersten Weltkrieges vermutlich ein sehr unrühmliches Ende als Lasttier.

Quelle Public Domain

Kluger-Hans-Strategie

Als Kluger-Hans-Effekt bezeichnet man seither die "unbewusste Beeinflussung des Verhaltens von Versuchstieren, insbesondere in die Richtung, dass der beim Versuch erwartete Effekt eintritt". Übertragen auf die AI-Forschung, ist eine Kluger-Hans-Strategie die Erweckung des Anscheines von AI durch pseudointelligente Ansätze, die aber dennoch oberflächlich als korrekt gewertet werden.
Wäre die Unterscheidung zwischen einem Schiff und einer Lokomotive durch das Vorhandensein oder Fehlen von Schienen (bzw. Wasser) als intelligent zu bezeichnen? Auf gewisse Weise ja, aber vermutlich nicht im Sinne der AI-Forscher, zumindest wenn es um Objekterkennung und nicht um Analyse des Kontextes geht, denn eine Lokomotive, ins Wasser gefotoshopped, würde so mit hoher Wahrscheinlichkeit eine Fehldeutung ergeben.

Eigentlich könnte es uns ja egal sein, wie eine AI das Muster erkennt, Hauptsache sie tut es. Aber in bestimmten Anwendungen, z.B. der Krebsdiagnose, die entscheidend für die richtige Therapie sein kann, ist es höchst strittig, ob man klinisch relevante Entscheidungen einer "Black Box" überlassen sollte. Mehr über einen konkreten Fall und das Black-Box-Problem hier.
Die Scheu vor einer "Black Box" geht sogar so weit, dass oftmals lineare machine learning (ML) Systeme den non-linearen vorgezogen werden, weil letztere trotz meist besserer Performance weniger gut "verstanden" werden (d.h. deren Entscheidungsfindungsprozesse meist wenig transparent sind).
Auf jeden Fall Grund genug, sich anzusehen, wie Deep Learning (DL)-Algorithmen ihre Muster finden.
Eine Studie der TU Berlin, des Fraunhofer Heinrich-Hertz-Instituts (HHI) und der Singapore University of Technology and Design, publiziert in Nature Communications (2), ist genau dieser Sache nachgegangen. Dazu haben die Forscher eine Technik entwickelt, die "Layer-wise Relevance Propagation" (LRP), die sichtbar macht, aufgrund welcher Kriterien AI-Systeme Entscheidungen treffen. Danach haben sie LRP weiterentwickelt zu "Spectral Relevance Analysis" (SpRAy), das in Folge auch in sehr großen Datensätzen unerwünschte Entscheidungsmuster herausfiltern kann (3).
Ziel: Die "explainable AI", also der wichtige Schritt weg von der Black Box hin zu einer erklärbaren AI, um Zufalls- oder falschrichtige Treffer (bzw. Strategien) auszuschliessen.

Beispiele

Neben dem oben erwähnten Beispiel, wo Objekte nicht aufgrund von Objekteigenschaften sondern aufgrund des Kontextes erkannt wurden, fand ich dieses (das gefunden wurde bei der Analyse des sog. "Fisher Vector"-Bilderkennungsalgorithmus) besonders krass:
Im oberen linken Bild wurde das Objekt Pferd nicht aufgrund von Eigenschaften des Pferdes selbst erkannt, sondern wegen des source tags, wie man an der heat map erkennen kann (die heat map oder auch relevance map ist eine visuelle Analyse von Bewertungsscores von ML-Algorithmen und sagt im wesentlichen aus, welche Pixel für die Entscheidungsfindung am relevantesten sind). Wurde das tag entfernt, wurde das Pferd auch nicht erkannt (links unten). Wurde das Pferd durch ein Auto ersetzt (das zuvor korrekt als Auto erkannt worden war), wurde das Auto als Pferd wahrgenommen (falls das gleiche source tag vorhanden war, ansonsten nicht). Laut der Autoren würde so ein Verhalten bei Menschen wohl als "cheating" bezeichnet werden.

Creative Commons Attribution 4.0 International License, © Sebastian Lapuschkin, Stephan Wäldchen, Alexander Binder, Grégoire Montavon, Wojciech Samek & Klaus-Robert Mülle 2019 (2)

Eine ebenfalls unerwartete Abkürzung fand ein anderer DNN (deep neural network)-Algorithmus in Bildern von Flugzeugen: Die Auffüllmuster am Bildrand! Flugzeugbilder werden bei der Endbearbeitung oft mit Pixeln am Rand aufgefüllt, um sie z.B. in das richtige Bildformat zu bringen. Pixelartifakte mit blauen Pixeln am Bildrand benutzte das DNN, um ein Flugzeug zu erkennen. In dieser Abb. sieht man links neben jedem Bild den Score für die Kategorie "Flugzeug". Bei Ergänzung mit "himmelblauer" Farbe war der Wert hoch, bei einer zufälligen Farbe war das Bild auf einmal wesentlich weniger "flugzeugartig" und bei Zufallspixeln stürzte der Wert komplett ab, obwohl sich das Objekt selbst nicht geändert hatte.

Creative Commons Attribution 4.0 International License, © Sebastian Lapuschkin, Stephan Wäldchen, Alexander Binder, Grégoire Montavon, Wojciech Samek & Klaus-Robert Mülle 2019 (2)

Fazit

Obwohl niemand daran zweifelt, dass die Weiterentwicklung der AI mit Riesenschritten vorangeht und unser Leben in vielen Bereichen massiv verändern wird, mehr als vielleicht jede andere Technologie zuvor, sollten wir nicht blind sein, sondern genau hinterfragen, wie eine konkrete Lösung zustande kommt. Wojciech Samek, Gruppenleiter am Fraunhofer HHI dazu:

"Wir waren sehr erstaunt über die große Bandbreite der gelernten Problemlösungsstrategien. Selbst moderne AI-Systeme haben nicht immer einen aus menschlicher Perspektive sinnvollen Lösungsweg gefunden, sondern nutzten bisweilen "Clever-Hans-Strategien" (4)

Die Autoren halten es nach ihren quantitativen Auswertungen für durchaus denkbar, dass die Hälfte(!) der aktuell eingesetzten AI-Systeme implizit oder explizit solche Abkürzungsstrategien verwenden. Die Tools, die in ihrer Arbeit vorgestellt wurden, sind open source und könnten ein erster Schritt sein, um AI-Systeme, wenn schon nicht schlauer, aber zumindest robuster, erklärbarer und damit sicherer in der Anwendung machen.

Notiz am Rande:
Generell wird im Startup-Bereich sehr "großzügig" mit dem Begriff AI umgegangen. Eine Analyse der Londoner Venture-Capital-Firma MMC Ventures kam zu dem Schluss, dass rund 40% der Startups in Europa, die als AI-Unternehmen geführt wurden, nichts mit AI zu tun hatten (5). Der offensichtliche Grund: So lässt sich leichter Risikokapital akquirieren, da Investoren sich derzeit auf alles, was mit AI zu tun hat, regelrecht stürzen!

Quellen:
(1) https://de.wikipedia.org/wiki/Kluger_Hans
(2) https://rdcu.be/bFKlH
(3) https://www.tu-berlin.de/?203846
(4) https://www.trendingtopics.at/gar-nicht-so-intelligent-der-grosse-ai-schwindel/
(5) https://www.trendingtopics.at/analyse-40-prozent-der-europaeischen-ai-startups-nutzen-gar-keine-ai/