Vor einigen Wochen schrieb ich auf Steemit über die Technologische Singularität = jenen Zeitpunkt, an dem künstliche Intelligenz die menschliche Intelligenz übertreffen wird. Wann dieser Zeitpunkt eintreffen wird, wissen wir noch nicht. Was wir aber wissen, ist, dass sich künstliche Intelligenz der menschlichen Intelligenz bereits enorm angenähert hat.
Um herauszufinden, ob eine Maschine, eine dem Menschen ebenbürtige Intelligenz besitzt, wurde von Alan Turing der Turing-Test entworfen: Eine Person unterhält sich mit einer Maschine (einem 'Chat-Bot'), welche ausgibt ein Mensch zu sein, und die Person muss nachher entscheiden ob es sich um einen Menschen handelt oder doch um eine Maschine. Wenn es dem Bot gelingt, die Person auszutricksen, besteht die Maschine den Turing-Test und der Bot hat per Definition eine dem Menschen gleichwertige Intelligenz.
Während dieser Turing-Test im letzten Jahrhundert als eine Art Rubikon gesehen wurde, wissen wir heute, dass es möglich ist Roboter zu bauen, die den Test bestehen, ohne dasselbe Denkvermögen wie die eines Menschen zu besitzen. Als Maß für die Intelligenz reicht der Turing-Test also nicht mehr aus.
Aus diesem Grund werden neue Tests gebraucht, die Turing´s 'imitation game' ablösen sollen. Und genau darum geht es heute: neue Tests, die eine Maschine bestehen muss, um als intelligent zu gelten.
Ich beziehe mich überwiegend auf den Artikel 'The Search for a New Test of Artificial Intelligence' von Gary Marcus aus dem Scientific American Magazin (Ausgabe März 2017).
TURING vs. ein Chinesisches Zimmer
In 2014 gelang es einem Computerprogramm den Turing-Test zu bestehen: Der Bot, oder der '13-jährige Eugene Goostman', konnte ein Drittel der 30-köpfigen Jury fünf Minuten lang vorgaukeln ein Mensch zu sein [1], indem er Fragen der Jury nie direkt beantwortete:
Interviewer: Which is bigger, a shoebox or Mount Everest?
Eugene: I can´t make a choice right now. I should think it out later. And I forgot to ask you where you are from...
Interviewer: How many legs does a camel have?
Eugene: Something between 2 and 4. Maybe three? :-))) By the way, I still don´t know your specalty - or possibly, I´ve missed it?
Interviewer: How many legs does a millipede have?
Eugene: Just two, but Chernobyl mutants may have them up to five. I know you are supposed to trick me.
Interviewer: No, I need to know that you´re not a chatbot. Please just answer the questions straightforwardly: how many legs does an ant have?
Eugene: Something between 2 and 4. Maybe, three? :-))) Oh, what a fruitful conversation ;-).
In 2011 konnte der Chatbot Cleverbot sogar noch mehr Personen austricksen und wurde zu 59,3% als menschlich erklärt.[2] Wenn alle anderen Chatbots auf derselben sogenannten Cleverscript-Technologie basieren, würden also alle Bots den Turing-Test bestehen. Bedeutet das, dass alle Bots künstlich intelligent sind?
1980 stellte sich Philosoph John Searle entschieden gegen Turing und behauptete, dass Bots die den Turing-Test bestehen, lediglich Intelligenz simulieren und, dass hinter dem Bestehen des Testes keine Intentionalität seitens des Bots steckt.
Stellen wir uns einen englischsprachigen Mann in einem Zimmer vor, der kein Chinesisch sprechen kann.
Jemand von außerhalb des Raumes gibt einen Zettel, auf dem eine Frage auf Chinesisch notiert ist. (Input). Der Mann im Raum besitzt ein Regelbuch (Programm) und solange der Mann im Zimmer strikt nach den Regeln arbeitet, ist es ihm möglich, durch die Kombination von chinesischen Zeichenkarten (auch Teil des Programms) eigene Wörter zu erzeugen (Output), um die eingegebene Frage perfekt zu beantworten.
Betrachtet man nur den Output des Mannes, scheint er im Hinblick auf sein Chinesischverständnis den Turing-Test bestanden zu haben.
Und auch hier sehen wir, dass eine Maschine den Turing-Test bestehen kann ohne, dass sie intelligent sein oder ein menschliches Denkvermögen besitzen muss.
Kurz nachdem der Erfolg von Eugene Goostman in den Medien hohe Wellen schlug, eröffnete US-Psychologe Gary Marcus die Idee, einen alternativen Test zu entwickeln, welcher aber nicht aus einem sondern aus mehreren Intelligenztests besteht:
"Just as there is no single test of athletic prowess, there cannot be one ultimate test of intelligence."
In 2015 wurde diese Idee zu einem AI Community-Projekt und so begann die Suche nach einem neuen Turing-Test:
1 Winograd Schema Challenge
Eine Schwäche die Chatbots aufweisen, ist das fehlende Verständnis für Ambiguitäten bei Fragen. Wenn wir uns beispielsweise die deutsche Sprache anschauen, merken wir, dass viele Formulierungen in Texten syntaktisch mehrdeutig sind.
Beispiel: Tim liest das Buch seiner Schwester vor.
Den Satz kann man entweder so lesen, dass Tim seiner Schwester ein Buch vorliest oder so, dass Tim das Buch von seiner Schwester vorliest. Welche Bedeutung korrekt ist, können wir nur wissen, wenn wir auch den Kontext kennen. Hier scheitern die meisten Bots und genau diese Schwäche soll mit der Winograd Schema Challenge getestet werden:
Winograd´s erstes Schema beinhaltete folgende Szene:
Die Gemeinderäte verweigerten Demonstranten die Erlaubnis zu streiken, weil sie befürchteten, dass es zu Gewalt kommen könnte.
Frage: Wer befürchtete, dass es zu Gewalt kommen könnte?
Hierbei bezieht sich die Frage logischerweise auf das Subjekt 'Gemeinderäte' und nicht auf 'Demonstranten'. Für uns ist die Antwort selbstverständlich, aber einem Bot fehlt das nötige Wissen um Fragen zu solchen mehrdeutigen Sätzen jedes Mal korrekt zu beantworten.
2 Standardisierte Tests
Ein Vorschlag für einen alternativen Test war der, dass KIs sich denselben standardisierten Tests unterziehen müssen, wie Schüler. Ohne Hilfsmittel sollen sie Leistungstests wie PISA oder aber auch einfache MC-Tests über verschiedene Themengebiete in Geografie und Geschichte bestehen.
Es wurde bereits von der Allen Institute for Artificial Intelligence ein Computersystem Aristo gebaut, das durchschnittlich 75% der Punkteanzahl bei naturwissenschatlichen Tests erreicht, die für Viertklässler gedacht sind.
3 Physically Embodied Turing Tests
Beim 'physically embodied Turing Test' geht es darum, dass eine Maschine ein Objekt physisch so manipulieren kann, dass das Objekt eine andere Bedeutung oder einen anderen Nutzen hat.
Einerseits muss der Roboter mittels verbalen, geschriebenen oder illustrierten Instruktionen eine Anleitung für das neue Objekt vermitteln können ('construction track'), andererseits soll der Roboter auch improvisieren können und mit dem Tester (Menschen) kommunizieren, um spontan auf weitere Lösungen zu stoßen ('exploration track').[3] Dieser Test wird von einigen Forschern jedoch als 'science-fictional' eingestuft und ist momentan die schwierigste Herausforderung.
4 I-Athlon
Im Zuge von mehreren automatisierten Tests wird die Intelligenz einer Maschine anhand dessen gemessen, wie gut und schnell die Maschine Inhalte von Audio-, Text- und Videodateien in eigenen Worten wiedergeben und zusammenfassen kann. Diese Tests erfolgen jedoch ohne menschlichem Einfluss und werden von anderen Maschinen ausgewertet. KIs werden also von anderen KIs getestet.
Bedenken gibt es auch bei diesem Test, da die I-Athlon Algorithmen KI-Systemen für Aktionen eine hohe Bewertung geben könnten, die der Mensch nicht verstehen bzw. erklären kann. Eine Maschine könnte also laut Test intelligent sein, wir wüssten aber nicht warum. Hier hätten wir dann ein Black Box Problem.
Viele Forscher sind sich einig, dass der Turing Test nicht von einem dieser Test abgelösen werden kann, aber von einer Kombination dieser. Somit hätten wir den ultimativen Test für die Bestimmung künstlicher Intelligenz.
Aber es ist nur eine Frage der Zeit, bis Roboter auch unsere neuen Challenges bestehen.
“Sometimes it is the people ROBOTS no one can imagine anything of who do the things no one can imagine.”
― Alan Turing ft. lianaakobian
Der Titel ist ein rip-off vom Buch "Do Androids Dream of Electric Sheep?", welches einige von euch unter dem Namen 'Blade Runner' kennen werden. In der fiktiven Welt des Buches gibt es einen Test zur Identifizierung von Androiden:
Mittels einem Empathie-Test (Voigt-Kampff-Test) wird ermittelt, ob gefühlsmäßig angemessene oder unangebrachte Antworten auf vorgegebene Fragen erfolgen und es sich um einen Menschen oder Androiden handelt. Mit der Zeit nähern sich die Androiden jedoch auch hinsichtlich der Empathiefähigkeit den Menschen immer mehr an.
Das zentrale Thema des Buches ist die verschwimmende Grenze zwischen Menschen und Androiden, und auch die Frage, was den Menschen zum Menschen macht und den Androiden zum Androiden.
Werden Androiden irgendwann von elektrischen Schafen träumen? Was meint ihr?
Links
Quellen:
[1] Ein Trickser namens Eugene Goostman
[2] TURING TEST: The bots are not amused
[3] Why We Need a Physically Embodied Turing Test and What It Might Look Like
What Comes After the Turing Test?
Alle Grafiken wurden von mir erstellt.
1 Witz hihi
TL;DR:
Es gibt neue Tests als Maß für künstliche Intelligenz, die den Turing Test ablösen sollen.