Das Corona Ziegenproblem

Wir schreiben das Jahr 1991. Damals war die Welt in heller Aufruhr wegen dem sogenannten Ziegenproblems. Heute ist die Welt in Aufruhr wegen Corona.

In diesem Artikel möchte ich euch zeigen, dass beides eng miteinander zu tun hat. Hierfür brauchen wir aber Mathematik und als wäre dies nicht schon schlimm genug benötigen wir sogar noch Stochastik.

Ich werde mich nicht zu tief in die Welt der Mathematik begeben, damit es auch noch für andere Menschen verständlich bleibt. Auch verzichte ich auf übermäßig viele Fachbegriffe. Seien es medizinische oder mathematische. Dennoch kann ich mir die nötige Mathematik nicht verkneifen.

Ziel der nachfolgenden Ausführung ist die Betrachtung des sogenannten Falsch-Positiv-Phänomens bei medizinischen Tests. Schlägt zum Beispiel ein PCR Test für Corona positive aus, heißt dies noch lange nicht, dass der getestete auch wirklich mit Corona infiziert ist. Wir werden später noch sehen, dass diese Wahrscheinlichkeit überraschend hoch sein kann. Dies ist ein mathematisches Phänomen, welches empirisch messbar ist.

Um dem Mysterium auf die Schliche zu kommen, brauchen wir bedingte Wahrscheinlichkeiten. Leider haben es bedingte Wahrscheinlichkeiten so an sich, dass der schein oft trügerisch ist. Die meisten Menschen würde aus ihrem Bauchgefühl heraus vermutlich oft falsch liegen. Daher sollten wir einen genauren Blick auf die Sache werfen.

Bedingte Wahrscheinlichkeiten

In der Stochastik gibt es verschiedene Modelle Wahrscheinlichkeiten zu berechnen. Über Wahrscheinlichkeitsräume möchte ich hier aber nicht weiter ins Detail gehen. Wir wollen schließlich noch auf den Punkt kommen.

Bedingte Wahrscheinlichkeiten lassen sich wie folgt definieren:

P(A|B) meint die Wahrscheinlichkeit, dass das Ereignis A eintritt und der Bedingung B. Die Wahrscheinlichkeit im Zähler beschreibt die Wahrscheinlichkeit, dass A und B eingetreten sind und der Nenner steht für die Wahrscheinlichkeit für B. Natürlich dürfen wir never ever durch 0 teilen und daher ist P(B)>0.

Es genügt uns also nicht, dass wir die Wahrscheinlichkeit für das eintreten von A und B kennen. Offenbar kann die Wahrscheinlichkeit durch die Zusatzinformation B beeinflusst werden.

Häufig wird in diesem Zusammenhang noch der Satz von Bayes mit ins Spiel gebracht. Zwar lässt sich die Falsch-Positiv-Wahrscheinlichkeit mit diesen berechnen, aber es reicht auch die Definition für bedingte Wahrscheinlichkeiten für die Modellierung des Problems aus. ¹

Das Ziegenproblem

Um schon mal einen Vorgeschmack auf das Falschliegen der Intuition der meisten Menschen zu bekommen, beginnen wir mit dem Ziegenproblem.

Vielleicht kennt ihr noch die Sendung "Geh aufs Ganze". Die Sendung hat ihr Vorbildung in der amerikanischen Sendung "Make a Deal".

In der Sendung hatte der Kandidat die Auswahl zwischen 3 Türen.

^{Quelle: Wikipedia}

Hinter 2 Türen befindet sich eine Ziege und hinter einer 3. Tür ein Auto.

Der Kandidat entscheidet sich zu Beginn für eine der 3 Türen. Anschließend öffnet der Moderator eine Tür, welche der Kandidat nicht gewählt hat und hinter der sich kein Auto befindet. Nun muss sich der Kandidat entscheiden, ob er bei der ursprünglichen Wahl bleibt oder zu der einzig verbleibenden Tür wechselt.

1991 wurde die von Marylon vos Savant in ihrer Kolumne "Ask Marylin" (Dr. Sommer für Intellektuelle ;) im Wochenmagazin "Parade" gefragt, ob es besser sei bei der ursprünglichen Wahl zu bleiben oder lieber zu wechseln.

Der Aufmerksamer Leser mag jetzt vielleicht meinen, dass es doch egal sei, ob man wechsle. Schließlich wird doch wohl die Wahrscheinlichkeit 0,5 sein.

Marylon vos Savant war da anderer Meinung. Sie behauptete die Wahrscheinlichkeit beim Wechsel zu gewinnen sei 2/3.

Diese Antwort entfachte einen gigantischen Shitstorm, wie wir heute sagen würden. 90% der Zuschriften an die Kolumne waren anderer Meinung. Darunter befanden sich viele Akademiker und Mathematiker. Das ganze löste sogar ein Medienecho aus, welches bis heute nachhalt.

Sicher können es auch einige von euch nicht fassen. Man könnte "Leugner" jetzt mit Simulationen langweilen etc.. Ich würde euch gerne die meiner Meinung nach einfachste Erklärung liefern.

Unter Schülern hat man eine Untersuchung bzgl. des Ziegenproblems gemacht. Dabei hat die überwältigende Mehrheit erwartungsgemäß die falsche Antwort gegeben. Es gab aber auch einige Wenige, welche die richtige Antwort wussten. Lustigerweise waren dies eher Sekundarstufe 1 Schüler.

Diese hat man gefragt, wie sie auf die richtige Antwort gekommen sind. Die meisten haben eine feste Konfiguration angenommen und die Perspektive des Moderators eingenommen.

Nehmen wir o.B.d.A. an dass wir folgende Konfiguration haben: A, Z, Z

Würde der Kandidat Tür 1 wählen, kann der Moderator Tür 2 oder 3 öffnen. Wechselt nun der Kandidat, verliert er.

Wählt Kandidat Tür 2, muss der Moderator Tür 3 öffnen und beim Wechseln gewinnt der Kandidat. Analog verhält es sich, falls der Kandidat Tür 3 wählen würde.

Folglich ist die Wahrscheinlichkeit beim Wechseln zu gewinnen 2/3, da man in 2 von 3 Fällen gewinnen würde. ^1,2,3,4,5

Das Falsch-Positiv-Phänomen

Wie schon erwähnt können bedingte Wahrscheinlichkeiten überraschende Ergebnisse liefern, die vielleicht einige nicht glauben, da sie ihrer Intuition widersprechen. So wie beim Ziegenproblem werden wir auch hier ein Überraschung erleben.

Damit unser Ergebnis besonder überraschend ist, gehen wir von einem sehr guten PCR Test aus und einer relativen hohen Durchseuchungsrate. Werden wir stochastisch.

Medizinische Tests haben 2 bedingte Wahrscheinlichkeiten, die wir brauchen werden - die Spezifität und die Sensitivität.

Sei K das Ereignis krank zu sein und N die Wahrscheinlichkeit ein negatives Testergebnis zu erhalten. Die Negation wird nachfolgend mit einem Oberstrich dargestellt.

P(K) sei die sogenannte Durchseuchungsrate, d.h. die Wahrscheinlichkeit in der deutschen Bevölkerung mit Corona infiziert zu sein.

Die Spezifität ist die Wahrscheinlichkeit, dass eine gesunde Person als gesund erkannt wird. Folglich ist dies bedingte Wahrscheinlichkeit ein negatives Testergebnis zu erhalten unter der Bedingung gesund zu sein. Analog ist die Sensitivität die bedingte Wahrscheinlichkeit ein positives Testergebnis zu erhalten unter der Bedingung krank zu sein.

Wir gehen nun von einer Durchseuchungsrate von 0,022 (2,2%), einer Spezifität von 0,95 und von einer Sensitivität von 0,98 aus.

^{Mit GeoGebra erstellt}

Jetzt müssen wir unsere Definition für bedingte Wahrscheinlichkeiten anwenden. Wir wollen nämlich jetzt die Wahrscheinlichkeit berechnen, dass ein Getesteter nicht krank ist unter der Bedingung, dass der Test positiv ausfällt.

^{Mit GeoGebra erstellt}

0,694 bedeutet also, dass die Wahrscheinlichkeit für einen Falsch-Positv-Test bei ca. 69,4% liegt. Wie versprochen ist dieses Ergebnis sehr überraschend. Wie lässt sich dies erklären?

Aufgrund der geringen Durchseuchungsrate sind auch sehr wenige positive Tests zu erwarten. Dies führt dazu, dass die Fehlerquoten des PCR Tests starke Auswirkungen haben, selbst bei einer minimalen Fehlerquote eines Tests.

Um das zu visualisieren, habe ich das Ganze mal mit einer variablen Durchseuchungsrate geplottet.

^{Mit GeoGebra erstellt}

Wir sehen also, dass mit abnehmender Durchseuchungsrate der Falsch-Positiv-Fehler massiv zunimmt.

Ein häufiges Argument ist, dass sich diese Problematik mit Mehrfachtest beheben ließe. Ob in Praxis mehrfach getestet wird und wenn ja wie viel kann ich nicht beantworten, insbesondere in der internationalen Betrachtet. Aber Mathematiker interessieren weniger für die Realität, auch wenn wir stets nach Modell suchen. ^1,6

Die Lösung der Mehrfachtests?

Ich werde nun die Mehrfachtests modellieren. Natürlich gelten unsere Überlegungen nur im Modell und entsprechen nicht der Realität. Beispielweise könnte der PCR Test schlechter sein als angenommen, es wird nicht zwischen symptomatisch und asymptomatisch differenziert, der Test könnte falsch durchgeführt worden sein oder es könnten 1-2 Wochen Abstand zwischen 2 Tests liegen.

Für unsere Modellierung stellen wir uns einmal vor, wir würden alle Menschen, die wir getestet haben, nochmal testen. Seien dies im Folgenden T Menschen. Unsere Wahrscheinlichkeit, welche in der Beispielrechnung 0,694 war, sei F₁.

Offenbar wären unter den T positiv getesteten T^.F₁ gesunde zu erwarten und T^.(1-F₁) kranke. Für T=1000 und F₁=0,694 hätte man beispielsweise 306 kranke und 694 gesunde und eine Durchseuchungsrate von 1-F₁=0,306.

Wenn wir nun die neue Falsch-Positiv-Wahrscheinlichkeit F₂ berechnen analog zu F₁, ergibt sich F₂=0,104.

Das Interessante ist, dass nun die neue Durchseuchungsrate 1-F₂ ist. Mit jedem zusätzlichen Test den wir machen, würde also die Durchseuchungsrate sukzessiv abnehmen und damit die Falsch-Positiv-Wahrscheinlichkeit signifikant reduziert werden.

Leider ist es nicht transparent im welchen Umfang Mehrfachtests durchgeführt werden und ob jeder "Infizierte" und Verstorbene auch mehrfach getestet wird.

Quellen

Nobert Henze, Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls, 8. Auflage
https://de.wikipedia.org/wiki/Ziegenproblem
https://de.wikipedia.org/wiki/Geh_aufs_Ganze!
Image:
https://www.zeit.de/2004/48/N-Ziegenproblem
https://www.uni-bonn.de/neues/111-2020