Vorratsdatenspeicherung, algorithmische Terrorbekämpfung und der Satz von Bayes

Ich bin ja sonst eigentlich kein Freund von utilitaristischen Begründungen für oder wider Vorratsdatenspeicherung und algorithmische Terrorbekämpfung (also, Big Data zur Terrorist_innenerkennung), aber Cory Doctorow (@doctorow) hat mich mit einem Tweet (den ich leider nicht mehr finde) angespitzt, doch noch einmal mein statistisches Bauchgefühl zu präzisieren, dass nämlich die algorithmische Aus-/Bewertung von Verkehrsdaten kontraproduktiv ist und keine brauchbaren Ergebnisse oder Ansätze für Ermittlungsbehörden zum Erkennen von Terrorismus produziert. Im Folgenden will ich das mit Zahlen befüttern, um zum Einen nach längerer Pause mal wieder meinen kleinen Statistiknerd zu befriedigen, und außerdem, um eine zusätzliche Argumentation gegen die unbedingte Technikgläubigkeit zu vermitteln, mit der teilweise in Strafverfolgung (unter anderem auch bei Pre-Crime-Versuchen) argumentiert wird. Das ganze ist aber schlussendlich nur ein Argument unter vielen und sollte nicht überstrapaziert werden – viel wichtiger und grundsätzlicher bei der Debatte über die Vorratsdatenspeicherung sind und bleiben für mich die sozialen und politischen Auswirkungen von permanenter Beobachtung und damit Strafandrohung auf das Individuum.

Auf jeden Fall: Cory Doctorow argumentiert im Endeffekt, auch wenn er es nicht explizit so benennt, mit dem Satz von Bayes. Wenn die sogenannte A-priori-Wahrscheinlichkeit für das Vorliegen eines bestimmten Zustands sehr klein ist, führen auch nur minimale falsch-positive Ergebnisse bei einem Test (also, dass der Test sagt, dass der Zustand vorliegt, auch wenn er es eigentlich nicht tut) zu massiven Einbrüchen in der Vertrauenswürdigkeit und Zuverlässigkeit des Ergebnisses des Tests. Und genau dieser Umstand liegt bei der Erkennung von Terrorismus vor: die A-priori-Wahrscheinlichkeit, dass nämlich ein zufällig ausgewähltes Individuum der Grundgesamtheit (alle überwachten Personen) eine Terrorist_in ist, ist extrem klein.

Da ich leider keine Zahlen zur Zuverlässigkeit der Algorithmen habe, die von Geheimdiensten oder Polizeibehörden bei der Auswertung von Vorratsdaten eingesetzt werden, muss ich behelfsweise mit Zahlen arbeiten, die aus einem verwandten Umfeld stammen: Spam-Bekämpfung, im besonderen SpamAssassin. Die Software funktioniert, indem über die Prüfung verschiedener Faktoren eine sogenannte Spam-Score (eine Zahl) für eine Mail berechnet wird, die ab einem bestimmten Schwellenwert zur Klassifizierung als Spam führt. Im Hintergrund arbeitet ein evolutionärer Algorithmus, welcher anhand von manuellem Training (sprich: Menschen, die Mails klassifizieren) den Einfluss der einzelnen Teilprüfungen auf die Gesamtwertung immer wieder anpasst und somit schlussendlich die Gewichtung der einzelnen Tests festlegt, um bestmögliche Übereinstimmung des Ergebnisses der Software mit der händischen Klassifizierung der Menschen zu erreichen. Im Grundsatz ist davon auszugehen, dass Geheimdienste und Polizeibehörden ähnliche Algorithmen einsetzen, um Vorratsdaten auszuwerten und zu klassifizieren, da diese schlicht aufgrund der Masse von Daten nicht mehr von Menschen ausgewertet werden können und damit die eingesetzte Software ähnliche Fehlerwahrscheinlichkeiten aufweisen wird.

SpamAssassin ist bereits seit mehr als zehn Jahren ein bekanntes und beliebtes Tool zur Spam-Bekämpfung, und deshalb ist das Scoring-System schon lange annähernd optimal trainiert auf der Grundlage der Einzelprüfungen, die dem System als Eingaben zur Verfügung stehen. Ich habe hierzu Zahlen von 2008 gefunden (mit der Bitte um Hinweise zu neueren Zahlen, falls die eine Leser_in findet), die folgende bedingten Wahrscheinlichkeiten für Fehlklassifizierungen beim Standardeinsatz (Spam-Markierung ab einem Schwellenwert von 5.0) auf einen Korpus angeben:

P(T|S^c)=0.0006
P(T^c|S)=0.0149 \Leftrightarrow P(T|S)=0.9851

mit S dem Ereignis, dass eine Mail Spam ist und T dem Ereignis, dass der Test – also SpamAssassin – ein positives Ergebnis liefert. Die erste Zeile beschreibt die Wahrscheinlichkeit für falsch-positive Ergebnisse (etwa 0.06%), dass nämlich unter der Voraussetzung des Vorliegens einer Ham-Mail (also, einer „guten“) dennoch eine Klassifizierung als Spam stattfindet, während die zweite Zeile (vor der Umformung) die Wahrscheinlichkeit für falsch-negative Ergebnisse (etwa 1.49%) darstellt, dass nämlich unter der Voraussetzung des Vorliegens einer Spam-Mail der Test ein negatives Ergebnis liefert.

Interessant zur Bewertung der Nützlichkeit des Tests ist jedoch eine andere bedingte Wahrscheinlichkeit: P(S|T), die darstellt, mit welcher Wahrscheinlichkeit eine Mail unter der Voraussetzung eines positiven Testergebnisses auch tatsächlich eine Spam-Mail ist. Diese kann mit dem Satz von Bayes bestimmt werden, wenn zusätzlich noch P(S) (also die Auftrittswahrscheinlichkeit von Spam in allen Mails) bekannt ist. Hierzu kann ich eine Schätzung von P(S)=0.9 (90% aller Mails ist Spam) zu Grunde legen, die in etwa den empirisch gewonnenen Daten entspricht:

P(S|T)>0.9999 \Leftrightarrow P(S^c|T)<0.0001

Dies bedeutet, dass statistisch weniger als 0.01% der Mails, die der Test als Spam klassifiziert, in Wirklichkeit keine Spam-Mails sind, und somit ist die Fehlerwahrscheinlichkeit bei der Nutzung des Ergebnisses von SpamAssassin als Grundlage einer Handlungsentscheidung (z.B. Ablehnung der Mail) sehr gering.

Wenn diese Zahlen nun auf die algorithmische Erkennung von Terrorist_innen übertragen werden bedeutet das, dass die Variable S als „Mensch ist eine Terrorist_in“ und T als „Big Data Algorithmus liefert ein positives Testergebnis“ interpretiert werden. Im Unterschied zu SpamAssassin ist jedoch P(S) deutlich kleiner. Wenn ich Zahlen des BKA zugrunde lege, gibt es etwa 1.000 Gefährder_innen in Deutschland (mit insgesamt etwa 80.000.000 Menschen), was dann zu:

P(S)=\frac{1000}{80000000}=0.000013

als Wahrscheinlichkeit, dass eine Person eine Terrorist_in ist, führt (0.0013%). Hiermit kann wiederum P(S|T) mit Hilfe des Satzes von Bayes berechnet werden:

P(S|T)=0.0208 \Leftrightarrow P(S^c|T)=0.9792

was bedeutet, dass unter der Voraussetzung eines positiven Ergebnisses des von Polizeibehörden oder Geheimdiensten eingesetzten Algorithmus und bei ähnlichen bedingten Fehlerwahrscheinlichkeiten wie SpamAssassin etwa 98% der als Terrorist_in klassifizierten Personen keine sind. Dies widerspricht instinktiv der sehr kleinen falsch-positiv Wahrscheinlichkeit des Algorithmus (P(T|S^c)=0.0006, 0.06%), ist jedoch eine unmittelbare Folge der geringen Auftrittswahrscheinlichkeit von Terrorist_innen in der Gesamtbevölkerung.

Auch wenn das positive Ergebnis eines solchen Big Data-Algorithmus nicht unmittelbar zu Zwangsmaßnahmen führt oder aber die Grundlage für eine Strafverfolgung ist, so ist es dennoch für Befürworter_innen des Einsatz von Big Data die zentrale Begründung für weitere Maßnahmen mit empfindlichen Auswirkungen auf das zu unrecht verdächtigte Individuum, wie etwa langfristige Observierung, Befragung, oder auch Einschränkung in der Teilnahme am öffentlichen Leben. Aufgrund der Fehlerwahrscheinlichkeit stehen jedoch die Maßnahmen in keiner Verhältnismäßigkeit mehr zum eigentlichen Zweck, den sie verfolgen wollen und für den das Big Data Verfahren die argumentative Grundlage liefern soll. Falls die Auswirkungen einer falschen Terrorismusverdächtigung nicht klar sein sollten, reicht es, die Geschichte von Andrej Holm zu verfolgen, der Opfer einer solchen Falschverdächtigung, wenn auch auf anderer Grundlage, wurde.

Schlussendlich ist und bleibt algorithmische Auswertung von großen Datenmengen zur Erkennung von Eigenschaften mit geringem Auftreten nicht viel mehr als Kristallkugelgucken, und hat damit – neben den massiv negativen Auswirkungen der für sie notwendigen Totalüberwachung auf eine Gesellschaft – auch statistisch keine Grundlage für eine verhältnis- und zweckmäßige Strafverfolgung und Polizeiarbeit.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.