News/Blog

03.09.2020

Wenn der Datenschutz „Blinde-Kuh“ spielt oder warum die Anonymisierung von Daten so schwierig ist

Gemäß der DSGVO* bedeutet Pseudonymisierung „die Verarbeitung von personenbezogenen Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können“. Die zusätzlichen Informationen müssen dabei gesondert aufbewahrt und geschützt werden.

Anonym sind Daten nur dann, wenn sie keiner natürlichen Person – auch unter Hinzunahme zusätzlicher Informationen – mehr zugeordnet werden können.

Zur klaren Unterscheidung dient das folgende Kriterium: Eine Pseudonymisierung kann rückgängig gemacht werden, eine Anonymisierung nicht**.

Ziel von beiden ist es, sensible Informationen für eine weitere Nutzung oder Analyse verfügbar zu machen, ohne individuelle Datenschutzansprüche zu verletzen.

Schauen wir uns im Folgenden einmal an, wie schnell eine vermeintlich „sichere“ Anonymisierung oder Pseudonymisierung diesen Zweck verfehlen kann.

Strategien zur Pseudonymisierung und Anonymisierung. [Bildnachweis: iStock.com/ConceptCafe]

Pseudonymisierung, Anonymisierung und das Blinde-Kuh-Spiel

Talip, Tina, Tim und Tanja spielen Blinde-Kuh. Tina verbindet Talip die Augen, so dass er nichts sehen kann. Talip wird ein paarmal im Kreis herumgedreht und muss dann einen Mitspieler fangen und durch Abtasten des Gesichts herausfinden, wen er gefangen hat. Die Binde muss dabei vor den Augen bleiben. Ziel des Spiels ist es ja, die durch die Binde augenscheinliche Unkenntlichmachung eines Mitspielers zu umgehen und ihn eindeutig zu identifizieren.

Ähnlich wie beim Blindekuh-Spiel, bei dem nur die visuellen Hinweise ausgeblendet sind, werden bei der Pseudonymisierung Daten zum Teil unkenntlich gemacht, können aber wiederhergestellt werden. Im Unterschied zum Spiel darf aus den verbliebenen Daten aber nicht mehr auf eine Person geschlossen werden – auch nicht mit Vorwissen.

Eine gelungene Pseudonymisierung im Spiel wäre damit eine perfekte Tarn-Strategie der Mitspieler, die es dem Fänger nicht mehr erlaubt, durch Tasten einen von ihnen zu erkennen. Z.B. könnten sie Masken aufsetzen. Nach den Regeln der DSGVO müssten die Spieler zusätzlich ihre eigene Identität vergessen – sie dürften sich selbst nicht verraten können. Die Information zu welcher Maske welcher Spieler gehört, würde auf Zetteln aufgeschrieben in einer verschlossenen Truhe aufbewahrt, zu der nur der Spielleiter den Schlüssel hat.

Familie und Freunde könnten jeden einzelnen von ihnen sicher trotzdem noch identifizieren, weil dieser Personenkreis über entsprechendes zusätzliches Wissen verfügt. Und genau darin liegt die Angreifbarkeit unzureichender Pseudonymisierungs- und Anonymisierungsstrategien. Wenn man nicht richtig aufpasst, kann eine clevere „blinde Kuh“ die Mitspieler viel zu leicht beim Namen nennen.

Warum Pseudonymisierung keine Anonymisierung ist

Angenommen Talip, Tina, Tim und Tanja haben sich gerade erst auf einem Schulfest kennen gelernt. Statt ihrer richtigen Namen haben sie Namensschilder mit ihren Lieblings-Märchenfiguren (Bilbo, Ronja, Lancelot und Chewie) bekommen. Auf den Namensschildern steht auch die Klasse. Da außer dem Namen kein sichtbares Merkmal verborgen ist, kann der echte Nachname durch zusätzliche Informationsquellen in der Regel in Erfahrung gebracht werden. Nehmen wir an, Tim ist aus der 6b und mag seinen echten Namen nicht verraten. Talip aus der 6d hat einen Freund in der 6b und fragt ihn später, ob es da einen Jungen gibt, der sich für Ritter interessiert und einen dicken Pickel auf der Nase hat. Der Freund verrät ihm, dass das Tim ist.

Quasi-Identifikatoren und Linking

Merkmale, die zusammengenommen erlauben, einen Datensatz einer Person zuzuordnen, werden als Quasi-Identifikatoren bezeichnet.

Ein offensichtlicher Quasi-Identifikator ist z.B. eine Kombination aus Schule, Klasse, Geburtsdatum und Geschlecht. Hat jemand eine zweite Liste zur Hand, in der nur die Namen von Schülern zusammen mit den Geburtsdaten stehen, kann er diese beiden Listen leicht miteinander verbinden und wird jetzt für fast alle Schüler auf der Liste wissen, in welche Klasse sie gehen. Diese Verknüpfung von zwei Datentabellen wird im Englischen als Linking bezeichnet. ***

Die meisten Quasi-Identifikatoren sind leider weniger offensichtlich: Die jetzige Harvard-Professorin Latanya Sweeney hat bereits vor über 20 Jahren in ihrer Zeit an der Carnegie Mellon Universität nachgewiesen, dass sich über den Quasi-Identifikator Postleitzahl, Geburtsdatum, Geschlecht in Krankenhäusern gesammelte medizinische Daten mit anderen, öffentlich zugänglichen verfügbaren Datenquellen wie beispielsweise Wählerverzeichnissen, so verknüpfen ließen, dass medizinische Befunde wieder ihren ursprünglichen Eigentümern zugeordnet werden konnten.

Selbst die scheinbar „unschuldige“ Kombination Postleitzahl und Berufsbezeichnung ermöglicht es unter Umständen einen Namen zu einem Datensatz zu finden. Suchen Sie in Google nach einem Dipl.-Math. mit der Postleitzahl der Wohnadresse von Herrn Graf, finden Sie damit sofort und ausschließlich den Namen Christian Alexander Graf und dessen vollständige Adresse - „Das Örtliche“ macht es möglich.

Wie wir bei Talip, Tina, Tim und Tanja gesehen haben, bietet „Maskieren“ alleine keinen ausreichenden Schutz vor Identifikation. Übertragen auf Datensätze bedeutet die, dass ein simples „unkenntlich machen“ eines Namens durch eine Zufallszeichenkette oder durch Schwärzen, also das Maskieren, nicht ohne Weiteres echten Datenschutz bietet. Jede Kombination der übrigen Merkmale im Datensatz lässt sich als Teil eines Quasi-Identifikators nutzen und mit Inhalten anderer Datenlisten, in denen der Name enthalten ist, abgleichen. Je mehr Merkmale ausgewiesen werden, desto höher sind die Chancen, dass dies gelingt.

Wie Pseudonymisierung und Anonymisierung umgesetzt werden müsste, um erfolgreich datenschutzrechtlichen Anforderungen zu genügen, zeigen Ihnen Talip, Tina, Tim und Tanja in unserem nächsten Blogbeitrag – bleiben Sie dran.

Autor:

Christian Alexander Graf berät Unternehmen zu Teststrategien, Datenanalysen und IT-Sicherheit. Zusätzlich unterrichtet er Statistik und IT-Sicherheit u.a. an der DHBW in Mannheim.
Christian Alexander Graf ist außerdem Buchautor und hat etliche Fachartikel zu unterschiedlichen Themen rund um die Qualitätssicherung verfasst.

Co-Autorin:
Isabella Rieger ist Head of Marketing and Sales bei FMC GmbH und beschäftigt sich mit Software zur Erstellung von synthetischen Testdaten sowie für Testautomatisierung.

Referenzen
* = DSGVO: Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates vom 27. April 2016 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten, zum freien Datenverkehr und zur Aufhebung der Richtlinie 95/46/EG (Datenschutz-Grundverordnung) (Text von Bedeutung für den EWR), Europäische Union, 2016.
URL: https://eur-lex.europa.eu/legal-content/DE/TXT/?uri=CELEX%3A32016R0679

** = ISO/IEC 29100:2011, Information technology — Security techniques — Privacy framework

*** = Latanya Sweeney: Simple Demographics Often Identify People Uniquely. Carnegie Mellon University, Data Privacy Working Paper 3. Pittsburgh 2000.


‹ zurück