News/Blog

10.09.2020

Das perfekte „Blinde-Kuh-Spiel“ oder mögliche Strategien für datenschutzkonforme Pseudonymisierung und Anonymisierung von Datensätzen

Eine erfolgreiche Pseudonymisierung / Anonymisierung setzt voraus, dass der entsprechend bearbeitete Datensatz keine Kombinationen von Merkmalen enthält, die als Quasi-Identifikatoren genutzt werden können. Zur Erinnerung: Werden bestimmte Merkmale durch nichtssagende Zeichenketten ersetzt, aber wird geschützt notiert, welcher Datensatz zu welcher natürlichen Person gehört, spricht man von Pseudonymisierung. Von einer Anonymisierung kann man nur dann sprechen, wenn die entsprechenden Stellen unwiederbringlich geschwärzt wurden und keine Kombination der nicht geschwärzten Daten eine Zuordnung zu einer natürlichen Person über eine Verknüpfung mit anderen Datenquellen erlaubt.

Strategien zur Pseudonymisierung und Anonymisierung. [Bildnachweis: iStock.com/anyaberkut]

k-Anonymität

In unserem Blogbeitrag „Wenn der Datenschutz „Blinde-Kuh“ spielt oder warum die Anonymisierung von Daten so schwierig ist“ haben Sie Talip, Tina, Tim und Tanja und ihre Strategien beim Blinde-Kuh-Spiel ja schon kennengelernt.

Schauen wir uns an, welche weiteren Strategien zum Schutz vor Identifikation möglich sind.

Nach einer Weile Herumtapsen und einer Menge Gekicher und Gezwicke erwischt Talip (ist in dieser Runder der Fänger) schließlich den Ärmel eines anderen Kindes. Als Talip vorsichtig über dessen Gesicht tastet, fühlt er auch immer wieder Haare, die ihm auf die Hände fallen. Da in der Gruppe nur Tanja lange Haare hat, weiß er gleich, wen er eingefangen hat. Hätten alle Kinder lange Haare, wäre ihm das nicht so leichtgefallen.

Die langen Haare sind im Beispiel der Quasi-Identifikator. Kommt die gleiche Kombination von Merkmalsausprägungen mehrfach – zum Beispiel k mal - vor kann sie nicht mehr als Quasi-Identifikator dienen.

Das ist die Grundidee der k-Anonymität: Ein Datentabelle muss für jeden Quasi-Identifikator mindestens k identische Zeilen aufweisen*. Die Tabelle muss dazu natürlich eine Mindestanzahl an Einträgen besitzen.

Für unser Blinde-Kuh-Beispiel würde das so aussehen:

Zur Protokollierung des Spiels wird eine Tabelle geführt, wer in welcher Runde als „blinde Kuh“ (Fänger) dran war. Darin stehen die Namen der Mitspieler, einige kennzeichnende Merkmale sowie die Nummer der zugehörigen Spielrunde. War jemand in keiner Runde Fänger, wird als Rundennummer „NULL“ eingetragen.

Tabelle 1 Verlauf eines 'Blinde-Kuh' Spiels

Name

Haare

Nase

Ohren

Augenbrauen

Runde

Talip

kurz

groß

klein

buschig

1

Tim

kurz

klein

groß

buschig

4

Tina

kurz

groß

klein

schmal

NULL

Tanja

lang

klein

groß

schmal

2

Tanja

lang

klein

groß

schmal

3

Aus der Tabelle lässt sich der Spielverlauf ziemlich gut nachvollziehen. In der ersten Runde hat Talip Tanja gefangen und identifiziert. In Runde 2 hat Tanja zunächst einen Mitspieler gefangen, aber falsch benannt und musste deswegen weiter als Fänger spielen. In Runde 3 hat sie Tim gefangen und korrekt identifiziert. Mit Runde 4 wurde das Spiel beendet.

Nehmen wir an, wir möchten herausfinden, ob bestimmte Merkmale von Spielern beim Blinde-Kuh-Spiel eher zu einer Identifizierung führen und die obigen Daten dazu nutzen. Fänger und Runde sollen dabei die sensitiven Daten darstellen, die nach einer Anonymisierung der Tabelle nicht mehr den Spielern zugeordnet werden dürfen. Eine 3-Anonymsierung würde im Beispiel nicht funktionieren, denn dazu bräuchten wir mindestens 6 Datenzeilen, da jedes biometrische Merkmal zwei Ausprägungen hat. Außerdem müssten alle Merkmale bis auf eines geschwärzt werden.

Eine 2-Anonymisierung würde für die obige Tabelle nur funktionieren, wenn wir alle Merkmale bis auf Nase und Ohren verbergen. Bei allen anderen Kombinationen ist immer mindestens ein Kind eindeutig zuordenbar – z.B. hat nur Tina kleine Ohren und schmale Augenbrauen.

Tabelle 2: 2-Anonymiserter Verlauf des Blindekuh-Spiels. Erfüllt auch die 2-Vielfalt.

Name

Haare

Nase

Ohren

Augenbrauen

Runde

XXXXX

XXXXX

groß

klein

XXXXX

1

XXXXX

XXXXX

klein

groß

XXXXX

4

XXXXX

XXXXX

groß

klein

XXXXX

NULL

XXXXX

XXXXX

klein

groß

XXXXX

2

XXXXX

XXXXX

klein

groß

XXXXX

3

Jeder der Quasi-Identifikatoren für Nase und Ohren kommt mindestens zweimal vor. Wären mehr Runden gespielt worden, hätte eine 2-Anonymisierung auch für mehr Merkmale funktioniert so wie im folgenden Beispiel: hier kommt jeder Quasi-Identifikator Haare, Nase, Ohren und Augenbrauen mindestens zweimal vor.

Tabelle 3: 2-anonymiserter Verlauf des Blindekuhspiels, aber ohne L-Vielfalt.

Name

Haare

Nase

Ohren

Augenbrauen

Runde

XXXXX

kurz

groß

klein

buschig

1

XXXXX

kurz

klein

groß

buschig

4

XXXXX

kurz

groß

klein

schmal

5

XXXXX

lang

klein

groß

schmal

2

XXXXX

lang

klein

groß

schmal

3

XXXXX

kurz

klein

groß

buschig

6

XXXXX

lang

klein

groß

schmal

7

XXXXX

kurz

groß

klein

buschig

8

XXXXX

kurz

groß

klein

schmal

9

Solange niemand über weitere ergänzende Informationen verfügt – z.B. wie viele Kinder mitgespielt haben oder jemand eines der Kinder persönlich kennt, ist der Datensatz anonym. Weiß jemand lediglich, dass am Spiel vier Kinder beteiligt waren, ist der Datensatz nicht mehr anonym, sondern lediglich pseudonymisiert: Alle Datensätze z.B. mit kurz, groß, klein, buschig müssen zum selben Kind gehören.

Ist die Anzahl der Mitspieler unbekannt, aber weiß jemand, dass die Daten von Tanja in der Tabelle enthalten sind und dass sie als einzige lange Haare hat, kann er ermitteln, in welchen Runden Tanja als Fänger an der Reihe war.

Analog wie wir hier die Erfolge von Talip, Tina, Tim und Tanja beim Blinde-Kuh-Spiel ermittelt haben, könnten beispielsweise personenbezogene Informationen über medizinische Befunde oder Bonitätsbewertungen auf ähnliche Weise aus einem vermeintlich anonymen Datensatz gewonnen werden.

L-Vielfalt (L-diversity)

Hätten z.B. vier weitere Mitspieler mit Tanja-identischen Quasi-Identifikationsmerkmalen mitgespielt, wäre eine Zuordnung von Tanja zu den Spielergebnissen sehr unwahrscheinlich geworden. Dieses Prinzip, dass ein Quasi-Identifikator nicht nur k-mal vorkommen muss, sondern dazu auch 2<= L<= k unterschiedliche Personen gehören, wird als L-Vielfalt bezeichnet.** Um eine 2-Vielfalt zu erreichen, hätten wir im letzten Beispiel (Tabelle 3) dazu mindestens acht Mitspieler gebraucht, von denen mindestens jeweils zwei identische biometrische Merkmale besitzen müssten.

Randomisierung und differentielle Strategien

Sehr ausgefeilte Angriffsformen gegen Anonymisierungsstrategien nutzen statistische Auswertungen und Datensatzvergleiche, um auszuspähen, ob Daten einer bestimmten Person oder Firma in einem Datensatz enthalten oder nicht enthalten sind*. Vereinfacht gesagt, wird sich z.B. das mittlere Einkommen in einem Steuerdatensatz, der Daten von Bill Gates enthält, deutlich von einem Datensatz unterscheiden, der diese nicht enthält. Aus der Betrachtung von Unterschieden (differential analysis) rührt der Name „Differentielle Strategien“.

Wenn wir das auf unser Blinde-Kuh-Beispiel anwenden, bedeutet dies, wenn wir wissen, dass Talip sehr gut im Erkennen seiner Mitspieler ist, dann werden seine biometrischen Merkmale in Spielen, in denen er dabei ist, weniger oft in aufeinanderfolgenden Spielrunden auftauchen, als bei Spielen, in denen er nicht dabei ist. Wird Talip als Mitspieler identifiziert, könnten zusätzlich Informationen über seine Haarlänge und Ohrengröße gewonnen werden, falls diese vorher nicht bekannt waren.

Als Gegenmaßnahme könnte man in allen Datensätzen die Spielrunden-Nummern nach einer geeigneten Zufallsstrategie vertauschen (Randomisierung), damit durch eine nachträgliche Analyse nicht mehr bestimmt werden kann, ob Talip mitgespielt hat (eine Auswertung, welche Merkmale eher zu einem erfolgreichen Erkennen eines Mitspielers beitragen, bleibt aber dennoch möglich).

Während die Anonymisierung der Dokumentation des Blinde-Kuh-Spiels von Talip, Tina, Tim und Tanja noch relativ einfach umzusetzen wäre, sind die Herausforderungen bei betriebswirtschaftlichen Datensätze für den Test von komplexen Software-Anwendungen deutlich größer. Lesen Sie dazu mehr in unserem nächsten Blogbeitrag.

Autor:

Christian Alexander Graf berät Unternehmen zu Teststrategien, Datenanalysen und IT-Sicherheit. Zusätzlich unterrichtet er Statistik und IT-Sicherheit u.a. an der DHBW in Mannheim.
Christian Alexander Graf ist außerdem Buchautor und hat etliche Fachartikel zu unterschiedlichen Themen rund um die Qualitätssicherung verfasst.

Co-Autorin:
Isabella Rieger ist Head of Marketing and Sales bei FMC GmbH und beschäftigt sich mit Software zur Erstellung von synthetischen Testdaten sowie für Testautomatisierung.

Referenzen
* = UN Handbook on Privacy Preserving Computation Techniques, UN Global Working
** = Machanavajjhala et al.: ℓ-Diversity: Privacy Beyond k-Anonymity, Cornell University, 2006.


‹ zurück