News/Blog

08.10.2020

Welcher Promi fährt welches Auto oder die Risiken bei der Verwendung „anonymisierter“ Echtdaten als Testdaten

In unserem letzten Blogbeitrag Das perfekte „Blinde-Kuh-Spiel“ oder mögliche Strategien für datenschutzkonforme Pseudonymisierung und Anonymisierung von Datensätzen haben wir die Herausforderungen bei der Pseudonymisierung und Anonymisierung und die typischen Risiken beleuchtet.

Am Beispiel von Autoversicherungen wollen wir uns nun anschauen, was das für die Anonymisierung von Echtdaten zur Gewinnung von Testdaten bedeutet.

Testdaten müssen so gestaltet sein, dass damit alle wesentlichen Systemfunktionen getestet werden können. Bei einer Autoversicherung soll durch den Test beispielsweise sichergestellt werden, dass Policen korrekt und fair berechnet werden. Die Berechnung der Police darf nicht einseitig zu Lasten des Kunden oder des Versicherers gehen.

Faktoren, die in die Berechnung eingehen sind z.B.

  • Die Typklasse des Fahrzeugs
  • Alter bzw. Geburtsdatum des Fahrers / der Fahrerin
  • Postleitzahl des Fahrzeughalters
  • Berufsgruppenzugehörigkeit
  • Die Schadensfreiheitsklasse des Fahrzeughalters
  • Regulärer Abstellplatz des Fahrzeugs
  • Name des Fahrers / der Fahrerin
  • Information, ob der Fahrzeughalter bestimmte weitere Versicherungen bei dem Unternehmen abgeschlossen hat
  • Nutzung von Telematikdaten für einen ggf. vergünstigten Tarif

Risiken bei der Verwendung „anonymisierter“ Echtdaten als Testdaten [Bildnachweis: iStock.com/Predrag Vuckovic]

Ein vernünftiger Ansatz ist, mit Hilfe eines systematischen Testentwurfsverfahrens, wie z.B. der Äquivalenzklassen-Analyse, die benötigten Gruppen von Testdaten zu ermitteln und gezielt zu generieren (synthetische Testdaten).

Leider spukt in vielen Köpfen immer noch die Idee umher, dass Testdaten nur dann “repräsentativ“ sind, wenn sie aus Echtdaten gewonnen werden. Bei der Gewinnung der Testdaten aus Echtdaten können jedoch brisante Datenlecks entstehen. Bei einer misslungenen Anonymisierung kann nicht nur nachvollzogen werden, wer der Versicherte ist, sondern ggf. mittels ergänzender Informationen aus einem sogenannten Telematikbaustein, wie er von einigen Versicherungen aktuell angeboten wird, auch auf sein Fahrverhalten geschlossen werden. Im Falle eines prominenten Versicherungsnehmers können durchgesickerte Informationen schnell ein gefundenes Fressen für Boulevardblätter werden, die dafür gelegentlich auch den einen oder anderen Euro springen lassen. Der Schaden für den Ruf der Versicherung kann – neben dem Ärger mit Datenschutzaufsichtsbehörden – enorm sein.

Warum k-Anonymisierung und ℓ-Vielfalt in der Anonymisierung zu Testzwecken fehlschlagen können

Einige Versicherer nutzen zur Ermittlung der Typklasse z.B. die sogenannte Fahrzeugidentifikationsnummer (FIN); die FIN ist landläufig auch als Fahrgestellnummer bekannt. Sie ist eindeutig und kann damit dem Fahrzeughalter eindeutig zugeordnet werden. Damit stellt die FIN ein personenbezogenes Datum dar*. Taucht die FIN eines realen Versicherungsnehmers in einem Testdatensatz auf, ist er damit nicht anonymisiert – auch wenn die übrigen Daten maskiert wurden. Mindestens die versicherte Person wäre im Testdatensatz als Kunde des Versicherers identifizierbar.

Statt der kompletten FIN könnten nur die ersten neun Stellen der FIN in den Testdaten zur Ermittlung der Typklasse verwendet werden. Aus den ersten 9 Ziffern lassen sich Hersteller, Modell, Fahrzeug- und Motortyp ermitteln**. Manche Versicherungsprogramme nutzen zur Typklassen-Ermittlung auch eine Kombination aus Hersteller, Typschlüssel, Leistung und Hubraum. Das Risiko bei der Anonymisierung: Ein Rolls Royce Phantom (Typschlüssel 001) ist deutlich seltener auf der Straße anzutreffen als ein Opel Adam (Typschlüssel AWJ, AWK, AWL) ***. Aus einer seltenen Automarke lässt sich zusammen mit einer Postleitzahl ein sogenannter Quasi-Identifikator gewinnen (siehe auch Wenn der Datenschutz „Blinde-Kuh“ spielt oder warum die Anonymisierung von Daten so schwierig ist bzw. Das perfekte „Blinde-Kuh-Spiel“ oder mögliche Strategien für datenschutzkonforme Pseudonymisierung und Anonymisierung von Datensätzen – umso leichter, wenn z.B. noch ein Geburtsdatum oder -jahr hinzukommt, das sich auf Wikipedia nachschlagen lässt.

Für Personen des öffentlichen Lebens lassen sich oft aus Boulevardblättern, Lokalzeitungen oder Internetbeiträgen Automarke und das Postleitzahlengebiet des Wohnortes ermitteln. Verknüpft ein „findiger“ Mitarbeiter diese Informationen mit unzureichend anonymisierten Daten z.B. aus einem Testsystem, ist der Datenschutz nicht mehr gewährleistet. Zur Info, wo der Prominente versichert ist, kann der Mitarbeiter dann evtl. auch Rückschlüsse ziehen, welche Versicherungen der Prominente außerdem beim Versicherungsgeber hat, wer im Prominenten-Haushalt das Auto fährt, ob es Unfälle mit dem Fahrzeug gab usw.

Risiken bei der Verwendung „anonymisierter“ Echtdaten als Testdaten [Bildnachweis: iStock.com/alexsl]

Voraussetzungen für eine gelungene Anonymisierung ist deshalb, dass es genügend „gleich“ aussehende Testdatensätze gibt (k-Anonymisierung) und dass hinter den gleich aussehenden Datensätzen nicht immer die gleiche Person steckt (ℓ-Vielfalt). Detaillierte Informationen zu diesen Konzepten finden Sie im Beitrag Das perfekte „Blinde-Kuh-Spiel“ oder mögliche Strategien für datenschutzkonforme Pseudonymisierung und Anonymisierung von Datensätzen.

Um in unserem Beispiel Echtdaten zum Testen anonymisieren zu können, würden salopp gesagt viele Rolls-Royce Besitzer mit gleichem Wohnort benötigt. Das scheitert jedoch einfach schon daran, dass Beverly Hills nicht in Deutschland liegt.

Die drei Hauptrisiken bei der Umwandlung von Echtdaten in Testdaten

Die Schwierigkeiten der Anonymisierung von Echtdaten für den Einsatz im Test lassen sich in drei Punkten zusammenfassen:

  1. Für Tests werden meist viele unterschiedliche Parameter in einem Datensatz benötigt. Das erschwert eine erfolgreiche k-Anonymisierung. L-Vielfalt setzt Redundanz über wichtige Attribute hinweg voraus. Für manche Situationen gibt es aber nur wenige Echt-Daten oder schlimmstenfalls genau einen Datensatz, der die Kriterien für einen bestimmten Test erfüllt – z.B. einen Rolls-Royce zu versichern.
  2. Vorwissen zu Datensätzen kann in den Köpfen der Tester vorhanden sein. „Wann ist die Führungskraft Müller dem Unternehmen beigetreten? Aha – dieser Datensatz hat ein passendes Datum.“ Eventuell hatten Tester in der Vergangenheit (als Datenschutz noch nicht so streng gehandhabt wurde) auch Zugriff auf die Echtdaten. („Ach ja, der XXXXX mit den sieben Mahnungen ist der Herr Meier aus Buxtehude – Oh, jetzt sind es ja schon neun Mahnungen.“). Zusätzliches Wissen kann auch aus anderen Quellen, wie z.B. der Presse, gewonnen werden.
  3. Da Testdaten in der Regel archiviert werden, können Sie leicht für differentielle Analysen genutzt werden. Was hat sich innerhalb der letzten Releases denn getan? Lassen sich Änderungen in Datensätzen anderweitig bekannten (oder nicht bekannten) Ereignissen zuordnen? Dann weiß ein cleverer Tester, zu wem der entsprechende Datensatz gehört, und die Anonymität ist verloren. „Oh – da muss die Abteilung X aber gewaltige Gehaltserhöhungen bekommen haben.“

Fazit

Gleichzeitig K-Anonymität, L-Vielfalt und differentielle Anonymität zu erreichen, ist der heilige Gral der Daten-Anonymisierung. Ihn zu erreichen ist machbar, erfordert aber das Zusammenspiel von höchster Fachkenntnis in Informatik, Statistik und der jeweiligen Fachdomäne.

Passgenaue synthetische Testdaten zu genieren ist für den Test wesentlich effizienter und einfacher, erfordert nur die Kenntnis grundlegender Testentwurfstechniken und ist mit keinerlei Datenschutzrisiken verbunden. Mehr über die Vorteile von synthetischen Testdaten und wie damit im Test mehr Effizienz erzielt werden kann, lesen Sie in unserem nächsten Blogbeitrag. Bleiben Sie dran.

Autor:
Christian Alexander Graf berät Unternehmen zu Teststrategien, Datenanalysen und IT-Sicherheit. Zusätzlich unterrichtet er Statistik und IT-Sicherheit u.a. an der DHBW in Mannheim.
Christian Alexander Graf ist außerdem Buchautor und hat etliche Fachartikel zu unterschiedlichen Themen rund um die Qualitätssicherung verfasst.

Co-Autorin:
Isabella Rieger ist Head of Marketing and Sales bei FMC GmbH und beschäftigt sich mit Software zur Erstellung von synthetischen Testdaten und für Testautomatisierung.

Referenzen
* = 10 Fragen und Antworten zum Thema Datenschutz im Kfz, URL: https://lfd.niedersachsen.de/themen/datenschutz_im_kfz/kfz-und-datenschutz-148981.html abgerufen am 26.08.2020
** = Die FIN macht das Auto unverwechselbar, URL: https://www.adac.de/rund-ums-fahrzeug/auto-kaufen-verkaufen/kfz-zulassung/fahrzeugidentifikationsnummer/ , abgerufen am 26.08.2020
*** = Verzeichnis der Hersteller und Typen der für die Personenbeförderung ausgelegten und gebauten Kraftfahrzeuge mit mindestens vier Rädern, SV 4.2, Kraftfahrtbundesamt, 15. August 2020.


‹ zurück