Folge #66 – Anonymisierung und Pseudonymisierung

Written by

in

Beschreibung

In dieser Folge es um den Umgang mit personenbezogenen Daten, der ist nicht erst seit dem In-Kraft-Treten der neuen DSGVO besonderen Reglementierungen unterworfen. Und dies gilt gerade im Gesundheitsbereich, wo wir es mit sensiblen Daten zu tun haben. Was liegt also näher, als das Problem zu umgehen, indem man den Personenbezug aus den Daten entfernt. Und schon sind wir mitten drin in dem weiten Feld der Anonymisierung und Pseudonymisierung von Daten. Während ersteres die Voraussetzung ist, dass man Daten auch ohne auf Datensparsamkeit und Zweckbindung zu achten verarbeiten darf, ist das zweite ein Verfahren, welches häufig in klinischen Studien zum Einsatz kommt. Es ermöglicht den Personenbezug reversibel aus Daten zu entfernen, wobei nur bestimmten Leuten ermöglicht wird, diesen Personenbezug wieder herzustellen. Diese Dinge und noch ein wenig mehr drumherum besprechen Bernhard und Renato in diesem etwas kürzeren Podcast. Auf jeden Fall gehts mal wieder um Basics… muss auch mal sein.

Podcast: Play in new window

Transkription

Heute wollen wir uns um die Anonymisierung und Pseudonymisierung kümmern. Ein Thema, das bestimmt jeder, der mal im Krankenhaus in der IT gearbeitet hat. Der ist damit mal in Berührung gekommen, aber natürlich auch in Arztpraxen und so weiter ist das immer wieder ein Thema, wie man den Regularien Genüge tut, wenn man mit Daten umgeht. Ein gutes Beispiel ist, dass man, wenn man mit Support Leuten zu tun hat, die häufig einen Screenshot von den Problem haben wollen. Und da muss man natürlich aufpassen, dass die Patienten-Daten geschwärzt werden oder dass über diesen Screenshot nicht auf die Patienten-Daten zurückgeschlossen werden kann. Und einige, die machen vielleicht auch gerne mal eigene Auswertungen der eigene Daten. Und auch da ist es einfach wichtig, wenn man da keine Zustimmung vom Patienten hat, dass die Daten vorher anonymisiert werden. Aber vielleicht vorher nochmal eine Definition, um was es sich überhaupt tret. Also, wenn wir von Anonymisierung und Pseudonymisierung sprechen, dann sprechen wir auch von Personen bezogenen Daten. Beziehungsweise, dass wir Personen bezogene Daten eben nicht mehr Personen bezogen machen. Personen bezogene Daten sind natürlich Text, also Befunde, Briefe Informationen an sich, aber da gehört natürlich auch Bild und Ton und Video dazu. Auch die können Personen bezogen sein. Und das macht’s ja in der Regel auch ein bisschen schwieriger, weil in einfachen Text auf den Namen zu durchforsten ist natürlich wieder ein Tick einfacher. Als jetzt so schauen, ob es in irgendwelchen binären Bild Dateien auch nochmal den Namen des Patienten gibt oder andere Daten, die eben auf ihnen schließen lassen. 

Absolut, ja, genau. Und was macht jetzt die Anonymisierung jetzt mal ganz platz gesagt? Sie kappt den Patientenbezug von diesen Daten zum Patient. Also, man kann keinen Patientenbezug mehr herstellen. Und im Gegensatz dazu, die Pseudonymisierung, die kilt ihn erstmal auch, aber er ist dann wieder reproduzierbar. Also, man kann dann später mit gewissen Verfahren wieder einen Patientenbezug herstellen oder zumindest, dass man Daten eines Patienten zusammenführen kann. Und in beiden Fällen spricht der Gesetzgeber von einem unverhältnismäßig hohen Aufwand der betrieben werden muss. Denn eine komplette Anonymisierung oder komplette Pseudonymisierung ist so gut wie nicht möglich, aber es ist eben wichtig, dass es Unverhältnissen mäßig hoch im Aufwand sein muss, diese Daten wieder herzustellen. Und das ist natürlich jetzt den wahrer Begriff. Vor allem ist es auch ein Begriff, der sich über die Zeit ändert. Und den muss man dann auch Rechnung tragen, dass man seine Anonymisierung oder Pseudonymisierung verfahren über die Zeit dann eben auch den technischen Anforderungen anpassen. Was früher noch schwierig war zu reproduzieren, das kann heute mit den modernen Techniken eventuell schon einfach sein. Gerade im Zusammenhang mit vernetzten Daten, dass ich irgendwie über mehrere Netzwerke jetzt Daten zusammenführen kann. Das, was dann natürlich im Gesundheitswesen auf der einen Seite wollen, erlaubt es natürlich dann auch wieder mit diesen mehr Informationen etwas schneller vielleicht auf den Patienten zu schließen. Wenn ich einen 66-jährigen Patient mit Diagnose X habe, dann ist es vielleicht noch entsprechend anonym, wenn dann auch ganz viele weitere Informationen dazu gematcht werden, dass er auch einen Krankenhausaufwand in der Nachbarklinik hatte, dass er noch drei Kinder hat, die ebenfalls im Krankenhaus behandelt worden sind und so weiter und so fort. Dann wird es natürlich wieder etwas einfacher auf diesen Patienten zu schließen und dann muss ich wieder etwas mehr Aufwand in den Schutz stecken und diese Anonymisierung vorantreiben. Gut, weswegen machen wir das jetzt, es gibt die DSGVO und früher das Bundesdatenschutzgesetz, die haben gewisse Forderungen, da gibt es einmal die Forderung der Datensparsamkeit. Das heißt, man sollte nur die Daten so lange behalten, wie man sie braucht und man sollte auch nur so wenig Daten zusammensuchen, wie man braucht. Und das bedeutet gleichzeitig, wenn eine Pseudonymisierung möglich ist, zum Beispiel zu Forschungszwecken, dann sollte man sie auch anwenden und sollte nicht sagen, sicherheitshalber, aber halt ich die Daten mal zusammen, sobald es möglich ist, ist eine Pseudonymisierung erforderlich und dann gibt es noch die Zweckbindung. Das heißt, Daten sind für einen bestimmten Zweck erhoben und dafür hat der Patient oder der Betroffene auch seinen Segen zugegeben und wenn dieser Zweck nicht mehr erfüllt ist, dann darf man mit den Daten eigentlich nicht mehr arbeiten und dann ist dann eine Möglichkeit, die Daten zu anonymisieren, weil dann sind es keine Personen bezogen in Daten mehr und dann fallen sie auch nicht mehr unter das Bundesdatenschutzgesetz beziehungsweise unter die Datenschutzgrundverordnung. 

Jetzt gibt es aber eine Pferdefuß bei der ganzen Geschichte, um Daten anonymisieren zu können, muss ich überhaupt berechtigt sein, diese Daten verarbeiten zu können, weil ich kann jetzt nicht sagen, ich bin jetzt in der Arztpraxis und mein Sohn, der hat Ahnung von Datenverarbeitung und dem gebe ich jetzt mal die Daten zum anonymisieren, wenn er nicht in der Praxis angestellt ist, dann ist er auch nicht berechtigt, diese Daten zu verarbeiten und dann darf er sie auch nicht anonymisieren, ist ja auch klar, weil beim anonymisieren, sieht man die Daten ja in der Regel auch. Und das ist dann eben nicht mehr Datenschutzkonform, deswegen muss man das irgendwie innerhalb des Unternehmens dann regeln. Gut, und was gibt es jetzt für anonymisierungsverfahren, vorher schauen wir uns vielleicht noch die Datentypen an, wenn wir jetzt so einen Datensatz für einen Patienten haben, dann gibt es ja verschiedene Merkmale von den Patienten, Name, Geburt, Datum, Alter, Blutdruck und so weiter. Da gibt es dann verschiedene Identifikatoren, jetzt gibt die direkten Identifikationsmerkmale, die lassen direkt auf die Person schließen, dazu gehören dann natürlich Name, Anschrift, Konto-Nummer, Patienten-Idee und so weiter. 

Und dann gibt es andere Merkmalsausprägungen, die sagen wir mal indirekt auf den Patienten schließen lassen, wenn es zum Beispiel im Krankenhaus ein Patienten gibt, der 103 Jahre alt ist. 

Und dann gibt es da wahrscheinlich nicht 5 oder 10 von seiner vielleicht nur genau ein, und dann kann man indirekt darauf schließen auf den jeweiligen Patienten. 

Und dann gibt es noch Merkmalsausprägungen, die in Kombination rückschlüsse erlauben. Vielleicht gibt es sich Leute, die einen Darmtumor haben, aber es gibt nur eine Person, die in Hintertupfingen wohnt und einen Darmtumor hat. Und diese Kombination lässt dann auch wieder auf die Person schließen. Und mit all diesen Merkmalen kann man jetzt so verfahren, man kann sie entweder komplett entfernen, einfach rausnehmen aus dem Datensatz. Man kann aggregieren, das heißt man kann Sachen zusammenschließen, man kann sagen, ich sage nicht das konkrete Alter, sondern ich sage hier ist ein Bereich von Patienten, die über 90 Jahre alt sind. Damit ist es nicht mehr so einfach, auf die einzelne Person zurückzuschließen. Es geht natürlich auch viele Informationen verloren, aber wir wollen der Datenschutzkonform bleiben. Das ist genau so eine Generalisierungsform, dass ich aus einem einzelnen Merkmal das überführt in eine generalisierte Gruppe, verschiedene Altersklassen, das ist gerade angesprochen. Die man ist 73 oder 92 ist, diese Person dann wie zwischen 20 und 30, zwischen 70 und 80 oder einfach nur älter als 80 Jahre und damit eine entsprechenden Rückschluss zu verhindern. 

Genau, und dann kann man auch noch transformieren. Das hilft zum Beispiel auch, das Geburtsdatum lässt ja direkt auf jemanden schließen. Wenn man aber jetzt über einen längeren Zeitraumdaten erhebt, dann ist es gar nicht wichtig, wann die jeweilige Person Geburtstag hat, sondern man will ja eigentlich wissen, wie alt er war. Also in ganz vielen Auswertungen ist das Alter die wichtige Informationen und nicht, wann er geboren wurde. Man will ja keine Statistik über Sternzeichen machen, sondern man will ja meistens das mit dem Alter korrelieren. Und dann kann man eben das Alter angeben, statt das Geburtsdatum, weil das Alter weniger trefft sicher auf eine Person hinweist. 

Was setzt denn diese Transformation voraus? Ja, dass man die entsprechende Daten hat und dass man… Dass die strukturiert vorlegen, dass ich auch wirklich auf diese Werte als strukturierte Elemente, dass vor in die Datentüpen angesprochen drauf zugreifen kann und das nicht irgendwo einfach nur eine Information ist, die in einem Text untergeht oder eine Information, die in einem Bild versteckt ist, weil dann habe ich genau nicht die Möglichkeit, eine Transformation durchzuführen. Und das Ganze entsprechend gleichwertig in einen anderen Bereich zu skalieren und zu verschieben. 

Genau, ja. Also wenn man jetzt hier von Arztbriefensprechen, dann muss man natürlich diese Bereiche rausnehmen, beziehungsweise schwerzen. Gut, dann gibt es noch die Möglichkeit des Umschlüsselns, das macht es auch noch ein bisschen schwerer rückzuschließen, also dass man nicht größer und gewicht angibt, sondern zum Beispiel den BMI. Und man kann, wenn es die Daten hergeben, auch die Daten in mehrere Merkmalzbereiche auftrennen, dass man dann eine Tabelle für die Diagnosen hat und eine andere Tabelle mit den Vitalparametern und diese Tabellen nicht miteinander verknüpft, dann muss aber die Fragestellung, die man an die Daten hat, das Ganze auch hergeben. 

Und dann gibt es noch die Möglichkeit, als ich das erst mal gelesen habe, weil etwas überrascht, dass man so was tatsächlich tut, aber man kann zufalls Fehler einbauen. Das heißt, man macht ganz bewusst einige Datensätze, fehlerhaft, sodass jemand, der sich diesen Datensatz kreilt und erlaubterweise, dass er nicht davon ausgehen kann, dass die Daten auch tatsächlich korrekt sind. Das mag auf den ersten Blick etwas komisch klingen, weil es ja die Daten verfälscht, aber wenn das in sehr, sehr großer Datensatz ist und der Datensatz jetzt dadurch nicht komplett kaputt geht, dann kann man das durchaus tun. Ja, es könnte ja bei Variablen wie dem Alter, da könnte ich auch einfach sagen, anstatt das zu transformieren oder zu agregieren in einen entsprechenden Bereich, könnte ich auch einfach sagen. Ich lasse mit einer Zufallsfunktion einfach x-minus oder tage-minus auf das eigentliche Geburtsdatum darauf adieren oder subtrahieren und hätte damit ja auch eine entsprechende, vielleicht zufällige Veränderung dieser Daten. Ist damit so was gemeint? Ja, das geht bestimmt auch in die Richtung, also da macht man ja dann auch nicht so viel falsch, also wenn man jetzt einen Patienten hat, der 85 ist oder 85 plus 3 Monate, macht dann bestimmt nicht so viel Unterschied. Ja, das könnte ich mir gut vorstellen, kann man in dem Zusammenhang auch benutzen. 

Genau, in dem Zusammenhang vielleicht auch ansprechen, will ich das Thema K-Anonymität, wobei ich das jetzt hier gar nicht vertiefen will und auch nicht kann, weil sonst unser Vorhaben den Podcast kurz zu halten, wieder topidiert wird. Aber alle, die sich für das Thema interessieren, die können ja mal unter den Begriff K-Anonymität schauen, die Idee dabei ist, dass man die Datensätze so gestaltet, dass sich ein Datensatz zumindest von K anderen. Also eine beliebige Zahl, 15, 80, anderen Daten setzen, nicht unterscheidet. Und das macht man eben durch, akrigieren, generalisieren und so weiter. Das ist ein etwas akademischer Ansatz, aber dann ist man zumindest auf der sicheren Seite, wenn man mit den Daten weiter arbeitet. 

Wir können das ja mal in einem ganz einfachen Beispiel versuchen zu erläutern, wenn wir unseren 103 jährigen Patienten haben, dann wäre der in einem Krankenhaus unter Umständen, wie du es gerade angesprochen hast, genau die einzige Person mit 103 Jahren und wäre dementsprechend leicht zu identifizieren. Wenn wir jetzt eine Altersklasse bilden, als Generalisierung mit größer 95, dann gibt es vielleicht auch noch nicht so ganz viele und es gibt vielleicht nur zwei Personen in dieser Klasse. Dann hätten wir mit so einer Generalisierungstechnik eine K-Anonymität von zwei oder eine zwei anonymität. Also wir wüssten dann, es ist eine dieser beiden Personen und wenn wir es vielleicht noch weiter runterziehen und sagen, wir haben eigentlich nur den Bereich 1 bis 40, 40 bis 80 und älter als 80. Dann sind wir wahrscheinlich schon in einem Bereich, wo wesentlich mehr Personen in Frage kommen und die K-Anonymität deutlich steigt. 

Genau, da die K-Anonymität auch noch ein paar Fährdefüße hat, sowas wie Homogenitätsattacken und wenn man Hintergrundwissen hat, deswegen gibt es auch noch eine Erweiterung mit L-Diversity und T-Closeness. Aber wie gesagt, da machen wir jetzt einen Katt und gehen vielleicht über zu den Pseudonymisierungsverfahren. 

Ich habe vorhin gesagt, Pseudonymisierung bedeutet, dass man den Personenbezug zwar aktuell nicht herstellen kann, dass es aber eine Möglichkeit gibt, diesen Personenbezug zu reproduzieren. Und das Ganze passiert dann zum Beispiel über eine Schlüsseltabelle oder eine Zuordnungstabelle, die in unter Verschluss gehalten wird. 

Genau, das ist sicherlich einen Verfahren, was vor allem im Bereich der klinischen Studienanwendung findet. Da sollen die entsprechenden Pharmafirmen natürlich nicht mitbekommen, um welche Person es sich genau handelt auf der anderen Seite. Wenn es darum geht, dass man jetzt irgendwie beispielsweise schwerwiegende Nebenwirkung feststellt, müssen natürlich genau die Personen, die in dieser entsprechenden Gruppe drin sind, informiert werden. Und dann muss ich natürlich einen Rückschluss auf diese Personen haben. Das läuft dann in der Regel über eine entsprechende Zuordnungstabelle, Schlüsseltabelle, die an einer Vertrauensstelle untergebracht ist. Das heißt, es gibt eine Person oder eine Person, Gruppe oder einem Ort, an dem diese Daten wieder zusammengefügt werden können. 

Und ein weiterer Grund, weswegen man das Pseudonymisierungsverfahren anwendet, ist ja, dass man über einen längeren Zeitraum Daten zu einem Patienten erfassen will. Und wenn man immer wieder die Daten an und immer fast, dann könnte man diese Daten nicht zusammenführen. Deswegen gibt es noch andere Methoden, um genau das zu ermöglichen, also dieses Nachträglichen zusammenführen. Da gibt es zum einen, dass man so Identifikatoren verwendet, ich erinnere mich noch, als ich früher im Studium war, da haben wir Evaluationen gemacht. Und dann mussten wir einen Namen oben hinschreiben, der sich aus dem ersten Buchstaben des Vornahms der Mutter und aus dem zweiten Buchstaben des Geburtsorts und so weiter zusammensetzt. Das ist dann eine Sache, die nur derjenige weiß, über den die Daten erfasst werden, also er trägt es ein, sonst kann das irgendwie keiner reproduzieren. Und damit ist dann dem Genüge getan, dass die Daten zwar zusammengeführt werden, weil das sind alles Merkmale, die sich nicht ändern. Aber derjenige, der die Daten dann später verarbeitet, kann nicht zurückschließen auf die Person. Und das Verfahren ist in der Regel auch nicht ein, eindeutig, das heißt, es ist zwar durch entsprechend viele Merkmale, zweiter Vornamen der Mutter und davon der zweite Buchstabe, plus letzte Ziffer, der Konto, Nummer und so weiter. Durch gewisse Merkmale ist die Wahrscheinlichkeit, dass es mehrere Personen mit diesem Schlüssel gibt eher gering, aber es ist eben nicht ein, eindeutig und es kann durchaus sein, dass mehrere Personen den selben Schlüssel haben. Und dementsprechend muss man beim Zusammenführen natürlich vorsichtig sein, deswegen wird das üblicherweise bei Dingen gemacht, wo es jetzt nicht ganz so auf die 

Genauigkeit ankommt, wie beispielsweise Evaluationsverfahren, Fragebögen oder Studien teilnahme, wo man sagt, da kann ich es wahrscheinlich ausschließen. Und falls es doch mal zwei gleiche gibt, dann würde ich vielleicht einfach beide Fälle aus dieser Gruppe ausschließen. 

Und ein bisschen technisch validiertes Verfahren, statt erster Buchstabe von dem und dem ist dann ein sogenanntes Hashverfahren, also da kann man dann die bekannten Hashverfahren auf einen gewissen Datensatz anwenden und dann kommt eine lange Nummer raus. Damit sind Kollisionen eher selten, können natürlich immer noch passieren, aber sind minimiert. 

Und als letzte Möglichkeit gibt es dann auch noch, dass der benutzer selbst, dass der Patient selbst sich ein Pseudonym gibt. Auch hier ist dann der Vorteil, dass nur der Patient quasi die Zusammenführung machen kann, aber auch hier haben wir wieder das Problem der Koalition. Und hier nochmal speziell das Problem, dass es sein kann, dass der Patient seinen Pseudonym oder Nickname vergisst. Gut, das war jetzt ein kurzer Überblick über Anonymisierung und Pseudonymisierung. Natürlich kann man auch bei Pseudonymisierung noch viel, viel tiefer gehen. Und wenn man tatsächlich Studien macht, muss man sich das nochmal in Extens so angucken, aber vielleicht mal ein ganz kurzer Überblick, dass man weiß, welche Verfahren es da gibt und was man machen kann. 

Links

  • k-Anonymität bei Wikipedia: https://de.wikipedia.org/wiki/K-Anonymit%C3%A4t
  • ANON-Tool zur Anonymisierung von Daten: http://www.tmf-ev.de/Themen/Projekte/V08601_AnonTool.aspx
  • https://arx.deidentifier.org/
  • KI-gesteuertes Krankenhaus: https://www.hcm-magazin.de/das-erste-ki-gesteuerte-krankenhaus-kommt/150/25759/380072?xing_share=news
  • Nummer drei lebt – der dritte Konnektor auf dem Markt: https://t.co/FsJbIVIiwZ
Schlagwörter

Datenschutz, personenbezogene Daten, DSGVO, direkte Identifikationsmerkmale, indirekte Indentifikationsmerkmale