Eine effiziente Möglichkeit, um personenbezogene Informationen aus Datensätzen, Akten und anderen unstrukturierten Daten zu entfernen, bietet der Einsatz von sogenannten „Named Entity Recognition“-Verfahren: Computerlinguistische Methoden, die automatisch in Texten Eigennamen erkennen. Mit diesen Verfahren können beispielsweise im medizinischen Umfeld Patientennamen, behandelnde Ärzte, Krankenhäuser usw. ausfindig gemacht und automatisch aus den Texten herausgelöscht werden.
Dabei existieren zwei Ansätze: Im einfachsten Fall sind Listen hinterlegt, nach denen vorhandene Dokumente durchsucht und die entsprechenden Begriffe ersetzt werden. In der Praxis erweist sich dies jedoch als schwierig, da beispielsweise für Personennamen kaum eine vollständige Liste erstellt werden kann! Der zweite Ansatz geht weiter. Tiefergehende Verfahren analysieren den Kontext und die grammatikalische Struktur der Texte. Die Verfahren werden auf einer Menge bereits bekannter, gängiger Namen trainiert. Sie lernen typische Muster, in denen Eigennamen auftreten, und können somit auch vorher unbekannte Namen zielsicher erkennen. Die so bereinigten Daten können nun z.B. in die Cloud geladen oder für Analysen auch an jeweilige Fachbereiche weitergegeben werden.
Die Computerlinguistin und Leiterin Künstliche Intelligenz bei mayato, Dr. Cäcilia Zirn, erklärt dazu: „Der Schutz personenbezogener Daten muss nicht gleich das Ende von Data Mining bedeuten. Genau die Verfahren, die von vielen Datenschützern als gefährlich eingestuft werden, erweisen sich hier als Rettungsanker. Denn auf die zahlreichen Erkenntnisse, die wir dank künstlicher Intelligenz erhalten, wollen die meisten von uns am Ende doch nicht verzichten.“ Weitere Informationen zu den Einsatzmöglichkeiten Künstlicher Intelligenz erhalten Sie unter www.mayato.com