Maschinelles Lernen

Ist Ihr Datenverarbeitungsprojekt ethisch?

Serge Korzh
Veröffentlicht am 1 October 2019
Lesezeit: 4 Minuten

Es besteht kein Zweifel, dass Daten eine der wichtigsten Ressourcen in der heutigen Welt sind. Nehmen wir einen E-Commerce-Shop als Beispiel – fast jeder Betriebsaspekt ist datengesteuert: Marktanalysedaten helfen zu bestimmen, wen man ansprechen soll, wo man Ressourcen investieren soll und wie man Wettbewerbsvorteile erzielt, Benutzerfeedback und Rezensionsdaten sind entscheidend dafür, wie man Produkte und Dienstleistungen verbessert, Conversion-Tracking ist für eine erfolgreiche Marketingkampagne notwendig – und das sind nur einige wenige Beispiele. Da sich der Bereich des maschinellen Lernens ständig weiterentwickelt, steigt auch der potenzielle Wert sauberer, strukturierter Daten (die ein großer E-Commerce-Shop im Überfluss hat). Aber wie immer kommt mit großer Macht große Verantwortung einher – Daten sind nicht nur ein Asset, sondern auch eine Verpflichtung. Lassen Sie uns in diesem Zusammenhang auf einige Kernpunkte und Probleme im Umgang mit Daten eingehen.

Schützen Sie die Daten, die Sie haben

Unternehmen speichern viele vertrauliche Daten über ihre Benutzer und natürlich sollten diese Daten sicher gespeichert und der Zugriff darauf eingeschränkt werden. Dennoch kommen massive Datenlecks von privaten Benutzerdaten mittlerweile so häufig vor, dass derartige Geschichten niemanden mehr sonderlich überraschen. Und das muss nicht einmal das Ergebnis eines bösartigen Angriffs sein – manchmal liegt es nur an einem unbedachten Fehler oder einer mangelhaften wasserdichten Richtlinie für den Datenzugriff – so war es bei der Google+ API, die drei Jahre lang einen Sicherheitsfehler hatte, der es Entwicklern ermöglichte, auf private Daten von Hunderttausenden von Benutzern zuzugreifen.

Anonymisierung ist nicht so einfach, wie Sie vielleicht denken

Viele der von Unternehmen gespeicherten Daten sind sogenannte personenbezogene Daten (bzw. PII), d.h. alle Informationen, die eindeutig einer bestimmten Person zugeordnet werden können, und der Prozess der Umwandlung von PII-Daten in Nicht-PII-Daten wird als Deidentifizierung bezeichnet.

So ist beispielsweise ein Datenbankeintrag mit einer nationalen Identifikationsnummer (z.B. SSN in den USA) offensichtlich eine PII, während ein Eintrag mit nur einem Namen (z.B. „John“) dies nicht ist. Aber was ist, wenn wir auch wissen, dass John zum Beispiel 24 Jahre alt ist? Nun, wir wären wahrscheinlich immer noch nicht in der Lage, einen bestimmten John im Alter von 24 Jahren zu finden. Aber was ist, wenn wir eine Postleitzahl hinzufügen? Hier wird es etwas komplizierter. Es ist leicht verständlich, dass eine Person durch eine SSN oder die Führerscheinnummer identifiziert werden kann; solche Attribute sind als PII zu verstehen. Selten wird jedoch berücksichtigt, dass Informationen nie im Vakuum existieren. Es gibt viele Möglichkeiten, wie eine Identität scheinbar aus dem Nichts offengelegt werden kann, indem die Daten mit anderen Datenquellen korreliert werden.

So veröffentlichte Netflix 2006 im Rahmen eines Datenverarbeitungswettbewerbs zur Verbesserung des Filmempfehlungssystems einen anonymisierten Datensatz mit Filmbewertungen und deren Zeitstempeln. Alle benutzerspezifischen Informationen wurden durch eine zufällige ID-Nummer ersetzt und es schien keine Möglichkeit zu geben, den Benutzer ausfindig zu machen. Doch kurz darauf veröffentlichten Forscher der University of Texas ein Papier, in dem sie einige der Daten neu identifizieren konnten. Es stellte sich heraus, dass einige der Netflix-Nutzer die gleichen Bewertungen auf einer anderen Film-bezogenen Website, IMDb, hinterließen, wo die Bewertungen veröffentlicht wurden. Durch die Korrelation der Zeitstempel und Bewertungen einer Benutzer-ID aus dem Netflix-Datensatz mit den Daten auf IMDb konnten die Forscher 99% der Benutzer identifizieren, die mindestens 8 Bewertungen abgegeben haben, wobei sogar Bewertungs- und Datumsfehler berücksichtigt wurden. Darüber hinaus zeigten sie, dass dies auch ohne Zeitstempel teilweise erreicht werden kann. Deshalb müssen Sie in Situationen, in denen ein Teil der nutzerbezogenen Daten an Dritte weitergegeben oder für die Öffentlichkeit zugänglich gemacht werden, sehr genau darüber nachdenken, wie viele Informationen tatsächlich weitergegeben werden, was daraus rekonstruiert werden kann und ob die Gefahr besteht, die Identität von Personen offenzulegen.

Regulierung ist nicht alles

Während es entscheidend ist, Vorschriften wie die DSGVO und CCPA zur Durchsetzung ethischer und gerechter Datenverarbeitung zu haben, gibt es ein Problem – die Gesetzgebung ist langsam und hinkt fast immer der realen Welt hinterher. Die Technologie, insbesondere in der Datenverarbeitung, verbessert sich schnell, während die Ausarbeitung und Umsetzung von Vorschriften viel Zeit in Anspruch nimmt. Dadurch ist es durchaus möglich, Daten unter Einhaltung der Vorschriften erheblich zu missbrauchen, was beispielsweise während des Skandals um Facebook und Cambridge Analytica geschah, als ohne deren Zustimmung private Daten von Millionen von Facebook-Nutzern erhoben und ausgebeutet wurden. Deshalb reicht es nicht aus, sich nur an das Gesetz zu halten – wir müssen immer sicherstellen, dass die Daten ethisch einwandfrei behandelt werden, dass wir alle Folgen berücksichtigt haben und die Betroffenen genau darüber informieren, wie die Daten verwendet werden.

Bias in, bias out

Es gibt ein berühmtes Sprichwort in der Informatik: „Garbage in, garbage out“, das besagt, dass mangel- und fehlerhafter Input zwangsläufig zu nutzlosem Output führt. Heutzutage verwenden wir riesige Datenmengen, um maschinelle Lern-Algorithmen zu trainieren, die wiederum die Entscheidungsfindung in vielen Aspekten unseres Lebens unterstützen können – Banken verwenden sie, um zu entscheiden, wer für ein Darlehen infrage kommt, Unternehmen verwenden sie, um Bewerbungen zu bewerten, und einige Regierungen beginnen, mit ihrem Einsatz in der vorausschauenden Polizeiarbeit zu experimentieren.

Wir neigen dazu zu glauben, dass die Daten nie lügen, dass sie unvoreingenommen und objektiv sind. Aber die Realität ist – Daten werden von Menschen produziert, gesammelt und organisiert, und wenn diese Menschen einige Vorurteile haben, könnten sie sich in die gesammelten Datensätze einschleichen und dann in die Modelle und Algorithmen, die diese Datensätze verarbeiten. Ein Beispiel ist word2vec, ein ML-Modell, das semantische Zusammenhänge zwischen Wörtern erfasst, welches, nachdem es mit Google-News-Daten trainiert wurde, gelernt hat, das Wort „she“ mit Berufen wie „homemaker“, „nurse“ oder „housekeeper“ zu assoziieren, während es „he“ mit „computer programmer“, „doctor“ und „architect“ verbindet. Solche Feinheiten sind ohne eine gründliche Analyse kaum zu erkennen. Dennoch werden solche Modelle in unzähligen anderen Anwendungen eingesetzt, was die in vielen Fällen entscheidende Verzerrungen verstärkt, wie z.B. welche Anzeigen man sieht oder sogar die eigene Bonität.

“Wir wissen nicht, wie voreingenommen wir sind, bis wir sehen, dass eine KI die gleichen Vorurteile reproduziert, und wir erkennen, dass sie voreingenommen ist.”

― John Shawe-Taylor, UNESCO Chair of AI

Fazit

Die Auswirkungen der Digitalisierung von Daten, maschinellem Lernen und KI auf unsere Gesellschaft sind schwer zu überschätzen. Die Meinungen darüber, wie viel von diesen Auswirkungen gut ist, sind jedoch sehr unterschiedlich – einige sagen, dass die KI alle unsere Probleme lösen wird, andere behaupten, dass sie viel mehr Schaden als Nutzen bringt. Meiner Meinung nach ist die KI jedoch nicht diejenige, die dafür verantwortlich ist. Es sind nicht die Maschinen, die Vorurteile aufrechterhalten, uns von der Arbeit ablenken und Diskriminierung verstärken. Wir müssen erkennen, dass die KI nur ein weiteres Werkzeug in unserem Werkzeugkasten ist und wir sind die einzigen, die dafür verantwortlich sind, wie wir das Werkzeug einsetzen.

Wenn Sie mehr über ethische Fragen in der Datenverarbeitung erfahren möchten, lesen Sie diese Checkliste von DrivenData, die auch viele andere potenzielle Probleme und weiteres aufgreift, das Sie bei einem Datenverarbeitungsprojekt beachten sollten. Und falls Sie noch tiefer in das Thema ethische Datenverarbeitung einsteigen möchten, gibt es einen tollen Kurs zu edX von der University of Michigan, der dieses und viele andere Themen noch detaillierter behandelt.