Bias und Fairness in KI

Grundlagen

Zu Bias & Fairness
in KI-Systemen

Wir freuen uns sehr über dein Interesse!

Auf dieser Seite wollen wir dir die Konzepte Bias und Fairness in Systeme aus dem Bereich der Künstliche Intelligenz (KI) vorstellen.

Aufbau der Seite

Überblick

Die Grundlagenseite unterteilt sich in sieben aufeinander aufbauende Abschnitte. Du gelangst zu dem jeweiligen Abschnitt, wenn du auf das Icon im entsprechenden Kasten unten klickst.

Aufbau der Seite

Überblick

Die Grundlagenseite unterteilt sich in sieben aufeinander aufbauende Abschnitte. Du gelangst zu dem jeweiligen Abschnitt, wenn du auf das Icon im entsprechenden Kasten unten klickst.

1. Definition der Schlüsselbegriffe

2. KI-Systeme
in deinem Alltag
3. Verschiedene
Arten von Bias
4. Algorithmische
Fairness

1. Definition der Schlüsselbegriffe

2. KI-Systeme
in deinem Alltag
3. Verschiedene
Arten von Bias
4. Algorithmische
Fairness

5. Bias & Fairness
in der realen Welt

6. Mitigation
von Bias

7. Relevanz
in der Zukunft

Weiterführende
Literatur

5. Bias & Fairness
in der realen Welt

6. Mitigation
von Bias

7. Relevanz
in der Zukunft

Weiterführende
Literatur

Bearbeitungshinweis:

Unsere Übungsaufgaben bauen auf den vermittelten Grundlagen auf dieser Seite auf. Wir empfehlen daher die parallele Erarbeitung der Grundlagen und der Übungsaufgaben. Aber keine Sorge! Nach den betreffenden Abschnitten verlinken wir auf die passenden Übungen und weisen dich nochmals darauf hin.

Abschnitt 1 / 7

Definitionen

1. Schlüsselbegriffe

Lerne zunächst die Definitionen der Schlüsselbegriffe “KI-Systeme“, “Bias” und “Fairness” kennen. Klicke dafür jeweils auf einen der entsprechenden drei Kästen.

 

 

Abschnitt 1 / 7

Definitionen

1. Schlüsselbegriffe

Lerne zunächst die Definitionen der Schlüsselbegriffe “KI-Systeme“, “Bias” und “Fairness” kennen. Klicke dafür jeweils auf einen der entsprechenden drei Kästen.

 

KI-Systeme

Was sind Systeme der Künstlichen Intelligenz?

Was sind Systeme der Künstlichen Intelligenz?

KI-Systeme sind von Menschen entwickelte Software- oder Hardwaresysteme, welche ihre Umgebung durch Datenerfassung wahrnehmen und die gesammelten Daten verarbeiten. Durch die so gewonnenen Informationen treffen die KI-Systeme Entscheidungen. Die Verhaltensweise eines KI-Systems ist aufgrund seiner Komplexität für den Menschen jedoch oft nicht ohne Weiteres nachvollziehbar. Deswegen spricht man hier von einer sogenannten “Black Box”.

Bias

Wie kann Bias in einem KI-System definiert werden?

Wie kann Bias in einem Entscheidungssystem definiert werden?

Bias bezeichnet allgemein einen Verzerrungseffekt. Die Psychologie versteht darunter Einstellungen oder Stereotypen, welche die Wahrnehmung unserer Umwelt, Entscheidungen und Handlungen positiv oder negativ beeinflussen. In der Statistik wird ein Bias als Fehler im Rahmen der Datenerhebung und -verarbeitung oder die bewusste oder unbewusste Beeinflussung von Proband*innen verstanden. Bias kann in vielen Formen und Ausprägungen auftreten, von denen einige zu Unfairness führen können.

Fairness

Was sind unfaire algorithmische Entscheidungen?

Was bedeutet Fairness?

Im Zusammenhang mit der Entscheidungsfindung ist Unfairness das Vorhandensein von Vorurteilen oder Bevorzugung einer Person oder Gruppe aufgrund ihrer angeborenen oder erworbenen Eigenschaften. Ein unfairer Algorithmus trifft Entscheidungen, die gegenüber einer bestimmten Gruppe von Menschen verzerrt sind. Ähnlich wie Bias ist auch Diskriminierung eine Quelle für Unfairness. Diskriminierung ist auf menschliche Vorurteile und Stereotypisierung auf der Grundlage sensibler Attribute zurückzuführen, die absichtlich oder unabsichtlich auftreten können.
Abschnitt 2 / 7

Systeme der Künstlichen Intelligenz

2. KI-Systeme in unserem Alltag

Lerne die Relevanz von Künstlicher Intelligenz (KI) für Wirtschaft und Gesellschaft, aber auch für deinen Alltag kennen. Für ein tieferes Verständnis grenzen wir in diesem Abschnitt zudem die Begriffe „Künstliche Intelligenz“ und „Maschinelles Lernen“ ab.

 

Abschnitt 2 / 7

Systeme der Künstlichen Intelligenz

2. KI-Systeme in unserem Alltag

Lerne die Relevanz von Künstlicher Intelligenz (KI) für Wirtschaft und Gesellschaft, aber auch für deinen Alltag kennen. Für ein tieferes Verständnis grenzen wir in diesem Abschnitt zudem die Begriffe „Künstliche Intelligenz“ und „Maschinelles Lernen“ ab.

Einsatzgebiete von KI-Systemen

Schon heute setzen viele Unternehmen und Verwaltungen datengetriebene, algorithmische Entscheidungssysteme ein. Absehbar wird es kaum eine Branche oder einen Bereich des täglichen Lebens geben, in dem Systeme aus dem Bereich der Künstlichen Intelligenz (KI) nicht allgegenwärtig sein werden.

Auch du selbst nutzt bereits KI in deinem Alltag. Hast du heute bereits Spotify genutzt oder eine Serie auf Netflix geschaut? Ein KI-System hilft dir, die Musik und Filme zu finden, die du gerne magst. Ein Algorithmus lernt auf der Grundlage deiner Auswahl und gibt dann etwa Empfehlungen von neuen Songs, die du mit hoher Wahrscheinlichkeit zu deiner Wiedergabeliste auf Spotify hinzufügen wirst. Smart Home Geräte wie Alexa oder automatische Gesichtserkennung bei der Entsperrung deines Smartphones sind zwei weitere Beispiele dafür, welche Bedeutung KI in unserem Alltag hat.

KI steckt inzwischen hinter vielem von Chatbots, Shopping-Empfehlungen bis hin zur Navigation mit Google Maps. Mit Hilfe von KI schafft es beispielsweise Google, Suchanfragen zu verstehen und relevante Ergebnisse für diese Anfrage zu bewerten. Unternehmen wie Facebook und LinkedIn setzen KI-Systeme ein, um fragwürdige Inhalte zu identifizieren. Dazu gehören potenziell gewaltverherrlichende, pornografische oder politisch extreme Inhalte. Bilder, Texte und Videos, die in diese Kategorie fallen (könnten), markiert die KI automatisch. Auch in der Medizin finden KI-Systeme in vielen Bereichen Anwendung: Basierend auf Bilddaten lernen KI-Systeme Diagnosen zu treffen.

Maschinelles Lernen was ist das eigentlich?

Maschinelles Lernen (ML) als Teilgebiet von KI ermöglicht es Maschinen, ohne explizite Programmierung von Regeln Muster in Datensätzen zu finden und auf Basis dieser Analyse, Entscheidungen und Vorhersagen zu treffen. Ermöglicht wird dies durch die zunehmende Verfügbarkeit von großen Datenmengen und hohe Rechenleistung. ML-Anwendungen werden typischerweise umso genauer, je mehr Daten sie zur Verfügung haben – ohne dass eine zusätzliche Programmierung erforderlich ist.

Die Schattenseiten von Künstlicher Intelligenz

Immer öfter liest man Schlagzeilen, weil KI-Systeme unsachgemäß eingesetzt werden und diskriminierende Entscheidungen treffen. Beispielsweise, wenn Bewerbungen mit Hilfe eines KI-Systems gefiltert werden und als Ergebnis nur Bewerber*innen des männlichen Geschlechts ausgewählt werden. Daher hat die Berücksichtigung von Fairness und Bias bei der Entwicklung solcher Systeme bereits erheblich an Bedeutung gewonnen.

Jedoch ergibt sich noch immer folgendes Problem: Nicht nur in der Bevölkerung, sondern auch unter denjenigen, die KI-Systeme entwickeln und einsetzen, gehen viele noch immer pauschal von einer Objektivität und Neutralität algorithmischer Entscheidungen aus. Doch weder ist diese gegeben, noch ist eine Entscheidung allein anhand objektiver Merkmale notwendigerweise fair und nicht-diskriminierend. Angesichts dieser Situation besteht ein großer Bedarf, ein tiefes Verständnis für die Herausforderungen in der Nutzung und Implementierung von KI-Systemen und möglichen Lösungsansätzen zu erlangen.

Abschnitt 3 / 7

Das Konzept Bias

3. Verschiedene Arten von Bias

 

Lerne in diesem Abschnitt verschiedene Arten von Bias innerhalb des ML-Lebenszyklus kennen.

 

Abschnitt 3 / 7

Das Konzept Bias

3. Verschiedene Arten von Bias

Lerne in diesem Abschnitt verschiedene Arten von Bias innerhalb des ML-Lebenszyklus kennen.

Maschinelles Lernen (ML) wird zunehmend eingesetzt, um Entscheidungen zu treffen, die das Leben von Menschen beeinflussen. Typischerweise lernen Algorithmen auf Basis vorhandener Daten und wenden die erlernten Muster auf ungesehene Daten an. Infolgedessen können bei der Datenerfassung, der Modellentwicklung und dem Einsatz der Systeme Probleme auftreten, die zu verschiedenen Verzerrungen führen können.

Bias kann in jeder Phase des ML-Lebenszyklus entstehen. Der ML-Lebenszyklus umfasst eine Reihe von Entscheidungen und Praktiken in der Entwicklung und Bereitstellung von ML-Systemen. Jede Phase beinhaltet Entscheidungen, die Bias herbeiführen können. Der Prozess beginnt mit der Datenerhebung. Dabei werden eine Zielpopulation definiert und eine Stichprobe daraus gezogen sowie Merkmale und Kennzeichnungen identifiziert und gemessen. Dieser Datensatz wird in Trainings- und Testdaten aufgeteilt. Ein ML-Modell wird auf Basis von Trainingsdaten „angelernt“. Die Testdaten werden zur Bewertung des Modells verwendet. Anschließend wird das Modell für eine reale Anwendung bereitgestellt und trifft Entscheidungen für ihre Nutzer*innen. Dieser Prozess ist zyklisch: Beispielsweise beeinflussen die Entscheidungen der Modelle den Zustand der Welt, der bei der nächsten Datenerfassung oder Entscheidungsfindung vorliegt.

 

Klicke auf die roten Punkte, um die elf Bias-Arten im ML-Lebenszyklus kennenzulernen:

Kein Problem. Du findest alle Informationen aus der interaktiven Grafik auch in dieser Box.

 

  • Historical Bias: Historische Verzerrungen sind die bereits bestehenden Vorurteile und soziotechnischen Probleme in der Welt und können selbst bei perfekter Stichprobenziehung und Merkmalsauswahl in den Datenerstellungsprozess eindringen.
 
  • Representation Bias: Repräsentationsverzerrungen ergeben sich aus der Art und Weise, wie wir beim Datenerhebungsprozesses vorgehen. Nicht repräsentativen Stichproben fehlt es an der Vielfalt der Grundgesamtheit (bspw. fehlende Untergruppen).
 
  • Measurement Bias: Messfehler treten bei der Auswahl, Erfassung oder Berechnung von Merkmalen und Bezeichnungen auf, die in einem Vorhersageproblem verwendet werden sollen. In der Regel ist ein Merkmal oder eine Kennzeichnung ein Proxy (ein konkretes Maß), das zur Annäherung an ein Konstrukt gewählt wird, das nicht direkt kodiert oder beobachtbar ist.
 
  • Omitted Variable Bias: Omitted Variable Bias tritt auf, wenn eine oder mehrere wichtige Variablen aus dem Modell ausgelassen werden.
 
  • Evaluation Bias: Der Bias tritt auf, wenn die für eine bestimmte Aufgabe verwendeten Trainingsdaten nicht die Nutzungspopulation repräsentieren. Der Bias kann auch durch die Wahl der Performance-Metriken verstärkt werden.
 
  • Algorithmic Bias: Hierunter versteht man Verzerrungen, die nicht in den Daten enthalten sind, sondern lediglich durch den Algorithmus hinzugefügt werden.
 
  • Aggregation Bias: Aggregationsverzerrungen treten auf, wenn ein Einheitsmodell für Daten verwendet wird, denen Gruppen oder Typen von Beispielen zugrunde liegen, die unterschiedlich betrachtet werden sollten.
 
  • User Interaction Bias: Damit ist ein Bias durch die Benutzeroberfläche und durch den Nutzenden selbst gemeint, indem das System sein selbstgewähltes einseitiges Verhalten und seine Interaktion aufzwingt.
 
  • Population Bias: Eine Verzerrung der Population entsteht, wenn Statistiken, demografische Daten, Repräsentant*innen und Nutzereigenschaften in der Nutzerpopulation der Plattform anders sind als in der ursprünglichen Zielgruppe.
 
  • Deployment Bias: Die Verzerrung beim Einsatz des Systems bezieht sich im Allgemeinen auf jede Verzerrung, die während des Einsatzes auftritt, wenn ein System auf unangemessene Weise verwendet oder interpretiert wird, was so nicht von den Designer*innen oder Entwickler*innen beabsichtigt war.
 
  • Feedback Loop: Eine Rückkopplungsschleife zwischen Daten, Algorithmen und Nutzenden, kann die bestehenden Quellen von Verzerrungen noch verstärken.
  •  

Kein Problem. Du findest alle Informationen aus der interaktiven Grafik auch in dieser Box.

 

  • Historical Bias: Historische Verzerrungen sind die bereits bestehenden Vorurteile und soziotechnischen Probleme in der Welt und können selbst bei perfekter Stichprobenziehung und Merkmalsauswahl in den Datenerstellungsprozess eindringen.
  • Representation Bias: Repräsentationsverzerrungen ergeben sich aus der Art und Weise, wie wir beim Datenerhebungsprozesses vorgehen. Nicht repräsentativen Stichproben fehlt es an der Vielfalt der Grundgesamtheit (bspw. fehlende Untergruppen).
  • Measurement Bias: Messfehler treten bei der Auswahl, Erfassung oder Berechnung von Merkmalen und Bezeichnungen auf, die in einem Vorhersageproblem verwendet werden sollen. In der Regel ist ein Merkmal oder eine Kennzeichnung ein Proxy (ein konkretes Maß), das zur Annäherung an ein Konstrukt gewählt wird, das nicht direkt kodiert oder beobachtbar ist.
  • Omitted Variable Bias: Omitted Variable Bias tritt auf, wenn eine oder mehrere wichtige Variablen aus dem Modell ausgelassen werden.
  • Evaluation Bias: Der Bias tritt auf, wenn die für eine bestimmte Aufgabe verwendeten Trainingsdaten nicht die Nutzungspopulation repräsentieren. Der Bias kann auch durch die Wahl der Performance-Metriken verstärkt werden.
  • Algorithmic Bias: Hierunter versteht man Verzerrungen, die nicht in den Daten enthalten sind, sondern lediglich durch den Algorithmus hinzugefügt werden.
  • Aggregation Bias: Aggregationsverzerrungen treten auf, wenn ein Einheitsmodell für Daten verwendet wird, denen Gruppen oder Typen von Beispielen zugrunde liegen, die unterschiedlich betrachtet werden sollten.
  • User Interaction Bias: Damit ist ein Bias durch die Benutzeroberfläche und durch den Nutzenden selbst gemeint, indem das System sein selbstgewähltes einseitiges Verhalten und seine Interaktion aufzwingt.
  • Population Bias: Eine Verzerrung der Population entsteht, wenn Statistiken, demografische Daten, Repräsentant*innen und Nutzereigenschaften in der Nutzerpopulation der Plattform anders sind als in der ursprünglichen Zielgruppe.
  • Deployment Bias: Die Verzerrung beim Einsatz des Systems bezieht sich im Allgemeinen auf jede Verzerrung, die während des Einsatzes auftritt, wenn ein System auf unangemessene Weise verwendet oder interpretiert wird, was so nicht von den Designer*innen oder Entwickler*innen beabsichtigt war.
  • Feedback Loop: Eine Rückkopplungsschleife zwischen Daten, Algorithmen und Nutzenden, kann die bestehenden Quellen von Verzerrungen noch verstärken.
  •  
  •  

Historische Verzerrungen sind die

bereits bestehenden Vorurteile und

soziotechnischen Probleme in der Welt.

 

Sie können selbst bei

perfekter Stichprobenziehung

und Merkmalsauswahl in den

Datenerstellungsprozess eindringen.

Repräsentationsverzerrungen ergeben

sich aus der Art und Weise, wie wir beim

Datenerhebungsprozesses vorgehen.

 

Nicht repräsentativen Stichproben fehlt es

an der Vielfalt der Grundgesamtheit

(bspw. fehlende Untergruppen).

Messfehler treten bei der Auswahl, Erfassung

oder Berechnung von Merkmalen und

Bezeichnungen auf, die in einem Vorhersageproblem

verwendet werden sollen.

 

In der Regel ist ein Merkmal oder eine

Kennzeichnung ein Proxy (ein konkretes Maß),

das zur Annäherung an ein Konstrukt gewählt wird,

das nicht direkt kodiert oder beobachtbar ist.

Omitted Variable Bias tritt auf,

wenn eine oder mehrere wichtige

Variablen aus dem Modell ausgelassen werden.

Der Bias tritt auf,  wenn die für

eine bestimmte Aufgabe verwendeten Trainingsdaten

nicht die Nutzungspopulation repräsentieren.

Der Bias kann auch durch die Wahl

der Performance-Metriken verstärkt werden.

Hierunter versteht man Verzerrungen,

die nicht in den Daten enthalten sind,

sondern lediglich durch den

Algorithmus hinzugefügt werden.

Aggregationsverzerrungen treten auf, wenn ein

Einheitsmodell für Daten verwendet wird, denen Gruppen oder

Typen von Beispielen zugrunde liegen, die unterschiedlich

betrachtet werden sollten.

Damit ist ein Bias durch

die Benutzeroberfläche und durch

den Nutzenden selbst gemeint, indem das

System sein selbstgewähltes einseitiges Verhalten

und seine Interaktion aufzwingt.

Eine Verzerrung der Population entsteht,

wenn Statistiken, demografische Daten,

Repräsentant*innen und Nutzereigenschaften

in der Nutzerpopulation der Plattform

anders sind als in der ursprünglichen Zielgruppe.

Die Verzerrung beim Einsatz des Systems bezieht sich

im Allgemeinen auf jede Verzerrung,

die während des Einsatzes auftritt, wenn ein System auf

unangemessene Weise verwendet oder interpretiert wird,

was so nicht von den Designer*innen oder

Entwickler*innen beabsichtigt war.

Eine Rückkopplungsschleife zwischen Daten, Algorithmen

und Nutzenden, kann die bestehenden

Quellen von Verzerrungen noch verstärken.

In dieser Box beschreiben wir dir ein anschauliches Beispiel für jede der oben aufgeführten Bias-Arten.

 
  • Historical Bias: Ein Beispiel für diese Art von Bias zeigt sich in einem Ergebnis der Google-Bildersuche aus dem Jahr 2018: Die Suchanfrage “Frauen als CEOs” zeigte als Ergebnis mehr Bilder von männliche CEOs statt der gewünschten Bilder von weiblichen CEOs, da zu dieser Zeit nur knapp  5 % der CEOs der Fortune 500-Unternehmen Frauen waren.
 
  • Representation Bias: Mangelnde geografische Vielfalt in Datensätzen wie beispielsweise ImageNet (https://www.image-net.org/) führt zu einer nachweisbaren Voreingenommenheit gegenüber westlichen Kulturen.
 
  • Measurement Bias: Ein Beispiel für diese Art von Verzerrung wurde beim Rückfallrisikoprognosetool von COMPAS beobachtet, bei dem frühere Verhaftungen und Verhaftungen im Freundes-/Familienkreis als Ersatzvariablen zur Messung des “Risikoniveaus” oder der “Kriminalität” verwendet wurden – was als falsch gemessene Proxies betrachtet werden kann.
 
  • Omitted Variable Bias: Beispielsweise leiden viele Regressionen, bei denen der Lohn oder das Einkommen die abhängige Variable ist, unter der Verzerrung durch weggelassene Variablen. Oft gibt es hier keine praktische Möglichkeit, die angeborenen Fähigkeiten oder die Motivation eines Arbeitnehmenden als erklärende Variablen hinzuzufügen.
 
  • Evaluation Bias: Dazu gehört beispielsweise die Verwendung unangemessener und unverhältnismäßiger Vergleichsdaten für die Bewertung von Anwendungen wie beispielsweise der Adience-Datensatz, welcher sich zu 79,6 % aus hellhäutigen Gesichtern zusammensetzt. Dieser Datensatz wird bei der Bewertung von Gesichtserkennungssystemen herangezogen, bei denen Hautfarbe und Geschlecht eine Rolle spielen.
 
  • Algorithmic Bias: Die Verwendung bestimmter Optimierungsfunktionen, Regularisierungen, die Anwendung von Regressionsmodellen auf die Daten als Ganzes oder auf Untergruppen sowie die allgemeine Verwendung von statistisch verzerrten Schätzern sind Beispiele für diese Art von Bias.
 
  • Aggregation Bias: Ein Beispiel wären Daten, die zeigen, dass Schüler*innen in den Großstädten dazu neigen, bei standardisierten Tests schlecht abzuschneiden. Das heißt aber nicht, dass jeder Einzelne schlecht abschneidet.
 
  • User Interaction Bias: Beispielsweise können Nutzer*innen im Internet nur auf Inhalte klicken, die ihnen angezeigt werden, d. h., die gesehenen Inhalte werden angeklickt, während alles andere dementsprechend nicht geklickt wird.
 
  • Population Bias: Verzerrungen in der Bevölkerung führen zu nicht repräsentativen Daten. So sind beispielsweise mehr männliche Zuschauer im Fußballstadion anzutreffen als weibliche Zuschauerinnen.
 
  • Deployment Bias: Algorithmische Risikobewertungstools wie COMPAS sind Modelle, die die Wahrscheinlichkeit einer Person, eine zukünftige Straftat zu begehen, vorhersagen sollen. In der Praxis könnten diese Instrumente jedoch auch “zweckentfremdet” eingesetzt werden, z. B. zur Bestimmung der Länge einer Strafe.
 
  • Feedback Loop: Empfehlungsalgorithmen sind dafür bekannt, dass einige wenige beliebte Artikel häufig empfohlen werden, während die Mehrheit der anderen Artikel “ignoriert” wird. Diese Empfehlungen werden dann von den Nutzer*innen konsumiert, ihre Reaktion wird protokolliert und dem System hinzugefügt.
 

Beachte, dass sich die einzelnen Bias-Arten nicht gegenseitig ausschließen, d. h. ein KI-System kann unter mehr als einer Art von Bias leiden. Beispielsweise können KI-Systeme in Fitness-Trackern Repräsentationsverzerrung enthalten, wenn dunklere Hauttöne im Trainingsdatensatz nicht enthalten sind, Messverzerrung enthalten, wenn der Fitness-Tracker bei dunklen Hauttönen eine geringere Leistungsfähigkeit aufweist und Bewertungsverzerrungen enthalten, wenn der Datensatz, der zur Bewertung des KI-Systems verwendet wird, keine dunklen Hauttöne enthält. Mehr dazu: https://www.youtube.com/watch?v=vVRWeGlMkGk.

 

Was solltest du mitnehmen?

Bias entsteht nicht nur durch verzerrte Daten. Bias kann auch aus der Art und Weise resultieren, wie das KI-System modelliert wird, wie das System evaluiert wird oder wie Nutzer*innen die Endergebnisse des KI-Systems interpretieren.

Nutze den ersten Kurs dieser Lerneinheit, um die verschiedenen Bias-Arten besser zu verstehen. Wenn du dir den vielfältigen Arten von Bias bewusst bist, kannst du solche in KI-Systemen besser erkennen.

 In dieser Box beschreiben wir dir ein anschauliches Beispiel für jede der oben aufgeführten Bias-Arten.
 
  • Historical Bias: Ein Beispiel für diese Art von Bias zeigt sich in einem Ergebnis der Google-Bildersuche aus dem Jahr 2018: Die Suchanfrage “Frauen als CEOs” zeigte als Ergebnis mehr Bilder von männliche CEOs statt der gewünschten Bilder von weiblichen CEOs, da zu dieser Zeit nur knapp  5 % der CEOs der Fortune 500-Unternehmen Frauen waren.
 
  • Representation Bias: Mangelnde geografische Vielfalt in Datensätzen wie beispielsweise ImageNet (https://www.image-net.org/) führt zu einer nachweisbaren Voreingenommenheit gegenüber westlichen Kulturen.
 
  • Measurement Bias: Ein Beispiel für diese Art von Verzerrung wurde beim Rückfallrisikoprognosetool von COMPAS beobachtet, bei dem frühere Verhaftungen und Verhaftungen im Freundes-/Familienkreis als Ersatzvariablen zur Messung des “Risikoniveaus” oder der “Kriminalität” verwendet wurden – was als falsch gemessene Proxies betrachtet werden kann.
 
  • Omitted Variable Bias: Beispielsweise leiden viele Regressionen, bei denen der Lohn oder das Einkommen die abhängige Variable ist, unter der Verzerrung durch weggelassene Variablen. Oft gibt es hier keine praktische Möglichkeit die angeborenen Fähigkeiten oder die Motivation eines Arbeitnehmenden als erklärende Variablen hinzuzufügen.
 
  • Evaluation Bias: Dazu gehört beispielsweise die Verwendung unangemessener und unverhältnismäßiger Vergleichsdaten für die Bewertung von Anwendungen wie beispielsweise der Adience-Datensatz, welcher sich zu 79,6 % aus hellhäutigen Gesichtern zusammensetzt. Dieser Datensatz wird bei der Bewertung von Gesichtserkennungssystemen herangezogen, bei denen Hautfarbe und Geschlecht eine Rolle spielen.
 
  • Algorithmic Bias: Die Verwendung bestimmter Optimierungsfunktionen, Regularisierungen, die Anwendung von Regressionsmodellen auf die Daten als Ganzes oder auf Untergruppen sowie die allgemeine Verwendung von statistisch verzerrten Schätzern sind Beispiele für diese Art von Bias.
 
  • Aggregation Bias: Ein Beispiel wären Daten, die zeigen, dass Schüler*innen in den Großstädten dazu neigen, bei standardisierten Tests schlecht abzuschneiden. Das heißt aber nicht, dass jeder Einzelne schlecht abschneidet.
 
  • User Interaction Bias: Beispielsweise können Nutzer*innen im Internet nur auf Inhalte klicken, die ihnen angezeigt werden, d. h., die gesehenen Inhalte werden angeklickt, während alles andere dementsprechend nicht geklickt wird.
 
  • Population Bias: Verzerrungen in der Bevölkerung führen zu nicht repräsentativen Daten. So sind beispielsweise mehr männliche Zuschauer im Fußballstadion anzutreffen als weibliche Zuschauerinnen.
 
  • Deployment Bias: Algorithmische Risikobewertungstools wie COMPAS sind Modelle, die die Wahrscheinlichkeit einer Person, eine zukünftige Straftat zu begehen, vorhersagen sollen. In der Praxis könnten diese Instrumente jedoch auch “zweckentfremdet” eingesetzt werden, z. B. zur Bestimmung der Länge einer Strafe.
 
  • Feedback Loop: Empfehlungsalgorithmen sind dafür bekannt, dass einige wenige beliebte Artikel häufig empfohlen werden, während die Mehrheit der anderen Artikel “ignoriert” wird. Diese Empfehlungen werden dann von den Nutzer*innen konsumiert, ihre Reaktion wird protokolliert und dem System hinzugefügt.
 
 

Beachte, dass sich die einzelnen Bias-Arten nicht gegenseitig ausschließen, d. h. ein KI-System kann unter mehr als einer Art von Bias leiden. Beispielsweise können KI-Systeme in Fitness-Trackern Repräsentationsverzerrung enthalten, wenn dunklere Hauttöne im Trainingsdatensatz nicht enthalten sind, Messverzerrung enthalten, wenn der Fitness-Tracker Messgerät bei dunklen Hauttönen eine geringere Leistungsfähigkeit aufweist und Bewertungsverzerrungen enthalten, wenn der Datensatz, der zur Bewertung des KI-Systems verwendet wird, keine dunklen Hauttöne enthält.

Mehr dazu: https://www.youtube.com/watch?v=vVRWeGlMkGk).

 

Was solltest du mitnehmen?

Bias entsteht nicht nur durch verzerrte Daten. Bias kann auch aus der Art und Weise resultieren, wie das KI-System modelliert wird, wie das System evaluiert wird oder wie Nutzer*innen die Endergebnisse des KI-Systems interpretieren.

Nutze den ersten Kurs dieser Lerneinheit, um die verschiedenen Bias-Arten besser zu verstehen. Wenn du dir den vielfältigen Arten von Bias bewusst bist, kannst du solche in KI-Systemen besser erkennen.

Das Konzept Bias
Die Bias-Arten im Detail


Vertiefe deine Fähigkeiten anhand praxisnaher Übungsaufgaben.

Abschnitt 4 / 7

Das Konzept Fairness

4. Algorithmische Fairness

Lerne die statistischen Definitionen von Fairness kennen.

 

Abschnitt 4 / 7

Das Konzept Fairness

4. Algorithmische Fairness

Lerne die statistischen Definitionen von Fairness kennen.

Das Konzept Fairness soll sicherstellen, dass das KI-System nicht zu unfairen Entscheidungen oder Diskriminierung führt. Die Wahrung des Konzepts Fairness wird sowohl aus ethischer als auch aus rechtlicher Sicht von einer KI-Anwendung verlangt. Tatsächlich ist es verboten, gleiche soziale Sachverhalte ungleich oder ungleiche gleich zu behandeln, es sei denn, ein abweichendes Vorgehen wäre sachlich gerechtfertigt. Dies bedeutet insbesondere, dass Individuen nicht aufgrund ihrer Zugehörigkeit zu einer marginalisierten oder benachteiligten Gruppe diskriminiert werden dürfen.

Das potenzielle Schadensszenario, mit dem sich das Konzept Fairness in erster Linie auseinandersetzt, ist die Diskriminierung einer bestimmten Personengruppe durch ein KI-System – sei es aufgrund der ethnischen Herkunft der Personen, ihres Geschlechts, Alters, der Religion / Weltanschauung, oder sonstiger Indikatoren. Diese Indikatoren werden als sensible Merkmale angesehen, für die eine Nichtdiskriminierung festgelegt werden sollte. Bei dem Konzept Fairness werden die potenziellen Auswirkungen von Diskriminierung aus Sicht der Betroffenen ermittelt. Dies ist insbesondere relevant für KI-Systeme, die Entscheidungen über Personen treffen. Beispiele dafür sind KI-basierte Kreditvergaben, Auswahl von Bewerber*innen oder Empfehlungen bezüglich medizinischer Behandlungen. Folgen von Diskriminierung durch KI-Systeme können etwa verletzte Persönlichkeitsrechte, finanzielle Schäden oder Rufschädigung sein.

Während sich die Ungerechtigkeit anhand verschiedener Beispiele intuitiv erfassen lässt, besteht die Herausforderung darin, Fairness objektiv, metrikbasiert und möglichst skalierbar zu definieren. Wir stellen dir im Folgenden konkrete Möglichkeiten vor, Fairness quantitativ zu erfassen.

Statistische Definitionen von Fairness

Es gibt verschiedene Möglichkeiten, zu definieren, wann ein KI-System fair ist. Wir schauen uns im Folgenden statistische Definitionen von Fairness an. Wir fokussieren uns hierbei auf Klassifikation im ML-Bereich. Klassifikation bezeichnet hier die Identifizierung einer Kategorie (z. B. kreditwürdig vs. nicht kreditwürdig) für eine Dateninstanz (z. B. die Daten einer Bankkundin) anhand von Trainingsdaten, deren Kategorien bekannt sind.

Die meisten der zur Bewertung der Fairness eines Modells verwendeten Metriken beziehen sich entweder auf die Arten von Fehlern, die ein Modell machen könnte, oder auf die Vorhersagekraft des Modells für verschiedene Gruppen. Oft können sie aus den Werten der sogenannten Confusion-Matrix abgeleitet werden. Sie enthält die Anzahl der richtig und falsch klassifizierten Testdaten des Modells je Klasse.

Wir betrachten die Confusion-Matrix für das Beispiel binärer Klassifikation. Beispielsweise könnte ein Modell Röntgenbilder in die Klassen „krank“ oder „gesund“ aufteilen oder ein Modell könnte Daten einer Bankkundin in die Klassen „kreditwürdig“ oder „nicht kreditwürdig“ kategorisieren. Wichtig ist dabei, dass die Ergebnisse vorab verifiziert sind. So werden als Testdaten beispielsweise Bilder verwendet, von denen vorab zweifelsfrei feststeht, auf wie vielen Bildern wirklich das Krankheitsbild zu sehen ist.

Statistische Performance-Metriken

Klassifikationsmodelle müssen nicht binär sein – sie können beispielsweise auch für mehr als zwei Klassen trainiert werden. Die meisten Performance-Metriken lassen sich aus denen der binären Klassifikation ableiten, weshalb wir uns in dieser Lerneinheit auf diese beschränken.

Wie im Video erklärt, können also bei der Arbeit mit einem binären Klassifikator sowohl die vorhergesagten als auch die tatsächlichen Klassen zwei Werte annehmen: Klasse 1 und Klasse 2. Wir wiederholen zunächst die verschiedenen möglichen Beziehungen zwischen vorhergesagtem und tatsächlichem Ergebnis:

  • True Positives (TP): Datenistanzen wurden zu Klasse 1 klassifiziert und sind auch Klasse 1.
  • False Positives (FP): Dateninstanzen wurden zu Klasse 1 klassifiziert,  sind aber Klasse 2.
  • True Negatives (TN): Dateninstanzen wurden zu Klasse 2 klassifiziert und sind auch Klasse 2.
  • False Negatives (FN): Dateninstanzen wurden zu Klasse 2 klassifiziert, sind aber Klasse 1.
 
Die meisten statistischen Fairness-Definitionen beruhen auf verschiedenen Performance-Metriken, die wir bereits im Video vorgestellt haben. Nachfolgend wollen wir auch diese kurz wiederholen:
 
  • Accuracy ist der Anteil der Dateninstanzen, die das Modell richtig klassifiziert. Hierfür teilt man die Anzahl der richtig klassifizierten Dateninstanzen (TP + TN) durch die Anzahl aller klassifizierten Dateninstanzen (TP + FN + FP + TN; entspricht der Anzahl an Testdaten).
 
  • Precision für eine Klasse ist der Anteil korrekt klassifizierter Dateninstanzen von allen Dateninstanzen, die das Modell dieser Klasse zugeordnet hat. Man rechnet: TP / (TP + FP).
 
  • Recall für eine Klasse ist der Anteil korrekt klassifizierter Dateninstanzen von allen Dateninstanzen, die tatsächlich dieser Klasse zugeordnet sind. Man rechnet: TP / (TP + FN).

 
Es gibt noch viele weitere Performance-Metriken, wie beispielsweise die folgenden vier:
 
  • False Positiv Rate (FPR) ist der Anteil der tatsächlich Klasse 2 zugehörigen Dateninstanzen, die das Modell fälschlicherweise Klasse 1 zugeordnet hat.
  • False Negativ Rate (FNR) ist der Anteil der tatsächlich Klasse 1 zugehörigen Dateninstanzen, die das Modell fälschlicherweise Klasse 2 zugeordnet hat.
  • False Discovery Rate (FDR)  ist der Anteil der von dem Modell als Klasse 1 zugeordneten Dateninstanzen, die in Wahrheit Klasse 2 zugeordnet sind.
  • False Omission Rate (FOR) ist der Anteil der von dem Modell als Klasse 2 zugeordneten Dateninstanzen, die in Wahrheit Klasse 1 zugeordnet sind.
Bei den beiden Metriken FPR und FNR ist zu beachten, dass der Nenner auf den tatsächlichen Ergebnissen (und nicht auf den Modellvorhersagen) basiert. Bei den Metriken FDR und FOR basiert der Nenner auf den Modellvorhersagen.
 

Oft gibt ein Modell für eine Dateninstanz aber nicht direkt eine der beiden Klassen (Klasse 1 oder Klasse 2) aus, sondern einen bestimmten Wert. Damit die Dateninstanz einer der beiden Klassen zugeordnet wird, wird ein Schwellenwert festgelegt über bzw. unter dem die eine oder die andere Klasse ausgegeben wird. Daher wird bei der Analyse binärer Ergebnisse häufig auch die ROC-Kurve (Receiver Operator Characteristic) verwendet, um die Performance eines Modells darzustellen. Die ROC-Kurve gibt Auskunft über die Performance über eine Reihe von Schwellenwerten und kann durch die Fläche unter der Kurve (AUC, area under the ROC-Curve), eine einzelne Zahl, zusammengefasst werden.

Die ROC-Kurve stellt die Performance-Metrik TPR gegen die Performance-Metrik FPR bei verschiedenen Klassifikationsschwellenwerten dar. Die folgende Abbildung zeigt eine typische ROC-Kurve.

Die AUC (area under the curve) misst die zweidimensionale Fläche unterhalb der gesamten ROC-Kurve (man denke an die Integralrechnung). Der Bereich unter der Kurve ist das Maß für die Fähigkeit eines Klassifikators, zwischen Klassen zu unterscheiden, und wird als Zusammenfassung der ROC-Kurve verwendet. Je höher die AUC, desto besser ist die Performance des Modells bei der Unterscheidung zwischen der Klasse 1 und Klasse 2.

Es gibt noch viele weitere Performance-Metriken, wie beispielsweise die folgenden vier:

 
  • False Positiv Rate (FPR) ist der Anteil der tatsächlich Klasse 2 zugehörigen Dateninstanzen, die das Modell fälschlicherweise Klasse 1 zugeordnet hat.
  • False Negativ Rate (FNR) ist der Anteil der tatsächlich Klasse 1 zugehörigen Dateninstanzen, die das Modell fälschlicherweise Klasse 2 zugeordnet hat.
  • False Discovery Rate (FDR)  ist der Anteil der von dem Modell als Klasse 1 zugeordneten Dateninstanzen, die in Wahrheit Klasse 2 zugeordnet sind.
  • False Omission Rate (FOR) ist der Anteil der von dem Modell als Klasse 2 zugeordneten Dateninstanzen, die in Wahrheit Klasse 1 zugeordnet sind.
 
Bei den beiden Metriken FPR und FNR ist zu beachten, dass der Nenner auf den tatsächlichen Ergebnissen (und nicht auf den Modellvorhersagen) basiert. Bei den Metriken FDR und FOR basiert der Nenner auf den Modellvorhersagen.
 

Oft gibt ein Modell für eine Dateninstanz aber nicht direkt eine der beiden Klassen (Klasse 1 oder Klasse 2) aus, sondern einen bestimmten Wert. Damit die Dateninstanz einer der beiden Klassen zugeordnet wird, wird ein Schwellenwert festgelegt über bzw. unter dem die eine oder die andere Klasse ausgegeben wird. Daher wird bei der Analyse binärer Ergebnisse häufig auch die ROC-Kurve (Receiver Operator Characteristic) verwendet, um die Performance eines Modells darzustellen. Die ROC-Kurve gibt Auskunft über die Performance über eine Reihe von Schwellenwerten und kann durch die Fläche unter der Kurve (AUC, area under the ROC-Curve), eine einzelne Zahl, zusammengefasst werden.

Die ROC-Kurve stellt die Performance-Metrik TPR gegen die Performance-Metrik FPR bei verschiedenen Klassifikationsschwellenwerten dar. Die folgende Abbildung zeigt eine typische ROC-Kurve.

Die AUC (area under the curve) misst die zweidimensionale Fläche unterhalb der gesamten ROC-Kurve (man denke an die Integralrechnung). Der Bereich unter der Kurve ist das Maß für die Fähigkeit eines Klassifikators, zwischen Klassen zu unterscheiden, und wird als Zusammenfassung der ROC-Kurve verwendet. Je höher die AUC, desto besser ist die Performance des Modells bei der Unterscheidung zwischen der Klasse 1 und Klasse 2.

Statistische Definitionen von Fairness bezogen auf die Performance-Metriken

Im Folgenden führen wir nun drei statistische Definitionen von Fairness ein, die auf den oben genannten Performance-Metriken basieren. Auch hierfür haben wir für dich ein Video vorbereitet:

 

Wir wiederholen die drei vorgestellten Definitionen von Fairness:

  • Demographic Parity: Ein Klassifikator erfüllt diese Definition, wenn verschiedene Personengruppen (z. B. Frauen und Männer oder Afroamerikaner*innen und Nicht-Afroamerikaner*innen) die gleiche Wahrscheinlichkeit haben, der Klasse 1 zugeordnet zu werden.
 
  • Equal Opportunity: Ein Klassifikator erfüllt diese Definition, wenn verschiedene Personengruppen die gleiche True Positive Rate haben.
 
  • Equalized Odds: Ein Klassifikator erfüllt diese Definition, wenn verschiedene Personengruppen die gleiche True Positive Rate und die gleiche False Positive Rate haben.
 

In der Praxis ist es nicht möglich, ein Modell für alle Definitionen von Fairness zu optimieren. Welche Fairness-Definition solltest du also wählen? Wie bei den meisten ethischen Fragen ist die Antwort in der Regel nicht leicht zu finden und die Auswahl einer Definition sollte in einem Gespräch diskutiert werden, an dem alle Mitglieder*innen deines Teams beteiligt sind.

 

 

Übrigens: Wenn du an echten Problemstellungen arbeitest, werden die Daten viel, viel größer sein. In diesem Fall ist die Confusion-Matrix immer noch ein nützliches Instrument zur Analyse der Performance. Ein wichtiger Punkt ist jedoch, dass von realen Modellen in der Regel nicht erwartet werden kann, dass sie jede Fairness-Definition perfekt erfüllen. Wenn beispielsweise “Demographic Parity” als Fairness-Definition gewählt wird und ein Modell 50 % Männer auswählen soll, kann es vorkommen, dass das endgültige Modell einen Prozentsatz auswählt, der nahe an 50 % liegt, aber nicht genau 50 % beträgt (wie 48 % oder 53 %).

 

 

 
 

Das Konzept Fairness
Die Fairness-Definitionen
im Detail


Vertiefe deine Fähigkeiten anhand praxisnaher Übungsaufgaben.

Abschnitt 5 / 7

Bias erkennen & Unfairness quantifizieren

5. Bias in der realen Welt

Lerne in diesem Abschnitt, wie du mit den Problemen Bias & Fairness in der realen Welt umgehen kannst.

 

Abschnitt 5 / 7

Bias erkennen & Unfairness quantifizieren

5. Bias in der realen Welt

Lerne in diesem Abschnitt, wie du mit den Problemen Bias & Fairness in der realen Welt umgehen kannst.

Es ist keine leichte Aufgabe, Bias in deinem KI-System zu erkennen, da dieser an jeder Stelle des ML-Lebenszyklus auftreten kann. Zudem sehen verschiedene Menschen verschiedene Ergebnisse als “fair” an.

Du hast bereits gelernt, dass Bias auf eine Vielzahl spezifischer Arten in einem ML-Lebenszyklus auftreten kann. Zudem hast du gesehen, dass es nicht den einen Ansatz für Fairness gibt, sondern verschiedene Auslegungen. Wie geht man nun in der realen Welt mit Bias und Fairness in KI-Systemen um? Um diese Problematik anzugehen, müssen viele Fragen gestellt werden. In der folgenden Grafik siehst du mögliche Fragestellungen für ausgewählte Phasen des ML-Lebenszyklus, die gestellt werden können, um unfaire Entscheidungen zu vermeiden.

Ein großes Problem besteht darin, dass ein Bias selten offensichtlich ist. Denke an die Kommentare, welche unter einem Beitrag auf einem sozialen Netzwerk gepostet werden. Sobald ein Kommentar zum Beispiel durch Hassreden gegen die Richtlinien der Plattform verstößt, kann es nach dem Posting durch die Plattform gelöscht werden. Manche Plattformen setzen KI-Systeme ein, um solche hasserfüllten Kommentare automatisch zu selektieren und zu löschen. Aber wer bestimmt, welche Kommentare hasserfüllt sind? Könnte solch ein KI-System unfaire Ergebnisse produzieren? Könnte jemand diskriminiert werden?

Nutze den dritten Kurs dieser Lerneinheit, um genau dieses Szenario genauer zu untersuchen. Du kannst hier direkt an einem realen Datensatz arbeiten und für ein KI-System prüfen, ob ein Bias vorliegt und Performance-Metriken untersuchen.

 

Bias in der realen Welt
Bias erkennen &
Unfairness quantifizieren


Vertiefe deine Fähigkeiten anhand praxisnaher Übungsaufgaben.

Abschnitt 6 / 7

Mitigation von Bias

6. Verbesserung der KI-Fairness

Lerne in diesem Abschnitt verschiedene Mitigationsstrategien kennen.

 

Abschnitt 6 / 7

Mitigation von Bias

6. Verbesserung der KI-Fairness

Lerne in diesem Abschnitt verschiedene Mitigationsstrategien kennen.

Bias in KI-Systemen kann vielfältig sein und zu unfairen oder diskriminierenden Entscheidungen führen. Aber es gibt auch viele Möglichkeiten, Bias zu bekämpfen. Wir geben dir in diesem Abschnitt einen Einblick in mögliche Mitigationsstrategien.

Es gibt einige Ansätze zur Abschwächung oder Beseitigung von Bias in den verschiedenen Phasen des ML-Lebenszyklus. Es gibt jedoch keinen „One size fits all“-Ansatz. Die Ansätze reichen davon, eine Anwendung so zu formulieren, dass sie relativ frei von Bias ist, über eine relativ unvoreingenommene Datenerfassung bis hin zur Entwicklung von Algorithmen zur Minimierung von Voreingenommenheit. Im Folgenden wollen wir dir zwei konkrete Ansätze vorstellen.

Diversität in Teams

Alle Modelle werden von Menschen erstellt und spiegeln menschliche Vorurteile wider. Modelle für Maschinelles Lernen können die Voreingenommenheit von Organisationsteams, Designer*innen in diesen Teams, Datenwissenschaftler*innen, die Modelle implementieren, und der Dateningenieur*innen, die Daten sammeln, widerspiegeln. Natürlich spiegeln sie auch die Voreingenommenheit wider, die in den Daten selbst steckt. So wie wir von menschlichen Entscheidungsträger*innen ein gewisses Maß an Vertrauenswürdigkeit erwarten, erwarten wir auch von unseren Modellen ein gewisses Maß an Vertrauenswürdigkeit. Um Bias abzuschwächen, ist es also wichtig, dass die Teams im Hinblick auf verschiedene Aspekte möglichst divers sind.

Erklärbare KI

Erklärbare KI (engl. Explainable Artificial Intelligence, XAI) ist ein Bereich, in dem es im Wesentlichen darum geht, KI-Systeme transparenter zu machen, damit Menschen einem KI-System vertrauen und es genau überprüfen können – auch im Hinblick auf Voreingenommenheit und Fairness. Genauer gesagt umfasst Erklärbare KI eine Vielfalt von Technologien und Maßnahmen, welche dafür sorgen, dass die Transparenz eines KI-Systems steigt. Ziel ist immer, die Ergebnisse oder die interne Funktionsweise von KI-Systemen für menschliche Anwender*innen verständlich zu machen. Dadurch kann auch das Erkennen von Bias im ML-Lebenszyklus erheblich unterstützt werden und folglich korrigiert werden. Erklärbare KI kann demnach als eine Möglichkeit zur Mitigation von Bias und zur Verbesserung der KI-Fairness betrachtet werden.

Algorithmen zur Minimierung von Voreingenommenheit

Techniken zur Minimierung von Verzerrungen in Algorithmen können in drei Kategorien eingeteilt werden:

  • Pre-Processing Algorithmen: Durch Techniken der Vorverarbeitung wird versucht, die Daten so zu transformieren, dass die zugrunde liegende Diskriminierung minimiert wird.
 
  • In-Processing Algorithmen: In-Processing Algorithmen versuchen, moderne Lernalgorithmen zu modifizieren und zu verändern, um Diskriminierung während des Trainingsprozesses zu beseitigen. Die Algorithmen können beispielsweise durch die Aufnahme von Änderungen in die Zielfunktion oder durch die Auferlegung einer Beschränkung Bias minimieren.
 
  • Post-Processing Algorithmen: Wenn der Algorithmus das gelernte Modell nur als Blackbox behandeln kann, ohne die Möglichkeit, die Trainingsdaten oder den Lernalgorithmus zu verändern, dann bleibt lediglich die Möglichkeit der Verwendung von Post-Processing Algorithmen, bei denen die vom Blackbox-Modell ursprünglich zugewiesenen Labels in der Post-Processing Phase anhand einer Funktion neu zugewiesen werden.
 

Der Bereich der algorithmischen Fairness ist ein neues Forschungsgebiet, welches noch weiter optimiert bzw. verfeinert werden muss. Dennoch gibt es bereits eine Vielzahl an Forschungsarbeiten, die faire Algorithmen und Techniken zur Abschwächung von Verzerrungen vorschlagen und verschiedene Algorithmen zur Abschwächung von Verzerrungen vergleichen.

 

Im Folgenden geben wir dir drei kurze Beispiele für bestehende Arbeiten und zeigen ihre Einteilung in eine dieser Kategorien. Dabei besteht das Hauptziel der Algorithmen darin, ein Modell mit höherer Accuracy zu erreichen und gleichzeitig sicherzustellen, dass die Modelle in Bezug auf sensible Attribute weniger diskriminierend sind. Mit einfachen Worten: Die Ausgabe des Klassifikators sollte nicht mit sensiblen Attributen korrelieren. Die Erstellung solcher ML-Modelle wird zu einem multikriteriellen Optimierungsproblem. Die Qualität des Klassifikators wird anhand seiner Genauigkeit und der Unterscheidung, die er auf der Grundlage sensibler Merkmale vornimmt, gemessen; je genauer, desto besser, und je weniger diskriminierend (auf der Grundlage sensibler Merkmale), desto besser.

 

  • Feature modification (Pre-Processing): Der Algorithmus geht von einem binären oder kategorialen sensiblen Attribut aus. Er passt die Verteilungen der Merkmale so an, dass sie in jeder sensiblen Gruppe gleich sind. Das Ergebnis der Anwendung des Algorithmus ist ein veränderter Datensatz, bei dem jedes Merkmal in den Daten vom sensiblen Attribut entkoppelt wurde. Der Gedanke dahinter ist, dass ein auf diesen Daten trainiertes Modell nicht in der Lage sein sollte, eine Unterscheidung auf der Grundlage der sensiblen Attribute zu erlernen. Mehr dazu: https://dl.acm.org/doi/10.1145/2783258.2783311.
 
  • Regularisation (In-Processing): Bei diesem Algorithmus nähert ein Regularisierungsterm die gegenseitige Information in den Vorhersagen und den sensiblen Attributen an. Dieser Regularisierungsterm wird in das Optimierungsziel einbezogen. Die Minimierung der Zielfunktion fördert somit sowohl eine genaue Vorhersage als auch die Vermeidung einer zu extremen Beziehung zwischen den Vorhersagen und den sensiblen Attributen, wodurch eine demografische Parität erzwungen wird. Mehr dazu: https://www.researchgate.net/publication/262176212_Fairness-Aware_Classifier_with_Prejudice_Remover_Regularizer.
 
  • Decision treshold modification (Post-Processing): Wir haben gelernt, dass die Fairness-Definition Equalized odds voraussetzt dass die TPR und die FPR für jede sensible Gruppe gleich sind. Die Fairness-Definition Equal opportunity setzt voraus, dass nur die TPR gleich sind. In beiden Fällen erreicht dieser Algorithmus dies durch die Anpassung der Schwellwerte für jede Gruppe, die zur Bestimmung der Vorhersage verwendet werden. Der Algorithmus ist daher sehr breit anwendbar, denn er benötigt lediglich Zugang zum Modell-Output und dem geschützten Attribut. Mehr dazu: https://arxiv.org/abs/1610.02413.
 

 

Im Folgenden geben wir dir drei kurze Beispiele für bestehende Arbeiten und zeigen ihre Einteilung in eine dieser Kategorien. Dabei besteht das Hauptziel der Algorithmen darin, ein Modell mit höherer Accuracy zu erreichen und gleichzeitig sicherzustellen, dass die Modelle in Bezug auf sensible Attribute weniger diskriminierend sind. Mit einfachen Worten: Die Ausgabe des Klassifikators sollte nicht mit sensiblen Attributen korrelieren. Die Erstellung solcher ML-Modelle wird zu einem multikriteriellen Optimierungsproblem. Die Qualität des Klassifikators wird anhand seiner Genauigkeit und der Unterscheidung, die er auf der Grundlage sensibler Merkmale vornimmt, gemessen; je genauer, desto besser, und je weniger diskriminierend (auf der Grundlage sensibler Merkmale), desto besser.

 

  • Feature modification (Pre-Processing): Der Algorithmus geht von einem binären oder kategorialen sensiblen Attribut aus. Er passt die Verteilungen der Merkmale so an, dass sie in jeder sensiblen Gruppe gleich sind. Das Ergebnis der Anwendung des Algorithmus ist ein veränderter Datensatz, bei dem jedes Merkmal in den Daten vom sensiblen Attribut entkoppelt wurde. Der Gedanke dahinter ist, dass ein auf diesen Daten trainiertes Modell nicht in der Lage sein sollte, eine Unterscheidung auf der Grundlage der sensiblen Attribute zu erlernen. Mehr dazu: https://dl.acm.org/doi/10.1145/2783258.2783311.
 
  • Regularisation (In-Processing): Bei diesem Algorithmus nähert ein Regularisierungsterm die gegenseitige Information in den Vorhersagen und den sensiblen Attributen an. Dieser Regularisierungsterm wird in das Optimierungsziel einbezogen. Die Minimierung der Zielfunktion fördert somit sowohl eine genaue Vorhersage als auch die Vermeidung einer zu extremen Beziehung zwischen den Vorhersagen und den sensiblen Attributen, wodurch eine demografische Parität erzwungen wird. Mehr dazu: https://www.researchgate.net/publication/262176212_Fairness-Aware_Classifier_with_Prejudice_Remover_Regularizer.
 
  • Decision treshold modification (Post-Processing): Wir haben gelernt, dass die Fairness-Definition Equalized odds voraussetzt dass die TPR und die FPR für jede sensible Gruppe gleich sind. Die Fairness-Definition Equal opportunity setzt voraus, dass nur die TPR gleich sind. In beiden Fällen erreicht dieser Algorithmus dies durch die Anpassung der Schwellwerte für jede Gruppe, die zur Bestimmung der Vorhersage verwendet werden. Der Algorithmus ist daher sehr breit anwendbar, denn er benötigt lediglich Zugang zum Modell-Output und dem geschützten Attribut. Mehr dazu: https://arxiv.org/abs/1610.02413.
 

 

Es gibt bisher nicht die eine richtige Antwort, wie Fairness in einem KI-System gewährleistet werden kann. Die “richtigen Antworten” entwickeln sich ständig weiter, da KI-Fairness ein aktives Forschungsgebiet ist.

Bias-Mitigation
Verbesserung der KI-Fairness

Vertiefe deine Fähigkeiten anhand praxisnaher Übungsaufgaben.

Abschnitt 7 / 7

Ausblick

7. Relevanz in der Zukunft

Lerne in diesem Abschnitt die Vorteile einer Zukunft mit fairen Algorithmen zu sehen und zu ergreifen.

Abschnitt 7 / 7

Ausblick

7. Relevanz in der Zukunft

Lerne in diesem Abschnitt die Vorteile einer Zukunft mit fairen Algorithmen zu sehen und zu ergreifen.

Du darfst vor der Herausforderung, den Einsatz von algorithmischen Entscheidungssystemen fair zu gestalten, nicht zurückschrecken. Je tiefer man in das Thema Bias & Fairness in KI-Systemen taucht, desto mehr bekommt man die Komplexität des Problems zu spüren. Auf der philosophischen Seite findet ein Diskurs über die richtige Definition von Fairness bzw. Diskriminierung statt. Dies ist ein Diskurs, der technisch der Unmöglichkeit gegenübersteht, alle theoretischen Auffassungen von Fairness gleichzeitig zu berücksichtigen, da sie sich teilweise gegenseitig ausschließen. Auf der technischen Seite sieht man sich mit den Herausforderungen der Blackbox eines komplexen Algorithmus konfrontiert: Was passiert überhaupt alles in meinem Algorithmus?

Die Diskussion über faire Algorithmen muss jetzt stattfinden. Letztlich können uns Algorithmen helfen, sofern sie fair sind, unsere eigene Voreingenommenheit zu überwinden. Es sollten schnellstmöglich bestehende, diskriminierende Praktiken offengelegt und die Reflexion über zugrundeliegende Entscheidungskriterien angestoßen werden. So können die nächsten Schritte im Einsatz von Algorithmen und KI angeregt werden. Dazu zählt beispielsweise eine geschulte, aufgeklärte Nutzung von algorithmischen Entscheidungssystemen.

Bias und Fairness sind dabei nur Teile des Puzzles von vertrauenswürdiger und ethischer KI. Neben Bias und Fairness zählen beispielsweise auch Datenschutz und Erklärbarkeit dazu.

Fallstudie zu
Bias und Fairness