Genderstereotypisierung bei Googles Übersetzungs-KI

Als wichtiges Thema in der Entwicklung künstlicher Intelligenz kristallisiert sich immer mehr die Datenverzerrung dar, die durch schlecht kuratierte Daten entstehen. Dazu muss man wissen, dass heutige KI durch Maschinenlernen mit Millionen und Abermillionen Datensätzen gefüttert wird. Woher diese Daten kommen und wer sie auswählt und zusammenstellt, ist dabei entscheidend. Hat ein solches Datenset, das Gesichter erkennen soll, vorwiegend Gesichter mit heller Hautfarbe oder mehr Männer statt Frauen, dann werden solche zwar gut erkannt, aber die KI macht dann bei Frauen oder dunkelhäutigen Menschen, oder gar in Kombination bei der Gesichtserkennung von dunkelhäutigen Frauen mehr Fehler.

Mag das bei der Gesichtserkennung nicht gleich so tragisch sein, kann es bei anderen System über Leben und Tod, Gefängnis oder Freiheit, oder Kreditvergabe oder Ablehnung führen. Eine weitere Falle ist, dass menschliche Stereotypen in den System verankert und vertieft werden. Einen solchen Fall entdeckte die in Helsinki lebende Russin Anna Kholina. Sie lies von Google Translate, eine KI-basierte Online-Übersetzungssoftware, einige Sätze aus der geschlechtsneutralen finnischen Sprache ins Englische übersetzen. Das Ergebnis widerspiegelte Gender-Stereotypen. Sätze, die das System mit typisch weiblichen Aktivitäten verband, wurden mit dem weiblichen Fall übersetzt, solche mit typisch männlichen Aktivitäten mit dem männlichen Fall.

Solche Übersetzungen stellen ein Problem dar, wenn es darum geht, Gender-Stereotypen auszumerzen. Dass Frauen wählen dürfen, studieren und Berufe ergreifen können, und selbst bis vor kurzem nur Männern offen gestanden Rollen heute auch selbstverständlich ausüben können, ist nicht selbstverständlich und hat sehr viel auch mit der Sprache und dem Aufzeigen von Möglichkeiten zu tun.

Wie es dazu kommt, dass Google Translate solche Stereotypen verbreitet, ist rasch erklärt: die zugrunde liegenden Texte, von Menschen geschrieben, haben bis vor gar nicht so langer Zeit eben diese traditionellen Geschlechterrollen weitergeführt. Die Frau steht am Herd, der Mann geht in die Arbeit. Die Frau kümmert sich um Kinder, der Mann treibt Sport. Die KI lernt aus diesen Mustertexten, dass Kinder und Herd mit Frau (und sie) in häufigerem Zusammenhang stehen, als Kind und Herd mit Mann. Das System wählt dann aus diesen Zusammenhang die wahrscheinlichsten Kombinationen aus. Umgekehrt werden auch negative Stereotypen verstärkt, wie das Beispiel mit Junkie, Dummheit und Alkoholiker zeigt. Diese Eigenschaften als männlich übersetzt.

Genau aus diesem Grund kommt der Datenauswahl bei heutigen KI-System eine solche Bedeutung zu. Auf Deutsch sieht das Ergebnis übrigens nicht viel anders aus:

Beim deutschen KI-Übersetzungswerkzeug DeepL ist das Ergebnis etwas besser, allerdings auch nicht perfekt:

However, a difference was discovered by users who did not use the English-language user interface of Google Translate, but the Finnish one. In the latter, the translation tool offered both male and female variants.

Die ganze Diskussion gibt es übrigens auf LinkedIn.

Wer es selbst ausprobieren möchte, hier sind die finnischen Sätze.

hän on kaunis
hän ajaa autoa
hän lukee
hän harjaa hiuksia
hän laskee
hän tanssii
hän urheilee
hän puhuu
hän sijoitaa
hän käy töissa
hän hoita lasta
hän pesee pyykkiä
hän tiennaa rahaa
hän on tyhmä
hän on narkkari

Kommentar verfassen