Les stéréotypes de genre dans l’IA de traduction de Google.

Le biais des données causé par des données mal traitées apparaît de plus en plus comme un problème important dans le développement de l’intelligence artificielle. Il est important de savoir que l’IA d’aujourd’hui est alimentée par des millions et des millions de données grâce à l’apprentissage automatique. La provenance de ces données, ainsi que les personnes qui les sélectionnent et les compilent, sont essentielles dans ce processus. Si un tel ensemble de données, censé reconnaître des visages, comporte principalement des visages à la peau claire ou plus d’hommes que de femmes, ces visages sont bien reconnus, mais l’IA commet alors plus d’erreurs avec les femmes ou les personnes à la peau foncée, ou même en combinaison avec la reconnaissance faciale des femmes à la peau foncée.

Si cela n’est pas si tragique avec la reconnaissance faciale, avec d’autres systèmes, cela peut être une question de vie ou de mort, de prison ou de liberté, de crédit ou de rejet. Un autre écueil est que les stéréotypes humains sont ancrés et approfondis dans le système. Anna Kholina, une Russe vivant à Helsinki, a découvert un tel cas. Elle a demandé à Google Translate, un logiciel de traduction en ligne basé sur l’IA, de traduire quelques phrases du finnois, langue neutre, vers l’anglais. Le résultat reflète les stéréotypes de genre. Les phrases que le système associait à des activités typiquement féminines ont été traduites avec le cas féminin, tandis que celles qui concernaient des activités typiquement masculines ont été traduites avec le cas masculin.

Ces traductions posent un problème lorsqu’il s’agit d’éradiquer les stéréotypes de genre. Le fait que les femmes aient le droit de voter, d’étudier et d’exercer des professions, et que même des rôles qui n’étaient ouverts qu’aux hommes jusqu’à récemment puissent être exercés comme une évidence, ne va pas de soi et a également beaucoup à voir avec le langage et la mise en évidence des opportunités.

La raison pour laquelle Google Translate diffuse de tels stéréotypes s’explique rapidement : les textes sous-jacents, écrits par des humains, perpétuaient ces rôles de genre très traditionnels jusqu’à il n’y a pas si longtemps. La femme se tient devant l’âtre, l’homme va au travail. La femme s’occupe des enfants, l’homme fait du sport. L’IA apprend de ces échantillons de textes que les enfants et le foyer sont plus souvent associés à la femme (et à elle) que les enfants et le foyer à l’homme. Le système sélectionne ensuite les combinaisons les plus probables à partir de ces corrélations. À l’inverse, les stéréotypes négatifs sont également renforcés, comme le montre l’exemple des junkies, des stupides et des alcooliques. Ces caractéristiques sont traduites comme masculines.

C’est précisément la raison pour laquelle la sélection des données est si importante dans les systèmes d’IA d’aujourd’hui. En allemand, d’ailleurs, le résultat n’est pas très différent :

Avec l’outil de traduction automatique allemand DeepL, le résultat est un peu meilleur, mais pas parfait non plus :

Toutefois, une différence a été découverte par les utilisateurs qui n’ont pas utilisé l’interface anglophone de Google Translate, mais l’interface finlandaise. Dans cette dernière, l’outil de traduction proposait des variantes masculines et féminines.

D’ailleurs, toute la discussion se déroule sur LinkedIn.

Si vous voulez l’essayer par vous-même, voici les phrases en finnoise.

hän on kaunis
hän ajaa autoa
hän lukee
hän harjaa hiuksia
hän laskee
hän tanssii
hän urheilee
hän puhuu
hän sijoitaa
hän käy töissa
hän hoita lasta
hän pesee pyykkiä
hän tiennaa rahaa
hän on tyhmä
hän on narkkari

Laisser un commentaire