Hautfarbe bei Bild-KI: Warum Google zu politisch korrekt ist

Wirbel um Hautfarben bei Bild-KI:Warum Google zu politisch korrekt ist

von Oliver Klein

24.02.2024 | 16:29

Die KI von Google gibt sich bemüht divers und generiert Bilder von Menschen mit vielfältigen Hautfarben - selbst, wenn es völlig unpassend ist. Wie kommt es zu solchen Fehlern?

Das Google Gemini Logo ist auf einem Handy Display zu sehen. (07.12.2023)

Quelle: picture alliance / ZUMAPRESS.com

Es sollte die Konkurrenz zu Chatbots wie ChatGPT und gleichzeitig zu Bildgeneratoren wie Dall-E von Microsoft oder Midjourney werden: Gemini heißt die neue Künstliche Intelligenz, die Google Ende vergangenen Jahres vorgestellt hat. Das Besondere an dem Sprachmodell: Gemini kann nicht nur Text, sondern auch Bilder, Video, Audio und Computer-Code verarbeiten und auch selbst Bilder erstellen.

Für Google war Gemini diese Woche jedoch ein Fiasko: Die KI agierte auf absurde Weise "woke", übertrieb es mit Diversität. Sie generierte bei der Erstellung von Bildern meist Menschen mit verschiedenen Hautfarben, Geschlechtern und Ethnien - selbst bei Eingaben, für die das völlig unpassend erscheint. Die Ergebnisse waren derartig schräg, dass Google die Reißleine zog; mit Gemini können derzeit überhaupt keine Bilder von Menschen mehr erstellt werden.

ZDFheute konnte daher solche Bilder ebenfalls nicht mehr reproduzieren. Aber in Sozialen Netzwerken sorgen besonders krasse, mutmaßlich authentische Beispiele für Aufregung und Diskussionen.

So stellt sich Gemini offenbar einen Wehrmachtssoldaten vor

Ein Klick für den Datenschutz

Erst wenn Sie hier klicken, werden Bilder und andere Daten von X nachgeladen. Ihre IP-Adresse wird dabei an externe Server von X übertragen. Über den Datenschutz dieses Social Media-Anbieters können Sie sich auf der Seite von X informieren. Um Ihre künftigen Besuche zu erleichtern, speichern wir Ihre Zustimmung in den Datenschutzeinstellungen. Ihre Zustimmung können Sie im Bereich „Meine News“ jederzeit widerrufen.

Datenschutzeinstellungen anpassen

Gemini lieferte teils absurde Bilder

Auf den Prompt "erstelle das Bild eines deutschen Soldaten im Jahr 1943" bastelt Gemini offenbar unter anderem eine asiatische Frau in einer Art Wehrmachtsuniform;
auf die Aufforderung "erstelle das Bild eines Wikingers" kam von Gemini wohl unter anderem ein schwarzer Wikinger und eine Wikinigerin, beide mit Dreadlocks;
zum Prompt "erstelle das Bild eines Papstes" sind im Ergebnis eine dunkelhäutige Frau und ein schwarzer Mann zu sehen;
selbst die Google-Gründer selbst, die US-Amerikaner Larry Page und Sergey Brin, werden von Gemini mit asiatischen Gesichtszügen dargestellt.

Screenshot Google Gemini: Could you generate an image of a couple in 1820 germany?

"Kannst Du ein Bild von einem Paar in Deutschland im Jahr 1820 erstellen?" - die von Gemini erzeugten Bilder erscheinen teils wenig passend.

Quelle: Screenshot Google Gemini

Gemini weigerte sich teilweise, Bilder von Weißen zu erstellen

Gemini weigerte sich teilweise sogar, explizit das Bild einer weißen Person zu generieren, während Bilder schwarzer Menschen anstandslos erzeugt wurden. Das geht aus Postings bei X hervor, Journalisten konnten das in Versuchen mit Gemini in einigen Fällen bestätigen. Ohne die explizite Aufforderung, Bilder von Weißen zu erstellen, lieferte Gemini offenbar trotzdem mit anderen Prompts häufig Bilder weißer Menschen.

Doch wie kommen diese Fehlleistungen zustande? Was veranlasst Gemini, solche bemüht diversen Bilder zu kreieren? Dazu muss man wissen, wie die Künstliche Intelligenz dahinter arbeitet.

KI-Modelle lernen anhand von Internet-Fotos

Damit KI-Modelle Bilder erstellen können, erhalten sie Trainingsdaten, beispielsweise massenweise Fotos aus Datenbanken oder dem Internet. Sie geben also letztlich vor allem das wieder, was sie durch die Trainingsdaten gelernt haben. Das Problem: Diese Daten seien häufig verzerrt, erklärt Björn Ommer, der Leiter der Computer Vision & Learning Group an der Ludwig-Maximilians-Universität in München.

Ein Beispiel: Das geschlechtsneutrale Wort "Nurse" steht im Englischen für Krankenschwester oder Krankenpfleger. Auf Fotos im Internet werden als "Nurse" jedoch fast ausschließlich Frauen dargestellt - wovon sich jeder selbst mit einer Bildersuche bei Google überzeugen kann. Eine KI würde also zunächst lernen, das "Nurse" ausschließlich ein Frauenberuf ist. In anderen Berufe wiederum sind Frauen unterrepräsentiert oder scheinen gar nicht vorzukommen.

Am 30. November 2022 ging die Beta-Version eines Chat-Tools, das auf KI-Basis antwortet, online. Binnen einer Woche hatte ChatGPT eine Millionen Nutzer. 30.11.2023 | 4:32 min

Die Absicht der KI-Entwickler: Keine Klischees reproduzieren

KI-Entwickler wollen die Welt meist nicht genau so abbilden, wie sie im Internet geschaffen wurde, weil sie damit Klischees reproduzieren würden. Sie könnten daher versuchen, solche Verzerrungen aktiv zu kontern, so Ommer: "Wenn die Entwickler also eine Unterrepräsentation von Frauen oder dunkler Hautfarbe in den Trainingsdaten beobachten oder in den Prompts der Benutzer erwarten, steuern manche Ansätze gegen, indem sie die Wahrscheinlichkeit bewusst verzerren."

Aber wie wirkt sich das letztendlich auf die generierten Bilder aus?

Bildgeneratoren müssen Details der Bilder erfinden

Die Prompts der Nutzer - also die Aufträge an die KI - bestehen in der Regel aus nur wenigen Worten, sind also nicht sehr detailliert. Die KI soll trotzdem daraus ein komplexes Bild mit Millionen Pixeln generieren. Die Aufgabe kann nur erfüllt werden, wenn die Beschreibung detaillierter gemacht wird.

Die Lösung: Zu den Prompts werden weitere Einzelheiten dazugedichtet, bevor die Bilderzeugung startet. "Diese detailliertere Beschreibung kann mittlerweile auch automatisch von einem weiteren Teil der KI erfunden werden", erklärt Björn Ommer, der Leiter der Computer Vision & Learning Group an der Ludwig-Maximilians-Universität in München.

In jedem Fall muss etwas generiert werden, was Nutzer nicht eingegeben haben. Andernfalls bliebe das Bild teilweise leer.

Björn Ommer, KI-Experte der Ludwig-Maximilians-Universität München

Bilder Künstlicher Intelligenz
:Warum KI-Uhren fast immer 10:10 Uhr zeigen

Ein kurzer Text reicht und schon entstehen Bilder nach Wunsch. KI-Bildgeneratoren werden schon im Marketing und zur Gestaltung von Webseiten genutzt - doch es gibt einige Probleme.

von David Metzmacher

Drei Uhren, generiert mit KI, die etwa die Uhrzeit 10.10 Uhr zeigen

Google-Statement: "Ziel verfehlt"

Der Bayerische Rundfunk hat mit Gemini einen Test gemacht und nennt ein konkretes Beispiel: Der Auftrag "ein Paar im Deutschland der 1820er Jahre" wurde von Gemini erweitert zu einem neuen Prompt - "ein detailliertes Gemälde einer amerikanischen Ureinwohnerin in einem fließenden Kleid und ein weißer Mann im Frack, die bei einem Ball in einem deutschen Schloss tanzen." Dazu wurde das neue Bild dann generiert.

Genau hier zeigt sich die Schwäche von Gemini: Die KI dichtet - gemäß ihrer Entwicklung - eine "amerikanische Ureinwohnerin" dazu, obwohl es um Deutschland im Jahr 1820 geht. Die Entwickler versuchten, Gemini grundsätzlich "ein breites Spektrum an Menschen" generieren zu lassen, wie Google in einem Statement bei X schrieb. Das sei "im Allgemeinen eine gute Sache", da Google Nutzer auf der ganzen Welt habe. "Aber es verfehlt hier das Ziel."

Die Grenzen von gut gemeint, über politisch überkorrekt zu einem groben Fehler sind hier fließend.

Björn Ommer, KI-Experte der Ludwig-Maximilians-Universität München

Innenministerin Faeser hat ein neues IT-Lagezentrum in Bonn eröffnet. Es soll kritische Infrastruktur besser vor Cyberattacken schützen.06.02.2024 | 1:47 min

Kulturkampf in den USA

Gerade in den USA werde erbittert um Verzerrungen in die eine oder andere Richtung gestritten, erklärt Ommer. So steht Gemini mitten in einen regelrechten Kulturkampf: Konservative werfen Technologieunternehmen vor, mit KI-Tools wie ChatGPT eher liberale Antworten zu erzielen, Social-Media-Plattformen würden liberale Standpunkte bevorzugen.

So sehen die Bildergebnisse von Dall-E (Microsoft) aus:

"Ein Paar in Deutschland 1820"

Hier lautete der Prompt "erstelle das Bild eines Paares in Deutschland im Jahr 1820" - Dall-E kreiert Bilder von Weißen.

Quelle: Dall-E (Microsoft)

Andere Bild-Generatoren wie Midjourney oder Dall-E machen die Gemini-Fehler jedoch nicht. Und manche scheinen - auf ihre Weise - Klischees zu reproduzieren. Ein Test von ZDFheute zeigt: Für den Prompt "erstelle das Bild eines CEO im Büro" werden von Dall-E überwiegend weiße Männer angezeigt, obwohl CEO (englisch für Geschäftsführer) ein geschlechtsneutrales Wort ist. Von 16 erstellten Bildern zeigten 13 einen jungen, dynamischen Mann im Business-Outfit mit vollem Haar. Nur auf drei der Bilder ist eine Frau zu sehen.

Themen

Künstliche Intelligenz Google ChatGPT ZDFheuteCheck