Warum Uhren von KI-Bildgeneratoren meist 10:10 Uhr zeigen
Bilder Künstlicher Intelligenz:Warum KI-Uhren fast immer 10:10 Uhr zeigen
von David Metzmacher
|
Ein kurzer Text reicht und schon entstehen Bilder nach Wunsch. KI-Bildgeneratoren werden schon im Marketing und zur Gestaltung von Webseiten genutzt - doch es gibt einige Probleme.
Bilder von Armbanduhren generiert mit den KI-Bildgeneratoren DALL-E, Lexica und Midjourney.
Quelle: David Metzmacher
Bildgeneratoren mit Künstlicher Intelligenz wie Midjourney, DALL-E, Stable Diffusion oder Lexica erlauben es Nutzern auf Knopfdruck mit kurzen Texten gänzlich neue Bilder zu generieren. Das kann viel Spaß machen und kann Kreativen die Arbeit erleichtern. Doch bei gewissen Aufgaben geraten die Modelle teils schnell an ihre Grenzen. Auch Fragen zum Urheberrecht stehen im Raum.
Warum es bei KI-Uhren fast immer 10:10 Uhr ist
Generiere ein Bild einer analogen Armbanduhr, die die Uhrzeit 15:35 Uhr zeigt.
„
Prompt für den Selbsttest
Auf diesen kurzen Prompt, so heißen die Befehle für generative KI-Modelle, spucken sowohl ChatGPT, das in der Bezahlvariante den Bildgenerator DALL-E nutzt, als auch Midjourney (kostenpflichtig) sowie der Dienst Lexica (kostenlos) innerhalb einer halben Minute Ergebnisse aus.
Midjourney
"Generiere ein Bild einer analogen Armbanduhr, die die Uhrzeit 15.35 Uhr zeigt."
Quelle: Screenshot / David Metzmacher / Midjourney
Obwohl die Bilder auf den ersten Blick ansprechend wirken, zeigen sich bei genauerem Hinsehen gleich mehrere Probleme. Teilweise sind die Indikatoren der Uhren nicht korrekt. Zudem zeigen sie nicht die gewünschte Uhrzeit 15:35 Uhr, sondern meist eine andere: ungefähr 10:10 Uhr.
Zwar werden bei Wiederholung mit dem gleichen Prompt gelegentlich auch andere Uhrzeiten generiert, aber die gewünschte Uhrzeit ist nie dabei - auch bei Variation des Prompts etwa formuliert auf englisch oder bei Angabe bestimmter Positionen für die Zeiger - das Ergebnis bleibt unbefriedigend.
Fazit des kleinen Selbsttests: Die gewünschte Uhrzeit können die KI-Generatoren offenbar nicht erzeugen, viel mehr scheinen sie eine Uhrzeit besonders zu mögen: 10:10 Uhr. Warum ist das so?
Trainingsdaten: Uhren im Netz ticken alle gleich
Die Ursache für das Problem liege in den Daten, die die KI-Bildgeneratoren zum Training erhalten haben, sagt Kristian Kersting, Professor für Künstliche Intelligenz und Maschinelles Lernen an der TU Darmstadt. Suche man etwa im Internet nach dem englischen Begriff "analogue watch” so erschienen am häufigsten Uhren mit der Uhrzeit 10:10 Uhr.
"In der Uhrenindustrie ist es üblich, Uhren für Werbezwecke auf 10:10 Uhr einzustellen, weil diese Zeitstellung als ästhetisch ansprechend gilt und das Logo der Marke meist nicht verdeckt" erklärt Kai Pascal Beerlink, Referent Künstliche Intelligenz beim Digitalverband Bitkom.
Daher lernt die KI, dass dies die 'normale' Zeitdarstellung ist.
„
Kai Pascal Beerlink, Referent Künstliche Intelligenz beim Digitalverband Bitkom
Die KI-Anwendung ChatGPT hat Veränderungen mit sich gebracht, aber auch noch nicht alles auf den Kopf gestellt.30.11.2023 | 2:07 min
Bild-Text-Paare trainieren den Modellen eine "eigene Wirklichkeit"
Um das zu lernen, was sie können, benötigen die KI-Modelle eine große Zahl von Bild-Text-Paaren, also Bilder mit passendem Beschreibungstext. Eine Erklärung für das Phänomen könnte also sein, "dass die die meisten Datensätze zum Trainieren der Generatoren zufällige Bilder und Bildbeschreibungen aus dem Netz benutzten", sagt Kersting.
Die meisten Text-zu-Bild-Generatoren haben kein mechanistisches bzw. kausales 'Verständnis' der Welt. Sie bilden statistische Korrelationen zwischen Texten und Bildern ab.
„
Kristian Kersting, Professor für Künstliche Intelligenz und Maschinelles Lernen an der TU Darmstadt
Neben Uhrzeiten macht etwa auch die Darstellung von Händen zum Teil Probleme. Schwierig wird es auch bei spezifischen Text-Zügen in KI-erzeugten Bildern. Die Integration von Text in Bilder sei eine komplexe Aufgabe für KI-Bildgeneratoren, sagt Bitkom-Referent Beerlink. Denn sie müssten nicht nur den Text korrekt generieren, sondern auch den Kontext des Bildes verstehen und den Text entsprechend in das Bild einbetten.
Dies erfordert ein tiefes Verständnis von Sprache und Bildkomposition, was einige aktuelle KI-Modelle noch herausfordert.
„
Kai Pascal Beerlink, Referent Künstliche Intelligenz beim Digitalverband Bitkom
Künstliche Intelligenz produziert Videos, die nur schwer als Fakes zu identifizieren sind. Welche Chance hat da die Wahrheit?15.12.2023 | 5:26 min
Woher kommen die Trainingsdaten für DALL-E, Midjourney und Co.?
Eine noch ungeklärte Frage im Kontext der mit KI generierten Bilder ist das Urheberrecht. Zwar liegt das Recht an der Nutzung der erzeugten Bilder etwa im Fall von DALL-E und Midjourney komplett beim Nutzer. Doch die Bilder und Texte, die in ihrer Summe das Training der KI-Generatoren möglich gemacht haben, haben schließlich auch Urheber. Was ist mit ihnen?
Genauere Informationen darüber, welche Bilder und Texte für das Training von KI-Bildgeneratoren verwendet wurden, sind häufig nicht bekannt. Doch es wird davon ausgegangen, dass alle Modelle im Netz verfügbare Bilder zum Training ihrer Modelle nutzen - ohne deren Schöpfer um Erlaubnis zu fragen.
Daher fordern etwa Grafiker und Fotografen aber auch KI-Ethiker Regelungen der Vergütung.
Bei der Konferenz des Digitalverbandes Bitkom geht es darum, wie Künstliche Intelligenz in Betrieben eingesetzt werden kann. 20.09.2023 | 1:34 min
Deutscher Kulturrat fordert klare Regeln für KI-Anbieter
Kersting räumt ein, dass Copyright und Vermarktungsrechte unter Umständen neu gefasst werden müssten. Der Digitalverband Bitkom hingegen hält die bestehenden Regeln für ausreichend. "Weitgehende zusätzliche Regelungen würden eine Barriere für Innovation darstellen", so Beerlink.
"Wir haben eine Technologie, die zu einem nicht unerheblichen Teil das, was im Kulturbereich produziert wird, teilweise ergänzen oder komplett ersetzen kann", äußerte sich dagegen der Geschäftsführer des Deutschen Kulturrats Olaf Zimmermann Anfang Januar besorgt in der "Augsburger Allgemeinen". Umso wichtiger seien aus wirtschaftlicher Sicht des Kulturbetriebs klare Regeln für Anbieter von KI-Anwendungen.
Es kann nicht sein, dass urheberrechtlich geschützte Werke ohne Genehmigung und ohne Entlohnung genutzt werden, um die künstliche Intelligenz zu schulen.
„
Olaf Zimmermann, Geschäftsführer Deutscher Kulturrat
Um dir eine optimale Website der ZDFmediathek, ZDFheute und ZDFtivi präsentieren zu können, setzen wir Cookies und vergleichbare Techniken ein. Einige der eingesetzten Techniken sind unbedingt erforderlich für unser Angebot. Mit deiner Zustimmung dürfen wir und unsere Dienstleister darüber hinaus Informationen auf deinem Gerät speichern und/oder abrufen. Dabei geben wir deine Daten ohne deine Einwilligung nicht an Dritte weiter, die nicht unsere direkten Dienstleister sind. Wir verwenden deine Daten auch nicht zu kommerziellen Zwecken.
Zustimmungspflichtige Datenverarbeitung • Personalisierung: Die Speicherung von bestimmten Interaktionen ermöglicht uns, dein Erlebnis im Angebot des ZDF an dich anzupassen und Personalisierungsfunktionen anzubieten. Dabei personalisieren wir ausschließlich auf Basis deiner Nutzung der ZDFmediathek, der ZDFheute und ZDFtivi. Daten von Dritten werden von uns nicht verwendet. • Social Media und externe Drittsysteme: Wir nutzen Social-Media-Tools und Dienste von anderen Anbietern. Unter anderem um das Teilen von Inhalten zu ermöglichen.
Du kannst entscheiden, für welche Zwecke wir deine Daten speichern und verarbeiten dürfen. Dies betrifft nur dein aktuell genutztes Gerät. Mit "Zustimmen" erklärst du deine Zustimmung zu unserer Datenverarbeitung, für die wir deine Einwilligung benötigen. Oder du legst unter "Einstellungen/Ablehnen" fest, welchen Zwecken du deine Zustimmung gibst und welchen nicht. Deine Datenschutzeinstellungen kannst du jederzeit mit Wirkung für die Zukunft in deinen Einstellungen widerrufen oder ändern.