Sie sind hier:

Demokratisierung Generativer KI

„Stable Diffusion“ ist eine hocheffiziente Plattform für die visuelle KI-Suche. Mit dem System können in Sekunden auf Basis eines Fotos Maschinenteile bestimmt werden.

Videolänge:
3 min
Datum:
30.10.2024

Die Kommunikation zwischen Mensch und Computer wird immer einfacher. Heute können Computer von Menschen bedient werden, die in ihrer natürlichen Sprache Anweisungen geben oder Wünsche formulieren. Frühere Hürden wie das mühsame Programmieren von Softwarelösungen oder das Beherrschen der Feinheiten komplexer Programme fallen folglich weg und machen den Computer für die breite Masse immer zugänglicher. Der Computer versteht uns immer besser, er wird immer „intelligenter“.

Das große Ziel: Weniger notwendige Rechenleistung

Ermöglicht wird dies durch den Einsatz von Generativer KI, der künstlichen Intelligenz, die in den letzten Jahren immer leistungsfähiger geworden ist. Die Leistungssteigerung der KI-Modelle ist jedoch größtenteils auf die exponentielle wachsende Größe der KI-Modelle zurückzuführen, so dass auch die für die Anwendung der KI erforderliche Rechenleistung in einem unerschwinglichen Maße steigt.

Dies bedeutet, dass die generative KI einen Punkt erreicht hat, an dem nur noch große Technologieunternehmen KI-Modelle entwickeln und betreiben können, da nur sie über die erforderlichen Rechenressourcen verfügen. Das Ziel musste also sein, die daraus resultierenden Abhängigkeiten zu lösen und KI-Modelle zu schaffen, die genauso leistungsfähig sind, aber deutlich weniger Rechenleistung benötigen.

Durch das Detail das großen Ganzen erkennen

Damit eine KI in der Lage ist, diese Zusammenhänge aus Trainingsdaten zu lernen, muss sie in der Regel sehr groß sein, d. h. aus einem großen künstlichen neuronalen Netz bestehen. Aber genau das ist der Haken. Ein solches künstliches neuronales Netz benötigt in der Anwendung leistungsstarke, teure Rechenkapazitäten.

Um die Speicher- und Rechenkosten zu minimieren, wurde ein innovativer Ansatz gefunden: Anstatt Bilder direkt als eine Menge von Pixeln zu beschreiben, wurde zunächst eine neue, effiziente Bildbeschreibungssprache für lokale Bildregionen erlernt. Was macht das Bild eines Hundes aus? Ohren, Augen und das Fell an den verschiedenen Körperteilen sollten miteinander übereinstimmen. Es ist jedoch nicht notwendig zu wissen, wie jedes einzelne Haar im Fell gekrümmt ist, um ein gutes Bild eines Hundes zu erstellen. Dennoch können wir erkennen, ob das Fell kurz oder lang, glatt oder gelockt ist. Lokale Details werden effizient beschrieben, dann wird der weiträumige Kontext erfasst. Stable Diffusion sieht nicht nur die Bäume, sondern auch den Wald.

Mit mehr Rauschen zum Gesamtbild

Stable Diffusion lernt dann eine robuste Darstellung von Objekten oder Szenen, indem es dem Bild zunächst Rauschen hinzufügt und es dann rekonstruiert. Dieses Rauschen wird in vielen kleinen Schritten entfernt, die nach und nach immer mehr Bilddetails zum Vorschein bringen. Die KI muss also eine robuste Repräsentation der Bildsemantik erlernen, um den globalen Kontext zu erfassen und damit das Original so gut wie möglich zu rekonstruieren.

Dieser Prozess führt auch zu dem Namen des Modells: stabile Diffusion. Der Name basiert auf dem physikalischen Prozess der Diffusion. Wenn man einen Tintentropfen in ein Glas Wasser gibt, ist es zunächst ein scharf abgegrenzter Tropfen, der im Wasser schwimmt. Doch dann löst sich der Tropfen auf, seine Umrisse verschwimmen, bis er schließlich strukturlos und völlig gleichmäßig das Wasser einfärbt. Der Grund dafür ist die ungerichtete Bewegung der einzelnen Farb- und Wasserteilchen, die Diffusion.

Zur Merkliste hinzugefügt Merken beendet Bewertet! Bewertung entfernt Zur Merkliste hinzugefügt Merken beendet Embed-Code kopieren HTML-Code zum Einbetten des Videos in der Zwischenablage gespeichert.
Bitte beachten Sie die Nutzungsbedingungen des ZDF.

Sie haben sich mit diesem Gerät ausgeloggt.

Sie haben sich von einem anderen Gerät aus ausgeloggt, Sie werden automatisch ausgeloggt.

Ihr Account wurde gelöscht, Sie werden automatisch ausgeloggt.

Um Sendungen mit einer Altersbeschränkung zu jeder Tageszeit anzuschauen, kannst du jetzt eine Altersprüfung durchführen. Dafür benötigst du dein Ausweisdokument.

Zur Altersprüfung

Du bist dabei, den Kinderbereich zu verlassen. Möchtest du das wirklich?

Wenn du den Kinderbereich verlässt, bewegst du dich mit dem Profil deiner Eltern in der ZDFmediathek.

Du wechselst in den Kinderbereich und bewegst dich mit deinem Kinderprofil weiter.

An dieser Stelle würden wir dir gerne die Datenschutzeinstellungen anzeigen. Entweder hast du einen Ad-Blocker oder ähnliches in deinem Browser aktiviert, welcher dies verhindert, oder deine Internetverbindung ist derzeit gestört. Falls du die Datenschutzeinstellungen sehen und bearbeiten möchtest, prüfe, ob ein Ad-Blocker oder ähnliches in deinem Browser aktiv ist und schalte es aus. So lange werden die standardmäßigen Einstellungen bei der Nutzung der ZDFmediathek verwendet. Dies bedeutet, das die Kategorien "Erforderlich" und "Erforderliche Erfolgsmessung" zugelassen sind. Weitere Details erfährst du in unserer Datenschutzerklärung.

An dieser Stelle würden wir dir gerne die Datenschutzeinstellungen anzeigen. Möglicherweise hast du einen Ad/Script/CSS/Cookiebanner-Blocker oder ähnliches in deinem Browser aktiviert, welcher dies verhindert. Falls du die Webseite ohne Einschränkungen nutzen möchtest, prüfe, ob ein Plugin oder ähnliches in deinem Browser aktiv ist und schalte es aus.