Die Kommunikation zwischen Mensch und Computer wird immer einfacher. Heute können Computer von Menschen bedient werden, die in ihrer natürlichen Sprache Anweisungen geben oder Wünsche formulieren. Frühere Hürden wie das mühsame Programmieren von Softwarelösungen oder das Beherrschen der Feinheiten komplexer Programme fallen folglich weg und machen den Computer für die breite Masse immer zugänglicher. Der Computer versteht uns immer besser, er wird immer „intelligenter“.
Das große Ziel: Weniger notwendige Rechenleistung
Ermöglicht wird dies durch den Einsatz von Generativer KI, der künstlichen Intelligenz, die in den letzten Jahren immer leistungsfähiger geworden ist. Die Leistungssteigerung der KI-Modelle ist jedoch größtenteils auf die exponentielle wachsende Größe der KI-Modelle zurückzuführen, so dass auch die für die Anwendung der KI erforderliche Rechenleistung in einem unerschwinglichen Maße steigt.
Dies bedeutet, dass die generative KI einen Punkt erreicht hat, an dem nur noch große Technologieunternehmen KI-Modelle entwickeln und betreiben können, da nur sie über die erforderlichen Rechenressourcen verfügen. Das Ziel musste also sein, die daraus resultierenden Abhängigkeiten zu lösen und KI-Modelle zu schaffen, die genauso leistungsfähig sind, aber deutlich weniger Rechenleistung benötigen.
Durch das Detail das großen Ganzen erkennen
Damit eine KI in der Lage ist, diese Zusammenhänge aus Trainingsdaten zu lernen, muss sie in der Regel sehr groß sein, d. h. aus einem großen künstlichen neuronalen Netz bestehen. Aber genau das ist der Haken. Ein solches künstliches neuronales Netz benötigt in der Anwendung leistungsstarke, teure Rechenkapazitäten.
Um die Speicher- und Rechenkosten zu minimieren, wurde ein innovativer Ansatz gefunden: Anstatt Bilder direkt als eine Menge von Pixeln zu beschreiben, wurde zunächst eine neue, effiziente Bildbeschreibungssprache für lokale Bildregionen erlernt. Was macht das Bild eines Hundes aus? Ohren, Augen und das Fell an den verschiedenen Körperteilen sollten miteinander übereinstimmen. Es ist jedoch nicht notwendig zu wissen, wie jedes einzelne Haar im Fell gekrümmt ist, um ein gutes Bild eines Hundes zu erstellen. Dennoch können wir erkennen, ob das Fell kurz oder lang, glatt oder gelockt ist. Lokale Details werden effizient beschrieben, dann wird der weiträumige Kontext erfasst. Stable Diffusion sieht nicht nur die Bäume, sondern auch den Wald.
Mit mehr Rauschen zum Gesamtbild
Stable Diffusion lernt dann eine robuste Darstellung von Objekten oder Szenen, indem es dem Bild zunächst Rauschen hinzufügt und es dann rekonstruiert. Dieses Rauschen wird in vielen kleinen Schritten entfernt, die nach und nach immer mehr Bilddetails zum Vorschein bringen. Die KI muss also eine robuste Repräsentation der Bildsemantik erlernen, um den globalen Kontext zu erfassen und damit das Original so gut wie möglich zu rekonstruieren.
Dieser Prozess führt auch zu dem Namen des Modells: stabile Diffusion. Der Name basiert auf dem physikalischen Prozess der Diffusion. Wenn man einen Tintentropfen in ein Glas Wasser gibt, ist es zunächst ein scharf abgegrenzter Tropfen, der im Wasser schwimmt. Doch dann löst sich der Tropfen auf, seine Umrisse verschwimmen, bis er schließlich strukturlos und völlig gleichmäßig das Wasser einfärbt. Der Grund dafür ist die ungerichtete Bewegung der einzelnen Farb- und Wasserteilchen, die Diffusion.