KI-Bildgeneratoren: Was das Stable-Diffusion-Modell SDXL kann

Stability AI hat mit Stable Diffusion XL (0.9) das dritte KI-Modell zur Bildgenerierung veröffentlicht. Über die Neuerungen sowie Stärken und Schwächen.

In Pocket speichern vorlesen Druckansicht 30 Kommentare lesen

Stable Diffusion XL 0.9 erstellt Bilder mit verbesserter Auflösung.

Lesezeit: 8 Min.
Von
  • Conner Kuhlmeyer
  • Florian Zimmermeister
Inhaltsverzeichnis

Stability AI hat ein Nachfolgermodell von Stable Diffusion veröffentlicht: Stable Diffusion XL 0.9 erweitert Stable Diffusion unter anderem um realistischere Bilder. Das Generieren der Bilder ist zudem mit kürzeren Prompts möglich. Version 1.0 soll demnächst erscheinen, wir haben einen Blick auf die Vorabversion 0.9 geworfen. Wie wir derzeit nahezu täglich erleben, sind einige Monate eine Ewigkeit im Bereich der generativen KI. Wie auch das aktuelle Modell wurden bereits seine Vorgänger als Open-Source-Modell veröffentlicht und standen damit jedem frei zur Verfügung. Das führte bei vielen zur Abkehr von Modellen wie DALL-E und Midjourney. Als proprietäre Modelle sind diese nur in Form von Cloud-Diensten verfügbar und je nach Nutzung mit Kosten verbunden. Weiterhin bietet die Lizenz von Stable Diffusion weitreichende Möglichkeiten für die kommerzielle Nutzung und lässt somit gänzlich andere Anwendungsfälle zu.

Im Gegensatz zu Modellen wie DALL-E stellt Stable Diffusion seinen Quellcode zusammen mit dem Modell zur Verfügung (vortrainierte Gewichtung). Stability AI wendet die Creative ML OpenRAIL-M-Lizenz, eine Form der Responsible AI License (RAIL), auf das Modell an. Die Lizenz verbietet bestimmte Anwendungsfälle, darunter Verbrechen, Verleumdung, Belästigung, Doxing, "Ausbeutung [...] von Minderjährigen", medizinische Beratung, automatische Erzeugung rechtlicher Verpflichtungen sowie weitere ethische Punkte. Ein Punkt, der sich in vielen anderen Open-Source-Lizenzen findet und eine erhebliche Einschränkung darstellt, ist die kommerzielle Nutzung. Das wird in der RAIL-Lizenz jedoch nicht beachtet. Ganz im Gegenteil, die kommerzielle Nutzung des Modells und seiner Erzeugnisse ist ausdrücklich erlaubt. Der Nutzer besitzt die Rechte an den von ihm erstellten Bildern und kann diese kommerziell verwenden. Beispiele dafür sind Dreambooth, eine Technik, welche es erlaubt, bestimmte Stile oder Objekte in das Modell zu trainieren oder Stable Diffusion online, eine Seite, die direkten Zugriff auf das SDXL Modell ermöglicht oder Clipdrop als API für Entwickler.

Grundsätzlich funktioniert die Technik so, dass ein Datensatz bestehend aus Bildmaterial und Labels in Form von Beschreibungen für das Bild für das Training genutzt wird. So lässt sich ein Zusammenhang zwischen der visuellen Darstellung und ihrem Inhalt erstellen. Im zweiten Schritt wird durch das Hinzufügen von immer stärkerem Rauschen die Wiederherstellung des ursprünglichen Bildes trainiert. Durch die Entfernung des Rauschens erzeugt die KI eine Kopie des Originalbildes, diese werden latente Bilder genannt. 2020 wurde die Diffusionstechnik von Forschern der Universität Berkeley verbessert. Sie erkannten, dass die latenten Bilder mathematisch überlagert werden können, wodurch neue Bilder entstehen. Letztendlich sind die Modelle in der Lage aus einem Rauschen, welches keinerlei Bild mehr erkennen lässt, ein Bild zu erstellen.

SDXL erweitert Stable Diffusion um ein Verfeinerungsmodell. Im Gegensatz zum Basismodell ist dieses nicht darauf trainiert, Bilder aus einem Rauschen zu generieren, sondern Bilder mit einer schwachen Auflösung und Pixelfehlern zu reparieren bzw. zu skalieren.

Visualisierung der zweistufigen Pipeline: Basismodell wird mit weiterem Modell verfeinert

(Bild: Podell et al.)

Diese Erweiterung bietet die Möglichkeit, einige Schritte des Basismodells auszulassen und das Verfeinerungsmodell bereits an einem früheren Punkt anzusetzen. So lassen sich Bilder schneller und effizienter generieren. Zusätzlich haben diese eine höhere Auflösung. Bisherige Modelle haben lediglich eine Output-Auflösung von maximal 768 × 768 (SD 2) Pixeln oder 512 × 512 (SD 1) Pixeln – SDXL erreicht hier bereits 1024 × 1024 Pixel. Bilder sehen nach Anwendung des Vereinerungsmodells deulich besser definiert aus und weisen klare Kanten auf. Gerade bei Gesichtern zeigt sich der Effekt.

Nach der Anwendung des Verfeinerungsmodells (rechte Seite) zeigt das Bild eine deutlich höher Auflösung mit klaren Kanten und mehr Details.

(Bild: Podell et al.)

Wählt man das Verfahren, in dem das Basismodell ein noch immer unperfektes Bild an das Verfeinerungsmodell weiterreicht, spricht man von dem "Expert of Denoising"-Verfahren. Die Ausgabe des Basismodells kann jedoch nicht wirklich überprüft werden, da sie immer noch stark verrauscht ist. Um die beiden Modelle als Kombination im "Expert of Denoising"-Verfahren verwenden zu können, muss festgelegt werden, welcher Anteil der Schritte durch das rauschreiche Basismodell und welcher Anteil durch das Verfeinerungsmodell entfallen soll.

Mit SDXL generierte Bilder (6 Bilder)

In SDXL generiertes Porträt

Nutzt man das volle Potenzial der beiden Modelle, erweist sich das als sehr erfolgreich, gemessen an der Qualität des Outputs. Jedoch stellt auch die Performance des Basismodells seine Vorgänger bereits in den Schatten, wie die Benchmarks des SDXL-Papers zeigen.

SDXL schneidet deutlich besser ab als seine Vorgänger

(Bild: Podell et al.)

Doch wie verhält sich SDXL im Vergleich zu einem der führenden Dienste, Midjourney? Um die Qualität der SDXL-Generierung zu bewerten, wurde eine Benutzerstudie durchgeführt. Dazu wurde die auf Hugging Face bereitstehende, 1.600 Prompts in englischer Sprache umfassende Sammlung PartiPrompts (P2) genutzt, mit der sich Prompts großer Text-zu-Bild-Modelle vergleichen lassen. Es wurden fünf zufällige Prompts jeder Kategorie gewählt und vier Bilder mit einer Auflösung von 1024 × 1024 Pixel mit Midjourney (v5.1) und ebenso für SDXL erzeugt. Diese Bilder wurden dann Amazons AWS GroundTruth Task Force vorgelegt, die auf der Grundlage der Konformität mit dem jeweils ursprünglichen Prompt die Performance beurteilt. Insgesamt zeigt sich eine leichte Bevorzugung der Ergebnisse von SDXL gegenüber Midjourney hinsichtlich der Einhaltung der Prompts.

Vergleich von SDXL mit Verfeinerungsmodell (blau) zu Midjourney V5.1 (orange): Bei komplexen Eingabeaufforderungen scheidet SDXL in 7 von 10 Kategorien besser ab als Midjourney V5.1 oder ist statistisch gleich hoch.

(Bild: Podell et a.)

Beide Modelle haben ihre Stärken und Schwächen, sind aber letztendlich der derzeitige Stand der Dinge. Dieser kann sich jedoch erfahrungsgemäß schnell verändern. Die Auswahl des Modells ist also besonders vom Anwendungsfall abhängig. Sowohl in Anbetracht der zu erstellenden Inhalte also auch im Hinblick auf eine potenzielle kommerzielle Nutzung wie eingangs erläutert.

Grundsätzlich wurde das Basismodell auf englischer Sprache trainiert, deutsche Prompts sind jedoch möglich. Die Ergebnisse zeigen im Allgemeinen gewünschte Motive, erreichen jedoch nicht das Ergebnis gleicher Prompts in englischer Sprache. Das zeigt sich in teilweise schlechter Qualität durch fehlende Details oder auch Missverständnissen der Interpretation der Prompts.

Eine häufige Aufgabe ist das Erzeugen von fotorealistischen Bildern. Um diese Bilder zu erzeugen, wird die Verwendung des Präfixes "Photo of" empfohlen. Die Verwendung des Suffix "photorealistic" ist dagegen nicht sinnvoll. Darüber hinaus eignet sich das Modell besonders gut, um starke Comic-Bilder im Stil von Donald Duck oder ähnlichem zu erzeugen. Ein weithin bekanntes Problem ist die Generierung von Händen. Es kann vorkommen, dass die Hände nicht korrekt dargestellt werden oder unglaubwürdig aussehen. Das Modell ist jedoch besser als sein Vorgänger bei der Generierung von Schriften.

Geht es darum, das Modell für eigene Zwecke zu integrieren und nicht auf eines der bestehenden Tools zurückzugreifen, gibt es zwei verschiedene Optimierungsansätze. Das geschwindigkeitsoptimierte Modell erfordert eine GPU mit 23 GB VRAM, bietet aber eine verbesserte Verarbeitungsgeschwindigkeit. Das Speicher-optimierte Modell kann auf einer 8 GB GPU ausgeführt werden, welches es seit jeher interessant für den Betrieb auf Consumer Hardware macht. Die geringere Performance der GPU geht jedoch zulasten der Performance in Sachen Geschwindigkeit.

Ein entscheidender Unterschied zu anderen Modellen mit ähnlich guter Performance ist die wenig restriktive Open-Source-Lizenz, die weitreichende Möglichkeiten für individuelle Anpassungen, Integration in eigene Produkte und die allgemeine kommerzielle Nutzung bietet. Insgesamt macht Stability AI mit Stable Diffusion XL einen sehr interessanten Schritt. Das betrifft sowohl die neue Architektur als auch Performance und die sehr flexiblen Möglichkeiten, die sich durch die Open-Source-Lizenz bieten.

Im Allgemeinen lässt sich sagen, dass das derzeitige Modell einige bemerkenswerte Verbesserungen zu seinen Vorgängern aufweist und damit definitiv zu einem der derzeit führenden Modelle gehört. Gleichzeitig zeigt uns die vergleichsweise kurze Zeitspanne dieser Neuerungen, dass wir tagtäglich die Augen nach weiteren Entwicklungen offenhalten müssen. Diese Entwicklungen bringen nicht selten bemerkenswerte Verbesserungen – wie auch die Integration des Verfeinerungsmodelles in SDXL. Ankündigungen zufolge erwarten wir noch im Laufe des Juli 2023 die Nachfolger-Version SDXL 1.0.

Florian Zimmermeister und Conner Kuhlmeyer arbeiten bei der primeLine Solutions GmbH, die sich vorwiegend mit der Integration von individuellen Serversystemen befasst. Weiterhin ist primeLine einer der Ansprechpartner für Nvidia Produkte im deutschsprachigen Raum. Conner Kuhlmeyer beschäftigt sich als Chief of Staff unter anderem strategisch mit den Themen GPU und künstliche Intelligenz. Florian Zimmermeister ist als AI Engineer und Consultant direkter Ansprechpartner für Implementierungsfragen und Anwendungsfälle.

(mack)