Für bahnbrechende Beiträge zur generativen Bildsynthese

Wir sind fasziniert, wenn es einer Maschine gelingt, etwas Neues zu erschaffen. Aber kann ein Computer tatsächlich kreativ sein? Mit den jüngsten Fortschritten im Bereich der generativen Künstlichen Intelligenz (KI) rückt die Vision, Maschinen als Partner bei kreativen Prozessen einzusetzen, in greifbare Nähe. Generative KI-Verfahren ermöglichen es, Texte, Bilder, Audio, Videos und dreidimensionale Szenen von erstaunlicher Qualität zu erzeugen und damit neue Möglichkeiten zu bahnbrechenden Anwendungen zu eröffnen. In der Tat erleben wir derzeit einen regelrechten Boom. Massive Investitionen und die Gründung von Startups, die das Potential der generativen KI ausschöpfen, beflügeln diese rasante Entwicklung.

Auf diesem innovativen und hart umkämpften Gebiet ist es dem Preisträger und seiner Arbeitsgruppe gelungen, sich durch wegweisende Pionierarbeiten auszuzeichnen – Jahre bevor generative KI in der öffentlichen Wahrnehmung ein Thema wurde.

Mit der Entwicklung und Einführung sogenannter Diffusionsmodelle haben der Preisträger und seine Arbeitsgruppe den Grundstein für eine ganze Familie innovativer künstliche Neuronaler Netzwerke gelegt. Diffusionsmodelle sind in der Lage, aus von Menschen formulierten natürlichsprachlichen Beschreibungen Bilder zu erstellen, angefangen von realistisch anmutenden Darstellungen von Sujets wie Landschaften, Personen, Gegenständen oder Alltagsszenen, bis hin zu fantasievollen abstrakten Bildkompositionen. Den im Sprichwort „ein Bild sagt mehr als tausend Worte“ ausgedrückte Sachverhalt komplementieren die Arbeiten von Björn Ommer durch die Erkenntnis, dass bereits wenige Worte genügen, um eine reiche Palette hochaufgelöste Bilder in exzellenter Qualität von einer KI automatisch erzeugen zu lassen.

Was verbirgt sich hinter der Innovation der Gruppe von Björn Ommer? Um das Prinzip des Diffusionsverfahrens zu veranschaulichen, stellen wir uns eine Sammlung von Bildern vor, die alle eine gemeinsame Stimmung oder Ästhetik teilen – etwa Landschaften im warmen Licht des Sonnenuntergangs. Die grundlegende Idee hinter Diffusionsverfahren besteht darin, solche Eingabebilder schrittweise mit Rauschen zu überlagern und in einem umgekehrten Prozess das Rauschen so zu entfernen, dass ein Bild entsteht, das sich in unsere Sammlung einfügt. Dabei ahmt das Modell die Verteilung der Bildmerkmale im Datensatz nach, sodass es neue und einzigartige Bilder generieren kann, die bezüglich relevanter Bildmerkmale zur Sammlung passen, ohne die ursprünglichen Bilder jedoch einfach zu kopieren.

Automatisierte Bildgenerierung mittels Diffusionsmodellen basiert auf der Idee, verrauschte Bilder auf passende Instanzen des zum Training verwendeten Bilddatensatzes zurückzuführen. Ursprünglich erforderte dies eine enorme Rechenleistung, da ein sich über mehrere Iterationen erstreckenden Entrauschungsprozess auf der Ebene einzelner Bildpunkte zum Einsatz kam.

Hier setzte die Pionierarbeit der Gruppe um Björn Ommer an: Ihr bahnbrechender Ansatz verlagerte den Entrauschungsprozess von Bildpixeln hin zu sogenannten latenten Bildrepräsentationen – kompakten Darstellungen der Bildinformation, die eine effiziente Verarbeitung ermöglichen. Diese Technik, bekannt als Latent Diffusion, reduzierte die Rechenlast erheblich, ohne dabei jedoch die Qualität der von der KI kreierten Bilder zu beeinträchtigen. Dank dieser Innovation können die Modelle von Bildgeneratoren nun auf handelsüblichen GPUs genutzt werden. Als Open Source Software leistet sie einen wesentlichen Beitrag zur Demokratisierung der generativen KI und hebt sich damit eindeutig von bisherigen proprietären Text-zu-Bild-Modellen wie DALL.E und Midjourney ab.

Der diesjährige Preisträger, Björn Ommer, und die Gruppe um ihn haben mit ihrem Latent Diffusion Ansatz das Gebiet der generativen KI nachhaltig geprägt und bahnbrechende Bildgeneratoren entwickelt, die weltweit große Beachtung finden. Zahlreiche Auszeichnungen auf den besten internationalen Konferenzen und Ehrungen wie zuletzt der Deutsche KI-Preis der Welt und die kürzliche Nominierung für den Deutschen Zukunftspreis des Bundespräsidenten bestätigen die immense Bedeutung ihrer Arbeit.

Die Eduard-Rhein-Stiftung ehrt mit Björn Ommer und seinem Team eine Gruppe von Pionieren auf dem Gebiet der Künstlichen Intelligenz. Durch offene und effiziente Modellarchitekturen hat die Gruppe den Zugang zur generativen KI demokratisiert. Ihr Ansatz demonstriert das Potenzial von generativer KI nicht nur für Bilder, sondern auch für weitere Modalitäten wie Audio und Text und legt somit den Grundstein für vielfältige Anwendungsbereiche – von der Medienproduktion, wo realistische oder kreative Inhalte für Präsentationen geschaffen werden, über Prototyping im Automotive Design, bis hin zur synthetischer Daten zur Unterstützung der Diagnostik in der Medizinforschung.