Skip to main content

Die neuen ML-Modelle DALL-E 2 und PaLM - KI Journal Club

Während Elon Musk Twitter kauft, wird auf Twitter selbst gerade über zwei neue ML-Modelle gesprochen – OpenAIs DALL-E 2 und PaLM von Google. Damit ist die nächste Runde der großen Modelle eingeleitet und GPT-3 und T5 sollen in Rente geschickt werden. Offen bleibt weiterhin, ob größer besser, also intelligenter, ist. Unbestritten ist aber, das beide Modelle teilweise beeindruckende Ergebnisse liefern –  auch wenn der Preis zur Erstellung der Modelle sehr hoch ist. So wurden bei PaLM über 6.600 TPU Grafikkarten für das Training genutzt. 
Beflügelt von diesen jüngsten Fortschritten im NLP, gibt es eine Welle neuer NLP-Startups, viele mit Einhornstatus, die sich mit einer Vielzahl von NLP-Anwendungen befassen, von der Suche über Schreibassistenten bis hin zur Moderation von Inhalten und vielem mehr.

Modell PaLM

Technisch ist PaLM ein vortrainiertes 540 Milliarden-Parameter Transformer-Modell, das auf Daten aus dem Internet sowie auf GitHub-Code trainiert wurde. Was sich “langweilig” anhört, liefert aber einige spannende Ergebnisse. Im Paper wird das Modell unter anderem in einigen „Few-Shot“-Szenarien evaluiert und kann dort das SOTA erreichen oder überbieten. Few-Shot Learning beschreibt dabei einen Teilbereich des maschinellen Lernens, in dem es darum geht, neue Daten zu klassifizieren, auch wenn man nur wenige Trainingsbeispiele mit gelabelten Informationen hat. Also ein Szenario, was in der Praxis häufig auftritt. Was einen bleibenden Eindruck hinterlässt, sind Beispiele wie die Fähigkeit von PaLM Witze zu erklären.

Das erzeugt den Eindruck, dass das Modell wirklich ein Verständnis des Textes und der Welt entwickelt hat. Dies wird verstärkt durch ein weiteres Beispiel – das Chain of thought prompting. Dabei werden zum Beispiel textuelle Rechenaufgaben gelöst.

Diese Ergebnisse sind natürlich auch immer mit Vorsicht zu genießen. So sind die Beispiele im Paper handverlesen, und wir haben auch keine Möglichkeit das Modell selbst zu testen. Zudem ist die Frage, ob viele von den Evaluationsbenchmarks überhaupt noch in der Lage sind, wirklich die Fähigkeiten eines so großen Language Models zu testen. Hier müssen sicher auch stärkere Methoden gefunden werden, um die Modelle wirklich auf Herz und Nieren zu prüfen.

Modell DALL-E 2

OpenAI hat mit DALL-E 2 ein neues KI-System vorgestellt, das aus der Beschreibung eines Objekts oder einer Szene automatisch ein äußerst realistisches Bild generieren kann. Das System ermöglicht es, auch einer Person, das Bild mit einfachen Werkzeugen und Textänderungen zu bearbeiten, ohne dass dafür traditionelle Photoshop- oder digitale Kunstkenntnisse erforderlich sind. Ein Benutzer muss nur den Befehl „ein Shiba Inu mit Baskenmütze und schwarzem Rollkragenpullover“ eingeben, und schon spuckt DALL-E 2 Dutzende von fotorealistischen Variationen dieses Themas aus.

DALL-E 2 besteht dabei aus zwei Komponenten: Einer Komponente, die eine CLIP-Bildeinbettung auf der Grundlage einer Textbeschreibung erzeugt, und einem Decoder, der ein Bild auf der Grundlage einer Bildeinbettung erzeugt. Obwohl DALL-E 2 in der Lage ist, beeindruckende Bilder zu erzeugen, hat es noch Schwächen. Da es sich beim Training auf Bild-Beschriftungs-Paare stützt, kann es bei der Generierung von Bildern, die feinere visuelle Schlussfolgerungen erfordern, schlecht abschneiden. Das System kann manchmal Details in komplexen Szenen nicht darstellen. Es kann Beleuchtungs- und Schatteneffekte falsch darstellen oder die Grenzen von zwei Objekten verschmelzen, die eigentlich getrennt sein sollten. Es ist auch weniger geschickt als andere multimodale KI-Software, wenn es darum geht, „verbindliche Attribute“ zu verstehen. Geben Sie ihr die Anweisung: „Ein roter Würfel auf einem blauen Würfel“, und sie wird manchmal Varianten anbieten, bei denen der rote Würfel unter einem blauen Würfel erscheint. Generell zeigt sich DALL-E 2 aber weitaus stärker als sein Vorgänger. Ein großer Schritt in Richtung des Ziels von OpenAI, der Schaffung einer künstlichen allgemeinen Intelligenz (AGI), ist es aber dann auch wieder nicht.

Datum: 29.04.2022

Autor

Dr. Till Plumbaum

Till Plumbaum verantwortete als COO die Bereiche KI, maschinelles Lernen, natürliche Sprachverarbeitung (NLP), Personalisierung, Empfehlungssysteme, Suche und Information Retrieval.