KI Journal Club

Der digitale Rosetta-Stein: Universelle Semantik in Sprachmodellen

Das Paper „Harnessing the Universal Geometry of Embeddings“ stellt eine einfache, aber weitreichende Idee vor: Unterschiedliche Embedding-Modelle könnten eine gemeinsame semantische Struktur teilen – und lassen sich ohne gepaarte Daten in einen gemeinsamen Raum überführen.

Einbettungen als Werkzeug der Sprachverarbeitung

Embedding-Modelle gehören zu den zentralen Werkzeugen der modernen Sprachverarbeitung. Im Unterschied zu generativen Modellen erzeugen sie keine neuen Texte, sondern wandeln Texte in Vektoren um.

Diese Text-Embeddings stellen eine geometrische Repräsentation dar, in der sich die semantische Bedeutung eines Textes in Form seiner Position und Relation im Raum widerspiegelt. Semantisch ähnliche Texte liegen nahe beieinander, unähnliche weiter auseinander. Sie werden in vielen praktischen Anwendungen eingesetzt: z. B. zur semantischen Suche, zur Klassifikation oder zur Extraktion von Entitäten. Trainiert werden solche Modelle meist semi-supervised auf großen Textkorpora. Ziel ist es, dass sich bedeutungstragende Strukturen aus der Verteilung natürlicher Sprache herausbilden.

Unterschiedliche Modelle, inkompatible Räume

Inzwischen gibt es eine Vielzahl an Embedding-Modellen, die sich stark unterscheiden – in Architektur, Trainingsdaten, Vektordimension und Zielsetzung. Modelle wie all-mpnet-base-v2, text-embedding-ada-002 oder e5-large-v2 sind alle darauf ausgelegt, sinnvolle semantische Repräsentationen zu erzeugen – aber die resultierenden Vektorräume sind nicht direkt vergleichbar.

Wer also Dokumente mit Modell A einbettet, kann nicht sinnvoll mit einem Embedding aus Modell B danach suchen. Die Vektoren sind nur im Kontext ihres Ursprungsmodells interpretierbar.

Es gibt etablierte Verfahren, die versuchen, eine Transformation zwischen zwei Vektorräumen zu lernen – typischerweise mithilfe gepaarter Daten: also Embeddings derselben Texte in zwei unterschiedlichen Modellen.

Die Idee: Gemeinsame latente Struktur ohne Paardaten

Das Paper schlägt einen anderen Weg vor: Die Autoren gehen davon aus, dass unterschiedliche Embedding-Modelle – sofern sie leistungsfähig genug sind und auf ausreichend großen Datenmengen trainiert wurden – eine ähnliche semantische Struktur lernen.

Diese Annahme nennen sie die platonische Repräsentationshypothese: Verschiedene Modelle lernen verzerrte Versionen derselben zugrundeliegenden semantischen Struktur. Die Unterschiede zwischen Modellen äußern sich in Rotationen, Skalierungen oder Verzerrungen – nicht in grundsätzlich unterschiedlichen Inhalten.

Darauf aufbauend schlagen die Autoren ein Verfahren vor, um zwei beliebige Embedding-Modelle ohne gepaarte Trainingsdaten in einen gemeinsamen semantischen Raum zu überführen. Der Ansatz heißt vec2vec und basiert auf drei einfachen, kombinierbaren Trainingszielen.

Das Verfahren: Drei Trainingsziele für gemeinsame Semantik

Adversarial Alignment: Gemeinsamer Raum durch Ununterscheidbarkeit

Für Embeddings aus zwei verschiedenen Modellen wird jeweils eine Transformation erlernt, die die resultierenden Vektoren so verändert, dass sie im Zielraum nicht mehr voneinander zu unterscheiden sind – unabhängig davon, aus welchem Modell sie ursprünglich stammen.

G(a) und F(b)projizieren Embeddings aus Modell A bzw. Modell B in einen gemeinsamen Raum Z. Ein Discriminator wird trainiert, um zu unterscheiden, ob ein Vektor im Raum Z aus a oder b stammt. Gleichzeitig versuchen G und F, den Discriminator zu täuschen. Durch dieses adversariale Spiel entsteht ein gemeinsamer latenter Raum, in dem beide Modellrepräsentationen gleichverteilt erscheinen.

Allerdings reicht dieses Ziel allein nicht aus.
Ohne weitere Bedingungen könnten G und F einfach triviale Transformationen lernen – zum Beispiel alle Eingaben auf denselben konstanten Vektor abbilden (G(x) = F(y) = [1]). Der Discriminator hätte dann keine Chance zur Unterscheidung, aber die resultierenden Repräsentationen wären inhaltlich bedeutungslos.

Um das zu verhindern, ergänzen die Autoren zwei weitere Trainingsziele, die dafür sorgen, dass die Transformationen inhaltlich sinnvoll und reversibel bleiben.

2. Cycle Consistency: Reversibilität sichern

Damit die Projektionen nicht zu beliebigen Verzerrungen führen, werden zusätzlich Rückprojektionen gelernt:

G⁻¹ führt vom gemeinsamen Raum zurück inden Raum von Modell A, F⁻¹ zurück in Modell B.

Diese Rückprojektionen werden so trainiert, dass die ursprünglichen Embeddings rekonstruierbar sind:

G⁻¹(G(x)) ≈ x
F⁻¹(F(y)) ≈ y

Das stellt sicher, dass keine relevanten Informationen in der Transformation verloren gehen.

3. Geometry Preservation: Semantische Struktur erhalten

Schließlich wird sichergestellt, dass die lokale Nachbarschaft von Embeddings erhalten bleibt: Wenn zwei Vektoren im Ursprungsmodell nahe beieinander lagen, sollen sie dies auch im gemeinsamen Raum tun.

Dazu wird ein kontrastives Trainingsziel genutzt, das die Struktur des ursprünglichen Vektorraums absichert. Ähnliche Vektoren werden gezielt zusammengehalten, dissimilare voneinander getrennt.

Ergebnisse: Hohe Übereinstimmung ohne Paardaten

Die Methode wurde mit mehreren gängigen Embedding-Modellen evaluiert – darunter BERT-basierte und OpenAI-Modelle – und zeigt in verschiedenen Szenarien überzeugende Resultate.

Die Autoren berichten, dass vec2vec-Übersetzungen Cosine-Ähnlichkeiten von bis zu 0,92 zu den Ground-Truth-Vektoren im Ziel-Embedding-Raum erreichen. Zudem gelingt es dem Modell, über 8.000 zufällig durchmischte Embeddings korrekt zuzuordnen – ohne Zugriff auf die möglichen Zielvektoren im Vorfeld:

"vec2vec translations achieve cosine similarity as high as 0.92 to the ground-truth vectors in their target embedding spaces and perfect matching on over 8000 shuffled embeddings (without access to the set of possible matches in advance)."

Sicherheitsimplikationen: Embeddings sind nicht anonym

Ein zentrales Risiko, das sich aus dieser Arbeit ergibt: Embeddings können Rückschlüsse auf den ursprünglichen Text ermöglichen – selbst ohne Zugriff auf das ursprüngliche Modell.

Mit Verfahren wie vec2vec lassen sich Vektoren aus einer Datenbank potenziell in einen lesbaren semantischen Raum überführen. Das bedeutet: Vektordatenbanken verbergen den Inhalt ihrer Dokumente nicht einmal dann zuverlässig, wenn der Angreifer das ursprüngliche Modell nicht kennt.

Gerade bei sensiblen Informationen – etwa in medizinischen oder juristischen Kontexten – sollte man Embeddings daher nicht als abstrakt oder anonym betrachten. Sie sind semantisch rekonstruierbar und sollten ähnlich wie Rohdaten behandelt und geschützt werden.

Ausblick: Jenseits des digitalen Rosetta-Steins

In der historischen Linguistik gilt: Eine sinnvolle Übersetzung zwischen zwei Sprachen ist ohne überlappende Referenztexte kaum möglich. Der Rosetta-Stein – ein dreisprachiges Fragment aus dem alten Ägypten – ermöglichte erst durch solche Paralleltexte die Entzifferung der Hieroglyphen. Ohne diesen gemeinsamen semantischen Ankerpunkt blieben die Zeichen bedeutungslos.

Auch bei Embedding-Modellen schien bislang ein vergleichbarer Grundsatz zu gelten: Um zwei Modelle aufeinander abzubilden, benötigte man gepaarte Beispiele – etwa dieselben Texte, eingebettet in beiden Modellen. Die Arbeit zu vec2vec stellt diesen Grundsatz in Frage. Sie zeigt, dass sich gemeinsame semantische Strukturen auch ohne Referenzpunkte rekonstruieren lassen – sofern die Modelle auf vergleichbaren Daten und in derselben Sprache trainiert wurden.

Eine offene, aber besonders spannende Frage ist, ob sich dieses Verfahren auch auf mehrsprachige Embedding-Modelle anwenden lässt – also Modelle, die in völlig unterschiedlichen Sprachen trainiert wurden, ohne dass gemeinsame Trainingsdaten vorliegen. Wenn auch hier ein übergreifender semantischer Raum rekonstruierbar wäre, würde dies eine noch stärkere Variante der platonischen Repräsentationshypothese stützen.

Sprachen sind unterschiedlich, aber sie sind auch durch Gemeinsamkeiten in menschlicher Wahrnehmung, Handlung und Weltbezug verbunden. Diese universellen Gemeinsamkeiten könnten sich – unabhängig von der Sprache – in ähnlichen semantischen Strukturen niederschlagen.

Ob sich diese Struktur rein aus den Vektorräumen rekonstruieren lässt, ohne ein „neues Rosetta-Dokument“, ist offen. Wenn das gelingt, hätte das nicht nur technische Bedeutung. Es würde eine bedeutsame linguistische und kognitionswissenschaftliche Lektion mit sich bringen: dass Sprache, trotz all ihrer Vielfalt, eine gemeinsame semantische Grundlage besitzt und diese sich algorithmisch auffinden lässt.

Datum: 03.06.2025

In unserer monatlichen Serie “KI-Journal Club” stellen wir wissenschaftliche Beiträge und Presseberichte vor aus den Bereichen Text Mining, Machine Learning, Generative Künstlicher Intelligenz & Natural Language Processing.
Wir beraten Sie gerne.

Sprechen Sie uns an

Bertram Sändig

Bertram ist Experte für KI- und Machine-Learning-Systeme mit einem Fokus auf NLP und Neural Search. Er hält einen B.Sc. in Informatik der FH Brandenburg und seit 2018 einen M.Sc. der TU Berlin mti den Schwerpunkten Machine Learning und Robotik. Parallel zum Studium war er fünf Jahre Leitender Software-Ingenieur im Space Rover Project des Luft- und Raumfahrtsinstituts der TU-Berlin. 2018 stieg er als Machine Learning Engineer bei Neofonie ein und leitet heute das Machine Learning Team bei ontolux, einer Marke der Neofonie GmbH. Mit großer Leidenschaft überführt er aktuelle Forschungsergebnisse in nutzbare Anwendungen für Kunden, vor allem an der Anpassung, Optimierung und Integration von Large Language Modellen in Suchsysteme und das Textanalyse-Toolkit von ontolux.

+49 30 24627-0

KONTAKTIEREN