Skip to main content

Der neue Stern am LLM-Himmel: Llama 2 von Meta

Am 18. Juli 2023 wurde ein neuer Player in der Welt der Open-Source Large Language Models (LLM) enthüllt – das Llama 2 Language Model von Meta. Doch wie hält es sich im Vergleich zu seinen Vorgängern? Und welche Innovationen bringt es mit sich? Nach gründlicher Durchsicht des veröffentlichten Papiers und ersten Tests wollen wir Ihnen unsere Erkenntnisse nicht vorenthalten.

Das Llama 2-Modell wurde sofort der neue Champion der Open-Source LLMs. Wie auch bei der Vorgängerversion handelt es sich hierbei nicht um ein einzelnes Modell, sondern um drei verschieden große Modellgrößen: 7B, 13B und 70B. Die Größenangaben repräsentieren die Milliarden an Parametern. Jedes dieser Modelle verfügt zudem über eine Chat-Variante, die Llama 2-Chat genannt wird.

Wer sich an die ersten Llama-Modelle erinnert, weiß, dass sie in der LLM-Welt bahnbrechend waren. Llama 1 bot erstmals ein leistungsstarkes generatives Modell, das frei verfügbar war. Mit Llama 2 setzt Meta jedoch noch einen drauf. Es ist nicht nur leistungsfähiger, sondern auch kommerziell einsetzbar. Einige Evaluierungen haben gezeigt, dass es in manchen Bereichen sogar mit ChatGPT (3.5) mithalten kann.

Hard Facts

  • Meta hat Llama 2 auf der Grundlage von zwei Billionen Tokens trainiert – eine beeindruckende Verdoppelung im Vergleich zu Llama 1. Und das Erstaunlichste? Selbst mit dieser gewaltigen Datenmenge gibt es laut dem Paper immer noch Raum für Verbesserungen, würde einfach weiter trainiert.

  • Eine der bemerkenswertesten Verbesserungen ist die Erhöhung der Kontextlänge auf 4.000 Token. Dies ist nicht nur für längere Chatverläufe vorteilhaft, sondern auch für Techniken wie die Retrieval-Augmented-Generation (RAG). Bei RAG werden dem Modell relevante Informationen,zum Beispiel Suchergebnisse, mit der Frage zusammen als Input gegeben.

  • Obwohl im Paper ein 34B-Modell erwähnt wird, ist dieses bisher noch nicht veröffentlicht worden. Es soll nachgereicht werden – wir warten gespannt!

Deutschkenntnisse

Deutsche Nutzer sollten beachten, dass nur 0,17 Prozent des Trainingsdatensatzes deutsche Texte enthalten. Dies hat merkliche Auswirkungen auf die Performance in der deutschen Sprache. Während deutsche Texte passiv noch gut verstanden werden und zum Beispiel die Informationsextraktion funktioniert, macht selbst die größte Llama 2 Version bei einfachsten Fragen grobe Fehler in der Generierung. Ein Beispiel gefällig?


User: Sprichst du auch Deutsch?
Assistant: Ja, ich spricht auch Deutsch. Ich bin ein Sprachmodell und wurde trainiert,…

Sicherheit

Nach diversen Debatten um die Gefahren und Risiken von LLMs hat Meta besonderen Wert auf die Sicherheit von Llama 2 gelegt, das Modell wurde also explizit darauf trainiert, sensiblen oder gefährlichen Fragen auszuweichen. Das Feedback der ML-Community deutet jedoch darauf hin, dass die Sicherheitsmaßnahmen möglicherweise zu restriktiv sind. Böse Zungen behaupten gar, die Chat-Varianten seien “lobotomisiert” worden.
Meta hat auf die Kritik reagiert und angekündigt, eine angepasste Variante zu veröffentlichen, die weniger zurückhaltend antwortet.

Technische Neuheiten und Erkenntnisse​

Meta erwähnt an mehreren Stellen die Nützlichkeit von “Self-Destillation”, also den Austausch eines sehr komplexen Prompts während der Datensatzerstellung mit einem einfacheren Prompt während des Fine-Tunings. Die erstmals im Llama 2-Paper veröffentlichte “Ghost Attention”-Methode macht auch von dieser Idee Gebrauch. Hierbei handelt es sich also nicht um eine neue Art Self-Attention zu modellieren, sondern durch eine clevere Erzeugung des Datensatzes sicherzustellen, dass die Chat-Modelle sich kontinuierlich an ursprüngliche Systemnachrichten erinnern.

Im Gegensatz zu der in der Community diskutierten Annahme, dass Reinforcement Learning with Human Feedback (RLHF) überbewertet sei, zeigt Meta, dass dieses Verfahren im direkten Vergleich tatsächlich zu besseren Chat-Modellen führt als einfaches Instruction Tuning.

Eine weitere überraschende Erkenntnis ist, dass Llama 2 lernt, andere Programme, wie zum Beispiel einen Taschenrechner oder eine Internetsuche, steuern zu können, auch wenn es lediglich darauf trainiert wurde, ein nützlicher Assistent zu sein. Hier spricht man von “emergenten” Fähigkeiten – also Fähigkeiten, die Modelle ab einer gewissen Komplexitäts-Schwelle beiläufig lernen.

 

Header: generiert von Stable Diffusion, promted von Neofonie

Datum: 29.08.2023

Autor

Jan-Tilman Seipp

Als ML-Consultant und -Engineer erarbeitet Jan in enger Abstimmung mit unseren Kunden NLP- und Machine Learning Lösungen. Seit 2016 ist er im Bereich Data Science tätig und hat sowohl als wiss. Mitarbeiter an der TU Berlin als auch in Firmen wie Bosch oder Mayato an Analysen und Automatisierungsprozessen mitgewirkt.