Auslesen technischer PDF-Datenblätter mit KI
Wie verwandelt man unübersichtliche technische PDF-Datenblätter in perfekt strukturierte Produktinformationen? Mit einer KI-gestützten Pipeline, die den manuellen Aufwand um bis zu 90 % reduziert und die Datenqualität auf ein neues Level hebt.
„Täglich hunderte technische Datenblätter in unterschiedlichsten Formaten – und jedes muss manuell durchsucht, verstanden und ins System übertragen werden. Ein Albtraum für jede Produktdatenpflege.“
Herausforderung
Ein führender Elektro-Großhändler stand vor der Aufgabe, täglich tausende Artikel aus einem stetig wachsenden Sortiment effizient zu pflegen – bei gleichzeitig stark variierenden Lieferantenformaten. Zu jedem Produkt lagen zwar technische Datenblätter vor, jedoch in höchst unterschiedlicher Qualität: meist als PDF, teils automatisch erzeugt und unstrukturiert, oft nur als Scan.
Für die Mitarbeitenden bedeutete das: zeitaufwendiges Sichten, manuelles Extrahieren und Interpretieren der relevanten Informationen sowie händisches Übertragen in PIM-, ERP- und Shop-Systeme. Wertvolle Daten gingen dabei verloren, da sie nicht maschinenlesbar waren oder sich nicht systematisch erfassen ließen. Die Folge: eingeschränkte Such- und Filterfunktionen, fehlerhafte Produktdarstellungen im Online-Shop und gravierende Skalierungsprobleme bei neuen Lieferanten. Das Ziel war daher klar: eine KI-gestützte Pipeline, die diese heterogenen PDF-Datenblätter automatisiert in verwertbare, strukturierte Informationen umwandelt und direkt in die bestehenden Systeme integriert.
Lösungsansatz
Die entwickelte Lösung basiert auf einem modularen, KI-gestützten Verarbeitungsprozess, der speziell auf die Anforderungen des Elektro-Großhandels zugeschnitten ist.
Zunächst wurden alle eingehenden Lieferanten-PDFs einer Vorverarbeitung unterzogen. Dabei kamen spezialisierte OCR-Engines zum Einsatz, um auch gescannte Dokumente zuverlässig in maschinenlesbaren Text zu verwandeln. Anschließend analysierten KI-Modelle wie LayoutLM, Donut und GPT-4 Vision die Struktur der Datenblätter, erkannten Tabellen, Einheiten und Spaltenbeziehungen und identifizierten relevante Datenbereiche. Die extrahierten Informationen wurden anschließend vereinheitlicht – etwa durch die Umrechnung von Watt in Kilowatt – und auf inhaltliche Konsistenz geprüft. Mithilfe domänenspezifischer Regeln und KI-gestützter Klassifikatoren erfolgte die semantische Zuordnung zu internen Produktfeldern sowie zu Klassifikationssystemen wie eCl@ss oder ETIM. Abschließend wurden die bereinigten und standardisierten Daten im XML-Format ausgegeben und nahtlos in die bestehenden PIM-, ERP- und Shop-Systeme des Unternehmens integriert.
Ergebnis
Datenblatt. In Tests konnten über 80 % der relevanten Informationen automatisch extrahiert werden. Die Produktdaten sind nun deutlich vollständiger und konsistenter, neue Lieferanten lassen sich schneller integrieren, und im Online-Shop profitieren Kunden von exakten technischen Filterfunktionen sowie einer besseren Auffindbarkeit. Das Projekt steigerte nicht nur die Produktivität erheblich, sondern schuf auch eine zukunftsfähige Grundlage für weiteres Wachstum.
__
Haben Sie ähnlich komplexe Herausforderungen, über die Sie gerne mal gemeinsam mit uns nachdenken möchten? Gerne zeigen wir Ihnen unsere Prototypen. Wir beraten Sie gerne.
Leistung
Beratung
PDF-Extraktion
Prototyping
Datenintegration für PIM-, ERP- und Shop-Systeme
Technologien
OCR-Engines
LayoutLM
Donout
GPT4
Sprechen Sie uns an
