Elektrohandel

Automatisierte Produktdatenverarbeitung aus PDFs mit KI

Auslesen technischer PDF-Datenblätter mit KI

Wie verwandelt man unübersichtliche technische PDF-Datenblätter in perfekt strukturierte Produktinformationen? Mit einer KI-gestützten Pipeline, die den manuellen Aufwand um bis zu 90 % reduziert und die Datenqualität auf ein neues Level hebt.

„Täglich hunderte technische Datenblätter in unterschiedlichsten Formaten – und jedes muss manuell durchsucht, verstanden und ins System übertragen werden. Ein Albtraum für jede Produktdatenpflege.“
Kunde aus dem Elektrotechnik-Großhandel

Herausforderung

Ein führender Elektro-Großhändler stand vor der Aufgabe, täglich tausende Artikel aus einem stetig wachsenden Sortiment effizient zu pflegen – bei gleichzeitig stark variierenden Lieferantenformaten. Zu jedem Produkt lagen zwar technische Datenblätter vor, jedoch in höchst unterschiedlicher Qualität: meist als PDF, teils automatisch erzeugt und unstrukturiert, oft nur als Scan.

Für die Mitarbeitenden bedeutete das: zeitaufwendiges Sichten, manuelles Extrahieren und Interpretieren der relevanten Informationen sowie händisches Übertragen in PIM-, ERP- und Shop-Systeme. Wertvolle Daten gingen dabei verloren, da sie nicht maschinenlesbar waren oder sich nicht systematisch erfassen ließen. Die Folge: eingeschränkte Such- und Filterfunktionen, fehlerhafte Produktdarstellungen im Online-Shop und gravierende Skalierungsprobleme bei neuen Lieferanten. Das Ziel war daher klar: eine KI-gestützte Pipeline, die diese heterogenen PDF-Datenblätter automatisiert in verwertbare, strukturierte Informationen umwandelt und direkt in die bestehenden Systeme integriert.

Lösungsansatz

Die entwickelte Lösung basiert auf einem modularen, KI-gestützten Verarbeitungsprozess, der speziell auf die Anforderungen des Elektro-Großhandels zugeschnitten ist.

Zunächst wurden alle eingehenden Lieferanten-PDFs einer Vorverarbeitung unterzogen. Dabei kamen spezialisierte OCR-Engines zum Einsatz, um auch gescannte Dokumente zuverlässig in maschinenlesbaren Text zu verwandeln. Anschließend analysierten KI-Modelle wie LayoutLM, Donut und GPT-4 Vision die Struktur der Datenblätter, erkannten Tabellen, Einheiten und Spaltenbeziehungen und identifizierten relevante Datenbereiche. Die extrahierten Informationen wurden anschließend vereinheitlicht – etwa durch die Umrechnung von Watt in Kilowatt – und auf inhaltliche Konsistenz geprüft. Mithilfe domänenspezifischer Regeln und KI-gestützter Klassifikatoren erfolgte die semantische Zuordnung zu internen Produktfeldern sowie zu Klassifikationssystemen wie eCl@ss oder ETIM. Abschließend wurden die bereinigten und standardisierten Daten im XML-Format ausgegeben und nahtlos in die bestehenden PIM-, ERP- und Shop-Systeme des Unternehmens integriert.

Ergebnis

Die automatisierte Pipeline reduzierte den manuellen Aufwand bei der Produktdatenpflege um bis zu 90 % pro Datenblatt. In Tests konnten über 80 % der relevanten Informationen automatisch extrahiert werden. Die Produktdaten sind nun deutlich vollständiger und konsistenter, neue Lieferanten lassen sich schneller integrieren, und im Online-Shop profitieren Kunden von exakten technischen Filterfunktionen sowie einer besseren Auffindbarkeit. Das Projekt steigerte nicht nur die Produktivität erheblich, sondern schuf auch eine zukunftsfähige Grundlage für weiteres Wachstum.

Haben Sie ähnlich komplexe Herausforderungen, über die Sie gerne mal gemeinsam mit uns nachdenken möchten? Gerne zeigen wir Ihnen unsere Prototypen. Wir beraten Sie gerne.

Leistung

Beratung
PDF-Extraktion
Prototyping
Datenintegration für PIM-, ERP- und Shop-Systeme

Technologien

OCR-Engines
LayoutLM
Donout
GPT4

Sprechen Sie uns an

Bertram Sändig

COO ontolux

+49 30 24627-0

KONTAKTIEREN