Skip to main content

Elektrohandel

Automatisierte Produktdatenverarbeitung aus PDFs mit KI

Auslesen technischer PDF-Datenblätter mit KI

Wie verwandelt man unübersichtliche technische PDF-Datenblätter in perfekt strukturierte Produktinformationen? Mit einer KI-gestützten Pipeline, die den manuellen Aufwand um bis zu 90 % reduziert und die Datenqualität auf ein neues Level hebt.

„Täglich hunderte technische Datenblätter in unterschiedlichsten Formaten – und jedes muss manuell durchsucht, verstanden und ins System übertragen werden. Ein Albtraum für jede Produktdatenpflege.“

Herausforderung

Ein führender Elektro-Großhändler stand vor der Aufgabe, täglich tausende Artikel aus einem stetig wachsenden Sortiment effizient zu pflegen – bei gleichzeitig stark variierenden Lieferantenformaten. Zu jedem Produkt lagen zwar technische Datenblätter vor, jedoch in höchst unterschiedlicher Qualität: meist als PDF, teils automatisch erzeugt und unstrukturiert, oft nur als Scan.

Für die Mitarbeitenden bedeutete das: zeitaufwendiges Sichten, manuelles Extrahieren und Interpretieren der relevanten Informationen sowie händisches Übertragen in PIM-, ERP- und Shop-Systeme. Wertvolle Daten gingen dabei verloren, da sie nicht maschinenlesbar waren oder sich nicht systematisch erfassen ließen. Die Folge: eingeschränkte Such- und Filterfunktionen, fehlerhafte Produktdarstellungen im Online-Shop und gravierende Skalierungsprobleme bei neuen Lieferanten. Das Ziel war daher klar: eine KI-gestützte Pipeline, die diese heterogenen PDF-Datenblätter automatisiert in verwertbare, strukturierte Informationen umwandelt und direkt in die bestehenden Systeme integriert.

Lösungsansatz

Die entwickelte Lösung basiert auf einem modularen, KI-gestützten Verarbeitungsprozess, der speziell auf die Anforderungen des Elektro-Großhandels zugeschnitten ist. 

Zunächst wurden alle eingehenden Lieferanten-PDFs einer Vorverarbeitung unterzogen. Dabei kamen spezialisierte OCR-Engines zum Einsatz, um auch gescannte Dokumente zuverlässig in maschinenlesbaren Text zu verwandeln. Anschließend analysierten KI-Modelle wie LayoutLM, Donut und GPT-4 Vision die Struktur der Datenblätter, erkannten Tabellen, Einheiten und Spaltenbeziehungen und identifizierten relevante Datenbereiche. Die extrahierten Informationen wurden anschließend vereinheitlicht – etwa durch die Umrechnung von Watt in Kilowatt – und auf inhaltliche Konsistenz geprüft. Mithilfe domänenspezifischer Regeln und KI-gestützter Klassifikatoren erfolgte die semantische Zuordnung zu internen Produktfeldern sowie zu Klassifikationssystemen wie eCl@ss oder ETIM. Abschließend wurden die bereinigten und standardisierten Daten im XML-Format ausgegeben und nahtlos in die bestehenden PIM-, ERP- und Shop-Systeme des Unternehmens integriert.

Ergebnis

Datenblatt. In Tests konnten über 80 % der relevanten Informationen automatisch extrahiert werden. Die Produktdaten sind nun deutlich vollständiger und konsistenter, neue Lieferanten lassen sich schneller integrieren, und im Online-Shop profitieren Kunden von exakten technischen Filterfunktionen sowie einer besseren Auffindbarkeit. Das Projekt steigerte nicht nur die Produktivität erheblich, sondern schuf auch eine zukunftsfähige Grundlage für weiteres Wachstum.

__

Haben Sie ähnlich komplexe Herausforderungen, über die Sie gerne mal  gemeinsam mit uns nachdenken möchten? Gerne zeigen wir Ihnen unsere Prototypen. Wir beraten Sie gerne.

Leistung

  • Beratung

  • PDF-Extraktion

  • Prototyping

  • Datenintegration für PIM-, ERP- und Shop-Systeme

 

Technologien

  • OCR-Engines

  • LayoutLM

  • Donout

  • GPT4

Sprechen Sie uns an

Bertram Sändig

COO ontolux