Datenextraktion PDF KI: Case Study im Elektrohandel
Wie eine automatisierte Datenextraktion aus PDF mit KI die Produktdatenpflege revolutioniert.
Unübersichtliche technische Dokumente lassen sich heute effizient in strukturierte Informationen verwandeln. Dank einer intelligenten Pipeline reduzieren Unternehmen den manuellen Aufwand um bis zu 90 %. Infolgedessen steigt die Datenqualität massiv an, während gleichzeitig Ressourcen für strategische Aufgaben frei werden.
„Täglich hunderte technische Datenblätter in unterschiedlichsten Formaten – und jedes muss manuell durchsucht, verstanden und ins System übertragen werden. Ein Albtraum für jede Produktdatenpflege.“
Herausforderung
Ein führender Elektro-Großhändler stand vor der Aufgabe, täglich tausende Artikel aus einem stetig wachsenden Sortiment effizient zu pflegen – bei gleichzeitig stark variierenden Lieferantenformaten. Zu jedem Produkt lagen zwar technische Datenblätter vor, jedoch in höchst unterschiedlicher Qualität: meist als PDF, teils automatisch erzeugt und unstrukturiert, oft nur als Scan.
Für die Mitarbeitenden bedeutete das: zeitaufwendiges Sichten, manuelles Extrahieren und Interpretieren der relevanten Informationen sowie händisches Übertragen in PIM-, ERP- und Shop-Systeme. Wertvolle Daten gingen dabei verloren, da sie nicht maschinenlesbar waren oder sich nicht systematisch erfassen ließen. Die Folge: eingeschränkte Such- und Filterfunktionen, fehlerhafte Produktdarstellungen im Online-Shop und gravierende Skalierungsprobleme bei neuen Lieferanten. Das Ziel war daher klar: eine KI-gestützte Pipeline, die diese heterogenen PDF-Datenblätter automatisiert in verwertbare, strukturierte Informationen umwandelt und direkt in die bestehenden Systeme integriert.
Lösungsansatz
Die entwickelte Lösung basiert auf einem modularen, KI-gestützten Verarbeitungsprozess, der speziell auf die Anforderungen des Elektro-Großhandels zugeschnitten ist.
Zunächst wurden alle eingehenden Lieferanten-PDFs einer Vorverarbeitung unterzogen. Dabei kamen spezialisierte OCR-Engines zum Einsatz, um auch gescannte Dokumente zuverlässig in maschinenlesbaren Text zu verwandeln. Anschließend analysierten KI-Modelle wie LayoutLM, Donut und GPT-4 Vision die Struktur der Datenblätter, erkannten Tabellen, Einheiten und Spaltenbeziehungen und identifizierten relevante Datenbereiche. Die extrahierten Informationen wurden anschließend vereinheitlicht – etwa durch die Umrechnung von Watt in Kilowatt – und auf inhaltliche Konsistenz geprüft. Mithilfe domänenspezifischer Regeln und KI-gestützter Klassifikatoren erfolgte die semantische Zuordnung zu internen Produktfeldern sowie zu Klassifikationssystemen wie eCl@ss oder ETIM. Abschließend wurden die bereinigten und standardisierten Daten im XML-Format ausgegeben und nahtlos in die bestehenden PIM-, ERP- und Shop-Systeme des Unternehmens integriert.
Ergebnis
Die automatisierte Pipeline reduzierte den manuellen Aufwand bei der Produktdatenpflege um bis zu 90 % pro Datenblatt. In Tests konnten über 80 % der relevanten Informationen automatisch extrahiert werden. Die Produktdaten sind nun deutlich vollständiger und konsistenter, neue Lieferanten lassen sich schneller integrieren, und im Online-Shop profitieren Kunden von exakten technischen Filterfunktionen sowie einer besseren Auffindbarkeit. Das Projekt steigerte nicht nur die Produktivität erheblich, sondern schuf auch eine zukunftsfähige Grundlage für weiteres Wachstum.
__
Haben Sie ähnlich komplexe Herausforderungen, über die Sie gerne mal gemeinsam mit uns nachdenken möchten? Gerne zeigen wir Ihnen unsere Prototypen. Wir beraten Sie gerne.
Leistung
Beratung
PDF-Extraktion
Prototyping
Datenintegration für PIM-, ERP- und Shop-Systeme
Technologien
OCR-Engines
LayoutLM
Donout
GPT4
Sprechen Sie uns an

