Skip to main content

Natural Language Processing mit dem Wikidata Knowledge Graph

Im Rahmen der Wikidata Data Reuse Days 2022 teilen Bertram Sändig und Patricia Helmich von ontolux ihre Erfahrungen, die sie beim Natural Language Processing mit dem Wikidata Knowledge Graph machen.

 

Vom 14. bis 24. März treffen sich Datenspezialisten, Data Engineers und Data Editoren zu den Wikidata Data Reuse Days 2022, um ihre Erfahrungen mit der Nutzung und Verarbeitung von Wikidata-Daten zu teilen. Mit dabei sind u.a. Bertram Sändig und Patricia Helmich von der KI-Agentur ontolux.

Sie setzen in verschiedenen Projekten das eigens entwickelte NLP-Framework „TXTWerk“ ein, um in unstrukturierten Texten benannte Entitäten aufzufinden. Für die Datengenerierung und das maschinelle Lernen stützen sie sich dabei auf den Wikidata Knowledge Graph. In einem Online-Vortrag stellen sie ihre Arbeit mit Wikidata vor und zeigen dabei auch eine Reihe von Herausforderungen auf, der sie bei ihrer täglichen Arbeit begegnen.

Wann: 17.03.2022 – 18:00-18:50 Uhr
Referenten: Bertram Sändig und Patricia Helmich
Sprache: Englisch
Jeder ist willkommen!

Zur kostenfreien Anmeldung

 

Veröffentlichung am 10.03.2022
Bildquelle: wikimedia.org

 

Unsere Expertise in der Verknüpfung von Graph-Technologien und Sprachverarbeitung fließt direkt in unsere KI-Beratung ein. Wir unterstützen Unternehmen dabei, eigene Wissensbasen aufzubauen oder öffentliche Datenquellen wie Wikidata effektiv für ihre Geschäftsprozesse zu nutzen. Weitere Einblicke in unsere technologischen Schwerpunkte finden Sie auch in unserem Bereich Research.

Die Rolle von Wissensgraphen in der modernen KI

Die Nutzung eines strukturierten Wikidata Knowledge Graph ist für moderne NLP-Anwendungen von unschätzbarem Wert. Er dient als gigantische, maschinenlesbare Wissensbasis, die es ermöglicht, unstrukturierte Texte nicht nur zu lesen, sondern in einen globalen Kontext zu setzen. Bei ontolux setzen wir in verschiedenen Projekten das eigens entwickelte NLP-Framework „TXTWerk“ ein, um in unstrukturierten Texten benannte Entitäten (Named Entities) aufzufinden.

Für die Datengenerierung und das maschinelle Lernen stützen wir uns dabei maßgeblich auf den Wikidata Knowledge Graph. Ein Kernaspekt unserer Arbeit ist das sogenannte Named Entity Linking (NEL). Hierbei wird eine im Text gefundene Entität – beispielsweise eine Person oder ein Unternehmen – eindeutig mit einer ID im Wissensgraphen verknüpft. Dies ist die Voraussetzung für eine präzise Disambiguierung, also die Unterscheidung zwischen gleichlautenden Begriffen.

Datum: 28.02.2022

Autor

Qi Wu

Qi Wu arbeitet als Machine Learning Engineer bei der Neofonie GmbH. Nach ihrem Masterstudium der Statistik hat sie sich mit maschinellem Lernen im Bereich der Verarbeitung natürlicher Sprache, wie z.B. der Informationsextraktion, beschäftigt.