KI und Forschung - 01 | 22: Lucene 9

Willkommen zum ersten Newsletter KI & Forschung im Jahr 2022. Auch dieses Jahr werden wir wieder monatlich ein paar interessante Themen aus den Gebieten KI und Forschung vorstellen – meist mit einem Fokus auf NLP. Bevor wir aber zum Thema KI kommen, wollen wir einen kurzen Blick auf das Thema Suche werfen.

Suche und Lucene 9

Ende 2021 wurde nach über einem Jahr die nächste Version von Lucene veröffentlicht. Lucene bildet die Grundlage für die bekannten und vielfach verwendeten Suchmaschinen Apache Solr und Elasticsearch. Mit Lucene 9 wurde jetzt die Unterstützung für die Indizierung hochdimensionaler, numerischer Vektoren eingeführt und die Möglichkeit der Suche nach ähnlichen Einträgen (Nearest Neighbor) unter Verwendung des Hierarchical Navigable Small World Graph-Algorithmus. Damit verschmelzen NLP und Suche weiter. Embeddings aus den verschiedensten Language Models, die wir im letzten Jahr immer mal wieder vorgestellt haben, können jetzt in der Suche genutzt werden, um ähnliche Dokumente zu finden und erweitern damit das Potential in der Suche ungemein. Jetzt bleibt nur abzuwarten und zu hoffen, dass Lucene 9 und die neuen Features schnellstmöglich in Apache Solr und Elastic umgesetzt werden.

Wer sich für das Thema Language Modelle interessiert sei zum einen auf den verlinkten 
Heise Artikel verwiesen. Zum anderen aber auch auf unseren Artikel “Modellkomprimierung Methoden zur Ressourceneinsparung von KI-Modellen”.

Bedürfnispyramide

Die Themen KI und Data Science sind eng miteinander verbunden und kurz gesagt versprechen beide, Daten in Informationen umzuwandeln und so einen Mehrwert für das Geschäft zu generieren. Beiden gemein ist jedoch, dass die Anwender meist Daten nutzen, die voller Fehler und voller Lücken sind, die sich über Jahre anhäufen und sich in Format und Bedeutung ändern oder die in einer Weise strukturiert sind, die keinen Sinn ergeben. Trotzdem erwarten die Anwender, korrekterweise nicht die direkten Nutzer, die Data Scientists, sondern eher andere Abteilungen und Entscheider, dass KI auf magische Weise die richtigen Schritte und Schlüsse vollzieht. Das ist allerdings heute nicht der Fall. Deswegen sollte jedes Unternehmen, das sich mit Daten und deren Nutzen befasst, die hierarchy of needs für Data Science Produkte anschauen. Ein KI-Projekt startet nicht mit dem Algorithmus sondern mit den richtigen Daten und deren Sammlung.

Abbildung: Hierarchy of Needs

Audio Schuss-Modell

Der Einsatz von KI verspricht eine Hilfe im täglichen Leben. Ein Beispiel dafür ist ein von der Florida Atlantic University durchgeführte Studie, das sich mit der Qualität der Erkennung von “Gunshot and Gunshot-like Audio Events” beschäftigt hat. Dabei stellten die Forscher fest, dass die Qualität der Systeme stark zu wünschen übrig lässt. Ziel der Systeme ist es, automatisiert Hilfe zu rufen, wenn ein Schusswechsel erkannt wird. Das führt im Augenblick zu einer größeren Menge an falschen Alarmen. Lösung des Problems, wie von den Forschern beschrieben: Mehr Daten…

Zum Schluss: Goldfischorientierung

Zum Abschluss ein Experiment, das nichts mit KI zu tun hat, aber einfach interessant ist. Forscher haben getestet wie es um den Orientierungssinn bei Tieren, in diesem Falle Goldfische, bestellt ist.

Autor

Dr. Till Plumbaum

Till Plumbaum verantwortet als COO die Bereiche KI, maschinelles Lernen, natürliche Sprachverarbeitung (NLP), Personalisierung, Empfehlungssysteme, Suche und Information Retrieval.