Skip to main content

TXTWerk hat Recht

TXTWerk kann jetzt auch Texte mit rechtlichen Referenzen analysieren und Metadaten zu diesen extrahieren. Ziel ist es, im Text referenzierte Paragrafen zu erkennen und in strukturierte Form zu bringen. Dazu werden verschiedene Komponenten von TXTWerk kombiniert.

Kernkomponente ist die Legal NER Komponente, dazu wurde eine auf Flair NLP basierte Komponente trainiert, die in einem Fließtext Paragrafen erkennen kann. Die erkannten Entitäten werden dann von der Pattern Engine in strukturierte Form gebracht. Dazu wird der Paragrafentext mittels der TXTWerk NERD (Entity Recognition, Disambiguation und Linking) Komponente analysiert und z.b. Referenzen auf das BGB direkt mit der TXTWerk Wissensbasis verlinkt. Dadurch werden relevante Konzepte erkannt, aber auch die Paragrafen, auf die Bezug genommen wird.

Die Anfragen sind wie bei TXTWerk gewohnt über die REST Schnittstelle der TXTWerk API verfügbar. Eine einfache Textanfrage mit einer direkten Referenz “§ 1 Abs. 4 S. 9 BauGB” wird von TXTWerk in die folgenden Metadaten zerlegt.

{

   "text": "§ 1 Abs. 4 S. 9 BauGB",

   "language": "de",

   "timestamp": 1613507259849,

   "legals": [{

          "source": "Legal::lawRegulations1",

          "start": 0,

          "end": 20,

          "observedLegal": "§ 1 Abs. 4 S. 9 BauG",

          "paragraph": "1",

          "section": "4",

          "sentence": "9",

          "law": "BauGB",

"lawUri": “https://www.wikidata.org/wiki/Q811351”

        }]

}

Das funktioniert natürlich auch bei Einbettungen in einen Fließtext:

{

     "text": "Bei preisfreien Mietverhältnissen in der Wohnraummiete orientiert
 sich die zulässige Miethöhe an der „ortsüblichen Vergleichsmiete“
(§ 558 Bürgerliches Gesetzbuch).",

     "language": "de",

     "timestamp": 1613507571110,

     "legals": [{

             "source": "Legal::lawRegulations1",

             "start": 133,

             "end": 162,

             "observedLegal": "§ 558 Bürgerliches Gesetzbuch",

             "paragraph": "558",

             "law": "Bürgerliches Gesetzbuch",

             "lawUri": "https://www.wikidata.org/wiki/Q165728"

       }]

}

Mit dem nächsten Release von TXTWerk wird die neue Komponente zur Legal NER Analyse verfügbar sein. Die Komponente wird aktiv bereits im Bereich Steuern und Finanzen genutzt.

Wenn Sie Interesse oder Fragen zu der Komponente haben, dann kontaktieren Sie uns gerne.

Datum: 26.02.2021

Autor

Jan-Tilman Seipp

Als ML-Consultant und -Engineer erarbeitet Jan in enger Abstimmung mit unseren Kunden NLP- und Machine Learning Lösungen. Seit 2016 ist er im Bereich Data Science tätig und hat sowohl als wiss. Mitarbeiter an der TU Berlin als auch in Firmen wie Bosch oder Mayato an Analysen und Automatisierungsprozessen mitgewirkt.