Natural Language Processing: Wie Computer verstehen lernen

Inhaltsübersicht:

3. Relationsextraktion

Der dritte Step der „Relationsextraktion“ beschreibt einen analytisch, statistischen Prozess zur Identifizierung geeigneter Relationen zwischen Konzepten. Hierfür werden wesentliche Konstrukte innerhalb des Textkorpus unterschiedlich in Beziehung gesetzt, sodass wesentliche Relationen erkennbar sowie darstellbar werden.

Ein Anwendungsbeispiel ist dabei die Technik des Chunking. Hierfür werden einzelne Sätze mit Hilfe von sogenannten Chunks segmentiert, welche zuvor auf Basis der annotierten Wortarten konzipiert werden können. Die folgende Abbildung illustriert beispielhaft die Anwendung eines Adjektiv-Nomen-Verb Chunks, der auf meinem aufbereiteten Textkorpus angewendet wurde.

Grafische Darstellung des Adjektiv-Nomen-Verb Chunks

NLP Abb 1


Implementierung des Adjektiv-Nomen-Verb Chunks in NLTK

NLP Abb 2

Durch das sogenannte termspezifische Parsing können u.a. explizite Relationen zwischen relevanten Wörtern identifiziert werden. So können bspw. Oberbegriffe (Hyperonym) und dazugehörige Unterbegriffe (Hyponym) ermittelt werden:

NLP Abb 3

Fazit

Die skizzierten Methoden und Techniken zur maschinellen Sprachverarbeitung helfen bei der Konsolidierung, Verarbeitung und Analyse großer Textmengen. Sie umfassen jedoch nur einen Bruchteil der Potentiale und Möglichkeiten, die durch das Text Mining ermöglicht werden.

Auch in der Praxis finden diese Methoden immer häufiger an Bedeutung, wie z.B.  im Assetmanagement. Die iterative Analyse der aktuellen Marktgeschehnisse spielt dabei eine wesentliche Rolle. Bereits heute kommen unterschiedliche Text Mining-Lösungen in dieser Domäne zur Anwendung.

NLP wird auch im Alltag immer wichtiger. Viele nutzen bereits die Möglichkeit, Dokumente mit dem Smartphone einzuscannen. Die enthaltenen Textinformationen werden dabei automatisiert extrahiert und entsprechend verarbeitet. Sparkassen bieten die Möglichkeit der Fotoüberweisung bereits an.

NLP und Text Mining prägen auch die Geschehnisse der anstehenden US-Wahlen am 3. November 2020. Die im journalistischen Jargon bekannte „Meinungsmache“ wird zum großen Teil durch das Auffangen der aktuellen Stimmungslage in den sozialen Medien geprägt.