Blogpost

Text Mining in Finance und Banking – Erkenntnisgewinn aus Texten

Mit Techniken aus dem Bereich Data Analytics kann das Verarbeiten von Texten aus Dokumenten, Internetseiten, Foren, Social Media, Zeitschriften und Artikeln erheblich unterstützt bzw. sogar teilweise (maschinell) automatisiert werden. Wie das konkret aussieht, wird im Beitrag gezeigt.

52
4 Minuten Lesezeit
Text Mining in Finance und Banking

Datenanalyse wird in der Regel mit Zahlen (numerischen Werten) und strukturierten Daten (Tabellen) in Verbindung gebracht. Diese lassen sich relativ einfach handhaben und verarbeiten. Bei der Verarbeitung von Text aus Dokumenten, Internetseiten, Foren, Social Media, Zeitschriften und Artikeln wird das Ganze schon schwieriger. Hier entsteht der Informationsgewinn durch (manchmal aufwendiges und mühsames) lesen oder der gezielten Suche nach bestimmten Wörtern oder Passagen. Mit Techniken aus dem Bereich Data Analytics kann dieser Prozess erheblich unterstützt bzw. sogar teilweise (maschinell) automatisiert werden. Wie das konkret aussehen kann, wird in diesem Artikel kurz skizziert.

Datenextraktion

Der erste Schritt um unstrukturierte Daten (Texte) analysieren zu können besteht darin, den Text zu extrahieren. Im nachfolgenden Beispiel wird dies anhand von fünf Augaben unseres Kundenmagazins NEWS aus den Jahren 2016 bis 2019 dargestellt. Neben unserer NEWS, die als PDF vorliegen, kann natürlich so gut wie jedes PDF-Dokument verwendet werden. Bei einigen (älteren) Formaten sind möglicherweise ein paar weitere Handgriffe nötig. Generell könnten zum Beispiel einzelne Dokumente, oder eine ganze Reihe von Dokumenten verarbeitet werden. Im Wesentlichen sind drei Schritte notwendig (siehe nachfolgende Abbildung).

Datenextraktion

Abbildung 1: Datenextraktion

Für unser kleines Beispiel werden die fünf NEWS-Zeitschriften in einem Ordner abgelegt, aus dem diese anschließend automatisiert in die Software importiert werden. Somit sind neben der Dateiablage keine manuellen Schritte notwendig. Folgende NEWS werden dabei verwendet:

+++ HINWEIS: Da nicht alle NEWS aus dem Zeitraum 2016 bis 2019 berücksichtigt werden, sind die nachfolgenden Darstellungen und Auswertungen beispielhaft und nicht aussagekräftig. Vielmehr wird hier lediglich das Grundsätzliche Vorgehen skizziert. +++

Auch diese Schritte können automatisiert werden, wenn man beispielsweise direkt Textcontent von einer Webseite via Web Scraping extrahieren will, oder wenn eine Schnittstelle (API) zur Verfügung steht. Da Web Scraping sehr viel Möglichkeiten offenbart, wird diese Methodik in einem eigenständigen Folgeartikel vorgestellt.

Datenaufbereitung

Nach erfolgreichem Import müssen die Daten nachbearbeitet werden. Die Nachbearbeitung umfasst beispielsweise das Aussortieren von Wörter, die keinen Informationsgewinn beitragen. Beispiele hierfür sind u.a. die Artikel „der“, „die“, „das“ und die Konjunktionen „und“, „oder“. Da diese so gut wie in jedem Text auftauchen, können diese als nicht signifikant betrachtet und herausgefiltert werden. Diese Art der Filterung durch sogenannte Stopwords wird auch standardmäßig im Textmining verwendet. Dies geschieht somit ebenfalls automatisiert, ohne explizites Einwirken des Benutzers.

Weiterhin können zusätzlich noch statische Filter gesetzt werden, um bestimmte Wörter herauszufiltern. Beispielsweise wenn auf jeder Seite in der Kopf- und Fußzeile gleichbleibende Sätze, oder Wörter stehen, so sollten diese herausgefiltert werden.

In vielen Fällen ist es sinnvoll die Wörter grammatikalisch einzuordnen (Nomen, Adjektive, Verben, Präpositionen, etc…) und anschließend zusammen zu fassen.

Visualisierung

Zur Visualisierung eignen sich Wordclouds und Histogramme. Nachfolgend sind die Nomina von fünf NEWS-Ausgaben in Wordclouds dargestellt. Der große Vorteil von Wordclouds ist der schnelle Informationsgewinn, da auf den ersten Blick die wichtigsten Begriffe erkennbar sind. In der nachfolgenden Graphik sind die Nomen der einzelnen NEWS-Ausgabe von 2016 bis 2019 nach ihrer Häufigkeit in Wordclouds visuell dargestellt.

Visualisierung der Datenaufbereitung

Abbildung 2: Visualisierung der Datenaufbereitung

Deutlich erkennbar ist auch, dass sich der Sprachgebrauch innerhalb der 4 Jahre verändert hat. Ersichtlich ist auch, dass Begriffe wie „Künstliche Intelligenz“, „Blockchain“ und „Algorithmus“ in den Jahren 2018 und 2019 populär sind. Exemplarisch für die NEWS (01/2019) sind die zehn häufigsten Nomina gelistet.

die zehn häufigsten Nomina

Abbildung 3: Die zehn häufigsten Nomina

Klassische Begriffe wie „Kunde“, „Bank“, oder „Institut“ sind zeitlich dauerhaft präsent. Von besonderem Interesse ist neben der Häufigkeit eines Begriffs vor allem dessen zeitliche Entwicklung.

Zeitliche Entwicklung (Trends)

Da es auch von besonderem Interesse ist, wie sich die Häufigkeit eines Begriffs innerhalb eines Zeitraums entwickelt, betrachten wir die fünfzig häufigsten Begriffe, die in allen fünf Ausgaben vorkommen. Zur Visualisierung verwenden wir eine Heatmap. Diese eignen sich besonders gut zur Darstellung von Häufigkeitsverteilungen von zweidimensionalen Datensätzen. Auf der horizontalen Achse sind die Jahreszahlen aufgetragen, auf der vertikalen Achse die 58 häufigsten Begriffe aufgetragen. Die jeweiligen Begriffshäufigkeiten sind als farbige Felder dargestellt. An der Legende am rechten Rand ist erkennbar, dass der Farbverlauf von Hell nach Dunkel die Wortintensität darstellt.

Heatmap der häufigsten Begriffe

Abbildung 4: Heatmap der häufigsten Begriffe

An der Heatmap ist erkennbar, wie sich Begriffe im zeitlichen Verlauf entwickeln. Im Allgemeinen kann man dieses Verfahren auch dazu verwenden, um Trends zu erkennen.

Einsatzmöglichkeiten und Vorteile

Der große Vorteil im Textmining ist die weitgehende Automatisierung. Dies ist zum einen sehr effizient (im Sinne von Schnelligkeit, Ressourcenaufwand und Ergebnisdarstellung).

Die Einsatzmöglichkeiten sind vielfältig. Beispielsweise kann das Vorgehen auch auf Interne Dokumente, BaFin-Rundschreiben, Magazine, Artikel auf Internetseiten oder Fachzeitschriften und Zeitungen angewendet werden. Auch der Webauftritt des eigenen Instituts, Posts und Kommentare aus Social Media können auf diese Weise ausgewertet werden. Gerade das Sentiment in Social Media über ein bestimmtes Themenfeld, oder das eigene Institut kann hiermit quantifiziert und gemessen werden. Somit wäre eine dauerhafte und automatisierte Überwachung in Form eines „Stimmungsbarometers“, oder eines Ampelmodels möglich. Big Data und Digitalisierung ermöglichen die Integration von solchen Assistenz- und Monitoringsystemen in das bestehende Geschäftsmodell.

msg GillardonBSM

denkt Banking neu und bietet seinen Kunden smarte, innovative und plattformbasierte digitalisierte Lösungen aus einer Hand.

Schreiben Sie einen Kommentar

Sie müssen sich anmelden, um einen Kommentar zu schreiben.