Können Maschinen wirklich den Prognostikern das Wasser reichen?

Illustration zum Thema  "Machine Learning für makroökonomische Prognosen"

© Dirk Schmidt

Die Vorhersage wirtschaftlicher Entwicklungen leistet einen wichtigen Beitrag zur Gestaltung effektiver Wirtschaftspolitik. Dementsprechend bemühen sich viele Ökonomen bei Regierungen, Institutionen und akademischen Forschungseinrichtungen rund um den Globus regelmäßig unter hohem Aufwand, immer genauere Prognosen für eine ganze Reihe von Wirtschaftsindikatoren zu erstellen.

Die meisten traditionellen Prognosemodelle für ökonomische Größen beruhen dabei auf einer vordefinierten Beziehung zwischen Inputvariablen und der (zu prognostizierenden) Outputvariablen. In solchen Fällen kann das Modell und sein Ergebnis daher nur so gut sein wie seine Annahmen bzw. seine Spezifikation.

Einen etwas anderen Ansatz für statistische Analysen im Allgemeinen und Prognosen im Besonderen bieten dagegen maschinell lernende Algorithmen, die so gut wie keine Annahmen über die den betreffenden Größen zugrundeliegende Beziehung treffen. Stattdessen wird ein algorithmischer Ansatz genutzt, um eine Funktion zu finden, die die Beziehung zwischen Eingabe- und Ausgabedaten am besten abbildet.

In Kürze
Das ganze Universum verschiedener Ansätze maschinellen Lernens lässt sich im Großen und Ganzen in Algorithmen der Kategorien (1) Supervised, (2) Unsupervised und (3) Reinforcement Learning einteilen.

Ansätze des maschinellen Lernens werden schon seit längerer Zeit vor allem in naturwissenschaftlichen Forschungsgebieten extensiv genutzt. In der ökonomischen Analyse und Prognose gibt es mittlerweile zwar auch erste Anwendungsbeispiele, eine Nutzung dieser Modelle auf breiter Ebene steht bislang jedoch noch aus. Die wissenschaftliche Literatur verweist aber auf vielversprechendes Potenzial.

Arten des Lernens

Im Bereich der maschinell lernenden Ansätze gibt es dabei nicht nur einen einzigen Algorithmus, sondern eher ein ganzes Universum verschiedener Techniken. Diese lassen sich im Großen und Ganzen in Algorithmen der Kategorien (1) Supervised, (2) Unsupervised und (3) Reinforcement Learning einteilen (Hastie et al., 2001).

Die erste Kategorie des Supervised Learning wird bei Prognoseproblemen angewendet, bei denen die zu bestimmende Größe, d. h. die abhängige Variable, eindeutig identifiziert werden kann, auch wenn die spezifischen Beziehungen unter den Variablen in den Daten nicht bekannt sind. Dies ist zum Beispiel bei der klassischen makroökonomischen Prognose der Fall. Traditionelle ökonometrische Modelle (z. B. regressionsbasierte Modelle) fallen typischerweise unter diese Kategorie. Üblicherweise steht dabei im Mittelpunkt, die Wirkung einer Reihe unabhängiger, erklärender Variablen auf eine oder mehrere bekannte abhängige Variablen zu quantifizieren.

Beim Unsupervised Learning hingegen ist kein spezifischer Output im Voraus definiert. Das Ziel des „unüberwachten Lernens“ besteht darin, ein Muster oder unbeobachtbare Größen auf der Grundlage einer Reihe von beobachteten Inputvariablen zu erkennen. Ausgehend von einem bestimmten Datensatz haben Algorithmen, die unter diese Kategorie fallen, die Aufgabe, Muster in den Daten zu erkennen und Kategorien der Outputgrößen zu bestimmen. Typischerweise gehören Faktormodelle oder Principal Component Analysen zu dieser Kategorie.

Das Reinforcement Learning ist eine dritte Kategorie von Algorithmen, bei denen eine unbekannte "Belohnungs"-Funktion durch wiederholtes rückwärtsgewandtes Feedback optimiert wird (Barto und Dietterich, 2004). Zugrunde liegt dabei ein iterativer Prozess, der sowohl die optimale Position der Eingangsvariablen als auch die Parameter der Belohnungsfunktion zu bestimmen versucht, um die Belohnung als Zielwert zu maximieren. Vereinfacht gesagt sind hier also weder die Zielfunktion selbst noch die optimale Position der Inputvariablen bekannt. Anders als beim Supervised Learning funktioniert diese Kategorie ohne Trainingsbeispiel oder Trainingsset. Sie muss sich die Struktur vielmehr völlig selbstständig erschließen. Ein Anwendungsbeispiel für Reinforcement Learning ist etwa die Optimierung von Ampelschaltungen im Straßenverkehr. Hier ist unklar, welche Zielfunktion genau verfolgt werden soll (Unfallzahl, Wartezeit, Verkehrsfluss, etc.) Das Reincorcement Learning unterscheidet sich vom Unsupervised Learning insbesondere dadurch, dass die Zielvariable in Form einer Belohnung und nicht durch eine spezifische Größe gegeben wird.

Illustration zum Thema  "Machine Learning für makroökonomische Prognosen"

© Dirk Schmidt

In Kürze
Das Prinzip der Validierung baut auf dem Testen auf; es bezieht sich auf die Feinausrichtung von Algorithmen und wird manchmal auch als „Tuning“ bezeichnet.

Testen und Validieren zur Vermeidung von Overfitting

Gemeinsam ist den meisten Machine Learning-Algorithmen, dass sie das Phänomen des sog. „Overfittings“ durch Anwendung einer Reihe von praktischen Maßnahmen weitgehend vermeiden wollen. Overfitting bezeichnet die zu starke Verallgemeinerung einer geschätzten Input-Output-Beziehung. Eine solch zu starke Verallgemeinerung liegt vor, wenn ein spezifiziertes Modell zwar sehr gut zu den zugrundeliegenden Daten passt, mit denen es geschätzt wurde, aber schlecht abschneidet, wenn ihm neue Daten präsentiert werden. In solchen Fällen wurde eine bestimmte Beziehung zwischen Input- und Output-Variablen für eine bestimmte Datenstichprobe übermäßig verallgemeinert und als für die gesamte Population bzw. Datenbasis gültig angenommen. Zwei Maßnahmen, die insbesondere von Machine Learning Algorithmen angewendet werden, um dieses Problem zu vermeiden, sind das Testen und das Validieren. Das Testen bezieht sich auf die gängige Praxis, die Stichprobendaten in zwei Teile aufzuteilen: ein erster (in der Regel größerer) Teil, der als Trainingssatz bezeichnet wird und dazu dient, einen bestimmten Algorithmus anzulernen, und ein zweiter (in der Regel kleinerer) Teil, der den Testdatensatz repräsentiert, mit dem die prädiktive Leistung des angelernten Algorithmus auf zuvor „ungesehenen“ Daten gemessen wird. Die Testdaten werden daher beiseitegelegt oder „aus der Stichprobe“ (out-of-sample) herausgenommen. Jede Prognose, die der angelernte Algorithmus erstellt, kann dadurch sofort auf seine Prognosegüte geprüft werden, indem das Modell auf diese beiseitegelegten Daten angewendet wird. Die Vorhersagekraft und Leistung über verschiedene Lernalgorithmen oder Lernspezifikationen hinweg sollte ebenfalls durch Vergleich der Prognosefehler auf Basis dieser Out-of-Sample-Daten bewertet werden.

Das Prinzip der Validierung baut auf dem Testen auf; es bezieht sich auf die Feinausrichtung von Algorithmen und wird manchmal auch als „Tuning“ bezeichnet. Je nach vorliegendem Algorithmus können verschiedene strukturellere Modellparameter abgestimmt werden, wie z. B. die Anzahl der Bäume, die in einem Entscheidungsbaum-Algorithmus wachsen sollen, oder die Anzahl der Neuronen und Schichten in einem neuronalen Netz usw. Diese Parameter können zwar manuell kalibriert werden, aber es ist in den meisten Fällen effektiver und effizienter, eine stärker automatisierte Methode anzuwenden. Diese automatisierten Verfahren beruhen dann meist wiederum auf iterativen Ansätzen zur approximativen Bestimmung der optimalen Parameter.

Unterm Strich wird bei der Validierung bereits deutlich, dass unabhängig vom verwendeten Algorithmus das Element iterativer Schätzungen den Bereich Machine Learning dominiert. Tatsächlich zieht sich der Ansatz der iterativen Bestimmung von Parametern und Modellspezifikationen auch durch die grundlegende Architektur vieler Algorithmen und ist gleichzeitig Grund für die meist extrem hohen Anforderungen an Rechenkapazitäten zur Schätzung von Machine Learning Modellen.

Anwendungsbeispiele für makroökonomische Prognosen

Im Kontext makroökonomischer Prognosen gibt es mittlerweile die ersten algorithmischen Anwendungen. Forscher der britischen Zentralbank etwa haben Anwendungsbereiche für Modelle des maschinellen Lernens im Kontext des Zentralbankwesens untersucht und sehen eine Vielzahl von Möglichkeiten, wo diese für die Arbeit von politischen Entscheidungsträgern eingesetzt werden könnten (Chakraborty und Joseph, 2017). Dementsprechend haben sich einige Forschungsarbeiten bereits mit der Anwendung dieser neuen Instrumente für Wirtschaftsprognosen befasst. Mitarbeiter der Europäischen Kommission beispielsweise verwenden einen sogenannten Random-Forest- Algorithmus zur Vorhersage des Bruttoinlandsprodukts (BIP) des Euroraums und stellen fest, dass einige Versionen dieses auf maschinellen Lernverfahren basierenden Ansatzes in der Lage sind, die bisher üblicherweise verwendeten Prognosemodelle zu übertreffen (Biau und D'Elia, 2010). Beim Internationalen Währungsfonds verwendeten Forscher die Algorithmen „Elastic Net“ und „Random Forest“, um das BIP-Wachstum im Libanon zeitnäher zu prognostizieren, einem Land, in dem die amtliche Statistik erst mit einer Verzögerung von zwei Jahren veröffentlicht wird (Tiffin, 2016). Ein weiteres Forscherteam des IWF untersuchte eine Reihe von Algorithmen für die BIP-Prognose sieben verschiedener Länder und produzierte damit deutlich geringere Prognosefehler als die offiziellen Prognosen des IWF (Jung, Patnam & Ter-Martirosyan, 2018). Bei der afrikanischen Entwicklungsbank verwendeten Ökonomen in ähnlicher Weise künstliche neuronale Netze, um wirtschaftliche Zeitreihen in afrikanischen Ländern zu prognostizieren. Sie stellten fest, dass diese zumindest etwas besser abschneiden als traditionelle Modelle (Chuku, Oduor und Simpasa, 2017). Auch im Bundesministerium für Wirtschaft und Energie wird bereits mit algorithmischen Verfahren zur Unterstützung von Projektion und Konjunkturanalyse gearbeitet. Erste Ergebnisse erscheinen vielversprechend. Es bedarf aber einer weiteren Prüfung und Verbesserung der Algorithmen, bevor sie als relevante Instrumente auf regelmäßiger Basis mit in Betracht gezogen werden können. Hier gibt es eine Reihe von Herausforderungen.

Abbildung 1: Lernknoten

Abbildung 1: Lernknoten

Funktionsweise neuronaler Netze

Künstliche neuronale Netze (Artificial Neural Networks, ANNs) gehören zu den ersten maschinell lernenden Algorithmen, die entwickelt wurden und versuchen, die Funktionsweise des menschlichen Gehirns (extrem vereinfacht) abzubilden. Dies wird erreicht indem sie eine oder mehrere Inputvariablen durch so genannte „Lernknoten“ laufen lassen, um einen Output zu berechnen (Nielsen, 2015). Eine der frühesten Arten dieser Lernknoten werden „Perceptrons“ genannt und wurden erstmals 1958 von Frank Rosenblatt vorgestellt. Während das ursprüngliche Perceptron nur in der Lage war, binäre Eingaben zu absorbieren, um eine einzige binäre Ausgabe zu erzeugen, ist das heute häufiger verwendete „Sigmoid-Neuron“ in der Lage, sowohl diskrete als auch kontinuierliche Ein- und Ausgaben zu verarbeiten. Die grundlegende Funktionsweise eines Lernknotens besteht darin, dass die bereitgestellten Inputs durch ein lineares oder (häufiger) nichtlineares Modell laufen, um eine gewünschte Output-Variable zu erzeugen. Die einfachste Darstellung eines Perceptrons ist in Abbildung 1 dargestellt, wobei die drei hypothetischen Eingangsgrößen x1, x2 und x3 berücksichtigt werden. Um den Output abzuleiten, führte Rosenblatt (1958) Gewichte ein, die die Bedeutung der Eingangsvariablen im Bestimmungsprozess des Outputs darstellen. Der Gesamtoutput des Perceptrons ist dann davon abhängig, ob die gewichtete Summe der Inputs einen Schwellenwert über- oder unterschreitet. Dieser Schwellenwert ist wiederum ein Parameter des Perceptrons (Nielsen, 2015).

Als praktisches Beispiel für ein neuronales Netz kann folgende Situation betrachtet werden: Wenn eine Kaufentscheidung für ein Produkt unsere Zielvariable darstellt, wäre eine Reihe von relevanten Inputvariablen denkbar. So sind beispielsweise Faktoren wie der Preis des Produkts, der Restbestand des Produkts zu Hause, die Konsumerfahrung, die dieses Produkt im Vergleich zu anderen bietet etc. relevante Faktoren oder Überlegungen für die vorliegende Kaufentscheidung (siehe Abbildung 2). Bei preisbewussteren Verbrauchern wird das Gewicht (oder die Bedeutung) der Inputvariable „Preis“ anders sein als für einen weniger preisbewussten Verbraucher. Dementsprechend können ebenso unterschiedliche Präferenzen hinsichtlich der anderen für die Kaufentscheidung relevanten Faktoren vorherrschen, was zu unterschiedlichen Gewichten (oder Bedeutungen) der jeweiligen Faktoren und ihrer Schwellenwerte führt. In der Realität ist der Prozess der Entscheidungsfindung oder jede Art von Input- und Output-Beziehung viel komplexer als das, was ein einziges Perceptron modellieren könnte. Ein ganzes Netzwerk von Perceptrons – ein sogenanntes neuronales Netz – stellt Entscheidungsprozesse aus dem wirklichen Leben realistischer dar. Menschliche neuronale Netze mit verschiedenen Wahrnehmungsschichten in einem ganzen System von Neuronen berechnen einen Output allerdings auf deutlich komplexere Weise.

Herausforderungen und Hürden

Trotz des enormen Potenzials algorithmischer Ansätze sind vor allem im makroökonomischen Kontext einige besondere Hürden vorhanden. Zunächst betrifft das die Datenverfügbarkeit und -frequenz, die üblicherweise bei makroökonomischen Daten vorliegt. Selbst wenn alle Daten verfügbar sind, liegen die amtlichen Statistiken zu den meisten makroökonomischen Variablen, zum Beispiel dem BIP, maximal auf Quartalsfrequenz vor. Dies begrenzt die für das algorithmische Verfahren nutzbaren Datenstichproben selbst bei einer Datenbank von 60 Jahren auf 240 Beobachtungen. Im Vergleich dazu werden im technologischen oder naturwissenschaftlichen Bereich normalerweise Hunderttausende oder sogar Millionen von Datenpunkten verwendet. Die geringe Menge an Beobachtungen in der Makroökonomik begrenzt somit die vollständige Entfaltung des Potenzials von Machine Learning Algorithmen in diesem Bereich von vornherein.

Abbildung 2: Faktoren einer Kaufentscheidung

Abbildung 2: Faktoren einer Kaufentscheidung

Zusätzlich besteht eine weitere Herausforderung des algorithmischen Ansatzes darin, dass Machine Learning-Algorithmen in Ermangelung eines vordefinierten Analysemodells nur eine begrenzte Erklärungskraft besitzen und daher nicht ohne Weiteres kausale Rückschlüsse zulassen. Diese sind jedoch für Ökonomen, die sich in der Wirtschaftspolitik engagieren, essentiell. Der Großteil der Konjunkturprognose und wirtschaftspolitischen Analyse wird daher vorerst weiter von Menschen auf Basis von Modellen erstellt werden müssen. Die aktuelle Forschung arbeitet jedoch bereits an den oben genannten Themen und es bleibt abzuwarten, ob das volle Potenzial von Machine Learning-Algorithmen auch für die Makroökonomik gehoben werden kann.

Mehr zum Thema

Literaturverzeichnis:

-Barto, Andrew G., and Thomas G. Dietterich, 2004, “Reinforcement learning and its relationship to supervised learning,” Handbook of Learning and Approximate Dynamic Programming, pp. 47–64.

-Biau, Olivier, and Angela D’Elia, 2010, “Euro Area GDP Forecasting Using Large Survey Datasets: A Random Forest Approach,” Euro indicators working papers

-Chakraborty, Chiranjit, and Andreas Joseph, 2017, “Machine learning at central banks,” Bank of England Staff Working Paper No. 674.

-Chuku, C., Oduor, J., and Simpasa, A., 2017, Intelligent forecasting of economic growth for African economies: Artificial neural networks versus time series and structural econometric models.

-Hastie, Trevor, Robert Tibshirani, and Jerome H. Friedman, 2004, The Elements of Statistical Learning.

-Jung, J.-K., Patnam, M., and Ter-Martirosyan, A., 2018, An Algorithmic Crystal Ball: Forecastsbased on Machine Learning. IMF Working Paper 18/230, pages 1–33.

-Nielsen, Michael, 2015, Neural Networks and Deep Learning.

-Rosenblatt, Frank, 1958, “The Perceptron: A Probablistic Model for Information Storage and Organization in the Brain,” Psychological Review, Vol. 65, No. 6, pp. 386–408.

-Tiffin, Andrew, 2016, “Seeing in the Dark: A Machine-Learning Approach to Nowcasting in Lebanon,” IMF Working Paper.

Illustration zum Thema  "Machine Learning für makroökonomische Prognosen"

© Dirk Schmidt

Kontakt:
Dr. Jin-Kyu Jung
Referat: Beobachtung, Analyse und Projektion der gesamtwirtschaftlichen Entwicklung
schlaglichter@bmwi.bund.de