Forschungsbericht 2020 - Max-Planck-Institut für Mathematik in den Naturwissenschaften

Deep Learning Theorie

Autoren
Montúfar, Guido
Abteilungen
Max-Planck-Institut für Mathematik in den Naturwissenschaften, Leipzig
Zusammenfassung
Deep Learning ist eine erfolgreiche Methode des maschinellen Lernens. Wir entwickeln eine mathematische Theorie, die dazu beiträgt, dass Deep Learning breiter anwendbar, effizienter, interpretierbarer, sicherer und zuverlässiger wird. Konkret untersuchen wir das Zusammenspiel zwischen a) der Darstellungskraft künstlicher neuronaler Netze als parametrische Sätze von Hypothesen, b) den Eigenschaften und Konsequenzen der Parameteroptimierungsverfahren, welche zur Auswahl einer auf Daten basierenden Hypothese verwendet werden und c) der Leistung trainierter Netze zur Testzeit auf neue Daten.

Deep Learning bezeichnet Techniken des maschinellen Lernens, die auf künstlichen neuronalen Netzen basieren [1]. Deep Learning hat einen enormen Einfluss auf vielfältige Bereiche der Wissenschaft, Technologie und des alltäglichen Lebens. Wir haben jedoch erst begonnen, eine mathematische Theorie des Deep Learnings zu entwickeln. Die Entwicklung einer derartigen Theorie stellt eine Herausforderung dar, denn sie muss das komplexe Zusammenspiel von mindestens drei relevanten Aspekten berücksichtigen: Repräsentation, Optimierung und Generalisierung (siehe Abb. 1). Die Quantifizierung dieser Beziehungen ist entscheidend, um den erstaunlichen Erfolg von Deep-Learning-Methoden in der Praxis zu verstehen und sie in Bezug auf Effizienz, Sicherheit, Robustheit, Interpretierbarkeit und Garantien weiter zu verbessern.

Neuronale Netze stellen eine spezifische Parametrisierung für einen bestimmten Satz von Hypothesen bereit. Das Training zielt darauf ab, basierend auf gegebenen Trainingsbeispielen eine gute Hypothese zu identifizieren. Hierzu werden die Parameter typischerweise zufällig initialisiert und eine Folge lokaler Anpassungen durchgeführt. Diese dienen dazu, den Anpassungsfehler bei den Trainingsbeispielen zu minimieren, sodass die generierte Hypothese nach Möglichkeit auch das allgemeine Verhalten erfasst. In der Praxis werden neuronale Netze überparametrisiert. Das heißt, sie weisen viele Parameter in Bezug auf die Anzahl der Trainingsbeispiele auf, sodass die Beziehung zwischen Trainingsdaten und trainierten Parameterwerten a priori nicht eins zu eins ist. Während das Anpassungsziel durch einen expliziten Regularisierer ergänzt werden kann, stellt das Trainingsverfahren selbst auch eine signifikante Quelle für Verzerrungen dar. Aus den vielen Hypothesen, die zu den Trainingsdaten passen und die sich prinzipiell durch das Netzwerk darstellen lassen, wählt das Optimierungsverfahren eine aus, die sich durch zusätzliche Eigenschaften auszeichnet. Natürlich haben die Initialisierungsstrategie, die Geometrie des Parameterraums, die Korrespondenz zwischen Parametern und Hypothesen sowie die Geometrie des Satzes von Hypothesen einen starken Einfluss auf die Arten von Lösungen, die durch ein lokales Optimierungsverfahren ausgegeben werden können. Diese Effekte auf mathematischer Ebene zu verstehen, stellt eine zentrale Herausforderung bei der Entwicklung einer Theorie des Deep Learnings dar.

Darstellungskraft neuronaler Netze

Ein vielversprechender Ansatz zur Charakterisierung der durch neuronale Netze dargestellten Funktionsklassen besteht in ihren kombinatorischen Merkmalen (siehe Abb. 2). In [2] erhielten wir eine der ersten Demonstrationen exponentieller Unterschieden zwischen tiefen und flachen Netzen mit stückweise linearen Aktivierungsfunktionen. Diese Art von Ergebnissen ist letzten Jahren auf großes Interesse gestoßen. Sie sind insbesondere relevant für laufende Untersuchungen zu Initialisierungsstrategien, Robustheit gegenüber Angriffen [auf Rechner oder Netzwerke von außerhalb], impliziter Verzerrung und Stabilität des neuronalen Tangentenkerns. In verschiedenen Arbeiten [3], insbesondere in jüngster Zeit in Kooperation mit T. Merkh, haben wir auch Methoden zur Untersuchung stochastischer neuronaler Netze entwickelt. Derartige Modelle haben maßgeblich zur Entwicklung des modernen Deep Learnings beigetragen und gewinnen zunehmend an Bedeutung für Untersuchungen von impliziten Funktionsrepräsentationen und Optimierungslandschaften. Die von uns entwickelten kombinatorischen und algebraischen Perspektiven sind besonders vielversprechend für die Untersuchung von mäßig überparametrisierten Netzwerken und dem adaptiven Setting (bei dem sich Parameter während des Trainings erheblich von ihren Anfangswerten entfernen können), die zentrale Herausforderungen in der Deep-Learning-Theorie darstellen.

Optimierungstheorie für das Training mit Gewichtsnormalisierung

In der Praxis verwendet man häufig Varianten des einfachen Gradientenabstiegs zum Lernen, welche die Konvergenzgeschwindigkeit wesentlich erhöhen und Lösungen mit besserer Generalisierungsleistung ermöglichen können. Ein prominentes Beispiel ist die Gewichtsnormalisierung, bei der die Parametrisierung des Netzwerks durch Trennen der Größe und Richtung der Gewichte geändert wird. In [4] lieferten wir die erste Analyse und den Konvergenznachweis für eine wichtige Art von neuronalen Netzen, die mit Gewichtsnormalisierung trainiert werden. Die Gewichtsnormalisierung bewirkt eine Aufteilung des neuronalen Tangentenkerns; das führt zu unterschiedlichen Konvergenzraten. Darüber hinaus konnten wir den Grad der Überparametrisierung erheblich reduzieren, welcher in anderen Arbeiten noch erforderlich war, um die Konvergenz nachzuweisen.

Explizite Beschreibung der Verzerrungen des Gradientenabstiegstrainings

Eines unserer Projekte zielt darauf ab, die durch die Gradientenoptimierung eingeführte Verzerrung zu beschreiben. Hierzu ist uns in Kooperation mit H. Jin eine explizite Beschreibung für die mittlere quadratische Fehlerregression mit multivariaten ReLU-Netzen gelungen. Die Gradientenabstiegsoptimierung konvergiert zu einer Funktion, die zu den Trainingsdaten passt und gleichzeitig die geringste räumlich gewichtete Krümmung relativ zur Funktion bei der Initialisierung aufweist. Die Krümmungsstraff-Funktion hängt hierbei explizit von der Wahrscheinlichkeitsverteilung ab, die zur Initialisierung der Parameter verwendet wird. Ferner zeigt es, dass der Raum der möglichen Lösungen eine Dimension hat, welche an die Anzahl der Trainingsdatenpunkte angepasst ist, selbst wenn das Netzwerk eine deutlich höhere Anzahl an Parametern besitzt. Gleichzeitig ermöglicht uns die Methode, den Trainingsverlauf in Form einer Folge von Glättungssplines zu beschreiben.

Derartige Erkenntnisse sind relevant für Methoden wie dem frühen Stoppen sowie laufenden Untersuchungen zu spektralen Verzerrungen. Derzeit arbeiten wir an wichtigen offenen Generalisierungen, insbesondere an tiefen Netzwerken im adaptiven Regime.

Förderung: Das Projekt Deep Learning Theory wird vom Europäischen Forschungsrat (ERC) im Rahmen des Horizon 2020 Programms finanziert (agreement no 757983).

1.
Y. LeCun, Y. Bengio, and G. Hinton
Deep learning
Nature, Volume 521,  Number 7553,  Pages 436–444, 2015.
2.
G. Montúfar, R. Pascanu, K. Cho, and Y. Bengio
On the number of linear regions of deep neural networks
In Advances in Neural Information Processing Systems 27, pages 2924–2932, 2014.
3.
G. Montúfar
Restricted Boltzmann machines: Introduction and review
In Information geometry and its applications: On the Occasion of Shun-ichi Amari’s 80th Birthday, Liblice, Czech Republic, June 2016. Springer, Berlin, 2018.
4.
Y. Dukler, Q. Gu, and G. Montúfar
Optimization theory for ReLU neural networks trained with normalization layers
In Proceedings of the 37th International Conference on Machine Learning. 2020.

Abb. 1: Eine mathematische Theorie des Deep Learnings zielt darauf ab, die Beziehungen zwischen drei Schlüsselelementen beim Lernen mit neuronalen Netzen zu quantifizieren: a) Die Darstellungskraft und die Approximationsfehler künstlicher neuronaler Netze als parametrische Sätze von Hypothesen, b) die Eigenschaften und Konsequenzen der Trainingsmethoden oder Optimierungsverfahren, die verwendet werden, um eine Hypothese basierend auf Trainingsdaten auszuwählen und c) die Leistung der trainierten neuronalen Netze zur Testzeit auf neuen Daten, das heißt ihre Generalisierungsleistung.

Esc