Untersuchungen zur HESSE-Matrix in Feedforward-Netzen

Jörg Wille

Brandenburgische Technische Universität Cottbus


Das Adaptionsproblem für Feedforward-Netze stellt ein allgemeines Approximationsproblem mit speziellen Forderungen an die Klasse der approximierenden Funktionen dar, welche sich aus der Netztopologie ergeben. Diese Funktionen entstehen als -- ggf. mehrfache -- Komposition von Integrations- und nichtlinearer Aktivierungsfunktion. Zu den theoretischen Aussagen hierzu sei insbesondere auf die Arbeiten von Kurkova und Funahashi verwiesen. Unter diesen Voraussetzungen gelingt es nun unter Ausnutzung der Eigenschaften des Backpropagation-Ansatzes, effiziente Verfahren mit Gradienteninformation zu konstruieren. Speziell wurden Gradientenverfahren mit effizienten Schrittweiten und modifizierte Verfahren konjugierter Gradienten, die auch für allgemeine nichtlineare Funktionen wie die Fehlerfunktion einen Abstieg garantieren, entwickelt. Es stellt sich nunmehr die Frage: Inwieweit ist es unter Berücksichtigung von Komplexitätsbeschränkungen möglich, effiziente Verfahren unter Verwendung von Informationen zweiter Ordnung zu konstruieren? Ausgangspunkt für die Beantwortung dieser Frage ist eine Analyse der Struktur der Hesse-Matrix eines mittels Backpropagation-Verfahrens zu trainierenden Feedforward-Netzes. Es werden Möglichkeiten der Modifikation des Lernverfahrens gesucht, die nicht die vollständige Berechnung aller Elemente der Hesse-Matrix erfordern. Zum einen gelingt dies durch eine Reduzierung der Dimension der Hesse-Matrix, indem ein mehrstufiger Algorithmus zum entkoppelten Lernen der einzelnen Gewichtsmatrizen (also nur der Gewichte zwischen genau zwei benachbarten Schichten) angegeben wird. Dieses Verfahren ist von solch allgemeinem Charakter, daß es auch unabhängig von Informationen zweiter Ordnung auf Verfahren z.B. ausschließlich mit Gradienteninformation angewandt werden kann. Zum anderen werden Möglichkeiten der Approximation der entstehenden Hesse-Matrizen untersucht, die zu numerisch wünschenswerten Eigenschaften wie Regularität oder positiver Definitheit führen, welche für die Stabilität von Verfahren mit Informationen zweiter Ordnung unerläßlich sind.


Zurück zur Hompage der Cowan!