Gradientenabstieg (engl. gradient descent): Einfachstes und für neuronale Netze am meisten verwendetes Verfahren zum überwachten Lernen. Die Gewichte im Lernschritt berechnen sich jeweils aus den Gewichten im Lernschritt n.
Dazu werden dem Netz nacheinander alle zu lernenden Eingabe-Muster
angeboten und die jeweiligen Ausgaben entsprechend der Objektfunktion
bewertet.
Zu einem Satz von Gewichten ergibt sich im Lernschritt n ein
bestimmter Wert der Objektfunktion .
Da der Gradient die Richtung des
stärksten Anstiegs der Objektfunktion angibt, verändert man die Gewichte
in kleinen Schritten in entgegengesetzter Richtung.
Die Größe der Schritte wird durch die Lernrate
festgelegt.
Für die Veränderung eines Gewichtes
gilt demnach jeweils:
( ist die entsprechende Komponente des Gradienten.)
Jeder Durchlauf durch den Satz zu lernender Muster bildet einen Lernzyklus.
Der Lernvorgang wird beendet, wenn sich der Wert der Objektfunktion nicht mehr deutlich verringert oder wenn die Aufgabenstellung mit der geforderten Genauigkeit gelöst wird.
Jedes der möglicherweise zahlreichen Minima der Objektfunktion hat
einen Einzugsbereich, in dem der Gradientenabstieg
auf die entsprechenden Werte für die Gewichte zustrebt.
Oft existiert jedoch nur ein globales Minimum,
das sich durch die beste Ausgabe-Qualität auszeichnet.
Der Gradientenabstieg kann sich in einem
lokalen Minimum verfangen,
das einen höheren Wert der
Objektfunktion aufweist, als das gesuchte globale Minimum
oder Optimum. Einfachste Abhilfe ist (notfalls wiederholter)
Neustart des Lernens mit veränderten Anfangsgewichten.
Veranschaulichung des Gradientenabstiegs
Während des Gradientenabstiegs können, weil man die
Schrittweite nicht beliebig fein wählen kann, zum Teil große
Sprünge in der Objektfunktion auftreten, auch zu höheren Werten.