Was ist gru?
GRU (Gated Recurrent Unit)
Die Gated Recurrent Unit (GRU) ist eine Art rekurrentes neuronales Netzwerk (RNN). Sie wurde 2014 von Kyunghyun Cho et al. vorgestellt und stellt eine Vereinfachung des Long Short-Term Memory (LSTM) Netzwerks dar. GRUs sind wie LSTMs dazu gedacht, das Verschwinden des Gradientenproblems zu beheben, das in traditionellen RNNs auftritt, wenn lange Sequenzen verarbeitet werden. Sie erreichen dies, indem sie Gattermechanismen verwenden, die steuern, wie Informationen innerhalb des Netzwerks fließen.
Hauptkomponenten der GRU:
- Update Gate (z<sub>t</sub>): Dieser Gate bestimmt, wie viel der vorherige Zustand (h<sub>t-1</sub>) in den aktuellen Zustand (h<sub>t</sub>) übernommen wird. Ein Wert nahe 1 bedeutet, dass der vorherige Zustand stark beibehalten wird. Siehe auch: Update%20Gate
- Reset Gate (r<sub>t</sub>): Dieser Gate bestimmt, wie viel des vorherigen Zustands (h<sub>t-1</sub>) beim Berechnen des Kandidatenzustands (h̃<sub>t</sub>) berücksichtigt wird. Ein Wert nahe 0 bedeutet, dass der vorherige Zustand ignoriert wird. Siehe auch: Reset%20Gate
- Kandidatenzustand (h̃<sub>t</sub>): Dies ist ein vorgeschlagener neuer Zustand, der auf der aktuellen Eingabe (x<sub>t</sub>) und dem gefilterten vorherigen Zustand basiert. Siehe auch: Kandidatenzustand
- Aktueller Zustand (h<sub>t</sub>): Dies ist der tatsächliche Zustand des GRU-Netzwerks zum Zeitpunkt t, der eine Kombination aus dem vorherigen Zustand und dem Kandidatenzustand ist. Siehe auch: Aktueller%20Zustand
Funktionsweise:
Die GRU berechnet ihren Zustand h<sub>t</sub> unter Verwendung der folgenden Gleichungen:
- z<sub>t</sub> = σ(W<sub>z</sub>x<sub>t</sub> + U<sub>z</sub>h<sub>t-1</sub>)
- r<sub>t</sub> = σ(W<sub>r</sub>x<sub>t</sub> + U<sub>r</sub>h<sub>t-1</sub>)
- h̃<sub>t</sub> = tanh(W x<sub>t</sub> + U (r<sub>t</sub> ⊙ h<sub>t-1</sub>))
- h<sub>t</sub> = (1 - z<sub>t</sub>) ⊙ h<sub>t-1</sub> + z<sub>t</sub> ⊙ h̃<sub>t</sub>
Dabei gilt:
- σ ist die Sigmoid-Funktion.
- tanh ist die Hyperbel-Tangens-Funktion.
- W und U sind Gewichtsmatrizen.
- ⊙ bezeichnet die elementweise Multiplikation.
Vorteile gegenüber LSTMs:
- Weniger Parameter: GRUs haben weniger Parameter als LSTMs, was zu schnellerem Training und weniger Risiko von Overfitting führen kann.
- Einfachere Struktur: Die einfachere Struktur kann in einigen Fällen leichter zu verstehen und zu implementieren sein.
Nachteile gegenüber LSTMs:
- Weniger Ausdrucksstark: Die vereinfachte Struktur kann dazu führen, dass GRUs weniger ausdrucksstark sind als LSTMs und in einigen Fällen eine geringere Leistung erzielen.
Anwendungen:
GRUs werden in einer Vielzahl von Anwendungen eingesetzt, darunter: