Mamba ist eines der beliebtesten Modelle der letzten Zeit und wird von der Branche als das Potenzial angesehen, Transformer zu ersetzen. Der heute vorgestellte Artikel untersucht, ob das Mamba-Modell bei Zeitreihenvorhersageaufgaben effektiv ist. In diesem Artikel werden zunächst die Grundprinzipien von Mamba vorgestellt und anschließend untersucht, ob Mamba in Zeitreihenvorhersageszenarien effektiv ist. Das Mamba-Modell ist ein Deep-Learning-basiertes Modell, das eine autoregressive Architektur verwendet, um langfristige Abhängigkeiten in Zeitreihendaten zu erfassen. Im Vergleich zu herkömmlichen Modellen schneidet das Mamba-Modell bei Zeitreihenvorhersageaufgaben gut ab. Durch Experimente und vergleichende Analysen stellt dieser Artikel fest, dass das Mamba-Modell bei Zeitreihenvorhersageaufgaben gute Ergebnisse liefert. Es kann zukünftige Zeitreihenwerte genau vorhersagen und langfristige Abhängigkeiten besser erfassen. Zusammenfassung
Paper Titel: Ist Mamba für die Zeitreihenprognose wirksam? Art Basiert auf der Struktur des State Space Model, ist aber RNN sehr ähnlich. Im Vergleich zu Transformer weist Mamba eine zeitliche Komplexität auf, die sowohl in der Trainingsphase als auch in der Inferenzphase linear mit der Sequenzlänge zunimmt, und die Recheneffizienz hängt von der Struktur von Transformer ab.
Der Kern von Mamba kann in die folgenden 4 Teile unterteilt werden:State Space Model (SSM) ist ein mathematisches Modell, das verwendet wird, um die Auswirkung eines Zustands auf den aktuellen Zustand und die Auswirkung des aktuellen Zustands auf die Ausgabe zu beschreiben. Im Zustandsraummodell wird davon ausgegangen, dass die Eingaben aus dem vorherigen Zustand und dem aktuellen Moment den nächsten Zustand beeinflussen und die Auswirkungen des aktuellen Zustands auf die Ausgabe. SSM kann in der folgenden Form ausgedrückt werden, wobei die Matrizen A, B, C und D Hyperparameter sind. Matrix A stellt die Auswirkung des vorherigen Zustands auf den aktuellen Zustand dar; Matrix B gibt an, dass die Eingabe zum aktuellen Zeitpunkt den nächsten Zustand beeinflusst; Matrix C stellt die Auswirkung des aktuellen Status auf die Ausgabe dar; Die Matrix D stellt den direkten Einfluss des Inputs auf den Output dar. Durch Beobachtung der aktuellen Ausgabe und Eingabe zum aktuellen Zeitpunkt kann auf den Wert des nächsten Zustands geschlossen werden. Sie wird auf Basis der aktuellen Beobachtungsergebnisse und des damaligen Zustandes ermittelt. SSM kann in Bereichen wie dynamischer Systemmodellierung, Zustandsschätzung und Steuerungsanwendungen eingesetzt werden.
Bild
Faltungsausdruck: Verwenden Sie die Faltung zur Darstellung von SSM, um gleichzeitige Berechnungen in der Trainingsphase zu realisieren, indem Sie die Berechnungsausgabeformel in SSM entsprechend der Zeit erweitern und den entsprechenden Faltungskern auf eine bestimmte Form entwerfen Verwenden Sie die Faltung, um die Ausgabe jedes Moments als Funktion der Ausgabe der vorherigen drei Momente auszudrücken:Bilder
Hippo-Matrix: Für Parameter A wird die Hippo-Matrix eingeführt, um die Dämpfungsfusion historischer Informationen zu realisieren ;Bild
Selektives Modul: Realisieren Sie für die personalisierte Matrix von Parameter B und Parameter C die personalisierte Auswahl historischer Informationen, konvertieren Sie die Parametermatrix zu jedem Zeitpunkt in eine Funktion über die Eingabe und realisieren Sie die personalisierten Parameter in jedem Moment.Bilder
Detailliertere Modellanalysen zu Mamba sowie nachfolgende Arbeiten im Zusammenhang mit Mamba wurden ebenfalls auf Knowledge Planet aktualisiert. Interessierte Schüler können tiefer in den Planeten eintauchen. 2. Mamba-ZeitreihenmodellIm Folgenden wird das in diesem Artikel vorgeschlagene Mamba-Zeitreihenvorhersage-Framework vorgestellt, das auf Mamba zur Anpassung von Zeitreihendaten basiert. Das Ganze ist in drei Teile unterteilt: Einbettung, S/D-Mamba-Schicht und Norm-FFN-Norm-Schicht.Einbettung: Ähnlich wie bei der iTransformer-Verarbeitungsmethode wird jede Variable separat zugeordnet, die Einbettung jeder Variablen generiert und dann die Einbettung jeder Variablen in die nachfolgende Mamba eingegeben. Daher kann dieser Artikel auch als eine Modifikation der Modellstruktur von iTransformer betrachtet werden, die in die Mamba-Struktur geändert wird Eingabe in Mamba: Der Artikel untersucht zwei Mamba-Ebenen, S und D, die jeweils angeben, ob jede Ebene eine Mamba oder zwei Mambas verwendet. Die beiden Mambas addieren die Ausgabe der beiden, um das Ausgabeergebnis jeder Ebene zu erhalten -FFN-Normschicht: Verwenden Sie in der Ausgabeschicht die Normalisierungsschicht und die FFN-Schicht, um die Ausgabedarstellung von Mamba zu normalisieren und abzubilden, und kombinieren Sie sie mit dem Restnetzwerk, um die Modellkonvergenz und -stabilität zu verbessern.
Bilder
Das folgende Bild ist das zentrale experimentelle Ergebnis des Artikels, der die Auswirkungen von Mamba mit iTransformer, PatchTST und anderen gängigen Zeitreihenmodellen in der Branche vergleicht. Der Artikel führt auch experimentelle Vergleiche zu verschiedenen Vorhersagefenstern, Generalisierungseigenschaften usw. durch. Experimente zeigen, dass Mamba nicht nur Vorteile bei den Rechenressourcen bietet, sondern hinsichtlich der Modellwirkung auch mit Transformer-bezogenen Modellen vergleichbar ist und auch bei der Langzeitmodellierung vielversprechend ist.
Bilder
Das obige ist der detaillierte Inhalt vonIst Mamba mit Transformer vergleichbar und wirkt sich auf Zeitreihen aus?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!