在一般意義上,持續學習明顯受到災難性遺忘的限制,學習新任務通常會導致舊任務的表現急劇下降。
除此之外,近年來出現了越來越多的進展,在很大程度上擴展了持續學習的理解和應用。
人們對這一方向日益增長和廣泛的興趣表明了它的現實意義和複雜性。
#論文網址:#//m.sbmmt.com/link/82039d16dce0aab3913b6a7ac73deff7
#本文對持續學習進行了全面的研究,試圖在基本設定、理論基礎、代表性方法和實際應用之間建立聯繫。
基於現有的理論和實證結果,將持續學習的一般目標總結為:在資源效率的背景下,確保適當的穩定性-可塑性權衡,以及充分的任務內/任務間泛化能力。
提供了最先進的和詳細的分類法,廣泛分析了有代表性的策略如何解決持續學習,以及它們如何適應各種應用中的特定挑戰。
透過對持續學習當前趨勢、跨方向前景和與神經科學的跨學科聯繫的深入討論,相信這種整體的視角可以極大地促進該領域和其他領域的後續探索。
學習是智慧系統適應環境的基礎。為了因應外在的變化,演化使人類和其他生物具有很強的適應性,能夠不斷地獲取、更新、累積和利用知識[148]、[227]、[322]。自然,我們期望人工智慧(AI)系統以類似的方式適應。這激發了持續學習的研究,其中典型的設定是逐一學習一系列內容,並表現得就像同時觀察到的一樣(圖1,a)。這些內容可以是新技能、舊技能的新範例、不同的環境、不同的背景等,並包含特定的現實挑戰[322],[413]。由於內容是在一生中逐步提供的,因此因此在許多文獻中,持續學習也被稱為增量學習或終身學習,但沒有嚴格的區分[70],[227]。
與傳統的基於靜態資料分佈的機器學習模型不同,持續學習的特徵是從動態資料分佈中學習。 一個主要的挑戰被稱為災難性遺忘[291],[292],對新分佈的適應通常會導致捕獲舊分佈的能力大大降低。 這種困境是學習可塑性和記憶穩定性權衡的一個面向:前者過多會幹擾後者,反之亦然。除了簡單地平衡這兩方面的「比例」外,持續學習的理想解決方案應該獲得強大的泛化能力,以適應任務內部和任務之間的分佈差異(圖1,b)。作為一個樸素的基線,重新訓練所有舊的訓練樣本(如果允許)可以輕鬆解決上述挑戰,但會產生巨大的計算和存儲開銷(以及潛在的隱私問題)。事實上,持續學習的主要目的是確保模型更新的資源效率,最好接近只學習新的訓練樣本。
許多努力致力於解決上述挑戰,可以在概念上分為五組(圖1,c):參考舊模型添加正則化項(基於正則化的方法);逼近和恢復舊資料分佈(基於回放的方法);顯式操作優化程序(基於優化的方法);學習魯棒和良好泛化的表示(基於表示的方法);以及使用正確設計的體系結構構建任務自適應參數(基於體系結構的方法)。此分類法擴展了常用分類法的最新進展,並為每個類別提供了細化的子方向。總結了這些方法是如何實現所提出的一般目標的,並對其理論基礎和典型實現進行了廣泛的分析。特別是,這些方法是緊密聯繫的,例如正則化和重播最終糾正優化中的梯度方向,並且具有高度的協同性,例如,重播的效果可以透過從舊模型中提取知識來提高。
現實應用對持續學習提出了特殊的挑戰,可以分為場景複雜性和任務特異性。對於前者,例如,在訓練和測試中可能缺少任務oracle(即執行哪個任務),訓練樣本可能是小批量甚至一次引入的。由於資料標記的成本和稀缺性,持續學習需要在少樣本、半監督甚至無監督的場景中有效。對於後者,雖然目前的進展主要集中在視覺分類,但其他視覺領域(如目標檢測、語義分割和圖像生成)以及其他相關領域(如強化學習(RL)、自然語言處理(NLP)和倫理考慮)正在受到越來越多的關注,其機會和挑戰。
考慮到持續學習的興趣顯著增長,我們相信這項最新和全面的研究可以為後續的工作提供一個整體的視角。 儘管有一些關於持續學習的早期調查,覆蓋面相對較廣[70],[322],但近年來的重要進展並未被納入其中。相較之下,最新的研究通常只整理持續學習的局部方面,關於其生物學基礎[148],[156],[186],[227],視覺分類的專門設定[85],[283] ,[289],[346],以及NLP[37],[206]或RL[214]中的擴展。據我們所知,這是第一個系統總結持續學習的最新進展的研究。基於這些優勢,我們就當前趨勢、跨方向前景(如擴散模型、大規模預訓練、視覺轉換器、具體AI、神經壓縮等)以及與神經科學的跨學科聯繫,深入討論了持續學習。
主要貢獻包括:
#(1) 對持續學習進行了最新而全面的綜述,以連接理論、方法和應用的進步;
(2) 根據現有的理論和實證結果,總結了持續學習的一般目標,並對具有代表性的策略進行了詳細的分類;
(3) 將現實應用的特殊挑戰分為場景複雜性和任務特殊性,並廣泛分析了持續學習策略如何適應這些挑戰;
#(4)深入探討了當前研究趨勢和發展方向,以期為相關領域後續工作提供參考。
本文的組織如下:在第2節中,我們介紹了持續學習的設置,包括其基本公式,典型場景和評估指標。在第3節中,我們總結了一些針對其一般目標的持續學習的理論努力。在第4節中,我們對代表性的策略進行了最新的和詳細的分類,分析了它們的動機和典型的實現。在第5節和第6節中,我們描述了這些策略如何適應場景複雜性和任務特異性的現實挑戰。在第7節中,我們提供了當前趨勢的討論,交叉方向的前景和神經科學的跨學科連結。
在本節中,我們詳細介紹了代表性持續學習方法的分類(參見圖3和圖1 ,c),並廣泛分析了它們的主要動機、典型實現和經驗屬性。
Regularization-based 方法
#該方向的特徵是添加顯式正則項來平衡新舊任務,這通常需要儲存舊模型的凍結副本以供參考(見圖4)。根據正規化的目標,這類方法可以分為兩類。
Replay-based 方法
##將近似和恢復舊資料分佈的方法分組到這個方向(見圖5)。根據回放的內容,這些方法可以進一步分為三個子方向,每個子方向都有自己的挑戰。
Optimization-based 方法
持續學習不僅可以透過向損失函數添加額外的項(例如正則化和重播)來實現,還可以透過明確地設計和操作最佳化程序來實現。
#Representation-based 方法
將創建和利用持續學習表示優勢的方法歸為這一類。除了早期透過元訓練[185]獲得稀疏表示的工作外,最近的工作試圖結合自監督學習(SSL)[125]、[281]、[335]和大規模預訓練[295]、[380]、 [456]的優勢,以改善初始化和持續學習中的表示。請注意,這兩種策略密切相關,因為預訓練資料通常數量龐大且沒有明確的標籤,而SSL本身的表現主要透過對(一系列)下游任務進行微調來評估。下面,我們將討論具有代表性的子方向。
#Architecture-based 方法
#Architecture-based 方法
上述策略主要集中在學習所有具有共享參數集的增量任務(即單一模型和一個參數空間),這是導致任務間幹擾的主要原因。相反,建構特定於任務的參數可以明確地解決這個問題。過去的工作通常根據網路體系結構是否固定,將此方向分為參數隔離和動態體系結構。本文專注於實現特定任務參數的方式,將上述概念擴展到參數分配、模型分解和模組化網路(圖8)。
################以上是清華最新「持續學習」綜述,32頁詳述持續學習理論、方法與應用綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章!