首頁 > 科技週邊 > 人工智慧 > 巧解「數據稀缺」問題!清華開源GPD:用擴散模型產生神經網路參數

巧解「數據稀缺」問題!清華開源GPD:用擴散模型產生神經網路參數

WBOY
發布: 2024-03-18 21:31:22
轉載
914 人瀏覽過

傳統的時空預測模型通常需要大量資料支援才能達到良好效果。

然而,由於不同城市發展水平的差異和數據收集政策的不一致,許多地區的時空數據(例如交通和人群流動數據)受到了限制。因此,在資料稀缺的情況下,模型的可遷移性變得尤為重要。

目前的研究主要依靠來源城市的數據來訓練模型,並將其應用於目標城市的數據,但這種方法通常需要複雜的匹配設計。如何實現源城市和目標城市之間更廣泛的知識遷移仍然是一個具有挑戰性的問題。

最近,預訓練模型在自然語言處理和電腦視覺領域取得了重大進展。引入prompt(提示)技術縮小了微調和預訓練之間的差距,使得先進的預訓練模型能夠更快速地適應新的任務。這種方法的優點在於減少了對繁瑣微調的依賴,並提高了模型的效率和靈活性。透過prompt技術,模型可以更好地理解使用者的需求,並產生更準確的輸出,從而為人們提供更好的體驗和服務。這種創新性的方法正在推動人工智慧技術的發展,為各行業帶來了更多可能性和機會。

巧解「數據稀缺」問題!清華開源GPD:用擴散模型產生神經網路參數圖片

論文連結:https://openreview.net/forum?id=QyFm3D3Tzi

開源程式碼及資料:https ://m.sbmmt.com/link/6644cb08d30b2ca55c284344a9750c2e

最新發表在ICLR2024的清華大學電子工程系城市科學與計算研究中心的成果《Spatio-Temporal Few-Shot Learning 城市科學與計算研究中心的成果《Spatio-Temporal Few-Shot Learning 完成 Diffus Network》引入了GPD(Generative Pre-Trained Diffusion)模型,成功實現了在資料稀疏場景下的時空學習。

這種方法利用產生神經網路的參數,將時空稀疏資料學習轉換為擴散模型的生成式預訓練問題。與傳統方法不同,此方法不再需要提取可遷移特徵或設計複雜的模式匹配策略,也無需為少樣本場景學習一個良好的模型初始化。

相反,該方法透過在來源城市的資料上進行預訓練來學習有關神經網路參數優化的知識,然後根據提示生成適用於目標城市的神經網路模型。

此方法的創新之處在於能夠根據「prompt(提示)」產生客製化的神經網絡,有效地適應不同城市之間的資料分佈和特徵差異,實現巧妙的時空知識遷移。

研究為解決城市運算中資料稀缺性問題提供了新的思路。該論文的數據和程式碼都已開源。

從資料分佈到神經網路參數分佈

巧解「數據稀缺」問題!清華開源GPD:用擴散模型產生神經網路參數圖1:資料模式層面知識遷移vs.神經網路層面知識遷移

#如圖1(a)所示,傳統的知識遷移方法通常是在來源城市的資料上訓練模型,然後將其應用於目標城市。然而,不同城市之間的資料分佈可能存在顯著差異,這導致直接遷移來源城市模型可能無法很好地適應目標城市的資料分佈。

因此,我們需要擺脫對雜亂資料分佈的依賴,尋求更本質、更可遷移的知識共享方式。與資料分佈相比,神經網路參數的分佈更具有「高階」的特性。

圖 1 展示了從資料模式層面到神經網路層面知識遷移的轉變過程。透過在來源城市的資料上訓練神經網絡,並將其轉化為產生適應目標城市的神經網路參數的過程,可以更好地適應目標城市的資料分佈和特徵。

預訓練提示微調:實現時空少樣本學習

巧解「數據稀缺」問題!清華開源GPD:用擴散模型產生神經網路參數圖2 GPD模型概覽

如圖2所示,本研究提出的GPD是一種條件生成框架,旨在直接從來源城市的模型參數中學習,並為目標城市生成新的模型參數,該方法包括三個關鍵階段:

1. 神經網絡準備階段:首先,針對每個來源城市區域,研究訓練單獨的時空預測模型,並保存其最佳化後的網路參數。每個區域的模型參數都經過獨立優化,沒有參數共享,以確保模型能夠最大程度地適應各自區域的特徵。

2. 擴散模型預訓練:此框架使用收集到的預訓練模型參數作為訓練數據,訓練擴散模型來學習產生模型參數的過程。擴散模型透過逐步去雜訊來產生參數,這個過程類似於從隨機初始化開始的參數最佳化過程,因此能夠更好地適應目標城市的資料分佈。

3. 神經網路參數產生:在預訓練後,可以透過使用目標城市的區域提示來產生參數。這種方法利用提示促進了知識轉移和精確參數匹配,充分利用了城市間區域之間的相似性。

值得注意的是,在預訓練-提示微調的框架中,提示的選擇具有很高的靈活性,只要能夠捕捉特定區域的特徵即可。例如可以利用各種靜態特徵,如人口、區域面積、功能和興趣點(POI)的分佈等來實現這一目的。

這項工作從空間和時間兩個方面利用區域提示:空間提示來自於城市知識圖譜[1,2]中節點表徵,它僅利用區域鄰接性和功能相似性等關係,這些關係在所有城市中都很容易取得;時間提示來自於自監督學習模型的編碼器。更多關於提示設計的細節請參考原文。

此外,研究還探索了不同的提示引入方法,實驗驗證了基於先驗知識的提示引入具有最優性能:用空間提示引導建模空間關聯的神經網路參數生成,用時間提示引導時序神經網路參數產生。

實驗結果

團隊在論文中詳細描述了實驗設置,以幫助其他研究者復現其結果。他們還提供了原始論文和開源資料程式碼,我們在這裡關注其實驗結果。

為了評估所提框架的有效性,該研究在兩類經典的時空預測任務上進行了實驗:人群流動預測和交通速度預測,涵蓋了多個城市的資料集。

巧解「數據稀缺」問題!清華開源GPD:用擴散模型產生神經網路參數圖片

表1展示了在四個資料集上相對於最先進基準方法的比較結果。根據這些結果,可以得出以下觀察:

1)GPD相對於基準模型表現出顯著的效能優勢,在不同資料場景下一致表現優越,這表明GPD實現了有效的神經網路參數層面的知識遷移。

2)GPD在長期預測場景中表現出色,這一顯著趨勢可以歸因於該框架對於更本質知識的挖掘,有助於將長期時空模式知識遷移到目標城市。

巧解「數據稀缺」問題!清華開源GPD:用擴散模型產生神經網路參數图3 不同时空预测模型的性能对比

此外,该研究还验证了GPD框架对于不同时空预测模型适配的灵活性。除了经典的时空图方法STGCN外,该研究还引入了GWN和STID作为时空预测模型,并使用扩散模型生成其网络参数。

实验结果表明,框架的优越性不会受到模型选择的影响,因此可以适配各种先进的模型。

进一步地,该研究通过在两个合成数据集上操纵模式相似性进行案例分析。

图4展示了区域A和B具有高度相似的时间序列模式,而区域C展示了明显不同的模式。同时,图5显示节点A和B具有对称的空间位置。

因此,我们可以推断区域A和B具有非常相似的时空模式,而与C有着明显的差异。模型生成的神经网络参数分布结果显示,A和B的参数分布相似,而与C的参数分布有显著差异。这进一步验证了GPD框架在有效生成具有多样化时空模式的神经网络参数的能力。

巧解「數據稀缺」問題!清華開源GPD:用擴散模型產生神經網路參數

图 4 不同区域的时间序列及神经网络参数分布可视化

巧解「數據稀缺」問題!清華開源GPD:用擴散模型產生神經網路參數

图 5 仿真数据集区域空间连接关系

参考资料:

//m.sbmmt.com/link/6644cb08d30b2ca55c284344a9750c2e

[1] Liu, Yu, et al. "Urbankg: An urban knowledge graph system." ACM Transactions on Intelligent Systems and Technology 14.4 (2023): 1-25.

[2] Zhou, Zhilun, et al. "Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-based social network." Proceedings of the ACM Web Conference 2023. 2023.

以上是巧解「數據稀缺」問題!清華開源GPD:用擴散模型產生神經網路參數的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板