九章雲極DataCanvas多模態大模型平台的實踐與思考

王林
發布: 2023-10-20 08:45:01
轉載
1099 人瀏覽過

九章雲極DataCanvas多模態大模型平台的實踐與思考

一、多模態大模型的歷史發展

九章雲極DataCanvas多模態大模型平台的實踐與思考

上圖這張照片是1956 年在美國達特茅斯學院舉行的第一屆人工智慧workshop,這次會議也被認為拉開了人工智慧的序幕,與會者主要是符號邏輯學屆的前驅(除了前排中間的神經生物學家Peter Milner)。

然而這套符號邏輯學理論在隨後的很長一段時間內都無法實現,甚至到 80 年代90年代還迎來了第一次AI寒冬期。直到最近大語言模型的落地,我們才發現真正承載這個邏輯思維的是神經網絡,神經生物學家Peter Milner的工作激發了後來人工神經網絡的發展,也正因為此他被邀請參加了這個學術研討會。

九章雲極DataCanvas多模態大模型平台的實踐與思考

2012年,Tesla自動駕駛主管Andrew在部落格上發布了上面這張圖,顯示當時美國總統歐巴馬和自己的下屬開玩笑。要讓人工智慧去理解這張圖,不僅是一個視覺感知任務,因為除了要辨識物體,還需要理解他們之間的關係;只有知道體重計的物理原理,才能知道圖裡所描述的故事:歐巴馬踩了秤,導致體重計上的人體重升高,他因此做出了這個奇怪的表情,同時其他人在一旁笑。這樣的邏輯思維顯然已經超越了純粹的視覺感知範疇,因此必須將視覺認知和邏輯思維結合在一起,才能擺脫「人工智障」的尷尬,而多模態大模型的重要性和困難性也體現在這裡。

九章雲極DataCanvas多模態大模型平台的實踐與思考

上圖是人類大腦的解剖結構圖,圖中的語言邏輯區對應的就是大語言模型,而其他的區域則分別對應不同的感官,包括視覺、聽覺、觸覺、運動、記憶等等。雖然人工神經網路並不是真正意義上的腦神經網絡,但還是可以從中受到一些啟發,即構造大模型的時候,可以將不同的功能聯合在一起,這也是多模態模型構建的基本思想。

1、多模態大模型可以做什麼?

九章雲極DataCanvas多模態大模型平台的實踐與思考

多模態大模型可以為我們做很多事情,例如視訊理解,大模型可以幫我們總結影片的摘要以及關鍵訊息,從而節省我們看影片的時間;大模型還可以幫助我們進行影片的後期分析,例如節目分類、節目收視率統計等;此外,文生圖也是多模態大模型的一個重要的應用領域。

而大模型如果和人的運動,或者機器人的運動聯合在一起,就會產生一個具身智能體,就像人一樣,基於過往經驗規劃最佳路徑的方法,並應用到全新的場景中,解決一些先前沒有遇見過的問題,同時規避風險;甚至可以在執行過程中修改原有計劃,直到最後獲得成功。這也是一個具有廣泛前景的應用場景。

2、多模態大模型

九章雲極DataCanvas多模態大模型平台的實踐與思考

#上圖是多模態大模型在發展過程中的一些重要節點:

  • 2020年的ViT模型(Vision Transformer)是大模型的開端,首次將Transformer架構用到除語言和邏輯處理外的其它類型資料(視覺資料),並且顯示了良好的泛化能力;
  • 隨後透過OpenAI開源的CLIP模型,再次證明了透過ViT和大語言模型的使用,視覺任務實現了很強的長尾泛化能力,即透過常識推測先前沒有見過的類別
  • #到了2023年,各式各樣的多模態大模型逐漸顯現,從PaLM-E(機器人),到whisper(語音辨識),再到ImageBind(影像對齊),再到Sam(語意分割),最後到地理影像;還包括微軟的統一多模態架構Kosmos2 ,多模態大模型發展迅速。
  • 特斯拉在6月的CVPR也提出了通用世界模型這樣的願景。

從上圖可以看出,短短半年時間,大模型就發生了非常多的變化,其迭代速度是非常快的。

3、模態對齊架構

九章雲極DataCanvas多模態大模型平台的實踐與思考

#上圖是多模態大模型的通用架構圖,包含一個語言模型、一個視覺模型,透過固定語言模型和固定視覺模型進而學習對齊模型;而對齊就是將視覺模型的向量空間和語言模型的向量空間進行聯合,進而在統一的向量空間裡完成兩者內在邏輯關係的理解。

圖中所示的Flamingo模型和BLIP2模型都採用類似的結構(Flamingo模型採用Perceiver架構,而BLIP2模型採用改良版的Transformer架構);然後透過多種對比學習的方法進行預訓練,對海量的token進行大量學習,獲得較好的對齊效果;最後根據特定的任務對模型進行微調。

二、九章雲極DataCanvas的多模態大模式平台

1、AI Foundation Software (AIFS)

九章雲極DataCanvas是人工智慧基礎軟體供應商,同時提供算力資源(包括GPU叢集),進行高效能的儲存和網路最佳化,在此基礎上提供大模型的訓練工具,包括資料標註建模實驗沙盒等。九章雲極DataCanvas不僅支援市面上常見的開源大模型,同時也在自主研發元識多模態大模型。在應用層,提供了工具對提示詞進行管理,對模型進行微調,並提供模型維運機制。同時,也開源了多模向量資料庫,讓基礎軟體架構更加豐富。

九章雲極DataCanvas多模態大模型平台的實踐與思考

2、模型工具LMOPS

九章雲極DataCanvas多模態大模型平台的實踐與思考

九章雲極DataCanvas專注於全生命週期的開發的最佳化,包括資料準備(資料標註支援人工標註和智慧標註)、模型開發、模型評估(包括橫向評估和縱向評估)、模型推理(支援模型量化、知識蒸餾等加速推理機制)、模型應用等。

3、LMB –Large Model Builder

九章雲極DataCanvas多模態大模型平台的實踐與思考

#在建構模型時,進行了許多分散式高效優化工作,包括資料並行、Tensor並行、管道並行等。這些分散式最佳化工作是一鍵式完成的,並支援視覺化調控,可以大幅減少人力成本,提升開發效率。

4、LMB –Large Model Builder

九章雲極DataCanvas多模態大模型平台的實踐與思考

對於大模型tuning也進行了最佳化,包括常見的continue training、supervise tuning,以及reinforcement learning中的human feedback等。此外,對於中文也進行了許多優化,例如中文詞表的自動擴展。因為許多中文詞彙並未包含在開源大模型中,這些詞彙可能會被拆分成多個token;將這些詞彙進行自動擴充,可以讓模型更好地使用這些詞彙。

5、LMS –Large Model Serving

九章雲極DataCanvas多模態大模型平台的實踐與思考

#大型模型的serving也是非常重要的一個組成部分,平台對模型量化、知識蒸餾等環節也進行了大量的優化,大大降低了計算成本,並透過逐層知識蒸餾來加速transformer,減少其計算量。同時,也做了許多剪枝工作(包括結構化剪枝、稀疏剪枝等),大大提升了大模型的推理速度。

此外,也對互動式對話過程進行了最佳化。例如多輪對話Transformer中,每個tensor的key和value是可以記住的,無需重複計算。因此,可存入Vector DB中,實現對話歷史記憶功能,提升互動過程中的使用者體驗。

6、Prompt Manager

大模型提示詞設計與建構工具Prompt Manager,透過幫助使用者設計更好的提示詞,引導大模型產生更準確、可靠、符合預期的輸出內容。該工具既可為技術人員提供development toolkit的開發模式,也可為非技術人員提供人機互動的操作模式,滿足不同族群使用大模型的需求。

其主要功能包括:AI模型管理、場景管理、提示字範本管理、提示字開發和提示字應用程式等。

九章雲極DataCanvas多模態大模型平台的實踐與思考

平台提供了常用的提示字管理工具,可實現版本控制,並提供常用範本來加速提示字的實作。

三、九章雲極DataCanvas多模態大模型的實踐

#1、多模態大模型-有記憶體

介紹完平台功能,接下來會分享多模態大模型開發實作。

九章雲極DataCanvas多模態大模型平台的實踐與思考


上圖是九章雲極DataCanvas多模態大模型的基本框架,與其它多模態大模型不同的一點是,它包含記憶體,可以提升開源大模型的推理能力。

一般開源大模型的參數量相對較低,如果再耗用一部分參數量來記憶,其推理能力將會大幅下降。如果給開源大模型增加記憶體,則會同時提升推理能力和記憶能力。

此外,類似大多數模型,多模態大模型也會固定大語言模型和固定資料編碼,針對對齊功能進行單獨的模組化的訓練;因此,所有不同的資料模態都會對齊到文本中的邏輯部分;在推理的過程,首先對語言進行翻譯,然後進行融合,最後進行推理工作。

2、非結構化資料ETL Pipeline

九章雲極DataCanvas多模態大模型平台的實踐與思考

#由於我們的DingoDB多模向量資料庫結合了多模態與ETL的功能,因此能夠提供良好的非結構化資料管理能力。平台提供pipeline ETL功能,並做了很多優化,包括算子編譯、平行處理,以及快取優化等。

此外,平台提供Hub,可將pipeline重複使用,實現最高效的開發體驗。同時,支援 Huggingface上的眾多編碼器,可以實現不同模態資料的最優編碼。

3、多模態大模型建構方法

#九章雲極DataCanvas將元識多模態大模型作為底座,支持使用者選擇其它開源大模型,也支援使用者使用自己的模態資料進行訓練。

多模態大模型的建構大概分為三個階段:

  • #第一階段:固定大語言模型與模態編碼器訓練對齊和查詢;
  • 第二階段(可選,支援多模態搜尋):固定大語言模型,模態編碼器,對齊和查詢模組,訓練檢索模組;
  • 第三階段(可選,對特定任務):指令微調大語言模型。

4、案例-知識庫建構

九章雲極DataCanvas多模態大模型平台的實踐與思考


大模型中的記憶體架構,可以幫助我們實現多模態知識庫建設,該知識庫實際上是模型的應用。知乎就是一個典型的多模態知識庫應用模組,其專業知識是可以溯源的。

為了確保知識的確定性和安全性,往往需要對專業知識進行溯源,知識庫就可以幫助我們實現這此功能,同時新的知識添加也會比較方便,無需修改模型參數,直接把知識加入資料庫即可。

具體來說,將專業知識透過編碼器進行不同的編碼選擇,同時根據不同的評價方法進行統一評價,透過一鍵評價來實現編碼器的選擇。最後應用編碼器向量化之後存入DingoDB多模向量資料庫,再透過大模型的多模態模組進行相關資訊擷取,透過語言模型來進行推理。

模型的最後一部分往往需要進行指令精調,由於不同使用者的需求不太一樣,因此需要對整個多模態大模型進行精調。由於多模態知識庫在組織資訊這部分的特殊優勢,使得模型具備學習檢索的能力,這也是我們在文本的段落化過程中所做的創新。

九章雲極DataCanvas多模態大模型平台的實踐與思考一般的知識庫是將文件進行段落化,然後對每一段進行獨立的文字解鎖。這種方法容易受到噪音的干擾,對於許多大的文檔,很難判定段落劃分的標準。

九章雲極DataCanvas多模態大模型平台的實踐與思考

而在我們的模型中,檢索模組進行學習,模型自動尋找合適的結構化資訊組織。對於某個具體產品,從產品說明書開始,先定位大的目錄段落,再定位到具體的段落。同時由於是多模態的資訊集成,除了文字以外往往還會包含圖像表格等,也可以進行向量化表達,再結合Meta訊息,實現聯合檢索,從而提升檢索效率。

值得說明的是,檢索模組使用記憶體注意力機制,相較於同類演算法可提升10%的召回率;同時可將記憶體注意力機制用於多模態文檔處理,這也是非常有優勢的一個面向。

九章雲極DataCanvas多模態大模型平台的實踐與思考

九章雲極DataCanvas多模態大模型平台的實踐與思考

######################### 1.企業資料管理-- 知識庫##################### 企業中85%的資料都是非結構化數據,只有15%是結構化的數據。過去的20年,人工智慧主要是圍繞著結構化資料展開的,而非結構化資料是非常難以利用的,需要非常大的精力和代價將其轉化處理為結構化資料。而藉由多模態大模型與多模態知識庫,透過人工智慧新範式,可以大幅提升企業內部管理中非結構化資料的使用率,未來可能會帶來10倍的價值成長。 ############2、知識庫--> 智能體(Agent)#####################多模態知識庫作為智能體的基礎,之上的研發agent、客服agent、銷售agent、法律agent,人力資源agent,企業維運agent等功能都可以透過知識庫來運作。 ######

以銷售agent為例,常見架構包括兩個agent同時存在,其中一個負責決策,另一個負責銷售階段的分析。這兩個模組都可以透過多模態知識庫尋找相關訊息,包括產品資訊、歷史銷售統計資料、客戶畫像、過往銷售經驗等,這些資訊整合到一起,幫助這兩個agent做最好、最正確的決定,這些決定反過來幫助用戶獲得最好的銷售訊息,再記錄到多模態資料庫集中,如此循環往復,不斷提升銷售業績。

我們相信未來最有價值的企業,是將智慧體落實處的企業。希望九章雲極DataCanvas可以跟大家一路同行,互相助力。

以上是九章雲極DataCanvas多模態大模型平台的實踐與思考的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!