首頁 > 科技週邊 > 人工智慧 > 深入研究Molmo和Pixmo進行動手實驗

深入研究Molmo和Pixmo進行動手實驗

Lisa Kudrow
發布: 2025-03-19 09:41:11
原創
417 人瀏覽過

Molmo:建立在高質量開放數據集上的開放視覺模型

專有,大型視覺模型(VLM)的主導地位阻礙了開放研究。開源替代方案通常依賴於專有模型生成的合成數據,從而限制了真正的開放性。精緻的VLM莫爾莫(Molmo)通過利用專門在開放數據集和獨立培訓方法上訓練的高質量多模式能力來解決這一問題。

隨附的Pixmo數據集對Molmo的成功至關重要。它通過採用人類語音註釋來創建詳細的圖像映射對來克服數據可訪問性限制。這種方法產生豐富的高密度字幕,避免了合成數據集固有的局限性。

Molmo的體系結構是一種標準的多模式設計:視覺編碼器,再加上語言模型。

深入研究Molmo和Pixmo進行動手實驗

關鍵功能:

  • PIXMO數據集: Molmo性能的基礎。
  • 建築學:
    • 圖像前處理器:生成多尺度的多曲線圖像部分。
    • 視覺編碼器: OpenAI的VIT-L/14 336PX剪輯模型(在siglip上選擇用於上級多毛操作)。
    • 連接器:基於MLP的投影將圖像嵌入與語言模型的尺寸對齊。
    • 僅解碼器的變壓器LLM:具有各種LLM(Olmo,Olmoe,Qwen2,Mistral)的靈活性。
  • 培訓:兩個階段的過程:
    • 多模式預訓練:專注於使用PixMo-CAP的字幕生成。單級方法避免了多階段方法的複雜性。
    • 監督微調:利用各種任務和數據集(pixmo-as​​kmodanything,pixmo-points等)。依靠高質量數據,消除了對RLHF的需求。
  • 評估:在11個基準數據集和人類偏好研究中進行嚴格測試。結果表明,莫爾莫(Molmo)具有競爭力,有時甚至超過專有模型。

數據集詳細信息:

  • PIXMO-CAP:超過712K圖像,帶有60-90秒的語音描述的詳細標題。
  • pixmo-as​​k-Modelanything:基於圖像的問答對。
  • PIXMO點:基於點的註釋,用於空間理解。
  • 其他數據集: pixmo-clocks,pixmo-docs,pixmo-capqa。

深入研究Molmo和Pixmo進行動手實驗

建築深處潛水:

深入研究Molmo和Pixmo進行動手實驗

多尺度的多曲線圖像處理增強了模型對圖像上下文的理解。 Siglip上剪輯的選擇是合理的,它在高分辨率的多效數據上的出色性能是合理的。 MLP連接器和合併層有效地管理維度,從而確保視覺和語言組件之間有效的溝通。僅解碼器的變壓器LLM允許可自適應的模型尺寸和性能。

深入研究Molmo和Pixmo進行動手實驗

由高質量數據推動的單階段預訓練證明是有效的。隨後對各種任務進行的監督微調進一步完善了模型的功能。缺乏RLHF是一個故意的選擇,利用Pixmo數據集的豐富性。

基準測試比較莫爾莫的性能與其他VLM,包括Llava,Qwen2-Vl和Paligemma,展示了其競爭優勢。人類偏好測試進一步驗證其用戶友好性。

深入研究Molmo和Pixmo進行動手實驗

動手實例(縮寫):

詳細的動手指南,包括使用COLAB筆記本的代碼示例,演示瞭如何加載模型,處理圖像和生成輸出。該示例顯示瞭如何從圖像中提取結構化信息,並展示了Molmo的適應性。還探索了通過將它們分成斑塊分成斑塊來處理大型複雜圖像的技術。

深入研究Molmo和Pixmo進行動手實驗深入研究Molmo和Pixmo進行動手實驗

結論:

Molmo代表開源VLM的顯著進步。它致力於高質量的開放數據集,高效的培訓和靈活的體系結構,將其定位為一種強大而多才多藝的工具,用於廣泛的視力語言任務。詳細的解釋和實踐示例提供了對其能力的全面理解。

常見問題(縮寫):

  • 剪輯與siglip:剪輯對多工程,高分辨率圖像的優質處理是其選擇的關鍵原因。
  • 數據集優點:與合成數據集相比,Pixmo的人類註銷數據提供了更豐富,更自然的視覺理解。
  • 自定義: Molmo的靈活性允許通過自定義提示適應各種任務和輸入類型。

以上是深入研究Molmo和Pixmo進行動手實驗的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板