作者| 香港中文大學白帆
編輯| ScienceAI
近日,香港中文大學和智源聯合提出的M3D 系列工作,包括M3D-Data, M3D-LaMed 和M3D-Bench,從資料集、模型和測評全方面推動3D 醫學影像分析的發展。
(1)M3D-Data 是目前最大的3D 醫學影像資料集,包括M3D-Cap (120K 3D 圖文對), M3D-VQA (510K 問答對),M3D-Seg(150K 3D Mask),M3D- RefSeg (3K 推理分割)共四個子資料集。
(2)M3D-LaMed 是目前最多功能的3D 醫學多模態大模型,能夠解決文字(疾病診斷、影像檢索、視覺問答、報告生成等),定位(目標檢測、視覺定位等)和分割(語意分割、指稱分割、推理分割等)三類醫學分析任務。
(3)M3D-Bench 能夠全面和自動評估 8 種任務,涵蓋文本、定位和分割三個方面,並提供人工校驗後的測試數據。
我們最早在 2024 年 4 月發布了資料集、模型和程式碼。
近期,我們提供了更小和更強的 M3D-LaMed-Phi-3-4B 模型,並增加了線上 demo 供大家體驗!
最新進展請關注 GitHub 庫的更新 ,如果有任何疑問和建議可以及時聯繫,歡迎大家討論和支持我們的工作。
M3D-Data, 最大的3D 醫學多模態資料集;
M3D-Seg,整合了幾乎所有開源3D 醫學分割資料集,共計25 個;線上Demo影片。
醫學影像分析對臨床診斷和治療至關重要,多模態大語言模型 (MLLM) 對此的支持日益增加。然而,先前的研究主要集中在 2D 醫學影像上,儘管 3D 影像具有更豐富的空間訊息,但對其的研究和探索還不夠。本文旨在利用 MLLM 推進 3D 醫學影像分析。為此,我們提出了一個大規模3D 多模態醫學資料集M3D-Data,其中包含120K 個圖像-文字對和662K 個指令-響應對,專門針對各種3D 醫學任務量身定制,例如圖文檢索、報告產生、視覺問答、定位和分割。
此外,我們提出了 M3D-LaMed,這是一種用於 3D 醫學影像分析的多功能多模態大語言模型。
我們還引入了一個新的 3D 多模態醫學基準 M3D-Bench,它有助於在八個任務中進行自動評估。透過綜合評估,我們的方法被證明是一種穩健的 3D 醫學影像分析模型,其表現優於現有解決方案。所有程式碼、資料和模型均可在以下網址公開取得。
資料集M3D-Data 共包含4個子資料集,分別為M3D-Cap(圖文對), M3D-VQA(視覺問答對), M3D-RefSeg(推理分割)和M3D-Seg整合25 個3D 分割資料集)。 模型 M3D-LaMed 模型結構如下圖所示。 (a)3D 影像編碼器透過跨模態對比學習損失由圖文資料進行預訓練,可直接應用於圖文檢索任務。 (b)在M3D-LaMed 模型中,3D 醫學影像被輸入到預先訓練的3D 影像編碼器和高效的3D 空間池化感知器中,並將視覺token 插入LLM,輸出的[SEG] 作為prompt 驅動分割模組。 實驗 圖文檢索 在3D 圖文檢索中,模型旨在根據相似性從數據集中匹配圖像和文本,通常涉及兩個任務:文本到圖像檢索(TR) 和圖像到文字檢索(IR)。 報告產生 在報告生成中,該模型根據從 3D 醫學影像中提取的資訊產生文字報告。 封閉式視覺問答 在封閉式視覺問答中,需要為模型提供封閉的答案,例如A,B,C,D,要求模型從候選中選出正確答案。 開放式視覺問答 在開放式視覺問答中,模型產生開放式的答案,不存在任何答案提示和候選。 定位 定位在視覺語言任務中至關重要,尤其是涉及輸入和輸出框的任務。在輸出框的任務,如指代表達理解 (REC) ,旨在根據指代表達在影像中定位目標物。相較之下,在輸入框的任務,如指代表達生成 (REG) ,要求模型根據影像和位置框生成特定區域的描述。 分割 分割任務在 3D 醫學影像分析中至關重要,因為它具有識別和定位功能。為了解決各種文字提示,分割分為語意分割和指代表達分割。對於語義分割,該模型根據語義標籤產生分割遮罩。指代表達分割需要根據自然語言表達描述進行目標分割,需要模型具有一定的理解和推理的能力。 分佈外 (OOD) 問題的案例研究 我們在 OOD 對話中測試了 M3D-LaMed 模型,這意味著所有問題都與我們的訓練資料不相關。我們發現 M3D-LaMed 具有很強的泛化能力,可以對 OOD 問題產生合理的答案,而不是胡言亂語。在每組對話中,左側的頭像和問題來自用戶,右側的頭像和答案來自 M3D-LaMed。 我們最新訓練的更小的 M3D-LaMed-Phi-3-4B 模型具有更好的表現,歡迎大家使用! GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face
以上是涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!