涵蓋文本、定位和分割任務，智源、港中文聯合提出首個多功能3D醫學多模態大模型-人工智慧-PHP中文網

涵蓋文本、定位和分割任務，智源、港中文聯合提出首個多功能3D醫學多模態大模型

作者| 香港中文大學白帆

編輯| ScienceAI

近日，香港中文大學和智源聯合提出的M3D 系列工作，包括M3D-Data, M3D-LaMed 和M3D-Bench，從資料集、模型和測評全方面推動3D 醫學影像分析的發展。

（1）M3D-Data 是目前最大的3D 醫學影像資料集，包括M3D-Cap (120K 3D 圖文對), M3D-VQA (510K 問答對)，M3D-Seg（150K 3D Mask），M3D- RefSeg (3K 推理分割)共四個子資料集。

（2）M3D-LaMed 是目前最多功能的3D 醫學多模態大模型，能夠解決文字（疾病診斷、影像檢索、視覺問答、報告生成等），定位（目標檢測、視覺定位等）和分割（語意分割、指稱分割、推理分割等）三類醫學分析任務。

（3）M3D-Bench 能夠全面和自動評估 8 種任務，涵蓋文本、定位和分割三個方面，並提供人工校驗後的測試數據。

我們最早在 2024 年 4 月發布了資料集、模型和程式碼。

近期，我們提供了更小和更強的 M3D-LaMed-Phi-3-4B 模型，並增加了線上 demo 供大家體驗！

最新進展請關注 GitHub 庫的更新，如果有任何疑問和建議可以及時聯繫，歡迎大家討論和支持我們的工作。

涵蓋文本、定位和分割任務，智源、港中文聯合提出首個多功能3D醫學多模態大模型

論文連結：https://arxiv.org/abs/2404.00578
程式碼：https://github.com/BAAI-DCAI/M3D huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
資料集：https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
線上Demo：https://baai.rpailab.xyz/
我們能為醫學影像相關研究者提供什麼？

M3D-Data, 最大的3D 醫學多模態資料集；

M3D-Seg，整合了幾乎所有開源3D 醫學分割資料集，共計25 個；

M3D-LaMed, 支援文字、定位和分割的最多功能的3D 醫學多模態大模型，提供了簡潔清晰的程式碼框架，研究者可以輕易魔改每個模組的設定；
M3D-CLIP，基於M3D-Cap 3D 圖文對，我們訓練了一個圖文對比學習的M3D-CLIP 模型，共提供其中的視覺預訓練權重3DViT；
M3D-Bench，全面和清晰的測評方案和代碼。
本文所涉及的所有資源全部開放，希望能幫助研究者共同推動 3D 醫學影像分析的發展。

涵蓋文本、定位和分割任務，智源、港中文聯合提出首個多功能3D醫學多模態大模型線上Demo影片。

醫學影像分析對臨床診斷和治療至關重要，多模態大語言模型 (MLLM) 對此的支持日益增加。然而，先前的研究主要集中在 2D 醫學影像上，儘管 3D 影像具有更豐富的空間訊息，但對其的研究和探索還不夠。

本文旨在利用 MLLM 推進 3D 醫學影像分析。為此，我們提出了一個大規模3D 多模態醫學資料集M3D-Data，其中包含120K 個圖像-文字對和662K 個指令-響應對，專門針對各種3D 醫學任務量身定制，例如圖文檢索、報告產生、視覺問答、定位和分割。

此外，我們提出了 M3D-LaMed，這是一種用於 3D 醫學影像分析的多功能多模態大語言模型。

我們還引入了一個新的 3D 多模態醫學基準 M3D-Bench，它有助於在八個任務中進行自動評估。透過綜合評估，我們的方法被證明是一種穩健的 3D 醫學影像分析模型，其表現優於現有解決方案。所有程式碼、資料和模型均可在以下網址公開取得。

資料集

M3D-Data 共包含4個子資料集，分別為M3D-Cap（圖文對）, M3D-VQA（視覺問答對）, M3D-RefSeg（推理分割）和M3D-Seg整合25 個3D 分割資料集）。

模型

M3D-LaMed 模型結構如下圖所示。（a）3D 影像編碼器透過跨模態對比學習損失由圖文資料進行預訓練，可直接應用於圖文檢索任務。（b）在M3D-LaMed 模型中，3D 醫學影像被輸入到預先訓練的3D 影像編碼器和高效的3D 空間池化感知器中，並將視覺token 插入LLM，輸出的[SEG] 作為prompt 驅動分割模組。

M3D-LaMed 模型結構。
實驗

圖文檢索

在3D 圖文檢索中，模型旨在根據相似性從數據集中匹配圖像和文本，通常涉及兩個任務：文本到圖像檢索(TR) 和圖像到文字檢索(IR)。

由於缺乏合適的方法，我們將 2D 醫學的代表模型 PMC-CLIP 應用於 3D 圖文檢索中，我們發現由於缺乏空間信息，幾乎無法和 3D 圖文檢索模型對比。

報告產生

在報告生成中，該模型根據從 3D 醫學影像中提取的資訊產生文字報告。

封閉式視覺問答

在封閉式視覺問答中，需要為模型提供封閉的答案，例如A,B,C,D，要求模型從候選中選出正確答案。

我們發現在醫學領域 M3D-LaMed 超過通用的 GPT-4V。
開放式視覺問答

在開放式視覺問答中，模型產生開放式的答案，不存在任何答案提示和候選。

我們發現在醫學領域 M3D-LaMed 超過通用的 GPT-4V。不過需注意目前GPT-4V 限制了醫療相關問題的答案。
定位

定位在視覺語言任務中至關重要，尤其是涉及輸入和輸出框的任務。在輸出框的任務，如指代表達理解 (REC) ，旨在根據指代表達在影像中定位目標物。相較之下，在輸入框的任務，如指代表達生成 (REG) ，要求模型根據影像和位置框生成特定區域的描述。

分割

分割任務在 3D 醫學影像分析中至關重要，因為它具有識別和定位功能。為了解決各種文字提示，分割分為語意分割和指代表達分割。對於語義分割，該模型根據語義標籤產生分割遮罩。指代表達分割需要根據自然語言表達描述進行目標分割，需要模型具有一定的理解和推理的能力。

分佈外 (OOD) 問題的案例研究

我們在 OOD 對話中測試了 M3D-LaMed 模型，這意味著所有問題都與我們的訓練資料不相關。我們發現 M3D-LaMed 具有很強的泛化能力，可以對 OOD 問題產生合理的答案，而不是胡言亂語。在每組對話中，左側的頭像和問題來自用戶，右側的頭像和答案來自 M3D-LaMed。

模型具有很強的推理能力和泛化能力。
我們最新訓練的更小的 M3D-LaMed-Phi-3-4B 模型具有更好的表現，歡迎大家使用！ GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face

報告產生測評結果

測
在TotalSegmentator 上評測的語意分割Dice 結果
總結
我們M3D 系列研究促進了使用MLLM 進行3D 醫學影像分析。具體來說，我們建立了一個大規模 3D 多模態醫學資料集 M3D-Data，其中包含 120K 3D 影像文字對和 662K 指令響應對，專為 3D 醫學任務量身定制。此外，我們提出了 M3D-LaMed，這是一個通用模型，可處理圖像文字檢索、報告生成、視覺問答、定位和分割。此外，我們引入了一個綜合基準 M3D-Bench，它是為八個任務精心設計的。

我們的方法為 MLLM 理解 3D 醫學場景的視覺和語言奠定了堅實的基礎。我們的數據、程式碼和模型將促進未來研究中對 3D 醫學 MLLM 的進一步探索和應用。希望我們的工作能為領域研究者帶來幫助，歡迎大家來使用和討論。

以上是涵蓋文本、定位和分割任務，智源、港中文聯合提出首個多功能3D醫學多模態大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！