通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT-人工智慧-PHP中文網

通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT

WBOY

發布： 2023-04-10 14:41:10

轉載

1661 人瀏覽過

ChatGPT 引發了語言大模型狂潮，AI 另一個重大領域 —— 視覺 —— 的 GPT 時刻何時到來？

前兩天，機器之心介紹了 Meta 最新研究成果 Segment Anything Model (SAM)。該研究引起了AI社群廣泛討論。

而據我們所知，幾乎在同一時間，智源研究院視覺團隊也推出通用分割模型SegGPT（Segment Everything In Context）— 利用視覺提示（prompt ）完成任意分割任務的通用視覺模型。

通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT

論文網址：https://arxiv.org/abs/2304.03284
#程式碼位址：https://github.com/baaivision/Painter
#Demo：https://huggingface.co /spaces/BAAI/SegGPT

SegGPT 與Meta AI 影像分割基礎模型SAM 同時發布，兩者的差異在於：

#SegGPT 「一通百通」：給予一個或幾個範例影像和意圖掩碼，模型就能get 使用者意圖，「有樣學樣」地完成類似分割任務。使用者在畫面上標註辨識一類物體，即可大量辨識分割同類物體，無論是在當前畫面或其他畫面或影片環境。
SAM 「一觸即通」：透過一個點或邊界框，在待預測圖片上給予互動提示，辨識分割畫面上的指定物件。

#無論是“一觸即通” 還是“一通百通”，都意味著視覺模型已經“理解” 圖像結構。 SAM 精細標註能力與 SegGPT 的通用分割標註能力結合，能把任意影像從像素陣列解析為視覺結構單元，像生物視覺那樣理解任意場景，通用視覺 GPT 曙光乍現。

SegGPT 是智源通用視覺模型 Painter（CVPR 2023）的衍生模型，針對分割所有物體的目標做出最佳化。 SegGPT 訓練完成後無需微調，只需提供範例即可自動推理並完成對應分割任務，包括影像和影片中的實例、類別、零件、輪廓、文字、人臉等等。

此模型具有以下優勢能力：

#1.通用能力#：SegGPT 具有上下文推理能力，模型能夠根據提供的分割範例（prompt），對預測進行自適應的調整，實現對「everything」的分割，包括實例、類別、零件、輪廓、文字、人臉、醫學影像、遙感影像等。

2. 靈活推理能力#：支援任意數量的prompt；支援針對特定場景的tuned prompt；可以用不同顏色的mask 表示不同目標，實現並行分割推理。

3. 自動視訊分割與追蹤能力：以第一幀影像和對應的物件遮罩作為上下文範例，SegGPT 能夠自動對後續視訊幀進行分割，並且可以用遮罩的顏色作為物體的ID，實現自動追蹤。

案例展示

1. 作者在廣泛的任務上對 SegGPT 進行了評估，包括少樣本語義分割、視訊物件分割、語義分割和全景分割。下圖中具體展示了 SegGPT 在實例、類別、零件、輪廓、文字和任意形狀物件上的分割結果。

通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT

2. 標註出一個畫面中的彩虹（上圖），可批次化分割其他畫面中的彩虹（下圖）

通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT

3. 用畫筆大致圈出行星環帶（上圖），在預測圖中準確輸出目標影像中的行星環帶（下圖）。

通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT

#4. SegGPT 能夠根據使用者提供的太空人頭盔遮罩這一上下文（左圖），在新的圖片中預測出對應的太空人頭盔區域（右圖）。

通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT

訓練方法

SegGPT 將不同的分割任務統一到一個通用的上下文學習框架中，透過將各類別分割資料轉換為相同格式的影像來統一各式各樣的資料形式。

具體來說，SegGPT 的訓練被定義為一個上下文著色問題，對於每個資料樣本都有隨機的顏色映射。目標是根據上下文完成各種任務，而不是依賴特定的顏色。訓練後，SegGPT 可以透過上下文推理在影像或影片中執行任意分割任務，例如實例、類別、零件、輪廓、文字等。

Test-time techniques

如何透過 test-time techniques 解鎖各種能力是通用模型的一大亮點。 SegGPT 論文中提出了多種技術來解鎖和增強各類分割能力，例如下圖所示的不同的 context ensemble 方法。所提出的 Feature Ensemble 方法可以支援任意數量的 prompt 範例，實現豐儉由人的推理效果。

通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT

此外，SegGPT 也支援對特定場景最佳化專用 prompt 提示。對於針對性的使用場景，SegGPT 可以透過 prompt tuning 得到對應 prompt，無需更新模型參數來適用於特定場景。例如，針對某一資料集自動建立一個對應的 prompt，或是針對一個房間來建立專用 prompt。如下圖所示：

通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT