文章專題學習下載問答程式設計字典遊戲最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

首頁 > 科技週邊 > 人工智慧 > 主體

視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達

WBOY

發布： 2023-05-23 14:07:06

轉載

1326 人瀏覽過

近期，浙江大學ReLER實驗室將SAM與分割視訊進行深度結合，發布Segment-and-Track Anything （SAM-Track）。

SAM-Track賦予了SAM對視訊目標的追蹤能力，並支援多種方式（點、畫筆、文字）進行互動。

在此基礎上，SAM-Track統一了多個傳統視訊分割任務，達成了一鍵分割追蹤任意視訊中的任意目標，將傳統視訊分割外推至通用視訊分割。

SAM-Track具有卓越的效能，在複雜場景下僅需單卡就能高品質地穩定追蹤數百個目標。

視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達

計畫網址：https://github.com/z-x-yang/Segment-and-Track -Anything

論文網址：https://arxiv.org/abs/2305.06558

效果展示

SAM-Track支援語言輸入作為Prompt。例如，給定類別文字「熊貓」，便可一鍵實例級分割追蹤所有屬於「熊貓」這一類別的目標。

視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達

也可進一步給出更詳細的描述，例如輸入文字「最左邊的熊貓」，SAM-Track可定位至特定目標進行分割追蹤。

視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達

相較於傳統視訊追蹤演算法，SAM-Track的另一個強大之處在於可對大量目標同時進行追蹤分割，並自動偵測新出現的物體。

視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達

SAM-Track也支援多種互動方式組合使用，使用者可依實際需求搭配。例如使用畫筆框定與人體緊密連接的滑板，防止分割多餘物體，而後使用點擊選擇人體。

全自動視訊目標分割與追蹤自然也不在話下，各種應用場景包括街景、空拍、AR、動畫、醫學影像等，均可一鍵分割追蹤並自動偵測新出現的物體。

視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達

如果對自動分割結果不滿意，使用者可在此基礎上進行編輯修正，例如使用點擊來修正過分割的電車。

視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達

同時最新版本的SAM-Track支援將追蹤結果線上瀏覽，可選擇中間任一幀的分割結果進行修改和新增目標，並再次追蹤。

視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達

為了方便使用者線上體驗，專案提供了WebUI，可透過Colab一鍵部署：

視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達

模型組成

SAM-Track模型是基於ECCV'22 VOT Workshop四個賽道的冠軍方案DeAOT。

DeAOT是一個高效能的多目標VOS模型，在給定首幀物件標註的情況下，可以追蹤視訊其餘影格中的物件分割。

DeAOT採用一種識別機制，將一個影片中的多個目標嵌入到同一高維空間中，從而實現了同時對多個物體進行追蹤。

DeAOT在多物體追蹤方面的速度表現能夠與其他針對單一物體追蹤的VOS方法相媲美。

此外，透過基於分層的Transformer的傳播機制，DeAOT更好地聚合了長時序和短時序訊息，表現出了優異的追蹤效能。

由於DeAOT需要參考影格的標註來初始化，為了提高便捷性，SAM-Track使用了最近在影像分割領域大放異彩的Segment Anything Model（SAM）模型來獲取標註資訊。

利用SAM優異的零樣本遷移能力，以及多種互動方式，SAM-Track能有效率地為DeAOT取得高品質的參考影格標註資訊。

雖然SAM模型在影像分割領域表現出色，但它無法輸出語意標籤，且文字提示也無法很好地支援Referring Object Segmentation及其他依賴深層語意理解的任務。

因此，SAM-Track模型進一步整合了Grounding-DINO，實現了高精度的語言引導的視訊分割。 Grounding DINO是一個開放集合目標偵測模型，具有良好的語言理解能力。

根據輸入的類別或目標物件的詳細描述，Grounding-DINO可以偵測到目標並傳回位置方塊。

SAM-Track模型架構

如下圖所示，SAM-Track模型支援了三種物件追蹤模式，分別為互動追蹤模式、自動追蹤模式以及融合模式。

視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達

對於互動追蹤模式，SAM-Track模型首先會套用SAM，在參考影格中利用點擊或畫框的方式選取目標，直到得到使用者滿意的交互分割結果。

如果想要實現語言引導的視訊物件分割，SAM-Track則會呼叫Grounding-DINO根據輸入的文本，先得到目標物件的位置框，並在此基礎上透過SAM得到感興趣物體的分割結果。

最後DeAOT將交互分割結果作為參考幀，並對選取的目標進行追蹤。在追蹤的過程中，DeAOT會將過去幀中的視覺嵌入和高維ID嵌入分層傳播到當前幀中，實現逐幀追蹤分割多個目標物件。因此，SAM-Track能過支援多模態的互動方式來追蹤分割影片中的興趣物體。

然而，互動追蹤模式無法處理影片中出現的新出現的物件。限制了SAM-Track在特定領域的應用，例如，自動駕駛，智慧城市等。

為了進一步拓展SAM-Track的應用範圍和效能，SAM-Track實現了自動追蹤模式，對影片中出現的新物件進行追蹤。

自動追蹤模式透過Segment Everything和Object of Interest Segmentation兩種方式來獲得每n幀中新出現的物體的註解。對於新出現的物體的ID分配問題，SAM-Track採用了比較遮罩模組（CMR）來決定新的物件的ID。

融合模式則是把互動追蹤模式和自動追蹤模式結合在一起。透過互動式追蹤模式使用者可以很方便地取得影片中第一幀的註釋，而自動追蹤模式則可以處理影片後續影格中出現的未被選取的新物件。追蹤方法的組合擴大了SAM-Track的應用範圍，增加了SAM-Track的實用性。

以上是視訊分割大結局！浙大最新發布SAM-Track：通用智慧視訊分割一鍵直達的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

影片分裂

來源：51cto.com

上一篇：人工智慧如何在2023年為組織賦能下一篇：單卡30秒跑出虛擬3D老婆！ Text to 3D產生看清毛孔細節的高精度數字人，無縫銜接Maya、Unity等製作工具

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31
程式設計基礎：C 簡介

2024-10-11 11:48:01
揭開 Python 的秘密：精通編碼的初學者指南

2024-10-11 11:35:40
PHP 初學者必備知識：釋放網站的全部潛力

2024-10-11 11:33:11
Python 的世界等著您：踏出第一步，開始您的冒險

2024-10-11 11:18:01

最新問題

PHP數組從URL參數中取得的行為不如預期我有一個包含類別ID的URL參數，我想將其視為一個數組，如下所示：http://example.com?cat[]=3,9,13在PHP中，我使用它從URL參數取得數組：$catI...

來自於 2024-04-06 22:09:02

0

1

1428

在行動視圖中，當使用者點擊連結時，如何關閉此導覽列？當使用者點擊連結瀏覽網站時，導覽列沒有關閉？我曾嘗試向每個連結新增點擊事件偵聽器以關閉導覽欄，但它不起作用！此外，處於活動位置（即X）的hamberberger選單圖示也沒有很好地...

來自於 2024-04-06 19:23:03

0

1

411

顯示隱藏的側邊面板：選中我希望在側面板中有一個導航選單，可以透過動畫漢堡選單切換到視圖。我想僅使用CSS創建它，而不使用任何JS。 :checked偽類似乎是可行的方法，但我無法讓它工作。到目前為止我擁有...

來自於 2024-04-06 15:49:33

0

1

319

React Three Fiber：為什麼我的滾動事件有延遲？在ReactThreeFiber中，我有一個React組件，可以產生一個精靈，我希望該精靈在相機變焦下保持不變。該演算法似乎有效（大小似乎不隨時間變化），但我可以明顯看到它在放大和...

來自於 2024-04-06 13:39:24

0

1

410

人臉辨識終端iVMS-4200與底座連接問題人臉辨識終端iVMS-4200連接mysql資料庫時顯示錯誤。我嘗試了YouTube上的以下影片。但儲存時卻顯示錯誤。請幫忙。我附上一張圖片。 https://www.youtub...

來自於 2024-04-06 12:20:33

0

1

347

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1409894
php入門教程之一週學會PHP

4243731
JAVA 初級入門影片教學

2442740
小甲魚零基礎入門學習Python影片教學

500791
PHP 零基礎入門教學

839304

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板

關於我們免責聲明 Sitemap: PHP中文網：公益線上PHP培訓，幫助PHP學習者快速成長！