社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？

WBOY

發布： 2024-01-05 21:23:58

轉載

1109 人瀏覽過

想將一份文件圖片轉換成Markdown格式？

以往這項任務需要文字辨識、佈局偵測與排序、公式表格處理、文字清洗等多個步驟－

這次，只需一句話指令，多模態大模型Vary直接端對端輸出結果：

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？ #圖片

無論是中英文的大段文字：

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？圖片

也包含了公式的文件圖片

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？ ##圖片

#又或是手機頁面截圖：

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？圖片

#甚至可以將圖片中的表格轉換成latex格式：

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？圖片

當然，作為一個多模大型模型，保持通用能力是必不可少的

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？ #圖片

Vary表現出了很大的潛力和極高的上限，OCR可以不再需要冗長的pipline，直接端對端輸出，並且可以按用戶的prompt輸出不同的格式如latex 、word 、markdown。

透過強大的語言先驗，這種架構可以避免OCR中的易錯字，如「槓桿」和「杜桿」等。對於模糊文檔，借助語言先驗的幫助，也有望實現更強的OCR效果

引發了不少網友的關注的項目一經推出，立即引起了廣泛討論。其中一位網友在看到後直呼「殺爆了！」

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？圖片

這樣的效果是如何實現的呢？

受大模型啟發打造

目前的多模態大模型幾乎都是用CLIP作為Vision Encoder或說視覺詞表。確實，在400M圖像文字對訓練的CLIP有很強的視覺文字對齊能力，可以涵蓋多數日常任務下的圖像編碼。

但對於密集和細粒度感知任務，例如文檔層級的OCR、Chart理解，特別是在非英文場景，CLIP表現出了明顯的

編碼低效和out-of-vocabulary問題。

純NLP大模型（如LLaMA）從英文過渡到中文（對大模型來說是“外語”）時，因為原始詞表編碼中文效率低，必須要擴大text詞表才能實現較好的效果。

研究團隊從中得到了啟發，正是因為這個特點

現在基於CLIP視覺詞表的多模態大模型，面臨著同樣的問題，遇到“foreign language image ”，如一頁論文密密麻麻的文字，很難有效率地將圖片token化。

Vary是為解決這個問題而提供的解決方案，它可以在不重新建立原始詞表的情況下，高效地擴充視覺詞表

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？圖片

不同於現有方法直接用現成的CLIP詞表，Vary分兩個階段：

首先，我們將在第一階段使用一個小型的僅解碼器網絡，以自回歸的方式生成一個強大的新視覺詞表

接下來，在第二階段將新詞表和CLIP詞表進行融合，以便高效地訓練LVLM並賦予其新的特性

以下是Vary的訓練方法和模型結構圖示：

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？

#透過在公開資料集以及渲染生成的文檔圖表等資料上訓練，Vary極大增強了細粒度的視覺感知能力。

在維持vanilla多模態能力的同時，激發出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外，研究團隊注意到原本可能需要數千tokens 的頁面內容，透過文件圖片輸入，資訊被Vary壓縮在了256個圖片tokens中，這也為進一步的頁面分析和總結提供了更多的想像空間。

目前，Vary的程式碼和模型都已開源，也給了供大家試玩的網頁demo。

有興趣的朋友可以去試試了～

以上是曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

頁面模型 ocr

來源：51cto.com

上一篇：deepin 新增“映像 AI 外掛程式”，支援裝置端映像上色和其他 8 大功能下一篇：全球首個AMD AI Windows三合一平板電腦-銘凡V3今晚揭曉

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

頁面突然無法拉動 css 或 bootstrap 所以我正在開發一個頁面，我昨天做了一部分，效果很好，今天我繼續做剩下的部分，一切都很好。當我嘗試將其作為普通html頁面打開時，CSS或BOOTSTRAP不起作用，僅顯示頁面文本，...

來自於 2024-04-06 21:58:04

0

1

800

如何在 React 中的排序方法上觸發渲染（帶有過濾器和分頁）？這是我的Sort.js樣式元件：<SortWrapper><SortText>SortBy</SortText><SortSelecton...

來自於 2024-04-06 21:28:37

0

1

2257

如何在 CSS 中使浮動元素垂直堆疊而不是水平堆疊？我正在嘗試製作一個包含兩列的網頁，一側具有主要內容，另一側具有額外的內容。但是因為我使用浮動屬性將額外的列向左對齊，所以它水平堆疊，但我希望它垂直堆疊。我目前的程式碼：.topic...

來自於 2024-04-06 20:45:26

0

2

386

解決CSS中頁面底部神秘空白的方法我正在嘗試使用Bootstrap和D3建立一個簡單的網頁，但我不知道如何消除底部的所有空白。我想擺脫它。我嘗試將body和html的min-height設定為100%，但沒有任何作...

來自於 2024-04-06 20:22:15

0

1

454

MySQL從多個表中取得數據我有一個eg_design表，其中包含以下幾列：和eg_domains表，其中包含以下列：和eg_fonts表，其中包含以下幾列：現在，基於$domain_id我想獲取eg_des...

來自於 2024-04-06 18:42:44

0

2

479

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1424405
php入門教程之一週學會PHP

4270753
JAVA 初級入門影片教學

2549270
小甲魚零基礎入門學習Python影片教學

508227
PHP 零基礎入門教學

863759

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板