文章專題學習下載問答程式設計字典遊戲最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

首頁 > 科技週邊 > 人工智慧 > 主體

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

PHPz

發布： 2023-08-29 20:25:03

轉載

558 人瀏覽過

近年來，文字生成圖像領域取得了許多令人驚訝的突破，許多模型都能夠根據文字指令創建高品質和多樣化的圖像。儘管生成的圖像已經非常逼真，但目前的模型通常擅長生成風景、物體等實體圖像，而難以生成具有高度連貫細節的圖像，例如帶有漢字等複雜字形文本的圖像

為了解決這個問題，來自OPPO等機構的研究者提出了一個名為GlyphDraw的通用學習架構。此框架的目標是讓模型能夠產生嵌入連貫文字的圖像。這項工作是圖像合成領域中首個解決漢字生成問題的工作

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

#請點擊以下連結查看論文：https://arxiv. org/abs/2303.17870
專案首頁連結：https://1073521013.github.io/glyph-draw.github.io/

#讓我們先來看生成效果，例如為展覽館產生警示標語：

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

#製作廣告看板：

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

為圖片加入簡短的文字說明，同時也可以多樣化文字樣式

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

#還有一個有趣又實用的範例是產生表情符號：

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

#儘管結果有一些缺陷，但總體而言，研究的生成效果已經非常出色。研究的主要貢獻包括：

研究提出了一個名為GlyphDraw的漢字影像生成框架。在整個生成過程中，利用漢字字形和位置等輔助訊息，該框架能夠提供細粒度的指導，從而使得生成的漢字圖像能夠高品質地無縫嵌入到圖像中
這項研究提出了一種有效的訓練策略，透過限制預訓練模型中可訓練參數的數量，以防止過度擬合和災難性遺忘（catastrophic forgetting），成功地保持了模型在開放域生成方面的強大性能，並且能夠準確地生成漢字圖像
這項研究詳細描述了構建訓練資料集的過程，並提出了一種新的基準方法來評估漢字圖像生成的品質。其中，GlyphDraw 的生成準確率達到了75%，明顯優於先前的影像合成方法

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

模型介紹：

首先，該研究設計了一種複雜的圖像-文字資料集建構策略。接著，利用開源影像合成演算法Stable Diffusion，提出了一個通用學習框架GlyphDraw，如圖2所示

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

穩定擴散的整體訓練目標可以表示為以下公式：

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

GlyphDraw是基於Stable Diffusion中的交叉注意力機制的。它將原始輸入的潛在向量z_t與圖像的潛在向量z_t、文字掩碼l_m和字形圖像l_g進行級聯替代

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

此外，透過使用特定領域的融合模組，條件C 配備了混合字形和文字特徵。引入文本掩碼和字形信息，使整個訓練過程實現了細粒度的擴散控制，這是提高模型性能的關鍵組成部分，最終能夠生成帶有漢字文本的圖像

具體來說，文本資訊的像素表徵，在特別是複雜的文本形式中，如像形漢字，與自然物體有明顯的差異。舉例來說，中文詞語「天空（sky）」是由二維結構的多個筆畫組成，而對應的自然圖像是「點綴著白雲的藍天」。相較之下，漢字具有非常細粒度的特性，即使是微小的移動或變形也會導致文字渲染不正確，從而無法實現圖像生成

嵌入字元到自然影像背景中還需要考慮一個關鍵問題，即在不影響相鄰自然影像像素的情況下，精確控製文字像素的生成。為了在自然圖像上展示出完美的漢字，作者設計了兩個關鍵組件，即位置控制和字形控制，它們被集成到了擴散合成模型中

#與其他模型的全局條件輸入不同，字符生成需要更多地關注影像的特定局部區域，因為字元像素的潛在特徵分佈與自然影像像素的潛在特徵分佈有很大差異。為了防止模型學習崩潰，該研究創新性地提出了細粒度位置區域控制來解耦不同區域之間的分佈

#重寫後的內容：除了位置控制之外，另一個重要問題是對漢字筆畫合成進行精細控制。考慮到漢字的複雜性和多樣性，在沒有任何明確的先驗知識的情況下，僅僅從大量的圖像-文字資料集中學習是非常困難的。為了準確產生漢字，該研究將顯式的字形圖像作為額外的條件資訊引入模型的擴散過程中

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

#為了保持原意不變，需要將內容改寫為中文，以下是改寫後的內容：研究設計和實驗結果

由於先前沒有專門用於漢字影像生成的資料集，該研究首先創建了一個用於定性和定量評估的基準資料集ChineseDrawText。隨後，研究人員在ChineseDrawText上進行了幾種方法的生成準確率測試，並透過OCR識別模型進行評估

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

該研究提出的GlyphDraw模型透過充分利用輔助字形和位置訊息，達到了平均準確率為75%的出色效果，證明了該模型在字元圖像生成方面的卓越能力。下圖展示了幾種方法的可視化比較結果

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

此外，GlyphDraw還可以透過限制訓練參數來保持開放域影像合成性能，在MS-COCO FID-10k上一般影像合成的FID只下降了2.3

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包

有興趣的讀者可以閱讀論文原文，了解更多研究細節。

以上是OPPO提出GlyphDraw：一鍵產生漢字影像，擴散模型輸出表情包的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

理論

來源：jiqizhixin.com

上一篇：我國人工智慧算力已形成四大核心區域領先發展局面下一篇：智慧充電解決方案：能鏈智電推出智慧補能方案，涵蓋充電樁與自動充電機器人等創新技術

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

Shiba Inu Worth Sees a Notable Improve Amid Market Rebound

2024-07-21 14:12:58
六種替代加密貨幣準備在未來一周面臨市場供應增加的挑戰

2024-07-21 14:04:37
原神開局雙子選擇推薦

2024-07-21 14:03:16
Linux GNU glibc 標準函式庫 gethostbyname 函數緩衝區溢位漏洞，你的伺服器有嗎？

2024-07-21 13:56:39
永劫無間手遊嶽山武器怎麼搭配

2024-07-21 13:54:55
為什麼以太幣和山寨幣價格會飆升

2024-07-21 13:34:48
Synthetix (SNX)：加密貨幣市場的領導者

2024-07-21 13:27:08
比特幣（BTC）可能已經觸底，標誌著熊市結束

2024-07-21 13:18:57
MoonBag：加密貨幣的後起之秀可望超越狗狗幣

2024-07-21 13:12:37
BTC 值得在今年達到 10 萬美元嗎？

2024-07-21 13:09:59

最新問題

在存取路線之前預先載入路線資料的最佳方法。在為給定路由渲染頁面之前，我想先同步取得必要的資料。理想情況下，我希望在頁面組件中獲取數據，但我不反對在路由器文件中執行此操作。我已經閱讀並嘗試了各種方法，但部分挑戰來自於這樣一個...

來自於 2023-11-17 14:54:42

0

2

379

Nuxt.js SSG（靜態站點產生器）取得API數據當使用靜態網站產生器建立專案時，我理解提前建立的文件是提供給使用者的。如果進入頁面時有使用axios等取得資料並顯示在螢幕上的邏輯，對應的API是被快取還是不被呼叫？

來自於 2023-11-16 21:36:07

0

1

176

捕獲Guzzle的異常我正在嘗試捕獲在我正在開發的API上運行的一組測試中的異常，並且我正在使用Guzzle來使用API方法。我已經將測試包裝在try/catch區塊中，但它仍然拋出未處理的異常錯誤...

來自於 2023-11-16 14:36:03

0

12

290

react中的受控元素怎麼理解 react中的受控元素怎麼理解？使用state狀態控制？ react中的受控元素怎麼理解？使用state狀態控制？

來自於 2023-11-16 14:51:10

0

1

106

如何根據角色為每個使用者定義一組權限的Laravel Spatie權限設定方法？我有4種類型的使用者使用我的系統：1.超級管理員2.超級管理員團隊、3.管理員和4。管理團隊成員，因為我使用spatie來處理角色和權限，所以我有一組對於所有類型的使用者來說都很常...

來自於 2023-11-14 12:58:58

0

1

292

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1387079
php入門教程之一週學會PHP

4193652
JAVA 初級入門影片教學

2295142
小甲魚零基礎入門學習Python影片教學

487877
PHP 零基礎入門教學

819752

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板

關於我們免責聲明 Sitemap: PHP中文網：公益線上PHP培訓，幫助PHP學習者快速成長！