文章專題學習下載問答程式設計字典遊戲最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

首頁 > 科技週邊 > 人工智慧 > 主體

全球優質語言資料存量告急，不容忽視

WBOY

發布： 2023-04-26 11:37:07

轉載

1395 人瀏覽過

作為人工智慧的三個要素之一，數據的作用舉足輕重。

但大家有沒有想過：假如有一天，全世界的資料都用完了那咋整？

實際上，提出這個問題的人絕對沒有精神問題，因為這一天——可能真的快來了！！！

近日，研究員Pablo Villalobos等人一篇名為《我們會用完資料嗎？機器學習中資料集縮放的限制分析》的論文，發表在了arXiv。

他們根據先前對資料集大小趨勢的分析，預測了語言和視覺領域資料集大小的成長，估計了未來幾十年可用未標記資料總存量的發展趨勢。

他們的研究顯示：最早在2026年，高品質語言資料就將全部消耗殆盡！機器學習發展的速度也將因此而放緩。實在不容樂觀。

兩方法雙管齊下，結果不那麼樂觀

這篇論文的研究團隊由11位研究員和3位顧問組成，成員遍布世界各地，致力於縮小AI技術發展與AI策略之間的差距，並為AI安全的關鍵決策者提供建議。

全球優質語言資料存量告急，不容忽視

Chinchilla是DeepMind的研究人員提出的一種新型預測計算最佳化模型。

實際上，先前在對Chinchilla進行實驗時，就曾有研究員提出「訓練資料很快就會成為擴展大型語言模型的瓶頸」。

因此他們分析了用於自然語言處理和電腦視覺的機器學習資料集大小的增長，並使用了兩種方法進行推斷：使用歷史增長率，並為未來預測的計算預算估計計算最佳資料集大小。

在此之前，他們一直在收集有關機器學習輸入趨勢的數據，包括一些訓練數據等，也透過估計未來幾十年互聯網上可用未標記數據的總存量，來調查資料使用成長。

全球優質語言資料存量告急，不容忽視

由於歷史預測趨勢可能會受過去十年計算量異常增長的“誤導”，研究團隊還使用了Chinchilla縮放定律，來估計未來幾年的資料集大小，提升計算結果的準確性。

最終，研究人員使用一系列機率模型估計未來幾年英語語言和圖像資料的總存量，並比較了訓練資料集大小和總資料庫存的預測，結果如下圖所示。

全球優質語言資料存量告急，不容忽視

這表示資料集的成長速度將遠快於資料存量。

因此，如果當前趨勢繼續保持下去，資料存量被用光將是不可避免的。下表則顯示了預測曲線上每個交叉點的中位數耗盡年數。

全球優質語言資料存量告急，不容忽視

高品質的語言資料庫存最快可能在2026年之前就被用盡。

相較之下，低品質的語言資料和影像資料情況略好：前者將在2030年至2050年間用光，後者將在2030年至2060年之間。

在論文的最後，研究團隊給出結論：如果數據效率沒有大幅提高或新的數據來源可用，當前依賴巨大數據集不斷膨脹的機器學習模型，它的增長趨勢很可能會放緩。

網友：杞人憂天，Efficient Zero了解一下

不過在這篇文章的留言區裡，大多數網友卻認為作者杞人憂天。

Reddit上，一位名為ktpr的網友表示：

「自我監督學習有啥毛病麼？如果任務指定得好，它甚至可以組合擴展資料集大小。」

全球優質語言資料存量告急，不容忽視

#名為lostmsn的網友則更加不客氣。他直言：

「Efficient Zero都不了解一下？我認為作者已經嚴重脫離時代了。」

全球優質語言資料存量告急，不容忽視

Efficient Zero是一種能高效採樣的強化學習演算法，由清華大學的高陽博士提出。

在資料量有限的情況下，Efficient Zero一定程度上解決了強化學習的效能問題，並在演算法通用測試基準Atari Game上獲得了驗證。

全球優質語言資料存量告急，不容忽視

在這篇論文作者團隊的部落格上，就連他們自己也坦言：

「我們所有的結論都基於不切實際的假設，即當前機器學習數據使用和生產的趨勢將繼續保持下去，並且數據效率不會有重大提升。」

####################### 「一個更可靠的模型應該考慮到機器學習資料效率的提高、合成資料的使用以及其他演算法和經濟因素。」############「因此就實際情況來說，這種分析有嚴重的限制。模型的不確定性非常高。」############「不過總體而言，我們仍認為由於缺乏訓練數據，到2040年機器學習模型的擴展有大約有20%的可能性會顯著放緩。」#######

以上是全球優質語言資料存量告急，不容忽視的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

ai 數據

來源：51cto.com

上一篇：探索後GPT 3.0時代的大模型技術，邁向實現AGI的未來下一篇：盤點自動駕駛AI晶片選型的20個關鍵指標

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

中國聯通極目無人機監管平台發布：5G 智慧終端、數位化劃分空域、全程感知 / 監控目標

2024-07-24 00:12:44
dnf手遊閃光節活動入口在哪

2024-07-24 00:10:00
C# |平衡清潔架構中的跨領域問題

2024-07-24 00:08:04
《永劫無間手遊》棍子怎麼玩

2024-07-24 00:07:46
《墨劍江湖》井中古怪任務攻略

2024-07-24 00:04:06
原神隱藏成就逃逸電子怎麼獲得

2024-07-24 00:03:18
小米MIXFlip如何強制重啟手機？

2024-07-24 00:01:40
全球交易所綜合排行榜虛擬幣

2024-07-23 23:00:02
全球公認十大比特幣交易所是哪幾個

2024-07-23 22:57:01
pepe幣從發行到現在漲了多少

2024-07-23 22:56:02

最新問題

如何在 PHP 中使用 while 迴圈按 ID 列出節中的資料？我有一個包含這些列的mysql表：series_id,series_color,product_name在輸出中，我想按部分列出數據，每個series_id一個部分，如下所示：A1...

來自於 2023-11-17 20:03:03

0

1

290

如何在 Dash 中使表格的儲存格值超連結？（使用 Plotly、Dash、Pandas 等）我想將“JobLink”列下的儲存格值設為超連結。當我單擊此連結時，它應該導航到新選項卡/視窗中的連結。請幫忙如何實現？表在Dash中顯示，我發現很難使其超連結。附截圖：https...

來自於 2023-11-17 18:47:10

0

1

283

如何在設定函數中存取 $vuetify 實例有沒有辦法在設定函數中存取$vuetify（以及任何其他新增的全域）？有沒有辦法讓可組合項存取它？ ...setup(){const{isDesktop}=$vuetify.bre...

來自於 2023-11-17 17:47:45

0

1

366

在存取路線之前預先載入路線資料的最佳方法。在為給定路由渲染頁面之前，我想先同步取得必要的資料。理想情況下，我希望在頁面組件中獲取數據，但我不反對在路由器文件中執行此操作。我已經閱讀並嘗試了各種方法，但部分挑戰來自於這樣一個...

來自於 2023-11-17 14:54:42

0

2

379

新標題：新腳本無法正確顯示儲存資料的奇怪字元編碼我正在嘗試重寫一個舊網站。它是波斯語，使用波斯/阿拉伯字符。 CREATEDATABASE`db`DEFAULTCHARACTERSETutf8COLLATEutf8_persia...

來自於 2023-11-17 10:51:01

0

2

273

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1387447
php入門教程之一週學會PHP

4194308
JAVA 初級入門影片教學

2298626
小甲魚零基礎入門學習Python影片教學

488123
PHP 零基礎入門教學

820031

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板

關於我們免責聲明 Sitemap: PHP中文網：公益線上PHP培訓，幫助PHP學習者快速成長！