研究：網路充斥低質機翻內容，大語言模型訓練需警覺資料陷阱-人工智慧-PHP中文網

研究：網路充斥低質機翻內容，大語言模型訓練需警覺資料陷阱

亞馬遜雲端運算人工智慧實驗室的研究人員最近發現，網路上存在大量由機器翻譯產生的內容，而這些翻譯跨越多種語言的品質普遍較低。研究團隊強調了在訓練大型語言模型時，資料品質和來源的重要性。這項發現突顯了在建立高品質語言模型時，需要更加關注數據的品質和來源的選擇。

研究也發現，機器生成內容在資源較少語言的翻譯中很普遍，並佔網路內容的很大一部分。

本站注意到，研究團隊開發了名為MWccMatrix的龐大資源，用於更好地理解機器翻譯內容的特徵。該資源包含64億個獨特句子，涵蓋了90種語言，並提供了相互翻譯的句子組合，即翻譯元組。

這項研究發現，大量網路內容通常透過機器翻譯被翻譯成多種語言。這種現象普遍存在於資源較少語言的翻譯中，並且佔據了這些語言網路內容的很大一部分。

研究人員也注意到，出於廣告收入等目的，被翻譯成多種語言的內容有選擇性偏差。

根據我的研究，我得出以下結論：「過去十年，機器翻譯技術取得了顯著進步，但仍然無法達到人類品質水平。在過去的多年中，人們使用了當時可用的機器翻譯系統將內容添加到網路上，因此網路上大部分機器翻譯內容的品質可能相對較低，無法滿足現代標準。這可能導致LLM模型產生更多的'幻覺'，而選擇偏差則表明即使不考慮機器翻譯錯誤，資料品質也可能較低。對於LLM的訓練來說，資料品質至關重要，高品質的語料庫，如書籍和維基百科文章，通常需要進行多次向上採樣。」

以上是研究：網路充斥低質機翻內容，大語言模型訓練需警覺資料陷阱的詳細內容。更多資訊請關注PHP中文網其他相關文章！