大模型長文字能力測試,又有新方法了!
騰訊MLPD實驗室,以全新開源的「數星星」#方法取代了傳統的「大海撈針」測試。
相較之下,新方法更著重於對模型處理長依賴關係能力的考察,對模型的評估更全面精準。
利用這種方法,研究人員對GPT-4和國內知名的Kimi Chat進行了「數星星」測試。
結果,在不同的實驗條件下,兩款模型各有勝負,但都體現出了很強的長文本能力。
△橫軸係以2為底的對數座標
那麼,「數星星」究竟是怎樣的一種測試呢?
首先,研究人員選擇了一段長篇文字做為上下文,測試過程中長度逐漸遞增,最大為128k。
然後,根據不同的測試難度需求,整段文字會被分割成N段,並向其中插入M個包含「星星」的句子#。
實驗過程中,研究人員選擇了《紅樓夢》作為上下文文本,向其中加入了「小企鵝數了x顆星星」這樣的句子,每個句子中的x都各不相同。
然後,模型會被要求找到所有這樣的句子,並以JSON格式輸出其中所有的數字#,且只輸出數字。
得到模型的輸出之後,研究者會將這些數字和Ground Truth進行對比,最後計算出模型輸出的正確率。
比起先前的「大海撈針」測試,這種「數星星」的方法更能體現出模型處理長依賴關係能力。
簡而言之,「大海撈針」中插入多個「針」就是插入多個線索,然後讓大模型找到並串聯推理多個線索,並獲得最終答案。
但實際的「大海撈多針」測試中,模型並不需要找到所有「針」才能答對問題,甚至有時只需要找到最後一根就可以了。
但「數星星」則不同——因為每句話中「星星」的數量都不一樣,#模型必須把所有星星都找到才能把問題答對。
所以,雖然看似簡單,但至少在多「針」任務上,「數星星」對模型長文字能力有著更為精準的體現。
那麼,有哪些大模型最先接受了「數星星」測試呢?
參加這場測試的大模型分別是GPT-4和國內以長文本能力而知名的大模型Kimi。
在「星星」數量和文字粒度均為32時,GPT-4的準確率達到了96.8%,Kimi則有86.4%。
但當「星星」增加到64顆時,Kimi則以93.1%的準確率超過了準確率為89.7%的GPT-4.
減少到16時,也是Kimi的表現略勝GPT-4。
而分割的顆粒度也會對模型的表現造成一些影響,在「星星」同樣出現32次時,顆粒度從32變為16,GPT-4的成績有所上升,而Kimi則有所下降。
要注意的是,在以上的測試中,「星星」的數量是依次遞增的,但研究人員很快就發現,這種情況下大模型很喜歡「偷懶」-
當模型發現星星數量是遞增的時候,即使區間內的數字是隨機生成,也會造成大模型的敏感度增加。
例如:模型對3、9、10、24、1145、114514這樣的遞增序列會比24、10、3、1145、9、114514更敏感
所以,研究人員又特意將數字的順序進行了打亂,重新進行了一次測試。
結果在打亂之後,GPT-4和Kimi的表現都出現了明顯下降,不過準確率仍在60%以上,兩者相差8.6個百分點。
這個方法的準確度可能還需要時間檢驗,但不得不說名字起得真的很有一手。
△英文系同名歌曲Counting Stars歌詞
網友也不禁感嘆,現在關於大模型的研究,真的是越來越魔幻了。
但魔幻的背後,也體現出人們對於大模型長語境處理能力和效能的了解還不夠充分。
就在前幾天,先後有多家大模型廠商宣布推出能夠處理超長文本的模型(雖然不全是基於上下文窗口實現),最高可達上千萬,但實際表現還是未知數。
而Counting Stars的出現,或許剛好有助於我們了解這些模型的真實表現。
那麼,你還想看看哪些模型的測驗成績呢?
論文網址:https://arxiv.org/abs/2403.11802
GitHub:https://github.com/nick7nlp/Counting-Stars
以上是「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠的詳細內容。更多資訊請關注PHP中文網其他相關文章!