小紅書這場大模型論文分享會，集齊了四大國際頂會的作者-人工智慧-PHP中文網

大模型正引領新一輪的研究熱潮，業界和學術界都湧現出了眾多的創新成果。

小紅書技術團隊也在這一浪潮中不斷探索，多篇論文研究成果在 ICLR、ACL、CVPR、AAAI、SIGIR、WWW 等國際頂會上頻頻亮相。

在大模型與自然語言處理的交會處，我們發現了哪些新機會與挑戰？

對於大模型，有哪些有效的評測方法？它又如何更好地融入應用程式場景中的呢？

6 月 27 日 19:00-21:30，【REDtech 來了】第十一期《小紅書 2024 大模型前沿論文分享》線上開播！

REDtech 特別邀請了小紅書社群搜尋團隊來到直播間，他們將分享 6 篇小紅書在 2024 年發表的大模型研究論文。小紅書精排LTR 負責人馮少雄，攜手多位頂會論文作者李易為、王星霖、袁沛文、張超等人，共同探討最新的大模型解碼與蒸餾技術、大模型評測方法，以及大模型在小紅書平台上的實際應用。

預約直播，多篇論文一作作者在線與你交流！你將獲得關於大模型技術的最新見解，探討未來的發展趨勢，並交流如何利用這些前沿技術提升使用者體驗，推動平台智慧化發展。

活動議程 小紅書這場大模型論文分享會，集齊了四大國際頂會的作者

01 Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning / 入選>

針對大模型多步驟推理中高成本問題的早停自洽性方法｜分享人：李易為

自洽性方法（Self-Consistency ，SC）一直是思維鏈推理中廣泛使用的解碼策略，透過產生多個思維鏈並取多數答案作為最終答案，來提高模型的效能。但它是一種高成本的方法，需要進行預設大小的多次取樣。在ICLR 2024 上，小紅書提出一個簡單且可擴展的取樣過程－早停自洽性方法（Early-Stopping Self-Consistency，ESC），它能在不犧牲效能的情況下，大幅降低SC 的成本。在此基礎上，團隊進一步推導出一種 ESC 控制方案，以動態選擇不同任務和模型的效能 - 成本平衡。三個主流推理任務（數學，常識和符號推理）的實驗結果顯示，ESC 在六個基準測試中顯著降低了平均採樣次數，同時幾乎保持原始效能。

論文地址：https://arxiv.org/abs/2401.10480

02 Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Langu / 入選ACL 2024

去粗取精：面向自由格式生成任務的細粒度自洽性方法｜分享人：王星霖分享人

：王星霖

小紅書在ACL 2024 中提出了Fine-Grained Self-Consistency (FSC) 方法，能夠顯著提升自洽性方法在自由格式產生任務上的表現。團隊首先透過實驗分析了現有面向自由格式產生任務的自洽性方法的不足來自於粗粒度的共性樣本選擇，其無法有效利用不同樣本細粒度片段之間的共通性知識。在此基礎上團隊提出了基於大模型自融合的 FSC 方法，實驗證實其在程式碼生成、摘要生成以及數學推理任務上都取得了顯著更優的表現，同時保持了相當的消耗。

論文地址：https://github.com/WangXinglin/FSC

03 BatchEval: Towards Human-like Text Evaluation / 入選ACL 2024，領域主席給予滿分評分，領域主席並推薦最佳論文邁向人類層級的文字評測｜

分享人

：袁沛文

小紅書在ACL 2024中提出了BatchEval 方法，能夠以更低的開銷達到類人層級的文字評測效果。團隊首先從理論層面分析了現有文本評測方法在評測魯棒性方面的不足來自於評測打分分佈不均勻、在得分集成方面的次優表現源自於評測視角多樣性的缺失。在此基礎上，受人類評測過程中透過樣本間比較來建立更立體全面、視角多樣的評測基準啟發，類比提出了 BatchEval。與目前最先進的若干方法相比，BatchEval 在評測開銷與評測效果兩方面都取得了顯著更優的表現。

論文地址：https://arxiv.org/abs/2401.00437

04 Poor-Supervised Evaluation for SuperLLM via Mutual Consistency / 入選ACL 2024透過互一致實現準確監督訊號匱乏下的超人水平大語言模型評測｜分享人：袁沛文

小紅書在 ACL 2024 中提出了 PEEM 方法，其能夠透過模型間的互一致性來實現對於超越人類水平的大語言模型的準確評測。團隊首先分析了當前大語言模型快速發展的趨勢會加速其在多個方面逐漸達到甚至超越人類水平，在此情況下，人類將難以再提供準確的評測訊號。為實現該場景下的能力評測，團隊提出了以模型間的互一致性為評測訊號的設想，並推導出了在評測樣本無窮時，如果存在參考模型與待評測模型間預測分佈獨立，則與此參考模型間的一致性可以作為模型能力的準確量測。在此基礎上，團隊提出了基於 EM 演算法的 PEEM 方法，實驗證實其能夠有效緩解現實中上述條件的不充足，從而實現對超越人類水平的大語言模型的準確評測。

論文地址：https://github.com/ypw0102/PEEM

05 Turning Dust into Gold：Distilling Complex Reasoning Capabilities from LLMs by Leveraging NAAAegative / plex Reasoning Capabilities from LLMs by Leveraging NAAAegative / 14424

利用負樣本促進大模型推理能力的蒸餾｜ 分享人：李易為

大語言模型（LLMs）在各種推理任務上表現優異，但其黑盒屬性和龐大參數量阻礙了它在實踐中的廣泛應用。特別是在處理複雜的數學問題時，LLMs 有時會產生錯誤的推理鏈。傳統研究方法僅從正樣本中遷移知識，而忽略了那些帶有錯誤答案的合成資料。在AAAI 2024 上，小紅書搜尋演算法團隊提出了一個創新框架，首次提出並驗證了負樣本在模型蒸餾過程中的價值，建立一個模型專業化框架，除了使用正樣本外，還充分利用負樣本來提煉LLM 的知識。該框架包括三個序列化步驟，包括負向協助訓練（NAT）、負向校準增強（NCE）和動態自洽性（ASC），涵蓋從訓練到推理的全階段過程。一系列廣泛的實驗，展示了負向數據在 LLM 知識蒸餾中的關鍵作用。

論文地址：https://arxiv.org/abs/2312.12832

06 NoteLLM: A Retrievable Large Language Model for Note Recommendation / 入選WWW 2024

基於大語言模型的筆記內容表徵推薦系統｜

分享人：張超小紅書APP 每天都有大量新書產生，如何有效地將這些新內容推薦給有興趣的用戶呢？基於筆記內容的推薦表徵是緩解筆記冷啟動問題的一種方法，也是眾多下游應用的基礎。近年來，大語言模型因其強大的泛化性和文字理解能力而備受關注。因此，我們希望利用大語言模型建構筆記內容表徵推薦系統，以增強筆記內容的理解。我們從產生增強表徵以及多模態內容表徵兩個角度介紹我們近期的工作。目前該系統已應用於小紅書多個業務場景並取得顯著收益。

論文網址：https://arxiv.org/abs/2403.01744

小紅書這場大模型論文分享會，集齊了四大國際頂會的作者