第 47 屆國際電腦協會資訊檢索大會(ACM SIGIR) 於 2024 年 7 月 14 日至 18 日在美國華盛頓特區舉行。該會議是資訊檢索領域的頂級學術會議。 剛剛,大會公佈了最佳論文獎、最佳論文亞軍、最佳論文榮譽提名獎以及時間檢驗獎等獎項。 其中,清華大學、中國人民大學高瓴人工智慧學院、小紅書團隊獲得了最佳論文;來自格拉斯哥大學、比薩大學的研究者摘得亞軍;最佳論文榮譽提名獎頒給了山東大學(青島)、萊頓大學、阿姆斯特丹大學的研究者;時間檢驗獎頒給了清華大學、加州大學聖克魯斯分校的研究者。
- 論文:Scaling Laws For Dense Retrieval
- 論文:Scaling Laws For Dense Retrieval
- 機構:清華大學、中國人民大學高瓴人工智能學院、小紅書
- 論文鏈接:https://dl.acm.org/doi/abs/10.1145/3626772.3657743
論文簡介:在廣泛的任務中,特別是在語言生成中,研究人員都觀察到了擴展定律。研究顯示大型語言模型的效能遵循模型和資料集大小的可預測模式,這有助於有效且有效率地設計訓練策略,特別是在大規模訓練變得越來越資源密集的情況下。然而,在密集檢索中,擴展定律尚未被充分探索。 該研究探討了擴展如何影響密集檢索模型的效能。具體來說,研究團隊實現了具有不同數量參數的密集檢索模型,並使用不同數量的註釋資料對其進行訓練。研究使用對比熵(contrastive entropy )作為評估指標,與離散的排名指標相比,對比熵是連續的,因此可以準確地反映模型的表現。 實驗結果表明,密集檢索模型的性能遵循與模型大小以及註釋數量相關的精確冪律擴展。 此外,研究還表明,擴展定律有助於優化訓練過程,例如解決預算約束下的資源分配問題。 這項研究極大地有助於理解密集檢索模型的擴展效應,為未來的研究提供了有意義的指導。 本屆 ACM SIGIR 最佳論文亞軍頒給了論文「 A Reproducibility Study of PLAID 」。論文作者包括來自格拉斯哥大學的 Sean MacAvaney、以及來自比薩大學的 Nicola Tonellotto。
論文地址:https://arxiv.org/pdf/2404.14989論文摘要:ColBERTv2 的 PLAID 演算法使用聚類術語表示來檢索最終的剪枝文檔,以獲得最終的文件評分。本文複製並填補了原文中缺失的空白。透過研究 PLAID 引入的參數,研究者發現它的帕累托邊界是由三個參數之間的平衡形成的。超出建議設定的偏差可能會大大增加延遲,而不一定會提高其有效性。 基於這一發現,本文將 PLAID 與論文中缺失的一個重要基線進行比較:對詞彙系統進行重新排序。發現在初始 BM25 結果池之上應用 ColBERTv2 作為重新排序器,在低延遲設定中提供了更好的效率 - 有效性權衡。這項工作強調了在評估檢索引擎效率時仔細選擇相關基準的重要性。 此次會議的最佳論文榮譽提名獎由山東大學(青島)、萊頓大學、阿姆斯特丹大學的研究者摘得。獲獎論文為「 Generative Retrieval as Multi-Vector Dense Retrieval 」。
- 論文作者:吳世廣,魏聞達,張孟奇,陳竹敏,馬軍,任昭春,Maarten de Rijke,任鵬傑
:本文透過證明產生檢索和多向量密集檢索共享相同的框架來衡量文件查詢的相關性。具體來說,他們研究了產生檢索的注意力層和預測頭,揭示了生成檢索可以理解為多向量密集檢索的一個特例。這兩種方法都透過計算查詢向量和文件向量與對齊矩陣的乘積總和來計算相關性。
然後,研究者探討了產生檢索如何應用此框架,他們採用不同的策略來計算文件 token 向量和對齊矩陣。並進行了實驗來驗證結論,表明這兩種範式在其對齊矩陣中都表現出術語匹配的共性。
本屆ACM SIGIR 時間檢驗獎頒給了10 年前在SIGIR 2014 上發表的關於可解釋的研究論文為可解釋的研究論文為“可解釋” Relic for Relicable Relication Relicables 論文為“可解釋”的論文版本,為“可解釋”標題 Relic for Reliccom Expends 上發表的關於可解釋版本,論文為可解釋“可解釋”的另一項可解釋“可解釋”72014 上發表的關於可解釋論文based on Phrase-level Sentiment Analysis 」。
論文 作者:張永鋒、賴國堃、 www.cs.cmu.edu/~glai1/papers/yongfeng-guokun-sigir14.pdf
- 該研究首次定義了“可解釋性推薦”問題,並提出了相應的情感分析方法用於解決這項技術挑戰,在相關領域一直發揮引領作用。
論文摘要
:基於協同過濾(CF)的建議演算法,例如潛在因子模型(LFM),在預測準確率方面表現良好。然而,潛在特徵使得向使用者解釋推薦結果變得困難。
幸運的是,隨著線上用戶評論的不斷增長,可用於訓練推薦系統的資訊不再僅限於數位星級評分或用戶 / 商品特徵。透過從評論中提取用戶對產品各個方面的明確意見,可以更詳細地了解用戶關心的方面,這進一步揭示了做出可解釋推薦的可能性。
本文提出了 EFM(Explicit Factor Model )來產生可解釋的推薦,同時保持較高的預測準確率。 研究者首先透過對使用者評論進行短語級情緒分析來提取顯性產品特徵和使用者意見,然後根據使用者興趣的特定產品特徵和學習到的隱藏特徵產生推薦和不推薦。此外,從模型中也產生了為什麼推薦或不推薦某件商品的直覺特徵級解釋。
在多個真實數據集上的離線實驗結果表明,該研究提出的框架在評分預測和 top-K 推薦任務上均優於競爭基線演算法。線上實驗表明,詳細的解釋使推薦和不推薦對用戶的購買行為更具影響力。
ACM SIGIR 青年學者獎旨在表彰在資訊檢索研究、學者社區建設、推進學術研究人員,要求授予學術博士學位年內的青年研究學者。來自清華大學電腦系的助理教授艾清遙、來自中國科學技術大學網路空間安全學院、大數據學院教授、博士生導師王翔獲得了 SIGIR 2024 青年學者獎。 艾清遙是清華大學電腦系助理教授,主要研究領域集中在資訊檢索、機器學習以及自然語言處理研究方面。重點研究方向為智慧資訊檢索系統的研究與設計,包括資訊表示學習、排序最佳化理論、大語言模型在網路搜推與智慧司法的應用等。 王翔是中國科學技術大學網路太空安全學院、大數據學院教授、博士生指導教授。王翔教授的研究興趣包括資訊檢索、資料探勘以及可信賴、可解釋人工智慧,特別是推薦系統、圖表學習和社群媒體分析。 以上是清華包辦最佳論文+時間檢驗獎,山大獲榮譽提名,SIGIR 2024獎出爐的詳細內容。更多資訊請關注PHP中文網其他相關文章!