為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架
編輯 | ScienceAI
問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。
儘管目前已有許多科學QA資料集,涵蓋了醫學、化學、生物等領域,但這些資料集仍存在一些不足之處。
其一,資料形式較為單一,大多數為多項選擇題(multiple-choice questions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相較之下,開放式問答(openQA)可以更全面地評估模型的能力,但缺乏合適的評估指標。
其二,現有資料集的內容很多來自大學及以下等級的教科書,難以評估LLM在實際學術研究或生產環境中的高層次知識保持能力。
其三,這些基準資料集的創建依賴於人類專家標註。
應對這些挑戰對建立更全面的QA資料集至關重要,也有利於科學LLM的更精準評估。
圖示:從科學文獻中產生高品質科學問答對的SciQAG框架。
為此,美國Argonne國家實驗室、芝加哥大學Ian Foster 教授(2002年戈登貝爾獎得主)團隊、澳洲新南威爾斯大學Bram Hoex教授UNSW AI4Science團隊、AI4Science 公司GreenDynamics 與香港城市大學揭春雨教授團隊聯合提出了SciQAG,第一個基於大語言模型(LLM)從大型科學文獻語料庫中自動產生高品質科學開放性問答對的新型框架。
論文連結:https://arxiv.org/abs/2405.09939
github連結:https://github.com/MasterAI-EAM/SciQAGc一個大規模、高品質、開放式的科學QA資料集SciQAG-24D ,包含從24個科學領域的22,743篇科學論文中提取的188,042 個QA對,旨在服務LLM的微調和科學問題解答能力評估。
實驗證明,在 SciQAG-24D 資料集上對 LLM 進行微調可以顯著提高它們在開放式問題解答和科學任務中的表現。 資料集、模型和評估程式碼已經開源(https://github.com/MasterAI-EAM/SciQAG),以促進AI for Science社群對開放式科學問答的共同開發。SciQAG框架與SciQAG-24D基準資料集
SciQAG由QA生成器和QA評估器組成,旨在大規模快速產生基於科學文獻的多樣化開放式問答對。首先,生成器將科學論文轉換為問答對,然後評估器過濾掉不符合品質標準的問答對,從而獲得高品質的科學問答資料集。
QA生成器
研究人員經過對比實驗設計了兩步驟提示詞(prompt),令LLM先提取關鍵字,再基於關鍵字生成問答對。
由於產生的問答資料集採用「閉卷」模式,即不提供原始論文,只關注提取出的科學知識本身,prompt要求生成的問答對不依賴或參考原始論文中的特有信息(例如不得出現代稱如「本/該論文」,「本/該研究」等字樣,或向文中表格/圖片提問)。 為了平衡效能和成本,研究人員選擇微調一個開源LLM作為生成器。 SciQAG使用者可以根據自身情況選擇任何開源或閉源LLM作為生成器,既可以使用微調,也可以使用提示詞工程。QA評估器
評估器用於完成兩個目的:(1)評估產生的問答對品質;(2)基於設定標準摒棄低品質的問答對。
研究人員開發了一個綜合評估指標 RACAR,它由五個維度組成:相關性(relevance)、不可知性(agnosticism)、完整性(completeness)、準確性(accuracy)和合理性(reasonableness)。 在本研究中,研究人員直接使用 GPT-4 作為 QA 評估器,依照RACAR對產生的 QA 對進行評估,評估等級為 1-5(1 表示不可接受,5 表示完全可以接受)。 如圖所示,為了衡量 GPT-4 與人工評估之間的一致性,兩位領域專家使用 RACAR 指標對 10 篇文章(共 100 問答對)進行人工評估。使用者可以根據自身需求選擇任何開源或閉源LLM作為評估器。圖示:GPT-4 分配分數與專家標註分數之間的 Spearman 與 Pearson 相關性。
SciQAG 框架的運用
該研究從Web of Science (WoS)核心合集資料庫中獲取了24類高引用論文共計22,743篇,來自材料科學、化學、物理、能源等領域,旨在構建一個一個關於論文共計22,743篇,來自材料科學、化學、物理、能源等領域,旨在構建一個一個領域可靠、豐富、平衡且具代表性的科學知識來源。
為了微調開源LLM以形成QA生成器,研究人員從論文集合中隨機選擇426篇論文作為輸入,透過提示GPT-4產生4260個種子QA對。
使用經過訓練的QA產生器在剩餘論文上進行推理,共產生227,430個QA對(包括種子QA對)。從每個類別中抽取50篇論文(共1,200篇),使用GPT-4計算每個產生的QA對的RACAR分數,過濾掉任一維分數低於3的QA對作為測試集。
對於餘下的QA對,則使用基於規則的方法過濾掉所有包含論文特有資訊的問答對以形成訓練集。
SciQAG-24D 基準資料集
基於以上,研究人員建立了開放式科學QA 基準資料集SciQAG-24D,篩選後的訓練集包括21,529 篇論文和179,511 個篩選後的 QA測試集包含1,199 篇論文和8,531 個QA 對。
統計顯示,99.15%回答中的數據來自原論文,87.29%的問題相似度在0.3以下,且回答對原文內容的覆蓋度達到78.26%。
此資料集應用廣泛:訓練集可用於微調 LLM,為其註入科學知識;測試集可⽤於評估LLM在某特定或整體科學領域中的開放式QA任務表現。由於測試集較大,因此它也可以作為高品質資料用於微調。
圖示:SciQAG-24D資料集訓練和測試中不同類別的文章比例。
實驗結果
研究人員進行了全面的實驗以對比不同語言模型之間的科學問答性能差異及探索微調的影響。
零樣本設定(zero-shot setting)
研究人員使用 SciQAG-24D 中的部分測試集對五個模型進行了零樣本性能對比。其中兩個是開源的 LLM:LLaMA1 (7B) 和 LLaMA2-chat (7B),其餘的是閉源 LLM 。
透過API呼叫:GPT3.5 (gpt-3.5-turbo)、GPT-4 (gpt-4-1106-preview) 和 Claude 3 (claude-3-opus-20240229)。每個模型在測試中被提示了 1000 個問題,並透過 CAR 指標(由RACAR指標調整而來,只關注回答評估)評估其產出,以衡量其在回答科學研究問題方面的零樣本能力。
如圖所示,在所有模型中,GPT-4 在完備性(4.90)和合理性(4.99)方面得分最高,而 Claude 3 的準確度得分最高(4.95)。 GPT-3.5 的表現也非常出色,在所有指標上的得分都緊接在 GPT-4 和 Claude 3 之後。
值得注意的是,LLaMA1 在所有三個維度上的得分都最低。相較之下,LLaMA2-chat 模型雖然得分不如 GPT 模型高,但在所有指標上都比原來的 LLaMA1 有了大幅提高。結果顯示了商用LLM在回答科學問題方面的卓越性能,同時開源模型(如 LLaMA2-chat)也在這方面取得了顯著進展。
圖示:SciQAG-24D上的零樣本測試和微調測試(LLAMA1-QA)
微調設定(fine-tuning setting)
基研究人員選擇了零樣本性能最差在SciQAG-24D的訓練集上進行微調,以獲得LLaMA1-QA。透過三個實驗,研究人員證明SciQAG-24D 可以作為有效的微調數據,提高下游科學任務的性能:
(a)LLaMA-QA與原始LLaMA1的在未見過的SciQAG-24D測試集上的表現比較。
如上圖所示,與原始 LLaMA1相比,LLaMA1-QA的性能有了顯著提高(完整性提高了13%,準確性和合理性提高了 超過30%)。這顯示LLaMA1已經從SciQAG-24D的訓練資料中學習了回答科學問題的邏輯,並內化了一些科學知識。
(b)在 SciQ(一個科學 MCQ 基準)上的微調表現比較。
下表的第一行顯示LLaMA1-QA比LLaMA1稍有進步(+1%)。根據觀察,微調也增強了模型的指令跟隨能力:無法解析輸出的機率從LLaMA1的 4.1%降至LLaMA1-QA的 1.7%。
(c)在多種科學任務上的微調表現比較。
評估指標上,分類任務使用F1-score,迴歸任務使用MAE,轉換任務使用KL散度。如下表所示,科學任務中LLaMA1-QA與LLaMA1模型相比有明顯改善。
最明顯的改進體現在迴歸任務中,MAE從463.96降至185.32。這些發現表明,在訓練過程中加入QA對可以增強模型學習和應用科學知識的能力,從而提高其在下游預測任務中的表現。
令人驚訝的是,與專門設計的具有特徵的機器學習模型相比,LLM 可以在某些任務中取得相當甚至超越它們的結果。例如,在帶隙任務中,雖然LLaMA1-QA 的表現不如 MODNet 等模型(0.3327),但它已經超過了AMMExpress v2020(0.4161)。
在多樣性任務中,LLaMA1-QA 的表現優於深度學習基準(0.3198)。這些研究結果表明,LLM在特定科學任務中具有巨大潛力。
圖示:LLaMA1和LLaMA1-QA在SciQ和科學任務上的微調表現(M代表多項選擇,C代表分類,R代表回歸,T代表轉換)
總結與展望 (1)SciQAG是一個從科學文獻中產生QA對的框架,結合用於評估和篩選QA對的RACAR指標,可高效地為資源匱乏的科學領域產生大量基於知識的QA數據。
(2)團隊產生了一個包含188,042個QA對的綜合開源科學QA資料集,稱為SciQAG-24D。訓練集用於微調LLM,測試集評估LLM在開放式閉卷科學QA任務上的表現。
對SciQAG-24D測試集上幾個LLM的零樣本性能進行了比較,並在SciQAG-24D訓練集上微調了LLaMA1,得到了LLaMA1-QA。這種微調顯著提高了其在多個科學任務上的表現。
(3)研究表明,LLM在科學任務中具有潛⼒,LLaMA1-QA的結果可以達到甚⾄超過機器學習基線的⽔平。這證明了SciQAG-24D的多面向效用,顯示將科學QA資料納入訓練過程可以增強LLM的學習和應用科學知識的能力。
以上是為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undress AI Tool
免費脫衣圖片

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

本站8月1日消息,SK海力士今天(8月1日)發布博文,宣布將出席8月6日至8日,在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024,展示諸多新一代產品。未來記憶體和儲存高峰會(FutureMemoryandStorage)簡介前身是主要面向NAND供應商的快閃記憶體高峰會(FlashMemorySummit),在人工智慧技術日益受到關注的背景下,今年重新命名為未來記憶體和儲存高峰會(FutureMemoryandStorage),以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務,AI越來越多地用於加快這一過程。現有AI方法性能不盡人意,多樣性有限。在實踐中,化學反應通常會引起局部分子變化,反應物和產物之間存在很大重疊。受此啟發,浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro,該模型可以實現高品質和多樣化的預測。大量實驗表明,模型在標準基準資料集USPTO-50 K上取得了出色的性能,top-1準確率達到60.8%。
