近日,北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合計算中心、計算機學(xué)院、元培學(xué)院發(fā)布化學(xué)大模型基準(zhǔn)SUPERChem。該基準(zhǔn)針對當(dāng)前化學(xué)知識水平評測中題目難度有限、多模態(tài)與推理過程評估缺失等不足,系統(tǒng)構(gòu)建了專注評估大語言模型(LLM)化學(xué)推理分析能力的新體系,旨在推動化學(xué)智能評測的深入發(fā)展。
2025年,隨著開源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速發(fā)展,其在自然科學(xué)領(lǐng)域的應(yīng)用已從簡單問答轉(zhuǎn)向復(fù)雜推理。然而,現(xiàn)有通用科學(xué)基準(zhǔn)趨于飽和,化學(xué)專用基準(zhǔn)多關(guān)注基礎(chǔ)能力與化學(xué)信息學(xué)任務(wù),缺乏對深度推理的系統(tǒng)考察。
從基礎(chǔ)教育、化學(xué)奧賽到高等教育,化學(xué)學(xué)習(xí)強調(diào)知識綜合運用與多步推理,是評估推理分析能力的理想場景。設(shè)計高質(zhì)量評估題目需融合抽象概念與具體情境,構(gòu)建層層遞進的推理鏈,對出題者專業(yè)素養(yǎng)要求極高。
研究團隊依托北京大學(xué)化學(xué)與分子工程學(xué)院高水平的學(xué)生群體,充分發(fā)揮其扎實學(xué)科功底與豐富解題命題經(jīng)驗,對已有題目素材進行準(zhǔn)確評估與合理優(yōu)化,共同構(gòu)建了SUPERChem基準(zhǔn),填補了化學(xué)深度推理評估的空白。

SUPERChem總覽與例題

SUPERChem題庫的三階段審核流程
SUPERChem題庫由北大化學(xué)專業(yè)近百名師生共建,涵蓋題目編寫、解析撰寫及嚴(yán)格評審的三階段審核。題目源自專業(yè)改編,并采用防泄漏設(shè)計,避免LLM依賴記憶或從選項逆推。針對化學(xué)信息的多模態(tài)特點,同步提供圖文交錯與純文本版本的對齊數(shù)據(jù)集,支持探究視覺信息對推理的影響。
目前,SUPERChem先期發(fā)布500道專家級精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學(xué)反應(yīng)與合成、化學(xué)原理與計算、實驗設(shè)計與分析等四大化學(xué)核心領(lǐng)域。為細粒度評估LLM思考過程,SUPERChem引入推理路徑一致性(Reasoning Path Fidelity,RPF)指標(biāo):團隊為每道題目撰寫了含關(guān)鍵檢查點的詳細解析,通過自動化評估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學(xué)。

前沿模型在SUPERChem上的表現(xiàn)
評測結(jié)果顯示,SUPERChem具有較高難度與區(qū)分度。在化學(xué)專業(yè)低年級本科生閉卷測試中,人類準(zhǔn)確率為40.3%。參與評測的前沿模型中,表現(xiàn)最佳的GPT-5(High)準(zhǔn)確率為38.5%,表明其化學(xué)推理能力與低年級本科生水平相當(dāng),尚未超越人類基礎(chǔ)專業(yè)認知。

前沿模型的正確率與RPF關(guān)系
分析RPF指標(biāo)可見,不同模型推理過程質(zhì)量差異明顯:Gemini-2.5-Pro和GPT-5(High)在取得較高準(zhǔn)確率的同時,其推理邏輯也更符合專家路徑;而DeepSeek-V3.1-Think雖然準(zhǔn)確率相近,但RPF得分相對較低,反映其更傾向通過啟發(fā)式路徑得出結(jié)論。

輸入模態(tài)對不同模型的影響
在依賴多模態(tài)輸入的題目中,視覺信息對不同模型影響各異。對Gemini-2.5-Pro等強推理模型,圖像輸入可提升準(zhǔn)確率;而對GPT-4o等推理能力較弱的模型,圖像信息會造成干擾。這表明在科學(xué)任務(wù)中需根據(jù)模型能力匹配合適的輸入模態(tài)。
為進一步探究LLM推理失敗的深層原因,研究團隊進行了推理斷點分析。結(jié)果表明,前沿模型的推理斷點集中于產(chǎn)物結(jié)構(gòu)預(yù)測、反應(yīng)機理識別、構(gòu)效關(guān)系分析等高階化學(xué)推理環(huán)節(jié)。這反映出當(dāng)前LLM在涉及反應(yīng)性與分子結(jié)構(gòu)理解的核心任務(wù)上仍存在短板。

推理斷點所屬化學(xué)能力分布
綜上所述,SUPERChem為系統(tǒng)評估大語言模型的化學(xué)推理能力提供了細致、可靠的基準(zhǔn)。評測結(jié)果指出,當(dāng)前前沿模型的化學(xué)能力仍處于基礎(chǔ)水平,在涉及高階化學(xué)推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對性優(yōu)化提供了明確方向。
SUPERChem項目由北京大學(xué)化學(xué)與分子工程學(xué)院和元培學(xué)院的趙澤華、黃志賢、李雋仁、林思宇同學(xué)領(lǐng)銜完成。近百位化學(xué)與分子工程學(xué)院博士生和高年級本科生參與題庫構(gòu)建與審核,其中包括多位國際與中國化學(xué)奧林匹克決賽獲獎選手。174位北京大學(xué)化學(xué)專業(yè)低年級本科生參與了人類基線測試。
SUPERChem項目在北京大學(xué)化學(xué)與分子工程學(xué)院裴堅、高珍老師,計算中心馬皓老師,計算機學(xué)院楊仝老師的指導(dǎo)下開展。項目獲得北京大學(xué)計算中心與高性能計算平臺資源支持,來自Chemy、好未來、質(zhì)心教育等機構(gòu)和化學(xué)與分子工程學(xué)院鄒鵬、鄭捷等多位教授的題目素材支持以及高楊、龍汀汀老師的專業(yè)協(xié)助。
信息來源: 北大化學(xué)與分子工程學(xué)院


