BioMysteryBench:Mythos 解專家無解題 29.6%

鏈新聞abmedia

Anthropic 4 月 29 日於官方研究公告發表 BioMysteryBench—一套針對 AI 生物資訊分析能力的新評測基準,由真實研究情境中的開放式問題組成。最值得關注的數據是:在人類專家小組嘗試後仍無法解出的題目中,Anthropic 旗艦模型 Mythos 解出 29.6%、Opus 4.7 解出 27.0%。

評測設計:可解題與專家無解題雙軌

BioMysteryBench 由兩種題型組成。第一類是「可解題」—由生物資訊研究人員設計、有標準答案可對照的分析任務;第二類是「專家無解題」—由人類專家小組嘗試後仍無法找出可信解答的題目,用來測試模型是否能跨越目前領域知識的邊界。

在可解題部分,Anthropic 各代次模型呈現明確的能力梯度:Claude Haiku 4.5 解出 36.8%、Claude Sonnet 4.6 達 71.8%、最新旗艦 Claude Mythos 達 82.6%。這個梯度大體符合 Anthropic 對外宣稱的模型能力差異—Haiku 為輕量型、Sonnet 為主力型、Mythos 為頂級研究型。

真正具話題性的是專家無解題部分。這類題目是經過生物資訊領域專家小組評估後標記為「無解或無共識」的問題;Mythos 解出其中 29.6%、Opus 4.7 解出 27.0%。這個結果不是「模型比人類強」的單一證明—更精確的說法是:在專家因路徑、時間或資源限制而無法處理的問題上,AI 能提出可被驗證的解法路徑,未必是最終答案,但具備「未被人類嘗試過的角度」這個屬性。

與 Claude for Life Sciences 並行推進

BioMysteryBench 與 Anthropic 自 2025 年下半年起推動的「Claude for Life Sciences」計畫同向。後者瞄準藥物研發、基因組學、臨床試驗設計等具體應用場景;前者則是用評測手法量化 AI 在生命科學領域的「研究級能力」進展。兩者組合的訊號是:Anthropic 把生物醫學定位為 Claude 的長期應用主戰場之一,與 DeepMind AlphaFold 路線形成不同入口的競爭。

Mythos 解出近 30% 專家無解題的數字若能在獨立第三方驗證中重現,將成為 AI 模型在科研場景具體價值的早期實證。後續觀察點包括:BioMysteryBench 是否會被其他研究機構採用為標準評測、解出題目的人類專家驗證程序、以及 Mythos 在實際研究計畫中是否能複製測試結果。

這篇文章 BioMysteryBench:Mythos 解專家無解題 29.6% 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Nvidia 的 NVentures 投資 $50M 於法律 AI 平台 Legora 的 A 系列 D 延伸(Series D Extension)

根據 ChainCatcher,Nvidia 的風投子公司 NVentures 參與了 Legora 的 5,000 萬美元 D 輪延長融資,這也是其首次投資法律 AI。這家與 Harvey 競爭的瑞典法律科技新創,其年度經常性收入(ARR)超過 1 億美元,

GateNews8分鐘前

OpenAI 首席財務官(CFO)建議將首次公開募股(IPO)延後至 2027 年,因成長放緩;執行長(CEO)則偏向 2026 年第 4 季

根據 Odaily,OpenAI 首席財務官 Sarah Friar 曾私下建議將該公司的首次公開募股(IPO)延後至 2027 年,理由是未能符合上市公司財務報告標準;而執行長 Sam Altman 則目標是將上市時間提前至 2026 年第四季度。ChatGPT 的每週活躍用戶在

GateNews1小時前

Bakkt 完成 DTR 收購,並在營收成長與策略重整中推進

Bakkt 已完成對 Distributed Technologies Research 的收購,這項舉措旨在將原生於人工智慧(AI)的穩定幣基礎設施整合到其核心金融服務中。 現代化全球結算 Bakkt Inc. 已完成對 Distributed Technologies 的收購

Coinpedia1小時前

伯克希爾 CEO:大型資料中心建設為公用事業創造重大成長機會

根據 Berkshire Hathaway 執行長 Greg Abel 於 5 月 3 日舉行的年度股東大會上的說法,大規模數據中心建設以及由此帶來的電力需求正在為公用事業公司創造顯著的成長機會。Abel 表示,該公司在部署 AI 方面維持審慎的態度,u

GateNews1小時前

Anthropic 談判擬向英國新創 Fractile 購買推論晶片,估值超過 10 億美元

根據 Beating,Anthropic 正在洽談從位於倫敦的初創公司 Fractile 購買推論晶片;該公司正尋求超過 1 億美元的融資,估值超過 10 億美元。Fractile 成立於 2022 年底,採用基於 SRAM 的架構以降低推論的功耗以及

GateNews2小時前
留言
0/400
暫無留言