廣場
最新
熱門
新聞
我的主頁
發布
Degen Sing
2026-03-12 06:14:11
關注
終於出了一個真正重要的基準測試。
忘掉 MMLU 和數學分數吧…… PinchBench 測試哪個 AI 模型在執行實際工作方面表現最佳。
不是回答瑣事,而是真正完成任務:
→ 從多個網路資源查詢資訊
→ 創建並安排會議
→ 組織電腦上的檔案
→ 撰寫和管理電子郵件
它測試模型作為代理通過 OpenClaw 運行……意味著 AI 必須使用工具、鏈接操作,並完成端到端的任務。
結果非常有趣:
> Gemini 3 Flash 以 95.1% 領先
> MiniMax M2.1 緊隨其後,93.6%
> Kimi K2.5 93.4%
> Claude Sonnet 92.7%
> Gemini 3 Pro 91.7%
> Claude Haiku 90.8%
> Claude Opus 4.6 90.6%
> GPT-5 Nano 85.8%
前後模型的差距只有約 10%……這意味著大多數前沿模型在代理任務上的表現已經相當不錯。
但真正的重點是?Gemini Flash……一個輕量級模型……在實用代理工作中超越了所有重量級模型。速度 + 工具使用 > 純粹智慧。
這種基準測試應該決定你每天使用的模型,而不是一些沒有人關聯的學術測試。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
讚賞
按讚
留言
轉發
分享
留言
0/400
留言
暫無留言
熱門話題
查看更多
#
Gate藍龍蝦重磅上線
8.57萬 熱度
#
伊朗明確提出停火協議要求
13.53萬 熱度
#
原油價格上漲
11.2萬 熱度
#
3月CPI數據出爐
173.46萬 熱度
#
IEA緊急釋放4億桶石油儲備
24.15萬 熱度
熱門 Gate Fun
查看更多
Gate Fun
KOL
最新發幣
即將上市
成功上市
1
DM
DM
市值:
$0.1
持有人數:
1
0.00%
2
Token
Token
市值:
$0.1
持有人數:
0
0.00%
3
BYD
BYD
市值:
$0.1
持有人數:
1
0.00%
4
橘玛丽
橘玛丽
市值:
$0.1
持有人數:
1
0.00%
5
Iran Mojtaba
Mojtaba Khamenei
市值:
$2453.54
持有人數:
2
0.00%
置頂
Gate 廣場內容挖礦獎勵繼續升級!無論您是創作者還是用戶,挖礦新人還是頭部作者都能贏取好禮獲得大獎。現在就進入廣場探索吧!
創作者享受最高60%創作返佣
創作者獎勵加碼1500USDT:更多新人作者能瓜分獎池!
觀眾點擊交易組件交易贏大禮!最高50GT等新春壕禮等你拿!
詳情:https://www.gate.com/announcements/article/49802
網站地圖
終於出了一個真正重要的基準測試。
忘掉 MMLU 和數學分數吧…… PinchBench 測試哪個 AI 模型在執行實際工作方面表現最佳。
不是回答瑣事,而是真正完成任務:
→ 從多個網路資源查詢資訊
→ 創建並安排會議
→ 組織電腦上的檔案
→ 撰寫和管理電子郵件
它測試模型作為代理通過 OpenClaw 運行……意味著 AI 必須使用工具、鏈接操作,並完成端到端的任務。
結果非常有趣:
> Gemini 3 Flash 以 95.1% 領先
> MiniMax M2.1 緊隨其後,93.6%
> Kimi K2.5 93.4%
> Claude Sonnet 92.7%
> Gemini 3 Pro 91.7%
> Claude Haiku 90.8%
> Claude Opus 4.6 90.6%
> GPT-5 Nano 85.8%
前後模型的差距只有約 10%……這意味著大多數前沿模型在代理任務上的表現已經相當不錯。
但真正的重點是?Gemini Flash……一個輕量級模型……在實用代理工作中超越了所有重量級模型。速度 + 工具使用 > 純粹智慧。
這種基準測試應該決定你每天使用的模型,而不是一些沒有人關聯的學術測試。