廣場
最新
熱門
新聞
我的主頁
發布
rickawsb
2026-02-19 16:41:14
關注
谷歌今天發布了Gemini 3.1 Pro,剛看到測試評分,感覺這是衝著屠榜來的(模型軍備競賽繼續,利好半導體!)😂
官方定位很明確:專為複雜任務設計,比如深度研究、工程難題、長鏈推理和agentic工作流。
核心亮點:1M token上下文窗口(保持不變)
多模態支持(文本+圖像+視頻+音頻+代碼)
輸出最高64k tokens
性能對比當前主流模型(Claude Opus 4.6、GPT-5.2/5.3等):
ARC-AGI-2(最難的抽象推理基準):
Gemini 3.1 Pro 77.1%,領先Claude 4.6(68.8%)約8-9個百分點,
領先GPT-5系列20-30+個百分點。這是最大進步,代表核心推理質的飛躍。
GPQA Diamond(PhD級科學推理):94.3%,小幅領先Claude 4.6(91.3%)和GPT-5.2(92.4%),差距2-3個百分點,基準已接近飽和。
SWE-Bench Verified(真實軟體工程任務):80.6%,領先Claude 4.6(約76-77%)3-5個百分點,領先GPT明顯(5-15%)。
其他:Terminal-Bench、APEX-Agents等長時agent任務上也拿下多個第一;LMArena/Artificial Analysis指數目前排第1,成本效率高。
更重要的是,成本優勢明顯:
API定價(每1M tokens,基於Vertex AI / Gemini API最新數據,≤200k上下文標準價):
Gemini 3.1 Pro:輸入 $2.00,輸出 $12.00(>200k上下文翻倍到$4/$18)
Claude Opus 4.6:輸入 $5.00,輸出 $25.00
GPT-5.2 / 5.x:輸入通常$10–15+,輸出$30–75+(高端tier更高,具體視版本)
優勢幅度:輸入:Gemini比Claude便宜約60%(2 vs 5),比GPT系列便宜70–80%以上。
輸出:Gemini比Claude便宜約52%(12 vs 25),比GPT便宜60–80%以上。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
1人按讚了這條動態
讚賞
1
留言
轉發
分享
留言
0/400
留言
暫無留言
熱門話題
查看更多
#
Gate2月透明度報告
4.97萬 熱度
#
國際油價突破100美元
13.81萬 熱度
#
比特幣重回跌勢
9742.43萬 熱度
#
哈梅內伊之子當選伊朗領袖
63.54萬 熱度
#
Gate藍龍蝦
3.16萬 熱度
熱門 Gate Fun
查看更多
Gate Fun
KOL
最新發幣
即將上市
成功上市
1
地球
地球
市值:
$2400
持有人數:
1
0.00%
2
CN
华夏
市值:
$0.1
持有人數:
1
0.00%
3
DDNX
牛马
市值:
$2403.44
持有人數:
1
0.00%
4
ggg
牛牛
市值:
$2403.44
持有人數:
1
0.00%
5
龙虾🦞
龙虾🦞
市值:
$2997.25
持有人數:
2
0.00%
置頂
Gate 廣場內容挖礦獎勵繼續升級!無論您是創作者還是用戶,挖礦新人還是頭部作者都能贏取好禮獲得大獎。現在就進入廣場探索吧!
創作者享受最高60%創作返佣
創作者獎勵加碼1500USDT:更多新人作者能瓜分獎池!
觀眾點擊交易組件交易贏大禮!最高50GT等新春壕禮等你拿!
詳情:https://www.gate.com/announcements/article/49802
網站地圖
谷歌今天發布了Gemini 3.1 Pro,剛看到測試評分,感覺這是衝著屠榜來的(模型軍備競賽繼續,利好半導體!)😂
官方定位很明確:專為複雜任務設計,比如深度研究、工程難題、長鏈推理和agentic工作流。
核心亮點:1M token上下文窗口(保持不變)
多模態支持(文本+圖像+視頻+音頻+代碼)
輸出最高64k tokens
性能對比當前主流模型(Claude Opus 4.6、GPT-5.2/5.3等):
ARC-AGI-2(最難的抽象推理基準):
Gemini 3.1 Pro 77.1%,領先Claude 4.6(68.8%)約8-9個百分點,
領先GPT-5系列20-30+個百分點。這是最大進步,代表核心推理質的飛躍。
GPQA Diamond(PhD級科學推理):94.3%,小幅領先Claude 4.6(91.3%)和GPT-5.2(92.4%),差距2-3個百分點,基準已接近飽和。
SWE-Bench Verified(真實軟體工程任務):80.6%,領先Claude 4.6(約76-77%)3-5個百分點,領先GPT明顯(5-15%)。
其他:Terminal-Bench、APEX-Agents等長時agent任務上也拿下多個第一;LMArena/Artificial Analysis指數目前排第1,成本效率高。
更重要的是,成本優勢明顯:
API定價(每1M tokens,基於Vertex AI / Gemini API最新數據,≤200k上下文標準價):
Gemini 3.1 Pro:輸入 $2.00,輸出 $12.00(>200k上下文翻倍到$4/$18)
Claude Opus 4.6:輸入 $5.00,輸出 $25.00
GPT-5.2 / 5.x:輸入通常$10–15+,輸出$30–75+(高端tier更高,具體視版本)
優勢幅度:輸入:Gemini比Claude便宜約60%(2 vs 5),比GPT系列便宜70–80%以上。
輸出:Gemini比Claude便宜約52%(12 vs 25),比GPT便宜60–80%以上。