掃描下載 Gate App

更多下載方式

今天不再提醒

Gemini 3 深夜來襲：力壓 GPT 5.1，大模型谷歌時代來了

深潮 TechFlow

2025-11-19 01:35:34

Gemini 3 還沒現身，推特先崩爲敬。

沒有哪家模型的發布比 Gemini 3 更萬衆矚目，根據 Gemini 之前 3 個月更新一次的頻率，AI 社區自 9 月起便對 Gemini 3 翹首以盼。

今天，谷歌開發者關係負責人、Google AI Studio 負責人一條僅含「Gemini」一詞的推文，積蓄了數月的期待終於迎來了爆發點，推特相關話題瞬間沸騰。

有趣的是，臨近發布節點，推特竟「應景」地崩了幾次。盡管「幕後黑手」是 Cloudflare，但這崩潰的時機簡直精準得讓人懷疑有人背後搞鬼（小聲蛐蛐：畢竟推特是各家模型的宣傳主陣地）。

不知道今早剛發了 Grok 4.1 的馬斯克此時作何感想，反正網友的梗圖已經鋪天蓋地了。

就在剛剛，Gemini 3 終於正式登場，讓我們看看在萬衆矚目下登場的它到底有多強。

最智能模型

事實證明，Google 沒有讓等待的人失望，Gemini 3 正式發布，再一次定義了 SOTA，奧特曼和馬斯克也發來賀電。

Google 將其定義爲「通往 AGI 的重要一步」，並強調這是目前世界上多模態理解能力最強、交互最深度的智能體。

Gemini 3 不僅在基礎推理能力上刷新了 SOTA 標準，更通過推出全新的 Google Antigravity 平台和 Deep Think 模式，試圖重塑開發者生態與 AI 輔助體驗。

全面霸榜的推理怪獸

Gemini 3 Pro 被官方稱爲「最先進的推理模型」，在幾乎所有主流 AI 基準測試中均顯著超越了前代 Gemini 2.5 Pro，並且全面壓制了 Claude Sonnet 4.5 和 GPT-5.1 等主要競品。

Gemini 3 Pro 以 1501 Elo 的突破性高分登頂 LMArena Leaderboard，在 Humanity’s Last Exam（在不使用任何工具的情況下達到 37.5%）和 GPQA Diamond（91.9%）上獲得最高分，展示了博士級的推理能力。它還在數學方面爲前沿模型樹立了新標準，在 MathArena Apex 上達到了 23.4% 的最新 SOTA 水平。

除了文本與邏輯，Gemini 3 Pro 還重新定義了多模態推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分別斬獲了 81% 和 87.6% 的高分，這意味着無論是解析復雜的科學圖表還是理解動態視頻流，它都遊刃有餘。

更值得一提的是，它在 SimpleQA Verified 上取得了 72.1% 的成績，顯示出在事實準確性上的巨大進步 —— 它不僅強，而且可靠。

拒絕奉承的思維夥伴

Gemini 3 Pro 的進化不僅在於跑分，更在於交互的質感。它摒棄了以往 AI 常見的陳詞濫調和過度奉承，變得聰明、簡潔且直接：告訴你需要聽到的，而不僅僅是你愛聽的。

它充當真正的思維夥伴，爲你提供理解信息和表達自我的新方式，從通過生成高保真可視化的代碼來翻譯晦澀的科學概念，到創造性的頭腦風暴。

Gemini 3 Deep Think

Gemini 3 Deep Think 模式進一步拓展了智能的邊界，帶來了 Gemini 3 在推理和多模態理解能力上的重大進步，幫助你解決更復雜的問題。

在測試中，Gemini 3 Deep Think 在 Humanity's Last Exam（不使用工具的情況下得分 41.0%）和 GPQA Diamond（得分 93.8%）上的表現均優於 Gemini 3 Pro 已相當出色的成績。此外，它在 ARC-AGI-2（代碼執行，已通過 ARC Prize 驗證）上也取得了前所未有的 45.1% 的得分，展現了其解決全新挑戰的能力。

Gemini 3 Deep Think 模式在一些最具挑戰性的 AI 基準測試中表現出色。

學習、構建與規劃

學習任何事情

Gemini 從一開始就旨在無縫整合任何主題的多種模態信息，包括文本、圖像、視頻、音頻和代碼。Gemini 3 結合了其先進的推理、視覺和空間理解能力、領先的多語言性能以及百萬級 token 上下文窗口，進一步拓展了多模態推理的邊界，幫助你以最適合自己的方式學習。

例如，如果你想學習如何烹飪家族傳統菜餚，Gemini 3 可以解讀並翻譯不同語言的手寫食譜，生成可與家人分享的食譜。

或者，如果你想學習某個新主題，就可以提供學術論文、長篇視頻講座或教程，它可以生成交互式記憶卡片、可視化或其他格式的代碼，幫助你掌握相關知識。

它甚至可以分析你的匹克球比賽視頻，找出可以改進的地方，並制定訓練計劃，幫助你全面提升球技。

爲了幫助你更好地理解網路上的信息，搜索中的 AI 模式現在使用 Gemini 3 來實現新的生成式 UI 體驗，例如沉浸式視覺布局、交互式工具和模擬，所有這些都是根據你的查詢即時生成的。

開發任何東西

在 2.5 Pro 成功的基礎上，Gemini 3 兌現了將開發者的任何想法變爲現實的承諾。它在零樣本生成方面表現出色，能夠處理復雜的提示和指令，從而渲染出更豐富、更具交互性的 Web 用戶界面。

Gemini 3 是谷歌迄今爲止構建的最佳 Vibe 編碼和 Agent 編碼模型，它使谷歌的產品更加自主，並顯著提升了開發者的效率。它在 WebDev Arena 排行榜上名列榜首，獲得了令人矚目的 1487 Elo 分數。此外，它在 Terminal-Bench 2.0 測試中也取得了 54.2% 的成績，該測試旨在評估模型通過終端操作計算機的工具使用能力。同時，它在 SWE-bench Verified 測試中也大幅超越了 2.5 Pro 版本（得分爲 76.2%），該測試用於衡量編碼代理的性能。

現在，用戶可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及谷歌全新的智能體開發平台 Google Antigravity 中的 Gemini 3 進行構建。它也適用於 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

比如編寫一款具有更豐富的視覺效果和更強交互性的復古 3D 太空飛船遊戲。

再比如編寫更豐富、更具交互性的 Web UI 和應用程序：

規劃任何事

自 Gemini 2 智能體之後，Gemini 顯著提升了長週期任務中的規劃能力。

Gemini 3 的規劃能力在 Vending-Bench 2 測試中進一步得到印證：Gemini 3 在模擬售貨機經營測試中登頂該排行榜，全程通過長週期規劃管理虛擬商業運營。

在完整模擬年度的運營中，Gemini 3 Pro 始終保持穩定的工具調用與決策連貫性，在持續專注任務目標的同時實現了更高投資回報。

Gemini 3 Pro 展現出更卓越的長週期規劃能力，與其他前沿模型相比，能創造更高的回報。

Gemini Agent 還可以幫助整理 Gmail 收件箱。

Gemini 3 現已全面開放。即日起，普通用戶和訂閱用戶分別可通過 Gemini App 及搜索 AI 模式使用新模型；開發者與企業客戶也能通過 AI Studio、Vertex AI 等渠道接入。至於備受期待的「深度思考模式」，預計將在未來幾周內面向 Google AI Ultra 訂閱用戶獨家上線。

另外，根據此前泄露的模型卡，還有許多值得關注的關鍵信息：Google 使用 TPU 從頭開始訓練這個模型，作爲一個 MoE，具有 1M 輸入和 64k token 輸出，MoE 意味着他們可以負擔得起使其變得便宜。

定價方面，Gemini 3.0 Pro 引入了基於上下文長度的分級定價機制：200k tokens 以下的任務，輸入 / 輸出價格爲 $2.00/$12.00（每百萬 token）；超過 200k tokens 則分別爲 $4.00 和 $18.00。

全新的「智能體優先」開發體驗

Google Antigravity 是 Google 全新的智能體開發平台，使開發者能夠在更高、以任務爲導向的層面上進行操作。利用 Gemini 3 先進的推理、工具使用和智能體編程能力，Google Antigravity 將 AI 輔助從開發者工具箱中的一個工具轉變爲積極的合作夥伴。

雖然 Google Antigravity 的核心是熟悉的 AI IDE（集成開發環境）體驗，但其智能體已被提升到一個專用界面，並被賦予直接訪問編輯器、終端和瀏覽器的權限。現在，智能體可以代表你自主規劃並同時執行復雜的端到端軟件任務，同時驗證它們自己的代碼。

除了 Gemini 3 Pro，Google Antigravity 還緊密結合了 Google 最新的用於瀏覽器控制的 Gemini 2.5 Computer Use 模型，以及其頂級的圖像編輯模型 Nano Banana (Gemini 2.5 Image)。

一手體驗

既然 Gemini 3 Pro 預覽版上線了 AI Studio 平台，我們也來上手體驗了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.

Prompt: Create a visually stunning Space Invaders game.

鵜鶘騎自行車曾難倒一衆大模型，這次我們也讓 Gemini 3 試了下。Prompt：An animated SVG of a pelican riding a bicycle.

相比之前版本，Gemini 3 已有較大進步，不過仍有 bug，比如自行車的腳蹬在天上空轉。

我們又換了一個更爲清晰的提示詞：Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 這次 Gemini 3 生成的自行車似乎沒有腳蹬。

寫在最後

在 X 博主 Chubby 發起的「到 2026 年底，哪家公司擁有最好的 LLM?」投票中，Google Gemini 遙遙領先。

這種市場信心的回升也體現在了數據上，Alphabet CEO Sundar Pichai 在官方博客中回顧了 Gemini 過去兩年的進展：AI Overviews 月活躍用戶已達 20 億，Gemini 應用月活突破 6.5 億，此外更有超過 70% 的雲客戶以及 1300 萬開發者正在使用其生成式模型。

回望過去兩年，從 Bard（Gemini 前身）發布時的倉促應戰與股價暴跌，到痛定思痛合並 Google DeepMind、召回創始人、斬獲諾貝爾獎，Google 完成了一場教科書般的「大象轉身」。

那個曾經定義了 Transformer、如今「All in Gemini」的巨人，已經做好了全面反擊的準備。

至於它到底能不能終結「最好的 LLM」之爭？別急，讓子彈（和服務器）再飛一會兒。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

深潮 TechFlow

熱門話題查看更多
#逆勢上漲幣種推薦
6.16萬熱度
#美聯儲會議紀要將公佈
5.25萬熱度
#比特幣行情觀察
5.28萬熱度
#我對Gate廣場的建議分享
1.29萬熱度
#Gate廣場聖誕送溫暖
8221 熱度

熱門 Gate Fun查看更多

1
.AI
市值:$3598.46持有人數:2
0.47%
2
AYUAyumi
市值:$3578.34持有人數:2
0.05%
3
GBEARGBEAR
市值:$3555.17持有人數:1
0.00%
4
GateAIGateAI
市值:$3654.64持有人數:4
0.36%
5
JesseJesseGate
市值:$3493.1持有人數:1
0.00%