掃描下載 Gate App
qrCode
更多下載方式
今天不再提醒

Gemini 3 深夜來襲:力壓 GPT 5.1,大模型谷歌時代來了

Gemini 3 還沒現身,推特先崩爲敬。

沒有哪家模型的發布比 Gemini 3 更萬衆矚目,根據 Gemini 之前 3 個月更新一次的頻率,AI 社區自 9 月起便對 Gemini 3 翹首以盼。

今天,谷歌開發者關係負責人、Google AI Studio 負責人一條僅含「Gemini」一詞的推文,積蓄了數月的期待終於迎來了爆發點,推特相關話題瞬間沸騰。

有趣的是,臨近發布節點,推特竟「應景」地崩了幾次。盡管「幕後黑手」是 Cloudflare,但這崩潰的時機簡直精準得讓人懷疑有人背後搞鬼(小聲蛐蛐:畢竟推特是各家模型的宣傳主陣地)。

不知道今早剛發了 Grok 4.1 的馬斯克此時作何感想,反正網友的梗圖已經鋪天蓋地了。

就在剛剛,Gemini 3 終於正式登場,讓我們看看在萬衆矚目下登場的它到底有多強。

最智能模型

事實證明,Google 沒有讓等待的人失望,Gemini 3 正式發布,再一次定義了 SOTA,奧特曼和馬斯克也發來賀電。

Google 將其定義爲「通往 AGI 的重要一步」,並強調這是目前世界上多模態理解能力最強、交互最深度的智能體。

Gemini 3 不僅在基礎推理能力上刷新了 SOTA 標準,更通過推出全新的 Google Antigravity 平台和 Deep Think 模式,試圖重塑開發者生態與 AI 輔助體驗。

全面霸榜的推理怪獸

Gemini 3 Pro 被官方稱爲「最先進的推理模型」,在幾乎所有主流 AI 基準測試中均顯著超越了前代 Gemini 2.5 Pro,並且全面壓制了 Claude Sonnet 4.5 和 GPT-5.1 等主要競品。

Gemini 3 Pro 以 1501 Elo 的突破性高分登頂 LMArena Leaderboard,在 Humanity’s Last Exam(在不使用任何工具的情況下達到 37.5%)和 GPQA Diamond(91.9%)上獲得最高分,展示了博士級的推理能力。它還在數學方面爲前沿模型樹立了新標準,在 MathArena Apex 上達到了 23.4% 的最新 SOTA 水平。

除了文本與邏輯,Gemini 3 Pro 還重新定義了多模態推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分別斬獲了 81% 和 87.6% 的高分,這意味着無論是解析復雜的科學圖表還是理解動態視頻流,它都遊刃有餘。

更值得一提的是,它在 SimpleQA Verified 上取得了 72.1% 的成績,顯示出在事實準確性上的巨大進步 —— 它不僅強,而且可靠。

拒絕奉承的思維夥伴

Gemini 3 Pro 的進化不僅在於跑分,更在於交互的質感。它摒棄了以往 AI 常見的陳詞濫調和過度奉承,變得聰明、簡潔且直接:告訴你需要聽到的,而不僅僅是你愛聽的。

它充當真正的思維夥伴,爲你提供理解信息和表達自我的新方式,從通過生成高保真可視化的代碼來翻譯晦澀的科學概念,到創造性的頭腦風暴。

Gemini 3 Deep Think

Gemini 3 Deep Think 模式進一步拓展了智能的邊界,帶來了 Gemini 3 在推理和多模態理解能力上的重大進步,幫助你解決更復雜的問題。

在測試中,Gemini 3 Deep Think 在 Humanity's Last Exam(不使用工具的情況下得分 41.0%)和 GPQA Diamond(得分 93.8%)上的表現均優於 Gemini 3 Pro 已相當出色的成績。此外,它在 ARC-AGI-2(代碼執行,已通過 ARC Prize 驗證)上也取得了前所未有的 45.1% 的得分,展現了其解決全新挑戰的能力。

Gemini 3 Deep Think 模式在一些最具挑戰性的 AI 基準測試中表現出色。

學習、構建與規劃

學習任何事情

Gemini 從一開始就旨在無縫整合任何主題的多種模態信息,包括文本、圖像、視頻、音頻和代碼。Gemini 3 結合了其先進的推理、視覺和空間理解能力、領先的多語言性能以及百萬級 token 上下文窗口,進一步拓展了多模態推理的邊界,幫助你以最適合自己的方式學習。

例如,如果你想學習如何烹飪家族傳統菜餚,Gemini 3 可以解讀並翻譯不同語言的手寫食譜,生成可與家人分享的食譜。

或者,如果你想學習某個新主題,就可以提供學術論文、長篇視頻講座或教程,它可以生成交互式記憶卡片、可視化或其他格式的代碼,幫助你掌握相關知識。

它甚至可以分析你的匹克球比賽視頻,找出可以改進的地方,並制定訓練計劃,幫助你全面提升球技。

爲了幫助你更好地理解網路上的信息,搜索中的 AI 模式現在使用 Gemini 3 來實現新的生成式 UI 體驗,例如沉浸式視覺布局、交互式工具和模擬,所有這些都是根據你的查詢即時生成的。

開發任何東西

在 2.5 Pro 成功的基礎上,Gemini 3 兌現了將開發者的任何想法變爲現實的承諾。它在零樣本生成方面表現出色,能夠處理復雜的提示和指令,從而渲染出更豐富、更具交互性的 Web 用戶界面。

Gemini 3 是谷歌迄今爲止構建的最佳 Vibe 編碼和 Agent 編碼模型,它使谷歌的產品更加自主,並顯著提升了開發者的效率。它在 WebDev Arena 排行榜上名列榜首,獲得了令人矚目的 1487 Elo 分數。此外,它在 Terminal-Bench 2.0 測試中也取得了 54.2% 的成績,該測試旨在評估模型通過終端操作計算機的工具使用能力。同時,它在 SWE-bench Verified 測試中也大幅超越了 2.5 Pro 版本(得分爲 76.2%),該測試用於衡量編碼代理的性能。

現在,用戶可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及谷歌全新的智能體開發平台 Google Antigravity 中的 Gemini 3 進行構建 。它也適用於 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

比如編寫一款具有更豐富的視覺效果和更強交互性的復古 3D 太空飛船遊戲。

再比如編寫更豐富、更具交互性的 Web UI 和應用程序:

規劃任何事

自 Gemini 2 智能體之後,Gemini 顯著提升了長週期任務中的規劃能力。

Gemini 3 的規劃能力在 Vending-Bench 2 測試中進一步得到印證:Gemini 3 在模擬售貨機經營測試中登頂該排行榜,全程通過長週期規劃管理虛擬商業運營。

在完整模擬年度的運營中,Gemini 3 Pro 始終保持穩定的工具調用與決策連貫性,在持續專注任務目標的同時實現了更高投資回報。

Gemini 3 Pro 展現出更卓越的長週期規劃能力,與其他前沿模型相比,能創造更高的回報。

Gemini Agent 還可以幫助整理 Gmail 收件箱。

Gemini 3 現已全面開放。即日起,普通用戶和訂閱用戶分別可通過 Gemini App 及搜索 AI 模式使用新模型;開發者與企業客戶也能通過 AI Studio、Vertex AI 等渠道接入。至於備受期待的「深度思考模式」,預計將在未來幾周內面向 Google AI Ultra 訂閱用戶獨家上線。

另外,根據此前泄露的模型卡,還有許多值得關注的關鍵信息:Google 使用 TPU 從頭開始訓練這個模型,作爲一個 MoE,具有 1M 輸入和 64k token 輸出,MoE 意味着他們可以負擔得起使其變得便宜。

定價方面,Gemini 3.0 Pro 引入了基於上下文長度的分級定價機制:200k tokens 以下的任務,輸入 / 輸出價格爲 $2.00/$12.00(每百萬 token);超過 200k tokens 則分別爲 $4.00 和 $18.00。

全新的「智能體優先」開發體驗

Google Antigravity 是 Google 全新的智能體開發平台,使開發者能夠在更高、以任務爲導向的層面上進行操作。利用 Gemini 3 先進的推理、工具使用和智能體編程能力,Google Antigravity 將 AI 輔助從開發者工具箱中的一個工具轉變爲積極的合作夥伴。

雖然 Google Antigravity 的核心是熟悉的 AI IDE(集成開發環境)體驗,但其智能體已被提升到一個專用界面,並被賦予直接訪問編輯器、終端和瀏覽器的權限。現在,智能體可以代表你自主規劃並同時執行復雜的端到端軟件任務,同時驗證它們自己的代碼。

除了 Gemini 3 Pro,Google Antigravity 還緊密結合了 Google 最新的用於瀏覽器控制的 Gemini 2.5 Computer Use 模型,以及其頂級的圖像編輯模型 Nano Banana (Gemini 2.5 Image)。

一手體驗

既然 Gemini 3 Pro 預覽版上線了 AI Studio 平台,我們也來上手體驗了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.

Prompt: Create a visually stunning Space Invaders game.

鵜鶘騎自行車曾難倒一衆大模型,這次我們也讓 Gemini 3 試了下。Prompt:An animated SVG of a pelican riding a bicycle.

相比之前版本,Gemini 3 已有較大進步,不過仍有 bug,比如自行車的腳蹬在天上空轉。

我們又換了一個更爲清晰的提示詞:Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 這次 Gemini 3 生成的自行車似乎沒有腳蹬。

寫在最後

在 X 博主 Chubby 發起的「到 2026 年底,哪家公司擁有最好的 LLM?」投票中,Google Gemini 遙遙領先。

這種市場信心的回升也體現在了數據上,Alphabet CEO Sundar Pichai 在官方博客中回顧了 Gemini 過去兩年的進展:AI Overviews 月活躍用戶已達 20 億,Gemini 應用月活突破 6.5 億,此外更有超過 70% 的雲客戶以及 1300 萬開發者正在使用其生成式模型。

回望過去兩年,從 Bard(Gemini 前身)發布時的倉促應戰與股價暴跌,到痛定思痛合並 Google DeepMind、召回創始人、斬獲諾貝爾獎,Google 完成了一場教科書般的「大象轉身」。

那個曾經定義了 Transformer、如今「All in Gemini」的巨人,已經做好了全面反擊的準備。

至於它到底能不能終結「最好的 LLM」之爭?別急,讓子彈(和服務器)再飛一會兒。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)