美國大模型被中國南北夾擊 國產AI瘋搶春節檔 欲復刻DeepSeek奇蹟

robot
摘要生成中

犹記龍年春節,爆火的DeepSeek,一度讓國內其他大模型“整抑鬱”了。今年,互聯網大廠和國產大模型公司無不期待複刻DeepSeek的奇蹟,趕在春節前密集官宣上新,將新年作為最佳練兵場。

2月12日,上海大模型企業MiniMax在MiniMax Agent正式上線新一代文本模型MiniMax M2.5(以下稱“M2.5”),並於2月13日全球開源,支持本地化部署。隨後,全球用戶迅速在MiniMax Agent上構建1萬多個“專家”,且數量仍在快速增長。

M2.5被稱“王炸”,在於其性能幾乎逼平由美國AI公司Anthropic開發的模型Claude Opus 4.6,價格卻讓人目瞪口呆,連當下最火的開源個人AI代理項目OpenClaw之父彼得·斯坦伯格也忍不住感慨。

OpenClaw之父彼得·斯坦伯格轉發和評價M2.5,性能比肩Claude Opus 4.6,價格便宜20倍。

M2.5定位為“原生Agent生產級模型”的產品,能自動寫代碼、調用工具、分析數據、生成報告。

在編程最硬核的SWE-Bench Verified榜單上,M2.5拿到了80.2%的高分,與Claude Opus 4.6僅有微弱差距。在多語言任務Multi-SWE-Bench上,M2.5超越Claude Opus 4.6拿到第一。

針對辦公場景,M2.5在Word、PPT、Excel、金融建模等高階場景中能力出眾,在測評框架GDPval-MM與主流模型的對比中,取得了59%的平均勝率。M2.5生成的表格,能將封面、數據源和詳細數據分得清清楚楚,格式規整,彷彿出自強迫症員工之手。

M2.5對標美國主流模型毫不遜色。

關鍵在於,能幹“重活”的M2.5,其激活的參數量僅10B,在全球同類第一梯隊旗艦模型中“體型”最小。

“腦子好使”的同時,M2.5的殺手鐧,還在於解決了模型“貴”和“慢”兩大痛點。

M2.5將推理速度干到了100TPS(每秒事務數),是主流模型的約兩倍;輸入價格約0.3美元/百萬Token(模型輸入、輸出基本單位),輸出約2.4美元/百萬Token。按每秒輸出100Token計算,1美元就能讓智能體連續工作一小時,堪稱“白菜價”。

在算力短缺的時代,能以顛覆式創新實現模型不降智、不卡頓、體驗優,是MiniMax得以持續留在大模型決賽圈牌桌上的核心王牌。

有意思的是,較MiniMax早一天在港交所上市的智譜AI,也在近期發布智譜GLM-5,同樣對標Claude Opus 4.6。Claude Opus 4.6可謂受到中國一南一北兩大模型的夾擊。

智譜GLM-5在編程和智能體能力上取得了開源模型佳績。有開發者使用後認為,GLM-5在真實編程場景的使用體驗已逼近Claude最強模型,而Claude的編程能力在業內處於第一梯隊。在全球權威的Artificial Analysis榜單中,GLM-5位居全球第四、開源第一。

智譜將GLM-5形容為“系統架構師”,也就是說,AI大模型未來不再只滿足於寫代碼完成某一項功能,而是要像工程師一樣建構系統,甚至將功能任務分配給不同智能體完成。

在代理編程測試上,智譜GLM-5略勝Claude一籌。

另外,千問也在2月10日發布了新款圖像生成模型Qwen-Image 2.0,支持1000個詞元的超長指令,同時推理能力也更強。

幾乎同一時間,字節跳動也發布了同類模型Seedream 5.0,文生圖能力再次跨前一步。“以前用AI生成圖像有一個缺陷,受限於推理能力,圖片中的漢字經常‘牛頭不對馬嘴’或者直接亂碼。”千問開發團隊告訴記者,隨著指令理解和推理能力的增強,AI圖片生成的“漢字難題”將成為歷史。

除了文生圖、文生視頻等多模態模型之外,最基礎的大語言模型也“大有進步”。近日,DeepSeek悄然上線了一款新模型,雖然並非是萬眾期待的V4,但同樣令人驚喜。

這款更新模型雖不具備多模態識別能力,但將上下文處理能力提升至100萬詞元,相當於可以一次性閱讀理解全套《三體》共計約90萬字。一名智能體開發者告訴記者:“目前支持上下文理解百萬級詞元的模型不多,比如谷歌的Gemini和Anthropic的Claude,DeepSeek這次更新也算是‘上車’了。”

据了解,這一波大模型“上新潮”遠未停止,豆包2.0、千問3.5等旗艦模型將於近期發布。

(資料來源:上觀新聞)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言