Gate Booster 第 4 期:發帖瓜分 1,500 $USDT
🔹 發布 TradFi 黃金福袋原創內容,可得 15 $USDT,名額有限先到先得
🔹 本期支持 X、YouTube 發布原創內容
🔹 無需複雜操作,流程清晰透明
🔹 流程:申請成為 Booster → 領取任務 → 發布原創內容 → 回鏈登記 → 等待審核及發獎
📅 任務截止時間:03月20日16:00(UTC+8)
立即領取任務:https://www.gate.com/booster/10028?pid=allPort&ch=KTag1BmC
更多詳情:https://www.gate.com/announcements/article/50203
美國大模型被中國南北夾擊 國產AI瘋搶春節檔 欲復刻DeepSeek奇蹟
犹記龍年春節,爆火的DeepSeek,一度讓國內其他大模型“整抑鬱”了。今年,互聯網大廠和國產大模型公司無不期待複刻DeepSeek的奇蹟,趕在春節前密集官宣上新,將新年作為最佳練兵場。
2月12日,上海大模型企業MiniMax在MiniMax Agent正式上線新一代文本模型MiniMax M2.5(以下稱“M2.5”),並於2月13日全球開源,支持本地化部署。隨後,全球用戶迅速在MiniMax Agent上構建1萬多個“專家”,且數量仍在快速增長。
M2.5被稱“王炸”,在於其性能幾乎逼平由美國AI公司Anthropic開發的模型Claude Opus 4.6,價格卻讓人目瞪口呆,連當下最火的開源個人AI代理項目OpenClaw之父彼得·斯坦伯格也忍不住感慨。
OpenClaw之父彼得·斯坦伯格轉發和評價M2.5,性能比肩Claude Opus 4.6,價格便宜20倍。
M2.5定位為“原生Agent生產級模型”的產品,能自動寫代碼、調用工具、分析數據、生成報告。
在編程最硬核的SWE-Bench Verified榜單上,M2.5拿到了80.2%的高分,與Claude Opus 4.6僅有微弱差距。在多語言任務Multi-SWE-Bench上,M2.5超越Claude Opus 4.6拿到第一。
針對辦公場景,M2.5在Word、PPT、Excel、金融建模等高階場景中能力出眾,在測評框架GDPval-MM與主流模型的對比中,取得了59%的平均勝率。M2.5生成的表格,能將封面、數據源和詳細數據分得清清楚楚,格式規整,彷彿出自強迫症員工之手。
M2.5對標美國主流模型毫不遜色。
關鍵在於,能幹“重活”的M2.5,其激活的參數量僅10B,在全球同類第一梯隊旗艦模型中“體型”最小。
“腦子好使”的同時,M2.5的殺手鐧,還在於解決了模型“貴”和“慢”兩大痛點。
M2.5將推理速度干到了100TPS(每秒事務數),是主流模型的約兩倍;輸入價格約0.3美元/百萬Token(模型輸入、輸出基本單位),輸出約2.4美元/百萬Token。按每秒輸出100Token計算,1美元就能讓智能體連續工作一小時,堪稱“白菜價”。
在算力短缺的時代,能以顛覆式創新實現模型不降智、不卡頓、體驗優,是MiniMax得以持續留在大模型決賽圈牌桌上的核心王牌。
有意思的是,較MiniMax早一天在港交所上市的智譜AI,也在近期發布智譜GLM-5,同樣對標Claude Opus 4.6。Claude Opus 4.6可謂受到中國一南一北兩大模型的夾擊。
智譜GLM-5在編程和智能體能力上取得了開源模型佳績。有開發者使用後認為,GLM-5在真實編程場景的使用體驗已逼近Claude最強模型,而Claude的編程能力在業內處於第一梯隊。在全球權威的Artificial Analysis榜單中,GLM-5位居全球第四、開源第一。
智譜將GLM-5形容為“系統架構師”,也就是說,AI大模型未來不再只滿足於寫代碼完成某一項功能,而是要像工程師一樣建構系統,甚至將功能任務分配給不同智能體完成。
在代理編程測試上,智譜GLM-5略勝Claude一籌。
另外,千問也在2月10日發布了新款圖像生成模型Qwen-Image 2.0,支持1000個詞元的超長指令,同時推理能力也更強。
幾乎同一時間,字節跳動也發布了同類模型Seedream 5.0,文生圖能力再次跨前一步。“以前用AI生成圖像有一個缺陷,受限於推理能力,圖片中的漢字經常‘牛頭不對馬嘴’或者直接亂碼。”千問開發團隊告訴記者,隨著指令理解和推理能力的增強,AI圖片生成的“漢字難題”將成為歷史。
除了文生圖、文生視頻等多模態模型之外,最基礎的大語言模型也“大有進步”。近日,DeepSeek悄然上線了一款新模型,雖然並非是萬眾期待的V4,但同樣令人驚喜。
這款更新模型雖不具備多模態識別能力,但將上下文處理能力提升至100萬詞元,相當於可以一次性閱讀理解全套《三體》共計約90萬字。一名智能體開發者告訴記者:“目前支持上下文理解百萬級詞元的模型不多,比如谷歌的Gemini和Anthropic的Claude,DeepSeek這次更新也算是‘上車’了。”
据了解,這一波大模型“上新潮”遠未停止,豆包2.0、千問3.5等旗艦模型將於近期發布。
(資料來源:上觀新聞)