龍年の春節を思い出すと、爆発的にヒットしたDeepSeekが一時的に国内の他の大規模モデルを「抑鬱状態」に追い込んだ。今年、インターネット大手や国産大規模モデル企業は、DeepSeekの奇跡を再現することを期待し、春節前に次々と新製品を公式発表し、新年を最良の訓練場と位置付けている。2月12日、上海の大規模モデル企業MiniMaxはMiniMaxエージェント上で新世代のテキストモデルMiniMax M2.5(以下「M2.5」)を正式にリリースし、2月13日にグローバルにオープンソース化、ローカル展開をサポートした。その後、世界中のユーザーがMiniMaxエージェント上で1万以上の「エキスパート」を構築し、数は急速に増加している。M2.5は「王炸」と呼ばれ、その性能は米国AI企業Anthropicが開発したClaude Opus 4.6にほぼ匹敵しながら、価格は驚くほど安い。現在最も人気のオープンソース個人AIエージェントプロジェクトOpenClawの創始者ピーター・スタンバーグも感嘆せざるを得なかった。OpenClawの創始者ピーター・スタンバーグは、M2.5をリツイートし、「Claude Opus 4.6に匹敵しながら、価格は20分の1」と評価した。M2.5は「ネイティブエージェント生産モデル」として位置付けられ、自動コード生成、ツール呼び出し、データ分析、レポート作成などが可能だ。最も高度なプログラミングのSWE-Bench Verifiedランキングでは、M2.5は80.2%の高得点を獲得し、Claude Opus 4.6との差はわずかだ。多言語タスクのMulti-SWE-Benchでは、M2.5がClaude Opus 4.6を上回り、第一位を獲得した。オフィスシーンにおいても、M2.5はWord、PPT、Excel、金融モデリングなどの高次元シナリオで優れた能力を発揮し、評価フレームワークGDPval-MMと主流モデルとの比較で平均勝率59%を達成した。M2.5が生成した表は、表紙、データソース、詳細データを明確に区別し、整然としたフォーマットで、まるで完璧主義の社員の手によるかのようだ。M2.5は米国の主流モデルと比べても遜色ない。重要なのは、重い作業をこなすことができるM2.5のパラメータ数はわずか10Bであり、世界の同クラスのフラッグシップモデルの中で最も小さいという点だ。「頭が良い」だけでなく、M2.5の切り札は、「高価」と「遅い」という二大課題を解決したことにある。M2.5は推論速度を100TPS(秒間トランザクション数)にまで引き上げており、主流モデルの約2倍の速度だ。入力コストは約0.3ドル/百万トークン(モデルの入力・出力の基本単位)、出力は約2.4ドル/百万トークン。1秒あたり100トークンの出力を想定すると、1ドルで1時間連続稼働できる計算になり、「格安価格」と言える。計算能力不足の時代において、破壊的な革新によってモデルの知能を落とさず、スムーズに動作させることができるのは、MiniMaxが大規模モデルの決勝戦の舞台に留まり続ける核心の武器だ。面白いことに、MiniMaxより一日早く香港証券取引所に上場した智谱AIも、最近「智谱GLM-5」を発表し、こちらもClaude Opus 4.6に対抗している。Claude Opus 4.6は、中国の南北二大モデルの攻撃を受けている。智谱GLM-5はプログラミングとエージェント能力において、オープンソースモデルの中でも優れた成果を上げている。開発者の一人は、「GLM-5は実際のプログラミングシナリオでの使用感がClaudeの最強モデルに迫っていると感じる」と述べている。業界内で最も権威のあるArtificial Analysisランキングでは、GLM-5は世界第4位、オープンソースでは第一位だ。智谱はGLM-5を「システムアーキテクト」と表現しており、つまり、AI大規模モデルは今後、単にコードを書いて特定の機能を実現するだけでなく、エンジニアのようにシステムを構築し、機能やタスクを異なるエージェントに分配して完成させる方向に進むということだ。エージェントプログラミングのテストでは、智谱GLM-5はClaudeをやや上回った。また、2月10日には千問も新しい画像生成モデルQwen-Image 2.0をリリースし、1000トークンの超長指示に対応し、推論能力も向上している。ほぼ同時期に、字节跳动も同様のモデルSeedream 5.0を発表し、画像生成能力がさらに進化した。「以前はAIによる画像生成において、推論能力の制約から漢字が『牛頭不對馬嘴』になったり、文字化けしたりする問題があった」と千問の開発チームは語る。指示理解と推論能力の向上により、AI画像生成における「漢字の難題」は解消される見込みだ。文章から画像、動画へと多モーダルモデルが進化する一方、最も基本的な大規模言語モデルも「大きな進歩」を遂げている。最近、DeepSeekは新モデルを静かにリリースしたが、期待されたV4ではないものの、驚きの内容だった。この新モデルは多モーダル認識能力は持たないが、コンテキスト処理能力を100万トークンに引き上げており、一度に約90万字の『三体』全巻を理解できるレベルだとされる。あるエージェント開発者は、「現在、百万トークンのコンテキスト理解をサポートするモデルは少なく、GoogleのGeminiやAnthropicのClaudeが代表的だが、DeepSeekのこのアップデートも『乗車』したと言える」と語った。この大規模モデルの「新登場ブーム」はまだ終わらず、近日中に豆包2.0や千問3.5などのフラッグシップモデルもリリースされる予定だ。(出典:上観新聞)
アメリカの大規模モデルは中国南北から挟撃され、国産AIは春節映画市場を激しく争奪し、DeepSeekの奇跡を再現しようとしている
龍年の春節を思い出すと、爆発的にヒットしたDeepSeekが一時的に国内の他の大規模モデルを「抑鬱状態」に追い込んだ。今年、インターネット大手や国産大規模モデル企業は、DeepSeekの奇跡を再現することを期待し、春節前に次々と新製品を公式発表し、新年を最良の訓練場と位置付けている。
2月12日、上海の大規模モデル企業MiniMaxはMiniMaxエージェント上で新世代のテキストモデルMiniMax M2.5(以下「M2.5」)を正式にリリースし、2月13日にグローバルにオープンソース化、ローカル展開をサポートした。その後、世界中のユーザーがMiniMaxエージェント上で1万以上の「エキスパート」を構築し、数は急速に増加している。
M2.5は「王炸」と呼ばれ、その性能は米国AI企業Anthropicが開発したClaude Opus 4.6にほぼ匹敵しながら、価格は驚くほど安い。現在最も人気のオープンソース個人AIエージェントプロジェクトOpenClawの創始者ピーター・スタンバーグも感嘆せざるを得なかった。
OpenClawの創始者ピーター・スタンバーグは、M2.5をリツイートし、「Claude Opus 4.6に匹敵しながら、価格は20分の1」と評価した。
M2.5は「ネイティブエージェント生産モデル」として位置付けられ、自動コード生成、ツール呼び出し、データ分析、レポート作成などが可能だ。
最も高度なプログラミングのSWE-Bench Verifiedランキングでは、M2.5は80.2%の高得点を獲得し、Claude Opus 4.6との差はわずかだ。多言語タスクのMulti-SWE-Benchでは、M2.5がClaude Opus 4.6を上回り、第一位を獲得した。
オフィスシーンにおいても、M2.5はWord、PPT、Excel、金融モデリングなどの高次元シナリオで優れた能力を発揮し、評価フレームワークGDPval-MMと主流モデルとの比較で平均勝率59%を達成した。M2.5が生成した表は、表紙、データソース、詳細データを明確に区別し、整然としたフォーマットで、まるで完璧主義の社員の手によるかのようだ。
M2.5は米国の主流モデルと比べても遜色ない。
重要なのは、重い作業をこなすことができるM2.5のパラメータ数はわずか10Bであり、世界の同クラスのフラッグシップモデルの中で最も小さいという点だ。
「頭が良い」だけでなく、M2.5の切り札は、「高価」と「遅い」という二大課題を解決したことにある。
M2.5は推論速度を100TPS(秒間トランザクション数)にまで引き上げており、主流モデルの約2倍の速度だ。入力コストは約0.3ドル/百万トークン(モデルの入力・出力の基本単位)、出力は約2.4ドル/百万トークン。1秒あたり100トークンの出力を想定すると、1ドルで1時間連続稼働できる計算になり、「格安価格」と言える。
計算能力不足の時代において、破壊的な革新によってモデルの知能を落とさず、スムーズに動作させることができるのは、MiniMaxが大規模モデルの決勝戦の舞台に留まり続ける核心の武器だ。
面白いことに、MiniMaxより一日早く香港証券取引所に上場した智谱AIも、最近「智谱GLM-5」を発表し、こちらもClaude Opus 4.6に対抗している。Claude Opus 4.6は、中国の南北二大モデルの攻撃を受けている。
智谱GLM-5はプログラミングとエージェント能力において、オープンソースモデルの中でも優れた成果を上げている。開発者の一人は、「GLM-5は実際のプログラミングシナリオでの使用感がClaudeの最強モデルに迫っていると感じる」と述べている。業界内で最も権威のあるArtificial Analysisランキングでは、GLM-5は世界第4位、オープンソースでは第一位だ。
智谱はGLM-5を「システムアーキテクト」と表現しており、つまり、AI大規模モデルは今後、単にコードを書いて特定の機能を実現するだけでなく、エンジニアのようにシステムを構築し、機能やタスクを異なるエージェントに分配して完成させる方向に進むということだ。
エージェントプログラミングのテストでは、智谱GLM-5はClaudeをやや上回った。
また、2月10日には千問も新しい画像生成モデルQwen-Image 2.0をリリースし、1000トークンの超長指示に対応し、推論能力も向上している。
ほぼ同時期に、字节跳动も同様のモデルSeedream 5.0を発表し、画像生成能力がさらに進化した。「以前はAIによる画像生成において、推論能力の制約から漢字が『牛頭不對馬嘴』になったり、文字化けしたりする問題があった」と千問の開発チームは語る。指示理解と推論能力の向上により、AI画像生成における「漢字の難題」は解消される見込みだ。
文章から画像、動画へと多モーダルモデルが進化する一方、最も基本的な大規模言語モデルも「大きな進歩」を遂げている。最近、DeepSeekは新モデルを静かにリリースしたが、期待されたV4ではないものの、驚きの内容だった。
この新モデルは多モーダル認識能力は持たないが、コンテキスト処理能力を100万トークンに引き上げており、一度に約90万字の『三体』全巻を理解できるレベルだとされる。あるエージェント開発者は、「現在、百万トークンのコンテキスト理解をサポートするモデルは少なく、GoogleのGeminiやAnthropicのClaudeが代表的だが、DeepSeekのこのアップデートも『乗車』したと言える」と語った。
この大規模モデルの「新登場ブーム」はまだ終わらず、近日中に豆包2.0や千問3.5などのフラッグシップモデルもリリースされる予定だ。
(出典:上観新聞)