Yifan ZhangがDeepSeek V4の完全な技術仕様を開示:1.6Tパラメータ、6アクティベーション搭載の384人のエキスパート

Gate Newsの告知、4月22日——プリンストン大学の博士課程学生、Yifan Zhangが、4月19日の予告に続いてX上でDeepSeek V4の完全な技術仕様を明らかにした。V4は総パラメータ数1.6兆のほか、パラメータ2850億の軽量版V4-Liteを備える。

このモデルはDSA2のアテンション・メカニズムを採用しており、V3.2のDeepSeekの既存DSA (DeepSeek Sparse Attention)と、512次元のヘッド埋め込みを用いたNSA (Native Sparse Attention)を組み合わせる。さらに、Sparse Multi-Query Attention (MQA)とSliding Window Attention (SWA)を組み合わせる。MoE (Mixture of Experts)の層には、順伝播の1回あたり6つが活性化される384人のエキスパートが含まれ、Fused MoE Mega-Kernelを使用する。残差接続はHyper-Connectionsアーキテクチャを用いる。

初めて明らかにされたトレーニングの詳細には、Muonオプティマイザの使用が含まれており、(applying Newton-Schulz orthogonalization to momentum updates)、32Kトークンの事前学習コンテキスト・ウィンドウ、強化学習中のKLダイバージェンス補正を伴うGRPO (Group Relative Policy Optimization)が明らかにされた。最終的なコンテキスト・ウィンドウは100万トークンまで拡張される。モデルはテキストのみ。

ZhangはDeepSeekに雇用されておらず、同社は開示された情報について公式にはコメントしていない。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

OpenAIが、PII検出とマスクのためのオープンソース・プライバシーフィルターモデルを公開

概要:OpenAIのプライバシーフィルターはオープンソースで、ローカルで実行できるモデルで、テキスト内のPIIを検出してマスクします。大きなコンテキストに対応し、多くのPIIカテゴリを特定でき、データの準備、インデックス作成、ログ記録、モデレーションなどのプライバシー保護型ワークフローを想定しています。 OpenAIのプライバシーフィルターは、ローカルで実行されるオープンソースのモデル (128k-token context) で、テキスト内のPIIを検出してマスクし、プライバシーワークフローのために連絡先、金融、認証情報のデータをカバーします。

GateNews3分前

OpenAIは2030年までに計算能力30GWを展開する計画

OpenAIは、増大するAI需要に対応するため、2030年までに計算能力30GWを目指しており、2025年の目標10GWのうちすでに8GWを完了しています。この拡大は、次世代AIの開発とデプロイに向けてインフラを拡張する戦略を示しています。 OpenAIは、増加するAI需要に対応するため、2030年までに計算能力30GWに到達する意向であり、すでに2025年の目標10GWのうち8GWを完了しています。この動きは、次世代AIの開発とデプロイを支えるためのインフラを戦略的に拡大することを反映しています。

GateNews4分前

360のAI脆弱性発見エージェントが約1,000件のゼロデイ脆弱性のエクスプロイトを発見、Mythosと競合

360デジタルセキュリティのAI駆動型エージェントは、OfficeやOpenClawを含む約1,000件の新たな脆弱性を見つけたと主張しています。AIは現在、発見とエクスプロイト・チェーンの準備の中核となっており、Mythosに匹敵するとされています。 要旨:Bloombergで引用された報告によると、360デジタルセキュリティ・グループのAI駆動型「脆弱性発見エージェント」は、ここ数カ月で約1,000件の、これまで未確認だった脆弱性を特定しました。対象にはMicrosoft OfficeやOpenClawのフレームワークが含まれます。同社は、AIが脆弱性発見の中核エンジンになったとしており、エクスプロイト・チェーンの構築を加速するAIツールを発表したとしています。Benincasa氏は、Natto Thoughtsによる同社の中国語による発表内容のレビューに基づき、360をAnthropicのMythosの競合と位置付けています。

GateNews9分前

AnthropicのCEOがホワイトハウスで初対面の場を設ける:首席補佐官、ベッセントと協議 Mythos

ウォール・ストリート・ジャーナルによると、Anthropic のCEO Amodei が 4/17 にホワイトハウスで非公開会談し、Mythos の国の安全に関する境界と責任ある展開に焦点を当てた。ホワイトハウスは、会議は建設的だったと述べ、市場は関係の緊張緩和と見ている。主な相違点は、軍が Claude をあらゆる合法的用途で使用することを求める一方で、Anthropic は、自社の許容する利用ポリシーの裁量を堅持していることだ。双方とも、対話を継続し、5月に Mythos がオンラインになる前に改めて話し合う意向を示した。

ChainNewsAbmedia2時間前

Google Ironwood TPU:10倍の性能 + 4つのパートナーがNvidiaに対抗

Bloombergの深掘り報道およびGoogle公式発表によると、Googleは4月22日、独自のAIチップ構成を正式に拡張しました。推論専用のIronwood(第7世代TPU)をGoogle Cloudで全面提供するとともに、Broadcom、MediaTek、Marvell、Intelの4社パートナーとの次世代設計協業もあわせて開始し、個別設計のチップ供給チェーンでNvidiaのAI演算能力市場における主導的地位に正面から挑みます。 Ironwood:第7世代TPU、初めて推論向けに設計 IronwoodはGoogleのTPUシリーズ第7世代製品であり、「学習・推論の分岐」戦略のもとで初めて推論専用として設計されたチップです。Googleが公開した仕様:単一チップのピーク性能はT

ChainNewsAbmedia2時間前

DeepSeek は最初の外部資金調達の交渉に着手、評価額は200億ドル:中国のAIの評価額が過去最高に

ブルームバーグ 4 月 22 日の報道(The Information の独占によると)によれば、中国のAIスタートアップ DeepSeek は最初の外部調達ラウンドについて協議しており、評価額は 20 億米ドルに達する。これは DeepSeek が 2023 年に設立されて以来初めて対外で資金調達するもので、これまで資金はすべて、クオンツ・ヘッジファンド High-Flyer Capital Management が社内から拠出していた。200 億米ドルという評価額も、中国のAIスタートアップが初めて「億米ドル規模の評価額」の後半に入ることを示すマイルストーンだ。 資金調達規模と資金使途 DeepSeek は少なくとも 3 億米ドルの第 1 ラウンド調達を求めており、200 億米ドルの評価額は、やや早い 4 月 17 日に The Information が初めて明らかにした「100 億米ドル以上」の評価額がさらに倍増したことになる

ChainNewsAbmedia2時間前
コメント
0/400
コメントなし