MITライセンスと1.6Tパラメータを備えたDeepSeekのV4オープンソースモデルシリーズをリリース

ゲートニュース速報、4月24日—DeepSeekは、MITライセンスのもとでオープンソースのV4シリーズモデルをリリースしました。重みは現在Hugging FaceおよびModelScopeで利用可能です。このシリーズには2つのモーダル・エキスパート (MoE)モデルが含まれています。V4-Proは総パラメータ1.6兆で、1トークンあたり490億が有効化され、V4-Flashは総パラメータ2840億で、1トークンあたり130億が有効化されます。両方とも1,000,000トークンのコンテキストウィンドウをサポートします。

アーキテクチャには3つの重要なアップグレードがあります。圧縮されたスパース注意 (CSA) と大幅に圧縮された注意 (HCA) を組み合わせたハイブリッド注意メカニズムにより、ロングコンテキストのオーバーヘッドを大幅に削減—V4-Proの1Mコンテキストにおける推論FLOPsはV3.2のわずか27%であり、推論中に歴史情報を格納するためのKVキャッシュ (VRAM) はV3.2の10%にとどまります。従来の残差接続に代わり、層間の信号伝播の安定性を高めるマニフォールド制約付きハイパーコネクション (mHC)。そして、より速い学習収束のためのMuonオプティマイザです。事前学習では32兆トークン以上のデータを使用しました。

事後学習は2段階のアプローチを採用します。まず、教師あり微調整 (SFT) とGRPO強化学習によりドメイン固有のエキスパートを訓練し、その後オンライン蒸留によってそれらを単一モデルに統合します。V4-Pro-Max (最高推論モード)は、トップクラスのコーディングベンチマークを備え、推論およびエージェントタスクにおけるクローズドソースのフロンティアモデルとのギャップを大幅に縮めた、最強のオープンソースモデルであると主張しています。V4-Flash-Maxは、十分な計算予算がある場合にProレベルの推論性能を実現しますが、純粋な知識および複雑なエージェントタスクにおいてはパラメータ規模によって制約を受けます。重みは混合精度のFP4+FP8で保存されます。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

中国の知財当局、AI、半導体、ブレイン・コンピューター・インターフェースを保護の迅速化プログラムに追加

Gate Newsメッセージ、4月24日 — 中国の国家知的財産権局(CNIPA)は4月24日、制度改革、強化されたサービス、応用の拡大を通じて、新興技術に対する包括的な知的財産保護を確立すると発表した。管理当局は

GateNews3分前

米国政府はマイニングなしでビットコインノードを運用している、と提督が示唆

上級の提督は、米国政府がビットコインネットワーク上でノードを積極的に運用している一方で、採掘活動への参加は意図的に回避していると示唆した。その発表は、当局が監督のためにブロックチェーン基盤へのより深い関与を進めていることを示唆している。

CryptoFrontier20分前

テスラの第1四半期売上高は16%増の224億ドルに到達。ヒューマノイドロボットのデビューは2026年半ばを予定

ゲートニュース(4月24日)— テスラは4月23日、2024年第1四半期の売上高が224億米ドルであったと報告しており、前年比16%の増加です。同社の世界販売(車両納入台数)は358,000台を超えた一方、生産台数は408,000台を上回りました。 テスラの上海ギガファクトリーは当四半期に213,000台の車両を出荷し、前年同期間比で23.5%増となりました。

GateNews20分前

SKハイニックスのQ1利益が5倍に急増、AIブームで過去最高に。従業員ボーナスは$878Kに

ゲートニュース 4月24日 — SKハイニックスは、4月23日に四半期の営業利益が5倍に増え、過去最高の37.61兆ウォン ($32.4 billion) に達したと報告した。背景には、人工知能とデータセンターからの需要急増がある。この予想外の大幅増益は、前例のない従業員ボーナスを後押ししており、アナリストは、現在の業績見通しが維持されれば、従業員1人当たりの金額が2027年に最大で$878,000に達し得ると予測している

GateNews1時間前

DeepSeek V4アーキテクチャ検証済み:4つの予測のうち3つが的中、Engramモジュールは不在

Gate Newsメッセージ、4月24日—DeepSeekは本日V4モデルカードをリリースし、昨日リリースされたTileKernelsカーネルライブラリの分析を通じて行われた先行するアーキテクチャ予測を検証しました (4月23日)。Beatingによるモニタリングによれば、3つの主要コンポーネントが確認されました: mHC

GateNews1時間前

ソフトバンク、オオサカでAIデータセンター向けバッテリー工場計画 5年以内の生産を目標

ゲートニュース 4月24日—日本のソフトバンクグループのモバイル部門であるソフトバンク株式会社は、大阪府堺市の工場の一部を、AIデータセンター向けの大型バッテリー生産ラインに転換する計画だ。CEOの宮川潤一氏は、新たな5カ年計画の一環として5月にこのプロジェクトを発表すると見込まれている。

GateNews1時間前
コメント
0/400
コメントなし