Повідомлення Gate News, 24 квітня — DeepSeek випустила серію V4 відкритих моделей із відкритим вихідним кодом під ліцензією MIT, а ваги тепер доступні на Hugging Face та ModelScope. Серія включає дві (MoE) моделі mixture-of-experts: V4-Pro із 1,6 трильйона загальних параметрів і 49 мільярдів активованих на токен, та V4-Flash із 284 мільярдами загальних параметрів і 13 мільярдами активованих на токен. Обидві підтримують контекстне вікно на 1 мільйон токенів.
Архітектура містить три ключові оновлення: гібридний механізм уваги, що поєднує стиснену розріджену attention (CSA) та сильно стиснену attention (HCA), який суттєво зменшує накладні витрати для довгого контексту—FLOPs інференсу V4-Pro для 1M контексту становить лише 27% від V3.2, а KV cache (VRAM для зберігання історичної інформації під час інференсу) — лише 10% від V3.2; manifold-constrained hyperconnections (mHC) замінюють традиційні residual-з’єднання, щоб підвищити стабільність поширення сигналу між шарами; і оптимізатор Muon для швидшого збігання під час тренування. Попереднє навчання використовувало понад 32 трильйони токенів даних.
Післянавчання застосовує двоетапний підхід: спочатку тренування доменно-специфічних експертів через supervised fine-tuning (SFT) та reinforcement learning GRPO, потім об’єднання їх в єдину модель через online distillation. V4-Pro-Max (найвищий режим інференсу) стверджує, що це найсильніша відкрита модель із топовими бенчмарками з кодування та суттєво звуженими розривами з закритими моделями на фронтирі в задачах міркувань і агентів. V4-Flash-Max досягає рівня Pro у міркуваннях за достатнього бюджету обчислень, але обмежується масштабом параметрів у чистих задачах знань і складних задачах агентів. Ваги зберігаються у змішаній точності FP4+FP8.
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до
Застереження.
Пов'язані статті
Офіс IP Китаю додає ШІ, напівпровідники та мозково-комп’ютерні інтерфейси до програми прискореного захисту
Повідомлення Gate News, 24 квітня — Національне управління з інтелектуальної власності Китаю 24 квітня оголосило, що створить комплексний захист прав інтелектуальної власності для нових технологій шляхом інституційних реформ, розширених послуг і впровадження ширших застосувань. Управління wi
GateNews3хв. тому
Державний уряд США керує біткоїн-нода без майнінгу, зазначив адмірал
Старший адмірал заявив, що уряд США активно керує нодою в мережі Bitcoin, навмисно уникаючи участі в майнінговій діяльності. Розкриття інформації вказує, що органи влади беруть на себе більш залучену роль у блокчейн-інфраструктурі для нагляду та
CryptoFrontier20хв. тому
Дохід Tesla за Q1 зріс на 16% до $22,4 млрд; дебют гуманоїдного робота заплановано на середину 2026 року
Повідомлення Gate News, 24 квітня — Tesla повідомила про дохід за перший квартал у розмірі 22,4 млрд дол. США 23 квітня, що становить зростання на 16% у річному обчисленні. Поставки автомобілів компанії у всьому світі перевищили 358 000 одиниць, тоді як виробництво сягнуло понад 408 000 одиниць.
Шанхайський завод Tesla Gigafactory поставив 213 000 автомоб
GateNews20хв. тому
Прибуток SK Hynix у I кварталі зріс у п’ять разів до рекорду на хвилі буму ШІ, премії співробітникам підняли до $878K
Повідомлення Gate News, 24 квітня — SK Hynix повідомила про п’ятиразове зростання квартального операційного прибутку до рекордних 37.61 трлн вон ($32.4 мільярда) 23 квітня, яке зумовлене різким зростанням попиту з боку рішень на основі штучного інтелекту та дата-центрів. Несподівана вигода забезпечує небачені раніше премії працівникам, і, за оцінками аналітиків, вони можуть досягти до $878,000 на одного співробітника у 2027 році, якщо нинішні прогнози прибутків збережуться.
GateNews1год тому
Архітектуру DeepSeek V4 підтверджено: 3 із 4 прогнозів збулися, модуль Engram відсутній
Повідомлення Gate News, 24 квітня — DeepSeek сьогодні опублікував картку моделі V4, підтвердивши раніші архітектурні припущення, зроблені шляхом аналізу бібліотеки ядер TileKernels, випущеної вчора (23 квітня). Згідно з моніторингом від Beating, було підтверджено три ключові компоненти: mHC
GateNews1год тому
SoftBank Планує Завод Акумуляторів для AI-Центрів Даних в Осакі, Орієнтуючись на Виробництво Протягом П’яти Років
Повідомлення Gate News, 24 квітня — SoftBank Corp, мобільний підрозділ японської SoftBank Group, планує перетворити частину свого заводу в Сакаї, Осака, на велику виробничу лінію акумуляторів для центрів обробки даних для ШІ. Очікується, що генеральний директор Дзюнїті Міякава оголосить про проєкт у травні в рамках нового п’ятирічного плану,
GateNews1год тому