Ифань Чжан раскрывает полные технические спецификации DeepSeek V4: 1,6T параметров, 384 эксперта с 6 активациями

Сообщение Gate News, 22 апреля — студент Принстонского PhD Ифань Чжан раскрыл полные технические спецификации DeepSeek V4 в X, после превью от 19 апреля. V4 имеет 1,6 трлн общих параметров и облегчённую версию V4-Lite с 285 млрд параметров.

Модель использует механизм внимания DSA2, который сочетает прежний DSA (DeepSeek Sparse Attention) из V3.2 и NSA (Native Sparse Attention) с векторами представления голов 512 измерений, в паре с Sparse Multi-Query Attention (MQA) и Sliding Window Attention (SWA). Слой MoE (Mixture of Experts) содержит 384 эксперта, из которых активируются 6 за один прямой проход, с использованием Fused MoE Mega-Kernel. Остаточные соединения используют архитектуру Hyper-Connections.

Детали обучения, раскрытые впервые, включают использование оптимизатора Muon (applying Newton-Schulz orthogonalization to momentum updates) для обновлений по импульсу, контекстное окно предобучения на 32K токенов и GRPO (Group Relative Policy Optimization) с коррекцией по расхождению KL во время обучения с подкреплением. Итоговое контекстное окно расширено до 1 млн токенов. Модель — только текстовая.

Чжан не работает в DeepSeek, и компания официально не прокомментировала раскрытую информацию.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

OpenClaw, Hermes и SillyTavern подтверждены как поддерживаемые в рамках GLM Coding Plan

Менеджер по продукту Zhipu AI Ли объявляет OpenClaw, Hermes и SillyTavern поддерживаемыми проектами по плану GLM Coding Plan; другие инструменты будут оцениваться в каждом конкретном случае. Не делитесь учетными данными и не используйте подписки в качестве доступа к API; обратитесь в поддержку по вопросу с ошибкой 1313. Менеджер по продукту Zhipu AI Ли объявил, что OpenClaw, Hermes и SillyTavern официально поддерживаются в рамках GLM Coding Plan, а другие инструменты будут оцениваться в каждом конкретном случае. В заметке говорится, что не следует делиться учетными данными или использовать подписки как доступ к API, и предлагается пользователям с ошибкой 1313 обратиться в поддержку.

GateNews3м назад

Генеральный директор Google Cloud: Gemini будет обеспечивать запуск персонализированной Siri от Apple в 2026 году

Резюме: Gemini будет поддерживать персонализированную Apple Siri в 2026 году, созданную на основе моделей Apple Foundation Models и сотрудничества с Gemini; Apple тестирует чатоподобную Siri в iOS 27/macOS 27, которая запланирована к показу на WWDC 2026. Аннотация: Google Cloud's Gemini должен обеспечивать персонализированную Apple Siri к 2026 году, сочетая Gemini с Apple's Foundation Models в рамках сотрудничества примерно на $1 миллиардов. Apple тестирует переработанную, чатоподобную Siri в iOS 27/macOS 27, с интерфейсом Dynamic Island и новыми функциями, до запланированного на WWDC 2026 анонса 8 июня.

GateNews35м назад

Сделка SpaceX-Cursor $60B предоставляет новые доказательства в поддержку аргументов СБФ о помиловании

Аннотация SpaceX объявляет партнерство $60 миллиарда с Cursor с опционом на приобретение, формируя ходатайство СБФ о помиловании, поскольку ранняя доля Cursor у Alameda сегодня могла бы стоить примерно $3 миллиарда. Материал рассматривает утверждения СБФ о неплатежеспособности, публичные действия его родителей, возражения кредиторов и крайне малые шансы на помилование. Краткое содержание Сделка SpaceX-Cursor подпитывает ходатайство СБФ о помиловании; доля Alameda $200k составила бы ~ $3B сегодня (15,000x). СБФ утверждает о неплатежеспособности FTX; рынки показывают низкие шансы на помилование; Трамп вряд ли помилует.

GateNews42м назад

Акции Chegg обрушились на 99%, поскольку ИИ нарушает рынок Edtech

Кратко: Chegg взлетела на фоне спроса на онлайн-образование, затем инструменты на базе ИИ нарушили ее модель, что привело к массовым увольнениям и падению ниже $2, при этом более широкие изменения, обусловленные ИИ, ударили по майнерам криптовалют и финтех-компаниям. Аннотация: В этой статье рассматривается рост Chegg как любимца edtech в эпоху пандемии и ее последующее падение на фоне быстрого внедрения генеративного ИИ, который дает быстрые ответы и подрывает ценностное предложение Chegg. В ней описываются увольнения в 2025 году и обвал акций до уровня, близкого к исключению из листинга, а также опыт Chegg вписывается в более широкий контекст сбоя, вызванного ИИ и меняющего технологический сектор и криптоиндустрию: майнеры Bitcoin переходят к операциям на базе ИИ, а AI-ориентированные стратегии заново определяют конкурентоспособность в финтехе и за его пределами.

CryptoFrontier52м назад

OpenAI выпустила модель с открытым исходным кодом для обнаружения и редактирования ПДн

Аннотация: Фильтр конфиденциальности OpenAI — это модель с открытым исходным кодом, выполняемая локально, которая обнаруживает и редактирует ПДн (персональные данные) в тексте. Она поддерживает большие контексты, выявляет множество категорий ПДн и предназначена для рабочих процессов с сохранением конфиденциальности, таких как подготовка данных, индексация, логирование и модерация. Фильтр конфиденциальности OpenAI — это локально запускаемая модель с открытым исходным кодом (128k-token context), которая обнаруживает и редактирует ПДн (персональные данные) в тексте, охватывая контактные, финансовые и учетные данные для рабочих процессов по защите конфиденциальности.

GateNews1ч назад

OpenAI планирует развернуть 30 ГВт вычислительных мощностей к 2030 году

OpenAI планирует обеспечить 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, при этом уже завершено 8 ГВт из целевых 10 ГВт на 2025 год. Расширение сигнализирует о стратегии наращивания инфраструктуры для разработки и развертывания ИИ следующего поколения. OpenAI намерена достичь 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, уже завершив 8 ГВт из целевого показателя 10 ГВт на 2025 год. Действие отражает стратегическое расширение инфраструктуры для поддержки разработки и развертывания ИИ следующего поколения.

GateNews1ч назад
комментарий
0/400
Нет комментариев