Yifan Zhang divulga as especificações técnicas completas do DeepSeek V4: 1,6T de parâmetros, 384 especialistas com 6 ativações

Mensagem do Gate News, 22 de abril — O estudante de doutoramento da Princeton, Yifan Zhang, divulgou no X especificações técnicas completas para o DeepSeek V4, na sequência de uma antevisão a 19 de abril. O V4 conta com 1,6 biliões de parâmetros no total e uma variante leve, V4-Lite, com 285 mil milhões de parâmetros.

O modelo utiliza o mecanismo de atenção DSA2, que combina a anterior DSA (DeepSeek Sparse Attention) da DeepSeek da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeça de 512 dimensões, em conjunto com a Sparse Multi-Query Attention (MQA) e a Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas, com 6 ativados por passagem forward, utilizando o Fused MoE Mega-Kernel. As ligações residuais recorrem à arquitectura Hyper-Connections.

Os detalhes de treino revelados pela primeira vez incluem o uso do optimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treino de 32K tokens e o GRPO (Group Relative Policy Optimization) com correcção de divergência KL durante a aprendizagem por reforço. A janela de contexto final estende-se até 1 milhão de tokens. O modelo é apenas de texto.

Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Agente de Descoberta de Vulnerabilidades por IA da 360 encontra quase 1.000 explorações de zero-day, competindo com a Mythos

O agente orientado por IA da 360 Digital Security afirma ter encontrado cerca de 1.000 novas vulnerabilidades, incluindo no Office e no OpenClaw; a IA é agora central para a descoberta e para a preparação da cadeia de exploração, rivalizando com a Mythos. Resumo: Um relatório citado pela Bloomberg assinala que o Agente de Descoberta de Vulnerabilidades orientado por IA da 360 Digital Security Group identificou quase 1.000 vulnerabilidades previamente desconhecidas nos últimos meses, incluindo no Microsoft Office e no framework OpenClaw. A empresa afirma que a IA se tornou o motor central da descoberta de vulnerabilidades e anunciou uma ferramenta de IA para acelerar a construção de cadeias de exploração. Benincasa caracteriza a 360 como uma concorrente da Mythos, da Anthropic, com base na análise da Natto Thoughts às comunicações da empresa em língua chinesa.

GateNews2m atrás

CEO da Anthropic vai ao Salão Oval para quebrar o gelo: reúne-se com o Chefe de Gabinete e com Besent para discutir Mythos

O Wall Street Journal afirma que o CEO da Anthropic, Amodei, teve uma reunião privada no dia 17/4 com a Casa Branca, centrada nos limites de segurança nacional do Mythos e na implementação responsável; a Casa Branca disse que a reunião foi construtiva e o mercado vê isso como um descongelar das relações. A principal divergência é que o sector militar quer o Claude para todos os usos legais, enquanto a Anthropic sustenta a discricionariedade da sua própria política de utilização aceitável. Ambas as partes afirmaram que continuarão o diálogo e voltarão a discutir antes do lançamento do Mythos em maio.

ChainNewsAbmedia2h atrás

Google Ironwood TPU: desempenho 10x + quatro parceiros a enfrentar a Nvidia

De acordo com um relatório aprofundado da Bloomberg e um anúncio oficial da Google, a Google expandiu formalmente, a 22 de abril, a sua gama de chips de IA desenvolvidos internamente: o Ironwood, um chip dedicado a inferência (TPU da 7.ª geração), está agora disponível de forma abrangente no Google Cloud, e em paralelo foi iniciado um trabalho conjunto para a próxima geração de designs com quatro parceiros — Broadcom, MediaTek, Marvell e Intel. O objectivo é, através de uma cadeia de abastecimento de chips à medida, desafiar de forma positiva a posição dominante da Nvidia no mercado de capacidade de computação para IA. Ironwood: TPU da 7.ª geração, primeiro chip dedicado a inferência concebido para esse fim O Ironwood é o produto da 7.ª geração da série de TPU da Google e o primeiro chip dedicado a inferência no âmbito da estratégia de “separação entre treino e inferência”. As especificações reveladas pela Google: a performance de pico por chip é T

ChainNewsAbmedia2h atrás

DeepSeek discute a primeira ronda de financiamento externo, avaliação de 20 mil milhões de dólares: nova máxima na avaliação de IA na China

De acordo com uma reportagem da Bloomberg de 22 de Abril (citando a exclusividade do The Information), a nova empresa chinesa de IA DeepSeek está em negociações para uma primeira ronda de financiamento externo, com uma avaliação de 20 mil milhões de dólares. Este é o primeiro financiamento externo da DeepSeek desde a sua criação em 2023; anteriormente, foi financiada totalmente com fundos internos pelo fundo de hedge quantitativo High-Flyer Capital Management. Uma avaliação de 20 mil milhões de dólares é também um marco para a nova empresa chinesa de IA na sua primeira entrada no segundo semestre da categoria de “avaliações na casa dos 10 mil milhões de dólares”. Dimensão do financiamento e utilização dos fundos A DeepSeek procura pelo menos 300 milhões de dólares na primeira ronda de financiamento; uma avaliação de 20 mil milhões de dólares volta a duplicar a avaliação de “mais de 10 mil milhões de dólares” inicialmente divulgada a 17 de Abril pelo The Information.

ChainNewsAbmedia2h atrás

Google Lança Ferramentas de Agente de IA para Ajudar as Empresas a Automatizar Tarefas

A Google revela ferramentas para construir agentes de IA para automatizar tarefas, acompanhar o progresso e gerir fluxos de trabalho através de caixas de entrada dedicadas aos agentes, com actualizações do Workspace e uma visão de que os agentes de IA vão remodelar as rotinas diárias dos colaboradores. Abstract: A Google apresentou ferramentas para criar agentes de IA para automatização de tarefas, monitorizar o seu progresso e simplificar os fluxos de trabalho, sinalizando actualizações do Workspace e um futuro em que os agentes de IA transformam o trabalho diário.

GateNews2h atrás

Google: 75% do Novo Código na Google Gerado por IA

A Google informa que 75% do novo código gerado por IA e mais de metade dos investimentos em computação de ML visam operações de negócios na cloud. Resumo: Numa actualização corporativa, a Google afirma que a IA já gera cerca de 75% de todo o novo código e que a maioria dos seus investimentos em computação de machine learning será dirigida para operações de negócios baseadas na cloud.

GateNews3h atrás
Comentar
0/400
Nenhum comentário