Notícias do Coinjie Wang, a equipe Qwen de código aberto do FlashQLA é uma biblioteca de operadores de alto desempenho voltada para GDN (gated delta network, camada de atenção linear usada na série Qwen3-next / 3.5 / 3.6).


Nos testes no H200, a velocidade de cálculo direta foi de 2 a 3 vezes mais rápida que o kernel Fla Triton, e a velocidade de cálculo reverso foi o dobro.
No cenário TP8, a velocidade de cálculo direta atingiu até 5,33 vezes.
O núcleo do aumento de velocidade reside na utilização da característica de decaimento exponencial do valor de porta do GDN para realizar o paralelismo de contexto automático (autocp), pulando a etapa de cálculo da matriz de correção na abordagem tradicional.
O sistema determinará automaticamente se deve ativar o CP com base no tamanho do lote, número de cabeças e comprimento da sequência, sem necessidade de configuração manual.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar