Muita gente deve estar com dores de cabeça por causa dos custos de inferência de LLM, mas ultimamente está a receber destaque uma técnica chamada speculative sampling.
O princípio é este: um modelo mais pequeno prevê primeiro o resultado e, em seguida, um grande modelo alvo verifica tudo de uma vez com processamento paralelo em GPU. Como o número de chamadas ao modelo alvo pode ser reduzido em mais de 5 vezes, o custo de inferência cai drasticamente.
Pensa na estrutura como se o modelo de rascunho criasse rapidamente um esboço, e o modelo principal tratasse apenas da verificação de forma eficiente. O ponto principal é que se poupam recursos computacionais mantendo ao mesmo tempo a qualidade da saída.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
10 Curtidas
Recompensa
10
6
Repostar
Compartilhar
Comentário
0/400
LayerZeroHero
· 10h atrás
Eh pá, finalmente alguém falou sobre isto, o speculative sampling é mesmo um salva-vidas... Modelo pequeno na linha da frente e modelo grande a fazer a revisão, este combo reduz mesmo os custos. Cinco vezes, pá! Se isto for mesmo implementado, aquelas equipas sufocadas pelos custos de inferência vão adorar.
Ver originalResponder0
MEVSandwichMaker
· 19h atrás
Assim o custo pode ser reduzido, já devia haver este tipo de manobra engenhosa há mais tempo.
Ver originalResponder0
liquidation_watcher
· 19h atrás
Modelos pequenos fazem o rascunho e modelos grandes fazem a verificação; esta divisão de trabalho é realmente genial. Se o custo pode ser reduzido em 5 vezes, quem é que consegue resistir?
Ver originalResponder0
ruggedNotShrugged
· 19h atrás
Uma redução de custos de 5 vezes? Se isto realmente conseguir produzir resultados de forma estável, aquelas pequenas equipas sufocadas pelos custos de inferência finalmente terão uma salvação.
Ver originalResponder0
MetaverseMigrant
· 20h atrás
Ah, é novamente aquela coisa de optimização de custos, este speculative sampling é realmente interessante... modelos pequenos a fazer a triagem e modelos grandes para a decisão final, parece mesmo uma linha de montagem. Uma redução de custos de 5 vezes soa um pouco exagerado, mas se realmente poupar dinheiro, então tudo bem.
Ver originalResponder0
AirdropHuntress
· 20h atrás
Esta abordagem é interessante, temos de analisar os detalhes — modelo pequeno na linha da frente, modelo grande a posteriori, será que o custo pode mesmo ser reduzido em 5 vezes? Como é que os dados foram validados? Não vá ser mais uma daquelas situações em que os dados do artigo científico não correspondem ao desempenho real. O mais importante é saber se a qualidade da saída não foi realmente comprometida, só dá para acreditar nisso vendo dados de testes de stress reais.
Muita gente deve estar com dores de cabeça por causa dos custos de inferência de LLM, mas ultimamente está a receber destaque uma técnica chamada speculative sampling.
O princípio é este: um modelo mais pequeno prevê primeiro o resultado e, em seguida, um grande modelo alvo verifica tudo de uma vez com processamento paralelo em GPU. Como o número de chamadas ao modelo alvo pode ser reduzido em mais de 5 vezes, o custo de inferência cai drasticamente.
Pensa na estrutura como se o modelo de rascunho criasse rapidamente um esboço, e o modelo principal tratasse apenas da verificação de forma eficiente. O ponto principal é que se poupam recursos computacionais mantendo ao mesmo tempo a qualidade da saída.