Muita gente deve estar com dores de cabeça por causa dos custos de inferência de LLM, mas ultimamente está a receber destaque uma técnica chamada speculative sampling.
O princípio é este: um modelo mais pequeno prevê primeiro o resultado e, em seguida, um grande modelo alvo verifica tudo de uma vez com processamento paralelo em GPU. Como o número de chamadas ao modelo alvo pode ser reduzido em mais de 5 vezes, o custo de inferência cai drasticamente.
Pensa na estrutura como se o modelo de rascunho criasse rapidamente um esboço, e o modelo principal tratasse apenas da verificação de forma eficiente. O ponto principal é que se poupam recursos computacionais mantendo ao mesmo tempo a qualidade da saída.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
13 gostos
Recompensa
13
7
Republicar
Partilhar
Comentar
0/400
alpha_leaker
· 16h atrás
Modelos pequenos fazem o trabalho inicial e os grandes validam: este processo é realmente inteligente. Se o custo pode ser reduzido para um quinto, quem não ficaria tentado?
Ver originalResponder0
LayerZeroHero
· 12-06 18:57
Eh pá, finalmente alguém falou sobre isto, o speculative sampling é mesmo um salva-vidas... Modelo pequeno na linha da frente e modelo grande a fazer a revisão, este combo reduz mesmo os custos. Cinco vezes, pá! Se isto for mesmo implementado, aquelas equipas sufocadas pelos custos de inferência vão adorar.
Ver originalResponder0
MEVSandwichMaker
· 12-06 09:58
Assim o custo pode ser reduzido, já devia haver este tipo de manobra engenhosa há mais tempo.
Ver originalResponder0
liquidation_watcher
· 12-06 09:55
Modelos pequenos fazem o rascunho e modelos grandes fazem a verificação; esta divisão de trabalho é realmente genial. Se o custo pode ser reduzido em 5 vezes, quem é que consegue resistir?
Ver originalResponder0
ruggedNotShrugged
· 12-06 09:51
Uma redução de custos de 5 vezes? Se isto realmente conseguir produzir resultados de forma estável, aquelas pequenas equipas sufocadas pelos custos de inferência finalmente terão uma salvação.
Ver originalResponder0
MetaverseMigrant
· 12-06 09:49
Ah, é novamente aquela coisa de optimização de custos, este speculative sampling é realmente interessante... modelos pequenos a fazer a triagem e modelos grandes para a decisão final, parece mesmo uma linha de montagem. Uma redução de custos de 5 vezes soa um pouco exagerado, mas se realmente poupar dinheiro, então tudo bem.
Ver originalResponder0
AirdropHuntress
· 12-06 09:43
Esta abordagem é interessante, temos de analisar os detalhes — modelo pequeno na linha da frente, modelo grande a posteriori, será que o custo pode mesmo ser reduzido em 5 vezes? Como é que os dados foram validados? Não vá ser mais uma daquelas situações em que os dados do artigo científico não correspondem ao desempenho real. O mais importante é saber se a qualidade da saída não foi realmente comprometida, só dá para acreditar nisso vendo dados de testes de stress reais.
Muita gente deve estar com dores de cabeça por causa dos custos de inferência de LLM, mas ultimamente está a receber destaque uma técnica chamada speculative sampling.
O princípio é este: um modelo mais pequeno prevê primeiro o resultado e, em seguida, um grande modelo alvo verifica tudo de uma vez com processamento paralelo em GPU. Como o número de chamadas ao modelo alvo pode ser reduzido em mais de 5 vezes, o custo de inferência cai drasticamente.
Pensa na estrutura como se o modelo de rascunho criasse rapidamente um esboço, e o modelo principal tratasse apenas da verificação de forma eficiente. O ponto principal é que se poupam recursos computacionais mantendo ao mesmo tempo a qualidade da saída.