2025-12-06 09:28:24

Muita gente deve estar com dores de cabeça por causa dos custos de inferência de LLM, mas ultimamente está a receber destaque uma técnica chamada speculative sampling.

O princípio é este: um modelo mais pequeno prevê primeiro o resultado e, em seguida, um grande modelo alvo verifica tudo de uma vez com processamento paralelo em GPU. Como o número de chamadas ao modelo alvo pode ser reduzido em mais de 5 vezes, o custo de inferência cai drasticamente.

Pensa na estrutura como se o modelo de rascunho criasse rapidamente um esboço, e o modelo principal tratasse apenas da verificação de forma eficiente. O ponto principal é que se poupam recursos computacionais mantendo ao mesmo tempo a qualidade da saída.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

10 Curtidas

Recompensa
10
6
Repostar
Compartilhar

Comentário

0/400

LayerZeroHero

· 10h atrás

Eh pá, finalmente alguém falou sobre isto, o speculative sampling é mesmo um salva-vidas... Modelo pequeno na linha da frente e modelo grande a fazer a revisão, este combo reduz mesmo os custos. Cinco vezes, pá! Se isto for mesmo implementado, aquelas equipas sufocadas pelos custos de inferência vão adorar.

Ver originalResponder0

MEVSandwichMaker

· 19h atrás

Assim o custo pode ser reduzido, já devia haver este tipo de manobra engenhosa há mais tempo.

Ver originalResponder0

liquidation_watcher

· 19h atrás

Modelos pequenos fazem o rascunho e modelos grandes fazem a verificação; esta divisão de trabalho é realmente genial. Se o custo pode ser reduzido em 5 vezes, quem é que consegue resistir?

Ver originalResponder0

ruggedNotShrugged

· 19h atrás

Uma redução de custos de 5 vezes? Se isto realmente conseguir produzir resultados de forma estável, aquelas pequenas equipas sufocadas pelos custos de inferência finalmente terão uma salvação.

Ver originalResponder0

MetaverseMigrant

· 20h atrás

Ah, é novamente aquela coisa de optimização de custos, este speculative sampling é realmente interessante... modelos pequenos a fazer a triagem e modelos grandes para a decisão final, parece mesmo uma linha de montagem. Uma redução de custos de 5 vezes soa um pouco exagerado, mas se realmente poupar dinheiro, então tudo bem.

Ver originalResponder0

AirdropHuntress

· 20h atrás

Esta abordagem é interessante, temos de analisar os detalhes — modelo pequeno na linha da frente, modelo grande a posteriori, será que o custo pode mesmo ser reduzido em 5 vezes? Como é que os dados foram validados? Não vá ser mais uma daquelas situações em que os dados do artigo científico não correspondem ao desempenho real. O mais importante é saber se a qualidade da saída não foi realmente comprometida, só dá para acreditar nisso vendo dados de testes de stress reais.

Ver originalResponder0

TendênciasVer projetos
#JoinGrowthPointsDrawToWiniPhone17
279.87K Popularidade
#DecemberMarketOutlook
75.47K Popularidade
#PostonSquaretoEarn$50
11.93K Popularidade
#LINKETFToLaunch
12.43K Popularidade
#SharingMy100xToken
14.1K Popularidade

Em alta na Gate FunVer projetos

1
FISTFIST TOKEN
Cap. de M.:$3.52KHolders:1
0.00%
2
LUCKYLUCKY TOKEN
Cap. de M.:$3.53KHolders:1
0.00%
3
MOONMoon
Cap. de M.:$3.58KHolders:1
0.82%
4
GGPGate Guys Penguin
Cap. de M.:$3.5KHolders:1
0.00%
5
GDGate Duck
Cap. de M.:$3.75KHolders:2
0.85%

Marcar

sitemap