Desempenho da competição no processamento de dados de IA multimodal: por que o Daft está redefinindo o pipeline de dados

FOMOSapien

2025-11-22 14:20:14

Geração do resumo em andamento

Os motores de dados tradicionais (Spark, Ray) começam a falhar ao lidar com dados multimodais como imagens, vídeos e áudios. Onde está o problema? Explosão de memória, baixa utilização da GPU, e um único computador simplesmente não dá conta.

Por que é tão difícil lidar com dados multimodais

Uma imagem JPEG compactada, uma vez decodificada, expande-se 20 vezes. Um arquivo de vídeo pode gerar milhares de quadros, cada quadro com alguns megabytes. Ao mesmo tempo, tanto a CPU quanto a GPU precisam trabalhar juntas - essa carga de computação híbrida deixa os motores tradicionais completamente confusos.

Daft vs Ray Data: qual é a diferença de desempenho?

Executando cargas de trabalho reais no mesmo cluster de GPU (8 g6.xlarge + NVIDIA L4), os resultados são bem claros:

Transcrição de áudio (113 mil arquivos): Daft 6 minutos e 22 segundos vs Ray Data 29 minutos e 20 segundos (diferença de 4,6 vezes)
Incorporação de Documentos (10 mil PDFs): Daft 1m54s vs Ray Data 14m32s (diferença de 7,6 vezes)
Classificação de Imagens (800 mil): Daft 4m23s vs Ray Data 23m30s (diferença de 5,4 vezes)
Detecção de vídeo (1000 vídeos): Daft 11 minutos e 46 segundos vs Spark 3 horas e 36 minutos (diferença de 18,4 vezes)

Por que a diferença é tão grande

1. Otimização nativa vs Escrever código próprio

Daft possui operações nativas como decodificação de imagens, incorporação de texto e chamadas LLM, todas altamente otimizadas. Ray Data depende de você para escrever funções Python usando bibliotecas como Pillow e HuggingFace - cada biblioteca tem seu próprio formato de dados, e a conversão constante é um buraco negro de desempenho.

2. Processamento em fluxo vs Acúmulo de memória

O Daft utiliza o motor de execução em fluxo (Swordfish) para manter os dados em constante movimento: a 1000ª imagem está em inferência na GPU, enquanto as imagens de 1001 a 2000 ainda estão a ser descarregadas e decodificadas. Todo o partition nunca é carregado completamente na memória.

Ray Data tende a integrar operações em uma única tarefa, o que pode levar a um aumento excessivo de memória. Você pode usar classes para evitar isso, mas assim os resultados intermediários serão materializados no armazenamento de objetos, aumentando o custo de serialização. Além disso, o armazenamento de objetos do Ray tem, por padrão, apenas 30% da memória da máquina, o que aumenta o risco de estouro.

3. Coordenação de Recursos

Daft permite que CPU, GPU e rede sejam usados em plena capacidade ao mesmo tempo. O Ray Data reserva um núcleo de CPU por padrão para operações de I/O, o que pode causar o bloqueio do processamento da CPU, sendo necessário ajustar manualmente os parâmetros para otimizar.

Como dizer casos práticos

Equipe Essential AI: Processando 23,6 bilhões de documentos da web do Common Crawl com Daft (24 trilhões de tokens), escalando para 32.000 requisições/segundo/VM, eles comentam — “Se usássemos Spark, só para instalar o JVM e ajustar os parâmetros seria um grande esforço. Daft roda localmente muito mais rápido, e escalar para várias máquinas também é muito suave.”

CloudKitchens: Decidiram transformar toda a infraestrutura ML em “DREAM Stack” (Daft + Ray + Poetry + Argo + Metaflow), porque descobriram que o desempenho e as funcionalidades do Ray Data eram insuficientes, e o Daft preencheu essa lacuna.

Engenheiro da ByteDance: Ao executar tarefas de classificação em 1,3 milhão de imagens do ImageNet, o Daft é 20% mais rápido que o Ray Data, além de ser mais eficiente em termos de recursos.

Quando usar Daft e quando usar Ray

Escolha Daft: processamento de dados multimodal, ETL complexo, preocupação com a confiabilidade e o desempenho, preferência por estilo DataFrame/SQL

Escolha Ray Data: Quer uma integração estreita com Ray Train/Ray Serve, necessita de configuração detalhada de CPU/GPU.

Números chave: Daft é de 2 a 7 vezes mais rápido em processamento multimodal, até 4 a 18 vezes mais rápido que Spark, e é estável e confiável. Se a sua carga de trabalho envolve processamento de mídia em larga escala, isso não é opcional, é obrigatório.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

0/400

Sem comentários

TendênciasVer projetos
#TopGainersInADownMarket
89.27K Popularidade
#FOMCMeetingMinutesComingUp
76.04K Popularidade
#BitcoinPriceWatch
79.6K Popularidade
#MySuggestionsforGateSquare
20.13K Popularidade
#GateChristmasGiveaway
27.93K Popularidade

Em alta na Gate FunVer projetos

1
SiRfun token
Cap. de M.:$3.4KHolders:1
0.00%
2
nb669牛来了
Cap. de M.:$3.39KHolders:1
0.00%
3
雷雷币
Cap. de M.:$3.41KHolders:2
0.00%
4
HHYHHY
Cap. de M.:$3.38KHolders:1
0.00%
5
CUBECUBE
Cap. de M.:$3.44KHolders:2
0.14%

Marcar

sitemap