A tecnologia de geração de vídeos por IA avança, a IA do Web3 enfrenta novas oportunidades.

A tecnologia de geração de vídeo por IA alcançou avanços significativos, trazendo novas oportunidades para a Web3 AI

Uma das mudanças mais significativas recentemente no campo da IA é a quebra da tecnologia de geração de vídeo multimodal. Esta tecnologia evoluiu de gerar vídeos a partir de texto puro para um modelo de geração de toda a cadeia que integra texto, imagem e áudio.

Alguns casos de avanços tecnológicos dignos de nota incluem:

  1. Uma estrutura EX-4D de código aberto de uma empresa de tecnologia pode converter vídeos monoculares em conteúdo 4D de ângulo livre, com uma taxa de aceitação de usuários superior a 70%. Isso significa que a IA pode automaticamente gerar efeitos de visualização de qualquer ângulo para vídeos comuns, algo que no passado exigia uma equipe profissional de modelagem 3D.

  2. Uma plataforma de IA afirma ser capaz de gerar um vídeo de 10 segundos com qualidade "cinematográfica" a partir de uma única imagem. O efeito específico ainda precisa ser validado após a atualização da sua versão profissional.

  3. A tecnologia desenvolvida por uma renomada instituição de pesquisa em IA pode gerar simultaneamente vídeos em 4K e sons ambientais. Esta tecnologia supera o desafio da sincronização de áudio e vídeo em cenários complexos, como a correspondência precisa entre a ação de caminhar na imagem e o som dos passos.

  4. Um modelo de IA de uma plataforma de vídeos curtos utiliza 8 bilhões de parâmetros e consegue gerar vídeos em 1080p em 2,3 segundos, com um custo de cerca de 3,67 yuan/5 segundos. Embora o controle de custos seja bom, ainda há espaço para melhorar a qualidade da geração em cenários complexos.

Esses avanços têm uma importância significativa em termos de qualidade de vídeo, custo de geração e cenários de aplicação:

Em termos técnicos, a complexidade da geração de vídeo multimodal cresce de forma exponencial. É necessário lidar com a geração de imagens de um único quadro (cerca de 10^6 pontos de pixel), garantir a coerência temporal (pelo menos 100 quadros), sincronização de áudio (10^4 pontos de amostra por segundo) e consistência espacial 3D. Atualmente, estas tarefas complexas são realizadas através de decomposição modular e colaboração entre grandes modelos, onde cada módulo se concentra em uma função específica, como estimativa de profundidade, transformação de perspectiva, interpolação temporal e otimização de renderização.

Em termos de custo, a otimização da arquitetura de inferência desempenha um papel crucial. Isso inclui estratégias de geração em camadas (gerar primeiro a estrutura em baixa resolução e, em seguida, aprimorar os detalhes em alta resolução), mecanismos de reutilização de cache (reutilização de cenas semelhantes) e alocação dinâmica de recursos (ajustar a profundidade do modelo com base na complexidade do conteúdo).

Na área de aplicação, a tecnologia de IA está a revolucionar o processo tradicional de produção de vídeo. No passado, um anúncio de 30 segundos poderia custar dezenas de milhares de yuan em custos de produção, envolvendo equipamentos, locais, atores e pós-produção. Agora, a IA pode condensar esse processo para apenas alguns minutos após a inserção de uma frase de entrada, ao mesmo tempo que consegue alcançar ângulos e efeitos especiais que seriam difíceis de obter com filmagens tradicionais. Esta transformação irá remodelar a economia dos criadores, tornando a criatividade e a estética fatores chave.

Os avanços dessas tecnologias de IA Web2 também têm um impacto importante na área de IA Web3:

  1. A mudança na estrutura da demanda por poder de processamento criou oportunidades para o poder de processamento distribuído ocioso, ao mesmo tempo que aumentou a demanda por vários modelos de ajuste fino distribuídos, algoritmos e plataformas de inferência.

  2. O aumento da demanda por rotulagem de dados oferece novos cenários de aplicação para os mecanismos de incentivo do Web3. A criação de vídeos de nível profissional requer descrições de cena precisas, imagens de referência, estilos de áudio, trajetórias de movimento da câmara e condições de iluminação, entre outros dados especializados. Os métodos de incentivo do Web3 podem encorajar fotógrafos, sonoplastas e artistas 3D a fornecer materiais de dados de alta qualidade.

  3. A tecnologia de IA evolui de uma alocação centralizada de recursos em grande escala para uma colaboração modular, o que por si só cria novas demandas para plataformas descentralizadas. No futuro, a combinação de poder computacional, dados, modelos e mecanismos de incentivo pode formar um ciclo virtuoso auto-reforçado, promovendo a integração profunda entre cenários de Web3 AI e Web2 AI.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • Partilhar
Comentar
0/400
rekt_but_not_brokevip
· 07-15 13:44
Não há nada de extraordinário, é apenas um exagero.
Ver originalResponder0
DefiOldTrickstervip
· 07-15 06:02
O velho jogou isto durante tantos anos, esta coisa à primeira vista parece capaz de fazer as pessoas de parvas uma vez mais, na cadeia vai haver uma Grande subida... Ai, ainda se lembram daquela armadilha do Token de IA que vos falei da última vez?
Ver originalResponder0
ReverseTradingGuruvip
· 07-13 12:22
Ah sim, sim, sim. Com mãos está tudo bem, todos são profissionais de IA agora.
Ver originalResponder0
WalletDetectivevip
· 07-13 12:21
A esse nível? Pior do que as câmaras de vigilância iniciais.
Ver originalResponder0
GasOptimizervip
· 07-13 12:18
Vem, vem, vem! Vamos economizar o gás do nosso grande poço.
Ver originalResponder0
InfraVibesvip
· 07-13 12:13
Está um pouco além da minha compreensão 233
Ver originalResponder0
DevChivevip
· 07-13 12:03
bull皮,futuro da indústria cinematográfica deverá despedir uma série de pessoas
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)