Escaneie para baixar o app da Gate
qrCode
Mais opções de download
Não me lembre de novo hoje

Li Fei-Fei fala sobre os próximos passos do LLM: a IA deve ter "inteligência espacial" para entender o mundo real, como o Marble consegue isso?

Li Feifei, fundador do World Labs e conhecido como a “Madrinha da IA”, foi entrevistado para discutir a necessidade de a IA ir além da linguagem e desenvolver “inteligência espacial” para que as máquinas possam realmente entender e construir o mundo físico 3D. (Sinopse: a16z Former Partner's Blockbuster Technology Report: How Is AI Eating the World? (Antecedentes adicionados: Bridgewater Dalio: É muito cedo para vender ações de IA!) Porque a “agulha que fura a bolha” ainda não jogou) Numa altura em que os modelos linguísticos em larga escala estão a varrer o mundo, Fei-Fei Li, professor da Universidade de Stanford conhecido como a “madrinha da IA”, está de olho na próxima fronteira da inteligência artificial: a inteligência espacial. Depois de deixar o Google Cloud, Li Feifei fundou a startup de alto perfil World Labs e lançou o primeiro produto modelo mundial, o Marble. Nesta entrevista aprofundada com Eye on AI, Li Feifei explica por que a IA não deve apenas entender palavras, mas deve ter a capacidade de “ver”, “perceber” e “construir” o mundo 3D. Esta entrevista toca em vários tópicos centrais, incluindo: Além da linguagem: Por que o conhecimento humano não pode ser totalmente capturado pelas palavras, e a IA precisa de aprendizagem multimodal? Desencriptação técnica: Como pode o modelo “RTFM” da World Labs produzir mundos 3D geometricamente consistentes com apenas uma GPU? Opinião acadêmica: Quais são as semelhanças e diferenças entre a metodologia de Li Feifei e o conceito de modelo mundial de Yann LeCun, cientista-chefe de IA da Meta? Perspetivas futuras: Quando a IA realmente entenderá as leis da física e até demonstrará a criatividade da investigação científica? Aqui está a tradução chinesa completa desta maravilhosa conversa. Moderador: Eu não quero gastar muito tempo falando sobre Mármore - seu novo modelo que gera um mundo 3D consistente e persistente que move o espectador através dele, embora seja realmente ótimo. Quero explorar mais sobre por que você se concentra em “modelos mundiais” e “inteligência espacial”? Por que razão é necessário ir além da aprendizagem de línguas? E como é que o seu método é diferente do de Yann LeCun? Em primeiro lugar, você pode falar sobre se o modelo mundial é derivado de sua pesquisa em Inteligência Ambiental, ou é uma trilha de pesquisa paralela? Feifei Li: O trabalho de inteligência espacial em que tenho pensado nos últimos anos é realmente uma continuação de toda a minha carreira focada em visão computacional e inteligência visual. Destaco o “espaço” porque a nossa tecnologia avançou a um ponto em que a sua complexidade e profundidade já não se limitam a olhar para imagens ou a compreender filmes simples. É percetivo de profundidade, espacial e conectado à robótica, IA incorporada e IA ambiental. Então, desse ponto de vista, é realmente uma continuação da minha carreira em visão computacional e IA. Moderador: Eu também falei sobre a importância da inteligência espacial neste podcast por um tempo. Os modelos de linguagem aprendem com o conhecimento humano codificado em palavras, mas isso é apenas uma fração do conhecimento humano. Como você e muitos outros apontaram, os seres humanos muitas vezes aprendem interagindo com o mundo sem linguagem. Então isso é importante, e embora os LLMs atuais sejam incríveis, se quisermos ir além deles, precisamos desenvolver modelos que experimentem o mundo mais diretamente e aprendam diretamente com ele. Sua abordagem – é claro, Marble é um exemplo – é pegar as representações internas aprendidas pelo modelo e usar essas representações para criar uma realidade visual externa. A abordagem de LeCun, por outro lado, constrói representações internas a partir da experiência direta ou entrada de vídeo, permitindo que o modelo aprenda coisas como as leis da física do movimento. Existe uma relação paralela entre os dois? As duas abordagens são complementares ou sobrepõem-se? Feifei Li: Em primeiro lugar, eu realmente não me coloco contra Yann, porque acho que ambos estamos no espectro acadêmico que leva à inteligência espacial e aos modelos mundiais. Você já deve ter lido meu longo artigo recente, “Manifesto da Inteligência Espacial”, no qual deixei isso claro. Na verdade, penso que, se quisermos eventualmente considerar um modelo universal e onipotente do mundo, então tanto a “representação implícita” e, eventualmente, algum grau de “representação explícita” – especialmente no nível de produção – podem ser necessários. Cada um deles desempenha um papel diferente. Por exemplo, o modelo de mundo atual do World Labs, Marble, produz explicitamente representações 3D, mas dentro do modelo, há representações implícitas, além da saída explícita. Honestamente, penso que, em última análise, precisamos de ambos. Quanto às modalidades de entrada, sim, é muito importante aprender com o filme. O mundo inteiro é uma entrada composta por um grande número de quadros consecutivos, mas para um agente ou simplesmente um animal, o mundo não é apenas uma visão passiva. Também inclui movimento, interação, experiências táteis, sons, cheiros e experiências incorporadas, como força física e temperatura. Então eu acho que é multimodal profundo. Claro que o Marble como modelo é apenas o primeiro passo, mas no nosso artigo técnico que publicámos há alguns dias, deixámos claro que acreditamos que a multimodalidade é tanto um paradigma de aprendizagem como um paradigma de input. Tem havido muita discussão acadêmica sobre isso, o que também mostra a empolgação inicial no campo. Portanto, eu não diria que exploramos completamente a arquitetura e a representação exatas do modelo. Moderador: No seu modelo de mundo, a entrada é principalmente vídeo, e então o modelo constrói uma representação interna do mundo? Li Feifei: Não exatamente. Se você já experimentou nosso modelo mundial, Mármore, sua entrada é realmente muito modal. Você pode usar texto simples, imagens únicas ou múltiplas, filmes, ou você pode inserir um layout 3D aproximado, como quadrados ou voxel Voxels. Portanto, é multimodal, e continuaremos a aprofundá-lo à medida que evoluimos. Entrevistador: Além de ser um ótimo produto com muitas aplicações, sua ambição é construir um sistema – como eu disse que a entrada é um filme – que aprenda com a experiência direta? É aprender através de vídeo ou outras modalidades, em vez de através de meios secundários como o texto? Feifei Li: Sim, eu acho que o modelo mundial é sobre aprender sobre o mundo, e o mundo é muito multimodal. Seja uma máquina ou um animal, somos multissensoriais. A aprendizagem ocorre através da perceção, e a perceção tem diferentes modalidades. As palavras são uma dessas formas. Isso também é o que nos diferencia dos animais, porque a maioria dos animais não aprende através de uma linguagem complexa, mas os humanos aprendem. No entanto, o modelo de mundo de IA de hoje aprende com um grande número de entradas de linguagem e outras modalidades, mas não se limita apenas à linguagem como canal. Moderador: Uma das limitações do LLM é que os parâmetros do modelo são fixados após o treinamento, e o modelo não aprende continuamente. Embora haja algum nível de aprendizado em testar a inferência, é isso que você está tentando resolver em seu modelo de mundo? Porque é lógico que o modelo mundial deve ser capaz de aprender continuamente quando encontra um novo ambiente. Li Feifei: Sim…

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Em alta na Gate FunVer projetos
  • Cap. de M.:$3.37KHolders:2
    0.22%
  • Cap. de M.:$3.37KHolders:2
    0.05%
  • Cap. de M.:$3.34KHolders:1
    0.00%
  • Cap. de M.:$3.35KHolders:1
    0.24%
  • Cap. de M.:$3.39KHolders:2
    0.10%
  • Marcar
Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)