Fei-Fei Li parle de la prochaine étape des LLM : l'IA doit posséder une "intelligence spatiale" pour comprendre le monde réel, comment Marble le réalise-t-il ?
Le fondatrice de World Labs, Fei-Fei Li, surnommée « la marraine de l'IA », a accordé une interview pour discuter du besoin pour l'IA de dépasser le langage et de développer une « intelligence spatiale », permettant aux machines de vraiment comprendre et de construire le monde physique en 3D. (Résumé : Rapport technologique majeur de l'ancien partenaire d'a16z : Comment l'IA dévore le monde ?) (Contexte : Ray Dalio de Bridgewater : Il est encore trop tôt pour vendre des actions d'IA ! Car « la bougie à longue mèche qui perce la bulle » n'est pas encore sur le ring.) Dans un contexte où les modèles de langage de grande taille balaient le monde, la professeure de Stanford, Fei-Fei Li, reconnue comme la « marraine de l'IA », a déjà tourné son regard vers la prochaine frontière de l'intelligence artificielle : l'intelligence spatiale. Après avoir quitté Google Cloud, Fei-Fei Li a fondé la startup très attendue World Labs et a lancé le premier produit mondial, le modèle Marble. Dans cette interview approfondie dans « Eye on AI », Fei-Fei Li explique en détail pourquoi l'IA ne peut pas se limiter à comprendre les mots, mais doit posséder la capacité de « voir », « percevoir » et « construire » un monde en 3D. Cet entretien aborde de nombreux sujets clés, notamment : Dépasser le langage : Pourquoi la connaissance humaine ne peut-elle pas être entièrement capturée par des mots, et pourquoi l'IA a-t-elle besoin d'un apprentissage multimodal ? Décryptage technique : Comment le modèle « RTFM » de World Labs peut-il générer un monde en 3D avec cohérence géométrique en utilisant seulement un GPU ? Perspective académique : Quelles sont les différences entre la méthodologie de Fei-Fei Li et l'idée de modèle mondial du chef scientifique en IA de Meta, Yann LeCun ? Perspectives futures : Quand l'IA pourra-t-elle vraiment comprendre les lois physiques et même montrer une créativité d'exploration scientifique ? Voici la traduction complète de cette conversation passionnante. Animateur : Je ne veux pas passer trop de temps à parler de Marble - c'est-à-dire de votre nouveau modèle qui génère un monde en 3D cohérent et durable dans lequel les spectateurs peuvent se déplacer, bien qu'il soit vraiment impressionnant. Je voudrais explorer davantage pourquoi vous vous concentrez sur les « modèles mondiaux » et l'« intelligence spatiale » ? Pourquoi est-ce nécessaire pour dépasser l'apprentissage linguistique ? Et comment votre approche diffère-t-elle de celle de Yann LeCun ? Pourriez-vous d'abord nous parler de la manière dont le modèle mondial découle de votre recherche sur l'intelligence ambiante, ou s'agit-il d'une voie de recherche parallèle ? Fei-Fei Li : Le travail sur l'intelligence spatiale auquel je pense depuis quelques années est en effet la continuation de ma carrière entière axée sur la vision par ordinateur et l'intelligence visuelle. Je souligne « spatial » parce que notre technologie a évolué à un point où sa complexité et ses capacités profondes ne se limitent plus à voir des images ou à comprendre de simples vidéos. C'est une perception profonde, spatiale, et cela se connecte à la technologie des robots, à l'IA incarnée et à l'IA environnementale. Donc, sous cet angle, c'est vraiment la continuité de ma carrière dans le domaine de la vision par ordinateur et de l'IA. Animateur : J'ai également discuté de l'importance de l'intelligence spatiale dans ce podcast depuis un certain temps. Les modèles de langage apprennent à partir de la connaissance humaine codée dans les mots, mais cela ne représente qu'une petite partie de la connaissance humaine. Comme vous et d'autres l'avez souligné, les humains apprennent souvent en interagissant avec le monde sans langage. Donc, c'est important, même si les LLM actuels sont impressionnants, pour les dépasser, nous devons développer des modèles capables d'expérimenter le monde plus directement et d'apprendre directement du monde. Votre approche - bien sûr, Marble en est un exemple - consiste à extraire les représentations internes apprises par le modèle du monde et à utiliser ces représentations pour créer une réalité visuelle externe. Et l'approche de LeCun est d'établir des représentations internes à partir d'expériences directes ou d'entrées vidéo, permettant au modèle d'apprendre des lois de la physique du mouvement, par exemple. Y a-t-il une relation parallèle entre les deux ? Ces deux approches sont-elles complémentaires ou se chevauchent-elles ? Fei-Fei Li : Tout d'abord, je ne placerais pas ma position en opposition à celle de Yann, car je pense que nous sommes tous deux sur le spectre académique menant à l'intelligence spatiale et aux modèles mondiaux. Vous avez peut-être lu mon récent long article « Manifeste de l'intelligence spatiale », où j'explique cela clairement. Je pense en effet que si nous voulons finalement envisager un modèle mondial universel et omnipotent, alors les représentations implicites et finalement d'une certaine manière les représentations explicites - en particulier au niveau de la couche de sortie - pourraient toutes deux être nécessaires. Elles jouent chacune des rôles différents. Par exemple, le modèle mondial actuel de World Labs, Marble, produit en effet des représentations 3D explicites, mais à l'intérieur du modèle, il existe également des représentations implicites en plus des sorties explicites. Honnêtement, je pense qu'à terme, nous avons besoin des deux. En ce qui concerne les modalités d'entrée, oui, apprendre à partir de vidéos est très important. Le monde entier est constitué d'innombrables séquences d'images continues, mais pour les intelligences ou même simplement pour les animaux, le monde n'est pas seulement quelque chose que l'on regarde passivement. Il inclut également le mouvement, l'interaction, l'expérience tactile, le son, l'odeur ainsi que des expériences incarnées telles que les forces physiques et la température. Donc, je pense que c'est profondément multimodal. Bien sûr, Marble, en tant que modèle, est juste le premier pas, mais dans l'article technique que nous avons publié il y a quelques jours, nous avons clairement indiqué que nous croyons que le multimodal est à la fois un paradigme d'apprentissage et un paradigme d'entrée. Il y a beaucoup de discussions académiques à ce sujet, ce qui montre également l'excitation précoce de ce domaine. Donc, je ne dirais pas que nous avons déjà complètement exploré la structure exacte du modèle et les formes de représentation. Animateur : Dans votre modèle mondial, l'entrée est principalement des vidéos, puis le modèle construit une représentation interne du monde, n'est-ce pas ? Fei-Fei Li : Pas tout à fait. Si vous avez expérimenté notre modèle mondial Marble, son entrée est en réalité très multimodale. Vous pouvez utiliser du texte pur, une ou plusieurs images, des vidéos, ou même entrer une disposition 3D grossière (comme des cubes ou des voxels). Donc, c'est multimodal, et nous continuerons à approfondir cela à mesure que nous évoluerons. Animateur : En plus d'être un excellent produit avec de nombreuses applications, votre ambition est-elle de construire un système - comme je l'ai dit, l'entrée étant des vidéos - un système capable d'apprendre à partir d'expériences directes ? Que ce soit à travers des vidéos ou d'autres modalités, plutôt que d'apprendre par le biais de médias secondaires comme le texte ? Fei-Fei Li : Oui, je pense que le modèle mondial concerne l'apprentissage de ce monde, et le monde est très multimodal. Que ce soit pour les machines ou les animaux, nous sommes multisensoriels. L'apprentissage se fait par la perception, et la perception a différentes modalités. Le texte est l'une de ces formes. C'est aussi ce qui nous différencie des animaux, car la plupart des animaux n'apprennent pas par des langages complexes, mais les humains le font. Cependant, les modèles mondiaux d'IA d'aujourd'hui apprendront à partir d'une grande quantité d'entrées linguistiques ainsi que d'autres modalités, mais ne seront pas simplement limités à ce seul canal linguistique. Animateur : L'une des limitations des LLM est que les paramètres du modèle sont fixés après l'entraînement, et le modèle ne continue pas à apprendre. Bien qu'il y ait un certain degré d'apprentissage lors de l'inférence, est-ce aussi un problème que vous devez résoudre dans le modèle mondial ? Parce qu'en théorie, le modèle mondial devrait pouvoir continuer à apprendre lorsqu'il rencontre un nouvel environnement. Fei-Fei Li : Oui…
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Fei-Fei Li parle de la prochaine étape des LLM : l'IA doit posséder une "intelligence spatiale" pour comprendre le monde réel, comment Marble le réalise-t-il ?
Le fondatrice de World Labs, Fei-Fei Li, surnommée « la marraine de l'IA », a accordé une interview pour discuter du besoin pour l'IA de dépasser le langage et de développer une « intelligence spatiale », permettant aux machines de vraiment comprendre et de construire le monde physique en 3D. (Résumé : Rapport technologique majeur de l'ancien partenaire d'a16z : Comment l'IA dévore le monde ?) (Contexte : Ray Dalio de Bridgewater : Il est encore trop tôt pour vendre des actions d'IA ! Car « la bougie à longue mèche qui perce la bulle » n'est pas encore sur le ring.) Dans un contexte où les modèles de langage de grande taille balaient le monde, la professeure de Stanford, Fei-Fei Li, reconnue comme la « marraine de l'IA », a déjà tourné son regard vers la prochaine frontière de l'intelligence artificielle : l'intelligence spatiale. Après avoir quitté Google Cloud, Fei-Fei Li a fondé la startup très attendue World Labs et a lancé le premier produit mondial, le modèle Marble. Dans cette interview approfondie dans « Eye on AI », Fei-Fei Li explique en détail pourquoi l'IA ne peut pas se limiter à comprendre les mots, mais doit posséder la capacité de « voir », « percevoir » et « construire » un monde en 3D. Cet entretien aborde de nombreux sujets clés, notamment : Dépasser le langage : Pourquoi la connaissance humaine ne peut-elle pas être entièrement capturée par des mots, et pourquoi l'IA a-t-elle besoin d'un apprentissage multimodal ? Décryptage technique : Comment le modèle « RTFM » de World Labs peut-il générer un monde en 3D avec cohérence géométrique en utilisant seulement un GPU ? Perspective académique : Quelles sont les différences entre la méthodologie de Fei-Fei Li et l'idée de modèle mondial du chef scientifique en IA de Meta, Yann LeCun ? Perspectives futures : Quand l'IA pourra-t-elle vraiment comprendre les lois physiques et même montrer une créativité d'exploration scientifique ? Voici la traduction complète de cette conversation passionnante. Animateur : Je ne veux pas passer trop de temps à parler de Marble - c'est-à-dire de votre nouveau modèle qui génère un monde en 3D cohérent et durable dans lequel les spectateurs peuvent se déplacer, bien qu'il soit vraiment impressionnant. Je voudrais explorer davantage pourquoi vous vous concentrez sur les « modèles mondiaux » et l'« intelligence spatiale » ? Pourquoi est-ce nécessaire pour dépasser l'apprentissage linguistique ? Et comment votre approche diffère-t-elle de celle de Yann LeCun ? Pourriez-vous d'abord nous parler de la manière dont le modèle mondial découle de votre recherche sur l'intelligence ambiante, ou s'agit-il d'une voie de recherche parallèle ? Fei-Fei Li : Le travail sur l'intelligence spatiale auquel je pense depuis quelques années est en effet la continuation de ma carrière entière axée sur la vision par ordinateur et l'intelligence visuelle. Je souligne « spatial » parce que notre technologie a évolué à un point où sa complexité et ses capacités profondes ne se limitent plus à voir des images ou à comprendre de simples vidéos. C'est une perception profonde, spatiale, et cela se connecte à la technologie des robots, à l'IA incarnée et à l'IA environnementale. Donc, sous cet angle, c'est vraiment la continuité de ma carrière dans le domaine de la vision par ordinateur et de l'IA. Animateur : J'ai également discuté de l'importance de l'intelligence spatiale dans ce podcast depuis un certain temps. Les modèles de langage apprennent à partir de la connaissance humaine codée dans les mots, mais cela ne représente qu'une petite partie de la connaissance humaine. Comme vous et d'autres l'avez souligné, les humains apprennent souvent en interagissant avec le monde sans langage. Donc, c'est important, même si les LLM actuels sont impressionnants, pour les dépasser, nous devons développer des modèles capables d'expérimenter le monde plus directement et d'apprendre directement du monde. Votre approche - bien sûr, Marble en est un exemple - consiste à extraire les représentations internes apprises par le modèle du monde et à utiliser ces représentations pour créer une réalité visuelle externe. Et l'approche de LeCun est d'établir des représentations internes à partir d'expériences directes ou d'entrées vidéo, permettant au modèle d'apprendre des lois de la physique du mouvement, par exemple. Y a-t-il une relation parallèle entre les deux ? Ces deux approches sont-elles complémentaires ou se chevauchent-elles ? Fei-Fei Li : Tout d'abord, je ne placerais pas ma position en opposition à celle de Yann, car je pense que nous sommes tous deux sur le spectre académique menant à l'intelligence spatiale et aux modèles mondiaux. Vous avez peut-être lu mon récent long article « Manifeste de l'intelligence spatiale », où j'explique cela clairement. Je pense en effet que si nous voulons finalement envisager un modèle mondial universel et omnipotent, alors les représentations implicites et finalement d'une certaine manière les représentations explicites - en particulier au niveau de la couche de sortie - pourraient toutes deux être nécessaires. Elles jouent chacune des rôles différents. Par exemple, le modèle mondial actuel de World Labs, Marble, produit en effet des représentations 3D explicites, mais à l'intérieur du modèle, il existe également des représentations implicites en plus des sorties explicites. Honnêtement, je pense qu'à terme, nous avons besoin des deux. En ce qui concerne les modalités d'entrée, oui, apprendre à partir de vidéos est très important. Le monde entier est constitué d'innombrables séquences d'images continues, mais pour les intelligences ou même simplement pour les animaux, le monde n'est pas seulement quelque chose que l'on regarde passivement. Il inclut également le mouvement, l'interaction, l'expérience tactile, le son, l'odeur ainsi que des expériences incarnées telles que les forces physiques et la température. Donc, je pense que c'est profondément multimodal. Bien sûr, Marble, en tant que modèle, est juste le premier pas, mais dans l'article technique que nous avons publié il y a quelques jours, nous avons clairement indiqué que nous croyons que le multimodal est à la fois un paradigme d'apprentissage et un paradigme d'entrée. Il y a beaucoup de discussions académiques à ce sujet, ce qui montre également l'excitation précoce de ce domaine. Donc, je ne dirais pas que nous avons déjà complètement exploré la structure exacte du modèle et les formes de représentation. Animateur : Dans votre modèle mondial, l'entrée est principalement des vidéos, puis le modèle construit une représentation interne du monde, n'est-ce pas ? Fei-Fei Li : Pas tout à fait. Si vous avez expérimenté notre modèle mondial Marble, son entrée est en réalité très multimodale. Vous pouvez utiliser du texte pur, une ou plusieurs images, des vidéos, ou même entrer une disposition 3D grossière (comme des cubes ou des voxels). Donc, c'est multimodal, et nous continuerons à approfondir cela à mesure que nous évoluerons. Animateur : En plus d'être un excellent produit avec de nombreuses applications, votre ambition est-elle de construire un système - comme je l'ai dit, l'entrée étant des vidéos - un système capable d'apprendre à partir d'expériences directes ? Que ce soit à travers des vidéos ou d'autres modalités, plutôt que d'apprendre par le biais de médias secondaires comme le texte ? Fei-Fei Li : Oui, je pense que le modèle mondial concerne l'apprentissage de ce monde, et le monde est très multimodal. Que ce soit pour les machines ou les animaux, nous sommes multisensoriels. L'apprentissage se fait par la perception, et la perception a différentes modalités. Le texte est l'une de ces formes. C'est aussi ce qui nous différencie des animaux, car la plupart des animaux n'apprennent pas par des langages complexes, mais les humains le font. Cependant, les modèles mondiaux d'IA d'aujourd'hui apprendront à partir d'une grande quantité d'entrées linguistiques ainsi que d'autres modalités, mais ne seront pas simplement limités à ce seul canal linguistique. Animateur : L'une des limitations des LLM est que les paramètres du modèle sont fixés après l'entraînement, et le modèle ne continue pas à apprendre. Bien qu'il y ait un certain degré d'apprentissage lors de l'inférence, est-ce aussi un problème que vous devez résoudre dans le modèle mondial ? Parce qu'en théorie, le modèle mondial devrait pouvoir continuer à apprendre lorsqu'il rencontre un nouvel environnement. Fei-Fei Li : Oui…