Escanea para descargar la aplicación Gate
qrCode
Más opciones de descarga
No volver a recordar hoy

Li Feifei habla sobre los próximos pasos de LLM: la IA debe tener "inteligencia espacial" para comprender el mundo real, ¿cómo lo logra Marble?

El fundador de World Labs, Li Fei-Fei, conocida como la “madre de la IA”, fue entrevistada para discutir cómo la IA debe trascender el lenguaje y desarrollar “inteligencia espacial” para que las máquinas realmente comprendan y construyan el mundo físico en 3D. (Resumen anterior: informe tecnológico impactante de ex socios de a16z: ¿Cómo está la IA devorando el mundo?) (Información de fondo: Ray Dalio de Bridgewater: ¡Es demasiado pronto para vender acciones de IA! porque “la vela con mecha larga que pincha la burbuja” aún no ha salido a escena) En este momento, cuando los grandes modelos de lenguaje están arrasando a nivel mundial, la profesora de la Universidad de Stanford, Li Fei-Fei, aclamada como la “madre de la IA”, ha puesto su mirada en la próxima frontera de la inteligencia artificial: la inteligencia espacial. Después de dejar Google Cloud, Li Fei-Fei fundó la prometedora empresa emergente World Labs y lanzó el primer producto de modelo del mundo, Marble. En esta profunda entrevista de “Eye on AI”, Li Fei-Fei expone en detalle por qué la IA no puede limitarse a comprender texto, sino que debe tener la capacidad de “ver”, “percibir” y “construir” un mundo en 3D. Esta entrevista aborda muchos temas centrales, incluyendo: Trascender el lenguaje: ¿Por qué el conocimiento humano no puede ser capturado completamente por el texto, y la IA necesita aprendizaje multimodal? Desentrañar la tecnología: ¿Cómo el modelo “RTFM” de World Labs puede generar un mundo en 3D con coherencia geométrica utilizando solo una GPU? Perspectiva académica: ¿Cuáles son las similitudes y diferencias entre la metodología de Li Fei-Fei y la filosofía del modelo mundial del científico jefe de IA de Meta, Yann LeCun? Perspectivas futuras: ¿Cuándo podrá la IA realmente comprender las leyes físicas e incluso mostrar creatividad en la exploración científica? A continuación, la traducción completa de esta emocionante conversación. Presentador: No quiero gastar demasiado tiempo hablando sobre Marble, que es ese nuevo modelo que puede generar un mundo en 3D en el que los espectadores pueden moverse, con coherencia y persistencia, aunque realmente es impresionante. Quiero explorar más por qué te has centrado en “modelos del mundo” e “inteligencia espacial”. ¿Por qué esto es necesario para trascender el aprendizaje del lenguaje? Y, ¿en qué se diferencia tu enfoque del de Yann LeCun? Primero, ¿podrías hablar sobre si el modelo del mundo se deriva de tu investigación en inteligencia ambiental o si es una trayectoria de investigación paralela? Li Fei-Fei: El trabajo de inteligencia espacial en el que he estado pensando en los últimos años es, de hecho, una continuación de mi enfoque en la visión por computadora y la inteligencia visual a lo largo de mi carrera. Estoy enfatizando “espacial” porque nuestra tecnología ha avanzado a un punto en el que su complejidad y capacidad profunda ya no se limitan solo a ver imágenes o comprender videos simples. Es percepción profunda, espacial, y se conecta con la robótica, la IA encarnada y la IA ambiental. Por lo tanto, desde esta perspectiva, realmente es la continuación de mi carrera en el campo de la visión por computadora y la IA. Presentador: He hablado sobre la importancia de la inteligencia espacial en este podcast durante un tiempo. Los modelos de lenguaje aprenden del conocimiento humano codificado en texto, pero eso es solo una pequeña parte del conocimiento humano. Como tú y muchas otras personas han señalado, muchas veces los humanos aprenden interactuando con el mundo sin lenguaje. Así que es importante, aunque los LLM actuales son impresionantes, si queremos trascenderlos, necesitamos desarrollar modelos que puedan experimentar el mundo de manera más directa y aprender directamente de él. Tu enfoque, por supuesto, Marble es un ejemplo, es extraer representaciones internas del mundo que el modelo ha aprendido y utilizar esas representaciones para crear una realidad visual externa. El enfoque de LeCun es construir representaciones internas a partir de experiencias directas o entradas de video para que el modelo aprenda cosas como las leyes de la física del movimiento. ¿Hay una relación paralela entre ambos? ¿Son estos enfoques complementarios o se superponen? Li Fei-Fei: Primero, en realidad no me posicionaría en oposición a Yann, porque creo que todos estamos en el espectro académico hacia la inteligencia espacial y los modelos del mundo. Puede que hayas leído mi reciente artículo titulado “Manifiesto de la Inteligencia Espacial”, en el que lo expongo claramente. En realidad, creo que si finalmente queremos considerar un modelo del mundo universal y omnipotente, entonces tanto las “representaciones implícitas” como algún tipo de “representaciones explícitas”—especialmente en la capa de salida—tal vez sean necesarias. Cada una juega un papel diferente. Por ejemplo, el modelo del mundo Marble de World Labs actualmente produce explícitamente representaciones en 3D, pero internamente, además de la salida explícita, también existen representaciones implícitas. Honestamente, creo que al final ambos necesitamos. En cuanto a las modalidades de entrada, sí, aprender de videos es muy importante. Todo el mundo está compuesto de una gran cantidad de secuencias de fotogramas continuos, pero para los seres inteligentes o simplemente los animales, el mundo no es solo una observación pasiva. También incluye movimiento, interacción, experiencias táctiles, sonido, olores, así como fuerzas físicas, temperatura y otras experiencias encarnadas. Por lo tanto, creo que esto es de naturaleza profundamente multimodal. Por supuesto, Marble como modelo es solo el primer paso, pero en el artículo técnico que publicamos hace unos días, dejamos en claro que creemos que el multimodal es tanto un paradigma de aprendizaje como un paradigma de entrada. Hay mucha discusión académica al respecto, lo que también muestra la emoción temprana en este campo. Así que no diría que hemos explorado completamente la arquitectura de modelo exacta y las formas de representación. Presentador: En tu modelo del mundo, ¿la entrada principal son videos, y luego el modelo construye una representación interna del mundo? Li Fei-Fei: No del todo. Si has experimentado nuestro modelo del mundo Marble, su entrada es, de hecho, muy multimodal. Puedes usar texto puro, una o varias imágenes, videos, o incluso ingresar un diseño 3D aproximado (como bloques o vóxeles). Así que es multimodal, y continuaremos profundizando en esto a medida que avancemos. Presentador: Además de ser un excelente producto con muchas aplicaciones, ¿tu ambición es construir un sistema—como mencioné, donde la entrada son videos—un sistema que pueda aprender de experiencias directas? Ya sea a través de videos u otras modalidades, en lugar de aprender a través de un medio secundario como el texto? Li Fei-Fei: Sí, creo que el modelo del mundo se trata de aprender sobre este mundo, y el mundo es muy multimodal. Tanto máquinas como animales, somos múltiples sentidos. El aprendizaje se lleva a cabo a través de la percepción, y la percepción tiene diferentes modalidades. El texto es una de esas formas. Esta es también la diferencia con los animales, porque la mayoría de los animales no aprenden a través de un lenguaje complejo, pero los humanos sí. Sin embargo, los modelos de IA del mundo de hoy aprenderán de una gran cantidad de entradas de lenguaje y otras modalidades, pero no se limitarán solo a un canal como el lenguaje. Presentador: Una de las limitaciones de los LLM es que los parámetros del modelo están fijos una vez completado el entrenamiento, y el modelo no continúa aprendiendo. Aunque hay un cierto grado de aprendizaje durante la inferencia, ¿es este también un problema que están tratando de resolver en el modelo del mundo? Porque, en teoría, el modelo del mundo debería poder aprender continuamente al encontrarse con nuevos entornos. Li Fei-Fei: Sí…

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Gate Fun en tendenciaVer más
  • Cap.M.:$3.37KHolders:2
    0.22%
  • Cap.M.:$3.37KHolders:2
    0.05%
  • Cap.M.:$3.34KHolders:1
    0.00%
  • Cap.M.:$3.35KHolders:1
    0.24%
  • Cap.M.:$3.39KHolders:2
    0.10%
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)