Título original del video: Demis Hassabis: Agentes, AGI y el próximo gran avance científico
Fuente original del video: Y Combinator
Traducción original: Deep潮 TechFlow
El CEO de Google DeepMind, ganador del Premio Nobel de Química Demis Hassabis, visitó Y Combinator, donde habló sobre los avances clave hacia la AGI, consejos para emprendedores sobre cómo mantenerse a la vanguardia, y dónde podría surgir el próximo gran avance científico.
La evaluación más práctica para emprendedores en deep tech es que, si hoy inicias un proyecto de deep tech a diez años vista, debes incluir en tu planificación la aparición de la AGI. Además, reveló que Isomorphic Labs (la compañía de biotecnología de IA que se separó de DeepMind) pronto tendrá noticias importantes.
·「Estos componentes tecnológicos existentes casi con certeza formarán parte de la arquitectura final de la AGI.」
·「El aprendizaje continuo, el razonamiento a largo plazo y ciertos aspectos de la memoria aún no están resueltos; la AGI necesita que todo eso funcione.」
·「Si tu cronograma para la AGI es alrededor de 2030, y hoy comienzas un proyecto de deep tech, debes considerar que la AGI podría aparecer en medio del camino.」
·「La ventana de contexto es aproximadamente equivalente a la memoria de trabajo. La memoria de trabajo humana promedia solo siete dígitos, mientras que nosotros tenemos ventanas de contexto de millones o incluso decenas de millones de tokens. Pero el problema es que llenamos todo con información, incluyendo datos irrelevantes o erróneos, y esa práctica es bastante burda actualmente.」
·「Para procesar streams de video en tiempo real y guardar todos los tokens, un millón de tokens solo alcanza para unos 20 minutos.」
·「Me gusta jugar ajedrez con Gemini. A veces se da cuenta de que un movimiento es terrible, pero no encuentra una mejor opción, y termina haciendo ese movimiento. Pero un sistema de razonamiento preciso no debería cometer ese tipo de errores.」
·「Por un lado puede resolver problemas de nivel medallista en IMO, pero por otro, si se le pregunta de otra forma, comete errores de matemáticas básicas. Parece que todavía le falta algo en la introspección de su proceso de pensamiento.」
·「Para lograr la AGI, necesitas un sistema que pueda resolver problemas de forma proactiva por ti. El agente es ese camino, y creo que apenas estamos empezando.」
·「Aún no he visto a nadie usar vibe coding para crear un juego AAA que encabece las listas de aplicaciones. Con el esfuerzo actual, eso debería ser posible, pero aún no ha ocurrido. Eso indica que todavía falta algo en las herramientas o en los procesos.」
·「Nuestra hipótesis es que, un modelo Pro de vanguardia, lanzado medio año a un año después, puede ser comprimido en un modelo muy pequeño que funcione en dispositivos edge. Todavía no hemos llegado a los límites teóricos de densidad de información.」
·「A veces la llamo la ‘Prueba Einstein’, que consiste en entrenar un sistema con conocimientos de 1901 y ver si puede derivar de forma independiente los logros de Einstein en 1905, incluyendo la relatividad especial. Si se logra, estos sistemas están cerca de inventar cosas completamente nuevas.」
·「Resolver un problema de premio Millennium ya sería un gran logro. Pero aún más difícil sería proponer un conjunto de nuevos problemas de Millennium que sean considerados igual de profundos y dignos de una vida de investigación por los mejores matemáticos.」
·「Buscar problemas difíciles y problemas simples en realidad es muy similar, solo que la forma en que son difíciles difiere. La vida es corta, mejor enfocar la energía en cosas que, si no haces tú, nadie más hará.」
Gary Tan: Tú has pensado en la AGI casi más que nadie. Con el paradigma actual, ¿cuánto crees que ya tenemos de la arquitectura final de la AGI? ¿Qué nos falta fundamentalmente ahora?
Demis Hassabis: Técnicas como preentrenamiento a gran escala, RLHF, cadenas de pensamiento, estoy muy seguro de que formarán parte de la arquitectura final de la AGI. Estas tecnologías han demostrado mucho ya. No puedo imaginar que en dos años descubramos que son un camino sin salida; eso no me cuadra. Pero seguramente, en lo que ya existe, falta una o dos cosas. Aprendizaje continuo, razonamiento a largo plazo, ciertos aspectos de la memoria, todavía tienen problemas sin resolver.
La AGI necesita que todo eso esté resuelto. Quizá con las tecnologías actuales y algunas innovaciones graduales, se pueda escalar hasta ese nivel, pero también podrían quedar uno o dos puntos clave por romper. No creo que sean más de uno o dos. Personalmente, la probabilidad de que existan estos puntos sin resolver es de aproximadamente 50-50. Por eso, en Google DeepMind, estamos avanzando en ambas líneas.
Gary Tan: He trabajado con muchos sistemas de agentes, y lo que más me sorprende es que en el nivel más bajo, todo se basa en los mismos pesos. Por eso, el concepto de aprendizaje continuo es muy interesante, porque ahora estamos usando parches temporales, como esos ciclos de sueños nocturnos.
Demis Hassabis: Exacto, esos ciclos de sueños son muy interesantes. En el pasado, hemos pensado en esto en relación con la integración de la memoria episódica. Mi doctorado fue sobre cómo el hipocampo integra de manera elegante el conocimiento nuevo en los sistemas existentes. El cerebro hace esto de forma excelente.
Durante el sueño, especialmente en el sueño REM, repasan experiencias importantes para aprender de ellas. Nuestro primer programa de Atari, DQN (DeepMind, 2013), que usó aprendizaje profundo para jugar a nivel humano en Atari, logró dominar los juegos mediante una técnica clave: la reproducción de experiencias (experience replay).
Aprendimos esto de la neurociencia: repetir caminos exitosos. Eso fue en 2013, en la era antigua de la IA, pero en ese momento fue fundamental.
Estoy de acuerdo contigo: ahora estamos usando parches. Metemos todo en la ventana de contexto. Eso no se siente correcto. Aunque hagamos que la máquina tenga millones o decenas de millones de tokens de memoria, y que la memoria sea perfecta, el costo de buscar y recuperar sigue siendo alto. En decisiones en tiempo real, encontrar la información realmente relevante no es sencillo, incluso si podemos guardar todo. Por eso, creo que hay mucho espacio para innovar en memoria.
Gary Tan: La ventana de contexto de un millón de tokens ya es mucho más de lo que esperaba, y permite hacer muchas cosas.
Demis Hassabis: Para la mayoría de los escenarios, sí, es suficiente. Pero piensa en esto: la ventana de contexto equivale a la memoria de trabajo. La memoria de trabajo humana promedia solo siete dígitos, mientras que nosotros tenemos ventanas de contexto de millones o incluso decenas de millones de tokens. El problema es que llenamos todo con información, incluyendo datos irrelevantes o erróneos, y esa práctica es bastante burda. Además, si quieres procesar streams de video en tiempo real y guardar todos los tokens, un millón solo alcanza para unos 20 minutos. Pero si quieres que el sistema entienda tu vida en uno o dos meses, todavía está muy lejos.
Gary Tan: DeepMind siempre ha invertido mucho en aprendizaje por refuerzo y búsqueda. ¿Qué tan profundo está esa filosofía en la construcción de Gemini? ¿Se subestima aún el aprendizaje por refuerzo?
Demis Hassabis: Probablemente sí, todavía se subestima. La atención a esto ha ido y venido. Desde que fundamos DeepMind, hemos trabajado en sistemas de agentes. Todo el trabajo en Atari y AlphaGo, en esencia, son agentes de aprendizaje por refuerzo, sistemas que pueden alcanzar objetivos, tomar decisiones y planear de forma autónoma. Claro, en ese momento, elegimos los juegos porque su complejidad era controlable, y luego pasamos a juegos más complejos, como AlphaGo, y después AlphaStar. Básicamente, hemos hecho todos los juegos posibles.
El siguiente paso es generalizar estos modelos a modelos de mundo o modelos de lenguaje, no solo a modelos de juegos. Hemos estado trabajando en eso en los últimos años. La forma de pensar y razonar de los modelos líderes hoy en día, en esencia, es una reintroducción de lo que AlphaGo inició.
Creo que mucho de lo que hicimos entonces está muy relacionado con lo que hacemos ahora. Estamos revisitando esas ideas con mayor escala y más generalidad, incluyendo métodos como la búsqueda de Monte Carlo y otras técnicas de aprendizaje por refuerzo. Las ideas de AlphaGo y AlphaZero están muy relacionadas con los modelos base actuales, y creo que gran parte del progreso en los próximos años vendrá de allí.
Gary Tan: Ahora, para ser más inteligentes, necesitamos modelos más grandes, pero también la destilación avanza, y los modelos pequeños pueden ser bastante rápidos. Tu modelo Flash es muy potente, alcanza aproximadamente el 95% del rendimiento de los modelos de vanguardia, pero cuesta solo una décima parte. ¿Es correcto?
Demis Hassabis: Creo que esa es una de nuestras ventajas principales. Primero, hay que construir el modelo más grande para obtener capacidades de vanguardia. Pero una vez que los tenemos, podemos destilar y comprimir esas capacidades en modelos cada vez más pequeños rápidamente. La destilación la inventamos nosotros, y todavía somos líderes mundiales en ello. Además, tenemos un fuerte impulso comercial para hacerlo. Somos probablemente la plataforma de IA aplicada más grande del mundo.
Con AI Overviews, AI Mode y Gemini, cada producto de Google, desde Maps hasta YouTube, está integrando Gemini o tecnologías relacionadas. Esto involucra miles de millones de usuarios y productos con decenas de miles de millones de usuarios. Necesitan ser extremadamente rápidos, eficientes, económicos y con baja latencia. Esto nos motiva mucho a optimizar modelos como Flash y Flash-Lite para que sean altamente eficientes, con la esperanza de que también sirvan para diferentes tareas de los usuarios.
Gary Tan: Me intriga qué tan inteligentes pueden llegar a ser estos modelos pequeños. ¿Hay un límite en la destilación? ¿Modelos de 50B o 400B de parámetros pueden igualar la inteligencia de los modelos de vanguardia actuales?
Demis Hassabis: No creo que hayamos llegado a un límite teórico en la información, al menos nadie lo sabe todavía. Quizá algún día encontremos un techo en la densidad de información, pero ahora asumimos que, tras lanzar un modelo Pro de vanguardia, en medio año o un año, su capacidad puede comprimirse en un modelo muy pequeño, casi apto para edge.
También se puede ver esto en Gemma. Nuestro modelo Gemma 4, en la misma escala, tiene un rendimiento muy fuerte. Todo esto usa técnicas de destilación y optimización de modelos pequeños. Realmente no veo un límite teórico, todavía estamos lejos de él.
Gary Tan: Ahora, hay un fenómeno bastante sorprendente: los ingenieros pueden hacer en seis meses lo que antes tomaba mucho más tiempo, multiplicando por 500 o 1000 su productividad. Algunos en esta sala están haciendo en unos meses lo que un ingeniero de Google en los 2000 hacía en mil veces más tiempo. Steve Yegge lo mencionó.
Demis Hassabis: Me emociona mucho. Los modelos pequeños tienen muchas aplicaciones. Una es que son más económicos y rápidos, y eso también trae beneficios. En programación y otras tareas, puedes iterar más rápido, especialmente en colaboración con sistemas. Un sistema rápido, aunque no sea de vanguardia, con solo el 90-95% del rendimiento, es suficiente, y la velocidad de iteración te da un retorno mucho mayor que ese 5-10% adicional.
Otra gran dirección es correr estos modelos en dispositivos edge, no solo por eficiencia, sino también por privacidad y seguridad. Piensa en dispositivos que manejan información muy personal, o en robots. Para tu robot doméstico, querrás que corra un modelo potente localmente, y solo en casos específicos delegar tareas a la nube. Procesar audio y video en local, mantener los datos en local, sería un estado final muy deseable.
Gary Tan: Volviendo a la memoria y el contexto. Los modelos actualmente son sin estado. Si logramos aprendizaje continuo, ¿cómo sería la experiencia del desarrollador? ¿Cómo guiarías a estos modelos?
Demis Hassabis: Es una pregunta muy interesante. La falta de aprendizaje continuo es una de las principales limitaciones actuales de los agentes. Los agentes actuales son útiles en partes locales de tareas, y puedes combinarlos para hacer cosas interesantes, pero no se adaptan bien a su entorno específico. Esa es la razón por la que aún no pueden «lanzar y olvidar»: necesitan aprender de su contexto particular. Para alcanzar una inteligencia verdaderamente general, ese problema debe resolverse.
Gary Tan: ¿En qué punto estamos con el razonamiento? Los modelos tienen cadenas de pensamiento muy fuertes, pero todavía cometen errores que un estudiante de secundaria no cometería. ¿Qué cambios esperas en el razonamiento?
Demis Hassabis: Hay mucho espacio para innovar en el paradigma de pensamiento. Lo que hacemos todavía es bastante burdo y violento. Hay muchas mejoras posibles, como monitorear las cadenas de pensamiento y hacer intervenciones durante el proceso. A menudo siento que, tanto en nuestro sistema como en los de la competencia, hay un exceso de pensamiento, que se queda en ciclos.
Me gusta usar Gemini para jugar ajedrez. Es interesante ver cómo todos los modelos base líderes en ajedrez en realidad son bastante malos en ello, lo cual es muy revelador.
Es valioso seguir su trayectoria de pensamiento, porque el ajedrez es un campo muy bien entendido. Puedo detectar rápidamente si se están desviando, si el razonamiento es válido. Lo que vemos es que a veces consideran un movimiento, se dan cuenta de que es terrible, pero no encuentran una mejor opción, y terminan haciendo ese movimiento. Un sistema de razonamiento preciso no debería cometer ese error.
Esa gran brecha todavía existe, pero arreglarla solo requiere uno o dos ajustes. Por eso, se habla de la «inteligencia dentada» (jagged intelligence): puede resolver problemas de nivel medallista en IMO, pero al cambiar la formulación, comete errores de matemáticas básicas. En la introspección de su proceso de pensamiento, parece que todavía le falta algo.
Gary Tan: El agente es un tema muy amplio. Algunos dicen que es solo marketing. Personalmente, creo que apenas estamos empezando. ¿Cuál es la evaluación interna en DeepMind sobre la capacidad real de los agentes? ¿Qué diferencia hay con la percepción pública?
Demis Hassabis: Estoy de acuerdo contigo, apenas estamos empezando. Para lograr la AGI, necesitas un sistema que pueda resolver problemas de forma proactiva. Eso siempre ha sido claro para nosotros. El agente es ese camino, y creo que estamos en los primeros pasos.
Muchos están explorando cómo hacer que los agentes colaboren mejor en el trabajo. Nosotros hemos hecho muchas pruebas en experimentos personales, y muchos en esta sala seguramente también. Cómo integrar el agente en el flujo de trabajo, que no sea solo un adorno, sino que realmente haga tareas fundamentales. Actualmente, estamos en fase experimental. Probablemente, en los últimos dos o tres meses, hemos empezado a encontrar escenarios muy valiosos. La tecnología ya no es solo una demostración, sino que realmente aporta valor en términos de tiempo y eficiencia.
Frecuentemente veo a gente poner decenas de agentes en marcha durante horas, pero todavía no sé si los resultados justifican esa inversión.
Aún no hemos visto a nadie usar vibe coding para crear un juego AAA que encabece las listas de aplicaciones. Yo mismo he hecho algunos demos, y muchos aquí también. Ahora puedo hacer un prototipo de «Theme Park» en media hora, cuando a los 17 años me tomó seis meses.
Siento que si dedicas un verano completo, puedes crear algo realmente increíble. Pero aún así, requiere artesanía, alma y gusto humano. Tienes que asegurarte de incorporar esas cualidades en cualquier producto que construyas. De hecho, ningún niño ha creado un juego superventas que venda más de diez millones de copias, y con las herramientas actuales, eso debería ser posible. Falta algo en el proceso, quizás en las herramientas o en la metodología. Espero ver resultados en los próximos 6 a 12 meses.
Gary Tan: ¿En qué medida será todo esto completamente automático? Creo que no será de inmediato. Lo más probable es que primero logren aumentar la eficiencia en 1000 veces, y luego alguien use esas herramientas para crear aplicaciones y juegos exitosos, y solo después se automatizarán más etapas.
Demis Hassabis: Exactamente, eso es lo que deberías esperar primero.
Gary Tan: También hay quienes ya están haciendo eso, pero no quieren decir cuánto ayudaron los agentes.
Demis Hassabis: Puede ser. Pero quiero hablar sobre la creatividad. Siempre pongo el ejemplo de AlphaGo, especialmente la jugada 37 en la segunda partida. Para mí, esa fue la clave, y fue ese momento el que me motivó a empezar proyectos científicos como AlphaFold. Empezamos a trabajar en AlphaFold al día siguiente de regresar de Seúl, hace diez años. Este año celebramos el décimo aniversario de AlphaGo en Corea.
Pero solo hacer esa jugada no es suficiente. Es genial, muy útil, pero ¿el sistema puede inventar el juego de Go en sí? Si le das una descripción de alto nivel, como «un juego que se puede aprender en cinco minutos, pero que requiere toda una vida para dominar, con estética elegante, y que se puede jugar en una tarde», y el sistema te devuelve que es Go, eso todavía no lo puede hacer hoy. ¿Por qué?
Gary Tan: Tal vez alguien en esta sala sí pueda.
Demis Hassabis: Si alguien logra eso, la respuesta no será que el sistema le falta algo, sino que la forma en que usamos el sistema está mal. Quizá esa sea la respuesta correcta. Tal vez los sistemas actuales ya tienen esa capacidad, solo que necesitan un creador muy talentoso que los impulse, que aporte el alma del proyecto, y que esté en perfecta sintonía con la herramienta. Si te sumerges en esas herramientas día y noche, y tienes una creatividad profunda, quizás puedas crear cosas asombrosas.
Gary Tan: Cambiando de tema, hablemos de open source. La reciente publicación de Gemma permite que modelos muy potentes funcionen localmente. ¿Qué opinas? ¿La IA se convertirá en algo que los usuarios controlen por sí mismos, en lugar de estar principalmente en la nube? ¿Esto cambiará quién puede construir productos con estos modelos?
Demis Hassabis: Somos firmes defensores del open source y la ciencia abierta. En el caso de AlphaFold, lo liberamos completamente gratis. Nuestro trabajo científico sigue publicándose en las principales revistas. En cuanto a Gemma, queremos crear modelos líderes en su escala. Hasta ahora, Gemma ha tenido unas 40 millones de descargas en solo dos semanas y media desde su lanzamiento.
Creo que es muy importante que exista una comunidad de código abierto con tecnología occidental. Los modelos open source chinos son excelentes y actualmente lideran en ese campo, pero creemos que Gemma es muy competitivo en su escala.
Para nosotros, también es un tema de recursos: nadie tiene capacidad de computación de sobra para entrenar dos modelos de vanguardia a tamaño completo. Por eso, nuestra decisión actual es usar modelos en dispositivos edge para Android, gafas, robots, etc., y preferimos que sean abiertos, porque una vez desplegados en los dispositivos, están expuestos. Es mejor abrir todo de una vez. Hemos unificado nuestra estrategia de apertura a nivel nanométrico, y eso tiene sentido desde una perspectiva estratégica.
Gary Tan: Antes de la presentación, te mostré cómo interactúo con un sistema de IA usando solo voz, y aunque estaba nervioso, funcionó. Gemini fue diseñado desde el principio como un sistema multimodal. He probado muchos modelos, y la interacción por voz con capacidades de herramientas y comprensión contextual que tiene Gemini no tiene comparación.
Demis Hassabis: Exacto. Una ventaja de Gemini que aún no se ha reconocido completamente es que desde el principio lo construimos en modo multimodal. Esto hace que el inicio sea más difícil que solo hacer texto, pero creemos que a largo plazo será muy beneficioso, y ya estamos empezando a cosechar esas ventajas.
Por ejemplo, en modelos del mundo, construimos Genie sobre Gemini (el modelo de interacción generativa de DeepMind). En robótica, Gemini Robotics se basará en modelos multimodales, y esa ventaja será una barrera competitiva. También estamos usando cada vez más Gemini en Waymo (la compañía de conducción autónoma de Alphabet).
Imagina asistentes digitales que te acompañen en el mundo real, en tu teléfono o gafas, que entiendan tu entorno físico. Nuestro sistema es muy fuerte en eso. Seguiremos invirtiendo en esa dirección, y creo que nuestra ventaja en estos temas será grande.
Gary Tan: El costo del razonamiento está bajando rápidamente. Cuando el razonamiento sea casi gratuito, ¿qué será posible? ¿Cambiará eso la dirección de sus optimizaciones?
Demis Hassabis: No estoy seguro de que el razonamiento sea realmente gratuito, por la paradoja de Jevons (que indica que mejorar la eficiencia puede aumentar el consumo total). Creo que todos terminarán usando toda la capacidad computacional que puedan conseguir.
Podemos imaginar grupos de millones de agentes colaborando, o un pequeño grupo que piensa en varias direcciones y luego integra los resultados. Todos estamos experimentando con esas ideas, y todas consumirán recursos de razonamiento.
En energía, si resolvemos problemas como la fusión nuclear controlada, superconductividad a temperatura ambiente, o baterías óptimas, creo que podremos reducir los costos energéticos a casi cero mediante avances en ciencia de materiales. Pero aún hay cuellos de botella en la fabricación de chips y en la física de los componentes, y eso no cambiará en décadas. Por eso, en el lado del razonamiento, todavía habrá límites en la cantidad de trabajo que se puede hacer, y será necesario usarlo de manera eficiente.
Gary Tan: Es alentador que los modelos pequeños sean cada vez más inteligentes. Muchos fundadores en biotecnología y ciencias de la vida están aquí. AlphaFold 3 ya superó los límites de las proteínas, extendiéndose a moléculas biológicas más amplias. ¿Qué tan lejos estamos de modelar sistemas celulares completos? ¿Es esto un problema de dificultad completamente diferente?
Demis Hassabis: Isomorphic Labs está avanzando muy bien. AlphaFold es solo una etapa en el descubrimiento de fármacos. Estamos trabajando en investigación bioquímica relacionada, diseñando compuestos con propiedades correctas, y pronto tendremos anuncios importantes.
Nuestro objetivo final es crear una célula virtual completa, un simulador de célula funcional que pueda ser perturbado y que produzca resultados cercanos a los experimentales, con aplicaciones prácticas. Podemos saltarnos muchas búsquedas y generar datos sintéticos en gran volumen para entrenar otros modelos y predecir comportamientos celulares reales.
Calculo que aún nos quedan unos diez años para una célula virtual completa. En DeepMind, estamos empezando desde el núcleo de la célula, que es relativamente autónomo. La clave es poder extraer una porción de complejidad adecuada, que sea autosuficiente y que permita una aproximación razonable a sus entradas y salidas, concentrándonos en ese subsistema. El núcleo celular es un buen punto de partida.
Otro problema es la falta de datos. He hablado con top científicos en microscopía electrónica y otras técnicas de imagen. Si pudiéramos hacer imágenes de células vivas sin matarlas, sería revolucionario, porque convertiría el problema en uno visual, y ya sabemos cómo abordarlo.
Pero, por lo que sé, aún no existe tecnología para hacer imágenes en vivo a resolución nanométrica sin dañar la célula. Podemos obtener imágenes estáticas muy detalladas, pero no lo suficiente para convertirlo en un problema visual completo.
Por eso, hay dos caminos: uno, hardware y datos; otro, construir simuladores más avanzados que puedan modelar estas dinámicas.
Gary Tan: No solo en biología. Materiales, descubrimiento de fármacos, modelado climático, matemáticas: si tuvieras que ordenar esas áreas en los próximos cinco años, ¿cuál será transformada más profundamente?
Demis Hassabis: Cada campo es emocionante, y esa es la razón por la que siempre ha sido mi mayor pasión y por qué llevo más de 30 años en IA. Siempre he pensado que la IA será la herramienta definitiva para avanzar en la ciencia, en descubrimientos científicos, medicina y nuestra comprensión del universo.
Nuestra misión inicial fue en dos pasos: primero, resolver la inteligencia, construir la AGI; segundo, usarla para resolver todos los demás problemas. Luego, tuvimos que ajustar el lenguaje, porque algunos preguntan «¿realmente decís que resolveréis todos los problemas?»
Pero en realidad, sí. Ahora la gente empieza a entender qué significa eso. Específicamente, me refiero a resolver esas «problemáticas raíz» en ciencia, que al superarlas desbloquean nuevas ramas de descubrimiento. AlphaFold es un prototipo de lo que queremos hacer.
Más de tres millones de investigadores en todo el mundo usan AlphaFold. Algunos ejecutivos de farmacéuticas me han dicho que casi todos los nuevos medicamentos en el futuro usarán AlphaFold en alguna etapa del descubrimiento. Nos enorgullece eso, y refleja el impacto que queremos que tenga la IA. Pero esto es solo el comienzo.
No puedo pensar en ningún campo científico o ingenieril que la IA no pueda ayudar. Los que mencionaste están en una etapa inicial, como en el «momento AlphaFold 1»: resultados prometedores, pero aún sin superar los grandes desafíos. En los próximos dos años, veremos avances en todos esos campos, desde ciencia de materiales hasta matemáticas.
Gary Tan: Es como un regalo de Prometeo, otorgando a la humanidad una capacidad completamente nueva.
Demis Hassabis: Exacto. Pero, como en la historia de Prometeo, debemos ser cautelosos con cómo usamos esa capacidad, en qué la aplicamos, y con los riesgos de que las mismas herramientas sean mal utilizadas.
Gary Tan: Muchos en esta sala están intentando fundar empresas que apliquen IA a la ciencia. Desde tu perspectiva, ¿qué diferencia a las startups que realmente avanzan en la frontera de la ciencia y aquellas que solo envuelven modelos básicos en APIs y se autodenominan «IA para la ciencia»?
Demis Hassabis: Pienso en qué haría si estuviera en su lugar, en Y Combinator, evaluando proyectos. Una cosa es predecir la dirección futura de la IA, que ya es difícil. Pero creo que hay un enorme valor en combinar la IA con otros campos de deep tech. La intersección, ya sea en materiales, medicina o ciencias difíciles, especialmente en el mundo atómico, no tendrá atajos en el futuro cercano. Estos campos no serán superados solo con la próxima actualización de modelos básicos. Pero si buscas una dirección defensiva, esa sería mi recomendación.
Siempre he preferido deep tech. Lo que es duradero y valioso no es fácil. La IA en 2010, cuando empezamos, ya era deep tech — los inversores me decían «esto no funciona», y la academia pensaba que era una moda de los 90 que fracasó.
Pero si tienes convicción en tu idea — por qué será diferente esta vez, qué combinación única tienes — y si eres experto en machine learning y en aplicaciones, o puedes formar un equipo fundador así, hay un enorme impacto y valor por crear.
Gary Tan: Esa información es muy valiosa. Cuando algo funciona, parece obvio, pero antes todos estaban en contra.
Demis Hassabis: Claro, por eso hay que hacer lo que uno realmente ama. Para mí, seguiré haciendo IA pase lo que pase. Desde pequeño, decidí que eso sería lo más influyente que podría hacer. Y así ha sido, aunque quizás fue demasiado pronto, 50 años antes de que fuera popular.
También es lo que más me divierte. Aunque hoy todavía estamos en un garaje, y la IA aún no está lista, seguiré buscando maneras de avanzar. Quizá vuelva a la academia, pero seguiré en esto de alguna forma.
Gary Tan: AlphaFold es un ejemplo de que apostaste a una dirección y acertaste. ¿Qué hace que un campo científico sea propicio para un avance como AlphaFold? ¿Hay alguna regla, como una función objetivo específica?
Demis Hassabis: Debería escribir esto en algún momento. Lo que aprendí de AlphaGo, AlphaFold y otros proyectos Alpha es que las tecnologías actuales funcionan mejor cuando:
Primero, el problema tiene un espacio de búsqueda combinatoria enorme, cuanto mayor, mejor, hasta el punto en que ningún método de búsqueda exhaustiva o algoritmo especial puede resolverlo. Los espacios de movimiento en ajedrez y las conformaciones de proteínas superan con mucho la cantidad de átomos en el universo. Segundo, se puede definir claramente una función objetivo, como la energía libre de la proteína o ganar en ajedrez, para que el sistema pueda hacer optimización por gradiente. Tercero, hay suficiente datos o un simulador que genere datos sintéticos en gran volumen.
Si estos tres criterios se cumplen, las técnicas actuales pueden avanzar mucho, encontrando esa aguja en el pajar. La descubrimiento de fármacos sigue la misma lógica: si existe una molécula que cura una enfermedad sin efectos secundarios, y la física lo permite, solo falta encontrarla de forma eficiente. AlphaFold demostró que estos sistemas pueden buscar en espacios inmensos y encontrar esas agujas.
Gary Tan: Quiero elevar la discusión. Hemos hablado de cómo los humanos usan estos métodos para crear AlphaFold, pero hay un nivel meta: los humanos usan IA para explorar espacios de hipótesis posibles. ¿Qué tan lejos estamos de que los sistemas de IA puedan hacer ciencia de verdad, no solo patrones en datos?
Demis Hassabis: Creo que estamos muy cerca. Ya estamos desarrollando sistemas generalistas. Tenemos un sistema llamado AI co-scientist, y algoritmos como AlphaEvolve que van más allá de Gemini. Todos los laboratorios punteros están explorando esa dirección.
Pero, hasta ahora, no he visto un descubrimiento científico importante que haya sido hecho por estos sistemas. Creo que está muy cerca. Podría estar relacionado con la creatividad que discutimos, un avance que rompa límites conocidos. En ese nivel, ya no será solo reconocimiento de patrones, porque no habrá patrones que reconocer. Será más bien razonamiento por analogía, y creo que estos sistemas aún no tienen esa capacidad, o no los estamos usando correctamente.
Un estándar que uso en ciencia es si pueden proponer una hipótesis realmente interesante, no solo verificar una existente. Verificar hipótesis puede ser un gran logro, como probar la conjetura de Riemann o resolver un problema de Millennium, pero quizás estamos a solo unos años de que puedan hacer eso.
Lo más difícil sería que propongan un conjunto de nuevos problemas de Millennium que sean considerados igual de profundos y que valga la pena estudiar toda una vida. Eso sería un salto de nivel, y todavía no sabemos cómo lograrlo. Pero no creo que sea magia; confío en que estos sistemas podrán hacerlo, quizás solo les falte una o dos cosas.
Podemos usar una prueba llamada «Prueba Einstein»: entrenar un sistema con conocimientos de 1901 y ver si puede derivar por sí solo los logros de Einstein en 1905, incluyendo la relatividad especial. Creo que deberíamos hacer esa prueba en serio, repetirla varias veces, y ver cuándo se logra. Cuando eso pase, estos sistemas estarán cerca de inventar cosas completamente nuevas.
Gary Tan: La última pregunta. Muchos en esta sala tienen experiencia en deep tech y quieren hacer algo similar a ustedes. Ustedes son uno de los mayores centros de investigación en IA. Desde su experiencia en la frontera de la AGI, ¿qué cosas saben ahora que desearían haber sabido a los 25 años?
Demis Hassabis: Ya hemos hablado de parte de esto. La diferencia entre buscar problemas difíciles y problemas simples no es tanta, solo que la dificultad se manifiesta de formas distintas. La vida es corta, y no vale la pena gastar energía en cosas que, si no haces tú, nadie más hará. Elige en función de eso.
Además, creo que en los próximos años la combinación interdisciplinaria será más común, y la IA facilitará mucho esa integración.
Por último, todo depende de tu cronograma para la AGI. El mío es en torno a 2030. Si empiezas un proyecto de deep tech hoy, generalmente será un viaje de unos diez años. Y debes incluir en tu planificación que la AGI podría aparecer en medio del camino. ¿Qué implica eso? No necesariamente es algo negativo, pero debes considerarlo. ¿Tu proyecto puede aprovechar la AGI? ¿Cómo interactuará la AGI con tu proyecto?
Volviendo a lo que hablamos antes sobre AlphaFold y sistemas de IA general, puedo imaginar que Gemini, Claude o sistemas similares usarán sistemas especializados como AlphaFold como herramientas integradas. No creo que construyamos todo en un solo sistema gigante.
Enlace al video original
Haz clic para conocer las vacantes en BlockBeats
Bienvenido a la comunidad oficial de BlockBeats:
Grupo de Telegram: https://t.me/theblockbeats
Chat de Telegram: https://t.me/BlockBeats_App
Cuenta oficial de Twitter: https://twitter.com/BlockBeatsAsia