o3 supera el muro actual de la inteligencia artificial. Seguramente anticipa otro
Con o3 la pregunta cuánto pueden mejorar estos modelos, si hemos encontrado una vía por la que la inteligencia artificial siga mejorando y acercándose al nivel humano
Todo apuntaba a que terminábamos 2024 reforzados en el escepticismo con la inteligencia artificial.
En lugar de estar discutiendo lo fantástica que seguramente sería la generación de los GPT-5s, estábamos enfrascados en el debate del muro.
O más bien tentados por dos realidades paralelas. Los que hablan de AGI inminente Vs los que señalan que la vía “deep learning transformer” estaba agotada.
Lo cierto es que, en los modelos grandes de lenguaje, las noticias de 2024 se pueden resumir en que son más eficientes (menos coste para el mismo nivel), multimodalidad progresiva y muchos actores igualando o superando por poco el nivel de GPT-4o.
El diagnóstico de muchos científicos de IA (incluido Ilya Sutskever) es que o bien preentrenar más a los modelos ya no ofrece grandes saltos de nivel o bien es que ya nos hemos quedado sin contenidos. O las dos cosas.
El caso es que apareció la interesante alternativa de los modelos o1 de OpenAI. Mejor rendimiento en matemáticas, ciencia y programación por la vía de empujar a la la IA a “razonar más y por más tiempo”. Los disctuimos en este episodio:
Lo más interesante del año ha sucedido en la última semana. OpenAI ha mostrado las capacidades y cifras obtenidas con sus futuros modelos o3 y o3-mini. La mejora en programación y matemáticas es sobresaliente, pero sobre todo ha tenido unos resultados extraordinarios en el benchmark ARC-AGI.
En un episodio muy especial, discutimos con uno de los programadores que mejores resultados ha conseguido en la competición ARC, Guillermo Barbadillo.
Con él somos capaces de entender la filosofía de esta prueba. Cómo está diseñada para capatar una forma muy humana de razonar, por qué intenta medir la generalización fuera de los datos de entrenamiento, cómo de potente es el salto de o3 y qué nos dice del nivel de la inteligencia artificial en 2025 y lo que viene.
El primer titular es que esta vía de hacer los modelos ha roto con el muro del que tanto hemos hablado. El camino ha sido el de innovar en el modelo científico, añadiendo aprendizaje por refuerzo. Pero sobre todo es el de dejar mucho tiempo de inferencia, “para pensar la respuesta”.
Ahí se está viendo que encontramos una nueva vía de escalado. Con más tiempo de inferencia, o3 es muchísimo mejor que los o1. Eso supone más coste, claro. Acertar una pregunta de ARC como la que os mostramos le cuesta miles de dólares.
Optimizarán y tendremos las bajadas de precio que hemos visto en los LLMs clásicos. El debate no sólo es ese. Es cuánto pueden mejorar estos modelos, si hemos encontrado una vía por la que la inteligencia artificial siga mejorando y acercándose al nivel humano.
Todo apunta a que así es. A que 2025 puede ser un año de mucha más exploración en la vía de los modelos razonadores como o3 y, quizás, eso incluso pueda ayudar con datos sintéticos a la línea GPT como discutimos con Guillermo.
Podemos anticipar un debate, relacionado con la introducción del aprendizaje por refuerzo en estos LLMs razonadores. Profundizamos en esta técnica en la primera temporada con un episodio a fondo, un tema al que tocará volver mucho este año por su renovado protagonismo.
El punto de debate que empezamos en el último episodio es que en aprendizaje por refuerzo, la IA aprende a optimizar una función. Y que ese aprendizaje, como lo es la función, sólo sirve para un ámbito, para un contexto. La IA que aprende a jugar al ajedrez no es buena conduciendo un coche.
En o1 y o3, esta IA aprende a conseguir razonamientos brillantes en algunos ámbitos. Pero a la vez que es una genia matemática o programadora, resulta que o1 no mejora a GPT 4-o en el uso del lenguaje. Es decir, no parece claro que haya una transferencia, una generalización hacia la inteligencia humana de momento.
Lo discutimos en el episodio, sentimos que va a ser uno de los temas clave del futuro de la IA:
Ese podría ser el siguiente gran muro. Tener un o3 que es un genio para las ciencias pero que no mejora el entrenamiento base de un modelo de hace dos años en el resto de ámbitos. Un avance, sin duda, pero no una IA que se esté acercando a los humanos en cada aspecto de nuestra inteligencia.
¿O nos está derribando a nosotros?
https://neuroartes.substack.com/p/los-algoritmos-en-nuestras-vidas-ced?r=rm0n&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true