OpenAI anuncia que su nuevo modelo alcanzó nivel humano en prueba de inteligencia: ¿Qué implica esto?
Un nuevo modelo de inteligencia artificial ha conseguido resultados que igualan los logros humanos en una evaluación específica para

Un nuevo modelo de inteligencia artificial ha conseguido resultados que igualan los logros humanos en una evaluación específica para medir la “inteligencia general”. El 20 de diciembre, el sistema o3 de OpenAI obtuvo un puntaje del 85% en la prueba ARC-AGI, superando considerablemente el mejor resultado previo en inteligencia artificial, que era del 55%, y alcanzando el promedio de puntuación humana.
Adicionalmente, el modelo se destacó en una prueba compleja de matemáticas. El desarrollo de inteligencia artificial general (AGI) es el objetivo primordial de los principales laboratorios de investigación en este campo. A primera vista, parece que OpenAI ha dado un paso significativo hacia la consecución de esta meta.
A pesar del escepticismo existente, numerosos investigadores y desarrolladores en el ámbito de la inteligencia artificial consideran que ha habido un cambio importante. Para muchos, la noción de AGI se percibe ahora como más realista, urgente y próxima de lo que se había anticipado. Sin embargo, persisten interrogantes sobre la veracidad de este cambio. ¿Realmente estamos más cerca de alcanzar la inteligencia artificial general?
LEE TAMBIÉN: ChatGPT lanza servicio de asistencia por teléfono y WhatsApp para resolver tus dudas
Generalización e inteligencia: Entendiendo la prueba ARC-AGI
Para comprender el impacto del sistema o3 de OpenAI, es fundamental analizar la naturaleza de la prueba ARC-AGI. Desde una perspectiva técnica, esta evaluación mide la “eficiencia de muestra” de un sistema de inteligencia artificial en su capacidad para adaptarse a nuevos contextos. Específicamente, determina cuántos ejemplos de una situación inédita necesita observar el sistema antes de poder inferir cómo funciona.
Los sistemas de inteligencia artificial como ChatGPT (GPT-4) presentan ciertas limitaciones en su eficiencia de muestra. Estos modelos han sido entrenados utilizando millones de ejemplos de textos producidos por humanos, lo que les permite establecer “reglas” probabilísticas para las combinaciones de palabras más probables.
Aunque el rendimiento en tareas comunes es bastante satisfactorio, su desempeño en situaciones menos frecuentes es deficiente debido a la escasez de datos relacionados (menos muestras) para dichas tareas.
Mientras los sistemas de inteligencia artificial no logren aprender a partir de un número reducido de ejemplos y adaptarse de manera más eficiente, su uso se verá restringido a tareas repetitivas donde se pueda tolerar un fallo ocasional.
Estructuras de problemas de OpenAI para la evaluación de la IA
La habilidad de resolver problemas desconocidos o novedosos con precisión, utilizando un número limitado de muestras de datos, se define como la capacidad de generalizar. Este atributo se reconoce como un componente esencial, e incluso primordial, de la inteligencia.
Las pruebas ARC-AGI, que evalúan la eficacia de adaptación, emplean problemas de tipos de grillas, como el que se muestra a continuación. En estas pruebas, la inteligencia artificial debe determinar el patrón que transforma la grilla a la izquierda en la grilla a la derecha.