Un equipo de investigadores de Apple ha puesto a prueba las capacidades de razonamiento de varios modelos de inteligencia artificial, revelando que su desempeño es más frágil de lo que aparenta. En el análisis, se midieron sistemas de IA como GPT-4o, Llama y Mistral, comparando su capacidad para resolver problemas matemáticos y lógicos.
A pesar de que muchos chatbots simulan comprender y razonar de manera convincente, el estudio demostró que estos sistemas se ven afectados por alteraciones simples, como cambios en nombres o cifras en los enunciados. El equipo empleó una herramienta llamada GSM-Symbolic para evaluar cómo respondían los modelos ante problemas con valores modificados.
MIRA: Investigadores desarrollan una técnica que reduce el consumo de energía en IA en un 95%
Los resultados muestran que la precisión de los modelos varía significativamente, y su rendimiento disminuye si se altera ligeramente el contexto de los problemas. Por ejemplo, al cambiar nombres o incluir datos irrelevantes, los modelos fallan en reconocer que esa información no afecta la solución del problema. Mehrdad Farajtabar, uno de los investigadores, explica que la IA suele dar peso a datos innecesarios, un comportamiento que evidencia la falta de verdadero razonamiento.
El estudio resalta la fragilidad de estos sistemas en situaciones controladas. Pruebas como las del GSM8K, un benchmark matemático, muestran que los modelos obtienen buenos resultados en entornos ideales, pero su desempeño decae con modificaciones mínimas. Además, los investigadores demostraron que los modelos de IA cometían errores al enfrentarse a tareas sencillas, como jugar al ajedrez, donde ejecutaban movimientos inválidos.
El informe advierte sobre las implicaciones de confiar demasiado en estos sistemas. Si bien son útiles para responder preguntas simples, su aparente capacidad de razonamiento puede resultar engañosa, lo que genera riesgos en tareas más complejas. Los expertos concluyen que la IA necesita mejoras sustanciales antes de ser utilizada en aplicaciones críticas que dependan de su fiabilidad.