Los chatbots parecen razonar, pero no es más que una ilusión: fallan en situaciones clave

Un equipo de investigadores de Apple ha puesto a prueba las capacidades de razonamiento de varios modelos de inteligencia artificial, revelando que su desempeño es más frágil de lo que aparenta. En el análisis, se midieron sistemas de IA como GPT-4o, Llama y Mistral, comparando su capacidad para resolver problemas matemáticos y lógicos.

A pesar de que muchos chatbots simulan comprender y razonar de manera convincente, el estudio demostró que estos sistemas se ven afectados por alteraciones simples, como cambios en nombres o cifras en los enunciados. El equipo empleó una herramienta llamada GSM-Symbolic para evaluar cómo respondían los modelos ante problemas con valores modificados.

MIRA: Investigadores desarrollan una técnica que reduce el consumo de energía en IA en un 95%

Los resultados muestran que la precisión de los modelos varía significativamente, y su rendimiento disminuye si se altera ligeramente el contexto de los problemas. Por ejemplo, al cambiar nombres o incluir datos irrelevantes, los modelos fallan en reconocer que esa información no afecta la solución del problema. Mehrdad Farajtabar, uno de los investigadores, explica que la IA suele dar peso a datos innecesarios, un comportamiento que evidencia la falta de verdadero razonamiento.

El estudio resalta la fragilidad de estos sistemas en situaciones controladas. Pruebas como las del GSM8K, un benchmark matemático, muestran que los modelos obtienen buenos resultados en entornos ideales, pero su desempeño decae con modificaciones mínimas. Además, los investigadores demostraron que los modelos de IA cometían errores al enfrentarse a tareas sencillas, como jugar al ajedrez, donde ejecutaban movimientos inválidos.

El informe advierte sobre las implicaciones de confiar demasiado en estos sistemas. Si bien son útiles para responder preguntas simples, su aparente capacidad de razonamiento puede resultar engañosa, lo que genera riesgos en tareas más complejas. Los expertos concluyen que la IA necesita mejoras sustanciales antes de ser utilizada en aplicaciones críticas que dependan de su fiabilidad.

Tendencias

Donald Trump dice estar descontento porque los rusos “bombardean como locos” en Ucrania

“Lunes negro”: Las bolsas de Asia se desploman por el temor a los efectos de la guerra comercial

“Polo y Flores son un ejemplo. Que estén en el club inspira a los chicos”: Piero Alva, jefe de Menores en la ‘U’, sobre cuánto influyen los referentes

La nutria gigante lucha por prevalecer: científicos identifican 22 zonas claves para protegerla

Videojuegos creados por la computadora: Microsoft utiliza IA para crear un nivel de Quake II

El programa de verificación de Meta dejará de funcionar en EEUU a partir del lunes

Olvidate de la Ghiblificación: ahora la nueva moda IA es crear tu propio muñeco coleccionable

La reintroducción de los jaguares: ¿qué pasa con los animales que son rescatados del tráfico?

Probamos el Xiaomi 15 Ultra, un smartphone que pretende ser cámara profesional: ¿está cerca de igualarla?

“Una computadora para cada hogar”: la histórica entrevista donde Bill Gates explica cómo Microsoft cambiará el mundo

¿Magia o ciencia? Descubren un líquido que siempre vuelve a su forma original

Ford ha desmontado los autos de BYD: “Sus sistemas de propulsión no son tan eficientes como deberían”

Tendencias

Los chatbots parecen razonar, pero no es más que una ilusión: fallan en situaciones clave

Artículos Similares