Los últimos avances en inteligencia artificial han dado lugar a una nueva generación de modelos lingüísticos especializados en razonamiento, conocidos como Large Reasoning Models (LRM).
Estos sistemas, como los desarrollados por OpenAI, DeepSeek y Anthropic, prometen capacidades avanzadas de resolución de problemas mediante procesos de «pensamiento» explícito.
Sin embargo, un estudio reciente publicado en «The Illusion of Thinking» revela limitaciones fundamentales en estos modelos cuando se enfrentan a problemas de creciente complejidad.
La investigación, realizada por un equipo multidisciplinario durante una pasantía en Apple, cuestiona la evaluación convencional de estos modelos basada únicamente en benchmarks matemáticos establecidos.
En su lugar, los autores proponen un enfoque innovador utilizando entornos de rompecabezas controlados que permiten manipular sistemáticamente la complejidad del problema mientras se mantiene una estructura lógica consistente.
Este método proporciona una ventana única para observar cómo estos modelos realmente «piensan» al resolver problemas.
Contenido
Metodología de evaluación cognitiva
El estudio empleó cuatro tipos de rompecabezas algorítmicos cuidadosamente seleccionados por su capacidad para escalar en complejidad de manera controlada.
Estos entornos experimentales ofrecen ventajas clave sobre los benchmarks tradicionales: permiten verificación paso a paso, evitan problemas de contaminación de datos y exigen razonamiento algorítmico basado únicamente en reglas explícitamente proporcionadas. (Anexo al final del artículo).
- La Torre de Hanoi, con su naturaleza recursiva, sirvió para evaluar planificación y razonamiento secuencial.
- El movimiento de fichas (Checker Jumping) probó la capacidad de los modelos para manejar restricciones espaciales unidimensionales.
- El cruce de río (River Crossing) examinó la coordinación multiagente y la gestión de restricciones complejas.
- Finalmente, el mundo de bloques (Blocks World) evaluó habilidades de reconfiguración espacial y planificación a más largo plazo.
Cada rompecabezas fue diseñado con parámetros ajustables que permitieron variar sistemáticamente la complejidad, medida como el número mínimo de movimientos requeridos para la solución.
Por ejemplo, en la Torre de Hanoi con N discos, la solución óptima requiere exactamente 2N − 1 movimientos, creciendo exponencialmente con N.
Los investigadores implementaron simuladores especializados para cada rompecabezas, capaces de validar no solo la respuesta final, sino cada paso intermedio en las cadenas de razonamiento generadas por los modelos.
Tres regímenes de razonamiento
El análisis exhaustivo reveló tres regímenes distintos en el comportamiento de los modelos frente a problemas de diferente complejidad.
En el régimen de baja complejidad, los modelos estándar sin capacidades explícitas de razonamiento superaron a sus contrapartes LRM, mostrando mayor eficiencia computacional y precisión.
Este resultado contradice la intuición inicial de que los procesos de pensamiento explícito siempre mejoran el rendimiento.
El segundo régimen, de complejidad media, mostró la ventaja esperada de los LRM. Aquí, la capacidad de generar largas cadenas de pensamiento (Chain-of-Thought) permitió a estos modelos superar significativamente a las versiones estándar.
Sin embargo, el régimen más revelador fue el de alta complejidad, donde ambos tipos de modelos experimentaron un colapso completo en su precisión, cayendo a cero más allá de ciertos umbrales específicos para cada rompecabezas.
Un hallazgo particularmente contraintuitivo fue el comportamiento del «esfuerzo de razonamiento» (medido en tokens de pensamiento utilizados durante la inferencia).
Los modelos inicialmente aumentaban su esfuerzo computacional proporcionalmente a la complejidad del problema, pero al acercarse a su umbral de colapso, comenzaban a reducir drásticamente este esfuerzo a pesar de enfrentar problemas más difíciles y tener presupuesto de tokens disponible.
Este fenómeno sugiere una limitación fundamental en cómo los modelos actuales asignan recursos computacionales al razonamiento.
Procesos de pensamiento internos
La capacidad única de los simuladores para validar cada paso intermedio permitió a los investigadores diseccionar los procesos de pensamiento de los modelos con detalle sin precedentes.
En problemas simples, los LRM tendían a encontrar soluciones correctas temprano en su cadena de pensamiento, pero luego continuaban explorando alternativas incorrectas, un fenómeno denominado «sobrepensamiento» que derrocha recursos computacionales.
A medida que aumentaba la complejidad, este patrón se invertía: los modelos exploraban primero soluciones incorrectas y solo encontraban las correctas (cuando lo hacían) más tarde en el proceso de pensamiento.
Finalmente, en problemas de alta complejidad, los modelos entraban en «modo de colapso», incapaces de generar cualquier solución correcta dentro de su cadena de pensamiento, independientemente de su longitud.
Un descubrimiento sorprendente fue la incapacidad de los modelos para beneficiarse de algoritmos explícitos. Cuando se proporcionaba el pseudocódigo completo para resolver la Torre de Hanoi, los modelos seguían fallando aproximadamente en el mismo punto de complejidad que cuando tenían que descubrir la solución por sí mismos.
Esto sugiere que la limitación no está solo en la estrategia de solución, sino en la capacidad fundamental para ejecutar pasos lógicos de manera consistente.
Limitaciones y directrices futuras
Si bien los entornos de rompecabezas proporcionan control experimental riguroso, representan solo un subconjunto de tareas de razonamiento.
Los autores reconocen que problemas del mundo real pueden involucrar componentes de conocimiento adicionales que no están presentes en estos rompecabezas abstractos.
Además, la naturaleza de caja negra de los modelos comerciales limita la capacidad de analizar componentes arquitectónicos específicos responsables de las limitaciones observadas.
Los resultados plantean preguntas fundamentales sobre la naturaleza del razonamiento en estos sistemas. ¿Están realmente desarrollando capacidades generalizables o simplemente patrones más sofisticados de coincidencia?
La inconsistencia en el rendimiento entre diferentes tipos de rompecabezas con similar profundidad composicional sugiere que los modelos pueden estar dependiendo en gran medida de memorización y patrones superficiales más que de razonamiento genuino.
Este estudio establece un marco metodológico para futuras investigaciones sobre las capacidades de razonamiento en IA.
Los hallazgos subrayan la necesidad de desarrollar benchmarks más rigurosos y diversos, así como arquitecturas innovadoras que puedan superar las limitaciones fundamentales identificadas.
El camino hacia sistemas de IA con capacidades de razonamiento verdaderamente robustas parece requerir avances que vayan más allá del simple escalamiento de modelos y datos actuales.
Anexos complementarios
1. Torre de Hanoi
La Torre de Hanoi es un problema clásico que requiere trasladar discos entre varillas respetando ciertas reglas. Debido a su estructura inherentemente recursiva, se utiliza frecuentemente para evaluar la capacidad de planificación secuencial y razonamiento lógico en modelos de inteligencia artificial.
2. Movimiento de fichas (Checker Jumping)
El ejercicio de Checker Jumping consiste en mover fichas dentro de un espacio unidimensional bajo restricciones estrictas de salto o desplazamiento. Sirve para medir cómo los modelos manejan limitaciones espaciales y planifican movimientos en entornos lineales.
3. Cruce de río (River Crossing)
Los clásicos problemas de River Crossing exigen trasladar múltiples agentes u objetos de un lado del río al otro, cumpliendo con restricciones de convivencia (como que ciertos elementos no pueden quedar solos juntos). Se emplean para examinar la capacidad de coordinación, resolución de restricciones complejas y razonamiento en entornos multiagente.
4. Mundo de bloques (Blocks World)
El mundo de bloques es un entorno de prueba clásico en inteligencia artificial. Consiste en una serie de bloques apilados que deben reorganizarse siguiendo reglas específicas y metas definidas. Se emplea para evaluar la planificación jerárquica, la resolución de subobjetivos y el razonamiento simbólico estructurado.
Referencias
- Shojaee, P., Mirzadeh, I., Alizadeh, K., Horton, M., Bengio, S., & Farajtabar, M. (2023). The illusion of thinking: Understanding the strengths and limitations of reasoning models via the lens of problem complexity [Informe técnico]. Apple. https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
- Simon, H. A. (1975). The Tower of Hanoi. In The Sciences of the Artificial (pp. 129–135). MIT Press.
- Doležal, M. (2015). Checkers with Artificial Intelligence (Bachelor’s thesis). Faculty of Electrical Engineering, Czech Technical University. https://dspace.cvut.cz/bitstream/handle/10467/61630/F3-BP-2015-Dolezal-Matej-BP.pdf
- Amarel, S. (1968). Problem solving and planning. In Machine Intelligence (Vol. 3, pp. 125–152). Edinburgh University Press.
- Fikes, R. E., & Nilsson, N. J. (1971). STRIPS: A new approach to the application of theorem proving to problem solving. Artificial Intelligence, 2(3-4), 189–208. https://doi.org/10.1016/0004-3702(71)90010-5
Recomendamos
- Psilocibina en psicoterapia: Efectos antidepresivos en pacientes con y sin medicación previa
- República Checa aprueba el uso de hongos psicoactivos para tratamientos de salud mental


