Apple desafía las “rarezas” de la IA: ¿realmente razonan los grandes modelos lingüísticos? 🤖🧩

Días antes de su evento WWDC 2025, Apple dio un paso inusual: en lugar de presentar nuevas funciones, publicó un estudio titulado “The Illusion of Thinking”, cuestionando la capacidad de los llamados “modelos de razonamiento” (LRM) para pensar realmente en problemas complejos. Modelos de OpenAI, Anthropic—con Claude 3.7 Sonnet–, DeepSeek y Google Gemini fueron puestos frente a desafíos lógicos como la Torre de Hanoi o el clásico problema del río. El resultado fue sorprendente: en tareas sencillas, los LLM básicos como GPT-4 eran más certeros. En niveles moderados, los LRM tenían ventaja, pero al aumentar la dificultad ambos tipos colapsaban, con una precisión prácticamente nula  🧠📉.

Los investigadores observaron que, conforme la complejidad crece, los LRM llegan a un punto donde reducen su “esfuerzo de razonamiento”, incluso teniendo recursos disponibles. Un fenómeno que describieron como “colapso completo de precisión”, donde los modelos, lejos de pensar más, “se rinden” antes de resolver el puzzle 

Desde Anthropic, OpenAI y Google se defienden: argumentan que los modelos ya están sentando las bases para agentes que utilicen herramientas, tomen decisiones y resuelvan problemas cada vez más complejos, y que los “colapsos” mencionados corresponden a límites establecidos para evitar respuestas demasiado extensas o erráticas 🧪🛑 .

Un punto controvertido es cómo el equipo de Apple evitó datos contaminados en las evaluaciones: diseñaron rompecabezas controlados, sin respuesta conocida durante el entrenamiento, para medir no solo el resultado final, sino también los pasos intermedios de razonamiento 🧩🧬.

Este enfoque resalta un debate central: ¿los LRM hacen “thinking” real o aplican patrones aprendidos hasta cierto nivel de complejidad? Para algunos, este estudio está poniendo en entredicho el camino hacia una inteligencia artificial general (AGI), sugiriendo que el progreso podría haber chocado contra un límite fundamental 

No obstante, Apple también abre una vía constructiva: plantea una mayor rigurosidad científica en la evaluación de modelos, poniendo en cuestión los benchmarks de “inteligencia” basados en matemáticas o codificación, que pueden estar contaminados o sesgados 

¿Qué implica esto para el futuro de la IA?

  • Transparencia y evaluación rigurosa: Apple marca un estándar al abrir el debate sobre cómo y por qué medimos la “inteligencia” de las máquinas.
  • Diseño versus capacidad: La industria podría estar limitando artificialmente los modelos por diseño, no solo por falta de potencial.
  • Camino hacia AGI: Si los modelos fallan en razonamiento complejo, quizás sea necesario repensar arquitecturas y entrenamientos.

En resumen, Apple no solo critica: propone un giro hacia la evaluación científica de la IA, con un rigor que obligará a las grandes compañías a explicar no solo qué hacen sus modelos, sino cómo piensan (o dejan de hacerlo).

#AppleAI #AIreasoning #AGIdebate #Claude3 #GPT4 #DeepSeek #GoogleGemini #IllusionOfThinking

https://www.ctol-es.com/news/study-challenges-apple-ai-reasoning-limitations

Comments

Deja un comentario