Quelques jours avant la WWDC 2025, Apple a pris une initiative inhabituelle : au lieu d’annoncer de nouvelles fonctions, la firme a publié une étude intitulée “The Illusion of Thinking”, qui remet en question la capacité des « modèles de raisonnement » (LRM) à réellement penser face à des problèmes complexes. Des modèles d’OpenAI, Anthropic (Claude 3.7 Sonnet), DeepSeek et Google Gemini ont été testés sur des casse-têtes logiques comme la Tour de Hanoï ou le problème de traversée de rivière. Résultat : sur les tâches simples, des LLM standards comme GPT‑4 s’en sortent mieux. À difficulté modérée, les LRM prennent l’avantage… mais quand la complexité augmente, tous s’effondrent avec une précision quasi nulle 🧠📉.
Les chercheurs ont observé qu’avec des tâches plus complexes, les LRM réduisent leur “effort de raisonnement” malgré des ressources disponibles. Un phénomène qu’ils ont nommé “effondrement complet de la précision” : les modèles, au lieu de réfléchir davantage, abandonnent avant la fin.
Anthropic, OpenAI et Google ont réagi, affirmant que ces modèles posent déjà les bases d’agents capables d’utiliser des outils, de prendre des décisions et de résoudre des tâches de plus en plus complexes. Les “effondrements” observés seraient dus à des limites de sécurité pour éviter des réponses trop longues ou incohérentes 🧪🛑.
Apple a veillé à éviter tout biais de données en concevant des énigmes inédites, sans solution connue à l’entraînement, et en évaluant non seulement les réponses finales mais aussi les étapes intermédiaires du raisonnement 🧬🧠.
Cette approche relance une question fondamentale : les LRM raisonnent-ils vraiment ou ne suivent-ils que des schémas appris jusqu’à un certain point ? Pour certains, cette étude remet en cause la route vers l’intelligence artificielle générale (AGI) et révèle peut-être une limite structurelle.
Mais Apple ne se limite pas à la critique : l’entreprise appelle à une évaluation plus scientifique et rigoureuse de l’IA, en remettant en cause des benchmarks fondés uniquement sur les maths ou le code, souvent biaisés ou contaminés.
Qu’est-ce que cela implique pour l’avenir de l’IA ?
- Transparence et rigueur : Apple élève le débat sur la manière dont on mesure l’« intelligence » des machines.
- Conception ou capacité ? : L’industrie pourrait brider les IA par architecture plutôt que par limite réelle.
- Vers l’AGI : Si les modèles échouent en raisonnement complexe, il faudra peut-être repenser leurs bases.
En résumé, Apple ne se contente pas de critiquer : elle propose un changement de cap vers une IA plus explicable, mesurée avec rigueur scientifique et capable d’expliquer non seulement ce qu’elle fait, mais aussi comment elle pense (ou pas) 🧠🔍.
#AppleIA #RaisonnementIA #AGIdebat #Claude3 #GPT4 #DeepSeek #GoogleGemini
https://www.ctol-es.com/news/study-challenges-apple-ai-reasoning-limitations
Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.