Apple hinterfragt KI-Muster: Können Sprachmodelle wirklich denken? 🤖🧩

Wenige Tage vor der WWDC 2025 überraschte Apple mit einer ungewöhnlichen Veröffentlichung: Statt neuer Features präsentierte das Unternehmen die Studie „The Illusion of Thinking“, die bezweifelt, ob sogenannte „Reasoning Models“ (LRM) komplexe Probleme tatsächlich durchdenken. Modelle von OpenAI, Anthropic (Claude 3.7 Sonnet), DeepSeek und Google Gemini wurden auf klassische Logikrätsel getestet – wie die Türme von Hanoi oder das Flussüberquerungsproblem. Das Ergebnis war verblüffend: Bei einfachen Aufgaben schnitten klassische LLMs wie GPT‑4 besser ab. Auf mittlerem Niveau lagen LRMs vorne, aber bei hoher Komplexität brachen alle Modelle ein – fast keine korrekten Antworten 🧠📉.

Die Forschenden stellten fest, dass LRMs bei zunehmender Schwierigkeit ihr „Denkengagement“ reduzieren, obwohl Ressourcen vorhanden sind. Sie nannten das einen „kompletten Genauigkeitskollaps“, bei dem Modelle das Denken praktisch einstellen und das Rätsel aufgeben.

OpenAI, Anthropic und Google verteidigen sich: Die Modelle seien bereits auf dem Weg, als Agenten Werkzeuge zu nutzen und komplexe Probleme zu lösen. Die beobachteten „Zusammenbrüche“ seien Sicherheitsmechanismen, um überlange oder chaotische Antworten zu vermeiden 🧪🛑.

Apple achtete bei der Bewertung besonders auf saubere Daten: Die Tests enthielten neu entwickelte Aufgaben, deren Lösungen im Training nicht bekannt waren. Bewertet wurden nicht nur die Ergebnisse, sondern auch die Denkschritte dahin 🧬🧩.

Das wirft eine zentrale Frage auf: Denken LRMs wirklich – oder folgen sie nur bekannten Mustern bis zu einem gewissen Grad? Für manche stellt dies die Entwicklung hin zu einer Allgemeinen Künstlichen Intelligenz (AGI) grundlegend infrage.

Apple begnügt sich jedoch nicht mit Kritik. Der Konzern fordert mehr wissenschaftliche Strenge bei der Bewertung von KI und stellt bestehende Benchmarks infrage, die auf Mathematik oder Code basieren und potenziell verzerrt sind.

Was bedeutet das für die Zukunft der KI?

  • Transparenz und Prüfmethodik: Apple setzt neue Maßstäbe bei der Bewertung maschineller „Intelligenz“.
  • Design vs. Fähigkeit: Die Architektur könnte die Modelle stärker begrenzen als ihre eigentliche Leistung.
  • Weg zur AGI: Wenn Modelle bei komplexem Denken versagen, muss man Trainingsmethoden überdenken.

Kurzum: Apple kritisiert nicht nur – das Unternehmen zeigt neue Wege auf für erklärbare, streng geprüfte KI, die erklären muss, was sie denkt – oder eben nicht.

#AppleKI #KIlogik #AGIdebatte #Claude3 #GPT4 #DeepSeek #GoogleGemini 

https://www.ctol-es.com/news/study-challenges-apple-ai-reasoning-limitations

Kommentare

Schreibe einen Kommentar