Waarom slimme AI’s toch domme fouten maken

Denkende AI

En wat dat ons leert over écht denken

AI wordt slimmer. Tenminste, zo lijkt het. Je typt een vraag in ChatGPT en je krijgt binnen een paar seconden een doordacht antwoord. Sommige AI-modellen leggen zelfs hun gedachtegang stap voor stap uit. Het lijkt net alsof ze echt aan het denken zijn.

Maar… zijn ze dat ook?

Een nieuw onderzoek van Apple getiteld “The Illusion of Thinking” laat zien dat dit beeld niet helemaal klopt. Sterker nog: hoe slimmer de AI lijkt, hoe groter de kans dat we ons vergissen in wat het model werkelijk doet.

In deze blog laat ik je zien wat ze in dit onderzoek ontdekte, waarom dat belangrijk is en wat jij hiermee moet in je dagelijkse werk.

Wat zijn ‘denkende’ AI-modellen?

AI-systemen zoals ChatGPT zijn taalmodellen. Ze voorspellen het volgende woord op basis van alles wat ervoor kwam. Met deze techniek lukt het ze om indrukwekkende teksten te maken, complexe vragen te beantwoorden en zelfs logische puzzels op te lossen.

De nieuwste generatie modellen gaat nog een stap verder. Ze denken stap-voor-stap. Ze schrijven hun redenering eerst uit voordat ze een antwoord geven. Dat heet Chain-of-Thought reasoning.

Denk aan een leerling die eerst zijn tussenstappen opschrijft bij een wiskundesom. Deze AI doet dat ook. Daarom noemen we ze Large Reasoning Models (LRMs).

Voorbeelden van zulke modellen zijn:

  • Claude 3.7 Sonnet Thinking
  • DeepSeek-R1
  • OpenAI’s o3

Maar presteren deze denkende modellen ook echt beter? En kunnen ze omgaan met complexiteit?

Het antwoord is verrassend.

Het experiment: AI aan de puzzeltafel

Om te testen of deze modellen echt kunnen denken, gebruikten de onderzoekers géén standaard wiskundevragen of programmeeropdrachten.

Waarom niet?

Omdat die vaak vervuild zijn: modellen hebben ze al gezien tijdens training. Dan lijkt het alsof ze redeneren, maar eigenlijk herhalen ze gewoon bekende patronen.

Daarom gebruikten de onderzoekers vier puzzels die je moeilijk kunt “faken”:

  1. Tower of Hanoi: schijfjes verplaatsen volgens strikte regels
  2. Checker Jumping: rode en blauwe pionnen moeten van plek wisselen
  3. River Crossing: mensen en hun begeleiders moeten veilig oversteken
  4. Blocks World: blokken herschikken naar een einddoel

Het mooie aan deze puzzels is, dat je precies kunt instellen hoe moeilijk ze zijn. En je kunt goed controleren of een oplossing klopt.

De belangrijkste bevindingen

De resultaten waren opvallend en zeker ook confronterend.

1. Er zijn drie denkzones

De prestaties van AI-modellen vallen uiteen in drie niveaus van complexiteit:

  • Lage complexiteit:
     
    Standaardmodellen (zonder denkstappen) presteren beter én efficiënter dan denkende modellen.
  • Gemiddelde complexiteit:
     
    Denkmodellen worden beter. Ze gebruiken meer tokens, verkennen meer opties, en vinden vaker de juiste oplossing.
  • Hoge complexiteit:
     
    Alles stort in. Zowel denkers als niet-denkers falen compleet. De accuraatheid daalt naar nul.

Kortom: er is een grens aan hoe moeilijk de puzzel mag zijn. Daarna is het game over, ook voor de ‘denkende’ modellen.

2. Minder denken bij meer complexiteit?!

Je zou verwachten dat een AI meer moeite doet als de puzzel moeilijker wordt.

Helaas is dat een fout redenering gebleken.

De modellen beginnen enthousiast met redeneren. Maar zodra de complexiteit van de puzzel een bepaalde grens overschrijdt, denken ze juist minder na.

Ze gebruiken minder tokens. Ze stoppen sneller met zoeken. En dat terwijl ze nog ruimte genoeg hadden om door te gaan.

Dat is gek. En het laat zien dat er een structurele beperking zit in hoe deze modellen omgaan met moeilijke taken.

3. Overdenken en verdwalen

Bij simpele puzzels gebeurt er ook iets geks:

Het model vindt al vroeg de juiste oplossing… maar blijft dan doorgaan. Het onderzoekt nog tien foute opties. Resultaat: meer tekst, meer kosten, meer ruis.

Bij moeilijkere puzzels gebeurt het tegenovergestelde:

Het model begint met foute stappen. Pas later (soms te laat) komt de juiste oplossing in zicht, of uiteindelijk helemaal niet.

Je ziet dus duidelijk dat AI geen goed werkend intern kompas heeft om te bepalen of het op de juiste weg is. Het gaat dus aan het dwalen.

4. Zelfs als je het goede algoritme geeft, faalt het model

De onderzoekers gingen nog een stap verder door te testten wat er gebeurt als het model gewoon de oplossing gegeven wordt. Letterlijk de stap-voor-stap instructies naar de oplossing.

Bijvoorbeeld: “Los Tower of Hanoi op volgens dit algoritme.”

Zelfs dan gaat het alsnog fout.

Dat is zorgwekkend. Het betekent dat het model moeite heeft om logische stappen te volgen, laat staan dat het model in staat is om ze zelf te bedenken.

Wat betekent dit voor jou?

Je hoeft geen AI-specialist te zijn om hier iets van te leren. Dit onderzoek raakt namelijk aan een belangrijk misverstand:

AI denkt niet.
 
Het herkent patronen.

En dat is prima, zolang je dat doorhebt en het ook zo gebruikt. Maar het wordt gevaarlijk als je erop gaat vertrouwen alsof het een redeneerpartner is. Alsof het in staat is echte besluiten te nemen.

Dus: gebruik AI slim, maar weet waar de grens ligt. En vertrouw vooral niet blind op “uitgebreide denkstappen” of “stap voor stap redenering”. Dat is vaak pure schijn.

De wijze lessen uit dit onderzoek

  • Wil je AI inzetten in je processen?
     
    Laat het geen black box zijn. Test het met je eigen complexe cases en staar je niet blind op de AI gegenereerde uitkomst.
  • Werk je met klanten of teams die AI gebruiken?
     
    Leg dit verschil uit. Help mensen snappen wanneer AI denkt… en wanneer het dat alleen maar lijkt te doen. Je weet nu dat AI dus eigenlijk niet denkt en vooral statistische voorspellingen doen.
  • Bouw je zelf AI-toepassingen?
     
    Laat je niet verblinden door Chain-of-Thought. Richt je op betrouwbaarheid, controleerbaarheid en simpele logica. Zorg dat wat je AI laat doen, je ook zelf kunt doen om te controleren of de resultaten wel kloppen.

Tot slot

AI is krachtig. Maar het is geen brein. Het denkt niet. Het doet alsof.

En net als bij mensen die doen alsof ze luisteren, moet je goed opletten of ze echt begrijpen wat je bedoelt.

Want we hebben geen behoefte aan nóg een illusie.
 We hebben behoefte aan duidelijk denken.

Echt denken.