Az Apple kutatói A gondolkodás illúziója: Az érvelő modellek erősségeinek és korlátainak megértése a problémaösszetettség szemüvegén keresztül címmel publikáltak egy tanulmányt, amely a nagy nyelvi modelleket (LLM) és az úgynevezett nagy érvelő modelleket (LRM) teszteli kontrollált feladatokon. A kutatás során olyan klasszikus logikai feladatokat használtak, mint a Hanoi tornya vagy a Blocks World, ahelyett hogy standard matematikai teszteket alkalmaztak volna, amelyek gyakran szenvednek az adatszennyeződés problémájától. A kutatás azt vizsgálja, hogy a legújabb mesterséges intelligencia modellek – különösen az úgynevezett Large Reasoning Models (LRM-ek), mint például Claude, DeepSeek-R1, o3-mini – valóban képesek-e érdemi lépésről lépésre történő érvelésre, vagy csak ezt a látszatot keltik
A meglepő eredmények
Az eredmények szerint az LRM-ek az LLM-eknél jobban teljesítenek közepes összetettségű feladatoknál, de ugyanúgy összeomlanak a bonyolultabb problémáknál. Ami még aggasztóbb: ahogy a feladatok nehezebbé válnak, ezek a „gondolkodó” modellek kevesebbet kezdenek gondolkodni, nem pedig többet. Konkrét példák:
- A Hanoi tornya feladatban a modellek 7-8 korong után kudarcot vallanak.
- Akkor sem javul jelentősen a teljesítményük, ha megkapják a pontos megoldási algoritmust.
- A bonyolultság növekedésével a modellek csökkentik saját belső „gondolkodási” folyamataikat.
Mintafelismerés vs. valós gondolkodás
A tanulmány legfontosabb megállapítása az, hogy ezek a modellek nem valódi érvelést folytatnak, hanem lépésről lépésre bővítik a nyelvi modellek következtetési mintáit, egyre összetettebb formában. Ez pedig lényeges különbség a valós szimbolikus következtetéshez és tervezéshez képest. Az Apple kutatói hangsúlyozzák, hogy az LRM-ek képtelenek explicit algoritmusokat használni és következetlenül érvelnek a rejtvényekben. Ez azt jelenti, hogy a probléma nem az edzési idő vagy adat hiányában rejlik, hanem abban, hogy ezek a rendszerek alapvetően nem rendelkeznek a lépésről lépésre történő algoritmikus logika reprezentálásának és végrehajtásának képességével.
Miért fontos ez?
Bár ezek az eredmények nem teljesen újak a gépi tanulás kutatói számára, a széleskörű nyilvánosság számára fontos felismeréseket hoznak:
- Segít világossá tenni, hogy mit tudnak és mit nem tudnak ezek a rendszerek.
- Amikor „gondolkodásnak” nevezünk ezeket a folyamatokat, hajlamosak vagyunk olyan feladatokkal megbízni őket, amelyekre nem képesek.
- A hallucinációk és logikai hibák nem csupán érdekes furcsaságok, hanem veszélyes vakfoltok lehetnek.
A jövő
A tanulmány segít megérteni, hogy mik ezek a modellek és mik azok a feladatok, amelyekre nem képesek. Ez a tisztánlátás régóta esedékes volt, és kritikus fontosságú a mesterséges intelligencia felelős fejlesztése és alkalmazása szempontjából. Az Apple kutatása így nemcsak technikai szempontból értékes, hanem azért is, mert hozzájárul a közvélemény pontosabb megértéséhez arról, hogy hol tartunk valójában a mesterséges intelligencia fejlesztésében.