OpenAI s’enfronta a un dur cop en obtenir només un 4 per cent en el nou benchmark ARC-AGI-2

26 març, 2025

Un nou estàndard d’avaluació d’intel·ligència artificial revela la sorprenent ineficàcia dels models més avançats d’OpenAI davant tasques que els humans resolen amb facilitat.

El recent benchmark ARC-AGI-2 ha elevat considerablement les expectatives en l’àmbit de la intel·ligència artificial. Encara que els humans aborden amb facilitat les tasques plantejades, sistemes com els d’OpenAI han mostrat un rendiment alarmantment baix.

François Chollet i el seu equip han llançat aquesta nova versió del benchmark, que, encara que manté el format del seu predecessor ARC-AGI-1, promet ser un indicador més precís de la intel·ligència genuïna dels sistemes. Segons Chollet, es tracta d’una prova dissenyada no per mesurar habilitats memoritzades, sinó la intel·ligència fluida general, plantejant tasques mai vistes abans que resulten senzilles per als humans, però que suposen un veritable repte per a les intel·ligències artificials actuals.

Els desafiaments del nou benchmark per als models d’IA

Els resultats inicials són desalentadors. Models avançats com GPT-4.5, Claude 3.7 Sonnet i Gemini 2 han registrat un rendiment del zero per cent. Aquells models que emprauen raonament bàsic, com Claude 3.7 Sonnet Thinking i R1, barely alcanzan entre zero i un per cent.

Particularment notable és la caiguda d’OpenAI amb el seu model o3-low, que va passar d’un 75.7 per cent en ARC-AGI-1 a aproximadament un 4 per cent en aquesta nova avaluació. Similarment, l’equip guanyador del ARC Prize 2024, Team ARChitects, va experimentar una disminució dràstica, baixant d’un 53.5 per cent a un 3 per cent.

Per altra banda, alguns models, com o3-high, encara no han estat àmpliament avaluats o depenen de projeccions, la qual cosa suggereix que el seu rendiment real podria ser millor del que s’ha documentat fins ara.

La nova mètrica d’eficiència en l’avaluació

ARC-AGI-2 introdueix un enfocament novedós en incloure una mètrica d’eficiència. Aquest benchmark ara no només mesura la capacitat de resolució de problemes, sinó també l’eficiència amb què s’utilitza aquesta capacitat. El cost es converteix en un criteri inicial, permetent comparacions directes entre el rendiment humà i el de la IA.

La bretxa d’eficiència és evident: mentre que un panell d’experts humans resol el 100 per cent de les tasques amb un cost aproximat de 17 dòlars per tasca, el model o3-low d’OpenAI gasta prop de 200 dòlars per tasca per aconseguir només un 4 per cent de precisió.

Un nou repte amb l’ARC Prize 2025

El llançament del benchmark ARC-AGI-2 s’acompanya de l’ARC Prize 2025, que compta amb un pool de premis d’un milió de dòlars. El premi principal de 700,000 dòlars s’atorgarà a qui aconsegueixi un 85 per cent de precisió en un conjunt d’avaluació privat. A més, hi ha recompenses garantides de 125,000 dòlars i altres 175,000 dòlars en premis per anunciar.

Aquest concurs es durà a terme a Kaggle des de març fins a novembre de 2025. A diferència de la taula de classificació pública a arcprize.org, les regles de Kaggle limiten els participants a una despesa d’aproximadament 50 dòlars en poder computacional per enviament i prohibeixen l’ús d’APIs d’internet.

Encara que el benchmark original ARC-AGI-1, llançat el 2019, va ser considerat un dels tests més exigents de la IA, els desenvolupadors aclaren que cap d’aquestes versions indica l’assoliment d’una intel·ligència general artificial. Ambdós benchmarks poden romandre sense solució sense que s’assoleixi l’AGI.

Deixa el primer comentari