Jean-Rémi King, líder de l’equip de Brain & AI a Meta, ha compartit les seves perspectives sobre com la intel·ligència artificial i la neurociència s’entrellacen en una recent entrevista. Encara que a primera vista el camí d’una xarxa social a la investigació neurològica pot semblar insòlit, la connexió és més profunda del que sembla.
Des de la seva creació fa més d’una dècada per Yann LeCun, el laboratori de recerca fonamental en intel·ligència artificial (FAIR) ha crescut i diversificat el seu enfocament. No només s’ha limitat a la visió per computadora i el processament del llenguatge natural; també ha buscat incorporar diverses disciplines, incloent la neurociència, per enriquir l’enfocament en el desenvolupament d’intel·ligència artificial. King, qui es va unir a l’equip amb la intenció d’ampliar aquesta diversitat, ha destacat que la intersecció entre el seu camp i la IA ha existit des de l’inici del desenvolupament de les xarxes neuronals artificials.
Explorant Noves Dimensions del Razonament
La investigació de King ha portat a qüestionar conceptes fonamentals com el raonament i el pensament. Segons ell, la intel·ligència artificial està desafiant les nostres nocions tradicionals sobre aquests temes, suggerint que podria ser necessari reavaluar el que entenem per raonament en funció de les capacitats actuals dels algoritmes d’aprenentatge profund.
La pregunta que sorgeix és: com definir el que significa realment pensar?
La fascinació de King pel cervell humà i el seu funcionament no és recent. Des dels seus estudis de grau en intel·ligència artificial i ciència cognitiva fa més de 20 anys, ha estat immers en la recerca de principis generals que puguin donar forma a la nostra capacitat de raonar, i com aquests podrien aplicar-se a algoritmes d’IA. A mesura que el camp de l’aprenentatge profund ha evolucionat, ha tornat a aquesta frontera per investigar com aquests principis podrien influir en el desenvolupament de sistemes intel·ligents.
Un concepte recurrent en la seva feina és el codi predictiu. Aquest marc, que ha estat objecte d’interès durant anys, representa una manera d’entendre com els sistemes poden aprendre a anticipar el món, construint representacions intermèdies útils al minimitzar els errors de predicció. No obstant això, King assenyala que, malgrat la promesa d’aquesta teoria, existeix un repte significatiu a l’hora de traduir idees generals en models empíricament verificables.
El dilema de la predicció a llarg termini també ha sorgit en les seves investigacions. King argumenta que la capacitat de preveure esdeveniments no només en el curt termini, sinó també en marcs temporals més amplis, és fonamental i extraordinàriament difícil d’assolir amb els models actuals. Aquest repte s’estén a múltiples modalitats, com imatges i vídeos, on la predicció del que podria succeir en el futur es torna encara més complexa.
Encara que s’han aconseguit avenços en models multimodals, King destaca que encara no han aconseguit superar els models unimodals en les seves tasques específiques. Això planteja la pregunta: és la integració de diferents tipus de dades realment necessària per millorar el rendiment? Malgrat l’evidència que suggereix que el llenguatge pot desenvolupar-se de manera relativament independent dels sentits, el potencial de combinar diferents modalitats continua sent una àrea rica per a la investigació futura.
Pel que fa al progrés en la IA, King observa que, malgrat els avenços significatius, encara falta un gran salt conceptual similar a la introducció del model transformer el 2017. Encara que hi ha hagut millores en l’eficiència de la inferència i en la compressió de models grans, la dependència actual d’arquitectures de maquinari costoses i energèticament ineficients planteja interrogants sobre la sostenibilitat futura d’aquests sistemes. Estem realment a prop d’assolir l’eficiència del cervell humà, que opera amb un consum energètic molt menor?
Els esforços de King i el seu equip a Meta reflecteixen un desig d’entendre millor com les representacions neuronals poden ser replicades en sistemes artificials. En comparar l’activitat cerebral durant la lectura o l’escolta de llenguatge amb les activacions internes de models d’IA, han trobat que l’efectivitat d’un model en la seva tasca està correlacionada amb la seva similitud a les representacions cerebrals. No obstant això, aquesta relació no és sempre consistent i continua sent una àrea activa de recerca.