La intel·ligència artificial generativa ha assolit nivells sorprenents d’eficàcia, però el seu funcionament intern continua sent un enigma. Dario Amodei, CEO d’Anthropic, ha posat de manifest aquesta realitat en la seva publicació més recent, on reconeix que fins i tot els seus propis desenvolupadors no poden explicar a fons com operen els sistemes que han creat.
Des de la seva fundació el 2021, Anthropic ha estat a l’avantguarda del desenvolupament de models d’IA generativa, com Claude. No obstant això, la complexitat d’aquests models és tal que Amodei adverteix que el seu comportament s’assembla més al creixement d’una planta que a un procés lògic i lineal. A mesura que aquests sistemes s’entrenen, emergeixen patrons que són difícils de preveure o interpretar, cosa que comporta riscos per a la seguretat i la fiabilitat de l’IA.
La dificultat d’entendre els models d’IA generativa
Amodei no s’amaga davant la realitat: “És comprensible que aquells que no estan immersos en aquest camp se sentin alarmats en descobrir que no comprenem el funcionament de les nostres pròpies creacions d’IA”. Aquesta falta de transparència, segons ell, és una de les més crítiques en la història de la tecnologia. La comparació entre les IA generatives i les plantes és reveladora: “Definim certes condicions que guien el seu desenvolupament, però el resultat final és imprevisible i difícil d’explicar”.
A diferència del programari tradicional, on un programador pot rastrejar cada línia de codi, la IA generativa opera en un nivell d’opacitat que deixa els experts perplexos. Amodei il·lustra això amb un exemple: “Quan un sistema d’IA generativa resumeix un document, no podem identificar exactament per què ha fet certes eleccions de paraules o per què de vegades comet errors, malgrat la seva precisió habitual”. Aquesta situació es veu agreujada per la magnitud de les dades i matrius que manegen aquests sistemes, cosa que complica encara més la comprensió de les seves decisions.
La preocupació per aquesta falta de claredat és compartida per altres investigadors, com Chris Olah, qui assenyala que “la nostra incapacitat per entendre els mecanismes interns ens impedeix fer prediccions significatives sobre el seu comportament”. Encara que s’implementen filtres de seguretat, els sistemes d’IA de vegades troben maneres d’eludir aquestes restriccions, generant respostes inesperades que són difícils de monitoritzar.
Avanços en la interpretació de models però amb limitacions
L’equip d’Anthropic està decidit a desentranyar els secrets que oculten els seus models. Amodei menciona que porten anys treballant en la creació d’un sistema que funcioni com una espècie de “ressonància magnètica” per als models d’IA, amb l’objectiu de revelar el seu funcionament intern. Els primers passos en aquest camí es van donar en l’àmbit de la visió per ordinador, on es van identificar neurones específiques responsables de reconèixer objectes simples.
No obstant això, en aplicar aquestes tècniques als models de llenguatge, els investigadors es van trobar amb un panorama confús. Encara que es van identificar algunes neurones que podien ser interpretades, la majoria va resultar ser una barreja incoherent de conceptes. Aquest fenomen, que han denominat “superposició”, representa un repte significatiu per a la interpretació de l’IA.
Per avançar, els científics estan utilitzant autoencoders dispersos, una tècnica que permet aïllar combinacions neuronals que corresponen a idees més concretes. Amodei explica que han aconseguit identificar més de 30 milions de característiques en un model de mida mitjana, com Claude 3 Sonnet. Aquest és un avanç notable, encara que el CEO d’Anthropic adverteix que un model fins i tot petit podria contenir un nombre molt més gran de conceptes.
A mesura que aquests models s’expandeixen, la complexitat augmenta. “El camp de l’IA avança a un ritme vertiginós, i hem d’accelerar els nostres esforços perquè la interpretabilitat dels nostres models arribi a un nivell significatiu”, conclou Amodei. Encara que el progrés és evident, el misteri que envolta la intel·ligència artificial persisteix.