Meta ha donat un pas audaz en presentar la seva quarta generació de models d’intel·ligència artificial, coneguda com Llama 4. Aquesta nova sèrie no només es distingeix per la seva nomenclatura innovadora, amb noms com Scout, Maverick i Behemoth, sinó que també promet un rendiment superior al dels models competidors, com GPT-4o d’OpenAI i Gemini 2.0 de Google. Aquest anunci arriba després de l’èxit de descàrregues de la seva generació anterior, que va assolir l’impressionant fita d’un milió de milions. Ara, el gegant de les xarxes socials busca consolidar la seva presència en el terreny de la IA generativa amb un enfocament renovat, deixant de banda la tradicional classificació per paràmetres per adoptar una arquitectura revolucionària.
Una de les crítiques recents cap a Meta es va centrar en l’ús d’obres protegides durant l’entrenament dels seus models. Però, en aquesta ocasió, la companyia es recolza en l’arquitectura MoE (Mixture of Experts), un mètode que divideix un gran model en diverses subxarxes especialitzades anomenades “experts”. Aquest és un enfocament que ha demostrat ser eficaç en altres desenvolupaments d’intel·ligència artificial. Aquest canvi representa un avanç significatiu en la tecnologia, prometent un rendiment que podria canviar les regles del joc en el sector.
Característiques destacades dels nous models
El model més accessible d’aquesta nova sèrie, Llama 4 Scout, compta amb 17 mil milions de paràmetres actius, distribuïts entre 16 experts, el que suma un total de 109 mil milions de paràmetres. El que realment impressiona és la seva capacitat per gestionar fins a 10 milions de tokens simultàniament, una gesta que permet l’anàlisi de documents sencers o la comprensió de bases de codi completes.
Tanmateix, per al seu funcionament, Scout requereix una potent targeta Nvidia H100, la quantificació Int4 de la qual té un cost aproximat de 30.000 euros. Aquest requisit marca un canvi important respecte a la filosofia inicial de Llama, que buscava models accessibles per al maquinari del consumidor massiu.
D’altra banda, el model Llama 4 Maverick es presenta com encara més robust, mantenint els 17 mil milions de paràmetres actius però distribuïts entre 128 experts, resultant en un total de 400 mil milions de paràmetres. Segons Meta, aquest model supera els seus competidors en àrees crítiques com codificació, raonament, capacitats multilingües i anàlisi d’imatges.
La revolució de l’arquitectura MoE
La veritable innovació darrere de Llama 4 és la seva adopció de l’arquitectura MoE. Aquesta tècnica, que divideix el processament de dades en sub-tasques assignades a xarxes especialitzades, ha estat un canvi de paradigma en l’eficiència computacional. A diferència de les arquitectures denses tradicionals, només certs experts s’activen per a cada entrada, el que optimitza l’ús de recursos. Si et sona a xinès, et deixem un vídeo que ho explica de manera senzilla:
La implementació de MoE en els models Llama 4 és notable, amb Maverick utilitzant fins a 128 experts. A més, Meta ha incorporat una tècnica anomenada early fusion, que permet processar text, imatges i vídeos com una seqüència única de tokens des del principi, facilitant una comprensió multimodal més profunda.
En les proves de rendiment, Llama 4 Maverick ha assolit un impressionant score ELO de 1417 en el benchmark LMArena, col·locant-se al costat dels models més avançats del mercat. El model Behemoth, que actualment està en entrenament i compta amb 288 mil milions de paràmetres actius i 16 experts, promet superar altres models com GPT-4.5 i Gemini 2.0 Pro en diverses mètriques científiques. Aquests nous models ja estan disponibles a la plataforma Meta AI i a través d’aplicacions com WhatsApp, Messenger i Instagram Direct en 40 països, tot i que les capacitats multimodals encara són limitades a usuaris angloparlants als EUA.
A pesar d’aquest avanç, persisteixen inquietuds respecte a les restriccions d’ús. Els usuaris i empreses de la Unió Europea no poden utilitzar ni distribuir aquests models, el que sembla estar relacionat amb les regulacions europees sobre intel·ligència artificial. A més, les empreses amb més de 700 milions d’usuaris actius mensuals hauran de sol·licitar una llicència especial a Meta.