El nou model Gemma 3-27b-it-qat-q4_0-gguf de Google destaca per la seva capacitat d’operar amb eficiència en maquinari local i dispositius mòbils. Aquesta innovació es basa en un enfocament d’entrenament especialitzat que permet a les variants de Gemma 3 funcionar sense problemes en GPUs de consum, com les utilitzades en videojocs, fent que el seu ús estigui a l’abast de més usuaris.
Fins ara, els models Gemma 3 originals requerien configuracions d’alt rendiment, utilitzant potents NVIDIA H100 i precisió BFloat16. Això els mantenia allunyats de la majoria d’usuaris. No obstant això, la clau d’aquest canvi rau en la quantització, un procés que redueix dràsticament l’ús de memòria.
La quantització implica emmagatzemar pesos i activacions utilitzant menys bits, sovint 8, 4 o fins i tot només 2, en lloc dels habituals 16 o 32. Això no només dóna lloc a models més petits, sinó que també els fa més ràpids, ja que els números de menor precisió són més àgils en el seu processament.
Optimització de l’ús de memòria gràcies a l’entrenament quantitzat
Amb Gemma 3, Google implementa l’Entrenament Conscient de Quantització (QAT), una tècnica que estableix condicions de menor precisió durant el procés d’entrenament. En simular amplades de bit reduïdes des del principi, el model s’adapta a aquestes limitacions, la qual cosa redueix la caiguda de rendiment habitual en operar amb menor precisió.
Els estalvis en memòria són notables. Per exemple, el model de 27B passa de requerir 54 GB de VRAM a només 14.1 GB en format int4. El model de 12B es redueix de 24 GB a 6.6 GB. Fins i tot les variants més petites se’n beneficien: el model de 4B ocupa 2.6 GB, mentre que el de 1B necessita únicament 0.5 GB.
Google assegura que, gràcies al QAT, aquests models són «robustos a la quantització», tot i que no ha presentat resultats de referència actualitzats que recolzin aquesta afirmació. Aquests models són compatibles amb motors d’inferència comuns, facilitant la seva integració en fluxos de treball existents.
Hi ha suport natiu per a plataformes com Ollama, LM Studio i MLX, entre d’altres. Eines com llama.cpp i gemma.cpp també ofereixen suport per als models quantitzats de Gemma en format GGUF.
A més de les versions oficials de Google, la comunitat també està explorant variacions sota el banner de «Gemmaverse», on s’experimenta amb la quantització post-entrenament per ajustar la mida, la velocitat i la qualitat dels models.