La startup xinesa Moonshot AI ha presentat Kimi-VL, un model d’intel·ligència artificial de codi obert que promet revolucionar la manera en què interactuem amb imatges, text i vídeo. Amb un disseny notablement compacte de només 2.8 mil milions de paràmetres, aquest sistema es posiciona com una alternativa eficient davant models més grans, sense sacrificar la qualitat dels resultats.
Kimi-VL destaca en tasques complexes, gràcies a la seva arquitectura de barreja d’experts, la qual activa només una part del model segons la tasca que se li assigni. Això li permet gestionar documents extensos i raonaments complicats. T’imagines poder processar un llibre complet o un extens guió de vídeo sense perdre el fil? Kimi-VL ho fa possible amb la seva finestra de context de fins a 128.000 tokens, superant les capacitats d’altres sistemes en múltiples proves de rendiment.
Rendiment i capacitats úniques en processament d’imatges
El model es llueix especialment en l’anàlisi d’imatges. A diferència d’altres sistemes que requereixen dividir gràfics complexos o captures de pantalla en parts més petites, Kimi-VL és capaç d’interpretar-los en la seva totalitat. A més, la seva destresa no es limita a imatges estàtiques; també pot resoldre problemes matemàtics presentats de manera gràfica i descifrar notes manuscrites. En una de les seves proves, va analitzar un manuscrit a mà, identificant referències sobre Albert Einstein i explicant la seva rellevància en un context més ampli.
Però això no és tot. Kimi-VL també actua com a assistent digital, capaç de navegar per interfícies gràfiques i automatitzar tasques digitals. Moonshot AI ha afirmat que en proves on se li va sol·licitar navegar per menús d’un navegador o modificar configuracions, Kimi-VL va superar diversos sistemes, incloent el conegut GPT-4o.
Un model compacte que desafia a gegants de la IA
Quan es compara Kimi-VL amb altres models de codi obert com Qwen2.5-VL-7B i Gemma-3-12B-IT, la seva eficiència és evident. Segons Moonshot AI, aquest model ha liderat en 19 de 24 benchmarks, malgrat la seva menor quantitat de paràmetres actius. En proves com MMBench-EN i AI2D, ha demostrat igualar o fins i tot superar puntuacions típiques de models comercials més grans.
El èxit de Kimi-VL s’atribueix al seu enfocament d’entrenament, que va més enllà de l’ajustament fi supervisat convencional, incorporant aprenentatge per reforç. Una variant especialitzada, coneguda com Kimi-VL-Thinking, ha estat dissenyada per abordar passos de raonament més llargs, la qual cosa millora el seu rendiment en tasques que requereixen un pensament més complex, com ara la resolució de problemes matemàtics.
Malgrat els seus èxits, Kimi-VL s’enfronta a algunes limitacions. La seva mida actual pot restringir el seu rendiment en tasques que demanden un ús intensiu del llenguatge o que són altament específiques. A més, encara existeixen desafiaments tècnics associats amb la gestió de contextos extremadament llargs, malgrat la seva àmplia finestra de context.
De cara al futur, Moonshot AI té plans de desenvolupar versions més grans del model, incorporar més dades d’entrenament i millorar l’ajustament fi, amb l’objectiu a llarg termini de crear un sistema que sigui «potent i eficient en recursos», apte per al seu ús en entorns de recerca i indústria.