La startup china Moonshot AI ha presentado Kimi-VL, un modelo de inteligencia artificial de código abierto que promete revolucionar la forma en que interactuamos con imágenes, texto y video. Con un diseño notablemente compacto de solo 2.8 mil millones de parámetros, este sistema se posiciona como una alternativa eficiente frente a modelos más grandes, sin sacrificar la calidad de los resultados.
Kimi-VL destaca en tareas complejas, gracias a su arquitectura de mezcla de expertos, la cual activa solamente una parte del modelo según la tarea que se le asigne. Esto le permite manejar documentos extensos y razonamientos complicados. ¿Te imaginas poder procesar un libro completo o un extenso guion de video sin perder el hilo? Kimi-VL lo hace posible con su ventana de contexto de hasta 128.000 tokens, superando las capacidades de otros sistemas en múltiples pruebas de rendimiento.
Rendimiento y capacidades únicas en procesamiento de imágenes
El modelo se luce especialmente en el análisis de imágenes. A diferencia de otros sistemas que requieren dividir gráficos complejos o capturas de pantalla en partes más pequeñas, Kimi-VL es capaz de interpretarlos en su totalidad. Además, su destreza no se limita a imágenes estáticas; también puede resolver problemas matemáticos presentados de forma gráfica y descifrar notas manuscritas. En una de sus pruebas, analizó un manuscrito a mano, identificando referencias sobre Albert Einstein y explicando su relevancia en un contexto más amplio.
Pero eso no es todo. Kimi-VL también actúa como asistente digital, capaz de navegar por interfaces gráficas y automatizar tareas digitales. Moonshot AI ha afirmado que en pruebas donde se le solicitó navegar por menús de un navegador o modificar configuraciones, Kimi-VL superó a varios sistemas, incluyendo el conocido GPT-4o.
Un modelo compacto que desafía a gigantes de la IA
Cuando se compara Kimi-VL con otros modelos de código abierto como Qwen2.5-VL-7B y Gemma-3-12B-IT, su eficiencia es evidente. Según Moonshot AI, este modelo ha liderado en 19 de 24 benchmarks, a pesar de su menor cantidad de parámetros activos. En pruebas como MMBench-EN y AI2D, ha demostrado igualar o incluso superar puntuaciones típicas de modelos comerciales más grandes.
El éxito de Kimi-VL se atribuye a su enfoque de entrenamiento, que va más allá del ajuste fino supervisado convencional, incorporando aprendizaje por refuerzo. Un variante especializada, conocida como Kimi-VL-Thinking, ha sido diseñada para abordar pasos de razonamiento más largos, lo que mejora su desempeño en tareas que requieren un pensamiento más complejo, tales como la resolución de problemas matemáticos.
A pesar de sus logros, Kimi-VL enfrenta algunas limitaciones. Su tamaño actual puede restringir su rendimiento en tareas que demandan un uso intensivo del lenguaje o que son altamente específicas. Además, aún existen desafíos técnicos asociados con la gestión de contextos extremadamente largos, a pesar de su amplia ventana de contexto.
De cara al futuro, Moonshot AI tiene planes de desarrollar versiones más grandes del modelo, incorporar más datos de entrenamiento y mejorar el ajuste fino, con el objetivo a largo plazo de crear un sistema que sea «potente y eficiente en recursos», apto para su uso en entornos de investigación e industria.