La colaboración entre Stability AI y ARM ha dado un giro inesperado en el ámbito de la generación de audio, permitiendo que los usuarios de smartphones puedan crear sonidos y efectos sin depender de una conexión a Internet. Esta mejora se ha logrado a través de la optimización del modelo Stable-Audio-Open, diseñado específicamente para funcionar en las CPUs de los móviles.
La eficiencia ha sido notable, ya que el tiempo necesario para generar audio se ha reducido drásticamente, de 240 a solo 8 segundos. Este avance se basa en el uso de una CPU Armv9, lo que significa que ahora es posible producir audio de forma rápida y eficiente sin la necesidad de hardware potente. La integración de tecnologías como la biblioteca KleidiAI de Arm ha sido fundamental para alcanzar este hito.
Una evolución en la generación de audio con menos recursos
Con Stable-Audio-Open, ahora es posible generar audio de calidad directamente desde un dispositivo móvil, lo que marca la primera vez que se logra esto sin requerir cálculos en la nube.
Aunque esta innovación aún no está disponible para el público general, representa un paso significativo en la evolución de las aplicaciones de audio. La pregunta es: ¿cuándo podremos disfrutar de esta funcionalidad en nuestros dispositivos?
Además, Stability AI ha dejado claro que esta mejora es solo el inicio de su colaboración con Arm. El objetivo es ampliar las capacidades de creación de contenido en dispositivos móviles, no solo en audio, sino también en imágenes, videos y modelos 3D. De esta forma, se propone un futuro donde la creación de medios de alta calidad sea accesible para todos, sin la limitación de la conectividad.
El modelo de código abierto Stable-Audio-Open fue presentado en junio de 2024, permitiendo generar sonidos que pueden durar hasta 47 segundos a partir de simples prompts de texto.