OpenAI ha presentat models d’àudio que permeten als desenvolupadors ajustar la manera en què els seus assistents d’IA es comuniquen, oferint una experiència més personalitzada i atractiva.
Els nous models, coneguts com gpt-4o-transcribe i gpt-4o-mini-transcribe, destaquen per la seva capacitat millorada de reconeixement de veu, superant els sistemes anteriors de Whisper en precisió. Què els fa tan especials? El seu rendiment es manté sòlid fins i tot en condicions complicades com accents forts, sorolls de fons i diferents velocitats de parla.
Funcions personalitzables i avenços tècnics
Una de les característiques més cridaneres és el nou model gpt-4o-mini-tts, que permet als desenvolupadors donar instruccions d’estil com «parla com un pirata» o «explica’m això com un conte per dormir«. Això obre un ventall de possibilitats perquè els assistents d’IA s’adaptin a diferents contextos i audiències, brindant una experiència única.
El èxit d’aquests models s’atribueix a un pre-entrenament especialitzat de conjunts de dades d’àudio que han millorat la comprensió del parla, així com a tècniques de destil·lació de models més eficients. A més, la implementació d’aprenentatge per reforç ha estat clau en el reconeixement de veu, utilitzant mètodes d’«auto-joc» per simular patrons de conversa naturals.
Els desenvolupadors ara tenen accés a aquestes innovacions a través de l’API d’OpenAI i poden integrar-les utilitzant el Agents SDK. Per a aplicacions en temps real, es recomana l’ús de la seva Realtime API, que ofereix capacitats de veu a veu.
Limitacions actuals i plans futurs
Encara que aquestes eines són poderoses, actualment només funcionen amb les veus artificials predeterminades d’OpenAI, la qual cosa significa que els desenvolupadors no poden crear veus personalitzades ni clonar veus existents. No obstant això, la companyia ha mencionat que planeja permetre veus personalitzades en el futur, sempre dins d’un marc de seguretat. A més, s’estan avaluant opcions per expandir aquestes capacitats a l’àmbit del vídeo, creant experiències multimodals.
Aquest llançament es produeix després de la introducció al març de 2024 del Voice Engine d’OpenAI, que estava limitat a un grup selecte de productes i clients. El que abans era un model restringit, ara s’ha transformat en les àmplies capacitats multimodals del GPT-4o.