OpenAI presenta nous models de veu per millorar l’experiència dels seus chatbots

24 març, 2025

OpenAI ha llançat tres nous models d’àudio que prometen revolucionar la interacció vocal en aplicacions d’intel·ligència artificial.

Amb el recent llançament de tres models d’àudio, la companyia busca potenciar les capacitats dels seus chatbots, oferint experiències més naturals i personalitzades per als usuaris. Què hi ha darrere d’aquesta innovació?

Els nous models, gpt-4o-transcribe, gpt-4o-mini-transcribe i gpt-4o-mini-tts, estan dissenyats per millorar el reconeixement vocal i la sintetització de veu. Aquests avenços permeten als desenvolupadors personalitzar el to de les veus generades, mantenint sempre un control sobre els paràmetres establerts per OpenAI. Aquesta flexibilitat promet aplicacions més intuïtives i adaptades a les necessitats de l’usuari.

Millores en la precisió i personalització de la veu

La implementació d’aquests models representa un fita important en la recerca d’una interacció més fluida i realista entre humans i màquines. Els models gpt-4o-transcribe i gpt-4o-mini-transcribe estan enfocats en la conversió de veu a text, aconseguint una precisió notable fins i tot en situacions desafiadores com accents diversos o entorns sorollosos. Per la seva banda, el gpt-4o-mini-tts s’encarrega de transformar text en veu amb una expressivitat sense precedents.

L’accés a aquestes eines està disponible per a tots els desenvolupadors a través de l’API d’OpenAI, amb preus que oscil·len entre 0,3 i 1,5 cèntims de dòlar per minut, depenent del servei utilitzat. Sens dubte, una inversió que pot transformar radicalment el desenvolupament d’aplicacions de veu.

OpenAI ha implementat importants millores tècniques en aquests models. Utilitzen un preentrenament amb conjunts de dades d’àudio específics i metodologies de destil·lació avançada que optimitzen el rendiment dels models més petits. A més, l’ús d’un enfocament d’aprenentatge per reforç en els models de transcripció busca reduir errors i augmentar la fiabilitat.

Tanmateix, la companyia ha estat cautelosa pel que fa a l’ús de veus sintetitzades. Els nous models actualment estan limitats a veus predefinides per prevenir problemes ètics relacionats amb la suplantació d’identitat vocal. Aquesta decisió es pren en resposta a preocupacions expressades després d’incidents passats que van involucrar la intel·ligència artificial i les veus de figures públiques.

OpenAI ha reafirmat el seu compromís d’avançar en la intel·ligència i precisió dels seus models d’àudio, al mateix temps que garanteix un marc de seguretat. La companyia també està en diàleg continu amb legisladors i creadors per abordar els desafiaments i oportunitats que comporta la veu sintètica.

Per aquells desenvolupadors que ja estan familiaritzats amb els models textuals, OpenAI suggereix la utilització del SDK Agents, que facilita la creació d’agents de veu. Per a aplicacions que requereixen una resposta ràpida, l’API Realtime és l’opció ideal.

Deixa el primer comentari