OpenAI lansează trei modele audio pentru interacțiuni vocale în timp real

OpenAI a prezentat în această săptămână trei noi modele audio pentru platforma sa dedicată dezvoltatorilor, cu scopul de a transforma agenții software bazați pe voce în sisteme mai conversaționale și capabile să execute sarcini în timp real, potrivit Reuters.

Prin această lansare API, compania care dezvoltă ChatGPT face un pas dincolo de simpla transcriere și conversație text, către agenți AI care pot asculta, traduce și acționa în timpul unor conversații live. Noile modele sunt GPT-Realtime-2, GPT-Realtime-Translate și GPT-Realtime-Whisper.

OpenAI a anunțat că acestea pot fi deja testate în platforma pentru dezvoltatori.

GPT-Realtime-2 este conceput pentru a gestiona cereri mai complexe, pentru a apela instrumente externe, a gestiona întreruperi și a păstra contextul pe durata unor sesiuni vocale extinse.

Al doilea model permite traducerea din peste 70 de limbi în 13 limbi de ieșire și vizează domenii precum suportul pentru clienți, educația și alte aplicații conversaționale.

GPT-Realtime-Whisper oferă conversie live speech-to-text, permițând generarea de subtitrări, notițe de meeting și actualizări de workflow în timp real, pe măsură ce utilizatorul vorbește.

Fii la curent cu tot ce contează în business-ul din România și abonează-te la canalul nostru de Whatsapp Forbes Romania.