Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora
Openai adiciona a um mercado de voz de IA cada vez mais competitivo para empresas com sua Novo modelo, GPT-REALTIMEque segue instruções complexas e com vozes “que parecem mais naturais e expressivas”.
À medida que a Voice AI continua a crescer, e os clientes encontram casos de uso, como chamadas de atendimento ao cliente ou tradução em tempo actual, o mercado de vozes de IA que também oferecem uma segurança corporativa está esquentando. O Openai afirma que seu novo modelo fornece uma voz mais humana, mas ainda precisa competir contra empresas como o Elevenlabs.
O modelo estará disponível na API em tempo actual, que a empresa também disponibilizou em geral. Juntamente com o modelo GPT-Realtime, o OpenAI também lançou novas vozes na API, que chama de Cedar e Marin, e atualizou suas outras vozes para trabalhar com o modelo mais recente.
O Openai disse em uma transmissão ao vivo que trabalhou com seus clientes que estão criando aplicativos de voz para treinar o GPT-REALTIME e “alinhar cuidadosamente o modelo a Evalas, construídas em cenários do mundo actual, como suporte ao cliente e tutoria acadêmica”.
Ai escala atinge seus limites
Capitões de energia, custos crescentes de token e atrasos de inferência estão remodelando a IA corporativa. Junte -se ao nosso salão exclusivo para descobrir como são as principais equipes:
- Transformando energia em uma vantagem estratégica
- Arquitetagem Inferência eficiente para ganhos reais de rendimento
- Desbloqueando o ROI competitivo com sistemas de IA sustentáveis
Prenda seu lugar para ficar à frente:
A empresa elogiou a capacidade do modelo de criar vozes emotivas e com sotações naturais que também se alinham com a forma como os desenvolvedores se formam com a tecnologia.
Modelos de fala a fala
O modelo opera dentro de uma estrutura de fala a fala, permitindo que ele entenda os prompts falados e responda vocalmente. Os modelos de fala a fala são ideais para respostas em tempo actual, onde uma pessoa, normalmente um cliente, interage com um aplicativo.
Por exemplo, um cliente deseja devolver alguns produtos e chama uma plataforma de atendimento ao cliente. Eles poderiam estar conversando com um assistente de voz da IA que responde a perguntas e solicitações como se estivessem conversando com um humano.
Em uma transmissão ao vivo, os clientes do Openai T-Mobile Apresentou um agente movido a voz da IA que ajuda as pessoas a encontrar novos telefones. Outro cliente, a plataforma de busca imobiliária Zillowexibiu um agente que ajuda alguém a restringir um bairro para encontrar o lugar perfeito.
O Openai disse que o GPT-Realtime é o “modelo de voz mais avançado e pronto para produção”. Como seus outros modelos de voz, ele pode mudar de linguagem no meio da frase. No entanto, os pesquisadores do Openai observaram que o GPT-Realtime pode seguir instruções mais complexas como “falar enfaticamente com sotaque francês”.
Mas o GPT-Realtime enfrenta a concorrência de outros modelos que muitas marcas já usam. Elevenlabs Liberou a conversa AI 2.0 em maio. Soundhound Parceira com as franquias de quick meals para um drive-thru da AI. Startup de IA enfática Hume Lançou seu modelo Evi 3, que permite que os usuários gerem versões de IA de sua própria voz.
À medida que as empresas descobrem vários casos de uso para a IA de voz, fornecedores de modelos ainda mais gerais que oferecem LLMs multimodais estão fazendo um caso para si. Mistral lançou seu novo modelo voxtral, afirmando que funcionaria bem com a tradução em tempo actual. Google está aprimorando seus recursos de áudio e ganhando popularidade com um recurso de áudio no Notebooklm que converte notas de pesquisa em um podcast.
Melhor instrução a seguir
Openai disse que o GPT-Realtime é mais inteligente e entende melhor o áudio nativo, incluindo a capacidade de capturar pistas não verbais como risadas ou suspiros.
O benchmarking usando o Massive Bench Audio Eval mostrou o modelo pontuando 82,8% em precisão, em comparação com o modelo anterior, que obteve 65,6%. O OpenAI não forneceu números testando o GPT-REALTILT contra modelos de seus concorrentes.
O OpenAI se concentrou em melhorar os recursos de seguidores de instruções do modelo, garantindo que o modelo siga as direções de maneira mais eficaz. O novo modelo atinge uma pontuação de 30,5% na referência de áudio Multichallenge. Os engenheiros também aprimoraram a chamada de função para que o GPT-REALTIME possa acessar as ferramentas corretas.
Atualizações da API em tempo actual
Para apoiar o novo modelo e aprimorar como as empresas integram os recursos de IA em tempo actual em seus aplicativos, o OpenAI adicionou vários novos recursos à API em tempo actual.
Agora ele pode suportar o MCP e reconhecer entradas de imagem, permitindo que ele informe os usuários sobre o que ele vê em tempo actual. Este é um recurso que o Google enfatizou fortemente durante sua apresentação do Undertaking Astra no ano passado.
A API em tempo actual também pode lidar com o protocolo de iniciação de sessão (SIP). O SIP conecta aplicativos a telefones como uma rede de telefonia pública ou telefones de mesa, abrindo mais casos de uso do Contact Middle. Os usuários também podem salvar e reutilizar os avisos na API.
Até agora, as pessoas estão impressionadas com o modelo, embora estes ainda sejam testes iniciais de um modelo que foi lançado recentemente.
O OpenAI reduziu os preços do GPT-Realtime em 20%, para US $ 32 por milhão de tokens de entrada de áudio e US $ 64 para tokens de saída de áudio.
avots