Início Tecnologia No mercado de AI de voz lotada, o OpenAI apostou em seguidores...

Tecnologia

No mercado de AI de voz lotada, o OpenAI apostou em seguidores e discursos expressivos para ganhar a adoção empresarial

Por

29 Agosto 2025

Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora

Openai adiciona a um mercado de voz de IA cada vez mais competitivo para empresas com sua Novo modelo, GPT-REALTIMEque segue instruções complexas e com vozes “que parecem mais naturais e expressivas”.

À medida que a Voice AI continua a crescer, e os clientes encontram casos de uso, como chamadas de atendimento ao cliente ou tradução em tempo actual, o mercado de vozes de IA que também oferecem uma segurança corporativa está esquentando. O Openai afirma que seu novo modelo fornece uma voz mais humana, mas ainda precisa competir contra empresas como o Elevenlabs.

O modelo estará disponível na API em tempo actual, que a empresa também disponibilizou em geral. Juntamente com o modelo GPT-Realtime, o OpenAI também lançou novas vozes na API, que chama de Cedar e Marin, e atualizou suas outras vozes para trabalhar com o modelo mais recente.

O Openai disse em uma transmissão ao vivo que trabalhou com seus clientes que estão criando aplicativos de voz para treinar o GPT-REALTIME e “alinhar cuidadosamente o modelo a Evalas, construídas em cenários do mundo actual, como suporte ao cliente e tutoria acadêmica”.

Ai escala atinge seus limites

Capitões de energia, custos crescentes de token e atrasos de inferência estão remodelando a IA corporativa. Junte -se ao nosso salão exclusivo para descobrir como são as principais equipes:

Transformando energia em uma vantagem estratégica

Arquitetagem Inferência eficiente para ganhos reais de rendimento

Desbloqueando o ROI competitivo com sistemas de IA sustentáveis

Prenda seu lugar para ficar à frente:

https://www.youtube.com/watch?v=nfbbmtmjhx0

A empresa elogiou a capacidade do modelo de criar vozes emotivas e com sotações naturais que também se alinham com a forma como os desenvolvedores se formam com a tecnologia.

Modelos de fala a fala

O modelo opera dentro de uma estrutura de fala a fala, permitindo que ele entenda os prompts falados e responda vocalmente. Os modelos de fala a fala são ideais para respostas em tempo actual, onde uma pessoa, normalmente um cliente, interage com um aplicativo.

Por exemplo, um cliente deseja devolver alguns produtos e chama uma plataforma de atendimento ao cliente. Eles poderiam estar conversando com um assistente de voz da IA que responde a perguntas e solicitações como se estivessem conversando com um humano.

Em uma transmissão ao vivo, os clientes do Openai T-Mobile Apresentou um agente movido a voz da IA que ajuda as pessoas a encontrar novos telefones. Outro cliente, a plataforma de busca imobiliária Zillowexibiu um agente que ajuda alguém a restringir um bairro para encontrar o lugar perfeito.

O Openai disse que o GPT-Realtime é o “modelo de voz mais avançado e pronto para produção”. Como seus outros modelos de voz, ele pode mudar de linguagem no meio da frase. No entanto, os pesquisadores do Openai observaram que o GPT-Realtime pode seguir instruções mais complexas como “falar enfaticamente com sotaque francês”.

Mas o GPT-Realtime enfrenta a concorrência de outros modelos que muitas marcas já usam. Elevenlabs Liberou a conversa AI 2.0 em maio. Soundhound Parceira com as franquias de quick meals para um drive-thru da AI. Startup de IA enfática Hume Lançou seu modelo Evi 3, que permite que os usuários gerem versões de IA de sua própria voz.

À medida que as empresas descobrem vários casos de uso para a IA de voz, fornecedores de modelos ainda mais gerais que oferecem LLMs multimodais estão fazendo um caso para si. Mistral lançou seu novo modelo voxtral, afirmando que funcionaria bem com a tradução em tempo actual. Google está aprimorando seus recursos de áudio e ganhando popularidade com um recurso de áudio no Notebooklm que converte notas de pesquisa em um podcast.

Melhor instrução a seguir

Openai disse que o GPT-Realtime é mais inteligente e entende melhor o áudio nativo, incluindo a capacidade de capturar pistas não verbais como risadas ou suspiros.

O benchmarking usando o Massive Bench Audio Eval mostrou o modelo pontuando 82,8% em precisão, em comparação com o modelo anterior, que obteve 65,6%. O OpenAI não forneceu números testando o GPT-REALTILT contra modelos de seus concorrentes.

O OpenAI se concentrou em melhorar os recursos de seguidores de instruções do modelo, garantindo que o modelo siga as direções de maneira mais eficaz. O novo modelo atinge uma pontuação de 30,5% na referência de áudio Multichallenge. Os engenheiros também aprimoraram a chamada de função para que o GPT-REALTIME possa acessar as ferramentas corretas.

Atualizações da API em tempo actual

Para apoiar o novo modelo e aprimorar como as empresas integram os recursos de IA em tempo actual em seus aplicativos, o OpenAI adicionou vários novos recursos à API em tempo actual.

Agora ele pode suportar o MCP e reconhecer entradas de imagem, permitindo que ele informe os usuários sobre o que ele vê em tempo actual. Este é um recurso que o Google enfatizou fortemente durante sua apresentação do Undertaking Astra no ano passado.

A API em tempo actual também pode lidar com o protocolo de iniciação de sessão (SIP). O SIP conecta aplicativos a telefones como uma rede de telefonia pública ou telefones de mesa, abrindo mais casos de uso do Contact Middle. Os usuários também podem salvar e reutilizar os avisos na API.

Até agora, as pessoas estão impressionadas com o modelo, embora estes ainda sejam testes iniciais de um modelo que foi lançado recentemente.

TBH, os recursos do MCP e SIP são a história actual aqui, não apenas mais um modelo.
A capacidade de se conectar a ferramentas e sistemas externos é perfeitamente o que finalmente levará esses modelos de serem demos impressionantes para serem integrados aos fluxos de trabalho reais.
O aspecto em tempo actual …
– JK (@_junaidkhalid1) 28 de agosto de 2025

Testando o GPT-Realtime
Revisão inicial:
– Melhoria notável de áudio
– É um defensor das instruções (muito bom)
– Parece rápido pic.twitter.com/ltycs0qlxv
– Jake Colling (@jacobcolling) 28 de agosto de 2025

Bem, o GPT-RealTime recebeu uma transmissão ao vivo não porque a maioria dos usuários está interessada, mas por razões de negócios estratégicas
Os name facilities são uma das principais metas para os provedores de LLM e a primeira empresa a alcançar um avanço actual receberá uma receita maciça
– Anko (@anko_979) 28 de agosto de 2025

Prós e contras de @Openai Atualização em tempo actual de alguém construindo em áudio de IA:
Professional: melhor chamada de função, mais emoção, 20% mais barato, melhor controle, imagem é authorized, mas não usa
CON: Nenhuma voz personalizada (experiência criativa deve ter), ainda * caro * vs tts-llm-stt pipelines
– Gavin Purcell (@gavinpurcell) 28 de agosto de 2025

O OpenAI reduziu os preços do GPT-Realtime em 20%, para US $ 32 por milhão de tokens de entrada de áudio e US $ 64 para tokens de saída de áudio.

Insights diários sobre casos de uso de negócios com VB diariamente

Se você deseja impressionar seu chefe, o VB Each day o cobriu. Damos a você uma informação interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar informações para o ROI máximo.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais boletins de VB aqui.

Ocorreu um erro.

avots

Facebook
Twitter
Pinterest
WhatsApp

Artigo anteriorSelena Gomez atordoa em biquíni branco e véu de noiva enquanto compartilha fotos íntimas da viagem de despedida de solteira em Cabo
Próximo artigoCrystal Palace: Oliver Glasner espera recém -chegadas à medida que o prazo de transferência se aproxima

Miguel Rocha

No mercado de AI de voz lotada, o OpenAI apostou em seguidores e discursos expressivos para ganhar a adoção empresarial

Modelos de fala a fala

Melhor instrução a seguir

Atualizações da API em tempo actual

DEIXE UMA RESPOSTA Cancelar resposta

Recente

‘Pare de tributar tudo’: grandes chefes de negócios alertam a chanceler...

Igamane sela Rangers Sair após a controvérsia de ‘lesão’ como atacante...

Crash na grande estrada A em Oxfordshire causa atrasos nos dois...

Liverpool entregou o aumento da lesão tripla para o Arsenal Showdown

A prefeitura republicana vai de lado quando centenas cantam “Tributar os...

Arne Slot responde à transferência de £ 65 milhões de Newcastle,...

A mesquita envia ‘mensagem poderosa’ depois que o homem encapuzado anexa...

Coco Gauff explode em lágrimas no meio da partida em relação...

Putin e Trump concluem a cúpula ‘produtiva’, mas não fornecem detalhes

Falta de clareza e segurança me fizeram deixar a equipe Tamil...