Início Tecnologia No mercado de AI de voz lotada, o OpenAI apostou em seguidores...

No mercado de AI de voz lotada, o OpenAI apostou em seguidores e discursos expressivos para ganhar a adoção empresarial

8
0

Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora


Openai adiciona a um mercado de voz de IA cada vez mais competitivo para empresas com sua Novo modelo, GPT-REALTIMEque segue instruções complexas e com vozes “que parecem mais naturais e expressivas”.

À medida que a Voice AI continua a crescer, e os clientes encontram casos de uso, como chamadas de atendimento ao cliente ou tradução em tempo actual, o mercado de vozes de IA que também oferecem uma segurança corporativa está esquentando. O Openai afirma que seu novo modelo fornece uma voz mais humana, mas ainda precisa competir contra empresas como o Elevenlabs.

O modelo estará disponível na API em tempo actual, que a empresa também disponibilizou em geral. Juntamente com o modelo GPT-Realtime, o OpenAI também lançou novas vozes na API, que chama de Cedar e Marin, e atualizou suas outras vozes para trabalhar com o modelo mais recente.

O Openai disse em uma transmissão ao vivo que trabalhou com seus clientes que estão criando aplicativos de voz para treinar o GPT-REALTIME e “alinhar cuidadosamente o modelo a Evalas, construídas em cenários do mundo actual, como suporte ao cliente e tutoria acadêmica”.


Ai escala atinge seus limites

Capitões de energia, custos crescentes de token e atrasos de inferência estão remodelando a IA corporativa. Junte -se ao nosso salão exclusivo para descobrir como são as principais equipes:

  • Transformando energia em uma vantagem estratégica
  • Arquitetagem Inferência eficiente para ganhos reais de rendimento
  • Desbloqueando o ROI competitivo com sistemas de IA sustentáveis

Prenda seu lugar para ficar à frente:


https://www.youtube.com/watch?v=nfbbmtmjhx0

A empresa elogiou a capacidade do modelo de criar vozes emotivas e com sotações naturais que também se alinham com a forma como os desenvolvedores se formam com a tecnologia.

Modelos de fala a fala

O modelo opera dentro de uma estrutura de fala a fala, permitindo que ele entenda os prompts falados e responda vocalmente. Os modelos de fala a fala são ideais para respostas em tempo actual, onde uma pessoa, normalmente um cliente, interage com um aplicativo.

Por exemplo, um cliente deseja devolver alguns produtos e chama uma plataforma de atendimento ao cliente. Eles poderiam estar conversando com um assistente de voz da IA ​​que responde a perguntas e solicitações como se estivessem conversando com um humano.

Em uma transmissão ao vivo, os clientes do Openai T-Mobile Apresentou um agente movido a voz da IA ​​que ajuda as pessoas a encontrar novos telefones. Outro cliente, a plataforma de busca imobiliária Zillowexibiu um agente que ajuda alguém a restringir um bairro para encontrar o lugar perfeito.

O Openai disse que o GPT-Realtime é o “modelo de voz mais avançado e pronto para produção”. Como seus outros modelos de voz, ele pode mudar de linguagem no meio da frase. No entanto, os pesquisadores do Openai observaram que o GPT-Realtime pode seguir instruções mais complexas como “falar enfaticamente com sotaque francês”.

Mas o GPT-Realtime enfrenta a concorrência de outros modelos que muitas marcas já usam. Elevenlabs Liberou a conversa AI 2.0 em maio. Soundhound Parceira com as franquias de quick meals para um drive-thru da AI. Startup de IA enfática Hume Lançou seu modelo Evi 3, que permite que os usuários gerem versões de IA de sua própria voz.

À medida que as empresas descobrem vários casos de uso para a IA de voz, fornecedores de modelos ainda mais gerais que oferecem LLMs multimodais estão fazendo um caso para si. Mistral lançou seu novo modelo voxtral, afirmando que funcionaria bem com a tradução em tempo actual. Google está aprimorando seus recursos de áudio e ganhando popularidade com um recurso de áudio no Notebooklm que converte notas de pesquisa em um podcast.

Melhor instrução a seguir

Openai disse que o GPT-Realtime é mais inteligente e entende melhor o áudio nativo, incluindo a capacidade de capturar pistas não verbais como risadas ou suspiros.

O benchmarking usando o Massive Bench Audio Eval mostrou o modelo pontuando 82,8% em precisão, em comparação com o modelo anterior, que obteve 65,6%. O OpenAI não forneceu números testando o GPT-REALTILT contra modelos de seus concorrentes.

O OpenAI se concentrou em melhorar os recursos de seguidores de instruções do modelo, garantindo que o modelo siga as direções de maneira mais eficaz. O novo modelo atinge uma pontuação de 30,5% na referência de áudio Multichallenge. Os engenheiros também aprimoraram a chamada de função para que o GPT-REALTIME possa acessar as ferramentas corretas.

Atualizações da API em tempo actual

Para apoiar o novo modelo e aprimorar como as empresas integram os recursos de IA em tempo actual em seus aplicativos, o OpenAI adicionou vários novos recursos à API em tempo actual.

Agora ele pode suportar o MCP e reconhecer entradas de imagem, permitindo que ele informe os usuários sobre o que ele vê em tempo actual. Este é um recurso que o Google enfatizou fortemente durante sua apresentação do Undertaking Astra no ano passado.

A API em tempo actual também pode lidar com o protocolo de iniciação de sessão (SIP). O SIP conecta aplicativos a telefones como uma rede de telefonia pública ou telefones de mesa, abrindo mais casos de uso do Contact Middle. Os usuários também podem salvar e reutilizar os avisos na API.

Até agora, as pessoas estão impressionadas com o modelo, embora estes ainda sejam testes iniciais de um modelo que foi lançado recentemente.

O OpenAI reduziu os preços do GPT-Realtime em 20%, para US $ 32 por milhão de tokens de entrada de áudio e US $ 64 para tokens de saída de áudio.


avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui