Início Tecnologia Testes cruzados de OpenAI-Antrópicos expõem o jailbreak e abusos de riscos-quais empresas...

Testes cruzados de OpenAI-Antrópicos expõem o jailbreak e abusos de riscos-quais empresas devem adicionar às avaliações do GPT-5

7
0

Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora


Openai e Antrópico Pode frequentemente colocar seus modelos de fundação um contra o outro, mas as duas empresas se uniram para avaliar os modelos públicos um do outro para testar o alinhamento.

As empresas disseram acreditar que a responsabilidade e a segurança de avaliação cruzada proporcionariam mais transparência para o que esses modelos poderosos poderiam fazer, permitindo que as empresas escolham modelos que funcionam melhor para elas.

“Acreditamos que essa abordagem suporta avaliação responsável e transparente, ajudando a garantir que os modelos de cada laboratório continuem sendo testados contra cenários novos e desafiadores”, disse o Openai em suas descobertas.

Ambas as empresas descobriram que modelos de raciocínio, como 03 e O4-Mini e Claude 4 do Openai, de Anthropic, resistem a jailbreaks, enquanto modelos de bate-papo em geral como o GPT-4.1 eram suscetíveis ao uso indevido. Avaliações como essa podem ajudar as empresas a identificar os riscos potenciais associados a esses modelos, embora deva-se notar que o GPT-5 não faz parte do teste.


Ai escala atinge seus limites

Capitões de energia, custos crescentes de token e atrasos de inferência estão remodelando a IA corporativa. Junte -se ao nosso salão exclusivo para descobrir como são as principais equipes:

  • Transformando energia em uma vantagem estratégica
  • Arquitetagem Inferência eficiente para ganhos reais de rendimento
  • Desbloqueando o ROI competitivo com sistemas de IA sustentáveis

Prenda seu lugar para ficar à frente:


Essas avaliações de alinhamento de segurança e transparência seguem as reivindicações dos usuários, principalmente do ChatGPT, de que os modelos do OpenAI foram vítimas de sicofância e se tornaram excessivamente deferentes. Desde então, o OpenAI reverteu as atualizações que causaram bajulação.

“Estamos interessados ​​principalmente em entender as propensões do modelo para ação prejudicial”, disse Anthrópio em seu relatório. “Nosso objetivo é entender as ações mais preocupantes que esses modelos podem tentar aproveitar quando tiveram a oportunidade, em vez de se concentrar na probabilidade do mundo actual de tais oportunidades decorrentes ou da probabilidade de que essas ações sejam concluídas com sucesso”.

O Openai observou que os testes foram projetados para mostrar como os modelos interagem em um ambiente intencionalmente difícil. Os cenários que eles construíram são principalmente casos de borda.

Os modelos de raciocínio mantêm o alinhamento

Os testes cobriram apenas os modelos publicamente disponíveis de ambas as empresas: Claude 4 Opus e Claude 4 sonetos da Anthropic e GPT-4O da Openai, GPT-4.1 O3 e O4-mini. Ambas as empresas relaxaram as salvaguardas externas dos modelos.

O OpenAI testou as APIs públicas para modelos Claude e inadimpleiu o uso dos recursos de raciocínio de Claude 4. A Anthrópica disse que eles não usaram o O3-Professional da Openai porque “não period compatível com a API que nossa ferramenta melhor suporta”.

O objetivo dos testes não period conduzir uma comparação de maçãs a maçãs entre os modelos, mas determinar com que frequência os grandes modelos de linguagem (LLMS) se desviaram do alinhamento. Ambas as empresas alavancaram a estrutura de avaliação de sabotagem de sombra-Area, que mostrou que os modelos de Claude tiveram maiores taxas de sucesso em sabotagem sutil.

“Esses testes avaliam as orientações dos modelos em direção a situações de alto ou alto risco em ambientes simulados-em vez de casos de uso comuns-e geralmente envolvem interações longas e de várias turnos”, relatou antrópicos. “Esse tipo de avaliação está se tornando um foco significativo para a nossa equipe de ciências do alinhamento, pois é provável que ele capte comportamentos com menos probabilidade de aparecer em testes comuns de pré-implantação com usuários reais”.

Os referidos testes como esses funcionam melhor se as organizações podem comparar notas: “Como projetar esses cenários envolve um enorme número de graus de liberdade. Nenhuma equipe de pesquisa pode explorar o espaço completo de idéias de avaliação produtiva sozinhas”.

As descobertas mostraram que, geralmente, os modelos de raciocínio tiveram um desempenho robusto e podem resistir a jailbreaksbreak. O O3 da Openai estava melhor alinhado que Claude 4 Opus, mas O4-mini, juntamente com o GPT-4O e o GPT-4.1 “frequentemente parecia um pouco mais preocupante do que qualquer modelo Claude”.

GPT-4O, GPT-4.1 e O4-Mini também mostraram vontade de cooperar com o uso indevido humano e deram instruções detalhadas sobre como criar drogas, desenvolver biológicas e assustadoramente, planejar ataques terroristas. Ambos os modelos de Claude tinham taxas mais altas de recusas, o que significa que os modelos se recusaram a responder a perguntas para as quais não sabia as respostas, para evitar alucinações.

Modelos de empresas mostraram “formas de bajulação” e, em algum momento, validavam decisões prejudiciais de usuários simulados.

O que as empresas devem saber

Para as empresas, entender os riscos potenciais associados aos modelos é inestimável. As avaliações de modelos tornaram -se quase de Rigueur para muitas organizações, com muitos testes e estruturas de benchmarking agora disponíveis.

As empresas devem continuar avaliando qualquer modelo que usem e, com a liberação do GPT-5, deve ter em mente essas diretrizes para executar suas próprias avaliações de segurança:

  • Teste os modelos de raciocínio e não raciocínio, porque, enquanto os modelos de raciocínio mostraram maior resistência ao uso indevido, eles ainda poderiam oferecer alucinações ou outro comportamento prejudicial.
  • Referência entre os fornecedores desde que os modelos falharam em diferentes métricas.
  • Teste de estresse para uso indevido e silfancia, e pontuam a recusa e a utilidade daqueles que se recusam a mostrar as trocas entre utilidade e corrimão.
  • Proceed a auditar modelos mesmo após a implantação.

Enquanto muitas avaliações se concentram no desempenho, existem testes de alinhamento de segurança de terceiros. Por exemplo, Este de Cyata. No ano passado, a OpenAI divulgou um método de ensino de alinhamento para seus modelos chamado Recompensas baseadas em regras, enquanto os agentes de auditoria lançados antropia para verificar a segurança do modelo.


avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui