Início Tecnologia A pesquisa do OpenAI sobre modelos de IA deliberadamente está selvagem

A pesquisa do OpenAI sobre modelos de IA deliberadamente está selvagem

12
0

 

De vez em quando, os pesquisadores das maiores empresas de tecnologia soltam uma bomba. Houve tempo que o Google disse que seu último chip quântico indica que vários universos. Ou quando o Antrópico deu ao seu agente da IA ​​Claudius uma máquina de venda automática de lanches para correr e ficou louco, chamando a segurança das pessoas e insistindo que era humana.

Nesta semana, foi a vez do OpenAi levantar nossas sobrancelhas coletivas.

Openai divulgado na segunda -feira, algumas pesquisas que explicaram Como está impedindo os modelos de IA de “planejar”. É uma prática em que uma “Ai se comporta de uma maneira na superfície enquanto esconde seus verdadeiros objetivos”, OpenAI definido em seu tweet sobre a pesquisa.

No artigo, conduzido com a Apollo Research, os pesquisadores foram um pouco mais longe, comparando a IA planejando um corretor de ações humanas que violam a lei para ganhar o máximo de dinheiro possível. Os pesquisadores, no entanto, argumentaram que a maioria dos “esquemas” da IA ​​não era tão prejudicial. “As falhas mais comuns envolvem formas simples de engano – por exemplo, fingindo ter concluído uma tarefa sem realmente fazê -lo”, escreveram eles.

O artigo foi publicado principalmente para mostrar que “alinhamento deliberativo”-a técnica anti-esquema que eles estavam testando-funcionou bem.

Mas também explicou que os desenvolvedores de IA não descobriram uma maneira de treinar seus modelos para não planejar. Isso ocorre porque esse treinamento pode realmente ensinar o modelo a planejar ainda melhor para evitar ser detectado.

“Um grande modo de falha de tentar” treinar “é simplesmente ensinar o modelo para planejar mais cuidadosamente e secretamente”, escreveram os pesquisadores.

Evento do TechCrunch

São Francisco
|
27-29 de outubro de 2025

Talvez a parte mais surpreendente seja que, se um modelo entende que está sendo testado, pode fingir que não está planejando passar no teste, mesmo que ainda esteja planejando. “Os modelos geralmente se tornam mais conscientes de que estão sendo avaliados. Essa consciência situacional pode reduzir o esquema, independentemente do alinhamento genuíno”, escreveram os pesquisadores.

Não é novidade que os modelos de IA mentirão. Até agora, a maioria de nós já experimentou alucinações de IA, ou o modelo dando uma resposta com confiança a um aviso que simplesmente não é verdadeiro. Mas as alucinações estão basicamente apresentando adivinhação com confiança, conforme a pesquisa do Openai divulgada no início deste mês documentado.

Scheming é outra coisa. É deliberado.

Mesmo essa revelação – que um modelo enganará deliberadamente os seres humanos – não é novo. Pesquisa da Apollo primeiro publicou um artigo em dezembro Documentando como cinco modelos planejavam quando receberam instruções para atingir uma meta “a todo custo”.

O que é? Boas notícias de que os pesquisadores viram reduções significativas no esquema usando “alinhamento deliberativo” “. Essa técnica envolve ensinar ao modelo uma “especificação anti-esquema” e, em seguida, fazer o modelo revisá-lo antes de agir. É um pouco como fazer crianças pequenas repetirem as regras antes de permitir que brincassem.

Os pesquisadores do Openai insistem que a mentira que eles pegaram com seus próprios modelos, ou mesmo com o ChatGPT, não é tão sério. Como o co-fundador da Openai, Wojciech Zaremba, disse a Maxwell Zeff, do TechCrunch, ao pedir melhor teste de segurança: “Este trabalho foi feito nos ambientes simulados, e achamos que ele pode, no entanto, pode ser que você possa, hoje, não vimos um tipo de esquema de conseqüência em que o tráfego de produção é bem-sucedido. “Sim, eu fiz um ótimo trabalho.” E isso é apenas a mentira. Existem algumas formas mesquinhas de engano que ainda precisamos abordar. ”

O fato de a IA modelar de vários jogadores enganar os humanos intencionalmente é, talvez, compreensível. Eles foram construídos por seres humanos, para imitar humanos e (de lado os dados sintéticos) na maioria das vezes treinados em dados produzidos por humanos.

Também é bokers.

Embora todos tenhamos experimentado a frustração de uma tecnologia de desempenho ruim (pensando em você, impressoras domésticas do passado), quando foi a última vez que seu software não-AI mentiu deliberadamente para você? Sua caixa de entrada já fabricou e -mails por conta própria? Seu CMS registrou novos clientes em potencial que não existiam para preencher seus números? Seu aplicativo Fintech criou suas próprias transações bancárias?

Vale a pena refletir sobre isso, pois o mundo corporativo entra em direção a um futuro de IA, onde as empresas acreditam que os agentes podem ser tratados como funcionários independentes. Os pesquisadores deste artigo têm o mesmo aviso.

“À medida que as AIs recebem tarefas mais complexas com consequências do mundo real e começam a buscar objetivos mais ambíguos e de longo prazo, esperamos que o potencial de esquemas prejudiciais cresça-para que nossas salvaguardas e nossa capacidade de testar rigorosamente cresçam correspondentemente”, escreveram eles.

avots