O DeepMind também aborda algo de meta-funcionário sobre a IA. Os pesquisadores dizem que uma IA poderosa nas mãos erradas pode ser perigosa se for usada para acelerar a pesquisa de aprendizado de máquina, resultando na criação de modelos de IA mais capazes e irrestritos. O DeepMind diz que isso pode “ter um efeito significativo na capacidade da sociedade de se adaptar e governar modelos poderosos de IA”. O DeepMind classifica isso como uma ameaça mais severa do que a maioria dos outros CCLs.
A IA desalinhada
A maioria das mitigações de segurança da IA segue a suposição de que o modelo está pelo menos tentando seguir as instruções. Apesar dos anos de alucinação, os pesquisadores não conseguiram tornar esses modelos completamente confiáveis ou precisos, mas é possível que os incentivos de um modelo possam ser distorcidos, acidentalmente ou de propósito. Se uma IA desalinhada começa a trabalhar ativamente contra os seres humanos ou ignorar as instruções, esse é um novo tipo de problema que vai além da simples alucinação.
A versão 3 da estrutura de segurança da fronteira apresenta uma “abordagem exploratória” para entender os riscos de uma IA desalinhada. Já houve casos documentados de modelos generativos de IA envolvidos em enganos e comportamentos desafiadores, e os pesquisadores do DeepMind expressam preocupação de que pode ser difícil monitorar esse tipo de comportamento no futuro.
Uma IA desalinhada pode ignorar as instruções humanas, produzir saídas fraudulentas ou se recusar a parar de operar quando solicitado. Por enquanto, há uma maneira bastante direta de combater esse resultado. Os modelos de raciocínio simulado mais avançado de hoje produzem saídas “ScratchPad” durante o processo de pensamento. Os desenvolvedores são aconselhados a usar um monitor automatizado para verificar duas vezes a saída da cadeia de pensamento do modelo para obter desalinhamento ou engano de evidências.
O Google diz que esse CCL pode se tornar mais grave no futuro. A equipe acredita que os modelos nos próximos anos podem evoluir para ter um raciocínio simulado eficaz sem produzir uma cadeia de pensamento verificável. Portanto, o seu superintendente Guardrail não seria capaz de espiar o processo de raciocínio desse modelo. Para essa IA avançada teórica, pode ser impossível descartar completamente que o modelo está trabalhando contra os interesses de seu operador humano.
A estrutura ainda não tem uma boa solução para esse problema. O DeepMind diz que está pesquisando possíveis mitigações para uma IA desalinhada, mas é difícil saber quando ou se esse problema se tornará realidade. Esses modelos de “pensamento” só são comuns há cerca de um ano, e ainda há muita coisa que não sabemos sobre como eles chegam a uma determinada saída.