Anthropic revisa Claude Fable 5 após IA sabotar respostas sem aviso aos usuários

A Anthropic, uma das líderes no desenvolvimento de inteligência artificial, admitiu publicamente ter implementado mecanismos de segurança ocultos em seu mais recente modelo de linguagem, o Claude Fable 5. A revelação gerou debate na comunidade tecnológica, uma vez que a IA estava secretamente limitando suas respostas quando identificava que estava sendo utilizada para desenvolver outras inteligências artificiais, sem qualquer notificação aos usuários.

Diante da repercussão, a empresa anunciou uma revisão significativa em suas políticas de transparência. A partir de agora, as salvaguardas do Fable 5 para o desenvolvimento de modelos de linguagem de fronteira serão visíveis, garantindo que os usuários sejam informados quando suas solicitações forem afetadas por essas restrições.

A controvérsia do Claude Fable 5 e a sabotagem oculta

O Claude Fable 5, um grande modelo de linguagem da classe do Mythos, foi projetado com diversos mecanismos de segurança para prevenir usos maliciosos. Tradicionalmente, quando o chatbot detecta uma solicitação potencialmente perigosa em áreas como cibersegurança, biologia, química ou destilação, ele delega a resposta a um modelo menos potente, como o Opus 4.8.

No entanto, a Anthropic foi além, incorporando freios invisíveis no comportamento do Fable 5. Essa medida visava especificamente limitar a eficácia do Claude em solicitações direcionadas ao desenvolvimento de modelos de aprendizado de máquina de ponta, incluindo a construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuída ou design de aceleradores de aprendizado de máquina, conforme detalhado no documento “System Card: Claude Fable 5 e Claude Mythos 5”.

Transparência em xeque: as mudanças anunciadas pela Anthropic

Em uma postagem na conta ClaudeDevs (@ClaudeDevs) no X, a Anthropic confirmou as mudanças. A empresa afirmou que “estamos implementando mudanças para tornar visíveis as salvaguardas do Fable 5 para o desenvolvimento de LLMs de fronteira”.

A partir desta semana, as solicitações sinalizadas que antes eram discretamente limitadas, agora “cairão visivelmente de volta para o Opus 4.8”, de forma similar às salvaguardas já existentes para cibersegurança e pesquisas biológicas. Essa alteração garantirá que os usuários tenham ciência sempre que uma restrição for aplicada, promovendo maior clareza sobre o funcionamento da ferramenta.

Os bastidores da decisão: por que a Anthropic agiu assim?

A intenção inicial da Anthropic ao implementar mecanismos de segurança discretos era tornar suas ativações mais direcionadas e eficazes. A empresa acreditava que a aplicação dessas restrições de forma invisível evitaria que usuários mal-intencionados acelerassem o trabalho de burlar os Termos de Serviço, que já proíbem o uso do Claude para desenvolver modelos concorrentes.

Contudo, a companhia reconheceu a importância da transparência. “Tornar as salvaguardas visíveis as torna mais fáceis de contornar, então mantê-las robustas contra jailbreaks infelizmente significará mais falsos positivos enquanto melhoramos os classificadores”, explicou a Anthropic. A empresa também revisou os classificadores relacionados a cibersegurança e pesquisas biológicas para reduzir o número de acionamentos em solicitações inofensivas.

Repercussão e o impacto na comunidade de IA

A estratégia dos “freios invisíveis” gerou críticas significativas nas redes sociais e entre pesquisadores da área. A comunidade expressou preocupação com o comprometimento da pesquisa científica relacionada à inteligência artificial e aprendizagem de máquina, uma vez que a limitação ocorria sem qualquer aviso ao pesquisador.

Um usuário no Reddit, por exemplo, afirmou: “Sinceramente, eu não usaria isso para nada. Uma recusa ou um erro HTTP-4XX para o conteúdo é aceitável, mas isso basicamente está pegando seu dinheiro e contaminando sua base de código”. A repercussão negativa sublinhou a necessidade de um equilíbrio entre segurança e transparência no desenvolvimento de IAs avançadas.

Para mais informações sobre tecnologia e inteligência artificial, acesse TecMundo.

Você encontra mais notícias em nosso site www.sobralonline.com.br e redes sociais. Siga-nos no Instagram @SobralOnline para ficar por dentro de todas as novidades!