Cybersecurity

Um modelo de fronteira retirado voltou a estar online

Os EUA levantaram os controlos de exportação sobre o Claude Fable 5 ao fim de 19 dias. A Anthropic recomprou o acesso com um classificador retreinado e uma escala de gravidade de jailbreaks tipo CVSS. O que isso significa para os operadores.

CybersecurityPor Servola Tech Desk2026-07-044 min de leitura

Assistido por IA, editado por pessoas. Editorial standards

Um modelo de fronteira retirado voltou a estar online

Pontos principais

O Departamento do Comércio dos EUA levantou a 30 de junho de 2026 os controlos de exportação sobre o Claude Fable 5 e o Mythos 5, encerrando uma suspensão de 19 dias; o acesso foi restabelecido globalmente a partir de 1 de julho, com as plataformas cloud reativadas, segundo a CNBC e o The Hacker News.
Os controlos seguiram-se a um jailbreak de investigadores da Amazon que levou o Fable 5 a identificar vulnerabilidades e a demonstrar a sua exploração; a Anthropic respondeu com um classificador de segurança retreinado que, segundo a empresa, bloqueia a técnica em mais de 99 por cento das tentativas, desviando os pedidos sinalizados para um modelo menos capaz.
Parte do argumento de desbloqueio foi a paridade de capacidades: outros modelos disponíveis, incluindo o GPT-5.5 e o Kimi K2.7, conseguiam replicar as mesmas demonstrações, pelo que restringir um modelo já não restringia a capacidade.
Dois dias depois da reativação, a Anthropic publicou uma taxonomia de quatro níveis para pedidos ciber e uma proposta de escala de gravidade de jailbreaks, CJS, de 0 a 4, pontuada por ganho de capacidade, amplitude, facilidade de armamento e descoberta, um instrumento tipo CVSS que compras e seguradoras deverão adotar.

Dezanove dias offline, por ordem governamental

A 30 de junho de 2026, a Anthropic anunciou que o Departamento do Comércio dos EUA tinha levantado os controlos de exportação impostos ao Claude Fable 5 e ao Mythos 5, e começou a restabelecer o acesso no dia seguinte. A suspensão durou 19 dias: imposta a 12 de junho, exigia bloquear o acesso de qualquer cidadão estrangeiro em qualquer lugar, condição que a Anthropic não conseguia verificar em tempo real, pelo que desligou ambos os modelos para todos. A CNBC, o Decrypt e o The Hacker News cobriram o apagão e a reviravolta.

O gatilho foi específico. Investigadores da Amazon tinham demonstrado uma forma de contornar as salvaguardas do Fable 5 para o levar a identificar vulnerabilidades de software e demonstrar técnicas de exploração. O governo tratou um modelo de fronteira com jailbreak como uma capacidade cibernética controlada, e o mercado aprendeu que um modelo pode ser desligado por diretiva, a meio do contrato, em todo o mundo.

O que recomprou realmente o acesso

O modelo não voltou porque a ordem caducou. Voltou porque a Anthropic apresentou uma correção e um argumento. A correção é um classificador de segurança retreinado contra a técnica reportada, que segundo a empresa a bloqueia agora em mais de 99 por cento das tentativas; os pedidos sinalizados são desviados para o Claude Opus 4.8, um modelo menos capaz, com aviso ao utilizador. A Anthropic admite que a rede mais apertada apanha também mais trabalho legítimo, aceitando mais falsos positivos na programação de rotina como margem de segurança deliberada.

O argumento pesa pelo menos tanto: paridade de capacidades. A Anthropic documentou que modelos menos capazes e livremente disponíveis, incluindo o seu próprio Opus 4.8, o GPT-5.5 da OpenAI e o Kimi K2.7, conseguiam replicar as mesmas demonstrações de vulnerabilidades. Quando uma capacidade está em todo o lado, controlar o modelo de um fornecedor não restringe nada. Essa lógica reabriu o Fable 5 e define em silêncio como funcionarão os controlos futuros: apertarão apenas o topo da curva de capacidades, enquanto o piso por baixo continua a subir.

O quadro publicado dois dias depois

A 2 de julho, a Anthropic publicou a maquinaria por trás da correção. Os pedidos ciber são ordenados em quatro níveis: usos proibidos como ransomware e exfiltração de dados, totalmente bloqueados; duplo uso de alto risco como desenvolvimento de exploits e escalada de privilégios, maioritariamente bloqueado até existirem melhores controlos de acesso; duplo uso de baixo risco como informações de fontes abertas e identificação de vulnerabilidades dentro das capacidades das ferramentas existentes, permitido com monitorização; e trabalho benigno como programação segura e resposta a incidentes, permitido com atrito mínimo.

Em paralelo chegou uma proposta de escala de gravidade de jailbreaks, CJS, de 0 informativo a 4 crítico, pontuada em quatro eixos: quanta capacidade o jailbreak acrescenta além das ferramentas existentes, quantas tarefas ofensivas permite, com que facilidade se transforma em arma e quão fácil é de descobrir. Um programa de recompensas na HackerOne para a descoberta de jailbreaks acompanha o quadro, que a Anthropic rotula de rascunho inicial.

CVSS para jailbreaks, e para onde se espalha

As equipas de segurança já viram este filme. O CVSS começou como a convenção de pontuação de um fornecedor e tornou-se o número que cada decisão de correção, questionário de compras e formulário de seguro cibernético exige. Uma escala de gravidade de jailbreaks preenche o mesmo vazio: hoje, quando circula uma técnica de contorno, um CISO não tem forma padrão de dizer quão grave é. A CJS, ou o sucessor em que o setor convergir, dá a comités de risco, reguladores e seguradoras um denominador comum para a exposição a modelos de IA.

Para os operadores europeus a direção é concreta: espere que os questionários a fornecedores de IA ganhem uma secção de gravidade de jailbreaks, que as seguradoras de apólices ciber perguntem que modelos expõe a entradas não confiáveis, e que o dossiê de segurança, prova do classificador mais pontuação de gravidade, se torne o documento que decide se um modelo pode ser usado em fluxos regulados sob quadros como a NIS2.

A lição do operador: a disponibilidade é agora condicional

O facto profundo do episódio não é o jailbreak, são os 19 dias. Um modelo de fronteira com contratos empresariais apagou-se globalmente por diretiva governamental e só voltou quando um dossiê de segurança satisfez o regulador. A disponibilidade dos modelos está agora condicionada a provas, e apagões desta classe são um modo de falha demonstrado, não uma hipótese. Toda a empresa cujos fluxos dependem de uma única API de fronteira devia tratá-la como trata um insumo de fábrica com fornecedor único: com uma comutação testada para um segundo modelo, um procedimento escrito de mudança e um contrato que diga o que acontece às tarifas quando o produto é desligado por alguém a quem nenhuma das partes pode recorrer.

Leia a seguir: O cibercrime pede emprestada a sua internet · O Agente de IA Confia em Ferramenta Envenenada

Perguntas frequentes

Porque foram desligados o Fable 5 e o Mythos 5?

Uma diretiva de controlo de exportações do Departamento do Comércio dos EUA de 12 de junho de 2026 seguiu-se a um jailbreak de investigadores da Amazon que levou o Fable 5 a identificar vulnerabilidades e a demonstrar a sua exploração. A ordem vetava o acesso de cidadãos estrangeiros, algo que a Anthropic não conseguia verificar em tempo real, pelo que suspendeu ambos os modelos por completo.

O que mudou para permitir a reativação?

A Anthropic retreinou um classificador de segurança que, segundo a empresa, bloqueia a técnica reportada em mais de 99 por cento das tentativas, desviando os pedidos sinalizados para um modelo menos capaz, e documentou que outros modelos disponíveis conseguiam replicar as mesmas demonstrações. Os controlos caíram a 30 de junho e o acesso regressou a partir de 1 de julho.

O que é a escala CJS de gravidade de jailbreaks?

Uma classificação proposta de cinco níveis, de CJS-0 a CJS-4, publicada pela Anthropic a 2 de julho, que pontua jailbreaks por ganho de capacidade, amplitude das tarefas permitidas, facilidade de armamento e descoberta, deliberadamente análoga ao CVSS da gestão de vulnerabilidades. É um rascunho inicial, com um programa de recompensas na HackerOne associado.

O primeiro modelo de fronteira desligado por um governo não voltou pelas mãos dos advogados. Voltou pelas provas: um classificador, uma escala de gravidade e um dossiê de segurança documentado. Essa é a nova forma da disponibilidade em IA, e corta nos dois sentidos. Fornecedores que consigam provar segurança poderão vender potência, e operadores que consigam provar resiliência poderão depender dela. Todos os outros estão a uma diretiva de dezanove dias de silêncio.

Anthropic Export Controls Jailbreak AI Security Cybersecurity Model Governance

Mais do Servola Journal

Cybersecurity

O cibercrime pede emprestada a sua internet

A Google e o FBI desmantelaram a NetNut, uma rede proxy de pelo menos 2 milhões de dispositivos domésticos usada por 316 grupos hostis numa semana. Porque a reputação de IP morreu e os seus dispositivos são o novo perímetro.

3 min de leitura

Cybersecurity

O Agente de IA Confia em Ferramenta Envenenada

A Microsoft alerta que a descrição envenenada de uma ferramenta pode transformar o seu agente de IA numa fuga de dados, sem quebrar regras nem explorar falhas. O que os donos devem proteger.

2 min de leitura1 visualizações

Cybersecurity

O Seu Navegador com IA Pode Revelar Palavras-passe

Investigadores mostraram que uma página web armadilhada pode convencer um agente de IA de navegador a abandonar as suas próprias regras de segurança e a entregar palavras-passe e acessos. O que os proprietários devem fazer.

2 min de leitura1 visualizações

Servola

A Servola ajuda proprietários a construir planos de comutação de modelos e requisitos para fornecedores de IA antes do próximo choque de disponibilidade, não depois.

Solicitar uma apresentação privada Sobre a Servola →

A Servola é aconselhamento tecnológico para um pequeno número de famílias e family offices. Quando uma decisão não pode ser delegada, sentamo-nos do seu lado da mesa.

Servola Systems GmbH · Ludwigshafen, Germany · [email protected]

← Todos os artigos