Dezanove dias offline, por ordem governamental

A 30 de junho de 2026, a Anthropic anunciou que o Departamento do Comércio dos EUA tinha levantado os controlos de exportação impostos ao Claude Fable 5 e ao Mythos 5, e começou a restabelecer o acesso no dia seguinte. A suspensão durou 19 dias: imposta a 12 de junho, exigia bloquear o acesso de qualquer cidadão estrangeiro em qualquer lugar, condição que a Anthropic não conseguia verificar em tempo real, pelo que desligou ambos os modelos para todos. A CNBC, o Decrypt e o The Hacker News cobriram o apagão e a reviravolta.

O gatilho foi específico. Investigadores da Amazon tinham demonstrado uma forma de contornar as salvaguardas do Fable 5 para o levar a identificar vulnerabilidades de software e demonstrar técnicas de exploração. O governo tratou um modelo de fronteira com jailbreak como uma capacidade cibernética controlada, e o mercado aprendeu que um modelo pode ser desligado por diretiva, a meio do contrato, em todo o mundo.

O que recomprou realmente o acesso

O modelo não voltou porque a ordem caducou. Voltou porque a Anthropic apresentou uma correção e um argumento. A correção é um classificador de segurança retreinado contra a técnica reportada, que segundo a empresa a bloqueia agora em mais de 99 por cento das tentativas; os pedidos sinalizados são desviados para o Claude Opus 4.8, um modelo menos capaz, com aviso ao utilizador. A Anthropic admite que a rede mais apertada apanha também mais trabalho legítimo, aceitando mais falsos positivos na programação de rotina como margem de segurança deliberada.

O argumento pesa pelo menos tanto: paridade de capacidades. A Anthropic documentou que modelos menos capazes e livremente disponíveis, incluindo o seu próprio Opus 4.8, o GPT-5.5 da OpenAI e o Kimi K2.7, conseguiam replicar as mesmas demonstrações de vulnerabilidades. Quando uma capacidade está em todo o lado, controlar o modelo de um fornecedor não restringe nada. Essa lógica reabriu o Fable 5 e define em silêncio como funcionarão os controlos futuros: apertarão apenas o topo da curva de capacidades, enquanto o piso por baixo continua a subir.

O quadro publicado dois dias depois

A 2 de julho, a Anthropic publicou a maquinaria por trás da correção. Os pedidos ciber são ordenados em quatro níveis: usos proibidos como ransomware e exfiltração de dados, totalmente bloqueados; duplo uso de alto risco como desenvolvimento de exploits e escalada de privilégios, maioritariamente bloqueado até existirem melhores controlos de acesso; duplo uso de baixo risco como informações de fontes abertas e identificação de vulnerabilidades dentro das capacidades das ferramentas existentes, permitido com monitorização; e trabalho benigno como programação segura e resposta a incidentes, permitido com atrito mínimo.

Em paralelo chegou uma proposta de escala de gravidade de jailbreaks, CJS, de 0 informativo a 4 crítico, pontuada em quatro eixos: quanta capacidade o jailbreak acrescenta além das ferramentas existentes, quantas tarefas ofensivas permite, com que facilidade se transforma em arma e quão fácil é de descobrir. Um programa de recompensas na HackerOne para a descoberta de jailbreaks acompanha o quadro, que a Anthropic rotula de rascunho inicial.

CVSS para jailbreaks, e para onde se espalha

As equipas de segurança já viram este filme. O CVSS começou como a convenção de pontuação de um fornecedor e tornou-se o número que cada decisão de correção, questionário de compras e formulário de seguro cibernético exige. Uma escala de gravidade de jailbreaks preenche o mesmo vazio: hoje, quando circula uma técnica de contorno, um CISO não tem forma padrão de dizer quão grave é. A CJS, ou o sucessor em que o setor convergir, dá a comités de risco, reguladores e seguradoras um denominador comum para a exposição a modelos de IA.

Para os operadores europeus a direção é concreta: espere que os questionários a fornecedores de IA ganhem uma secção de gravidade de jailbreaks, que as seguradoras de apólices ciber perguntem que modelos expõe a entradas não confiáveis, e que o dossiê de segurança, prova do classificador mais pontuação de gravidade, se torne o documento que decide se um modelo pode ser usado em fluxos regulados sob quadros como a NIS2.

A lição do operador: a disponibilidade é agora condicional

O facto profundo do episódio não é o jailbreak, são os 19 dias. Um modelo de fronteira com contratos empresariais apagou-se globalmente por diretiva governamental e só voltou quando um dossiê de segurança satisfez o regulador. A disponibilidade dos modelos está agora condicionada a provas, e apagões desta classe são um modo de falha demonstrado, não uma hipótese. Toda a empresa cujos fluxos dependem de uma única API de fronteira devia tratá-la como trata um insumo de fábrica com fornecedor único: com uma comutação testada para um segundo modelo, um procedimento escrito de mudança e um contrato que diga o que acontece às tarifas quando o produto é desligado por alguém a quem nenhuma das partes pode recorrer.