Em março de 2026, GPT-5.4 e Claude Opus 4.6 definiam o estado da arte. Em abril, ambas as empresas lançaram atualizações que não foram incrementos de fine-tuning — foram revisões de arquitetura e objetivo que mudam o que esses modelos são projetados para fazer. O foco não é mais responder melhor: é executar com mais autonomia.
GPT-5.5: Reconstruído do Zero
O GPT-5.5, lançado em 23 de abril de 2026, é incomum na história da OpenAI. Segundo a empresa, é a primeira vez desde o GPT-4.5 que reconstruíram arquitetura, corpus de pré-treinamento e objetivos de treinamento simultaneamente — não foi um ajuste sobre a versão anterior.
O design do 5.5 foi orientado por uma premissa específica: o modelo precisa funcionar como um agente autônomo, não como um gerador de respostas. Isso implica em capacidade de chamar ferramentas encadeadas, manter estado em tarefas longas e se recuperar de erros sem intervenção humana.
Na prática, as melhorias mais reportadas pelos desenvolvedores são:
Persistência de instruções em tarefas longas. Modelos anteriores tinham tendência a "esquecer" instruções dadas no início de conversas longas ou pipelines complexos. O 5.5 trata isso como requisito de design, não como característica secundária.
Orquestração de ferramentas. Em pipelines com múltiplas ferramentas — APIs externas, execução de código, leitura de arquivos — o 5.5 demonstra melhor julgamento sobre quando e como combinar capacidades. A taxa de erros em sequências de ferramentas caiu de forma mensurável.
Computer use aprimorado. A capacidade de interagir com interfaces gráficas de forma mais confiável, o que abre casos de uso de automação que antes eram frágeis demais para produção.
O 5.5 está disponível via API da OpenAI com os mesmos endpoints do 5.4. O modelo é proprietário, sem pesos disponíveis.
Claude Opus 4.7: Salto Mensurável em Engenharia de Software
O Claude Opus 4.7, lançado em 16 de abril de 2026 pela Anthropic, tem um diferencial preciso: os números de benchmark não são modestos. O salto do 4.6 para o 4.7 é o maior entre versões consecutivas que a Anthropic já publicou.
SWE-Bench Verified: de 80,8% para 87,6%. SWE-Bench Pro: de 53,4% para 64,3%. MCP Atlas tool-use performance: 79,1% — o melhor de qualquer modelo no benchmark. E o preço manteve-se idêntico ao Opus 4.6: US$ 5 por milhão de tokens de entrada, US$ 25 por milhão de saída.
Para quem usa modelos em produção para tarefas de código e agentes, esse salto tem implicações concretas. O SWE-Bench mede a capacidade de resolver issues reais de repositórios GitHub — não apenas gerar código, mas entender um repositório existente, identificar o problema e implementar a correção. 87,6% em SWE-Bench Verified é a melhor marca de qualquer modelo disponível comercialmente.
O Claude Mythos Preview: Além do Opus
Separado do Opus 4.7, a Anthropic também apresentou o Claude Mythos Preview em abril de 2026 — em acesso restrito a aproximadamente 50 organizações parceiras via Project Glasswing.
O Mythos é descrito pela Anthropic como "um salto acima do Opus 4.6" em três áreas: detecção de vulnerabilidades de segurança cibernética, raciocínio avançado e programação. No GPQA Diamond — o benchmark de raciocínio científico mais discriminativo — o Mythos Preview marca 94,6%, atualmente a melhor marca de qualquer modelo público ou semi-público.
O fato de o Mythos estar em preview restrito enquanto o Opus 4.7 é liberado amplamente sugere uma estratégia de segmentação: o Mythos é posicionado para casos de uso de segurança e pesquisa avançada, com processo de verificação de parceiros, enquanto o Opus 4.7 atende o mercado geral de produção.
A Convergência em Autonomia
O padrão que emerge das atualizações de GPT-5.5 e Claude Opus 4.7 não é apenas melhor desempenho em benchmarks. É uma redefinição do que um modelo de linguagem deve fazer: não gerar respostas, mas executar tarefas.
Isso tem implicações para a forma como sistemas são desenhados. Um modelo que mantém estado, orquestra ferramentas e recupera erros autonomamente não é apenas um componente melhor — é um componente que muda a arquitetura do sistema em torno dele.
Gemini 3.1 Pro: O Contexto de Custo
No mesmo período, o Gemini 3.1 Pro do Google se consolida como a referência de custo-benefício na fronteira: US$ 2,00 por milhão de tokens de entrada e US$ 12,00 de saída, com 1 milhão de tokens de contexto e 80,6% no SWE-Bench. Também é o único modelo de fronteira com entrada nativa de texto, imagem, áudio e vídeo em um único modelo.
O GPT-5.5 e o Opus 4.7 são mais caros. A justificativa está no desempenho em casos de uso específicos de autonomia e engenharia de software onde os gaps são significativos. Para uso geral, a diferença de custo do Gemini é difícil de ignorar.
O Que Isso Significa
A mensagem do primeiro quadrimestre de 2026 é que a fronteira dos modelos fechados não parou. GPT-5.5 e Claude Opus 4.7 representam aumentos reais de capacidade — não incrementais, mas de escala. E o foco compartilhado em autonomia indica que o próximo campo de batalha não é o chat, mas o agente que trabalha enquanto você dorme.