Por anos, a narrativa foi a mesma: modelos open source ficam 6 a 12 meses atrás dos proprietários. Eram bons para prototipagem, adequados para casos de uso simples, necessários para quem tem restrições de privacidade — mas não eram a melhor escolha se você precisasse do desempenho máximo disponível.
Em 2026, essa narrativa chegou ao fim. Não como hipérbole, mas como fato verificável em benchmarks públicos.
O Que Aconteceu
Quatro lançamentos em poucos meses definiram o ponto de inflexão:
DeepSeek V4 Pro (MIT, abril de 2026): 1,6 trilhão de parâmetros, 49 bilhões ativos, 80,6% SWE-Bench Verified — equivalente ao Claude Opus 4.6 proprietário.
Llama 4 Maverick (Meta Llama License, abril de 2026): 400 bilhões totais, 17 bilhões ativos, melhor que GPT-4o e Gemini 2.0 Flash em benchmarks multimodais, contexto de 1 milhão de tokens.
Gemma 4 (Apache 2.0, abril de 2026): quatro tamanhos, do menor ao maior, todos com capacidades multimodais. O Google liberando sob Apache 2.0 — uma das licenças mais permissivas disponíveis.
Mistral Medium 3.5 (MIT modificada, maio de 2026): 128 bilhões denso, 77,6% SWE-Bench, roda em quatro GPUs.
A Arquitetura MoE Como Denominador Comum
Um padrão técnico une os maiores lançamentos open source de 2026: quase todos usam Mixture of Experts. DeepSeek V4 Pro (1,6T total / 49B ativos), Llama 4 Maverick (400B / 17B), Qwen 3.5 da Alibaba (397B / 17B), Llama 4 Scout (109B / 17B).
O MoE resolveu o problema fundamental que limitava o open source: como ter capacidade de modelo grande com custo de inferência de modelo pequeno. A resposta foi ter muitos especialistas e ativar apenas uma fração em cada token processado.
O resultado prático: um modelo de 400 bilhões de parâmetros que custa para inferir como um modelo de 17 bilhões. Essa eficiência foi o que tornou viável ter modelos de fronteira rodando em hardware que organizações reais conseguem operar.
A Tabela de Benchmarks Que Importa
Modelo | Tipo | SWE-Bench | Licença | Custo Input (API) |
|---|---|---|---|---|
Claude Opus 4.7 | Fechado | 87,6% | Proprietária | US$ 5,00/M |
GPT-5.5 | Fechado | ~85% | Proprietária | ~US$ 5,00/M |
DeepSeek V4 Pro | Aberto | 80,6% | MIT | US$ 0,30/M |
Gemini 3.1 Pro | Fechado | 80,6% | Proprietária | US$ 2,00/M |
Llama 4 Maverick | Aberto | ~78% | Meta Llama | Self-host |
Mistral Medium 3.5 | Aberto | 77,6% | MIT mod. | US$ 1,50/M |
O padrão é claro: os melhores modelos abertos chegam a 77-80% do benchmark principal de produção, enquanto os fechados estão em 85-88%. A diferença existe — mas é de 7 a 10 pontos percentuais, não de uma geração inteira.
Licenças: Nem Todo Open Source É Igual
A abertura técnica do código não equivale à abertura legal do uso. Em 2026, as principais licenças do ecossistema têm diferenças práticas importantes:
MIT (DeepSeek V4, partes do Mistral): A mais aberta. Uso comercial irrestrito, sem obrigações de compartilhar modificações, sem restrições por tamanho de empresa.
Apache 2.0 (Gemma 4): Similar à MIT em liberdade de uso, com proteção de patentes explícita. Padrão corporativo de fato para projetos de código aberto.
Meta Llama License: Permite uso comercial para a maioria, mas empresas acima de 700 milhões de MAU precisam de licença especial. Usuários da União Europeia estavam restritos no lançamento. Não é open source no sentido técnico da OSI.
Para compliance legal, a distinção importa. Para a maioria das empresas, MIT e Apache 2.0 são equivalentes na prática. A Meta Llama License exige análise caso a caso.
O Que Mudou Para Quem Toma Decisões de Infraestrutura
Antes de 2026, a decisão de usar modelo proprietário versus open source tinha dois componentes: capacidade técnica (fechados eram melhores) e custo/privacidade (abertos eram mais baratos e privados).
Em 2026, o componente de capacidade técnica quase desapareceu para a maioria dos casos de uso. A decisão agora é:
Use modelo via API proprietária quando: suporte empresarial é necessário, SLAs são exigidos, a integração com o ecossistema (Azure, Google Cloud) tem valor, ou o caso de uso específico está nos 7-10 pontos percentuais superiores que apenas o Opus 4.7 ou GPT-5.5 entregam.
Use modelo open source quando: privacidade de dados é não-negociável, volume é alto o suficiente para o custo de API ser relevante, customização via fine-tuning é necessária, ou você quer eliminar dependência de fornecedor.
A Velocidade do Ciclo
Outra mudança estrutural de 2026: o ritmo de lançamentos. Em abril e maio de 2026, foram lançados DeepSeek V4, Llama 4 Scout/Maverick, Gemma 4 (4 variantes), Mistral Medium 3.5, Claude Opus 4.7, GPT-5.5, Grok 4.3 e Qwen 3.6 Plus — todos em cerca de 60 dias.
Esse ritmo tem implicações para quem toma decisões de plataforma. Escolhas feitas em janeiro de 2026 podem estar desatualizadas em março. A estratégia de "escolher o melhor modelo e fixar" está sendo substituída por arquiteturas de abstração que permitem trocar modelos sem refatorar a aplicação.
Conclusão: O Mapa Mudou
O ecossistema de LLMs em maio de 2026 é fundamentalmente diferente de um ano atrás. Open source chegou à fronteira. Licenças verdadeiramente abertas como MIT estão em modelos de capacidade de produção. O custo por token caiu entre 5x e 10x para casos de uso equivalentes.
Para quem constrói infraestrutura de IA, o desafio de 2026 não é mais acesso à capacidade — é escolha entre abundância. E isso, em comparação com o que existia antes, é um problema muito melhor de ter.