A Meta lançou modelos abertos relevantes antes — o Llama 2 e o Llama 3 tiveram impacto real na comunidade. Mas o Llama 4, liberado em abril de 2026, representa uma mudança de escala e arquitetura que vai além das versões anteriores. É a primeira família de modelos abertos da Meta com arquitetura Mixture of Experts nativa e capacidade multimodal desde o treinamento.
A Família Llama 4
O Llama 4 chegou com três modelos, em estágios diferentes de disponibilidade.
O Scout tem 109 bilhões de parâmetros totais e 17 bilhões ativos por inferência, com 16 especialistas no MoE. É o modelo projetado para rodar em uma única GPU NVIDIA H100 — o que o torna acessível para quem não tem infraestrutura de cluster. Sua janela de contexto é de 10 milhões de tokens, a maior entre modelos abertos no momento do lançamento.
O Maverick tem 400 bilhões de parâmetros totais com os mesmos 17 bilhões ativos, mas com 128 especialistas no roteamento MoE. Exige um sistema DGX H100 ou setup equivalente de múltiplas GPUs. Nos benchmarks multimodais disponíveis, supera GPT-4o e Gemini 2.0 Flash.
O Behemoth está em uma categoria diferente: 2 trilhões de parâmetros totais e 288 bilhões ativos. Ainda não foi disponibilizado publicamente — foi anunciado principalmente como "modelo professor", usado para melhorar Scout e Maverick via codistilação. Quando — e se — for liberado, representará o maior modelo open source já disponibilizado.
Por Que o MoE Importa Aqui
O Llama 3 era um modelo denso. Cada token processado ativava todos os parâmetros. O Llama 4 mudou isso: com MoE, o Scout processa cada token usando apenas 17 bilhões dos 109 bilhões de parâmetros disponíveis. O custo computacional de inferência cai de forma significativa.
Para quem usa modelos em produção — especialmente em volumes altos — essa diferença tem impacto direto no custo por token e no throughput do sistema. O Scout foi projetado especificamente para ser viável em hardware de uma única GPU de forma que o Llama 3-70B simplesmente não era, apesar de ter desempenho superior.
Multimodalidade Nativa
"Nativo" aqui tem um significado específico: o Scout e o Maverick foram treinados com dados de texto e imagem desde o início, não tiveram capacidade visual adicionada via fine-tuning posterior. Isso tende a resultar em melhor integração entre as modalidades — o modelo raciocina sobre imagens da mesma forma que raciocina sobre texto, sem a separação arquitetural dos modelos que receberam visão como add-on.
Ambos foram treinados em dados cobrindo 200 idiomas, com suporte aprofundado para 12 deles, incluindo árabe, espanhol, alemão e hindi. O corpus de treinamento totaliza 40 trilhões de tokens.
A Janela de 10 Milhões de Tokens
O contexto de 10 milhões de tokens do Scout foi o maior entre modelos abertos no lançamento. Para colocar em perspectiva: 10 milhões de tokens são aproximadamente 7,5 milhões de palavras — o equivalente a vários livros completos, ou uma base de código inteira de um projeto de médio porte.
Na prática, isso abre casos de uso que antes eram exclusivos de APIs proprietárias com preços premium: análise de documentação completa, ingestão de codebases grandes, raciocínio sobre conjuntos de dados extensos em uma única chamada.
Licenciamento: O Ponto de Atenção
O Llama 4 usa a licença Meta Llama, que permite uso comercial para a maioria das empresas. Mas há duas restrições importantes que diferem de licenças verdadeiramente abertas como a MIT.
Empresas com mais de 700 milhões de usuários ativos mensais precisam de licença especial da Meta. E, no momento do lançamento, usuários e empresas domiciliados na União Europeia estavam proibidos de usar ou distribuir os modelos — uma restrição com implicações práticas significativas para operações globais.
Isso coloca o Llama 4 em uma categoria diferente do DeepSeek V4 (MIT) e do Gemma 4 (Apache 2.0) em termos de liberdade de uso irrestrito. Para a maioria das empresas, não é um problema. Para operações de escala de plataforma ou com presença europeia significativa, precisa de análise jurídica.
O Posicionamento Estratégico da Meta
A Meta não lança modelos abertos por altruísmo. A estratégia é consistente: ao estabelecer o Llama como a base do ecossistema open source, a Meta garante que seu hardware (MTIA), seus produtos de IA (Meta AI) e sua infraestrutura (PyTorch) continuem centrais para o desenvolvimento global de IA.
O Llama 4 Scout rodando em uma H100, com 10M de contexto e multimodalidade nativa, é a versão mais convincente desse argumento que a Meta já fez. O modelo não é apenas bom o suficiente para uso em produção — para muitos casos de uso, é o melhor disponível.