Quando o GLM-5.1 da Z.ai assumiu o primeiro lugar no SWE-Bench Pro em abril de 2026 com 744 bilhões de parâmetros totais mas apenas 40 bilhões ativos por inferência, muita gente olhou para o número e não entendeu o que estava lendo. Esse é o ponto central da arquitetura Mixture of Experts — e por que ela importa para quem opera infraestrutura de IA.
O problema que a MoE resolve?
Modelos de linguagem grandes são, fundamentalmente, redes neurais densas. Cada token processado ativa todos os parâmetros do modelo. Um modelo de 70 bilhões de parâmetros usa 70 bilhões de parâmetros para cada palavra que processa — seja uma pergunta simples ou um problema complexo de engenharia de software.
Isso é computacionalmente caro e, em muitos casos, desnecessário. Você não precisa de um especialista em banco de dados para responder uma pergunta sobre culinária. A MoE resolve exatamente isso.
Como funciona na prática
Uma arquitetura Mixture of Experts divide a rede em "especialistas" — subconjuntos de parâmetros treinados para tipos específicos de tarefas. Cada camada do modelo tem um roteador que, para cada token, decide quais especialistas acionar.
O resultado: o modelo tem capacidade total enorme no papel, mas usa apenas uma fração dela em cada inferência. O GLM-5.1, por exemplo, tem 744 bilhões de parâmetros mas usa apenas 40 bilhões ativos por token. Isso reduz o custo computacional de inferência em mais de 90% comparado a um modelo denso de tamanho equivalente.
Quem está usando?
O GLM-5.1 não foi pioneiro. O Mistral Mixtral (2024) foi um dos primeiros modelos MoE amplamente adotados. O GPT-4 quase certamente usa alguma variante da arquitetura. O Qwen com 397 bilhões de parâmetros da Alibaba também é baseado em MoE.
Em 2026, a tendência está clara: os maiores modelos do mercado são praticamente todos MoE. Os modelos densos estão sendo reservados para tamanhos menores, onde o overhead do roteamento não compensa.
Implicações para infraestrutura
Para quem opera datacenters ou planeja infraestrutura de IA, a MoE tem implicações diretas:
Memória de GPU: você precisa carregar todos os parâmetros na memória mesmo que só uma fração seja usada por inferência. Um modelo de 744 bilhões de parâmetros em FP16 exige aproximadamente 1,5 TB de VRAM — o que significa múltiplas GPUs A100/H100 em paralelo, mesmo que apenas 40 bilhões sejam ativados.
Latência: o roteamento adiciona latência mínima por inferência, mas o ganho de throughput é muito maior. Para workloads em batch, MoE é claramente superior.
Temperatura dos racks: workloads MoE têm padrão de consumo irregular — picos quando especialistas raros são ativados, baixo consumo em tarefas simples. O gerenciamento térmico precisa considerar esse comportamento.
Por que isso muda o cálculo de custo
Em cloud, você paga por compute usado. Um modelo MoE de 744 bilhões de parâmetros processando uma requisição simples custa significativamente menos do que um modelo denso equivalente — porque a maioria dos parâmetros não foi acionada.
Para operações de alto volume, essa eficiência muda o TCO de forma expressiva. É um dos motivos pelos quais modelos MoE tendem a ter preços mais baixos por token nas principais APIs do mercado.
A direção do mercado
A MoE não é uma curiosidade arquitetural — é o caminho que o mercado escolheu para escalar capacidade sem escalar custo na mesma proporção. Entender como ela funciona é cada vez mais relevante para quem toma decisões sobre infraestrutura de IA.