Quantização de modelos

Existe uma tensão fundamental no desenvolvimento de modelos de inteligência artificial contemporâneos: quanto maiores os modelos, melhores seus resultados mas também mais caros, lentos e inacessíveis eles se tornam. Esta tensão não é teórica. Ela se manifesta diretamente nos custos de infraestrutura, no consumo de energia e na capacidade de empresas menores ou pesquisadores com recursos limitados de utilizar tecnologia de ponta.

O GPT-3, com seus 175 bilhões de parâmetros, ocupa aproximadamente 700 gigabytes de memória quando armazenado no formato numérico padrão usado durante o treinamento. O DeepSeek-V3.2, com seus 690 bilhões de parâmetros em formato FP8, é ainda mais desafiador: seu deployment em escala de produção exige sistemas de servidor de ponta apenas para carregar os pesos na memória. A tensão entre capacidade e acessibilidade nunca foi tão aguda.

É nesse contexto que a quantização de modelos emerge não apenas como uma técnica de otimização, mas como uma tecnologia habilitadora. A promessa é direta: reduzir o tamanho dos modelos, acelerar sua inferência e diminuir o consumo de memória e energia sem que a qualidade dos resultados sofra degradação significativa. A questão é saber até onde essa promessa se sustenta empiricamente, e quando ela encontra seus limites.

Este artigo percorre o estado da arte da quantização de modelos com foco nos desenvolvimentos mais recentes incluindo os benchmarks publicados no início de 2026 sobre modelos como Qwen3, Qwen3.5 e DeepSeek, e a emergência do formato NVFP4 habilitado pela arquitetura Blackwell da NVIDIA.

O que é quantização de modelos

Em termos gerais, quantização é o processo de representar informação contínua ou de alta precisão em um formato discreto de menor resolução. O conceito tem raízes profundas em teoria da informação e processamento de sinais, com origens que remontam ao desenvolvimento da modulação por pulso codificado (PCM) nos anos 1930, quando sinais analógicos passaram a ser representados digitalmente por amostragem e quantização de amplitudes.

No contexto de modelos de aprendizado de máquina, quantização significa converter os valores numéricos que compõem os pesos os parâmetros aprendidos durante o treinamento e as ativações os valores intermediários gerados durante a inferência de formatos de alta precisão como FP32 ou FP16 para formatos de menor precisão, como inteiros de 8 bits (INT8), 4 bits (INT4), ou formatos de ponto flutuante de baixo bit como FP8 e NVFP4.

O survey de Nagel et al. (2021), “A Survey of Quantization Methods for Efficient Neural Network Inference”, oferece uma definição técnica precisa: a quantização mapeia um conjunto de valores reais de alta precisão para um conjunto menor de valores representáveis, introduzindo inevitavelmente um erro de arredondamento chamado erro de quantização. A arte está em minimizar este erro enquanto se maximiza o ganho em eficiência.

A intuição é simples: se cada parâmetro de um modelo ocupa 32 bits de memória no formato FP32, e conseguimos representá-lo com qualidade similar em apenas 8 bits, o modelo inteiro ocupa quatro vezes menos memória. Em 4 bits, a redução é de oito vezes. Em um modelo com dezenas de bilhões de parâmetros, essas diferenças se traduzem em centenas de gigabytes economizados — o que pode significar a diferença entre precisar de 8 GPUs ou apenas 2.

Como a quantização funciona: A lógica da compressão numérica

Para entender como a quantização funciona sem recorrer a equações, é útil pensar em uma analogia. Imagine que você tem uma régua que pode medir distâncias com precisão de um milímetro, e você precisa armazenar medições de objetos que variam entre zero e dez metros. Para a maioria das aplicações práticas, uma precisão de um centímetro seria suficiente e armazenar as medições em centímetros em vez de milímetros reduziria o espaço necessário pela metade.

A quantização de modelos funciona de forma análoga. Os pesos de uma rede neural, durante o treinamento, são números de ponto flutuante com precisão suficiente para capturar nuances muito sutis. Durante a inferência o momento em que o modelo é usado para gerar respostas essa precisão toda raramente é necessária. As redes neurais profundas têm uma propriedade fundamental: elas são inerentemente resilientes a pequenas perturbações em seus pesos. Esta resiliência ao ruído é a fundação teórica que torna a quantização possível, conforme articulado por Nagel et al. (2021).

O processo envolve essencialmente dois passos. Primeiro, determinar os limites do intervalo de valores que precisa ser representado o chamado processo de calibração ou escalonamento. Segundo, mapear os valores contínuos de alta precisão para os valores discretos disponíveis no formato de destino. Inevitavelmente, valores que antes ocupavam posições ligeiramente diferentes no contínuo passam a ser representados pelo mesmo valor discreto: isso é precisamente o erro de quantização.

O que diferencia as técnicas modernas de quantização é, essencialmente, como elas minimizam este erro especialmente ao lidar com os chamados outliers: valores extremos que, quando presentes nas ativações, dificultam muito o processo de compressão e são responsáveis por boa parte da degradação de qualidade observada em quantizações mais agressivas.

Os formatos de precisão: de FP32 a FP4

Para compreender os ganhos concretos da quantização, é necessário entender o que cada formato de precisão representa na prática.

O FP32 ponto flutuante de 32 bits é o padrão histórico para treinamento de redes neurais. Ele oferece uma faixa dinâmica enorme e pode representar aproximadamente 4 bilhões de valores distintos. É preciso, mas pesado: cada parâmetro ocupa 4 bytes de memória.

O BF16 (bfloat16) ponto flutuante de 16 bits com faixa dinâmica preservada tornou-se o formato dominante para treinamento de LLMs modernos. Variantes como o Qwen3.5, lançado em fevereiro de 2026, são distribuídas neste formato como baseline, demandando 2 bytes por parâmetro.

O FP8 ponto flutuante de 8 bits é o formato intermediário que ganhou ampla adoção em 2024 e 2025, especialmente em GPUs NVIDIA H100, H200 e AMD MI300X. Um benchmark publicado em janeiro de 2026 avaliou o Qwen3-32B em quatro formatos de precisão diferentes em uma única GPU H100, rodando mais de 12.000 questões do MMLU-Pro. O modelo em INT8 mostrou apenas 0,04% de queda em relação ao BF16 descrito pelos autores como “basicamente ruído”. Em INT4, o modelo reteve 98,1% da capacidade de raciocínio no MMLU-Pro.

O INT4 inteiro de 4 bits representa apenas 16 valores distintos. Ocupa meio byte por parâmetro, reduzindo um modelo BF16 a um quarto do tamanho original. O mesmo benchmark do Qwen3-32B documenta que o modelo em INT4 ocupa apenas 18,1 gigabytes de memória de pesos, contra 61 gigabytes em BF16 liberando 47,3 gigabytes para KV cache e permitindo atender 47 usuários simultâneos em contextos de 4.096 tokens, contra apenas 4 no formato BF16. Adicionalmente, o GPTQ-Int4 entregou um aumento de throughput de 2,69 vezes em relação ao BF16 nesse benchmark.

O NVFP4 ponto flutuante de 4 bits com escalonamento hierárquico desenvolvido pela NVIDIA para a arquitetura Blackwell é o formato mais recente e representa a fronteira atual do campo. Cada valor é armazenado em 4 bits, mas com um fator de escala FP8 compartilhado entre grupos de 16 valores e uma escala global FP32 adicional. Conforme documentado pela Red Hat em fevereiro de 2026, o NVFP4 atinge entre 1,5 e 1,8 vezes menor armazenamento efetivo de pesos do que FP8 e cerca de 3 vezes menor do que FP16. A GPU NVIDIA B200 entrega 10 PFLOPS de throughput denso em NVFP4 por GPU uma melhoria de 5 vezes sobre os 2 PFLOPS em FP8 da H200.

Os dois grandes paradigmas: PTQ e QAT

A literatura estabelece dois grandes paradigmas para aplicar quantização a modelos existentes, com características, vantagens e limitações bem documentadas.

Post-Training Quantization (PTQ) — Quantização pós-treinamento

No PTQ, o modelo já está completamente treinado em precisão plena, e a quantização é aplicada após o fato, sem nenhum re-treinamento. Isso torna o processo muito mais rápido e barato: não é necessário revisitar o processo de treinamento, acessar o dataset original ou investir em ciclos computacionais extensos. Os frameworks de calibração apresentam ao modelo uma amostra representativa de dados antes de determinar os parâmetros de escalonamento.

O survey de Nagel et al. (2021) identificou que o PTQ pode sofrer degradação significativa em configurações de baixo bit, especialmente para redes menores. Para INT8, no entanto, o PTQ demonstrou ser consistentemente adequado em uma ampla variedade de arquiteturas. O estudo empírico sobre o Qwen3 publicado em maio de 2025 confirma este padrão e adiciona uma nuance importante: modelos maiores exibem maior estabilidade sob quantização. O Qwen3-14B apresentou apenas 1% de queda no MMLU com GPTQ de 4 bits, enquanto o Qwen3-0,6B sofreu queda de cerca de 10% sob a mesma configuração evidência direta de que o espaço paramétrico maior mitiga o ruído de quantização.

5.2 Quantization-Aware Training (QAT) treinamento com consciência da quantização

No QAT, a simulação dos efeitos da quantização é incorporada ao próprio processo de treinamento. O modelo aprende a compensar o erro introduzido pela representação de menor precisão, o que resulta em modelos quantizados de qualidade superior, especialmente em formatos mais agressivos como INT4 e abaixo.

O survey de Ding et al. (ACM, 2025) traça a história do QAT desde sua formalização por Jacob et al. (2018) e identifica cinco categorias de desafios: degradação na propagação de gradientes, complexidade excessiva do modelo, instabilidade na quantização de baixo bit, sensibilidade à quantização de ativações e pesos, e dependência de grandes conjuntos de dados de treinamento.

Um resultado publicado em 2025 em revisão no OpenReview demonstra o poder do QAT em regimes extremos: um pipeline de dois estágios aplicado ao Qwen3-8B conseguiu quantização para 2 bits que supera as baselines de PTQ em 50,45% em média em cinco benchmarks de raciocínio. Em comparação direta com modelos especializados em ultra-baixo bit como o BitNet-2B4T, o modelo quantizado via QAT alcançou cerca de 2% mais acurácia em raciocínio matemático com custos de treinamento substancialmente menores. Porém, para modelos com dezenas ou centenas de bilhões de parâmetros, o custo do QAT permanece proibitivo para a maioria dos praticantes. O PTQ domina a prática industrial.

GPTQ: Quantização pós-treinamento para modelos generativos

O GPTQ Accurate Post-Training Quantization for Generative Pre-trained Transformers de Frantar et al. (ICLR, 2023) é provavelmente o método de PTQ mais influente para modelos de linguagem de grande escala e continua sendo amplamente utilizado em 2026.

A ideia central é aplicar quantização camada por camada usando informação de segunda ordem sobre a curvatura da função de perda derivada da matriz Hessiana para determinar quais pesos podem ser comprimidos com menor impacto na qualidade. O algoritmo é construído sobre o framework OBS (Optimal Brain Surgeon), originalmente proposto por LeCun, Denker e Solla no início dos anos 1990 para poda de redes neurais.

Em benchmarks recentes, o GPTQ permanece relevante mas com limitações documentadas. O estudo empírico sobre o Qwen3, publicado em maio de 2025, revelou que o Qwen3 apresenta degradação mais pronunciada em baixo bit do que o LLaMA3: no Qwen3-8B-Base, AWQ com 3 bits aumenta a perplexidade no C4 de 10,4 para 23,8, enquanto no LLaMA3-8B o mesmo método eleva de 9,2 para apenas 11,6. Este resultado sublinha que o comportamento de quantização é arquitetura-dependente e que generalizar resultados entre famílias de modelos é problemático.

Uma limitação recorrente na literatura: o GPTQ tende a ajustar excessivamente seus parâmetros ao conjunto de calibração, o que pode resultar em modelos que performam bem nos benchmarks públicos mas mostram degradação maior em aplicações customizadas. Benchmarks de produção e avaliações customizadas frequentemente revelam diferenças que não aparecem nas métricas padronizadas.

AWQ: Quantização com Consciência das Ativações

O AWQ Activation-Aware Weight Quantization proposto por Lin et al. (MLSys 2024) parte de uma observação empírica distinta: em uma rede neural, nem todos os pesos têm igual importância. Apenas cerca de 1% dos pesos são “salientes” identificados por sua influência sobre as ativações do modelo e são responsáveis desproporcionalmente pela qualidade das saídas.

A solução do AWQ é identificar esses pesos salientes e protegê-los da degradação mais agressiva da quantização através de um reescalonamento dos pesos antes da compressão. Na prática, pesos em canais de alta ativação recebem um fator de escala maior antes da quantização, de forma que os mais importantes sejam representados com maior fidelidade mesmo no formato de menor precisão sem quebrar a eficiência de hardware que seria comprometida por precisão mista.

Benchmarks de 2026 mostram que o AWQ combinado com o kernel Marlin uma implementação otimizada para inferência quantizada em GPUs NVIDIA atinge 741 tokens por segundo em modelos da família Qwen2.5-32B em uma GPU H200, contra 461 tokens por segundo do modelo baseline em FP16. A aceleração de 60% vem acompanhada da mesma pontuação Pass@1 de 51,8% no HumanEval sem perda mensurável em geração de código. O BitsandBytes em NF4 mostrou a melhor preservação de qualidade em perplexidade (6,67), sendo recomendado quando a prioridade é acurácia máxima no formato 4 bits.

O benchmark de produção da conferência ICAIR de 2025, que avaliou seis métodos de quantização na família Qwen3 em seis benchmarks estabelecidos, demonstra que modelos Qwen3 maiores exibem maior resiliência à degradação de acurácia induzida pela quantização padrão consistente com o relatado para modelos LLaMA e Llama3 em estudos anteriores.

SmoothQuant: O problema dos qutliers nas ativações

Enquanto o GPTQ e o AWQ focam primariamente nos pesos do modelo, o SmoothQuant de Xiao et al. (ICML, 2023) aborda um problema diferente e mais difícil: a quantização das ativações.

O desafio é que ativações em LLMs de grande escala exibem sistematicamente valores extremos outliers em determinados canais de atenção. A magnitude desses outliers pode ser cerca de 100 vezes maior do que os valores típicos. Quando se tenta comprimir todo o intervalo de ativações para 8 bits, o escalonamento é dominado por esses valores extremos, resultando em baixíssima resolução para os valores mais comuns perdendo precisão exatamente onde ela mais importa.

A solução do SmoothQuant é uma transformação equivalente que migra parte da dificuldade de quantização das ativações para os pesos que são muito mais fáceis de quantizar. Esse rebalanceamento suaviza os outliers nas ativações sem alterar a saída do modelo. O método habilita a quantização W8A8 pesos e ativações ambos em 8 bits para modelos como OPT-175B, BLOOM-176B e MT-NLG 530B sem degradação perceptível de acurácia, entregando aceleração de até 1,56 vezes e redução de memória de 2 vezes em comparação ao FP16.

O estudo empírico do Qwen3 (2025) avaliou o SmoothQuant no contexto desta família de modelos e documentou um caso limite importante: em configuração SmoothQuant W4A4 pesos em 4 bits e ativações em 4 bits no modelo de 0,6B parâmetros, a perplexidade colapsa para valores na casa de 33.500, evidenciando que a quantização simultânea de pesos e ativações para 4 bits em modelos muito pequenos ainda representa um desafio sem solução satisfatória.

FP8 e a era do ponto flutuante de baixa precisão

O formato FP8 ponto flutuante de 8 bits tornou-se o padrão de fato para deployment eficiente em hardware de servidor moderno. Suportado nativamente pelas GPUs NVIDIA H100, H200 e AMD MI300X, o FP8 oferece duas variantes principais: E4M3 (4 bits de expoente, 3 de mantissa), preferida para pesos, e E5M2 (5 bits de expoente, 2 de mantissa), usada para gradientes durante o treinamento.

Um estudo de 2026 documentou que a quantização FP8, em hardware H100, alcança aceleração de 3,5 vezes sobre FP16 para o modelo Mixtral 70B com menos de 0,5% de perda de acurácia. O mesmo FP16 manteve 99,5% de acurácia no MMLU para esse modelo sendo recomendado apenas quando a máxima precisão é absolutamente não negociável, como em diagnóstico médico, modelagem financeira ou análise jurídica.

A série Qwen3.5, lançada em fevereiro de 2026, distribui versões FP8 oficiais onde camadas de atenção e especialistas compartilhados permanecem em 16 bits uma estratégia de precisão mista que preserva as camadas mais sensíveis enquanto comprime as demais. Segundo os próprios documentos de lançamento, as métricas de performance do modelo FP8 são “quase idênticas” às do modelo original em BF16.

NVFP4: A nova fronteira com a arquitetura blackwell

O desenvolvimento mais significativo de 2025 para o campo da quantização de modelos em escala de produção foi a introdução do formato NVFP4 pela NVIDIA, habilitado pela arquitetura Blackwell presente nas GPUs B200 e Blackwell Ultra.

O NVFP4 é um formato de ponto flutuante de 4 bits com escalonamento hierárquico em dois níveis: cada valor de 4 bits pertence a um grupo de 16 valores que compartilham um fator de escala FP8 de alta precisão, e há ainda um fator de escala FP32 global por tensor. Esta arquitetura dupla de escalonamento preserva a faixa dinâmica e reduz o erro de quantização que limitava os formatos inteiros de 4 bits sem a perda de capacidade representacional que INT4 simples introduz quando os pesos têm ampla distribuição de magnitudes.

Os resultados documentados são expressivos. Aplicado ao DeepSeek-V3.2 um modelo de 690 bilhões de parâmetros o NVFP4 reduziu o tamanho do modelo de 690 GB (em FP8) para 415 GB: uma redução de 1,7 vezes apenas na etapa de compressão de FP8 para NVFP4, segundo benchmarks publicados pela Microsoft Azure e Red Hat em fevereiro de 2026. Os pesos quantizados mantiveram acurácia alinhada com o modelo FP8 original em um amplo conjunto de benchmarks industriais.

Em termos de throughput de hardware, a GPU B200 entrega 10 PFLOPS de throughput denso em NVFP4, contra 2 PFLOPS em FP8 na H200 uma melhoria de 5 vezes por GPU. A NVIDIA Blackwell Ultra, por sua vez, eleva o throughput FP4 para 3 vezes o de FP8 na mesma arquitetura. No MLPerf Training v5.1, a NVIDIA adotou NVFP4 em todos os benchmarks de LLM, treinando o Llama 3.1 de 405 bilhões de parâmetros em apenas 10 minutos com mais de 5.000 GPUs Blackwell 2,7 vezes mais rápido do que a melhor submissão Blackwell do ciclo anterior que usava FP8.

Uma ressalva importante: o NVFP4 requer uma migração de hardware. Ele é exclusivo das GPUs Blackwell não está disponível em H100 ou H200, onde o FP8 é o teto de precisão. Para a maioria dos praticantes que ainda operam em hardware Hopper, o FP8 permanece a fronteira prática.

O suporte de software ao NVFP4 ainda está em maturação. Conforme documentado em análise publicada em março de 2026 sobre quantização FP4 na arquitetura Blackwell, o TensorRT-LLM a partir da versão 0.17 oferece o suporte mais maduro para NVFP4 em GPUs B200, enquanto o vLLM suporta tanto modelos densos quanto MoE com NVFP4 mas com gaps de otimização ainda em desenvolvimento. O mesmo estudo identificou que em cargas de trabalho MoE de baixo batch onde a inferência interativa ocorre a diferença de desempenho entre backends para FP4 pode ser de 1,32 vezes entre SGLang e vLLM, evidenciando que a eficiência do formato depende não apenas do hardware mas também da maturidade dos kernels de software.

Quanto custa rodar um LLM e como a quantização muda esse cenário

Para entender o impacto econômico da quantização, é necessário contextualizar os custos de infraestrutura de LLMs com dados concretos de 2026.

Uma GPU NVIDIA H200 SXM disponível como aluguel por hora custa aproximadamente US$ 1,56 por hora em provedores competitivos tornando-a a opção de menor custo por token para modelos da classe de 70 bilhões de parâmetros em inferência FP8, com custo estimado de US$ 0,099 por milhão de tokens, conforme benchmarks publicados em março de 2026. Uma GPU B200 é mais cara por hora, mas entrega throughput 2 a 4 vezes maior em FP4, o que pode reduzir o custo total em cargas de trabalho de alto volume.

O impacto da quantização sobre a capacidade de atendimento simultâneo é talvez o mais subrepresentado nos debates técnicos. O benchmark do Qwen3-32B em uma única H100 ilustra o mecanismo com clareza: em BF16, apenas 4,4 gigabytes de memória restam para KV cache após carregar os 61 gigabytes de pesos permitindo no máximo 4 usuários simultâneos com contextos de 4.096 tokens antes de esgotar a memória. Em INT4, com pesos reduzidos para 18,1 gigabytes, ficam disponíveis 47,3 gigabytes para KV cache, suportando 47 usuários simultâneos um aumento de 12 vezes na capacidade de atendimento com o mesmo hardware.

Este ganho de concorrência é frequentemente mais valioso operacionalmente do que a aceleração por token individual, especialmente em sistemas de produção com múltiplos usuários. A quantização não apenas reduz o custo por token ela muda fundamentalmente a viabilidade de deployment em hardware de custo moderado.

O estudo de inferência sustentável para edge AI, publicado no ACM Transactions on Internet of Things em 2025, demonstra que variantes q3 e q4 de quantização podem cortar o consumo de energia em até 79% em comparação com FP16 em dispositivos como Raspberry Pi 4 uma redução que, em escala de produção, representa economia substantiva em conta de energia e pegada de carbono.

O Trade-off real: Quando a qualidade sofre

Nenhuma análise honesta sobre quantização pode ignorar seus limites reais. A literatura é clara: a quantização agressiva em configurações específicas introduz degradação de qualidade mensurável, e os benchmarks públicos nem sempre capturam essa degradação adequadamente.

O estudo sistemático de qMeter (arXiv, 2025), que avaliou 11 métodos de PTQ na família Llama-2 em tamanhos de 7B a 70B parâmetros em GPUs NVIDIA H100 e A100, chegou a uma conclusão importante: nenhum único método de quantização domina em todos os critérios de latência, eficiência energética e qualidade. O melhor método depende da tarefa, do tamanho do modelo e das restrições de hardware disponível.

O benchmark que avaliou variantes quantizadas de Qwen2.5, DeepSeek, Mistral e LLaMA 3.3 em cinco tarefas identificou que o Q5_K_M e o GPTQ-INT8 oferecem os melhores trade-offs para a maioria dos domínios, enquanto AWQ e GGUF de baixo bit devem ser usados com cautela. Um resultado particularmente relevante: alguns modelos quantizados retornam alta acurácia sob decodificação determinística, mas se tornam instáveis sob amostragem, especialmente em formatos de 4 bits ou inferior um fenômeno de variância aumentada que só aparece em avaliações com temperatura acima de zero, mas que é relevante para aplicações de produção onde geração criativa ou diversificada é necessária.

Em quantização muito agressiva 3 bits ou abaixo os problemas se tornam mais pronunciados. O PTQ-Bench (arXiv, 2025) demonstra que, em quantização para 3 bits do LLaMA-3 de 70 bilhões de parâmetros, o método OmniQuant colapsa completamente, enquanto o GPTQ ainda mantém resultados razoáveis. No Qwen3, a degradação começa antes: AWQ com 3 bits aumenta a perplexidade do Qwen3-8B de 10,4 para 23,8 uma deterioração substancialmente mais severa do que em modelos LLaMA comparáveis na mesma configuração.

O estudo de contextos longos (EMNLP, 2025) adiciona uma dimensão frequentemente negligenciada: o método BNB-nf4 mostra redução média de acurácia de 8,4% em tarefas de processamento de contexto longo em comparação com o baseline em BF16 uma degradação que pode ser crítica para aplicações de sumarização de documentos extensos ou análise de contratos.

Tarefas específicas e seus riscos com quantização

Uma contribuição importante da pesquisa recente é o mapeamento de quais tipos de tarefas são mais sensíveis à quantização. Padrões consistentes emergem de múltiplos estudos.

Tarefas de raciocínio matemático como o GSM8K mostram sensibilidade moderada à quantização em modelos grandes, mas alta sensibilidade em modelos pequenos. O raciocínio matemático depende de cadeias de inferência precisas onde erros em uma etapa se propagam e amplificam nas etapas seguintes, o que explica sua vulnerabilidade à degradação numérica. Formatos com compressão agressiva, como INT4 ou Q3_K_M, degradam o GSM8K antes de qualquer outro benchmark, segundo o estudo de benchmark orientado a tarefas da Ionio (2025).

Tarefas de conhecimento factual, como múltipla escolha em MMLU e MMLU-Pro, demonstram maior robustez à quantização os modelos quantizados frequentemente mantêm 95% ou mais do desempenho do modelo em precisão plena. O benchmark do Qwen3-32B em INT4 reteve 98,1% da capacidade de raciocínio no MMLU-Pro, resultado que os autores caracterizam como viável para uso empresarial.

Geração de código apresenta padrão intermediário: os melhores métodos de quantização, como AWQ-Marlin, mantêm pontuações Pass@1 de 51,8% no HumanEval, contra 56,1% do modelo baseline em FP16 uma perda de cerca de 4 pontos percentuais absolutos, aceitável para a maioria das aplicações mas potencialmente crítica em contextos onde confiabilidade é essencial.

Quantização e raciocínio longo (chain-of-thought) merece atenção especial. Análise recente sobre modelos Qwen3.5 identificou que variantes com atenção linear quantizada agressivamente apresentam desempenho comparável em sequências curtas, mas exibem efeitos negativos visíveis em sequências longas quando a geração de cadeias de raciocínio extensas é necessária. Isso tem implicações diretas para modelos de raciocínio como o DeepSeek-R1 e o Qwen3.5 em modo thinking, onde a qualidade da resposta depende da integridade de centenas ou milhares de tokens de raciocínio intermediário.

Seguimento de instruções complexas e alinhamento são as dimensões mais vulneráveis e mais difíceis de capturar por benchmarks tradicionais. O estudo de IJCAI-25 documenta que quantização pode comprometer aspectos de trustworthiness e instruction-following que não aparecem nas métricas mais comuns — sugerindo que modelos quantizados em produção precisam de avaliação específica para seus casos de uso, não apenas em benchmarks padronizados.

Quantização nos modelos mais recentes: Qwen3, Qwen3.5 e DeepSeek

Uma característica marcante do ecossistema de modelos em 2026 é que os próprios laboratórios lançadores de modelos distribuem versões quantizadas oficiais, incorporando a quantização como parte do ciclo de vida do modelo — não como adaptação posterior.

O Qwen3, da Alibaba, foi lançado com checkpoints FP8 e GPTQ-INT4 oficiais, onde camadas de atenção e especialistas compartilhados são mantidos em 16 bits enquanto as demais camadas são comprimidas. Segundo o estudo empírico independente sobre a família Qwen3 publicado em maio de 2025, a quantização oficial INT4 da Qwen é “particularmente forte” a razão mais provável sendo justamente a preservação estratégica das camadas de atenção em precisão plena.

O Qwen3.5, lançado em fevereiro de 2026, distribui variantes FP8 com documentação explícita de que “as métricas de performance são quase idênticas às do modelo original”. Para o modelo de 27B parâmetros, o FP8 representa aproximadamente metade do tamanho do BF16. Curiosamente, o GPTQ-INT4 do Qwen3.5-27B tem pegada de memória (30,3 GB) quase idêntica à versão FP8 (30,9 GB) evidência de que a presença de camadas não quantizadas na estratégia mista pode neutralizar parte dos ganhos esperados do INT4.

O DeepSeek-V3.2 representa um caso de estudo em quantização de modelos de escala extrema. Com 690 bilhões de parâmetros em FP8, o modelo foi posteriormente quantizado para NVFP4 pela NVIDIA e Microsoft para deployment na infraestrutura Azure Foundry, reduzindo o tamanho de 690 GB para 415 GB enquanto mantém acurácia alinhada com o checkpoint FP8 original em benchmarks industriais padrão. Este caso demonstra que a quantização de modelos na escala de centenas de bilhões de parâmetros é não apenas viável, mas economicamente necessária para tornar o deployment sustentável.

A NVIDIA disponibilizou checkpoints NVFP4 pré-calibrados para uma coleção crescente de modelos no Hugging Face incluindo Llama 4 Scout 17B-16E, Llama 3.3 70B, Llama 3.1 405B, DeepSeek-R1, DeepSeek-R1-0528, DeepSeek-V3.2 e Mistral Large 3 de 675B sinalizando que a NVFP4 está se tornando um formato de distribuição de primeira classe para produção em hardware Blackwell.

Quantização para dispositivos de borda

Uma das fronteiras mais ativas da quantização é o deployment de LLMs em dispositivos de borda smartphones, computadores pessoais, dispositivos IoT e sistemas embarcados. O interesse é motivado por considerações de privacidade, latência e disponibilidade offline.

O estudo publicado no ACM Transactions on Internet of Things (2025), “Sustainable LLM Inference for Edge AI”, apresenta resultados de 28 versões quantizadas de LLMs em um Raspberry Pi 4 com 4 gigabytes de RAM um dispositivo que, em precisão plena, não conseguiria sequer carregar um modelo de linguagem moderno. Os modelos avaliados incluem variantes das famílias Gemma 2, Llama 3.2 e Qwen 2.5. As variantes q3 e q4 cortam o consumo de energia em até 79% comparadas ao FP16 em alguns modelos mas, contraintuitivamente, quantização extrema às vezes aumenta o consumo de energia devido a overheads de processamento de descompressão.

Um estudo mais recente, publicado em março de 2026 no arXiv e intitulado “A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources”, avaliou modelos em hardware Windows usando as ferramentas de medição de energia Windows Performance Recorder e WPA. O framework de avaliação adotado avalia três dimensões simultaneamente: capacidade do modelo (acurácia em benchmarks), eficiência de deployment (throughput e latência) e utilização de recursos do sistema (memória RSS e consumo de CPU). Os autores observam que a maioria dos estudos anteriores concentra apenas um subconjunto dessas dimensões, o que produz conclusões parciais sobre a viabilidade real de edge AI.

O desafio para edge vai além da memória: processadores ARM e Qualcomm têm suporte nativo a operações de inteiro, mas o suporte a FP8 e NVFP4 é limitado ao hardware de servidor Blackwell mais recente. Na prática, quantização para edge frequentemente usa INT4 e INT8, com o ecossistema llama.cpp e seu formato GGUF sendo o caminho mais acessível suportando heterogeneous bit allocation (diferentes precisões para diferentes matrizes de pesos), pós-quantização de otimização convexa e busca perturbativa para escapar de mínimos locais.

A fronteira do ultra-baixo bit: 2 bits e além

A pesquisa em quantização de ultra-baixo bit 2 bits e 1 bit avançou significativamente desde 2023 e permanece ativa em 2026, com resultados que, há poucos anos, teriam sido considerados impossíveis.

O paper “The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits” propõe usar apenas 1,58 bits em média por peso representando cada parâmetro com apenas três valores possíveis (-1, 0, +1). Quando o treinamento é adaptado a este nível extremo de precisão desde o início via QAT, os modelos resultantes mantêm capacidades surpreendentemente robustas. O BiLLM, apresentado no ICML 2024, conseguiu aplicar quantização pós-treinamento binária ao LLaMA-2 de 70 bilhões de parâmetros com média de apenas 1,08 bit por parâmetro.

O pipeline de QAT de dois estágios apresentado em 2025 e em revisão no OpenReview representa o estado da arte mais recente nesta direção: um Qwen3-8B quantizado para 2 bits via este pipeline supera as baselines de PTQ em 50,45% em cinco benchmarks de raciocínio e supera o BitNet-2B4T modelo especializado em ultra-baixo bit em cerca de 2% em raciocínio matemático. O primeiro estágio usa calibração de domínio misto para preservar capacidades essenciais; o segundo usa fine-tuning com objetivos inspirados em aprendizado por reforço para restaurar capacidades de raciocínio. Este trabalho demonstra que a fronteira entre PTQ e QAT está se tornando mais porosa, com pipelines que combinam elementos de ambos.

O NVFP4 da NVIDIA representa uma direção alternativa: em vez de usar formatos de inteiro de 4 bits simples, emprega representação de ponto flutuante com escalonamento hierárquico para preservar mais fidelidade numérica nos mesmos 4 bits. Os resultados mostram que modelos Qwen3 podem atingir mais de 99% de recuperação de acurácia em NVFP4, enquanto modelos LLaMA3.1-8B ficam ligeiramente abaixo. Esta diferença sugere que a robustez à quantização ultra-agressiva é propriedade da arquitetura, não apenas do tamanho.

Limites atuais e desafios em aberto

Apesar do progresso expressivo, a quantização enfrenta desafios genuínos que a pesquisa ainda não resolveu de forma satisfatória.

O problema da generalização entre arquiteturas permanece relevante. O PTQ-Bench (2025) documenta que métodos como AWQ e OmniQuant, que apresentam excelente performance em modelos da família LLaMA, mostram baixa capacidade de generalização para arquiteturas MoE e modelos de estado como Mamba. O caso do Qwen3 reforça este ponto: a família mostrou degradação mais pronunciada em baixo bit do que o LLaMA3, apesar de ter capacidades de raciocínio superiores em precisão plena. Nenhum método atualmente domina em todas as arquiteturas.

O maturidade desigual dos kernels de software é um gargalo operacional crescente. O benchmark de kernels FP4 em GPUs Blackwell identificou uma diferença de 145 TFLOPS entre SGLang e vLLM para o mesmo modelo e hardware não porque o hardware seja diferente, mas porque os kernels do vLLM para FP4 ainda são menos otimizados. Em cargas de trabalho de batch 1, o SGLang foi 1,32 vezes mais rápido, e o SGLang FP4 foi 2,23 vezes mais rápido que o SGLang BF16 em batch 128. Isso significa que o ganho prático do NVFP4 sobre FP8 ou BF16 depende diretamente de qual framework de serving é usado uma complexidade operacional que não existia com formatos mais antigos.

A questão do “custo de desempacotamento” (unpacking tax) é um fenômeno que a análise de 2026 sobre tradeoffs de quantização em produção descreve como crítico: enquanto reduzir o formato de pesos de FP16 para INT4 reduz teoricamente o movimento de memória por um fator de 4, o ganho real de throughput depende do tamanho do batch. Em batch 1 onde a inferência interativa ocorre a inferência de LLMs é dominada pela largura de banda de memória, não pela capacidade computacional, e a quantização ajuda muito. Em batches grandes onde o sistema se torna compute-bound a overhead de descompressão pode neutralizar parte dos ganhos. O benefício da quantização, portanto, não é uniforme: é maior exatamente no caso de uso de chatbot individual e menor em sistemas de serving de alto throughput com batching agressivo.

A avaliação inadequada de capacidades emergentes permanece um problema metodológico. Benchmarks padrão como MMLU, GSM8K e HumanEval capturam bem a degradação em tarefas de formato fechado, mas subestimam sistematicamente os danos à qualidade em geração livre, reasoning chains longas e alinhamento. Modelos quantizados que passam em todos os benchmarks padronizados podem ainda mostrar comportamento problemático em deployment real um desafio que o campo não resolveu.

A quantização de modelos é uma das técnicas mais consequentes da engenharia de inteligência artificial contemporânea e, em 2026, está mais madura, mais bem suportada por hardware dedicado e mais integrada ao ciclo de vida dos modelos do que em qualquer momento anterior.

O quadro empírico consolidado pode ser resumido da seguinte forma:

Em quantização INT8 ou FP8, aplicada corretamente com PTQ e calibração adequada, a degradação de qualidade é negligível para a grande maioria das tarefas práticas incluindo conversação, conhecimento geral e raciocínio de complexidade moderada. O benchmark do Qwen3-32B em INT8 mostrou apenas 0,04% de queda em relação ao BF16. O FP8 com hardware dedicado entrega 3,5 vezes mais throughput do que FP16 com menos de 0,5% de perda de acurácia. Não há justificativa técnica para operar modelos em FP16 ou BF16 em produção quando FP8 é suportado pelo hardware disponível.

Em quantização INT4 ou NVFP4, a situação é mais nuançada. Para modelos com mais de 13 bilhões de parâmetros, os melhores métodos atingem resultados próximos ao baseline em tarefas de conversação e conhecimento geral. O Qwen3-32B em INT4 reteve 98,1% da capacidade no MMLU-Pro e entregou 2,69 vezes mais throughput. Raciocínio matemático, seguimento de instruções complexas, geração em contextos muito longos e reasoning chains extensas são mais sensíveis e requerem avaliação cuidadosa antes do deployment. O NVFP4 em hardware Blackwell estende estes benefícios a formatos de 4 bits com menor degradação do que INT4 simples, mas exige migração de hardware.

Em quantização abaixo de 4 bits, o campo está em transição. Enquanto o PTQ em 2 e 3 bits ainda produz degradação significativa em modelos menores, pipelines QAT especializados demonstraram resultados que, há dois anos, seriam considerados impossíveis. A fronteira está sendo empurrada, mas a consistência entre arquiteturas, tarefas e tamanhos de modelo ainda não é garantida.

O tema central que une todos esses desenvolvimentos é a democratização: o que antes exigia 16 GPUs pode hoje rodar em 2 ou 4, com qualidade percebida equivalente pelo usuário final. O que antes era exclusivo de provedores de nuvem com infraestrutura massiva pode agora rodar em um laptop com GPU de consumidor ou em um servidor de borda com hardware modesto. Esta democratização não é incidental é o objetivo explicitamente declarado dos pesquisadores que desenvolveram SmoothQuant, AWQ, GPTQ, NVFP4 e suas sucessoras.

A quantização, em última análise, não é sobre sacrificar qualidade. É sobre descobrir que grande parte dessa qualidade estava sendo sustentada por precisão que nunca foi necessária e redirecionar o hardware economizado para servir mais usuários, mais rápido, a menor custo.

Fontes

Nagel, M. et al. (2021). A Survey of Quantization Methods for Efficient Neural Network Inference. Low-Power Computer Vision, Chapter 5.
https://arxiv.org/abs/2103.13630
Frantar, E. et al. (2023). GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. ICLR 2023.
https://arxiv.org/abs/2210.17323
Lin, J. et al. (MLSys 2024). AWQ: Activation-Aware Weight Quantization for LLM Compression and Acceleration. MIT Han Lab.
https://arxiv.org/abs/2306.00978
Xiao, G. et al. (ICML 2023). SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models.
https://arxiv.org/abs/2211.10438
Jacob, B. et al. (CVPR 2018). Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference.
https://arxiv.org/abs/1712.05877
Ding, J. et al. (ACM, 2025). Survey of Quantization-Aware Training (QAT) Applications in Deep Learning Quantization. Proceedings AICSS 2025.
https://dl.acm.org/doi/full/10.1145/3776759.3776826
AIMultiple Research (Janeiro 2026). LLM Quantization: BF16 vs FP8 vs INT4 — Benchmarks com Qwen3-32B em H100.
https://research.aimultiple.com/llm-quantization/
Jarvislabs (2026). The Complete Guide to LLM Quantization with vLLM: Benchmarks & Best Practices.
https://docs.jarvislabs.ai/blog/vllm-quantization-complete-guide-benchmarks
Red Hat Developer (Outubro 2024). We Ran Over Half a Million Evaluations on Quantized LLMs — Here’s What We Found.
https://developers.redhat.com/articles/2024/10/17/we-ran-over-half-million-evaluations-quantized-llms
Red Hat Developer (Fevereiro 2026). Accelerating Large Language Models with NVFP4 Quantization.
https://developers.redhat.com/articles/2026/02/04/accelerating-large-language-models-nvfp4-quantization
Microsoft Azure AI Foundry (Fevereiro 2026). Unlocking High-Performance Inference for DeepSeek with NVFP4 on NVIDIA Blackwell.
https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/…
NVIDIA Technical Blog (2025). NVIDIA Blackwell Ultra Sets New Inference Records in MLPerf Debut.
https://developer.nvidia.com/blog/nvidia-blackwell-ultra-sets-new-inference-records-in-mlperf-debut/
NVIDIA Technical Blog (2025). NVIDIA Blackwell Architecture Sweeps MLPerf Training v5.1 Benchmarks.
https://developer.nvidia.com/blog/nvidia-blackwell-architecture-sweeps-mlperf-training-v5-1-benchmarks/
Spheron Network (Março 2026). FP4 Quantization on Blackwell GPUs: Throughput, Cost, and When It’s Worth It.
https://www.spheron.network/blog/fp4-quantization-blackwell-gpu-cost/
arXiv:2505.02214 (Maio 2025). An Empirical Study of Qwen3 Quantization — PTQ 2 a 8 bits em famílias Qwen3.
https://arxiv.org/html/2505.02214v1
arXiv:2509.23202 (2025). Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization — Avaliação de NVFP4, MXFP4 em Llama-3 e Qwen-3 com QuTLASS.
https://arxiv.org/html/2509.23202
Hugging Face Blog (2026). TFLOPS Gap: Why FP4 MoE Kernel Engineering Matters on Blackwell.
https://huggingface.co/blog/apsys/blackwell-nvfp4-comparison
ICAIR 2025 Conference Paper. Quantization Methods for Energy Efficient LLM Deployments — Avaliação de 6 métodos na família Qwen3.
https://papers.academic-conferences.org/index.php/icair/article/view/4367
Ionio AI Blog (2025). Benchmarking Quantized LLMs: What Works Best for Real Tasks? — Avaliação de Qwen2.5, DeepSeek, Mistral e LLaMA 3.3.
https://www.ionio.ai/blog/llm-quantize-analysis
Husom et al. / ACM Transactions on Internet of Things (2025). Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency.
https://dl.acm.org/doi/10.1145/3767742
arXiv:2505.15030 (2025 / 2026). A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources.
https://arxiv.org/html/2505.15030v5
OpenReview (2025, em revisão). Towards Quantization-Aware Training — Pipeline QAT de 2 bits para Qwen3-8B superando PTQ em 50,45%.
https://openreview.net/pdf/ee0ea14cd2283b1fee1902a6811796b443849c5c.pdf
Kaitchup Substack (2026). Qwen3.5 Quantization: Similar Accuracy, More Thinking — Comparação BF16, FP8, INT4, NVFP4.
https://kaitchup.substack.com/p/qwen35-quantization-similar-accuracy
Ma, J. et al. (2024). The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits. arXiv:2402.17764.
https://arxiv.org/abs/2402.17764
PTQ-Bench (arXiv, 2025). Benchmarking Post-Training Quantization in LLMs. arXiv:2502.13178.
https://arxiv.org/pdf/2502.13178

AI Fusion Center