Como escolher entre GPU e CPU para inferência no seu caso de uso

O dilema que todo desenvolvedor enfrenta

Imagine que você acabou de treinar um modelo de linguagem impressionante. Ele funciona perfeitamente no seu ambiente de desenvolvimento, mas agora você precisa colocá-lo em produção. De repente, você se vê diante de uma escolha aparentemente simples, mas que pode custar milhares de dólares e comprometer toda a experiência do usuário: devo usar GPU ou CPU para fazer a inferência?

Esta não é apenas uma questão técnica. É uma decisão estratégica que afeta custos, velocidade, consumo de energia e até mesmo a viabilidade do seu projeto. E a resposta não é sempre a mesma para todos os casos.

Nos últimos anos, a explosão dos modelos de deep learning trouxe consigo uma corrida armamentista de hardware. GPUs se tornaram sinônimo de inteligência artificial, mas será que são sempre a melhor escolha? Pesquisas recentes de 2025 e 2026 mostram que a realidade é muito mais nuançada do que parece.

A revolução silenciosa das GPUs

Quando falamos de GPUs para inferência, estamos falando de uma arquitetura fundamentalmente diferente das CPUs tradicionais. Enquanto uma CPU moderna possui entre 8 e 64 núcleos otimizados para executar tarefas sequenciais complexas, uma GPU pode ter milhares de núcleos menores, todos trabalhando em paralelo.

Estudos recentes demonstram que GPUs podem acelerar o treinamento de modelos de deep learning em até 246 vezes quando comparadas com CPUs, especialmente em modelos leves. Para modelos de tamanho médio como VGG16 e ResNet18, a aceleração varia entre 51 e 116 vezes, enquanto modelos generativos complexos como CycleGAN ainda conseguem melhorias de 11 vezes.

Mas aqui está o segredo que poucos te contam: essa vantagem massiva no treinamento nem sempre se traduz em vantagens equivalentes durante a inferência. E é exatamente aí que mora o perigo de tomar decisões baseadas apenas em benchmarks de treinamento.

O poder oculto das CPUs modernas

As CPUs não ficaram paradas enquanto as GPUs roubavam os holofotes. Processadores modernos como os Intel Xeon e AMD EPYC incorporaram instruções especializadas para operações de deep learning, como AVX-512 e AMX (Advanced Matrix Extensions).

Pesquisas de 2025 sobre eficiência energética em dispositivos de borda revelam algo surpreendente: em muitos cenários de inferência com tamanhos de lote pequenos, o consumo de energia usando CPU é menor do que usando GPU. Isso torna a inferência em CPU mais atraente para aplicações alimentadas por bateria e dispositivos edge.

Além disso, CPUs oferecem vantagens significativas em termos de flexibilidade. Elas podem executar código arbitrário sem penalidades, lidar com lógica condicional complexa e alternar entre diferentes tipos de workloads sem os custos de transferência de dados que assolam as GPUs.

O fator tamanho de lote: o divisor de águas

Se existe um único fator que determina se você deve usar GPU ou CPU para inferência, esse fator é o tamanho do lote (batch size). E aqui está onde a maioria das pessoas erra.

GPUs são máquinas de processamento paralelo. Elas brilham quando você precisa processar muitas requisições simultaneamente. Estudos de 2025 sobre latência e throughput mostram que GPUs demonstram variações de performance de até 3.7 vezes entre diferentes arquiteturas, dependendo do tamanho do lote e do comprimento da sequência.

Quando você está processando um único pedido de inferência por vez, como em um chatbot respondendo a um usuário individual, a GPU fica subutilizada. É como usar um ônibus de 50 lugares para transportar uma única pessoa. Você paga pelo ônibus inteiro, mas usa apenas um assento.

Por outro lado, se você está processando milhares de imagens simultaneamente em um pipeline de visão computacional, a GPU se torna imbatível. Cada um daqueles milhares de núcleos pode trabalhar em uma imagem diferente ao mesmo tempo.

Latência versus throughput: escolha sua batalha

Aqui está outra verdade inconveniente: você não pode otimizar para latência e throughput ao mesmo tempo. Você precisa escolher.

Latência é o tempo que leva para processar uma única requisição do início ao fim. Se você está construindo um assistente virtual que precisa responder instantaneamente, latência é sua prioridade. Neste cenário, CPUs frequentemente vencem, especialmente para modelos menores e requisições individuais.

Throughput é quantas requisições você pode processar por segundo no total. Se você está processando milhões de transações financeiras para detecção de fraude, throughput é o que importa. Aqui, GPUs reinam supremas.

Pesquisas de 2025 sobre otimização de transformers para baixa latência mostram que técnicas como quantização e pruning podem reduzir significativamente a latência de inferência e melhorar o throughput, mas os benefícios variam drasticamente entre CPU e GPU.

O custo real: além do preço do hardware

Quando você compara o preço de uma GPU de servidor como a NVIDIA A100 (que pode custar mais de 10 mil dólares) com um processador Intel Xeon (alguns milhares de dólares), pode parecer que a CPU é mais barata. Mas essa matemática é enganosa.

O custo real inclui consumo de energia, refrigeração, espaço no data center e, mais importante, utilização. Uma GPU que processa 1000 requisições por segundo pode ser mais barata por requisição do que uma CPU que processa apenas 10.

Análises recentes de modelagem de custo e performance para treinamento e inferência de modelos de linguagem grandes mostram que o custo total de propriedade depende fortemente do padrão de uso. Para cargas de trabalho com alta utilização e grandes lotes, GPUs podem ser até 10 vezes mais econômicas por inferência.

Mas há um porém: GPUs têm custos fixos altos. Se sua aplicação tem tráfego variável ou baixo volume, você pode estar pagando por uma Ferrari que fica parada na garagem a maior parte do tempo.

Dispositivos de borda: onde as regras mudam completamente

Quando saímos do confortável mundo dos data centers e entramos no território dos dispositivos de borda, tudo muda. Smartphones, drones, câmeras inteligentes e dispositivos IoT têm restrições severas de energia, tamanho e custo.

Pesquisas de 2025 sobre inferência eficiente em dispositivos de borda demonstram que CPUs integradas podem ser até 5.70 vezes mais eficientes em termos de energia do que GPUs discretas em certos cenários. Para dispositivos alimentados por bateria, isso pode significar a diferença entre 2 horas e 10 horas de operação.

Além disso, o mercado desenvolveu soluções híbridas fascinantes. Processadores como o Apple M-series e os chips Qualcomm Snapdragon integram CPUs, GPUs e aceleradores especializados (NPUs) no mesmo chip. Estudos recentes sobre dispositivos de borda integrados CPU-GPU mostram que essa abordagem híbrida pode oferecer o melhor dos dois mundos.

A estratégia inteligente aqui é a partição dinâmica de tarefas: usar a CPU para camadas leves e lógica de controle, enquanto delega operações matriciais pesadas para a GPU ou NPU integrada.

Modelos transformers: o caso especial que domina a IA moderna

Se você está trabalhando com modelos baseados em transformers, como GPT, BERT ou seus derivados, você está lidando com um caso especial que merece atenção particular.

Transformers são compostos principalmente de operações de multiplicação de matrizes massivas, exatamente o tipo de operação para a qual GPUs foram otimizadas. Pesquisas de 2026 sobre algorítmica de transformers mostram que a implementação eficiente em hardware é crítica para o desempenho.

No entanto, transformers também têm uma característica peculiar: a fase de geração autoregressiva. Quando um modelo de linguagem está gerando texto palavra por palavra, cada nova palavra depende de todas as anteriores. Isso cria uma dependência sequencial que limita o paralelismo, mesmo em GPUs.

Para transformers pequenos e médios (até alguns bilhões de parâmetros) executando em lotes pequenos, CPUs modernas com otimizações específicas podem ser surpreendentemente competitivas. Mas quando você escala para modelos com dezenas ou centenas de bilhões de parâmetros, GPUs se tornam praticamente obrigatórias.

A questão da memória: o gargalo invisível

Existe um aspecto da inferência que frequentemente é negligenciado até que se torna um problema crítico: a largura de banda de memória.

Modelos modernos de deep learning são limitados pela memória, não pela computação. Isso significa que o tempo de inferência é frequentemente determinado pela velocidade com que você pode mover dados da memória para os processadores, não pela velocidade de processamento em si.

GPUs modernas como a NVIDIA H100 possuem largura de banda de memória de mais de 3 TB/s usando memória HBM (High Bandwidth Memory). CPUs típicas têm entre 100-200 GB/s. Para modelos grandes, essa diferença é devastadora.

Mas há uma reviravolta: se seu modelo cabe inteiramente na cache L3 da CPU, você pode alcançar latências extremamente baixas que GPUs simplesmente não conseguem igualar, devido aos custos de transferência de dados entre CPU e GPU.

Batching dinâmico: a técnica que muda tudo

Uma das inovações mais importantes para inferência eficiente em GPU é o batching dinâmico. Em vez de processar requisições uma por vez ou esperar acumular um lote fixo, sistemas modernos agrupam requisições dinamicamente conforme elas chegam.

Estudos de 2025 sobre estratégias de batching dinâmico para inferência eficiente em termos de energia mostram que essa técnica pode melhorar drasticamente a utilização da GPU e reduzir custos. A distribuição de frequência por tamanho de lote e o comportamento de batching afetam diretamente a latência, throughput, consumo de energia e utilização da GPU.

Frameworks modernos como NVIDIA TensorRT, vLLM e TorchServe implementam batching dinâmico sofisticado. Eles podem aceitar requisições individuais e agrupá-las em milissegundos, obtendo os benefícios de throughput da GPU enquanto mantêm latências aceitáveis.

Para CPUs, o batching dinâmico é menos crítico porque o overhead de processar requisições individuais é menor. Mas ainda pode trazer benefícios através de melhor utilização de cache e instruções vetoriais.

Quantização e compressão: o multiplicador de força

Tanto CPUs quanto GPUs se beneficiam enormemente de técnicas de quantização, que reduzem a precisão numérica dos modelos de 32 bits para 16, 8 ou até 4 bits.

GPUs modernas possuem aceleradores especializados para inferência em precisão reduzida. Os Tensor Cores da NVIDIA podem executar operações INT8 até 4 vezes mais rápido que FP32, e operações INT4 ainda mais rápido.

CPUs também se beneficiam, mas de forma diferente. Instruções VNNI (Vector Neural Network Instructions) da Intel aceleram operações INT8, enquanto AMX pode acelerar operações de matriz em baixa precisão.

Pesquisas sobre métricas e avaliações para eficiência computacional e sustentável de IA mostram que quantização pode reduzir tanto a latência quanto o consumo de energia, mas os trade-offs entre precisão, latência, energia e carbono variam significativamente entre plataformas de hardware.

A chave é que quantização pode tornar viável executar modelos em CPU que de outra forma exigiriam GPU, ou permitir que GPUs processem lotes maiores, multiplicando o throughput.

Multi-tenancy: compartilhando recursos de forma inteligente

Em ambientes de produção modernos, você raramente está executando apenas um modelo. Você pode ter dezenas ou centenas de modelos diferentes que precisam compartilhar os mesmos recursos de hardware.

Pesquisas de 2022 sobre inferência multi-tenant em GPU mostram que múltiplas consultas de deep learning podem ser estrategicamente co-localizadas para execução concorrente eficiente. Esta é uma diferença chave entre computação GPU multi-tenant versus multi-tenancy tradicional em CPU.

GPUs modernas suportam particionamento através de tecnologias como NVIDIA MIG (Multi-Instance GPU), que permite dividir uma única GPU física em múltiplas instâncias isoladas. Isso é crucial para provedores de serviços em nuvem e empresas que executam múltiplos modelos.

CPUs, por outro lado, têm décadas de maturidade em virtualização e isolamento de recursos. Containers e máquinas virtuais funcionam perfeitamente, e o overhead é mínimo.

O papel dos aceleradores especializados

A conversa CPU versus GPU está se tornando mais complexa com o surgimento de aceleradores especializados. Google TPUs, AWS Inferentia, Apple Neural Engine e dezenas de startups estão criando chips otimizados especificamente para inferência de deep learning.

Esses aceleradores frequentemente oferecem melhor eficiência energética e custo por inferência do que GPUs de propósito geral, mas com menos flexibilidade. Eles são otimizados para padrões específicos de acesso à memória e tipos de operações comuns em redes neurais.

A decisão aqui não é mais binária entre CPU e GPU, mas uma escolha entre múltiplas opções, cada uma com seus próprios trade-offs. A tendência é que sistemas futuros usem uma combinação heterogênea: CPUs para controle e lógica, GPUs para cargas de trabalho paralelas pesadas, e aceleradores especializados para inferência de alto volume.

Casos de uso reais: quando usar o quê

Vamos tornar isso concreto com cenários do mundo real.

Use CPU quando:

Você está processando requisições individuais com baixa latência como prioridade máxima
Seu modelo é pequeno o suficiente para caber na cache da CPU
Você tem tráfego variável ou baixo volume que não justifica o custo fixo de uma GPU
Você está operando em dispositivos de borda com restrições severas de energia
Seu workload inclui muita lógica condicional e código não-neural
Você precisa de máxima flexibilidade e facilidade de deployment
Custo de hardware inicial é uma restrição crítica

Use GPU quando:

Você está processando grandes lotes de dados simultaneamente
Throughput é mais importante que latência para requisições individuais
Você está trabalhando com modelos grandes (bilhões de parâmetros ou mais)
Seu workload é consistente e de alto volume
Você está executando modelos baseados em transformers de tamanho médio a grande
Você pode implementar batching dinâmico efetivo
Custo por inferência é mais importante que custo de hardware inicial

Use uma abordagem híbrida quando:

Você tem múltiplos modelos com características diferentes
Seu tráfego tem padrões variáveis ao longo do dia
Você precisa otimizar tanto para latência quanto para throughput
Você está em um ambiente de borda com processadores integrados CPU-GPU
Você pode particionar seu modelo em partes que se beneficiam de diferentes tipos de hardware

Frameworks e ferramentas: facilitando a decisão

A boa notícia é que você não precisa reinventar a roda. Existem frameworks maduros que abstraem muitas dessas complexidades.

Para inferência em GPU, TensorRT da NVIDIA é o padrão ouro. Ele otimiza automaticamente modelos para GPUs específicas, implementa batching dinâmico e suporta quantização avançada. Alternativas como vLLM se especializaram em modelos de linguagem grandes e oferecem otimizações impressionantes.

Para CPU, Intel OpenVINO e ONNX Runtime oferecem otimizações específicas para processadores Intel e AMD. PyTorch e TensorFlow também têm backends otimizados para CPU que aproveitam instruções modernas como AVX-512.

Frameworks de serving como TorchServe, TensorFlow Serving e Triton Inference Server da NVIDIA suportam tanto CPU quanto GPU e podem até fazer roteamento inteligente de requisições baseado em características do modelo e da requisição.

Medindo e otimizando: você não pode melhorar o que não mede

Independente da sua escolha inicial, você precisa medir o desempenho real no seu workload específico. Benchmarks sintéticos são úteis, mas não substituem testes com dados reais.

Métricas críticas para monitorar incluem latência no percentil 50, 95 e 99 (não apenas a média), throughput sustentado, utilização de hardware, consumo de energia e custo por inferência.

Pesquisas recentes sobre modelagem de performance e custo enfatizam a importância de considerar não apenas a velocidade bruta, mas também a eficiência energética e o impacto ambiental. Em 2026, sustentabilidade não é mais opcional, é uma exigência de negócio.

Ferramentas como NVIDIA Nsight Systems, Intel VTune e profilers integrados em frameworks de deep learning podem revelar gargalos que não são óbvios à primeira vista.

O futuro: para onde estamos indo

A linha entre CPU e GPU está se tornando cada vez mais borrada. CPUs estão incorporando aceleradores especializados, enquanto GPUs estão adicionando mais capacidades de propósito geral.

Arquiteturas como o NVIDIA Grace Hopper integram CPU e GPU no mesmo pacote com interconexões de altíssima velocidade, eliminando muitos dos custos de transferência de dados que historicamente penalizavam workloads híbridos.

Pesquisas de 2025 sobre caracterização e otimização de workloads de inferência de modelos de linguagem grandes em arquiteturas acopladas CPU-GPU mostram que essas arquiteturas híbridas podem oferecer o melhor dos dois mundos, especialmente para tamanhos de lote onde alta largura de banda de memória é crucial.

Além disso, a tendência para modelos mais eficientes através de técnicas como destilação de conhecimento, pruning estruturado e arquiteturas esparsas está tornando viável executar modelos cada vez mais poderosos em hardware mais modesto.

Tomando a decisão: um framework prático

Aqui está um processo passo a passo para tomar sua decisão:

Passo 1: Defina seus requisitos não-negociáveis

Qual é sua latência máxima aceitável? Qual throughput mínimo você precisa? Qual é seu orçamento de hardware e operacional? Quais são suas restrições de energia e espaço físico?

Passo 2: Caracterize seu workload

Qual o tamanho do seu modelo? Quantos parâmetros? Que tipo de arquitetura? Qual será o padrão de tráfego? Requisições individuais ou lotes? Consistente ou variável?

Passo 3: Faça benchmarks realistas

Teste seu modelo real com dados reais em ambas as plataformas. Não confie apenas em benchmarks publicados. Meça latência, throughput, utilização e custo.

Passo 4: Calcule o custo total de propriedade

Inclua hardware, energia, refrigeração, manutenção e custos de oportunidade. Projete para pelo menos 3 anos.

Passo 5: Considere a trajetória futura

Como seu workload vai evoluir? Você vai adicionar mais modelos? O tráfego vai crescer? Novos requisitos podem surgir?

Passo 6: Implemente e monitore

Comece com a solução que faz mais sentido, mas instrumente tudo. Esteja preparado para ajustar ou até mudar completamente se os dados mostrarem que você errou.

Erros comuns a evitar

Ao longo dos anos, vi inúmeras equipes cometerem os mesmos erros. Aqui estão os mais comuns:

Erro 1: Otimizar prematuramente

Não compre uma GPU cara antes de validar que você realmente precisa dela. Comece com CPU, meça, e escale quando necessário.

Erro 2: Ignorar custos operacionais

Uma GPU barata que fica ociosa 90% do tempo é mais cara que uma CPU mais cara que está sempre ocupada.

Erro 3: Confundir treinamento com inferência

O que funciona para treinamento não necessariamente funciona para inferência. São workloads fundamentalmente diferentes.

Erro 4: Negligenciar a latência de transferência de dados

Mover dados entre CPU e GPU, ou entre memória e processador, frequentemente domina o tempo total. Não ignore isso.

Erro 5: Não considerar a curva de aprendizado

Otimizar inferência em GPU requer expertise específica. Considere o custo de adquirir ou contratar esse conhecimento.

Erro 6: Ignorar alternativas

Às vezes, a melhor solução não é CPU nem GPU, mas um acelerador especializado ou um serviço gerenciado em nuvem.

A decisão é sua, mas não precisa ser permanente

A beleza da infraestrutura moderna é que você não está preso a uma escolha para sempre. Containers e orquestração tornam relativamente fácil migrar entre diferentes tipos de hardware conforme suas necessidades evoluem.

Muitas organizações começam com CPU para validar o produto e entender os padrões de uso, depois migram para GPU quando o volume justifica o investimento. Outras fazem o oposto, começando com GPU para garantir que podem lidar com picos de demanda, depois otimizando para CPU conforme entendem melhor seu workload.

A chave é instrumentação e monitoramento. Se você não está medindo latência, throughput, utilização e custo continuamente, você está voando cego. E em um campo que evolui tão rapidamente quanto inferência de deep learning, voar cego é uma receita para o desastre.

Não existe resposta única

Se você chegou até aqui esperando uma resposta definitiva sobre se deve usar GPU ou CPU para inferência, tenho más notícias: não existe uma resposta única. E isso é na verdade uma boa notícia, porque significa que você tem opções.

A escolha entre GPU e CPU para inferência depende de uma matriz complexa de fatores: tamanho do modelo, padrão de tráfego, requisitos de latência e throughput, restrições de custo e energia, e trajetória futura do projeto.

GPUs brilham em cenários de alto throughput com grandes lotes, especialmente para modelos grandes baseados em transformers. CPUs são imbatíveis para baixa latência em requisições individuais, workloads variáveis e ambientes com restrições de energia.

Mas talvez a lição mais importante seja esta: a tecnologia está evoluindo rapidamente. O que é verdade hoje pode não ser verdade amanhã. Arquiteturas híbridas, aceleradores especializados e técnicas de otimização estão constantemente mudando o cenário.

Sua melhor estratégia não é fazer a escolha perfeita desde o início, mas construir sistemas flexíveis que podem se adaptar conforme você aprende mais sobre seu workload e conforme a tecnologia evolui. Meça tudo, experimente constantemente e esteja disposto a mudar de direção quando os dados indicarem que é hora.

No final, a escolha entre GPU e CPU não é sobre qual tecnologia é superior. É sobre qual tecnologia é mais adequada para resolver seu problema específico, neste momento específico, com suas restrições específicas. E essa é uma decisão que só você pode tomar.

Fontes

Amin, L. A., Hossain, M. I., Das, R. K., Islam, M., Mukta, S., & Tabbakh, A. (2026). Democratizing AI: A Comparative Study in Deep Learning Efficiency and Future Trends in Computational Processing. arXiv preprint arXiv:2603.20920.
Yu, F., Wang, D., Shangguan, L., Zhang, M., Liu, C., & Chen, X. (2022). A Survey of Multi-Tenant Deep Learning Inference on GPU. arXiv preprint arXiv:2203.09040.
Lee, S., Phanishayee, A., & Mahajan, D. (2025). Forecasting GPU performance for deep learning training and inference. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Szigeti, M., Szénási, S., & Kovács, L. (2025). AI inference speed: the race between CPU, MPS and CUDA backends. 2025 IEEE 25th International Symposium on Computational Intelligence and Informatics.
Sharma, A. (2025). AI Accelerators for Large Language Model Inference: Architecture Analysis and Scaling Strategies. arXiv preprint arXiv:2506.00008.
Khoshsirat, A. (2025). Energy Efficient Edge Computing. Doctoral Thesis, Università degli Studi di Modena e Reggio Emilia.
Wang, W., Li, K., Ji, B., Liu, X., & Yu, J. (2025). A survey of AI inference technologies for on-device systems. IEEE Internet of Things Journal.
Kulkarni, R. C. (2026). Energy-Efficient AI Inference at the Edge: Optimizing Semiconductor Hardware for Small Language Models. International Journal of AI, BigData, Computational and Management Systems.
Zhang, F., Zhang, C., Guan, J., & Zhou, Q. (2025). Breaking the edge: Enabling efficient neural network inference on integrated edge devices. IEEE Transactions on Cloud Computing.
Ngo, D., Park, H. C., & Kang, B. (2025). Edge intelligence: A review of deep neural network inference in resource-limited environments. Electronics, 14(12), 2495.
Li, J., Xu, J., Huang, S., Chen, Y., Li, W., Liu, J., Lian, Y., Pan, J., Ding, L., Zhou, H., Wang, Y., & Dai, G. (2024, revised 2025). Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective. arXiv preprint arXiv:2410.04466.
Kachris, C. (2026). Transformer Algorithmics: A Tutorial on Efficient Implementation of Transformers on Hardware. Preprints.org.
Samson, H. H. (2026). Lightweight Transformer Architectures for Edge Devices in Real-Time Applications. arXiv preprint arXiv:2601.03290.
Guo, W., Kundu, J., Tos, U., Kong, W., Sisto, G., Evenblij, T., & Perumkunnil, M. (2025). System-performance and cost modeling of Large Language Model training and inference. arXiv preprint arXiv:2507.02456.
Vellaisamy, P., Labonte, T., & Chakraborty, S. (2025). Characterizing and optimizing LLM inference workloads on CPU-GPU coupled architectures. IEEE International Symposium on Performance Analysis of Systems and Software.
Liu, H., Liu, X., & Hu, G. (2025). Metrics and evaluations for computational and sustainable AI efficiency. arXiv preprint arXiv:2510.17885.
Park, S., Jeon, S., Lee, C., Jeon, S., Kim, B. S., & Lee, J. (2025). A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency. arXiv preprint arXiv:2505.01658.
Abirami, B., & Vasudevan, V. (2025). Dynamic Task Allocation Framework for Energy-Efficient Deep Learning Inference Using FPGA-GPU Hybrid Systems. International Conference on Data Analytics & Management.
Kristiani, E., Verma, V. K., & Yang, C. T. (2026). Deploying LLM Transformer on Edge Computing Devices: A Survey of Strategies, Challenges, and Future Directions. AI, 7(1), 15.
Samarasinghe Arachchige, S. (2025). Evaluating Dynamic Batching Strategies for Energy-Efficient Inference Serving: A Performance Study. Aalto University.

AI Fusion Center