technology

O próximo trade não é treinamento

A segunda economia da IA será medida no uso diário: inferência, custo por token, latência e margem.

5 de março de 2025

Treinar o monstro impressiona; alimentá-lo todos os dias revela o negócio.

markets

O próximo trade não é treinamento

A segunda economia da IA será medida no uso diário: inferência, custo por token, latência e margem.

A primeira fase da IA generativa foi dominada por treinamento. Modelos maiores, clusters maiores, datasets maiores, benchmarks, lançamentos, parâmetros, laboratórios, narrativas de fronteira. Essa fase é teatral porque o treinamento permite espetáculo. "Construímos o maior." "Superamos o anterior." "Lançamos um modelo." O mercado gosta de grandeza visível. Mas negócios não vivem de treinamento apenas. Vivem de uso repetido.

O próximo trade é inferência. Não como palavra técnica para iniciados, mas como economia diária da IA. Cada pergunta, cada resposta, cada agente, cada copiloto, cada busca, cada resumo, cada chamada de API, cada imagem, cada decisão automatizada consome capacidade. Treinamento é construir a fábrica. Inferência é operar a fábrica todos os dias. O segundo pode ser maior, mais recorrente e mais cruel com custos.

Nvidia, AMD e Palantir são nomes óbvios. Nvidia porque continua no centro do hardware acelerado. AMD porque a inferência pode abrir espaço para alternativas se custo por token, disponibilidade e customização importarem. Palantir porque a inferência corporativa precisa entrar em operação, não apenas responder perguntas soltas. Mas Broadcom, Marvell, Arista, Credo e Coherent talvez expliquem o próximo gargalo.

Broadcom e Marvell podem capturar custom silicon, conectividade e infraestrutura. Arista captura rede. Credo captura interconexão de alta velocidade. Coherent captura componentes ópticos e fotônicos relevantes para transmissão de dados. À medida que inferência cresce, mover dados de forma barata, rápida e eficiente pode ser tão importante quanto processá-los. A fábrica de IA não é um único cérebro. É uma rede de cérebros, memória, comunicação e energia.

Talvez em 2026 o mercado comece a mudar de obsessão. Menos "quantos parâmetros?" Mais "qual custo por token?" Menos "qual benchmark?" Mais "qual margem por chamada?" Menos "qual modelo mais poderoso?" Mais "qual modelo é barato o suficiente para ser usado milhões de vezes?" Essa mudança separa ciência de negócio. O modelo mais impressionante pode não ser o modelo mais lucrativo.

A forma de lucrar é observar a cadeia de inferência. Empresas precisarão reduzir latência, custo, consumo energético e dependência de fornecedor. Haverá espaço para GPUs, aceleradores alternativos, ASICs, redes, switches, óptica, cabos ativos, software de otimização, caching, roteamento de modelos, compressão, quantização, memória e plataformas que escolhem o modelo certo para cada tarefa. A inferência é um problema econômico antes de ser apenas técnico.

Palantir entra porque empresas não querem apenas inferir. Querem inferir sobre dados internos, com permissão, contexto e ação. O valor do token corporativo não está na resposta bonita. Está na decisão que muda operação. Se a IA reduz ciclo de cobrança, evita fraude, prioriza manutenção, melhora logística ou acelera atendimento crítico, o custo por token pode ser justificado. Se apenas gera texto genérico, será esmagado por competição.

A contratese é que inferência pode virar commodity. Modelos menores podem reduzir demanda por hardware caro. Eficiência pode comprimir receita de fornecedores. Hyperscalers podem internalizar silício. Broadcom e Marvell podem ganhar ou perder dependendo de quem captura design. Arista pode enfrentar ciclos de gasto. Credo e Coherent podem ser voláteis. AMD pode continuar atrasada. Palantir pode ser cara. Nvidia pode continuar dominante, mas a margem futura pode ser questionada se clientes buscarem alternativas.

Mas o ponto central é que a IA deixa de ser evento e vira consumo. Quando algo vira consumo, unidade econômica manda. Custo por token, latência, disponibilidade, energia por resposta, taxa de utilização, margem por usuário. A linguagem muda. E quando a linguagem muda, o mercado troca de vencedores ou ao menos amplia o tabuleiro.

O investidor que continuar preso ao treinamento pode perder o próximo deslocamento. Treinamento cria manchete. Inferência cria conta recorrente.

A conta recorrente é onde a verdade mora.

Leo Bentier