13 de setembro de 2024Inteligência Artificial13 min de leitura

"Leis de escala da IA: por que tamanho ainda importa"

Por Schematize Blog · 13 de setembro de 2024

Entenda o que as scaling laws revelam sobre a relação entre dados, parâmetros e computação, o caso Chinchilla, as capacidades emergentes e por que escala continua moldando o desempenho dos modelos de IA.

Por que empresas de IA gastam fortunas treinando modelos cada vez maiores? A resposta está em um conjunto de descobertas empíricas chamadas leis de escala, ou scaling laws. Elas mostram que o desempenho de um modelo de linguagem melhora de forma surpreendentemente previsível à medida que você aumenta seu tamanho, os dados e a computação. Neste artigo, vamos entender o que essas leis dizem, por que importam, o que o famoso experimento Chinchilla mudou e quais são os limites de simplesmente "crescer".

O que são leis de escala

Leis de escala são relações matemáticas que descrevem como o desempenho de um modelo melhora conforme três recursos crescem: o número de parâmetros, a quantidade de dados de treino e o total de computação investido. Kaplan e colaboradores (2020) documentaram que essas relações seguem leis de potência notavelmente suaves e previsíveis ao longo de várias ordens de grandeza.

Em termos simples: se você dobra os recursos certos, a redução do erro do modelo é previsível. Isso é raro em ciência da computação, onde sistemas costumam ter comportamentos abruptos e difíceis de antecipar. Para entender por que esse comportamento aparece, ajuda primeiro saber O que é um LLM (Large Language Model)? e como ele é construído.

A métrica que escala: a perda (loss)

O desempenho aqui é medido pela perda (loss) — uma medida de quão bem o modelo prevê o próximo token. Quanto menor a perda, melhor o modelo prevê o texto. As leis de escala mostram que a perda cai de forma regular conforme parâmetros, dados e computação aumentam, desde que nenhum dos três se torne um gargalo.

Perda ≈ função de potência de (parâmetros, dados, computação)

Mais parâmetros  -> perda menor
Mais dados       -> perda menor
Mais computação  -> perda menor
... mas com retornos decrescentes (lei de potência)

O que significa "lei de potência" na prática

Uma lei de potência tem uma propriedade importante: ela é uma reta em escala logarítmica. Quando você plota a perda contra a computação em um gráfico log-log, os pontos caem quase em linha reta. É essa linearidade que dá previsibilidade — você mede alguns modelos pequenos, traça a reta e extrapola para estimar o desempenho de um modelo muito maior antes de gastar para treiná-lo. Mas a mesma matemática traz a má notícia embutida: como o eixo é logarítmico, cada novo "degrau" de melhoria exige multiplicar os recursos, não somá-los. Sair de perda 3,0 para 2,9 pode custar tanto quanto todo o caminho anterior.

Os três ingredientes da escala

As leis de escala envolvem três recursos que precisam crescer de forma equilibrada.

Parâmetros

Parâmetros são os "botões" ajustáveis do modelo — os pesos aprendidos durante o treino. Mais parâmetros dão ao modelo maior capacidade de representar padrões complexos. Modelos modernos têm de bilhões a centenas de bilhões de parâmetros, viabilizados pela O que é a arquitetura Transformer e por que ela revolucionou a IA, que paraleliza bem o treino em grande escala.

Dados

Mais parâmetros sem dados suficientes levam a overfitting: o modelo memoriza em vez de generalizar. Os dados são contados em tokens, as unidades em que o texto é fatiado. Para entender essa contagem com precisão, vale conferir O que são tokens em IA? Tokenização explicada.

Computação

Computação é o trabalho total gasto no treino, geralmente medido em FLOPs (operações de ponto flutuante). É o recurso que custa dinheiro e energia, e é função tanto do tamanho do modelo quanto da quantidade de dados processados. Uma aproximação útil e bastante citada é que o custo de treino em FLOPs gira em torno de seis vezes o número de parâmetros vezes o número de tokens — uma fórmula simples que deixa claro como parâmetros e dados disputam o mesmo orçamento de computação.

Por que isso mudou a estratégia da IA

Antes das leis de escala, não estava claro se "apenas aumentar o modelo" valia a pena. Talvez houvesse um teto. As scaling laws sugeriram o contrário: dentro das faixas estudadas, maior tende a ser melhor, e de forma previsível.

Isso teve um efeito profundo na indústria. Se você consegue prever que um modelo maior terá menos perda, pode justificar investimentos bilionários antes mesmo de treiná-lo. A previsibilidade reduz o risco, e o risco reduzido libera capital. Foi essa lógica que pavimentou o caminho para modelos como o GPT-3.

Brown e colaboradores (2020) levaram essa ideia ao extremo prático: ao treinar um modelo com 175 bilhões de parâmetros, observaram não só menor perda, mas o surgimento de aprendizado com poucos exemplos — a capacidade de executar tarefas novas a partir de exemplos no próprio prompt. A escala não trouxe só melhora gradual; trouxe capacidades novas.

Uma analogia para os retornos decrescentes

Pense em estudar para uma prova. As primeiras horas de estudo elevam muito sua nota — você sai do zero para o básico sólido. As horas seguintes ainda ajudam, mas cada uma rende menos: do 7 para o 8 custa mais que do 4 para o 7, e do 9 para o 9,5 custa mais ainda. Treinar modelos segue a mesma lógica. Os primeiros ganhos de escala são baratos e dramáticos; arrancar os últimos décimos de perda exige multiplicar dados e computação. Essa é a essência prática de uma lei de potência, e o motivo pelo qual a corrida por modelos cada vez maiores tem um custo que cresce mais rápido que o benefício.

Capacidades emergentes: quando a escala surpreende

Um aspecto fascinante da escala é que algumas habilidades parecem emergir abruptamente quando o modelo cruza certo tamanho. Tarefas que modelos pequenos falham completamente passam a ser resolvidas por modelos maiores, às vezes de forma quase repentina.

Essas capacidades emergentes — raciocínio em múltiplos passos, tradução robusta, seguir instruções complexas — não foram explicitamente programadas. Elas aparecem como subproduto de prever texto em escala suficiente. Isso conecta as leis de escala diretamente ao processo descrito em Como os LLMs são treinados: pré-treino, fine-tuning e RLHF: o pré-treino em larga escala é onde essas habilidades brutas nascem, antes de qualquer alinhamento.

Emergência ou ilusão de medição?

Vale uma nota de cautela honesta: parte da pesquisa recente questiona se a "emergência abrupta" é real ou um artefato de como medimos. Quando a métrica é binária (acertou tudo ou nada), o ganho parece um salto; quando se usa uma métrica contínua e mais granular, a melhora aparece suave e previsível, como as leis de escala sugerem. A lição não é descartar a emergência, mas lembrar que a métrica escolhida molda a história que os dados contam. Para o desenvolvedor, isso reforça a importância de avaliar capacidades de forma cuidadosa, não com testes do tipo tudo-ou-nada.

O caso Chinchilla: o equilíbrio entre dados e parâmetros

Um refinamento importante das leis de escala diz respeito ao equilíbrio entre tamanho do modelo e quantidade de dados. Por algum tempo, a tendência foi crescer parâmetros agressivamente. Estudos posteriores sugeriram que muitos modelos estavam subtreinados: tinham parâmetros demais para a quantidade de dados que viram.

Hoffmann e colaboradores (2022), no trabalho que ficou conhecido como Chinchilla, mostraram isso de forma contundente. Eles treinaram um modelo de 70 bilhões de parâmetros com muito mais dados do que era costume e o viram superar modelos bem maiores treinados com menos dados — para o mesmo orçamento de computação. A conclusão prática: para escalar de forma ótima, parâmetros e tokens de treino devem crescer aproximadamente na mesma proporção. Muitos modelos da geração anterior eram grandes demais e "famintos" por dados.

A lição prática é que computação é um orçamento, e gastá-lo bem significa balancear parâmetros e dados. Um modelo menor treinado com mais dados pode superar um modelo maior treinado com poucos — para o mesmo custo de computação. Isso reorientou parte da indústria para datasets maiores e modelos proporcionalmente mais enxutos, com um benefício adicional decisivo: modelos menores são mais baratos e rápidos de servir em produção, mesmo que tenham custado o mesmo para treinar.

Os limites das leis de escala

Escala não é uma solução universal, e tratá-la assim leva a erros caros.

Retornos decrescentes. Leis de potência implicam que cada ganho exige proporcionalmente mais recursos. Reduzir a perda fica progressivamente mais caro, e em algum ponto o custo deixa de compensar.

Qualidade dos dados importa. As leis assumem dados de qualidade razoável. Inflar o dataset com texto ruim ou repetido não entrega os ganhos prometidos — e pode até prejudicar. A curadoria e a deduplicação de dados se tornaram tão importantes quanto o volume bruto.

Perda não é tudo. Menor perda no pré-treino não garante um produto melhor. Utilidade, segurança e veracidade dependem das etapas de alinhamento, não apenas da escala bruta. Um modelo enorme pode ainda alucinar e desobedecer instruções.

Limites físicos. Há tetos de dados de alta qualidade disponíveis, de energia e de hardware. A escala não pode crescer indefinidamente sem esbarrar nessas barreiras. A própria disponibilidade de texto humano de qualidade na internet é finita — um gargalo que já preocupa os laboratórios.

Para além da escala bruta: as novas fronteiras

Diante desses limites, a indústria passou a buscar ganhos que não vêm apenas de "crescer". Três frentes se destacam: dados de melhor qualidade (curadoria agressiva, dados sintéticos), computação em tempo de inferência (deixar o modelo "pensar mais" ao responder, em vez de só ser maior) e arquiteturas mais eficientes (como misturas de especialistas, que ativam só parte dos parâmetros por token). A mensagem é que as leis de escala continuam valendo, mas a fronteira competitiva se deslocou de "quem tem o maior modelo" para "quem usa cada FLOP com mais inteligência".

Como as leis de escala são descobertas na prática

Vale entender o método, porque ele explica por que confiamos nessas relações. Pesquisadores não treinam um único modelo gigante e torcem; eles treinam uma família de modelos de tamanhos crescentes, sob condições controladas, e medem a perda de cada um. Plotando perda contra recursos, observam se os pontos formam a reta característica da lei de potência. Quando formam — e formam, ao longo de várias ordens de grandeza —, a reta vira uma ferramenta de previsão.

modelos pequenos (baratos de treinar)
   → medir perda de cada um
   → ajustar a reta em escala log-log
   → extrapolar para prever o modelo grande
   → decidir o investimento ANTES de treinar

Essa é a verdadeira utilidade econômica das scaling laws: permitir decisões de bilhões de dólares com base em experimentos baratos. É também por isso que a qualidade dos experimentos pequenos importa tanto — uma reta mal ajustada leva a uma extrapolação cara e errada.

Eficiência de amostra e o papel da arquitetura

Um ponto sutil é que as leis de escala não dizem que qualquer arquitetura escala igual. Elas foram observadas de forma especialmente limpa nos Transformers, e parte do motivo é a eficiência de amostra: o quanto o modelo aprende por token visto. Arquiteturas diferentes têm constantes diferentes na lei de potência — algumas partem de um patamar melhor ou descem mais rápido. É por isso que pesquisa em arquitetura continua relevante mesmo numa era dominada por escala: uma arquitetura mais eficiente desloca toda a curva para baixo, entregando a mesma perda com menos computação. Escala e arquitetura não competem; multiplicam-se.

O que isso significa para quem constrói com IA

Para desenvolvedores, as leis de escala explicam por que modelos maiores costumam ser mais capazes — mas também por que nem sempre vale usá-los. Um modelo menor pode ser suficiente, mais barato e mais rápido para a sua tarefa. A escolha entre modelos é uma decisão de engenharia, não apenas de "pegar o maior".

Além disso, entender escala ajuda a antecipar tendências: à medida que o custo de computação cai e os métodos melhoram, capacidades hoje restritas aos maiores modelos tendem a chegar a modelos menores. Em vez de usar a escala como caixa-preta, técnicas como Fine-tuning de LLMs: quando e como ajustar um modelo permitem extrair mais valor de um modelo de tamanho fixo, adaptando-o ao seu domínio.

Na prática, isso vira um checklist de decisão: estime o tamanho mínimo de modelo que resolve sua tarefa com qualidade aceitável, meça custo e latência, e só suba de porte se a avaliação justificar. "Maior" raramente é a resposta certa para um problema de produção bem definido.

Por que modelos menores estão ficando bons o suficiente

A combinação de Chinchilla com curadoria de dados produziu um efeito que beneficia diretamente o desenvolvedor: modelos relativamente pequenos, treinados com muitos tokens de alta qualidade, alcançam hoje desempenho que há poucos anos exigiria modelos muito maiores. Isso significa que a fronteira do "bom o suficiente" desce de tamanho a cada geração. Tarefas como classificação, extração e sumarização, que antes pediam o maior modelo disponível, passam a rodar bem — e barato — em modelos modestos, às vezes localmente. Acompanhar essa descida é uma vantagem competitiva: revisitar periodicamente se um modelo menor já resolve o que você hoje paga caro para um grande pode cortar custos de forma expressiva sem perda de qualidade.

Escala em inferência: pensar mais em vez de ser maior

Uma virada conceitual recente merece destaque. Por anos, "escalar" significou treinar modelos maiores. Mas há uma segunda dimensão: gastar mais computação no momento da resposta, não do treino. Em vez de um modelo gigante que responde de imediato, um modelo menor pode "pensar" por mais passos — gerar raciocínio intermediário, explorar alternativas e revisar — antes de dar a resposta final. Isso troca custo de treino por custo de inferência, e em muitos casos a troca compensa, especialmente em tarefas de raciocínio.

Para o desenvolvedor, isso abre uma alavanca prática: você pode melhorar resultados não trocando de modelo, mas dando a ele mais espaço para raciocinar — algo que se conecta diretamente a técnicas de prompting que pedem passos explícitos. É mais uma evidência de que "maior" deixou de ser a única — ou a melhor — forma de escalar.

Perguntas frequentes

Modelo maior é sempre melhor? Não. Maior tende a ter menor perda de pré-treino, mas para uma tarefa específica um modelo menor bem escolhido pode ser igualmente bom, além de mais barato e rápido. Avalie no seu caso de uso real.

As leis de escala vão valer para sempre? Elas são empíricas, observadas dentro de certas faixas. Há limites físicos e de dados que eventualmente as dobram. Já há sinais de que ganhos puramente por tamanho estão ficando mais caros, empurrando a pesquisa para qualidade de dados e eficiência.

O que o Chinchilla mudou na prática? Mostrou que muitos modelos eram grandes demais para os dados que viram. Desde então, treina-se com proporções mais equilibradas de parâmetros e tokens, resultando em modelos menores e mais eficientes de servir.

Conclusão

As leis de escala revelaram que o desempenho dos modelos de linguagem melhora de forma previsível conforme crescem parâmetros, dados e computação — uma regularidade que justificou os investimentos massivos da última década e trouxe capacidades emergentes surpreendentes. O caso Chinchilla refinou essa visão, mostrando que equilíbrio entre dados e parâmetros importa tanto quanto tamanho. Mas escala não é mágica: tem retornos decrescentes, depende de dados de qualidade e não substitui o alinhamento. Para quem constrói com IA, a lição é dupla: tamanho ainda importa, mas usá-lo com inteligência importa mais.