10 de fevereiro de 2025Inteligência Artificial14 min de leitura

Como os LLMs são treinados: pré-treino, fine-tuning e RLHF

Por Schematize Blog · 10 de fevereiro de 2025

Entenda as três etapas que transformam um modelo bruto em um assistente útil: do pré-treino massivo ao ajuste por instruções e ao alinhamento com feedback humano.

Quando você conversa com um assistente de IA e recebe uma resposta clara e bem formatada, está colhendo o resultado de um pipeline de treinamento com várias etapas distintas. Um modelo de linguagem não nasce prestativo: ele começa como um previsor estatístico de palavras e só depois é moldado para seguir instruções e dialogar. Neste artigo, vamos percorrer as três grandes fases desse processo — pré-treino, fine-tuning supervisionado e alinhamento com feedback humano — e entender o que cada uma adiciona ao modelo final.

A visão geral do pipeline de treinamento

Treinar um LLM moderno não é um único evento, mas uma sequência de estágios em que cada um aproveita o trabalho do anterior. Antes de mergulhar nos detalhes, vale entender o que é um O que é um LLM (Large Language Model)? e por que esse processo é necessário.

As três fases principais são:

Cada etapa custa progressivamente menos em volume de dados, mas é cada vez mais decisiva para a qualidade percebida do produto final. Um modelo bem pré-treinado e mal alinhado pode parecer incoerente; um modelo modestamente pré-treinado, mas bem alinhado, pode parecer surpreendentemente competente.

Uma analogia ajuda a fixar. Pense no pré-treino como a educação geral de uma pessoa: anos lendo de tudo, acumulando vocabulário, fatos e intuições, sem foco em nenhuma profissão. O SFT é o treinamento profissional: aprender o formato de um trabalho específico — no caso, ser um assistente que responde com clareza. E o RLHF é a experiência no emprego, em que feedback constante refina o julgamento sobre o que conta como um "bom trabalho". Os três se acumulam; nenhum substitui o outro.

Fase 1: pré-treino, onde tudo começa

O pré-treino é a etapa mais cara e demorada. Aqui, o modelo é exposto a centenas de bilhões ou trilhões de tokens de texto — páginas web, livros, código, artigos — e tem um único objetivo: prever o próximo token dada uma sequência anterior.

Esse objetivo parece simples, quase trivial, mas é justamente sua simplicidade que o torna poderoso. Para prever bem a próxima palavra em milhões de contextos diferentes, o modelo precisa, implicitamente, aprender gramática, fatos, raciocínio, estilos e até rudimentos de lógica. A maior parte do "conhecimento" de um LLM é adquirida nesta fase.

# Intuição do objetivo de pré-treino (auto-regressivo)
# Dado um contexto, maximizar a probabilidade do próximo token.
contexto = ["O", "céu", "é"]
# O modelo aprende: P("azul" | "O céu é") deve ser alta
# enquanto P("verde" | "O céu é") deve ser baixa

Essa capacidade emerge graças à O que é a arquitetura Transformer e por que ela revolucionou a IA, que permite processar sequências longas em paralelo e capturar dependências distantes entre palavras. Foi a combinação de Transformers com escala massiva que tornou o pré-treino tão eficaz.

O que é um token, afinal

Quando falamos em "prever o próximo token", convém ser preciso sobre o que é um token. Os modelos não operam diretamente sobre letras nem sobre palavras inteiras, mas sobre subpalavras — fragmentos definidos por um algoritmo de tokenização (como BPE, Byte Pair Encoding). A palavra "incrivelmente" pode virar três tokens (in, crivel, mente), enquanto "casa" cabe em um só. Essa granularidade equilibra dois objetivos: ter um vocabulário pequeno o suficiente para ser tratável e grande o suficiente para representar texto sem explodir o tamanho das sequências.

Entender tokens importa na prática porque tudo no mundo dos LLMs — preço de API, limite de contexto, velocidade — é medido em tokens, não em palavras. Em português, uma regra de bolso é que um token equivale a cerca de 0,75 palavra.

Aprendizado auto-supervisionado

O pré-treino é auto-supervisionado: não é preciso rotular os dados manualmente, porque o próprio texto fornece o "rótulo" — a palavra seguinte. Isso é o que permite usar a internet inteira como conjunto de treino, algo impossível se cada exemplo precisasse de anotação humana.

O resultado dessa fase é o chamado modelo base (ou foundation model): um sistema que completa texto de forma estatisticamente plausível, mas que ainda não sabe conversar nem seguir comandos. Se você pedir a um modelo base "explique a fotossíntese", ele pode responder com outra pergunta semelhante, porque na internet perguntas costumam aparecer em listas de perguntas.

O papel dos dados: quantidade e qualidade

A qualidade de um modelo base depende tanto do volume quanto da qualidade dos dados. Os pipelines modernos investem pesado em curadoria: remover spam, deduplicar conteúdo repetido (que pode levar o modelo a "decorar" trechos), filtrar texto tóxico e equilibrar idiomas e domínios. Há também uma etapa crítica de descontaminação: remover do treino quaisquer exemplos que apareçam nos conjuntos de avaliação, para que os benchmarks não sejam inflados por memorização.

Um achado importante é que dados e parâmetros precisam crescer juntos. Modelos enormes treinados com poucos dados ficam "subtreinados", e dados em excesso para um modelo pequeno saturam. Esse equilíbrio é o tema central das leis de escala, que orientam quanto computar gastar em cada eixo.

Few-shot learning: a surpresa da escala

Um dos achados mais influentes sobre modelos base veio com o GPT-3. Brown e colaboradores (2020) mostraram que, ao crescer suficientemente em tamanho, esses modelos passam a exibir aprendizado com poucos exemplos (few-shot learning): basta mostrar alguns exemplos no próprio prompt para que o modelo execute uma tarefa nova, sem nenhum ajuste de pesos.

Isso significa que parte do que antes exigia treinamento adicional pode ser obtido apenas com instruções bem construídas no contexto. O fenômeno foi tão marcante que reorientou boa parte da pesquisa em direção à escala — tema que aprofundamos em Leis de escala da IA: por que tamanho ainda importa.

Veja a diferença entre os regimes na prática:

# Zero-shot: só a instrução
"Traduza para o inglês: bom dia" -> "good morning"

# Few-shot: alguns exemplos antes da tarefa real
"bom dia -> good morning
boa noite -> good night
obrigado ->"          # o modelo completa: "thank you"

Ainda assim, few-shot não é mágica. Modelos base continuam difíceis de controlar, podem ignorar a tarefa pedida e frequentemente produzem respostas verborrágicas ou fora de tom. É aí que entram as fases seguintes.

Fase 2: fine-tuning supervisionado por instruções

Para transformar um modelo base em um assistente, a primeira etapa é o fine-tuning supervisionado (SFT, do inglês supervised fine-tuning). Aqui, anotadores humanos escrevem demonstrações de alta qualidade: dada uma instrução, qual seria uma boa resposta.

O modelo é então treinado nesses pares instrução-resposta, aprendendo o formato de um diálogo prestativo: responder diretamente, manter um tom adequado, estruturar a saída. Ouyang e colaboradores (2022) descrevem esse passo como o ponto de partida do método InstructGPT, antecessor direto dos assistentes atuais.

O dado de SFT tem uma forma característica:

{
  "instruction": "Explique o que é fotossíntese para uma criança de 8 anos.",
  "response": "A fotossíntese é como as plantas fazem sua própria comida. Elas usam a luz do sol, a água da terra e o ar para criar energia e crescer. É por isso que as plantas precisam de sol e de água!"
}

Repare que o foco não é ensinar o conteúdo (a planta, o sol — isso o pré-treino já sabe), mas o comportamento: responder diretamente, no nível pedido, sem rodeios.

Se você quer ir além desta visão geral e entender como adaptar um modelo a um domínio específico, o guia dedicado Fine-tuning de LLMs: quando e como ajustar um modelo detalha as decisões práticas envolvidas.

Por que o SFT não basta

O SFT melhora muito o comportamento, mas tem limites. Escrever demonstrações perfeitas para todas as situações é caro e inviável. Além disso, é mais fácil para um humano comparar duas respostas e dizer qual é melhor do que escrever, do zero, a resposta ideal. Pense em quão mais rápido é apontar "esta resposta é melhor que aquela" do que redigir você mesmo a resposta perfeita para uma pergunta complexa. Essa assimetria — julgar é mais barato que produzir — é exatamente o que a terceira fase explora.

Fase 3: RLHF, o alinhamento com feedback humano

A etapa de aprendizado por reforço com feedback humano (RLHF) é o que mais aproxima o modelo das preferências reais das pessoas. Ouyang e colaboradores (2022) demonstraram que aplicar RLHF tornava as respostas significativamente mais preferidas pelos avaliadores, mesmo quando o modelo resultante era muito menor que o modelo base original.

O processo, em alto nível, tem três passos:

Prompt  ->  Modelo gera respostas A, B, C, D
Humano  ->  ordena: B > D > A > C
Modelo de recompensa aprende a reproduzir essa ordenação
LLM é otimizado para gerar respostas com recompensa alta

O resultado é um assistente que não apenas segue instruções, mas o faz de um jeito que as pessoas consideram útil e adequado. Para uma exploração mais profunda dos mecanismos, custos e armadilhas dessa técnica, veja O que é RLHF? Alinhando IA com feedback humano.

O modelo de recompensa e o algoritmo PPO

O modelo de recompensa é a peça que torna o RLHF possível. Ele recebe um par (prompt, resposta) e devolve um número: quão boa essa resposta seria aos olhos humanos. Treinado sobre milhares de comparações, ele generaliza o gosto dos anotadores para respostas que eles nunca viram.

Na etapa de otimização, o algoritmo mais usado historicamente foi o PPO (Proximal Policy Optimization). Um detalhe importante é que o treinamento inclui uma penalidade (uma divergência KL) que impede o modelo de se afastar demais do comportamento aprendido no SFT. Sem essa âncora, o LLM poderia descobrir maneiras esquisitas de "enganar" o modelo de recompensa — produzindo texto que pontua alto, mas é estranho ou repetitivo para humanos. Esse é o fenômeno do reward hacking.

Alternativas mais recentes: DPO

O RLHF clássico com PPO é complexo de implementar e instável de treinar. Por isso surgiram alternativas mais diretas, sendo a mais notável o DPO (Direct Preference Optimization). A ideia do DPO é dispensar o modelo de recompensa explícito e o laço de aprendizado por reforço, otimizando o modelo diretamente sobre os pares de preferências com uma única função de perda. O resultado é semelhante em qualidade, mas com um pipeline muito mais simples — o que tornou o DPO popular em projetos abertos.

A "taxa de alinhamento": capacidade versus comportamento

Um ponto conceitual importante é separar capacidade de comportamento. O pré-treino define o teto de capacidade: o que o modelo consegue fazer. As fases de SFT e RLHF definem o comportamento: o que o modelo escolhe fazer por padrão.

Isso explica por que um assistente alinhado às vezes "se recusa" a fazer algo que tecnicamente saberia executar, ou por que ajustar o tom de uma resposta raramente exige re-treinar todo o conhecimento. As fases de alinhamento mexem na superfície de comportamento, não no núcleo de conhecimento adquirido no pré-treino.

Há, porém, um custo: o alinhamento mal calibrado pode introduzir o chamado imposto de alinhamento (alignment tax), em que o modelo fica mais cauteloso ou menos criativo em troca de ser mais seguro. Equilibrar utilidade, honestidade e segurança é um dos desafios centrais da área.

Onde entram as alucinações

Nenhuma das três fases elimina completamente a tendência do modelo a inventar informações com confiança — fenômeno conhecido como alucinação. O pré-treino ensina o modelo a produzir texto plausível, não necessariamente verdadeiro, e o RLHF pode até reforçar respostas que soam convincentes. Reduzir esse problema exige técnicas adicionais, que tratamos em detalhe no contexto de alinhamento e de recuperação de informação.

Vale entender por que alucinações são, em certo sentido, esperadas. O objetivo de treino recompensa fluência e plausibilidade, não verdade verificada. Se o anotador (ou o modelo de recompensa) prefere respostas confiantes e completas, o modelo aprende a sempre dar uma resposta — mesmo quando deveria dizer "não sei". Mitigar isso passa por treinar explicitamente a calibração (ensinar o modelo a expressar incerteza) e por arquiteturas que buscam fatos em fontes externas em tempo de resposta, em vez de confiar só na memória dos pesos.

Entender de onde vem cada comportamento — capacidade do pré-treino, formato do SFT, preferências do RLHF — ajuda a diagnosticar problemas e a escolher a intervenção certa, em vez de jogar dados em cima de um pipeline que não se compreende.

Treinamento contínuo: o que vem depois do lançamento

Um equívoco comum é imaginar que o treinamento termina quando o modelo é lançado. Na prática, há um ciclo contínuo. Provedores coletam (com consentimento) interações reais, identificam onde o modelo falha e usam esses casos para gerar novos dados de SFT e novas comparações de preferência. Esse laço — observar falhas reais, anotar, retreinar — é o que faz versões sucessivas de um mesmo modelo melhorarem em pontos específicos sem um novo pré-treino do zero.

Há também técnicas de destilação, em que um modelo grande e caro ("professor") gera dados para treinar um modelo menor e barato ("aluno") que imita seu comportamento. A destilação é uma das principais formas de oferecer modelos rápidos e econômicos que retêm boa parte da qualidade dos modelos de fronteira — útil para quem precisa rodar IA em escala ou com baixa latência.

Por fim, vale mencionar o fine-tuning eficiente em parâmetros (PEFT), do qual o LoRA é o exemplo mais conhecido. Em vez de ajustar todos os bilhões de pesos do modelo — caro e pesado —, essas técnicas treinam um pequeno conjunto de pesos adicionais, reduzindo drasticamente o custo de adaptar um modelo a um domínio. Isso democratizou o ajuste fino: tarefas que antes exigiam clusters inteiros hoje cabem em uma única GPU.

Perguntas frequentes

Qual fase consome mais recursos? Disparado, o pré-treino. Ele responde pela esmagadora maioria do custo computacional — meses de milhares de aceleradores. SFT e RLHF, por exigirem muito menos dados, são ordens de grandeza mais baratos, ainda que demandem trabalho humano caro de anotação.

Dá para pular o RLHF? Sim, e muitos modelos abertos param no SFT (ou usam DPO em vez de RLHF completo). Você obtém um assistente competente, mas tipicamente menos polido em segurança, tom e tratamento de casos delicados.

Fine-tuning ensina conhecimento novo ao modelo? Pouco, e de forma pouco confiável. SFT e RLHF moldam principalmente o comportamento. Para injetar conhecimento factual atualizado, técnicas de recuperação (RAG) costumam ser mais eficazes e mais baratas do que tentar "ensinar" fatos via fine-tuning.

Por que o modelo às vezes parece mais "burro" depois do alinhamento? Esse é o imposto de alinhamento. Restrições de segurança e cautela podem reduzir criatividade ou disposição a responder, um trade-off deliberado entre utilidade e segurança.

Conclusão

Treinar um LLM é um processo em camadas: o pré-treino constrói conhecimento e capacidade bruta prevendo o próximo token em escala massiva; o fine-tuning supervisionado ensina o formato de um assistente; e o RLHF (ou alternativas como o DPO) alinha as respostas às preferências humanas de utilidade e segurança. Cada fase resolve um problema diferente — capacidade, formato e preferência — e a qualidade do produto final depende de todas elas funcionarem juntas. Compreender essa estrutura é o que separa quem usa a IA como caixa-preta de quem consegue raciocinar sobre seus acertos, limites e falhas, escolhendo a intervenção certa para cada tipo de problema.