04 de fevereiro de 2025Inteligência Artificial14 min de leitura

O que é a arquitetura Transformer e por que ela revolucionou a IA

Por Schematize Blog · 04 de fevereiro de 2025

Entenda o mecanismo de atenção por trás do ChatGPT e de quase toda IA moderna, com exemplos práticos, intuições visuais e o passo a passo do cálculo de atenção.

Se existe uma única ideia que destravou a IA moderna, ela é a arquitetura Transformer. Apresentada em 2017, ela está por trás do ChatGPT, dos tradutores automáticos, dos geradores de imagem e de praticamente todo modelo de linguagem de ponta. Este artigo explica, sem fórmulas intimidantes, o que é um Transformer, como funciona o mecanismo de atenção e por que essa arquitetura mudou o rumo da inteligência artificial.

A meta aqui é dupla: dar a você uma intuição sólida de por que a atenção funciona e, ao mesmo tempo, descer ao nível de detalhe suficiente para que, se um dia precisar ler o artigo original ou inspecionar o código de um modelo, você reconheça cada peça. Não é preciso saber álgebra linear avançada — basta acompanhar o raciocínio.

O problema antes dos Transformers

Antes de 2017, o estado da arte em processamento de linguagem usava redes recorrentes (RNNs e LSTMs). Elas processavam o texto de forma sequencial: uma palavra, depois a próxima, depois a próxima, mantendo uma "memória" do que já tinham visto.

Esse modelo tinha dois problemas graves:

Imagine traduzir um parágrafo onde o sujeito está na primeira linha e o verbo na última. Uma RNN tende a "esquecer" o sujeito pelo caminho. Era preciso uma forma de o modelo olhar para o texto inteiro de uma vez.

Houve tentativas de remediar isso. As LSTMs (Long Short-Term Memory) introduziram "portões" que decidiam o que lembrar e o que esquecer, aliviando — mas não eliminando — o problema da memória. Mecanismos de atenção já existiam como complemento às RNNs em tradução automática, ajudando o decoder a olhar de volta para partes específicas da entrada. A virada de 2017 foi perceber que dava para jogar fora a recorrência e ficar só com a atenção. Daí o título provocador do artigo.

O gargalo do treino sequencial

Vale insistir no ponto da lentidão porque ele tem consequências econômicas enormes. Treinar uma rede neural é, no fundo, repetir bilhões de vezes a operação de "prever, comparar com o certo, ajustar". Se cada exemplo precisa ser processado token a token, na ordem, uma GPU com milhares de núcleos fica ociosa esperando o passo anterior terminar. É como ter uma fábrica com mil operários, mas só um pode trabalhar por vez. A arquitetura que conseguisse manter todos os "operários" ocupados simultaneamente treinaria muito mais rápido — e foi exatamente isso que o Transformer entregou.

A grande ideia: atenção

A resposta veio no artigo "Attention Is All You Need" (Vaswani et al., 2017), cujo título já entrega a tese: o mecanismo de atenção, sozinho, é suficiente — sem recorrência.

A intuição da atenção é simples. Para processar cada palavra, o modelo pergunta: "quais outras palavras desta frase são relevantes para entender esta aqui?" E então pondera a influência de cada uma.

Na frase "o gato que dormia no sofá estava cansado", para entender a quem "cansado" se refere, o modelo aprende a prestar muita atenção em "gato" e pouca em "sofá". Essa capacidade de conectar palavras distantes diretamente, sem passar por todas as intermediárias, é o que resolve o problema da memória curta.

Repare numa propriedade crucial: a distância entre "gato" e "cansado" no texto não importa. Numa RNN, a informação teria de atravessar todas as palavras entre as duas, perdendo força a cada passo. Na atenção, qualquer par de tokens se conecta em uma única operação. O "caminho" entre duas palavras tem sempre comprimento um. Essa é a razão técnica de o Transformer lidar tão bem com dependências de longo alcance.

Como a atenção funciona por dentro

A atenção é calculada com três vetores derivados de cada token, com nomes que vêm de bancos de dados:

O modelo compara a query de uma palavra com as keys de todas as outras. Quanto maior a compatibilidade, maior o "peso de atenção", e então ele combina os values proporcionalmente a esses pesos.

Para a palavra "cansado":
  query("cansado") · key("gato")   -> peso alto   (relevante)
  query("cansado") · key("sofá")   -> peso baixo  (irrelevante)
  query("cansado") · key("dormia") -> peso médio
Resultado = soma ponderada dos values

Uma analogia ajuda: pense numa biblioteca. Sua query é o tema que você busca; cada livro tem uma etiqueta (key) que indica seu assunto; e o conteúdo do livro é o value. A atenção é o ato de comparar seu interesse com todas as etiquetas e, então, ler mais atentamente os livros mais relevantes, ignorando os irrelevantes. A grande sacada é que essas etiquetas e consultas não são fixas: o modelo aprende, durante o treino, como gerar queries, keys e values que produzam combinações úteis.

O passo a passo do cálculo

Para quem quer ver os mecanismos com um pouco mais de precisão, o cálculo da chamada scaled dot-product attention segue quatro passos:

scores   = Q · Kᵀ
escala   = scores / √(dim_k)
pesos    = softmax(escala)
saída    = pesos · V

O detalhe da divisão por √(dim_k) parece menor, mas é importante: sem ela, os produtos escalares ficam grandes demais em modelos com muitas dimensões, empurrando o softmax para valores extremos (quase 0 ou quase 1) e travando o aprendizado. Pequenos ajustes assim distinguem uma ideia que funciona no papel de uma que funciona na prática.

Atenção multi-cabeça

Uma extensão importante é a atenção multi-cabeça (multi-head attention): o modelo roda vários mecanismos de atenção em paralelo, cada um aprendendo a focar em um tipo de relação diferente — um pode captar concordância gramatical, outro relações de significado, outro proximidade. Cada "cabeça" tem suas próprias matrizes de projeção, então enxerga o texto de um ângulo distinto. No fim, as saídas de todas as cabeças são concatenadas e combinadas. Juntas, elas dão ao modelo uma visão muito mais rica do que uma única atenção conseguiria.

A anatomia de um Transformer

Um Transformer empilha vários blocos idênticos, e cada bloco combina alguns componentes essenciais:

Antes de tudo isso, o texto passa por tokenização e cada token vira um vetor numérico. Esses conceitos de base estão detalhados em O que são tokens em IA? Tokenização explicada e em O que são embeddings? Representando significado em vetores, que mostram como palavras viram números antes mesmo de a atenção entrar em ação.

Por que a rede feed-forward importa

Pode parecer que a atenção faz todo o trabalho, mas a rede feed-forward que vem depois é igualmente crucial. Enquanto a atenção mistura informação entre tokens, a feed-forward processa cada token isoladamente, aplicando transformações não lineares que dão ao modelo capacidade de representar funções complexas. Pesquisas mais recentes sugerem que boa parte do "conhecimento" memorizado por um LLM — fatos, associações — reside justamente nessas camadas, não na atenção. As duas operações se alternam, camada após camada: misturar, processar, misturar, processar.

Conexões residuais e normalização

Modelos profundos sofrem com o "desaparecimento do gradiente": o sinal de aprendizado se perde ao atravessar dezenas de camadas. As conexões residuais resolvem isso somando a entrada de cada bloco à sua saída, criando um "atalho" pelo qual o sinal flui intacto. Já a normalização de camada (layer normalization) mantém os valores em uma escala estável, evitando que cresçam ou encolham descontroladamente. Sem esses dois ingredientes, seria inviável empilhar as dezenas (ou centenas) de camadas que os grandes modelos usam.

O quebra-cabeça da ordem

Como a atenção trata os tokens como um conjunto, sem ordem inerente, "o cão mordeu o homem" e "o homem mordeu o cão" pareceriam idênticos para ela. A codificação posicional corrige isso adicionando, a cada token, um vetor que codifica sua posição. O artigo original usou funções senoidais; modelos atuais frequentemente usam variantes aprendidas ou rotativas (RoPE). O importante é a ideia: sem informação de posição, o Transformer seria cego à sintaxe.

Encoders, decoders e suas variações

O Transformer original tinha duas metades: um encoder, que lê e compreende a entrada, e um decoder, que gera a saída. Da combinação dessas peças surgiram três famílias de modelos:

O BERT trouxe uma inovação relevante: o pré-treino bidirecional, em que o modelo aprende escondendo palavras aleatórias e tentando adivinhá-las, o que o força a usar o contexto dos dois lados (Devlin et al., 2019). Já a maioria dos chatbots usa a variante só-decoder, mais natural para geração contínua.

Atenção causal: por que o decoder "não vê o futuro"

Há uma diferença técnica importante entre as famílias. Num modelo só-decoder, que gera texto prevendo um token de cada vez, a atenção é causal (ou mascarada): cada token só pode olhar para os tokens anteriores, nunca para os que vêm depois. Isso faz sentido — ao prever a próxima palavra, o modelo não pode "trapacear" espiando a resposta. Tecnicamente, aplica-se uma máscara que zera os pesos de atenção para posições futuras. Já no BERT, a atenção é bidirecional justamente porque a tarefa é diferente: ele não está prevendo o próximo token, mas reconstruindo palavras escondidas, então pode usar todo o contexto.

Por que isso revolucionou a IA

A combinação de atenção e ausência de recorrência teve um efeito multiplicador:

Essa escalabilidade é justamente o que viabilizou os grandes modelos de linguagem que usamos hoje. Para entender o produto final dessa arquitetura, veja O que é um LLM (Large Language Model)?.

O custo da atenção: o trade-off quadrático

Nem tudo são vantagens. A atenção plena compara cada token com todos os outros, o que significa que o custo cresce com o quadrado do tamanho da sequência: dobrar o texto quadruplica o trabalho. É por isso que o "tamanho de contexto" dos modelos foi historicamente limitado, e por que processar documentos muito longos é caro. Boa parte da pesquisa pós-2017 busca contornar esse gargalo com variantes de atenção mais eficientes (esparsa, linear, por janelas) que aproximam o resultado sem o custo quadrático. Entender esse trade-off ajuda a explicar por que contextos maiores custam mais e por que eles são um diferencial competitivo entre modelos.

Do Transformer ao modelo treinado

Vale lembrar que a arquitetura é só o "esqueleto". Um Transformer só se torna útil depois de passar por um processo de treinamento em etapas — pré-treino em grandes volumes de texto, ajuste fino e alinhamento com preferências humanas. Esse caminho completo está descrito em Como os LLMs são treinados: pré-treino, fine-tuning e RLHF, e é o que transforma uma rede neural genérica em um assistente capaz de seguir instruções.

Uma forma útil de pensar: a arquitetura define o que o modelo é capaz de aprender, e o treinamento define o que ele de fato aprendeu. Dois modelos com a mesma arquitetura podem ter comportamentos radicalmente diferentes dependendo dos dados e do alinhamento.

Além do texto

Embora tenha nascido para linguagem, o Transformer provou ser uma arquitetura de propósito geral. Hoje ele alimenta:

Essa versatilidade reforça por que o Transformer é considerado um marco: ele não resolveu só um problema, mas ofereceu um padrão reutilizável para muitos domínios. A receita é sempre parecida — transforme seu dado em uma sequência de "tokens", deixe a atenção descobrir as relações entre eles e empilhe blocos. Funciona para palavras, pixels, aminoácidos e ondas sonoras.

Erros comuns ao entender Transformers

Alguns mal-entendidos aparecem com frequência e vale corrigi-los:

Perguntas frequentes

Preciso saber matemática para usar Transformers? Para usar modelos via API, não. Basta entender tokens, contexto e custo. A matemática importa quando você vai treinar, ajustar ou otimizar modelos.

Qual a diferença entre Transformer e GPT? Transformer é a arquitetura geral; GPT é uma família específica de modelos só-decoder construída sobre ela. Todo GPT é um Transformer, mas nem todo Transformer é um GPT (BERT, por exemplo, não é).

Por que chamam de "atenção"? Porque o mecanismo aprende a alocar "foco" — pesos maiores — sobre as partes mais relevantes da entrada, de forma análoga à atenção seletiva humana. O nome é uma metáfora, não uma afirmação sobre consciência.

O Transformer vai ser substituído em breve? Há pesquisa ativa em alternativas (como modelos de espaço de estados). Mas, por ora, o Transformer continua sendo a arquitetura dominante, e mesmo as alternativas costumam incorporar ideias derivadas da atenção.

Conclusão

O Transformer revolucionou a IA ao substituir o processamento sequencial pelo mecanismo de atenção, permitindo que modelos relacionem qualquer parte do texto diretamente e sejam treinados em paralelo em escala massiva. Dessa fundação nasceram BERT, GPT e praticamente toda a IA generativa moderna. Entender atenção, tokens, embeddings e a divisão entre encoder e decoder é a base para compreender por que essa única arquitetura sustenta tanta coisa hoje. E, mais do que decorar componentes, vale guardar a ideia central: dar a cada elemento de uma sequência a liberdade de olhar para todos os outros, e deixar o treino descobrir quais olhares importam.