Engenharia de contexto: por que prompt engineering morreu (e o que o substituiu para trabalhadores do conhecimento)

O tweet que matou o prompt engineering

Em 19 de junho de 2025, Tobi Lütke, CEO da Shopify, postou no X que preferia o termo "engenharia de contexto" a "prompt engineering". Ele o descreveu como "a arte de fornecer todo o contexto para que a tarefa seja plausivelmente solucionável pelo LLM". Seis dias depois, Andrej Karpathy, uma das vozes mais respeitadas em IA, amplificou o termo. Sua definição foi mais afiada: "engenharia de contexto é a arte e a ciência delicada de preencher a janela de contexto com apenas a informação certa para o próximo passo". (Karpathy, 2025)

A frase em si não era nova. Walden Yan, da Cognition, equipe por trás do agente autônomo de codificação Devin, vinha escrevendo sobre isso mais cedo no ano. Mas junho de 2025 foi quando o rótulo se tornou mainstream. Em meados de 2025, a Gartner havia incorporado isso em seus briefings analíticos com uma linha simples: "engenharia de contexto está em, prompt engineering está fora". (Gartner, 2025)

O que aconteceu não foi uma renomeação. Foi uma correção. A comunidade de IA admitiu silenciosamente que a habilidade chamada "prompt engineering" sempre foi um subconjunto de algo maior e que o subconjunto não era mais a parte interessante. Um prompt é um componente. Contexto é a sala inteira.

Isso importa porque trabalhadores do conhecimento passaram dois anos aprendendo a coisa errada. Eles memorizaram templates de prompt. Colecionaram threads de Twitter de "prompt definitivo". Trataram o prompt como um feitiço. Esse esforço não é inútil, mas não é mais suficiente. A questão não é como você formula seu pedido. A questão é o que você coloca ao lado do seu pedido.

O que a engenharia de contexto realmente significa

Aqui está a definição mais simples: engenharia de contexto é a prática de decidir, montar e entregar tudo o que um modelo de IA precisa para fazer uma tarefa bem, antes de o modelo rodar.

Pense nisso como informar um novo consultor. Um briefing ruim é um e-mail de uma linha. Um bom briefing inclui o histórico da empresa, a história relevante, os arquivos que eles vão precisar, quem são as partes interessadas, como o sucesso se parece e o que está fora do escopo. Se você contrata um consultor brilhante e lhe dá um briefing ruim, recebe um entregável medíocre. O mesmo vale para a IA.

A analogia do consultor é de Addy Osmani, em seu ensaio "Context Engineering: Bringing Engineering Discipline to Prompts", que continua sendo um dos textos mais limpos sobre a mudança. Seu ponto é que o prompt engineering otimizava o e-mail de uma linha. A engenharia de contexto otimiza o pacote inteiro de briefing.

Na prática, isso cobre muito terreno. Inclui o system prompt (quem o modelo é), a camada de recuperação (quais documentos ele pode ver), memória persistente (o que ele lembra sobre você), uso de ferramentas (quais ações ele pode tomar), anexos (quais arquivos você carregou para esta sessão) e histórico de conversa (o que já foi dito). Cada um deles é uma alavanca. Cada alavanca afeta a saída.

A razão de esse pacote ter ganhado um novo nome é que você não pode mais obter ótimos resultados otimizando apenas uma alavanca. Você tem que pensar na stack.

Prompt engineering não estava errado. Só estava incompleto.

É tentador tratar isso como uma mudança geracional em que tudo o que é antigo está errado. Esse é um enquadramento preguiçoso. As técnicas de prompt engineering ainda funcionam. Chain-of-thought, exemplos few-shot, atribuição de papel, formatos de saída explícitos, tudo isso ainda move o ponteiro.

O que mudou foi o teto. Em 2023, um prompt bem formulado podia dobrar a qualidade de uma resposta porque os modelos subjacentes eram facilmente confundidos por ambiguidade. Você podia transformar o GPT-3.5 de um estagiário atrapalhado em um analista coerente com a estrutura de frase certa. Essa diferença era real, e o prompt engineering explorou isso.

Modelos de fronteira em 2026 não precisam de conduzir pela mão. Claude, GPT-5 e Gemini 2.5 entendem pedidos ambíguos razoavelmente bem. O retorno marginal em formulação caiu. Mas o retorno marginal em fornecer material fonte relevante, memória escopada e exemplos curados aumentou acentuadamente. A alavanca se moveu.

Aqui está a comparação, disposta.

Dimensão	Prompt Engineering	Engenharia de contexto
O que você ajusta	A formulação do seu pedido	A stack inteira de entrada alimentada ao modelo
Unidade primária	Uma frase	Um pacote: system prompt, documentos, memória, ferramentas, histórico
Para quem é	Qualquer um usando uma caixa de chat	Qualquer um cuja qualidade de saída depende da IA
Habilidade requerida	Boa escrita, reconhecimento de padrões	Curadoria, arquitetura da informação, julgamento
Quando falha	O modelo entende mal a instrução	O modelo entende bem, mas faltam fatos, exemplos ou histórico para responder bem
Correção quando travado	Reformular, adicionar exemplos, especificar formato de saída	Adicionar a fonte certa, cortar as fontes erradas, ajustar memória, escopar a recuperação
Era de pico	2022 a 2024	2025 em diante

Observe a última linha. O prompt engineering não morreu por estar errado. Morreu porque o gargalo se moveu para outro lugar.

As 6 camadas de contexto

Para fazer engenharia de contexto deliberadamente, você tem que saber o que está engenhando. Toda interação moderna de IA puxa de seis camadas, quer você pense sobre elas ou não. A habilidade é saber quais ajustar.

Camada	Propósito	Exemplo
System prompt	Define quem o modelo é, quais regras segue, que tom assume	Um arquivo `claude.md` em seu repositório, o `.cursorrules` do Cursor ou uma instrução de GPT customizado como "Você é editor sênior. Prefira voz ativa. Nunca use travessões."
Memória persistente	Coisas que o modelo lembra sobre você entre conversas	O recurso de memória do ChatGPT armazenando sua profissão, estilo de escrita e projetos em andamento
Recuperação (RAG)	Puxa chunks relevantes de uma base de conhecimento maior sob demanda	Perguntar à sua IA "o que destaquei sobre efeitos de rede no mês passado?" e ela buscar as passagens exatas
Uso de ferramentas	Permite que o modelo tome ações ou busque dados ao vivo	O modelo chama uma calculadora, roda código, busca na web ou consulta seu calendário
Anexos	Arquivos, imagens ou URLs carregados nesta sessão específica	Um contrato em PDF que você solta para ser revisado ou um screenshot que você cola para debugar
Histórico de conversa	O que já foi dito neste thread	O vai-e-vem acima de sua mensagem atual, incluindo correções e preferências anteriores

Um contexto bem engenhado usa todas as seis deliberadamente. Um contexto mal engenhado despeja tudo em uma camada (geralmente anexos, frequentemente o histórico de conversa) e espera que o modelo resolva.

O erro que a maioria dos trabalhadores do conhecimento comete é tratar a IA como uma interface de chat quando na verdade é um montador de contexto. O chat é a ponta. O iceberg é o que você alimenta antes de digitar.

Para um ângulo relacionado sobre como a arquitetura de informação pessoal molda a utilidade da IA, veja Gestão de contexto pessoal: a camada que falta entre você e a IA.

Por que janelas de contexto maiores pioraram isso, não melhoraram

Em 2023, uma janela de contexto de 100K tokens era exótica. Em 2026, janelas de 1M tokens são comuns. Você pode soltar o texto completo de Guerra e Paz em um único prompt. Então a suposição natural é que a engenharia de contexto está ficando mais fácil. Mais espaço, menos triagem, certo?

Errado. Ficou mais difícil.

O artigo fundamental aqui é Liu et al. (2024), "Lost in the Middle: How Language Models Use Long Contexts", publicado na TACL. Os pesquisadores testaram se os modelos podiam encontrar e usar informação específica dependendo de onde ela estava colocada em um contexto longo. O achado foi desconfortável: o desempenho é em forma de U. Os modelos prestam mais atenção à informação no início e no final do contexto. A informação no meio é sistematicamente subponderada, às vezes ignorada totalmente. (Liu et al., 2024)

Coloque uma instrução crítica no meio de um documento de 50 páginas e o modelo pode agir como se nunca a tivesse visto. Esse não é um bug do qual você pode sair com prompting.

Então, em 2025, a Chroma publicou "Context Rot: How Increasing Input Tokens Impacts LLM Performance". Eles testaram 18 modelos de fronteira, incluindo GPT-4.1, Claude Opus 4 e Gemini 2.5. O resultado foi consistente em todos os modelos: o desempenho degradou à medida que a entrada crescia, bem antes da janela de contexto estar perto de cheia. Uma janela de 200K tokens podia exibir rot sério já em 50K tokens. O modelo tecnicamente "via" tudo. Ele agia como se não visse.

É por isso que mais contexto não é contexto melhor. É por isso que despejar todo o seu Google Drive em um prompt não funciona, mesmo quando a janela permite. A disciplina de engenharia é saber o que excluir, não apenas o que incluir.

Esse é o custo escondido da era de 1M tokens. A janela cresceu mais rápido do que a capacidade dos modelos de usá-la. E transformou "o que devo deixar de fora?" na pergunta mais valiosa na stack.

A habilidade que ninguém nomeou: curadoria

Se o context rot é o problema, a curadoria é a solução. E a curadoria por acaso é uma habilidade que a maioria dos trabalhadores do conhecimento já pratica, sem chamá-la assim.

Toda vez que você destaca uma passagem em um artigo, você está curando. Você está dizendo: isto importa. O resto é pano de fundo. Quando você anota um PDF, marca um artigo ou salva uma citação, está fazendo a mesma coisa. Você está construindo um filtro de sinal-para-ruído sobre um mundo cheio de texto.

O problema até recentemente era que essa curadoria estava presa. Seus destaques viviam em um aplicativo. Suas notas do Kindle viviam em outro. Sua pesquisa web vivia no seu histórico do navegador. Quando você se sentava para informar uma IA, não conseguia realmente puxar nada disso para a janela de contexto de forma eficiente. Acabava relendo tudo ou, pior, colando fontes brutas e esperando o melhor.

A engenharia de contexto como disciplina tem uma lacuna enorme exatamente aqui. As empresas a resolveram construindo bases de conhecimento internas e pipelines de RAG. Mas trabalhadores do conhecimento individuais não têm uma equipe de engenharia. Eles têm o mesmo problema (muito material fonte, pouco sinal) e nenhuma infraestrutura.

É por isso que ferramentas de leitura que capturam destaques de forma duradoura silenciosamente se tornaram infraestrutura de IA. O marcador web do Glasp existe para resolver exatamente isso: transforma sua leitura em contexto estruturado e recuperável. Quando você destaca um parágrafo em um post de blog, esse destaque se torna uma peça de contexto que você pode entregar a qualquer IA mais tarde, filtrada por tópico, por fonte, por data.

O mesmo princípio se aplica à leitura de forma longa. Seus destaques do Kindle são possivelmente o sinal de mais alta qualidade que você já gerou sobre o que importa para você. Você prestou atenção o suficiente para destacá-los. Esse é um filtro caro, e é desperdiçado se os destaques ficam em um sistema fechado.

Para um tratamento mais amplo de por que leitura curada supera documentos despejados, veja O custo oculto da sobrecarga de informação: por que seu cérebro precisa de uma segunda camada.

Engenharia de contexto para indivíduos (não só engenheiros)

A maior parte do que se escreve sobre engenharia de contexto mira desenvolvedores. É sobre construir sistemas de IA em produção: como moldar um system prompt para um agente de codificação, como fazer chunk de documentos para recuperação, como conectar chamadas de ferramentas. Isso é útil se você envia software. É menos útil se você é consultor, pesquisador, escritor, analista ou estudante tentando obter uma melhor saída de IA.

Mas a mesma disciplina se aplica. Você só a executa manualmente.

Você projeta system prompts, informalmente. Todo GPT customizado, todo Claude Project, todo arquivo de instrução estilo claude.md que você configura é um system prompt. Quando você escreve "você é meu assistente de pesquisa, trabalho em política de energia renovável, prefiro resumos céticos", está fazendo design de system prompt. Faça isso deliberadamente.

Você gerencia memória. O recurso de memória do ChatGPT e os projetos do Claude ambos permitem fixar fatos que persistem entre conversas. A maioria das pessoas ou ignora isso (e perde continuidade) ou despeja tudo (e cria ruído). O movimento certo é curar a memória como você curaria um currículo: apenas as coisas que você quer que o modelo use toda vez.

Você faz recuperação, manualmente. Colar o artigo certo em um chat é RAG manual. A questão é de onde vem "o artigo certo". Se vem de rolar freneticamente seu histórico do navegador, você não tem sistema de recuperação. Se vem de uma biblioteca de passagens que você já sinalizou como interessantes, você tem um.

Você carrega anexos intencionalmente. A tentação é fazer upload do livro inteiro. O movimento melhor é fazer upload das 40 páginas que você realmente destacou. Você está contornando o context rot fazendo a filtragem a montante.

Você gerencia o histórico de conversa. Threads longos pioram com o tempo porque mensagens antigas dominam o contexto inutilmente. Começar um thread novo para uma nova subtarefa, com um briefing limpo, frequentemente supera continuar o mega-thread.

Nada disso requer habilidade de engenharia. Requer a mesma habilidade que bons pesquisadores e bons jornalistas já têm: saber o que incluir, o que cortar e de onde puxar.

Seus destaques são seu contexto competitivo

Aqui está a parte que é subestimada.

A maioria das pessoas trata suas notas e destaques como auxiliares de memória. Coisas para voltar algum dia. Esse enquadramento fazia sentido em 2010, quando voltar a elas era a única forma de usá-las. É obsoleto em 2026.

Seus destaques agora são um feed que pode ser entregue à IA. Cada passagem que você sinalizou, cada citação que salvou, cada anotação que fez é uma peça de contexto. E porque você gerou prestando atenção, é de maior sinal do que qualquer coisa raspada aleatoriamente da web.

Pense no que isso significa competitivamente. Dois trabalhadores do conhecimento usam o mesmo modelo de IA. Um tem três anos de leitura estruturada e destaque. O outro tem três anos de abas de navegador que nunca revisitou. Quando fazem à IA a mesma pergunta, a primeira pessoa pode alimentá-la com seu próprio corpus curado. A segunda pessoa está presa aos dados genéricos de treinamento do modelo e ao que conseguir lembrar de colar. A diferença não é uma diferença de prompting. É uma diferença de contexto.

É por isso que o Glasp vem mudando a forma como se posiciona. O pitch original era um marcador web social: destacar coisas, ver o que outros destacaram, construir uma identidade de leitor. Tudo ainda verdade. Mas o valor mais profundo agora é que cada destaque é um token de contexto esperando para ser usado. Seu histórico de leitura se compõe em um corpus RAG pessoal, um parágrafo de cada vez.

Quando você combina isso com o chat com IA do Glasp, o fluxo de trabalho fica mais próximo do que engenheiros constroem para suas empresas. Você destaca enquanto lê. Mais tarde, faz perguntas e a IA puxa do que você realmente se importou, não de um índice web genérico. Isso é engenharia de contexto, exceto que o contexto é sua própria biblioteca.

Para mais sobre como isso inverte a relação leitura-IA, veja O assistente de leitura com IA que não faz a leitura por você.

Um framework simples para engenhar contexto para qualquer tarefa de IA

Chega de teoria. Aqui está um fluxo de trabalho concreto que você pode rodar na próxima vez que abrir um chat.

Passo 1: Defina o trabalho antes de digitar. Uma frase. Como se parece "pronto"? "Rascunhe um memo de 500 palavras resumindo os três principais argumentos contra uma semana de trabalho de quatro dias, escrito para um COO cético". Isso é um trabalho. "Me ajude com este artigo" não é.

Passo 2: Reúna suas fontes e depois corte-as. Puxe os materiais que realmente incidem sobre a tarefa. Se você tem destaques sobre o tópico, comece por eles, não pelos artigos completos. Se tem memória configurada, verifique se já contém pano de fundo útil. Deixe de fora qualquer coisa que seja apenas tangencialmente relacionada. Context rot é real.

Passo 3: Defina o papel e as regras. Antes da tarefa, diga ao modelo quem ele é e quais regras se aplicam. "Você está editando para um COO cético. Sem jargão. Sem hesitação. Números antes de adjetivos." Essa é a camada do system prompt. Leva dez segundos e muda o tom de tudo que se segue.

Passo 4: Alimente a tarefa mais o pacote, em ordem. Coloque o contexto mais importante primeiro e a tarefa por último. Por causa do efeito Lost in the Middle, você quer a instrução e o material mais afiado no início e no fim. O meio é um pântano.

Passo 5: Itere sobre o contexto, não sobre a formulação. Se a saída está ruim, resista ao impulso de reescrever seu prompt doze vezes. Pergunte em vez disso: dei a ele o material certo? Havia uma passagem que esqueci? Havia uma fonte que era enganosa? Ajuste as entradas, rode de novo e veja a qualidade saltar.

Faça isso algumas dezenas de vezes e se torna reflexivo. Você vai parar de perguntar "como eu faço o prompt disso?" e começar a perguntar "o que o modelo precisa ver antes de responder?" Essa mudança é a disciplina inteira.

Perguntas frequentes

Prompt engineering realmente morreu?

A frase está se aposentando. As técnicas sob a frase ainda funcionam. Chain-of-thought, exemplos few-shot e formatos de saída claros são todos ainda úteis. O que morreu é a ideia de que boa formulação sozinha te dá ótima saída. Em 2026, a formulação é uma alavanca menor. A montagem de contexto é a maior. Quando as pessoas dizem "prompt engineering morreu", é isso que elas querem dizer.

Preciso ser técnico para fazer engenharia de contexto?

Não. A metáfora da engenharia confunde algumas pessoas, mas só significa fazer o trabalho deliberadamente em vez de por acaso. Um consultor preparando um briefing, um jornalista pesquisando uma matéria, um estudante organizando material fonte para um ensaio, todos esses são engenharia de contexto disfarçada. A habilidade central é curadoria e julgamento. A versão técnica é apenas a mesma habilidade aplicada a system prompts, pipelines de RAG e armazenamentos de memória.

Qual a diferença entre engenharia de contexto e RAG?

RAG (retrieval-augmented generation) é uma camada da engenharia de contexto, especificamente a camada de recuperação. É a maquinaria que puxa chunks relevantes de uma base de conhecimento quando necessário. A engenharia de contexto é a disciplina mais ampla que inclui RAG, mais system prompts, memória, uso de ferramentas, anexos e histórico de conversa. RAG é uma técnica. Engenharia de contexto é a prática.

Janelas de contexto maiores eventualmente não vão resolver isso?

Não resolveram até agora, e as evidências sugerem que não vão. Liu et al. (2024) mostraram que os modelos ignoram o meio de contextos longos. O estudo da Chroma em 2025 mostrou que todos os 18 modelos de fronteira testados degradam bem antes da janela encher. O gargalo não é o tamanho da janela. É a alocação de atenção dentro da janela. A curadoria permanece valiosa mesmo que as janelas cresçam mais 10x.

Como isso se relaciona com recursos de "memória" de IA?

Memória (como a memória persistente do ChatGPT ou projetos do Claude) é uma camada de contexto. É o que o modelo sabe sobre você entre sessões. A engenharia de contexto inclui a memória, mas é mais ampla. A memória é a camada sempre ativa. Recuperação, anexos e system prompts são as camadas por tarefa. Um bom engenheiro de contexto usa todas juntas.

O que eu devo parar de fazer?

Pare de acumular templates de prompt. Pare de colar documentos completos quando passagens destacadas serviriam. Pare de começar conversas sem system prompt e se perguntar por que o tom está estranho. Pare de tratar a caixa de chat como a única superfície. A caixa de chat é o último centímetro de um pipeline muito mais longo, e esse pipeline é onde vivem os ganhos de qualidade.

Onde os destaques se encaixam nisso?

Destaques são a forma mais bruta e barata de contexto pessoal. Toda vez que você destaca algo, está pré-filtrando ruído das suas próprias sessões futuras de IA. Ferramentas que capturam destaques de forma duradoura (entre artigos, PDFs, livros do Kindle e transcrições do YouTube) transformam sua leitura em contexto reutilizável. É por isso que ferramentas de captura de leitura e ferramentas de IA estão convergindo.

Isso não é só tomar notas de forma chique?

Em parte. A diferença é que tomar notas tradicional é otimizado para você reler suas notas. A engenharia de contexto é otimizada para um modelo consumir suas notas. Os requisitos de formato são diferentes (estrutura, atomicidade, recuperabilidade importam mais), mas a prática subjacente de capturar o que vale a pena lembrar é a mesma. Bons tomadores de notas têm vantagem aqui.

Conclusão: a nova alfabetização

Toda era da computação teve uma alfabetização que separou amadores de usuários sérios. Nos anos 90, era aprender a pesquisar bem no Google. Nos anos 2010, era aprender a estruturar informação em apps como Notion ou Airtable. Em 2026, é aprender a engenhar contexto para IA.

As pessoas que descobrirem isso vão puxar muito à frente das que não descobrirem. Não porque têm melhor acesso a modelos (todos têm os mesmos modelos), mas porque chegam a cada tarefa com material melhor. Eles sabem o que alimentar. Sabem o que deixar de fora. Sabem onde está sua melhor fonte sobre um tópico, porque se deram ao trabalho de capturá-la meses atrás.

É por isso que a curadoria está se tornando silenciosamente a metahabilidade mais valiosa da era da IA. Cada destaque que você salva, cada passagem que anota, cada peça de leitura que realmente processa é um depósito em um motor de contexto pessoal. O futuro da produtividade com IA não é pessoas com prompts secretos. É pessoas com bibliotecas bem pensadas.

Você já faz a leitura. Já tem opiniões sobre o que importa. A única questão é se qualquer parte disso permanece por tempo suficiente para ser útil ao seu eu futuro e à IA trabalhando ao seu lado. As ferramentas existem. O hábito é a parte difícil.

Escolha algo digno de ler hoje. Destaque as partes que importam. Isso é engenharia de contexto. Todo o resto é técnica.