Ingeniería de contexto: por qué la ingeniería de prompts ha muerto (y qué la reemplazó para los trabajadores del conocimiento)

El tuit que mató a la ingeniería de prompts

El 19 de junio de 2025, Tobi Lütke, el CEO de Shopify, publicó en X que prefería el término "ingeniería de contexto" frente a "ingeniería de prompts". La describió como "el arte de proporcionar todo el contexto para que la tarea sea plausiblemente resoluble por el LLM". Seis días después, Andrej Karpathy, una de las voces más respetadas en IA, amplificó el término. Su definición fue más aguda: "la ingeniería de contexto es el arte y la ciencia delicados de llenar la ventana de contexto con la información justa para el siguiente paso" (Karpathy, 2025).

La frase en sí no era nueva. Walden Yan en Cognition, el equipo detrás del agente autónomo de codificación Devin, llevaba tiempo escribiendo sobre ello a principios de ese año. Pero junio de 2025 fue cuando la etiqueta se hizo mainstream. A mediados de 2025, Gartner la había incorporado a sus informes de analistas con una línea simple: "la ingeniería de contexto está de moda, la ingeniería de prompts está fuera" (Gartner, 2025).

Lo que ocurrió no fue un rebranding. Fue una corrección. La comunidad de IA admitió discretamente que la habilidad llamada "ingeniería de prompts" siempre había sido un subconjunto de algo más grande, y que el subconjunto ya no era la parte interesante. Un prompt es un componente. El contexto es toda la sala.

Esto importa porque los trabajadores del conocimiento han pasado dos años aprendiendo lo equivocado. Memorizaron plantillas de prompts. Coleccionaron hilos de Twitter del "prompt definitivo". Trataron el prompt como un hechizo. Ese esfuerzo no es inútil, pero ya no es suficiente. La pregunta no es cómo formula su petición. La pregunta es qué pone al lado de su petición.

Qué significa realmente la ingeniería de contexto

Aquí va la definición más llana: la ingeniería de contexto es la práctica de decidir, ensamblar y entregar todo lo que un modelo de IA necesita para hacer bien una tarea, antes de que el modelo se ejecute.

Piénselo como informar a un consultor nuevo. Un mal informe es un correo de una línea. Un buen informe incluye los antecedentes de la empresa, el historial relevante, los archivos que necesitarán, quiénes son los interesados, cómo se ve el éxito y qué queda fuera del alcance. Si contrata a un consultor brillante y le da un mal informe, obtiene un entregable mediocre. Lo mismo pasa con la IA.

La analogía del consultor es de Addy Osmani, de su ensayo "Context Engineering: Bringing Engineering Discipline to Prompts", que sigue siendo uno de los escritos más limpios sobre el cambio. Su punto es que la ingeniería de prompts optimizaba el correo de una línea. La ingeniería de contexto optimiza todo el paquete de información.

Prácticamente, esto cubre mucho terreno. Incluye el prompt del sistema (quién es el modelo), la capa de recuperación (qué documentos puede ver), la memoria persistente (qué recuerda sobre usted), el uso de herramientas (qué acciones puede tomar), los adjuntos (qué archivos cargó para esta sesión) y el historial de conversación (qué se dijo antes). Cada uno es una palanca. Cada palanca afecta la salida.

La razón por la que este paquete tiene un nombre nuevo es que ya no puede obtener grandes resultados optimizando solo una palanca. Tiene que pensar en la pila.

La ingeniería de prompts no estaba mal. Solo era incompleta.

Es tentador tratar esto como un cambio generacional donde todo lo viejo está mal. Es un encuadre perezoso. Las técnicas de ingeniería de prompts aún funcionan. Cadena de pensamiento, ejemplos few-shot, asignación de rol, formatos de salida explícitos, todo sigue moviendo la aguja.

Lo que cambió es el techo. En 2023, un prompt bien formulado podía duplicar la calidad de una respuesta porque los modelos subyacentes se confundían fácilmente con la ambigüedad. Podía convertir a GPT-3.5 de un becario torpe en un analista coherente con la estructura de oración adecuada. Esa brecha era real y la ingeniería de prompts la explotaba.

Los modelos frontera de 2026 no necesitan esa mano. Claude, GPT-5 y Gemini 2.5 entienden peticiones ambiguas razonablemente bien. El retorno marginal en el fraseo ha caído. Pero el retorno marginal de suministrar material fuente relevante, memoria con ámbito y ejemplos curados ha subido fuertemente. La palanca se movió.

Aquí está la comparación, expuesta.

Dimensión	Ingeniería de prompts	Ingeniería de contexto
Qué ajusta	La redacción de su petición	Toda la pila de entrada alimentada al modelo
Unidad primaria	Una frase	Un paquete: prompt del sistema, documentos, memoria, herramientas, historial
Para quién es	Cualquiera que use una caja de chat	Cualquiera cuya calidad de salida dependa de la IA
Habilidad requerida	Buena escritura, reconocimiento de patrones	Curación, arquitectura de información, juicio
Cuándo falla	El modelo malinterpreta la instrucción	El modelo entiende bien pero carece de hechos, ejemplos o historial para responder bien
Arreglo cuando se atasca	Reformular, añadir ejemplos, especificar formato de salida	Añadir la fuente correcta, recortar las fuentes incorrectas, ajustar memoria, delimitar la recuperación
Era de apogeo	2022 a 2024	2025 en adelante

Fíjese en la última fila. La ingeniería de prompts no murió porque estuviera mal. Murió porque el cuello de botella se movió a otro lugar.

Las 6 capas del contexto

Para hacer ingeniería de contexto de forma deliberada, tiene que saber qué está ingeniando. Cada interacción moderna con IA tira de seis capas, piense en ellas o no. La habilidad es saber cuáles ajustar.

Capa	Propósito	Ejemplo
Prompt del sistema	Define quién es el modelo, qué reglas sigue, qué tono adopta	Un archivo `claude.md` en su repositorio, el `.cursorrules` de Cursor o una instrucción de GPT personalizado como "Eres un editor senior. Prefiere la voz activa. No uses guiones largos nunca"
Memoria persistente	Cosas que el modelo recuerda sobre usted entre conversaciones	La función de memoria de ChatGPT almacenando su profesión, estilo de escritura y proyectos en curso
Recuperación (RAG)	Extrae fragmentos relevantes de una base de conocimiento mayor a demanda	Preguntarle a su IA "¿qué subrayé sobre efectos de red el mes pasado?" y que extraiga los pasajes exactos
Uso de herramientas	Permite al modelo tomar acciones o obtener datos en vivo	El modelo llama a una calculadora, ejecuta código, busca en la web o consulta su calendario
Adjuntos	Archivos, imágenes o URL cargados en esta sesión específica	Un contrato PDF que suelta para revisar, o una captura que pega para depurar
Historial de conversación	Lo que ya se ha dicho en este hilo	El ida y vuelta sobre su mensaje actual, incluidas correcciones y preferencias anteriores

Un contexto bien ingeniado usa las seis deliberadamente. Un contexto mal ingeniado vuelca todo en una capa (normalmente adjuntos, a menudo el historial de conversación) y espera que el modelo lo ordene.

El error que cometen la mayoría de los trabajadores del conocimiento es tratar la IA como una interfaz de chat cuando en realidad es un ensamblador de contexto. El chat es la punta. El iceberg es lo que alimenta antes de escribir.

Para un ángulo relacionado sobre cómo la arquitectura de información personal moldea la utilidad de la IA, consulte Personal Context Management: The Missing Layer Between You and AI.

Por qué las ventanas de contexto más grandes empeoraron esto, no lo mejoraron

En 2023, una ventana de contexto de 100K tokens era exótica. Para 2026, las ventanas de 1M son comunes. Puede soltar el texto completo de Guerra y paz en un único prompt. Así que la suposición natural es que la ingeniería de contexto se está volviendo más fácil. Más espacio, menos triaje, ¿verdad?

Incorrecto. Se volvió más difícil.

El artículo fundacional aquí es Liu et al. (2024), "Lost in the Middle: How Language Models Use Long Contexts", publicado en TACL. Los investigadores probaron si los modelos podían encontrar y usar información específica según dónde estuviera colocada en un contexto largo. El hallazgo fue incómodo: el rendimiento tiene forma de U. Los modelos prestan más atención a la información al principio y al final del contexto. La información en el medio se subestima sistemáticamente, a veces se ignora por completo (Liu et al., 2024).

Ponga una instrucción crítica en el medio de un documento de 50 páginas y el modelo puede actuar como si nunca la hubiera visto. Ese no es un bug del que pueda salir con un mejor prompt.

Luego, en 2025, Chroma publicó "Context Rot: How Increasing Input Tokens Impacts LLM Performance". Probaron 18 modelos frontera, incluidos GPT-4.1, Claude Opus 4 y Gemini 2.5. El resultado fue consistente en todos los modelos: el rendimiento se degradaba a medida que crecía la entrada, mucho antes de que la ventana de contexto estuviera cerca de llenarse. Una ventana de 200K tokens podía mostrar un deterioro serio con 50K tokens. Técnicamente el modelo "veía" todo. Actuaba como si no.

Por eso más contexto no es mejor contexto. Por eso volcar todo su Google Drive en un prompt no funciona, incluso cuando la ventana lo permite. La disciplina de ingeniería es saber qué excluir, no solo qué incluir.

Este es el coste oculto de la era del millón de tokens. La ventana creció más rápido que la capacidad de los modelos para usarla. Y convirtió "¿qué debería dejar fuera?" en la pregunta más valiosa de la pila.

La habilidad que nadie nombró: curación

Si el deterioro de contexto es el problema, la curación es la solución. Y la curación resulta ser una habilidad que la mayoría de los trabajadores del conocimiento ya practican, sin llamarla así.

Cada vez que subraya un pasaje en un artículo, está curando. Está diciendo: esto importa. El resto es fondo. Cuando anota un PDF, guarda un artículo o guarda una cita, hace lo mismo. Está construyendo un filtro señal-ruido sobre un mundo lleno de texto.

El problema hasta hace poco era que esa curación estaba atrapada. Sus subrayados vivían en una app. Sus notas de Kindle en otra. Su investigación web en el historial de su navegador. Cuando se sentaba a informar a una IA, no podía tirar de nada de eso eficientemente a la ventana de contexto. Terminaba releyéndolo todo o peor, pegando fuentes en bruto y esperando lo mejor.

La ingeniería de contexto como disciplina tiene un enorme hueco exactamente aquí. Las empresas lo resolvieron construyendo bases de conocimiento internas y tuberías RAG. Pero los trabajadores del conocimiento individuales no tienen un equipo de ingeniería. Tienen el mismo problema (demasiado material fuente, poca señal) y ninguna infraestructura.

Por eso las herramientas de lectura que capturan subrayados de forma duradera se han convertido silenciosamente en infraestructura de IA. El subrayador web de Glasp existe para resolver exactamente esto: convierte su lectura en contexto estructurado y recuperable. Cuando subraya un párrafo en una publicación de blog, ese subrayado se convierte en una pieza de contexto que puede entregar a cualquier IA más tarde, filtrada por tema, por fuente, por fecha.

El mismo principio aplica a la lectura de formato largo. Sus subrayados de Kindle son posiblemente la señal de mayor calidad que ha generado sobre lo que le importa. Prestó atención lo suficiente para subrayarlos. Ese es un filtro costoso, y se desperdicia si los subrayados están en un sistema cerrado.

Para un tratamiento más amplio de por qué la lectura curada supera a los documentos volcados, consulte The Hidden Cost of Information Overload: Why Your Brain Needs a Second Layer.

Ingeniería de contexto para individuos (no solo ingenieros)

La mayor parte de la escritura sobre ingeniería de contexto se dirige a los desarrolladores. Trata sobre construir sistemas de IA de producción: cómo dar forma a un prompt del sistema para un agente de codificación, cómo fragmentar documentos para recuperación, cómo cablear llamadas a herramientas. Eso es útil si lanza software. Es menos útil si es consultor, investigador, escritor, analista o estudiante intentando obtener mejores salidas de IA.

Pero se aplica la misma disciplina. Solo la ejecuta a mano.

Usted diseña prompts del sistema, de forma informal. Cada GPT personalizado, cada Claude Project, cada archivo de instrucciones al estilo claude.md que configure es un prompt del sistema. Cuando escribe "eres mi asistente de investigación, trabajo en política de energías renovables, prefiere resúmenes escépticos", está diseñando un prompt del sistema. Hágalo deliberadamente.

Usted gestiona la memoria. La función de memoria de ChatGPT y los projects de Claude le permiten fijar hechos que persisten entre conversaciones. La mayoría de la gente o bien ignora esto (y pierde continuidad) o vuelca todo en ello (y crea ruido). El movimiento correcto es curar la memoria como curaría un currículum: solo las cosas que quiere que el modelo use cada vez.

Usted hace recuperación, manualmente. Pegar el artículo correcto en un chat es RAG manual. La pregunta es de dónde viene "el artículo correcto". Si viene de desplazarse frenéticamente por el historial del navegador, no tiene sistema de recuperación. Si viene de una biblioteca de pasajes que ya ha marcado como interesantes, lo tiene.

Usted carga adjuntos intencionadamente. La tentación es subir el libro entero. El mejor movimiento es subir las 40 páginas que realmente subrayó. Está evitando el deterioro de contexto filtrando aguas arriba.

Usted gestiona el historial de conversación. Los hilos largos empeoran con el tiempo porque los mensajes viejos dominan el contexto de forma poco útil. Empezar un hilo nuevo para una subtarea, con un informe limpio, a menudo supera continuar el megahilo.

Nada de esto requiere habilidad de ingeniería. Requiere la misma habilidad que los buenos investigadores y los buenos periodistas ya tienen: saber qué incluir, qué cortar y de dónde sacar qué.

Sus subrayados son su contexto competitivo

Aquí está la parte que se subestima.

La mayoría de la gente trata sus notas y subrayados como ayudas de memoria. Cosas a las que volver algún día. Ese encuadre tenía sentido en 2010, cuando volver a ellos era la única manera de usarlos. Está obsoleto en 2026.

Sus subrayados son ahora un feed que puede entregarse a la IA. Cada pasaje que ha marcado, cada cita que ha guardado, cada anotación que ha hecho es una pieza de contexto. Y como la generó prestando atención, es de mayor señal que cualquier cosa raspada al azar de la web.

Piense en lo que esto significa competitivamente. Dos trabajadores del conocimiento usan el mismo modelo de IA. Uno tiene tres años de lectura y subrayado estructurados. El otro tiene tres años de pestañas de navegador que nunca revisitó. Cuando le hacen la misma pregunta a la IA, la primera persona puede alimentarla con su propio corpus curado. La segunda está atascada con los datos de entrenamiento genéricos del modelo y lo que recuerde pegar. La brecha no es una brecha de prompting. Es una brecha de contexto.

Por eso Glasp ha ido cambiando en cómo se posiciona. El pitch original era un subrayador web social: subraya cosas, ve lo que otros subrayaron, construye una identidad de lector. Todo sigue siendo cierto. Pero el valor más profundo ahora es que cada subrayado es un token de contexto esperando a ser usado. Su historial de lectura se compone en un corpus RAG personal, un párrafo a la vez.

Cuando empareja esto con el chat con IA de Glasp, el flujo de trabajo se parece más a lo que los ingenieros construyen para sus empresas. Subraya mientras lee. Más tarde hace preguntas y la IA extrae de aquello que realmente le importó, no de un índice genérico de la web. Eso es ingeniería de contexto, solo que el contexto es su propia biblioteca.

Para más sobre cómo esto voltea la relación lectura-IA, consulte The AI Reading Assistant That Doesn't Do the Reading for You.

Un marco simple para ingeniar contexto para cualquier tarea de IA

Basta de teoría. Aquí hay un flujo de trabajo concreto que puede ejecutar la próxima vez que abra un chat.

Paso 1: Defina el trabajo antes de escribir. Una frase. ¿Cómo se ve lo hecho? "Redactar un memorando de 500 palabras que resuma los tres argumentos principales contra la semana laboral de cuatro días, escrito para un COO escéptico". Eso es un trabajo. "Ayúdame con este artículo" no lo es.

Paso 2: Reúna sus fuentes, luego recórtelas. Traiga los materiales que realmente inciden en la tarea. Si tiene subrayados sobre el tema, empiece por ahí, no con los artículos completos. Si tiene memoria configurada, compruebe si ya contiene antecedentes útiles. Deje fuera cualquier cosa que solo esté relacionada tangencialmente. El deterioro de contexto es real.

Paso 3: Fije el rol y las reglas. Antes de la tarea, diga al modelo quién es y qué reglas aplican. "Edita para un COO escéptico. Sin jerga. Sin matices. Números antes que adjetivos." Esta es la capa del prompt del sistema. Toma diez segundos y cambia el tono de todo lo que sigue.

Paso 4: Alimente la tarea más el paquete, en orden. Ponga el contexto más importante primero y la tarea al final. Por el efecto Lost in the Middle, quiere la instrucción y el material más agudo al principio y al final. El medio es un pantano.

Paso 5: Itere sobre el contexto, no sobre el fraseo. Si la salida es mala, resista el impulso de reescribir su prompt doce veces. Pregúntese en su lugar: ¿le di el material correcto? ¿Había un pasaje que olvidé? ¿Había una fuente engañosa? Ajuste las entradas, vuelva a ejecutar y vea el salto de calidad.

Haga esto unas docenas de veces y se vuelve reflejo. Dejará de preguntar "¿cómo formulo este prompt?" y empezará a preguntar "¿qué necesita ver el modelo antes de responder?". Ese cambio es toda la disciplina.

Frequently Asked Questions

¿Está realmente muerta la ingeniería de prompts?

La frase se está retirando. Las técnicas bajo la frase siguen funcionando. Cadena de pensamiento, ejemplos few-shot y formatos de salida claros siguen siendo útiles. Lo que ha muerto es la idea de que un buen fraseo por sí solo le da una gran salida. En 2026, el fraseo es una palanca menor. El ensamblaje de contexto es la mayor. Cuando la gente dice "la ingeniería de prompts ha muerto", es esto lo que quiere decir.

¿Tengo que ser técnico para hacer ingeniería de contexto?

No. La metáfora de ingeniería confunde a algunos, pero simplemente significa hacer el trabajo deliberadamente en lugar de por accidente. Un consultor preparando un briefing, un periodista investigando una pieza, un estudiante organizando material fuente para un ensayo, todas estas son ingeniería de contexto disfrazada. La habilidad central es curación y juicio. La versión técnica es solo la misma habilidad aplicada a prompts del sistema, tuberías RAG y almacenes de memoria.

¿Cuál es la diferencia entre ingeniería de contexto y RAG?

RAG (retrieval-augmented generation) es una capa de la ingeniería de contexto, específicamente la capa de recuperación. Es la maquinaria que extrae fragmentos relevantes de una base de conocimiento cuando se necesita. La ingeniería de contexto es la disciplina más amplia que incluye RAG, más prompts del sistema, memoria, uso de herramientas, adjuntos e historial de conversación. RAG es una técnica. La ingeniería de contexto es la práctica.

¿No resolverán eventualmente esto las ventanas de contexto más grandes?

No lo han hecho hasta ahora, y la evidencia sugiere que no lo harán. Liu et al. (2024) mostraron que los modelos ignoran el medio de los contextos largos. El estudio de Chroma de 2025 mostró que los 18 modelos frontera evaluados se degradan mucho antes de que la ventana se llene. El cuello de botella no es el tamaño de la ventana. Es la asignación de atención dentro de la ventana. La curación sigue siendo valiosa incluso si las ventanas crecen otras 10x.

¿Cómo se relaciona esto con las funciones de "memoria" de IA?

La memoria (como la memoria persistente de ChatGPT o los projects de Claude) es una capa del contexto. Es lo que el modelo sabe sobre usted entre sesiones. La ingeniería de contexto incluye la memoria pero es más amplia. La memoria es la capa siempre encendida. La recuperación, los adjuntos y los prompts del sistema son las capas por tarea. Un buen ingeniero de contexto usa todas juntas.

¿Qué debería dejar de hacer?

Deje de acumular plantillas de prompts. Deje de pegar documentos completos cuando pasarían los pasajes subrayados. Deje de empezar conversaciones sin prompt del sistema y preguntarse por qué el tono está mal. Deje de tratar la caja de chat como la única superficie. La caja de chat es el centímetro final de una tubería mucho más larga, y esa tubería es donde viven las ganancias de calidad.

¿Dónde encajan los subrayados en esto?

Los subrayados son la forma más cruda y barata de contexto personal. Cada vez que subraya algo, está prefiltrando ruido fuera de sus propias futuras sesiones de IA. Las herramientas que capturan subrayados de forma duradera (a través de artículos, PDF, libros de Kindle y transcripciones de YouTube) convierten su lectura en contexto reutilizable. Por eso las herramientas de captura de lectura y las herramientas de IA están convergiendo.

¿No es esto solo toma de notas elegante?

En parte. La diferencia es que la toma de notas tradicional está optimizada para que usted relea sus notas. La ingeniería de contexto está optimizada para que un modelo consuma sus notas. Los requisitos de formato son distintos (importa más la estructura, la atomicidad, la recuperabilidad), pero la práctica subyacente de capturar lo que vale la pena recordar es la misma. Los buenos tomadores de notas tienen ventaja aquí.

Conclusión: la nueva alfabetización

Cada era de la informática ha tenido una alfabetización que separaba a los aficionados de los usuarios serios. En los años 90 era aprender a buscar bien en Google. En la década de 2010 era aprender a estructurar información en apps como Notion o Airtable. En 2026 es aprender a ingeniar contexto para IA.

Las personas que resuelvan esto se adelantarán mucho a las que no. No porque tengan mejor acceso a los modelos (todos tenemos los mismos modelos), sino porque llegan a cada tarea con mejor material. Saben qué alimentar. Saben qué dejar fuera. Saben dónde está su mejor fuente sobre un tema, porque se molestaron en capturarla meses antes.

Por eso la curación se está convirtiendo silenciosamente en la metahabilidad más valiosa de la era de la IA. Cada subrayado que guarda, cada pasaje que anota, cada pieza de lectura que realmente procesa es un depósito en un motor personal de contexto. El futuro de la productividad con IA no son personas con prompts secretos. Son personas con bibliotecas reflexivas.

Ya hace la lectura. Ya tiene opiniones sobre lo que importa. La única pregunta es si algo de eso permanece el tiempo suficiente para ser útil a su yo futuro, y a la IA que trabaja a su lado. Las herramientas existen. El hábito es la parte difícil.

Elija algo que valga la pena leer hoy. Subraye las partes que importan. Eso es ingeniería de contexto. Todo lo demás es técnica.