La promesa de productividad frente a la realidad
El discurso está en todas partes. Empareja un LLM con un trabajador del conocimiento y verás cómo la producción se duplica. Apila una licencia de Copilot en cada empleado y monta la curva de productividad. La narrativa es tan ruidosa que cuestionarla se siente como cuestionar la gravedad.
Luego empezaron a llegar los datos. En julio de 2025, METR publicó "Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity", un ensayo controlado aleatorizado con 16 desarrolladores senior trabajando en problemas reales en sus propios repositorios grandes de código abierto. El resultado: los desarrolladores que usaban herramientas de IA tardaron 19% más en completar tareas que los desarrolladores sin ellas. A los mismos desarrolladores, al pedirles que estimaran después, creían que la IA los había hecho 20% más rápidos. Esa brecha entre percepción y realidad, aproximadamente 39 puntos porcentuales, es el impuesto de productividad en un solo gráfico.
Los despliegues de Copilot de Microsoft han producido imágenes igualmente mixtas. Estudios de BetterUp Labs y el Stanford Social Media Lab en 2024 y 2025 encontraron ganancias en algunas tareas estrechas (resumir notas de reuniones, redactar correos formularios) pero pérdidas en otras, y una señal preocupante de que el uso de IA puede desplazar el trabajo hacia "workslop", producción de bajo esfuerzo que otros humanos luego tienen que limpiar. La imagen agregada no es una revolución de productividad. Es una redistribución de productividad, con ganadores y perdedores dependiendo de la tarea.
Entonces, ¿por qué la IA se siente tan rápida? Porque la parte visible es rápida. La generación es instantánea. La parte invisible, escribir el prompt, verificar, volver a hacer prompts, limpiar resultados sutilmente incorrectos, es donde llega la cuenta. Llámalo el impuesto de productividad. Es el tiempo que pagas por la IA que no aparece en la ventana de chat.
Los tres costos ocultos que paga cada tarea con IA
Cada tarea con IA viene con tres partidas. La mayoría de los usuarios solo se dan cuenta de la tercera cuando muerde.
El impuesto de construcción del prompt es lo que pagas antes de que comience la generación. Para una tarea compleja, un prompt utilizable podría tener 200 a 600 palabras, además del volcado de contexto y los ejemplos. Eso son 30 a 120 segundos de tipeo o copiar y pegar. El documento de trabajo NBER de OpenAI "How People Use ChatGPT" (septiembre de 2025, basado en 1.5 millones de conversaciones) encontró que el 49% de los mensajes son "Asking" (preguntar) en lugar de "Doing" (hacer), lo que significa que los usuarios buscan información en su mayoría, no delegan tareas. Incluso buscar toma tiempo de configuración, y ese tiempo no es gratis.
El impuesto de verificación es lo que pagas después de que termina la generación. Lees el resultado. Verificas los hechos. Pruebas el código por sentido común. Cruzas referencias de la cita. Para una respuesta de 300 palabras, una verificación cuidadosa puede tomar 60 a 180 segundos. Para código, es más largo. Para cualquier cosa a la que pondrías tu nombre, es aún más largo. El Vectara Hallucination Leaderboard, que rastrea con qué frecuencia los LLMs de consumo inventan hechos al resumir documentos fuente, muestra tasas de alucinación de aproximadamente 1% a 10% dependiendo del modelo y la tarea. Una de cada veinte respuestas te confundirá, en promedio. Saltarse la verificación solo desplaza el costo de "tu tiempo" a "tu reputación".
El impuesto de retrabajo es la cuenta sorpresa. El resultado es 80% correcto pero el tono está mal, o el formato está equivocado, o citó un artículo que no existe, o afirmó con confianza un número que sabes que tiene cinco años de antigüedad. Ahora estás haciendo un nuevo prompt (otros 30 segundos) o reescribiendo (otros 2 minutos). Para tareas en las que ya conocías la respuesta desde el principio, el retrabajo usualmente cuesta más que simplemente hacerlo tú mismo. Esto es exactamente con lo que se encontraron los desarrolladores de METR: pasaron más tiempo haciendo prompts y revisando del que habrían pasado escribiendo el código.
Suma esos tres y una "respuesta de IA de 5 segundos" rutinariamente se convierte en una interacción de 3 minutos. Multiplica por 30 usos de IA al día y tienes una hora y media gastada solo en el impuesto de productividad.
La Matriz Vale-La-Pena: un 2x2 que puedes correr en tu cabeza
La decisión de si usar IA es bidimensional, no unidimensional. La mayoría de la gente solo piensa en la dificultad de la tarea. También deberían estar pensando en el costo de verificación.
La complejidad de la tarea es cuánto te tomaría la tarea sin IA. El costo de verificación es cuánto te toma confirmar que una respuesta generada por IA es correcta. Estos son independientes. Traducir un párrafo al español es difícil para ti (alta complejidad) y barato de verificar si lees español (bajo costo de verificación). Escribir una respuesta corta y amigable a un colega es fácil para ti (baja complejidad) y fácil de verificar (bajo costo de verificación), pero la sobrecarga de la IA por sí sola excede el tiempo que habrías pasado.
| Barato de verificar | Caro de verificar | |
|---|---|---|
| Tarea difícil | La IA brilla. Traducción, extracción estructurada, redactar formatos poco familiares, código en un lenguaje que lees pero no escribes con fluidez. | Zona de trabajo profundo. Memos estratégicos, investigación novedosa, código en rutas críticas para la seguridad. El riesgo de alucinación de la IA más tu costo de verificación a menudo exceden hacerlo tú mismo. |
| Tarea fácil | Salta la IA. Correos cortos, arreglos de formato, cualquier cosa de menos de 60 segundos. El impuesto del prompt excede el trabajo. | Definitivamente salta la IA. Escritura familiar en tu propia voz, decisiones que dependen de un contexto que solo tú tienes. La IA aquí es pura sobrecarga. |
El punto de la matriz es hacer una decisión automática: si estás en la fila de "tarea fácil", por defecto no uses IA. Los dos cuadrantes superiores son donde la IA se gana su lugar, e incluso esos se dividen. Difícil más verificación cara es el caso más complicado, porque la tentación es más alta (la tarea es difícil, después de todo) pero el costo también es el más alto. Para una lectura más profunda sobre cuándo el "pensar por ti" de la IA contraproduce en la propia cognición, ver The AI Thinking Trap.
Siete tareas donde la IA casi siempre te ralentiza
Algunas tareas pierden por defecto. Vale la pena memorizarlas como una lista de "no IA", porque recurrir al cuadro de chat en estas es memoria muscular que la mayoría de los trabajadores del conocimiento aún no han desaprendido.
| Tarea | Por qué pierde la IA | Qué hacer en su lugar |
|---|---|---|
| Correos cortos (menos de 80 palabras) | Hacer prompt + verificar cuesta más que tipear la respuesta. | Escríbelo. Usa un expansor de fragmentos si es verdaderamente repetitivo. |
| Arreglos de formato (capitalización, espaciado de listas) | El arreglo es mecánico y está a 10 segundos. La IA agrega latencia de ida y vuelta y puede "mejorar" cosas que no le pediste. | Usa tu editor. Buscar y reemplazar le gana a la IA en patrones conocidos. |
| Tu propia voz en temas familiares | La IA aplana la voz hacia la media del LLM. Pasarás más tiempo des-aplanándola que escribiendo desde cero. | Escríbelo tú mismo. Usa la IA solo para crítica después. |
| Decisiones de menos de 60 segundos | La decisión termina antes de que termine el prompt. | Decide. Confía en la respuesta del 80% que tu cerebro ya produjo. |
| Decisiones que dependen de contexto privado | Cargar el contexto a la IA toma más que la decisión. | Decide con el contexto que ya tienes. |
| Aprendizaje activo (recuerdo, resolución de problemas) | La investigación de práctica de recuperación de Karpicke y el marco de "dificultades deseables" de Bjork ambos muestran que la recuperación con esfuerzo construye memoria. La IA disuelve la dificultad y la memoria con ella. | Lucha primero. Usa la IA solo después de haber intentado el recuerdo. |
| Trabajo creativo donde la fricción es el valor | Un primer borrador que escribiste tú mismo, incluso uno malo, está más cerca de tus ideas reales que un borrador de IA pulido que tienes que ingenierizar a la inversa. | Borrador feo. Revisa con ayuda. No tercerices la generación. |
La entrada de aprendizaje merece peso extra. Un estudio de 2008 de Karpicke y Roediger ("The Critical Importance of Retrieval for Learning") mostró que los estudiantes que practicaban recuperar información recordaban 50% más una semana después que los estudiantes que volvían a estudiar el mismo material. La IA es una máquina de re-estudio. Te entrega la respuesta. Cada vez que la dejas, te saltas la repetición de recuperación que habría construido la memoria. Para un marco de decisión enfocado en esto, ver Claude vs ChatGPT for Learning.
Seis tareas donde la IA realmente se multiplica
El otro lado es real. Algunas tareas ganan tanto con la IA que saltarla sería tonto. Comparten una estructura: la tarea es difícil, la verificación es barata y la salida es lo suficientemente estructurada para que los errores emerjan rápido.
| Tarea | Por qué gana la IA | Esqueleto del prompt |
|---|---|---|
| Sintetizar 5+ fuentes | Leer 30 páginas y producir un resumen coherente es lento para humanos, rápido para LLMs. La verificación es rápida si mantienes las fuentes lado a lado. | "Aquí hay 5 extractos de fuentes. Produce una síntesis de 200 palabras cubriendo los puntos X, Y, Z. Cita cada afirmación por número de fuente." |
| Redactar formatos poco familiares | Propuestas de subvención, cartas legales, documentos de planificación de sprint que nunca has escrito. El formato mismo es la parte difícil. | "Redacta un [formato] para [propósito]. Audiencia: [X]. Tono: [Y]. 400 palabras." |
| Traducción (cuando lees pero no escribes el idioma destino) | Verificación asimétrica: puedes leerlo de vuelta al instante. | "Traduce lo siguiente a [idioma]. Preserva el registro y los modismos donde sea posible." |
| Código fuera de tu zona de confort | Una línea de bash, una regex, una función de ventana SQL. Puedes ejecutarlo y ver si funciona. | "Escribe un fragmento en [lenguaje] que [haga X]. Incluye 1 caso de prueba que pueda pegar en el REPL." |
| Extracción estructurada (CSV, JSON desde texto desordenado) | Los LLMs son excelentes en extracción ligada a formato. Puedes validar por esquema. | "Extrae los siguientes campos de este texto a JSON: [lista de campos]. Si falta un campo, usa null." |
| Crítica socrática de tu propio borrador | Tú lo escribiste, tú lo conoces. El trabajo de la IA es solo encontrar agujeros. La verificación es "¿estoy de acuerdo con la crítica?" | "Critica este borrador como lo haría un editor. Identifica las 3 afirmaciones más débiles y por qué." |
Nota el hilo común: en cada caso ganador, sigues siendo el autor del trabajo. La IA está haciendo una sub-tarea cuya salida puedes verificar rápido. Cuando la IA está haciendo el pensamiento, el costo de verificación se infla y la tarea regresa hacia la mitad inferior de la matriz. Para más sobre cómo la calidad del contexto aguas arriba determina si estos prompts realmente funcionan, ver Context Engineering.
El problema de la latencia de verificación
Aquí está el secreto sucio de las afirmaciones de productividad de la IA: la mayoría de los números de "tiempo ahorrado" se miden antes de la verificación. El usuario genera un borrador, declara la tarea completa y sigue adelante. El costo de verificación se empuja aguas abajo, usualmente al yo futuro del usuario cuando un error emerge en producción, en una reunión o frente a un cliente.
La latencia de verificación es la brecha entre cuándo la IA produce salida y cuándo descubrirías que está mal. Para código, la latencia es corta: o se ejecuta o no. Para prosa, la latencia puede ser de horas o días, especialmente si el error es un hecho falso afirmado con confianza. El Vectara Hallucination Leaderboard, que mide qué tan a menudo las tareas de resumen inventan detalles que no están en la fuente, ubica a los principales modelos de consumo en el rango de 1% a 3% y a los modelos más débiles en el rango de 5% a 10%. Una tasa de error del 3% suena pequeña hasta que te das cuenta de que significa aproximadamente uno de cada 30 párrafos tiene un hecho fabricado. Si estás escribiendo un informe de 12 párrafos, espera un error significativo el 40% del tiempo.
El cálculo real de productividad tiene que incluir la verificación. Si una tarea toma 5 minutos a mano y 2 minutos con IA, "ahorraste" 3 minutos, pero solo si la verificación es gratis. Si la verificación toma 90 segundos, tu ahorro real es de 90 segundos. Si la verificación toma 4 minutos (porque el tema es técnico y tienes que perseguir citas), perdiste un minuto. El estudio de desarrolladores de METR encontró exactamente este patrón: la IA generaba código rápido, pero leerlo y arreglarlo se comía los ahorros y algo más. Para una manera estructurada de verificar la salida del modelo sin quemar todos tus minutos ahorrados, ver el LLM Hallucination Detection Playbook.
Una regla útil: la verificación no debe tomar más del 30% del tiempo que la IA dice haber ahorrado. Si lo hace, has cruzado a territorio negativo y probablemente deberías hacer la tarea tú mismo.
Construye tu propia auditoría de tiempo con IA
La teoría es barata. La cura para el sobreuso de la IA son los datos sobre tu propio comportamiento. Aquí hay un ejercicio de 7 días que sacará a la superficie, con precisión vergonzosa, dónde la IA te está ayudando y dónde es el impuesto de productividad.
Día 0: abre un archivo de notas o una hoja de cálculo. Tres columnas: timestamp, descripción de la tarea, "¿qué habría hecho sin IA?". Cuarta columna opcional: minutos estimados ahorrados o perdidos.
Días 1 al 7: cada vez que abras ChatGPT, Claude, Gemini o cualquier herramienta de IA, regístralo. No filtres. No te saltes los triviales. Especialmente no te saltes los triviales, porque esos son los que silenciosamente drenan tu día. Para cada entrada, anota para qué usaste realmente la IA (escribir una respuesta de Slack, resumir un documento, redactar un correo) y cuál habría sido tu alternativa (lo tipeé yo mismo, hojeé el documento, usé una plantilla).
Día 8: revisa. Para cada fila, estima los minutos netos ahorrados o perdidos. Sé honesto. Si usaste IA para escribir una respuesta de 3 oraciones que habría tomado 30 segundos tipear, regístrala como -1 minuto (el prompt + verificar tomó más que tipear). Si usaste IA para traducir un documento de 600 palabras a un idioma que no escribes, regístralo como +20 minutos.
La mayoría de la gente que hace este ejercicio encuentra dos sorpresas. Primero, usan la IA aproximadamente el doble de a menudo de lo que pensaban. Segundo, en algún lugar entre el 30% y el 50% de esos usos son netos negativos o de equilibrio. La auditoría no se trata de dejar la IA. Se trata de cortar el tercio inferior de usos, aquellos donde el impuesto de productividad excede la ganancia de productividad. Eso solo suele ser de 30 a 60 minutos al día recuperados.
Diseñar un flujo de trabajo de IA mínimo
Una vez que la auditoría te da datos, el rediseño es directo. Por defecto, no usar IA. Escala solo cuando la matriz diga que vale la pena.
La heurística de "por defecto, no IA" voltea la cultura actual, que es "por defecto, IA". La mayoría de los trabajadores del conocimiento abren ChatGPT antes de haber decidido si la tarea lo amerita. Invierte el orden: comienza la tarea y recurre a la IA solo cuando golpees un punto de fricción real. Un punto de fricción real es "no conozco el formato de este documento", no "esto es levemente tedioso". Tedio más IA usualmente igual a tedio más impuesto.
Para las tareas que sí ameritan IA, diseña para un bajo costo de verificación. Eso significa darle al modelo el material fuente que necesita (para que no tenga que inventar), pedir salida estructurada (para que los errores emerjan) y mantener tu superficie de verificación frente a ti. Aquí es donde el resaltador web de Glasp se gana su lugar en un flujo de trabajo de IA. Cuando ya has resaltado los pasajes clave de un artículo o PDF, la función de chat IA no tiene que adivinar qué te importa. El contexto está pre-cargado. La misma lógica aplica a YouTube Summary: la transcripción es la fuente de verdad, y el modelo está resumiendo algo verificable en lugar de inventar desde un título vago.
El ritmo que recomendaríamos, después de ver miles de usuarios de Glasp trabajar de esta manera, es resaltar primero, hacer prompt después. Resalta mientras lees o ves. Construye un corpus pequeño respaldado por fuentes. Luego, cuando necesites síntesis o crítica o extracción, haz prompt contra ese corpus. El costo de verificación colapsa, porque la fuente está justo ahí. El riesgo de alucinación baja, porque el modelo tiene material real para anclarse. El impuesto de productividad baja, porque el prompt no está intentando importar contexto, el contexto ya está en la sala.
Eso es un flujo de trabajo de IA mínimo. Menos IA, usada mejor, en las tareas donde las matemáticas realmente funcionan.
Preguntas frecuentes
¿La IA realmente me está ralentizando?
Posiblemente, en una fracción significativa de tus tareas. El estudio de METR de julio de 2025 con desarrolladores experimentados de código abierto encontró un retraso del 19% al usar herramientas de IA, a pesar de que los usuarios reportaron sentirse 20% más rápidos. La brecha de percepción es el peligro. La única forma confiable de saberlo es realizar una auditoría personal de tiempo (ver Sección 7) durante una semana. La mayoría de la gente encuentra que del 30% al 50% de sus usos de IA son de equilibrio o netamente negativos.
¿Cuándo debería usar ChatGPT vs Claude vs solo hacerlo yo mismo?
Decide en dos pasos. Paso uno: corre la Matriz Vale-La-Pena. Si la tarea es corta, familiar, o el costo de verificación es alto, simplemente hazlo tú mismo. Paso dos: si la IA está justificada, elige el modelo según la tarea. Claude tiende a ganar para análisis de contexto largo y escritura estructurada. ChatGPT tiende a ganar para ida y vuelta rápida y uso de herramientas. Gemini gana cuando lo necesitas integrado en Google Workspace. El modelo importa menos que la decisión de usar IA en absoluto.
¿Por qué me siento más rápido con IA incluso cuando no lo soy?
Porque la generación se siente rápida. Ver tokens transmitirse da una fuerte sensación de progreso, mientras que el tiempo de escribir el prompt y el tiempo de verificación están difusos y son fáciles de olvidar. Los desarrolladores de METR reportaron una aceleración percibida del 20% mientras corrían medibles 19% más lento, una ilusión de 39 puntos. El cerebro acredita en exceso la parte visible del bucle y subacredita las partes invisibles. La auditoría arregla esto haciendo visible el tiempo invisible.
¿Debería dejar de usar IA para escribir?
Matizado. Deja de usarla para escritura corta y familiar en tu propia voz (respuestas, actualizaciones internas, cualquier cosa bajo 80 palabras). La salida aplana tu voz y la ida y vuelta cuesta más que tipear. Sigue usándola para formatos poco familiares (propuestas de subvención, cartas legales, formatos que has escrito menos de cinco veces), traducción y extracción estructurada. Y úsala para crítica de tus propios borradores, donde sigues siendo el autor y la IA es solo un compañero de práctica.
¿Cuánto debería tardar verificar una respuesta de IA?
Vincula el tiempo de verificación a las apuestas. Para salida de bajas apuestas (un mensaje de Slack, una nota personal), 5 a 15 segundos es suficiente. Para apuestas medias (un documento que tu equipo leerá), 30 a 90 segundos, con al menos un hecho verificado puntualmente. Para apuestas altas (cualquier cosa publicada externamente, código en producción, afirmaciones sobre números), la verificación debe ser al menos tan larga como habría tomado escribir la cosa tú mismo. Si la verificación consistentemente toma más del 30% del tiempo que la IA dice haber ahorrado, estás pagando el impuesto de productividad por completo.
Conclusión
La IA no es gratis. Cuesta tiempo de prompt, tiempo de verificación y la cuenta ocasional de retrabajo. En las tareas correctas, las ganancias eclipsan los costos. En las tareas equivocadas, los costos silenciosamente comen el día. La evidencia de 2025 es lo suficientemente clara como para que "siempre usar IA" ya no sea un valor por defecto defendible para trabajo serio del conocimiento.
El movimiento práctico es pequeño. Realiza la auditoría durante una semana. Nota dónde la IA se multiplica y dónde te grava. Corta el tercio inferior de usos. Por defecto, no IA en trabajo corto, familiar y de menos de 60 segundos. Escala a IA en trabajo difícil, estructurado y fácil de verificar. Resalta primero, haz prompt después. El resultado no es menos IA en tu vida. Es IA que realmente paga por sí misma.