Por Qué Detectar Alucinaciones Es una Habilidad del Trabajador del Conocimiento, No del Ingeniero
Los equipos de aprendizaje automático tienen un stack para esto. Lakera, Galileo, Patronus, Arize y una docena de otros proveedores puntuarán, registrarán y alertarán sobre cada alucinación que su modelo produzca en producción. Hay arneses de evaluación, presupuestos de red-team e ingenieros dedicados de MLOps cuya descripción de trabajo incluye la palabra "factualidad".
Los trabajadores del conocimiento no tienen nada de eso. Un abogado redactando un memo, un investigador escribiendo una revisión de literatura, un product manager extrayendo un gráfico de dimensionamiento de mercado, un estudiante escribiendo un ensayo. Obtienen el mismo modelo que los ingenieros, sin ninguna de las barandillas. El resultado aterriza en su documento, y desde ahí aterriza en presentaciones judiciales, decks de junta y trabajos calificados.
El grupo Human-Centered AI de Stanford lo concretó en 2024. Su artículo Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools de Magesh, Surani, Dahl y colegas probó herramientas comerciales de IA legal que usan explícitamente la recuperación sobre jurisprudencia verificada. Incluso con recuperación, los sistemas alucinaron entre el 17% y el 33% de las consultas dependiendo de la herramienta. Los modelos de propósito general sin recuperación fueron mucho peores, con tasas de alucinación reportadas entre el 58% y el 82% en preguntas legales. Estas son herramientas vendidas específicamente para trabajo de alto riesgo.
La tabla de líderes HHEM-2.1 de Vectara, que puntúa la fidelidad de los resúmenes en modelos de frontera, muestra que el panorama de consumo es mucho mejor en tareas estrechas. La cima de la tabla de líderes de 2026 se sitúa en el rango del 1-3% para GPT-5, Claude 4.6 y Gemini 2.5 cuando la tarea es "resume este documento que acabo de darte". Pero ese benchmark mide la fidelidad a una fuente proporcionada. No es lo mismo que la factualidad en preguntas abiertas, donde el modelo tiene que recordar cosas del entrenamiento en lugar de leerlas de la página frente a él. En consultas de hechos novedosos, cada estudio público todavía sitúa la alucinación en dos dígitos.
La asimetría es el punto. El modelo es excelente sonando correcto y solo bueno siendo correcto. Detectar la brecha es una habilidad, no una herramienta. Este artículo es el manual.
Una Guía Rápida: Tres Cosas que "Alucinación" Realmente Significa
La palabra se usa de forma laxa. Vale la pena distinguir tres cosas.
Fabricación pura es contenido que nunca estuvo en ninguna fuente: personas inventadas, estudios inventados, citas inventadas. El modelo genera una oración de sonido plausible cuyos referentes no existen en ninguna parte de la Tierra.
Plausible pero incorrecto es contenido que apunta a cosas reales pero las acierta mal. Un autor real emparejado con un artículo que nunca escribió. Un estatuto real citado por una proposición que nunca hizo. Una empresa real asignada al año de fundación equivocado. Los referentes existen; las relaciones no.
Cierto pero sin respaldo es lo más complicado. La afirmación resulta ser verdadera, pero el modelo no tiene ninguna base real para ella. Adivinó y tuvo suerte. Esto importa porque si desafías una afirmación verdadera-pero-sin-respaldo y pides fuentes, el modelo alucinará fuentes, porque eso es lo que faltaba en primer lugar.
La alucinación no es lo mismo que una respuesta incorrecta. Si le preguntas a un modelo cuánto es 17 por 24 y dice 410, eso es una respuesta incorrecta, no una alucinación. El modelo realizó una operación y la hizo mal. La alucinación es cuando el modelo inventa contenido en lugar de calcularlo. El artículo de OpenAI de 2025 Why Language Models Hallucinate enmarca esto como un problema de incentivo de entrenamiento: los modelos son puntuados por producir respuestas, no por decir "no sé", así que aprenden a producir texto con confianza en ausencia de anclaje.
Con esas distinciones en mano, los patrones se vuelven más fáciles de detectar.
Patrón 1: Over-Confident Specificity (Especificidad Sobreconfiada)
La primera señal es cuando una IA te da información inusualmente precisa que no tiene por qué saber.
Haces una pregunta general sobre, digamos, la atención en modelos transformer, y la respuesta vuelve: "En el artículo original de 2017 de Vaswani et al., los autores usaron 8 cabezas de atención con una dimensión de 64 cada una, y reportaron una puntuación BLEU de 28.4 en la tarea WMT 2014 inglés-a-alemán". Algo de eso es correcto. Algo de eso es decoración. El modelo tiene confianza y especificidad sobre todo por igual.
Over-Confident Specificity es el patrón. El modelo busca la precisión porque la precisión suena autoritativa, y la recompensa de entrenamiento favorece las respuestas de sonido autoritativo. Hedging recibe penalización en los datos de preferencia humana, así que los modelos aprenden a comprometerse. El resultado es un párrafo donde los hechos estructurales y los hechos decorativos se presentan en el mismo tono de voz.
La verificación de 60 segundos consiste en pegar una afirmación específica de vuelta y pedir la fuente exacta. No "de dónde sacaste eso", lo que el modelo eludirá. Usa: "Cita la oración exacta de la fuente original que respalda esta afirmación, con el número de página". Observa lo que pasa. Si el nombre de la fuente del modelo cambia de una respuesta a la siguiente, o ofrece un número ligeramente diferente en la segunda pasada, tienes una alucinación. La memoria real es estable a través de las reformulaciones. La confabulación deriva.
Una segunda señal: pide un hecho preciso que conozcas de tu propia lectura. Si el modelo se equivoca en tu hecho conocido-bueno por un pequeño margen, cualquier otro hecho en ese párrafo es sospechoso.
Patrón 2: Phantom Citation (Cita Fantasma)
El caso de alucinación más famoso en derecho es Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023), en el que el abogado Steven Schwartz presentó un escrito citando seis opiniones judiciales que ChatGPT había inventado de la nada. Los nombres de los casos sonaban plausibles. Las citas del reportero estaban formateadas correctamente. Los jueces tenían nombres de sonido real. Ninguno de los casos existía. El juez Castel sancionó a Schwartz con $5.000 y el caso se convirtió en un ejemplo permanente de entrenamiento en los programas de CLE legal.
Phantom Citation es el patrón. Los modelos inventan DOIs, ISBNs, volúmenes de revistas, rangos de páginas y títulos de libros. A veces la revista es real y el artículo es falso. A veces el autor es real y el trabajo es falso. A veces la URL parsea pero la página da 404. La tasa de alucinación en citas académicas específicamente está documentada como alta; el trabajo de Princeton GEO y varios seguimientos han mostrado que incluso los sistemas aumentados con recuperación a menudo hacen aflorar citas que atribuyen incorrectamente o citan mal.
La verificación de 60 segundos es brutalmente simple. Copia la cita. Pégala en Google Scholar entre comillas. Si no obtienes una coincidencia exacta, la cita es errónea. Para títulos de libros, busca el título exacto más el nombre del autor en Google Books. Para URLs, haz clic en ellas. Una cita que no has verificado personalmente haciendo clic es una cita que no tienes.
Un prompt útil para añadir a cualquier chat en modo de investigación: "Para cada cita que me des, incluye una URL directa en la que pueda hacer clic. Si no puedes proporcionar una URL, marca la cita como no verificada". Esto no elimina los fantasmas, porque el modelo a veces también alucinará URLs, pero eleva el costo de la fabricación y hace que la verificación sea más rápida.
Patrón 3: Consensus Mirage (Espejismo de Consenso)
Cuando un modelo dice "la investigación muestra" o "los estudios han encontrado" o "los expertos están de acuerdo", está haciendo una de tres cosas. Está resumiendo un consenso real. Está sobreestimando un consenso real. O está inventando un consenso que no existe sobre un tema donde la literatura es escasa o disputada.
Consensus Mirage es el tercer caso. Tiende a aparecer en preguntas donde la investigación real es escasa. Campos nuevos. Industrias de nicho. Temas emergentes recientes donde hay seis artículos, no seiscientos. El modelo aún busca "la investigación muestra" porque ese es el registro que los datos de entrenamiento le enseñaron a usar para cualquier afirmación factual.
La verificación de 60 segundos consiste en pedir nombres. "¿Qué investigadores encontraron esto? ¿En qué año? ¿En qué institución?" Si el modelo produce nombres reales con afiliaciones reales, puedes verificar en 30 segundos buscando sus listas de publicaciones. Si el modelo produce referencias vagas como "investigadores en universidades de élite han demostrado" o "un estudio de 2023 encontró", no tienes nada que verificar, y esa es la señal. La vaguedad en respuesta a una solicitud de especificidad es una firma de alucinación.
Un sondeo más fuerte es pedir la visión disidente. "¿Cuál es la crítica más fuerte de este consenso?" Un modelo que realmente ha leído una literatura puede nombrar a los disidentes. Un modelo que ha confabulado un consenso producirá una disidencia que es estructuralmente idéntica al consenso, solo con la polaridad invertida. Esa simetría también es una señal.
Patrón 4: Plausible-but-Wrong Number (Cifra Plausible pero Errónea)
Los números son la alucinación más fácil de pasar por alto porque no los volvemos a verificar en nuestras cabezas.
Cuidado con las estadísticas que están desviadas por un factor de diez, fechas que están desviadas por un año o dos, tamaños de mercado que están desviados un 20%, porcentajes que están invertidos (47% se convierte en 53%, porque el modelo intercambió qué grupo estaba describiendo). La plausibilidad viene de que el orden de magnitud aproximado sea correcto. El error está en la precisión.
Plausible-but-Wrong Number es el patrón. Es especialmente común cuando el modelo está resumiendo un número de una fuente que ha parafraseado en lugar de citado. Los errores de redondeo se acumulan. Una cifra que era "$2.300 millones" en el original se convierte en "$2.500 millones" en el resumen porque el modelo está reconstruyendo en lugar de copiando.
La verificación de 60 segundos consiste en preguntar: "¿Cuál es la fuente exacta de ese número, incluida la página o el párrafo?" Luego verifica la fuente. La mitad del tiempo, el número en la fuente es diferente. La otra mitad, la fuente misma no dice lo que el modelo afirmó que decía, lo cual es un patrón de error completamente diferente.
Para cualquier número que planees poner en un documento público, la regla es simple. Si no puedes apuntar a la fuente original y leer el número con tus propios ojos, no uses el número. La IA es excelente para encontrar al candidato. Aún no es lo suficientemente buena como para ser la cita.
Patrón 5: Source Name Swap (Cambio de Nombre de Fuente)
El último patrón es el que atrapa a las personas cuidadosas.
Un modelo atribuye una afirmación real a la fuente equivocada. El efecto Hawthorne se atribuye a Frederick Taylor en lugar de a Elton Mayo. La prueba del malvavisco se atribuye a Daniel Kahneman en lugar de a Walter Mischel. Una línea de The Effective Executive se atribuye a The Practice of Management porque ambos son de Drucker y el modelo los confundió.
Source Name Swap es el patrón, y es peligroso porque la afirmación subyacente es verdadera. Verificas la afirmación, ves que se sostiene y pasas por alto que la atribución es incorrecta. Luego tu documento sale con una cita que un lector real del trabajo original detectará inmediatamente.
La verificación de 60 segundos consiste en buscar la frase citada exacta, entre comillas, en Google o Google Scholar. Si la frase aparece, verás en qué obra aparece. Si tu modelo la atribuyó a una obra diferente, tienes un Source Name Swap. Si la frase no aparece en absoluto en ningún texto indexado, puedes tener una Phantom Citation en su lugar, o el modelo parafraseó sin decírtelo.
Un hábito confiable: cuando le pides a un modelo una cita, pídele que marque cualquier cosa que sea parafraseada en lugar de textual. Luego trata la paráfrasis de la misma manera que tratarías tu propia paráfrasis, con la fuente fijada antes de que vaya a cualquier lugar público.
Los Cinco Patrones de un Vistazo
| Patrón | Cómo Se Ve | Ejemplo | Verificación de 60 Segundos | Disparadores Comunes |
|---|---|---|---|---|
| Over-Confident Specificity | Números, fechas o nombres propios inusualmente precisos incrustados en un párrafo confiado | "El artículo de Vaswani de 2017 usó 8 cabezas, dim 64, BLEU 28.4 en WMT'14" con un número incorrecto | Pide la cita exacta de la fuente con número de página; reformula la pregunta y observa la deriva | Preguntas técnicas donde existe un artículo real en los datos de entrenamiento |
| Phantom Citation | Citas académicas, títulos de libros o URLs de aspecto plausible que no resuelven | "Ver Johnson & Lee, 2019, Journal of Cognitive Science, 47(3), 211-228" sin tal artículo | Pega la cita entre comillas en Google Scholar; haz clic en cada URL | Prompts de investigación, legales y académicos |
| Consensus Mirage | "La investigación muestra", "los estudios encuentran", "los expertos están de acuerdo" sobre temas escasos o disputados | "Los estudios muestran que el trabajo remoto aumenta la productividad un 13%" sin un estudio específico nombrado | Pide nombres de investigadores, año, institución; pide la disidencia más fuerte | Temas de moda o de nicho con literatura escasa |
| Plausible-but-Wrong Number | Estadísticas desviadas por un factor, porcentaje invertido, fecha desplazada por un año o dos | "$2.300 millones de mercado" reportado como "$2.500 millones" | Pide la fuente exacta y la página; verifica contra el original | Resúmenes que parafrasean afirmaciones numéricas |
| Source Name Swap | Afirmación real, autor equivocado u obra equivocada | Efecto Hawthorne atribuido a Taylor en lugar de a Mayo | Busca la frase exacta entre comillas en Google Scholar | Conocimiento de dominio adyacente, cuerpos de obras de múltiples autores |
Imprime esto. Pégalo a una pared. La mayoría de las alucinaciones que verás en un año encajan en uno de estos cinco.
El Protocolo de Verificación de 60 Segundos
Verificar cada oración en una salida de IA es un día completo de trabajo. Verificar las afirmaciones que importan toma alrededor de un minuto cada una. Aquí está el protocolo.
Paso 1: Identifica la afirmación estructural. Lee la salida de la IA y subraya las dos o tres afirmaciones que, si están equivocadas, harían que el documento esté equivocado. Todo lo demás puede esperar. La mayoría de los párrafos tienen una afirmación estructural y varias decorativas. Apunta tu presupuesto de verificación a las estructurales.
Paso 2: Búscala como cita textual. Toma la frase más específica de la afirmación estructural, ponla entre comillas y busca en Google o Google Scholar. Si la frase aparece en una fuente real, tienes anclaje. Si no aparece en ningún lado, casi seguro tienes una alucinación de algún tipo.
Paso 3: Contrasta la fuente. Abre la fuente que la IA citó. Encuentra la oración real que la IA estaba parafraseando. Léela. Confirma que dice lo que la IA dijo que decía. Aproximadamente el 30% del tiempo, la fuente existe pero en realidad no respalda la afirmación, lo cual es su propio patrón de error.
Paso 4: Pídele a la IA que argumente contra sí misma. Pega la afirmación de vuelta en el chat con este prompt: "¿Cuál es la crítica más fuerte de esta afirmación? ¿Qué diría un escéptico cuidadoso?" Los modelos son sorprendentemente buenos en esto. La crítica a menudo hace aflorar el lugar exacto donde la respuesta original se excedió. Si el modelo no puede producir una crítica real, eso también es informativo: usualmente significa que no había un anclaje real para argumentar en primer lugar.
Una versión práctica para uso diario: copia la afirmación de la IA, abre una nueva pestaña, busca la frase más específica entre comillas y haz clic en la primera fuente real. Eso solo detecta la mayoría de las Phantom Citations y la mayoría de los Source Name Swaps. Los otros pasos son para trabajo de alto riesgo.
Para una mirada más profunda sobre por qué "deja que la IA piense por ti" sale mal incluso cuando los hechos se sostienen, consulta la trampa del pensamiento de IA. El protocolo de verificación es el piso. El trabajo de pensamiento sigue siendo tuyo.
Un Marco de Calibración de Confianza: Verificación Basada en Riesgos
No todas las salidas de IA merecen el protocolo completo. Calibrar el esfuerzo según el riesgo es la diferencia entre la paranoia y la disciplina.
Bajo riesgo. Lluvia de ideas, explorar un tema desconocido, redactar un correo a un amigo, generar ideas que refinarás con tu propio conocimiento. No se necesita verificación. El costo de un hecho incorrecto es esencialmente cero, y vas a reescribir la mayor parte de todos modos.
Riesgo medio. Documentos internos, borradores de blogs, notas de reuniones, decks de diapositivas para una pequeña audiencia. Aplica la verificación de 60 segundos a las una o dos afirmaciones estructurales principales. Verifica cualquier número específico, cualquier fecha específica, cualquier persona nombrada. Deja el resto.
Alto riesgo. Presentaciones legales, decisiones médicas, asesoramiento financiero, artículos publicados, cualquier cosa que vaya a una junta, un regulador o un tribunal. Verifica cada entidad nombrada. Verifica cada número contra una fuente primaria. Verifica cada cita haciendo clic. Lee el pasaje original para cada cita textual. Trata a la IA como un asistente de investigación cuyo trabajo firmarás, no como un colega cuyo trabajo confiarás.
Aquí es donde Glasp gana su sustento para el trabajo serio. Cuando la IA está anclada en tus propias fuentes resaltadas en lugar de buscar en sus datos de entrenamiento, la superficie de alucinación se reduce drásticamente. Ya verificaste esas fuentes cuando las resaltaste. El modelo no está adivinando; está leyendo texto que ya validaste.
El patrón es "resalta primero, pregunta después". Lee el material fuente. Resalta los pasajes que importan. Luego haz preguntas a el resaltador web de Glasp y a la función de chat con IA ancladas en esos resaltados. Las respuestas de la IA están ancladas a texto que puedes ver y releer. Las Phantom Citations se vuelven imposibles porque el grupo de citas es cerrado. Los Source Name Swaps se detectan al instante porque cada afirmación enlaza de vuelta a un resaltado que tú hiciste.
Para más sobre por qué alimentar a la IA con tu propio contexto supera al prompting genérico, consulta ingeniería de contexto. Para cómo se comparan los diferentes modelos de frontera en el comportamiento de alucinación en flujos de trabajo de aprendizaje, consulta Claude versus ChatGPT para aprender.
El marco no es "confía en la IA" o "no confíes en la IA". Es "confía en la IA exactamente tanto como el riesgo lo permita, y verifica en proporción".
Preguntas Frecuentes
¿Con qué frecuencia alucinan los LLMs actuales?
Depende enteramente de la tarea. La tabla de líderes HHEM-2.1 de Vectara sitúa a los principales modelos de frontera en el rango del 1-3% en resúmenes, donde al modelo se le da un documento fuente y se le pide que lo resuma. Ese benchmark mide la fidelidad a una fuente proporcionada.
Las consultas factuales abiertas, donde el modelo tiene que recordar del entrenamiento en lugar de leer de una fuente, son una historia diferente. Estudios públicos sobre consultas legales, médicas y académicas han reportado tasas desde el 17% en los mejores sistemas aumentados con recuperación hasta más del 80% en modelos de propósito general sin recuperación. La brecha entre "resume este PDF" y "dime lo que sabes sobre X" es la brecha entre un problema del 2% y uno del 30%.
¿Son GPT-5, Claude 4.6 y Gemini 2.5 menos propensos a alucinaciones que los modelos más antiguos?
Sí para resúmenes. Las tablas de líderes de resúmenes han mejorado constantemente, y la frontera de 2026 es significativamente mejor que la frontera de 2023 en fidelidad al texto proporcionado.
Para consultas de hechos novedosos, las ganancias son menores y más difíciles de medir. Los modelos alucinan menos a menudo, pero las alucinaciones que producen son más confiadas, más pulidas y más difíciles de detectar solo leyendo. La frontera mueve la barra a tu favor en promedio y en tu contra en el peor de los casos. El protocolo de verificación importa más, no menos, a medida que los modelos mejoran.
¿Puedo simplemente activar la búsqueda web para arreglar esto?
Parcialmente. Los modelos anclados en la web alucinan menos en preguntas donde una búsqueda fresca devuelve una respuesta autoritativa clara. Aún alucinan en el formato de citas, atribuyendo afirmaciones a fuentes que en realidad no las hicieron, y resumiendo los resultados de búsqueda de forma inexacta.
El artículo legal de RAG de Stanford es el dato relevante: incluso las herramientas vendidas específicamente como aumentadas con recuperación alucinaron en el 17% al 33% de las consultas. La recuperación reduce la tasa. No la elimina. Trata la búsqueda web como una mitigación parcial, no una solución, y verifica de todos modos en trabajo de alto riesgo.
¿Debería confiar en la IA para preguntas médicas, legales o financieras?
Usa el marco de riesgos. La IA es excelente para orientarte sobre un tema, generar preguntas para hacer a un profesional y redactar comunicación que luego harás revisar. Aún no es confiable como la autoridad final en cualquier decisión que afecte tu salud, tu libertad o tu dinero.
Para dominios de alto riesgo específicamente: nunca uses una cita, estadística o afirmación de una IA sin verificarla contra una fuente primaria. Siempre divulga la participación de la IA a los profesionales con los que trabajas. Trata a la IA como un becario rápido, no como un experto licenciado.
¿Cómo sé si mi propio borrador asistido por IA tiene una alucinación?
Aplica el protocolo de 60 segundos a cada afirmación estructural antes de publicar o enviar. Busca como cita textual las frases específicas. Haz clic en cada cita. Verifica cada número contra una fuente primaria. Pídele al modelo que critique su propia salida y lee la crítica cuidadosamente.
Una buena pasada final: lee tu propio borrador en voz alta, y detente en cada afirmación de la que no puedas dar fe personalmente desde la memoria o desde una fuente verificada. Esas son las afirmaciones que necesitan salir o ser re-ancladas antes de que el documento deje tu escritorio.
Conclusión
Las alucinaciones no van a desaparecer. Son una característica estructural de cómo se entrenan estos modelos, y la frontera está mejorando el caso promedio más rápido que el peor caso. La habilidad que necesitan los trabajadores del conocimiento no es "esperar a que la IA mejore". Es "verificar bien, calibrar la confianza y anclar la IA en fuentes reales siempre que el riesgo lo justifique".
Los cinco patrones de este artículo, Over-Confident Specificity, Phantom Citation, Consensus Mirage, Plausible-but-Wrong Number y Source Name Swap, cubren la abrumadora mayoría de lo que sale mal en la práctica. Nombrarlos los hace detectables. El protocolo de 60 segundos los atrapa a tiempo. El marco de riesgos mantiene el costo de la verificación proporcional al costo de equivocarse.
Para el trabajo que no puedes permitirte equivocar, el movimiento de mayor apalancamiento no es un mejor prompting. Es un mejor anclaje. Resalta tus fuentes primero con Glasp, luego haz preguntas a la IA ancladas en texto que ya verificaste. La superficie de alucinación colapsa. El trabajo se vuelve más rápido, no más lento, porque la verificación está incorporada.
Confía en la IA exactamente tanto como el riesgo lo permita. Verifica en proporción. Ancla en tus propias fuentes siempre que puedas. Ese es el manual.