A Checagem de Alucinação em 60 Segundos: Um Playbook de Verificação para Trabalhadores do Conhecimento

Por que Detecção de Alucinação é uma Habilidade do Trabalhador do Conhecimento, Não do Engenheiro

Times de machine learning têm um stack pra isso. Lakera, Galileo, Patronus, Arize e uma dúzia de outros vendors vão pontuar, logar e alertar sobre cada alucinação que o modelo deles produz em produção. Existem eval harnesses, orçamentos de red-team e engenheiros de MLOps dedicados cuja descrição de cargo inclui a palavra "factuality".

Trabalhadores do conhecimento não têm nada disso. Um advogado redigindo um memorando, uma pesquisadora escrevendo uma revisão de literatura, um product manager puxando um gráfico de market sizing, um estudante escrevendo uma redação. Eles recebem o mesmo modelo que os engenheiros, sem nenhum dos guardrails. O resultado aterrissa no documento deles, e dali aterrissa em petições judiciais, decks de board e trabalhos avaliados.

O grupo Human-Centered AI de Stanford concretizou isso em 2024. O paper deles, Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools, de Magesh, Surani, Dahl e colegas, testou ferramentas comerciais de IA jurídica que explicitamente usam retrieval sobre case law verificada. Mesmo com retrieval, os sistemas alucinaram entre 17% e 33% das queries dependendo da ferramenta. Modelos de propósito geral sem retrieval foram bem piores, com taxas de alucinação reportadas entre 58% e 82% em questões jurídicas. Essas são ferramentas vendidas especificamente para trabalho de alto risco.

O leaderboard Vectara HHEM-2.1, que pontua a fidelidade de sumarização entre modelos de fronteira, mostra que o cenário de consumidor é muito melhor em tarefas restritas. O topo do leaderboard de 2026 fica no intervalo de 1-3% para GPT-5, Claude 4.6 e Gemini 2.5 quando a tarefa é "resuma este documento que acabei de te dar". Mas esse benchmark mede fidelidade a uma fonte fornecida. Não é o mesmo que factualidade em perguntas abertas, em que o modelo precisa lembrar de coisas do treino, em vez de lê-las da página em frente. Em queries de fatos novos, todo estudo público ainda coloca alucinação em dois dígitos.

A assimetria é o ponto. O modelo é excelente em soar certo e apenas bom em estar certo. Detectar o gap é uma habilidade, não uma ferramenta. Este artigo é o playbook.

Um Primer Rápido: Três Coisas que "Alucinação" Realmente Significa

A palavra é usada de forma frouxa. Vale distinguir três coisas.

Fabricação pura é conteúdo que nunca esteve em nenhuma fonte: pessoas inventadas, estudos inventados, citações inventadas. O modelo gera uma frase de aparência plausível cujos referentes não existem em lugar nenhum na Terra.

Plausível porém errado é conteúdo que aponta para coisas reais, mas as descreve errado. Um autor real combinado com um paper que nunca escreveu. Um estatuto real citado para uma proposição que ele nunca fez. Uma empresa real associada ao ano de fundação errado. Os referentes existem; as relações não.

Verdadeiro porém sem suporte é o mais traiçoeiro. A afirmação por acaso é verdadeira, mas o modelo não tem grounding real para ela. Ele chutou e teve sorte. Isso importa porque, se você desafiar uma afirmação verdadeira-porém-sem-suporte e pedir fontes, o modelo vai alucinar fontes, porque foi exatamente isso que faltou desde o início.

Alucinação não é o mesmo que resposta errada. Se você pergunta a um modelo quanto é 17 vezes 24 e ele responde 410, isso é uma resposta errada, não uma alucinação. O modelo executou uma operação e errou. Alucinação é quando o modelo inventa conteúdo em vez de computá-lo. O paper da OpenAI de 2025, Why Language Models Hallucinate, enquadra isso como um problema de incentivo de treino: modelos são pontuados por produzir respostas, não por dizer "não sei", então aprendem a produzir texto com confiança na ausência de grounding.

Com essas distinções na mão, os padrões ficam mais fáceis de identificar.

Padrão 1: Over-Confident Specificity

O primeiro sinal é quando uma IA te entrega informação atipicamente precisa que não tem como saber.

Você faz uma pergunta geral sobre, digamos, attention em transformer models, e a resposta vem: "No paper original de 2017 de Vaswani et al., os autores usaram 8 attention heads com dimensão de 64 cada, e reportaram um BLEU score de 28.4 na tarefa WMT 2014 inglês-para-alemão." Parte disso está certa. Parte é enfeite. O modelo está confiante e específico sobre tudo isso de forma igual.

Over-Confident Specificity (Especificidade Excessivamente Confiante) é o padrão. O modelo busca a precisão porque precisão soa autoritativa, e a recompensa de treino favorece respostas que soam autoritativas. Hedging é penalizado em human preference data, então modelos aprendem a se comprometer. O resultado é um parágrafo em que fatos estruturais e fatos decorativos são apresentados no mesmo tom de voz.

A checagem de 60 segundos é colar uma afirmação específica de volta e pedir a fonte exata. Não "de onde você tirou isso", que o modelo vai contornar. Use: "Cite a frase exata da fonte original que apoia esta afirmação, com o número da página." Veja o que acontece. Se o nome da fonte do modelo muda de uma resposta para a próxima, ou ele oferece um número levemente diferente na segunda passada, você tem uma alucinação. Recall real é estável entre reformulações. Confabulação deriva.

Um segundo sinal: peça um fato preciso que você conhece da sua própria leitura. Se o modelo errar seu fato conhecido por uma pequena margem, todo outro fato no parágrafo é suspeito.

Padrão 2: Phantom Citation

O caso mais famoso de alucinação no direito é Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023), no qual o advogado Steven Schwartz protocolou uma petição citando seis opiniões judiciais que o ChatGPT tinha inventado do nada. Os nomes dos casos soavam plausíveis. As citações de reporter estavam formatadas corretamente. Os juízes tinham nomes que pareciam reais. Nenhum dos casos existia. O Juiz Castel sancionou Schwartz em US$ 5.000 e o caso virou um exemplo permanente de treinamento em programas de CLE jurídicos.

Phantom Citation (Citação Fantasma) é o padrão. Modelos inventam DOIs, ISBNs, volumes de journal, faixas de páginas e títulos de livro. Às vezes o journal é real e o artigo é falso. Às vezes o autor é real e a obra é falsa. Às vezes a URL parseia, mas a página dá 404. A taxa de alucinação em citações acadêmicas especificamente é documentadamente alta; o trabalho do Princeton GEO e diversos follow-ups mostraram que mesmo sistemas com retrieval-augmentation frequentemente trazem citações que misattribuem ou misquotam.

A checagem de 60 segundos é brutalmente simples. Copie a citação. Cole no Google Scholar entre aspas. Se você não obtiver uma correspondência exata, a citação está errada. Para títulos de livro, busque o título exato mais o nome do autor no Google Books. Para URLs, clique. Uma citação que você não verificou pessoalmente clicando é uma citação que você não tem.

Um prompt útil para adicionar a qualquer chat em modo pesquisa: "Para cada citação que você me der, inclua uma URL direta na qual eu possa clicar. Se não puder fornecer uma URL, marque a citação como não verificada." Isso não elimina phantoms, porque o modelo às vezes alucina URLs também, mas eleva o custo de fabricação e torna a checagem mais rápida.

Padrão 3: Consensus Mirage

Quando um modelo diz "research shows" ou "studies have found" ou "experts agree", ele está fazendo uma de três coisas. Está sumarizando consenso real. Está exagerando consenso real. Ou está inventando consenso que não existe num tópico em que a literatura é rasa ou contestada.

Consensus Mirage (Miragem de Consenso) é o terceiro caso. Tende a aparecer em perguntas em que a pesquisa real é escassa. Áreas novas. Indústrias de nicho. Tópicos recentemente emergentes em que existem seis papers, não seiscentos. O modelo ainda busca "research shows" porque é o registro que os dados de treino o ensinaram a usar para qualquer afirmação factual.

A checagem de 60 segundos é pedir nomes. "Quais pesquisadores encontraram isso? Em que ano? Em que instituição?" Se o modelo produzir nomes reais com afiliações reais, você verifica em 30 segundos buscando as listas de publicação. Se o modelo produzir referências vagas como "researchers at top universities have shown" ou "a 2023 study found", você não tem nada para verificar, e essa é a pista. Vagueza em resposta a um pedido de especificidade é uma assinatura de alucinação.

Uma sondagem mais forte é pedir a visão dissidente. "Qual é a crítica mais forte a esse consenso?" Um modelo que de fato leu a literatura consegue nomear os dissidentes. Um modelo que confabulou consenso vai produzir uma dissensão estruturalmente idêntica ao consenso, só com a polaridade invertida. Essa simetria também é uma pista.

Padrão 4: Plausible-but-Wrong Number

Números são a alucinação mais fácil de não notar, porque a gente não confere de cabeça.

Fique de olho em estatísticas que estão erradas por um fator de dez, datas erradas por um ano ou dois, market sizes errados em 20%, percentuais invertidos (47% vira 53%, porque o modelo trocou qual grupo estava descrevendo). A plausibilidade vem de a ordem de grandeza aproximada estar certa. O erro está na precisão.

Plausible-but-Wrong Number (Número Plausível porém Errado) é o padrão. É especialmente comum quando o modelo está sumarizando um número de uma fonte que parafraseou em vez de citar. Erros de arredondamento se compõem. Um valor que era "US$ 2,3 bilhões" no original vira "US$ 2,5 bilhões" no resumo porque o modelo está reconstruindo, não copiando.

A checagem de 60 segundos é perguntar: "Qual é a fonte exata desse número, incluindo a página ou o parágrafo?" Aí cheque a fonte. Metade das vezes, o número na fonte é diferente. A outra metade, a própria fonte não diz o que o modelo afirmou que ela disse, o que é um padrão diferente por inteiro.

Para qualquer número que você planeja colocar num documento público, a regra é simples. Se você não puder apontar para a fonte original e ler o número com seus próprios olhos, não use o número. IA é ótima para encontrar o candidato. Ainda não é boa o bastante para ser a citação.

Padrão 5: Source Name Swap

O último padrão é o que pega gente cuidadosa.

Um modelo atribui uma afirmação real à fonte errada. O efeito Hawthorne é creditado a Frederick Taylor em vez de Elton Mayo. O marshmallow test é creditado a Daniel Kahneman em vez de Walter Mischel. Uma linha de The Effective Executive é creditada a The Practice of Management porque os dois são de Drucker e o modelo confundiu os dois.

Source Name Swap (Troca de Nome de Fonte) é o padrão, e é perigoso porque a afirmação subjacente é verdadeira. Você verifica a afirmação, vê que confere, e perde o fato de que a atribuição está errada. Aí seu documento sai com uma citação que um leitor real do trabalho original vai pegar de imediato.

A checagem de 60 segundos é buscar a frase exata, entre aspas, no Google ou Google Scholar. Se a frase aparece, você verá em qual obra ela aparece. Se seu modelo a atribuiu a uma obra diferente, você tem um Source Name Swap. Se a frase não aparece em nenhum texto indexado, você pode ter na verdade um Phantom Citation, ou o modelo parafraseou sem te avisar.

Um hábito confiável: quando você pede uma citação a um modelo, peça para ele marcar qualquer coisa que esteja parafraseada em vez de literal. Aí trate paráfrase do mesmo jeito que você trataria sua própria paráfrase, com a fonte amarrada antes de qualquer coisa ir para o público.

Os Cinco Padrões em uma Olhada

Padrão	O que parece	Exemplo	Checagem de 60 segundos	Gatilhos comuns
Over-Confident Specificity	Números, datas ou nomes próprios atipicamente precisos embutidos num parágrafo confiante	"O paper de 2017 de Vaswani usou 8 heads, dim 64, BLEU 28.4 na WMT'14" com um número errado	Peça citação exata da fonte com número de página; reformule a pergunta e observe a deriva	Perguntas técnicas em que um paper real existe nos dados de treino
Phantom Citation	Citações acadêmicas, títulos de livro ou URLs de aparência plausível que não resolvem	"Veja Johnson & Lee, 2019, Journal of Cognitive Science, 47(3), 211-228" sem que esse artigo exista	Cole a citação entre aspas no Google Scholar; clique em cada URL	Prompts de pesquisa, jurídicos e acadêmicos
Consensus Mirage	"Research shows", "studies find", "experts agree" em tópicos rasos ou contestados	"Studies show remote work increases productivity 13%" sem nenhum estudo nomeado	Peça nomes de pesquisadores, ano, instituição; peça a dissensão mais forte	Tópicos da moda ou de nicho com literatura escassa
Plausible-but-Wrong Number	Estatísticas erradas por um fator, percentual invertido, data deslocada por um ou dois anos	Mercado de "US$ 2,3 bilhões" reportado como "US$ 2,5 bilhões"	Peça fonte e página exatas; verifique contra o original	Resumos que parafraseiam afirmações numéricas
Source Name Swap	Afirmação real, autor errado ou obra errada	Efeito Hawthorne atribuído a Taylor em vez de Mayo	Busque a frase exata entre aspas no Google Scholar	Conhecimento de domínio adjacente, corpos de obra com múltiplos autores

Imprima isso. Cole numa parede. A maioria das alucinações que você vai ver num ano se encaixa em um desses cinco.

O Protocolo de Verificação de 60 Segundos

Verificar cada frase de um output de IA é um dia inteiro de trabalho. Verificar as afirmações que importam leva cerca de um minuto cada. Eis o protocolo.

Passo 1: Identifique a afirmação estrutural. Leia o output de IA e sublinhe as duas ou três afirmações que, se erradas, tornariam o documento errado. Todo o resto pode esperar. A maioria dos parágrafos tem uma afirmação estrutural e várias decorativas. Mire seu orçamento de verificação nas estruturais.

Passo 2: Faça quote-search dela. Pegue a frase mais específica da afirmação estrutural, coloque entre aspas e busque no Google ou Google Scholar. Se a frase aparece numa fonte real, você tem grounding. Se não aparece em lugar nenhum, você quase certamente tem alguma alucinação.

Passo 3: Cruze a fonte. Abra a fonte que a IA citou. Encontre a frase real que a IA estava parafraseando. Leia. Confirme se ela diz o que a IA disse que ela dizia. Cerca de 30% das vezes, a fonte existe, mas não apoia de fato a afirmação, o que é um padrão de erro próprio.

Passo 4: Peça à IA para argumentar contra si mesma. Cole a afirmação de volta no chat com este prompt: "Qual é a crítica mais forte a esta afirmação? O que diria um cético cuidadoso?" Modelos são surpreendentemente bons nisso. A crítica frequentemente expõe o lugar exato em que a resposta original se excedeu. Se o modelo não consegue produzir uma crítica real, isso também é informativo: geralmente significa que não havia grounding real para argumentar desde o início.

Uma versão prática para uso diário: copie a afirmação da IA, abra uma aba nova, busque a frase mais específica entre aspas e clique na primeira fonte real. Só isso pega a maioria dos Phantom Citations e a maioria dos Source Name Swaps. Os outros passos são para trabalho de alto risco.

Para uma visão mais profunda de por que "deixe a IA pensar por você" dá errado mesmo quando os fatos conferem, veja the AI thinking trap. O protocolo de verificação é o piso. O trabalho de pensar continua sendo seu.

Um Framework de Calibração de Confiança: Verificação Baseada em Risco

Nem todo output de IA merece o protocolo completo. Calibrar esforço pelo risco é a diferença entre paranoia e disciplina.

Baixo risco. Brainstorming, explorar um tópico desconhecido, rascunhar um e-mail para um amigo, gerar ideias que você refinará com seu próprio conhecimento. Nenhuma verificação necessária. O custo de um fato errado é essencialmente zero, e você vai reescrever a maior parte de qualquer jeito.

Risco médio. Documentos internos, rascunhos de blog, anotações de reunião, decks para uma audiência pequena. Aplique a checagem de 60 segundos às uma ou duas afirmações estruturais do topo. Verifique qualquer número específico, qualquer data específica, qualquer pessoa nomeada. Deixe o resto.

Alto risco. Petições jurídicas, decisões médicas, aconselhamento financeiro, artigos publicados, qualquer coisa que vá para um board, um regulador ou um tribunal. Verifique cada entidade nomeada. Verifique cada número contra uma fonte primária. Verifique cada citação clicando. Leia a passagem original para cada citação. Trate a IA como um assistente de pesquisa cujo trabalho você vai assinar, não como um colega cujo trabalho você vai confiar.

É aqui que o Glasp se justifica para trabalho sério. Quando a IA está aterrada nas suas próprias fontes destacadas em vez de buscar nos seus dados de treino, a superfície de alucinação encolhe drasticamente. Você já avaliou aquelas fontes quando as destacou. O modelo não está chutando; está lendo texto que você já validou.

O padrão é "destaque primeiro, pergunte depois". Leia o material-fonte. Destaque as passagens que importam. Aí faça perguntas ao highlighter web do Glasp e à feature de chat com IA ancoradas naqueles highlights. As respostas da IA estão ancoradas em texto que você pode ver e reler. Phantom Citations se tornam impossíveis porque o pool de citações é fechado. Source Name Swaps são pegos na hora porque cada afirmação remete a um highlight que você fez.

Para mais sobre por que alimentar a IA com seu próprio contexto supera o prompting genérico, veja context engineering. Para como diferentes modelos de fronteira se comparam em comportamento de alucinação em fluxos de aprendizagem, veja Claude versus ChatGPT for learning.

O framework não é "confie na IA" ou "não confie na IA". É "confie na IA exatamente na medida que o risco permitir, e verifique em proporção".

Perguntas Frequentes

Com que frequência os LLMs atuais alucinam?

Depende inteiramente da tarefa. O leaderboard Vectara HHEM-2.1 coloca os top frontier models na faixa de 1-3% em sumarização, em que o modelo recebe um documento-fonte e é solicitado a resumi-lo. Esse benchmark mede fidelidade a uma fonte fornecida.

Queries factuais abertas, em que o modelo precisa lembrar do treino em vez de ler de uma fonte, são uma história diferente. Estudos públicos sobre queries jurídicas, médicas e acadêmicas reportaram taxas de 17% nos melhores sistemas com retrieval-augmentation a mais de 80% em modelos de propósito geral sem retrieval. A lacuna entre "summarize this PDF" e "tell me what you know about X" é a lacuna entre um problema de 2% e um de 30%.

GPT-5, Claude 4.6 e Gemini 2.5 são menos propensos a alucinações do que modelos antigos?

Sim para sumarização. Os leaderboards de sumarização melhoraram de forma consistente, e a fronteira de 2026 é significativamente melhor do que a fronteira de 2023 em fidelidade a texto fornecido.

Para queries de fatos novos, os ganhos são menores e mais difíceis de medir. Modelos alucinam menos vezes, mas as alucinações que produzem são mais confiantes, mais polidas e mais difíceis de detectar só pela leitura. A fronteira move a régua a seu favor na média e contra você no pior caso. O protocolo de verificação importa mais, não menos, à medida que os modelos melhoram.

Posso só ligar a busca na web para resolver isso?

Parcialmente. Modelos com web-grounding alucinam menos em perguntas em que uma busca fresca retorna uma resposta clara e autoritativa. Eles ainda alucinam em formatação de citação, em atribuir afirmações a fontes que não as fizeram de fato e em sumarizar resultados de busca de forma imprecisa.

O paper de RAG jurídico de Stanford é o ponto de dado relevante: até ferramentas vendidas especificamente como retrieval-augmentation alucinaram em 17% a 33% das queries. Retrieval reduz a taxa. Não a elimina. Trate web search como mitigação parcial, não como conserto, e verifique mesmo assim em trabalho de alto risco.

Devo confiar em IA para questões médicas, jurídicas ou financeiras?

Use o framework de risco. IA é excelente para se orientar num tópico, gerar perguntas para fazer a um profissional e rascunhar comunicação que você terá revisada depois. Ainda não é confiável como autoridade final em qualquer decisão que afete sua saúde, sua liberdade ou seu dinheiro.

Para domínios de alto risco especificamente: nunca use uma citação, estatística ou afirmação de uma IA sem verificar contra uma fonte primária. Sempre divulgue o envolvimento da IA aos profissionais com quem você trabalha. Trate a IA como um estagiário rápido, não como um especialista licenciado.

Como sei se meu próprio rascunho assistido por IA tem uma alucinação?

Aplique o protocolo de 60 segundos a cada afirmação estrutural antes de publicar ou enviar. Faça quote-search das frases específicas. Clique em cada citação. Verifique cada número contra uma fonte primária. Peça ao modelo para criticar o próprio output e leia a crítica com cuidado.

Uma boa passada final: leia seu rascunho em voz alta e pare em cada afirmação que você não pode pessoalmente atestar de memória ou de uma fonte verificada. Essas são as afirmações que precisam sair ou ser regroundeadas antes de o documento sair da sua mesa.

Conclusão

Alucinações não vão embora. Elas são uma feature estrutural de como esses modelos são treinados, e a fronteira está melhorando o caso médio mais rápido do que o pior caso. A habilidade que trabalhadores do conhecimento precisam não é "esperar a IA melhorar". É "verificar bem, calibrar a confiança e aterrar a IA em fontes reais sempre que o risco justificar".

Os cinco padrões neste artigo, Over-Confident Specificity (Especificidade Excessivamente Confiante), Phantom Citation (Citação Fantasma), Consensus Mirage (Miragem de Consenso), Plausible-but-Wrong Number (Número Plausível porém Errado) e Source Name Swap (Troca de Nome de Fonte), cobrem a esmagadora maioria do que dá errado na prática. Nomeá-los os torna detectáveis. O protocolo de 60 segundos os pega a tempo. O framework de risco mantém o custo da verificação proporcional ao custo de errar.

Para o trabalho que você não pode se permitir errar, a jogada de maior alavancagem não é melhor prompting. É melhor grounding. Destaque suas fontes primeiro com o Glasp, depois faça perguntas à IA ancoradas em texto que você já avaliou. A superfície de alucinação colapsa. O trabalho fica mais rápido, não mais lento, porque a verificação está embutida.

Confie na IA exatamente na medida que o risco permitir. Verifique em proporção. Aterre nas suas próprias fontes sempre que puder. Esse é o playbook.