なぜハルシネーション検出はエンジニアではなくナレッジワーカーのスキルなのか
機械学習チームには、これに対応するスタックがあります。Lakera、Galileo、Patronus、Arize、その他十数のベンダーが、本番モデルが生成するハルシネーションをスコアリングし、ログに記録し、アラートを出してくれます。評価ハーネス、レッドチーム予算、そして職務記述に「factuality(事実性)」という単語を含む専属のMLOpsエンジニアもいます。
ナレッジワーカーにはそのどれもありません。メモを起草する弁護士、文献レビューを書く研究者、市場規模チャートを作るプロダクトマネージャー、エッセイを書く学生。彼らはエンジニアと同じモデルをガードレールなしで使います。結果は彼らのドキュメントに着地し、そこから法廷の書類、取締役会のスライド、採点される論文に着地します。
スタンフォードのHuman-Centered AIグループは2024年、これを具体化しました。Magesh、Surani、Dahlらの論文 Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools は、検証済みの判例法を明示的に検索する商用リーガルAIツールをテストしました。検索を使ってもなお、ツールにより17%から33%のクエリでハルシネーションが起きました。検索を使わない汎用モデルははるかに悪く、法務質問でのハルシネーション率は58%から82%と報告されています。これらはハイステークスな仕事のために特別に売られているツールです。
VectaraのHHEM-2.1リーダーボードは、フロンティアモデル横断で要約の忠実度をスコアリングしますが、コンシューマー領域は狭いタスクではずっと良好であることを示しています。2026年のリーダーボードのトップは、「今渡したドキュメントを要約してください」というタスクでGPT-5、Claude 4.6、Gemini 2.5が1〜3%のレンジに入ります。しかしそのベンチマークが測っているのは「与えられたソースへの忠実度」です。これは、モデルが目の前のページから読むのではなく訓練データから思い出さなければならないオープンエンドな質問における事実性とは別物です。新規事実のクエリでは、公的に行われたあらゆる調査が依然として2桁台のハルシネーション率を報告しています。
非対称性こそが要点です。モデルは「正しく聞こえること」が極めて得意で、「実際に正しいこと」はせいぜい得意止まりです。そのギャップを検出するのはツールではなくスキルです。本記事はそのプレイブックです。
短い予備講義:「ハルシネーション」が実際に意味する3つのこと
この語は緩く使われます。3つを区別する価値があります。
純粋なでっち上げ(Pure fabrication) は、どのソースにも存在しなかった内容です:架空の人物、架空の研究、架空の引用文。モデルはもっともらしい文を生成しますが、その指示対象は地球上のどこにも存在しません。
もっともらしいが間違っている(Plausible-but-wrong) は、実在のものを指してはいるが、それを取り違えている内容です。実在する著者と、その人が書いていない論文の組み合わせ。実在する法律と、それが述べていない命題への参照。実在する企業と、間違った創業年。指示対象は存在しますが、関係が存在しません。
真実だが裏付けがない(Truth-but-unsupported) が一番厄介です。主張はたまたま真ですが、モデルは実際にはそれをグラウンディングしていません。当て推量がたまたま当たっただけです。これが重要なのは、真だが裏付けのない主張に異議を唱えて出典を求めると、モデルはまさに最初から欠けていたものを補おうとして出典をハルシネーションしてしまうからです。
ハルシネーションは「間違った答え」と同じではありません。モデルに17×24を尋ねて410と答えたら、それは間違った答えであってハルシネーションではありません。モデルは演算を実行して間違えただけです。ハルシネーションは、モデルが計算する代わりに内容を発明する場合を指します。OpenAIの2025年の論文 Why Language Models Hallucinate は、これを訓練インセンティブの問題として捉えています:モデルは「答えを出すこと」で評価され、「分かりません」と言うことでは評価されないので、グラウンディングがない状況で自信たっぷりにテキストを出すことを学習します。
これらの区別を持つと、パターンが見えやすくなります。
パターン1:過剰自信の具体性
最初のサインは、AIが「知っているはずがない」ほどの精密な情報を出してくるときです。
たとえばトランスフォーマーモデルのアテンションについて一般的な質問をしたところ、こんな答えが返ってきます:「Vaswaniらの2017年の原典論文では、著者らは8つのアテンションヘッドをそれぞれ次元64で使用し、WMT 2014英独タスクでBLEUスコア28.4を報告した。」一部は正しい。一部は飾りです。モデルはそのすべてに同程度の自信と具体性で言い切っています。
過剰自信の具体性 (Over-Confident Specificity) がこのパターンです。モデルは精密さを求めますが、それは精密さが権威を感じさせるからであり、訓練の報酬が「権威ありげに聞こえる答え」を好むからです。ヘッジ表現は人間の選好データで罰せられるので、モデルは断言を学習します。結果として、結果を左右する事実と装飾的な事実が同じトーンで提示される段落が生まれます。
60秒チェックは、具体的な主張をそのまま貼り戻して正確な出典を尋ねること。「どこで読んだ?」ではダメで、それはモデルが回避してしまいます。代わりに「この主張を支える原典の文を、ページ番号付きで正確に引用してください」と指示します。何が起きるかを観察してください。モデルの出典名が次の応答で変わったり、2回目に少し違う数字を出してきたりしたら、それはハルシネーションです。本物の想起は言い換えに対して安定しています。作話はドリフトします。
もう1つのサイン:自分の読書から既に正解を知っている事実を尋ねる。モデルが既知の正解を小さくずらして間違えたら、その段落の他の事実もすべて疑わしいです。
パターン2:幻のシテーション
法律で最も有名なハルシネーション事件は Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023) です。弁護士Steven SchwartzがChatGPTがでっち上げた6件の判決を引用した準備書面を提出しました。事件名はもっともらしく聞こえました。レポーター引用の書式は正しい。判事の名前も実在しそうでした。どの判例も存在しませんでした。Castel裁判官はSchwartzに5,000ドルの制裁を科し、この事件は法曹継続教育(CLE)プログラムの恒久的な教材になりました。
幻のシテーション (Phantom Citation) がこのパターンです。モデルはDOI、ISBN、ジャーナルの巻数、ページ範囲、書名を発明します。ジャーナルは実在で論文が架空ということもあります。著者は実在で著作が架空ということもあります。URLは構文として通るのにページが404を返すこともあります。学術引用に特化したハルシネーション率は高いことが文書化されており、PrincetonのGEO研究やそれに続く複数の研究で、検索強化型システムでさえ、誤帰属や誤引用の引用を出してくることが繰り返し示されています。
60秒チェックは残酷なほど単純です。引用をコピーする。Google Scholarに引用符付きで貼り付ける。完全一致が出なければ、引用は間違いです。書名なら、正確なタイトルと著者名でGoogle Booksを検索します。URLならクリックします。自分でクリックして検証していない引用は、持っている引用ではありません。
リサーチモードのチャットに加えると便利なプロンプト:「あなたが提示するすべての引用について、私がクリックできる直接URLを含めてください。URLを提供できない場合は、その引用を未検証としてマークしてください。」これでも幻はゼロにはなりません。モデルはURLもハルシネーションすることがあるからです。しかしでっち上げのコストを上げ、チェックを速くしてくれます。
パターン3:コンセンサスの蜃気楼
モデルが「研究によると」「研究は明らかにしている」「専門家は同意している」と言うとき、3つのうちの1つをやっています。実在のコンセンサスを要約しているか、実在のコンセンサスを誇張しているか、文献が薄かったり論争中のテーマで存在しないコンセンサスを発明しているか、です。
コンセンサスの蜃気楼 (Consensus Mirage) は3つ目のケースです。実際の研究が乏しい質問で出やすい。新しい分野、ニッチな業界、最近出てきたばかりで論文が6つしかない(600ではなく)テーマ。モデルはそれでも「研究によると」に手を伸ばします。訓練データがあらゆる事実主張に対してそのレジスターを使うように教えたからです。
60秒チェックは、名前を求めることです。「これを発見した研究者は誰ですか?何年に?どこの機関で?」と尋ねます。モデルが実在の所属を持つ実在の名前を出してきたら、出版リストを検索して30秒で検証できます。「トップ大学の研究者が示した」や「2023年のある研究」のような曖昧な参照しか出さなければ、検証する対象がない、それ自体がサインです。具体性を求めたときの曖昧さこそハルシネーションの署名です。
より強力なプローブは、反対意見を尋ねることです。「このコンセンサスへの最も強い批判は何ですか?」実際に文献を読んだモデルは反対派の名前を挙げられます。コンセンサスを作話したモデルは、コンセンサスと構造的に同型で極性だけ反転した「反対意見」を出してきます。その対称性もまたサインです。
パターン4:もっともらしいが間違った数字
数字は最も見逃しやすいハルシネーションです。私たちは頭の中でダブルチェックしないからです。
10倍ずれた統計、1〜2年ずれた日付、20%ずれた市場規模、反転したパーセンテージ(モデルが説明している群を入れ替えて47%が53%になる)に注意してください。もっともらしさは桁感が合っていることから来ます。誤りは精度の部分にあります。
もっともらしいが間違った数字 (Plausible-but-Wrong Number) がこのパターンです。モデルが引用ではなく言い換えで要約しているときに特に起きやすい。丸め誤差が積み上がります。原典で「23億ドル」だった数字が、モデルがコピーではなく再構成しているために要約で「25億ドル」になるのです。
60秒チェックは、こう尋ねること:「その数字の正確な出典を、ページまたは段落付きで教えてください。」その上で出典を確認します。半分くらいは、出典の数字が違います。もう半分は、出典自体がモデルの主張する内容を述べていません。これは別のパターンです。
公的なドキュメントに載せるつもりの数字に対するルールはシンプルです。原典を指して自分の目で数字を読めないなら、その数字は使わないこと。AIは候補を見つけるのに優れています。でも引用元になれるほどはまだ良くありません。
パターン5:出典名のすり替え
最後のパターンは、注意深い人を捕まえます。
モデルが実在の主張を間違った出典に帰属させます。ホーソン効果がElton Mayoではなくフレデリック・テイラーにクレジットされる。マシュマロ・テストがWalter MischelではなくDaniel Kahnemanにクレジットされる。 The Effective Executive の一節が The Practice of Management にクレジットされる。両方ともドラッカーで、モデルが混同したのです。
出典名のすり替え (Source Name Swap) がこのパターンで、危険なのは元の主張が真実だからです。主張を検証して合致を確認し、帰属が間違っていることを見逃します。そしてあなたのドキュメントは、原典を読んだ人なら一目で気づく引用とともに発信されます。
60秒チェックは、引用符を付けたままGoogleやGoogle Scholarで正確なフレーズを検索することです。フレーズが現れたら、それがどの作品に現れるかが分かります。モデルが別の作品に帰属させていれば、出典名のすり替えです。索引化されたどのテキストにもフレーズがまったく現れない場合は、幻のシテーションかもしれませんし、モデルが言い換えを告げずにやった可能性もあります。
信頼できる習慣:モデルに引用を頼むときは、逐語ではなく言い換えである部分にマークを付けてもらうこと。そしてその言い換えは、自分自身の言い換えと同じように扱い、公的に出る前に出典を必ず添えること。
5つのパターン早見表
| パターン | 見え方 | 例 | 60秒チェック | よくあるトリガー |
|---|---|---|---|---|
| 過剰自信の具体性 (Over-Confident Specificity) | 自信ある段落の中に、異常に精密な数字、日付、固有名詞が埋め込まれている | 「2017年Vaswani論文で8ヘッド、次元64、WMT'14でBLEU 28.4」のうち1つの数字が間違っている | ページ番号付きで正確な出典引用を求める。質問を言い換えてドリフトを観察する | 訓練データに実在の論文が含まれる技術的な質問 |
| 幻のシテーション (Phantom Citation) | もっともらしく見える学術引用、書名、URLが解決されない | 「Johnson & Lee, 2019, Journal of Cognitive Science, 47(3), 211-228参照」だがそんな論文はない | 引用を引用符付きでGoogle Scholarに貼る。すべてのURLをクリックする | リサーチ、法務、学術系のプロンプト |
| コンセンサスの蜃気楼 (Consensus Mirage) | 文献の薄い、または論争中のテーマでの「研究によると」「研究が示している」「専門家は同意」 | 「研究はリモートワークが生産性を13%高めると示している」のに具体的な研究名なし | 研究者名、年、所属を尋ねる。最も強い反対意見を求める | 文献の少ないトレンドやニッチなテーマ |
| もっともらしいが間違った数字 (Plausible-but-Wrong Number) | 統計が1桁ずれる、パーセントが反転、日付が1〜2年ずれる | 「23億ドル市場」が「25億ドル」と報告される | 正確な出典とページを尋ねる。原典で検証する | 数値主張を言い換える要約 |
| 出典名のすり替え (Source Name Swap) | 主張は真だが著者か作品が違う | ホーソン効果がMayoではなくTaylorに帰属される | Google Scholarで正確なフレーズを引用符付きで検索する | 隣接領域の知識、複数著者の作品群 |
これを印刷して壁に貼ってください。1年で目にするハルシネーションの大半は、この5つのどれかに収まります。
60秒検証プロトコル
AI出力のすべての文を検証するのは丸1日仕事です。重要な主張だけを検証するなら、1主張あたり約1分です。プロトコルは以下の通りです。
ステップ1:結果を左右する主張を特定する。 AI出力を読んで、間違っていたら文書全体が間違いになる主張を2〜3個に下線を引きます。それ以外は後回しでよいです。多くの段落には1つの「結果を左右する主張」と複数の「装飾的な主張」があります。検証予算は前者に投じましょう。
ステップ2:引用検索する。 結果を左右する主張から最も具体的なフレーズを取り、引用符で囲んでGoogleまたはGoogle Scholarで検索します。実在のソースにフレーズが現れたら、グラウンディングがあります。どこにも現れなければ、ほぼ確実に何らかのハルシネーションです。
ステップ3:出典をクロスチェックする。 AIが引用したソースを開きます。AIが言い換えた元の文を見つけます。それを読みます。AIが言ったことを実際に述べているか確認します。およそ30%のケースで、ソースは存在するが主張を実際には支持していません。これはこれで別パターンの誤りです。
ステップ4:AIに自分自身に反論させる。 主張をチャットに貼り戻して、こう指示します:「この主張に対する最も強い批判は何ですか?慎重な懐疑論者なら何と言いますか?」モデルはこれが意外と上手です。批判は、最初の答えが踏み込みすぎた場所をしばしば露出させます。モデルが本物の批判を出せなければ、それも情報です:そもそもグラウンディングがなかったということを意味する場合が多いのです。
日常運用の実践版:AIの主張をコピーし、新規タブを開き、最も具体的なフレーズを引用符付きで検索し、最初の本物のソースをクリックする。これだけで幻のシテーションと出典名のすり替えの大半は捕まえられます。残りのステップはハイステークスな仕事のためのものです。
事実は合っているのに「AIに自分の代わりに考えさせる」がうまくいかない理由については、the AI thinking trapを参照してください。検証プロトコルは床(フロア)に過ぎません。考える仕事はあなたの手元に残ります。
信頼校正フレームワーク:リスクベースの検証
すべてのAI出力がフルプロトコルに値するわけではありません。リスクに合わせて努力を校正することが、偏執と規律の違いです。
ローステークス。 ブレインストーミング、未知のテーマの探索、友人へのメール起草、自分の知識で磨くアイデア出し。検証は不要です。間違った事実のコストは実質ゼロで、どうせ大半を書き直します。
ミドルステークス。 内部資料、ブログのドラフト、会議メモ、小規模オーディエンス向けスライド。トップの1〜2つの結果を左右する主張に60秒チェックを適用。具体的な数字、日付、固有人物名は必ず検証します。残りは置いておきます。
ハイステークス。 法廷書類、医療判断、金融助言、公開記事、取締役会・規制当局・裁判所に届く一切のもの。すべての固有名詞を検証。すべての数字を一次資料に対して検証。すべての引用をクリックして検証。すべての引用について原典の該当箇所を読みます。AIを「自分が承認する仕事を任せるリサーチアシスタント」として扱い、「仕事を信頼する同僚」としては扱わないこと。
ここが、本気の仕事においてGlaspが真価を発揮する場所です。AIが訓練データに手を伸ばす代わりに自分でハイライトしたソースにグラウンディングされていれば、ハルシネーションの表面積は劇的に縮みます。あなたはハイライトしたときに既にソースを精査済みです。モデルは推測しているのではなく、あなたが既に検証したテキストを読んでいるのです。
パターンは「先にハイライト、後で質問」です。原典を読みます。重要な箇所をハイライトします。それからGlaspのウェブハイライターとAIチャット機能に、そのハイライトに基づいた質問を投げます。AIの答えはあなたが見て読み返せるテキストにアンカーされます。引用プールが閉じているので幻のシテーションは不可能になります。すべての主張があなたが付けたハイライトにリンクするので、出典名のすり替えも即座に捕まえられます。
汎用プロンプトより自分のコンテキストをAIに与えるほうが優れる理由については、context engineeringを参照してください。学習ワークフローでフロンティアモデルがハルシネーション挙動でどう違うかは、Claude versus ChatGPT for learningを参照してください。
フレームワークは「AIを信頼する」「AIを信頼しない」のどちらでもありません。「リスクが許す分だけAIを信頼し、それに比例して検証する」です。
よくある質問
現在のLLMはどのくらいハルシネーションを起こしますか?
完全にタスク次第です。VectaraのHHEM-2.1リーダーボードはトップのフロンティアモデルを要約タスクで1〜3%レンジに置いており、ここではモデルにソースドキュメントが与えられて要約を求められます。このベンチマークが測っているのは「与えられたソースへの忠実度」です。
オープンエンドな事実クエリ、すなわちモデルがソースから読むのではなく訓練から思い出さなければならない場合は別の話です。法務、医療、学術系クエリの公開研究では、最良の検索強化システムで17%、検索なしの汎用モデルで80%超まで報告されています。「このPDFを要約して」と「Xについて知っていることを教えて」のギャップは、2%問題と30%問題のギャップです。
GPT-5、Claude 4.6、Gemini 2.5は旧モデルよりハルシネーションを起こしにくいですか?
要約に関してはイエス。要約リーダーボードは着実に改善し続けており、2026年のフロンティアは2023年のフロンティアより、与えられたテキストへの忠実度で意味のある差で良くなっています。
新規事実クエリに関しては、伸びは小さく、計測も難しいです。モデルはハルシネーションを起こす頻度が下がっていますが、起きるハルシネーションはより自信たっぷりで、より洗練されており、読むだけでは見抜きにくくなっています。フロンティアは平均的にはあなたに有利な方向にバーを動かし、最悪ケースではあなたに不利に動かします。モデルが良くなるほど、検証プロトコルの重要性は増すのであって減りはしません。
ウェブ検索をオンにすれば直りますか?
部分的には、はい。ウェブにグラウンディングされたモデルは、最新検索が明確な権威ある答えを返すような質問でハルシネーションを減らします。それでも引用書式、実際にはそう言っていないソースへの主張帰属、検索結果の不正確な要約ではハルシネーションを起こします。
スタンフォードのリーガルRAG論文は関連データポイントです:検索強化型として特別に売られているツールでさえ、17%から33%のクエリでハルシネーションを起こしました。検索は率を下げます。なくしはしません。ウェブ検索を「部分的な緩和策」として扱い、「修正」とは見なさず、ハイステークスな仕事ではいずれにせよ検証してください。
医療、法務、金融の質問でAIを信頼すべきですか?
リスクフレームワークを使ってください。AIはテーマへのオリエンテーション、専門家に尋ねるべき質問の生成、後でレビューしてもらうコミュニケーションのドラフトには優れています。あなたの健康、自由、お金に影響する意思決定の最終権威としては、まだ信頼に値しません。
ハイステークス領域については特に:一次資料に対して検証していない引用、統計、主張をAIから決して使わないこと。一緒に働く専門家にはAIの関与を必ず開示すること。AIを「速いインターン」として扱い、「免許を持つ専門家」としては扱わないこと。
AIを使った自分のドラフトにハルシネーションがあるかどうやって分かりますか?
公開や送信の前に、結果を左右するすべての主張に60秒プロトコルを適用してください。具体的なフレーズを引用検索する。すべての引用をクリックする。すべての数字を一次資料に対して検証する。モデルに自分の出力を批判させて、その批判を注意深く読む。
最終チェックの良い手順:自分のドラフトを声に出して読み、記憶や検証済みのソースから個人的に保証できない主張のたびに止まる。それらの主張は、ドキュメントが手元を離れる前に取り除くか、グラウンディングし直す必要があるものです。
結論
ハルシネーションはなくなりません。これらのモデルが訓練される仕組みの構造的な特徴であり、フロンティアは平均ケースを最悪ケースよりも速く改善しています。ナレッジワーカーが必要とするスキルは「AIが良くなるのを待つ」ではありません。「上手に検証し、信頼を校正し、リスクが許すときは常にAIを実在のソースにグラウンディングする」です。
本記事の5パターン、過剰自信の具体性 (Over-Confident Specificity)、幻のシテーション (Phantom Citation)、コンセンサスの蜃気楼 (Consensus Mirage)、もっともらしいが間違った数字 (Plausible-but-Wrong Number)、出典名のすり替え (Source Name Swap) は、現場で起きる失敗の圧倒的多数をカバーします。名付けることで、見抜けるようになります。60秒プロトコルが手遅れになる前にそれらを捕まえます。リスクフレームワークが、検証コストを「間違いのコスト」に比例した水準に保ちます。
間違えるわけにいかない仕事については、最大のレバレッジは「より良いプロンプティング」ではありません。「より良いグラウンディング」です。先にGlaspでソースをハイライトし、その上で既に精査したテキストにアンカーされた質問をAIに投げます。ハルシネーションの表面積は崩れ落ちます。検証が組み込まれているので、仕事は遅くならず速くなります。
リスクが許す分だけAIを信頼しましょう。それに比例して検証しましょう。可能な限り自分のソースにグラウンディングしましょう。それがプレイブックです。