ロングフォームライティングのためのAI活用：ワンショットプロンプトを超える5段階ワークフロー

ワンショットのAIライティングが「いかにもAI」に読める理由

ChatGPTに送られる仕事関連のメッセージのうち、約40%がライティングに関するものです。この数字は、2025年9月に公開された OpenAI と NBER の共同研究によるもので、消費者向け ChatGPT トラフィックのプライバシー保護サンプルを分析したものです。同じ論文ではさらに興味深い事実が浮き彫りになりました。これらライティングメッセージのうち、おおよそ3分の2は「白紙からの生成依頼」ではなく、すでに手元にあるテキストを修正してもらう用途だったのです。

この比率は、AIライティングが実際にどう使われているかという静かな真実を表しています。ほとんどのユーザーは痛みを伴う試行錯誤の末に、すでに学んでしまっているのです。「Xについて2,000語のエッセイを書いて」とチャットボットに頼むと、本当に「Xについての2,000語のエッセイらしき何か」が返ってくる、と。一般的で、水ぶくれしていて、細部については自信満々に間違っている。文法はいつもきれいで、ほぼいつも記憶に残らない。

理由は構造的なものであって、魔法のせいではありません。ロングフォームの執筆は1つのタスクではなく、少なくとも5つのタスクです。本当に言いたいことを見つける、どの順序で言うかを決める、その声を見つける、論理が持ちこたえるかをストレステストする、そして文章を仕上げる。この5つを1つのプロンプトに押し込むと、モデルはすべてを平均化します。平均的な読者像。平均的な主張。平均的な文。平均的な声。出力は、そのトピックについて学習データに含まれていたあらゆるエッセイの中央値になります。

これは、もっと長いプロンプトを書けば解けるプロンプトエンジニアリングの問題ではありません。ワークフローの問題です。解決策は、仕事を本来の段階に分け直し、各段階でAIが本当に得意なことだけにAIを使うことです。本記事はそのワークフローを説明します。命名は私のものですが、パターン自体は、一度見えてしまえば当たり前に見えるはずです。優れた手法はたいていそういうものです。

5段階ワークフローの全体像

これがワークフローの全体像です。5つの段階。それぞれ範囲が狭く、明確な引き継ぎがあります。最初に登場するときに太字にしているのは、これらをこのメソッドの固有名詞として扱うためです。

Brief（ブリーフ） → Skeleton（スケルトン） → Voice（ボイス） → Pressure-Test（プレッシャーテスト） → Polish（ポリッシュ）

段階	AIの役割	人間の役割	アウトプット
1. ブリーフ	インタビュアーとして明確化の質問をする	読者、主張、成功基準を決める	1ページのブリーフ文書
2. スケルトン	異なる構成のアウトラインを生成する	主張に合う構成を選ぶ	各セクションの要点を含む見出し付きアウトライン
3. ボイス	サンプルからルールを抽出するスタイルアナリスト	自分のベスト原稿を3〜5本提供する	平易な言葉で書かれたボイスルールのリスト
4. プレッシャーテスト	容赦ない編集者・懐疑論者	どの批評を採用するかを決める	弱点が指摘された加筆済み草稿
5. ポリッシュ	パターンを指摘するだけ、書き直しは行わない	すべての細部編集を手で行う	あなたらしさが残った完成原稿

この表で注目すべきは2点です。まず、AIの役割が段階ごとに変わります。同じ道具を5回使うのではありません。各回ごとに違うコラボレーターなのです。次に、人間の役割は終盤に向けて小さくなるのではなく、大きくなります。ブリーフ段階は「決めること」が中心。ポリッシュ段階は完全にあなたの仕事。仕事の形は、AIが序盤で多く働き、あなたが終盤で多く働く逆ピラミッドです。

これはほとんどの人がAIをライティングに使うときの順序と真逆です。1時間何もせず、長いプロンプトを打ち、返ってきた文章を20分ほど軽く編集する。この順序は逆さまです。最も高価な思考は、やり直しが安い前段階に置くべきで、第2文の時点ですでに間違っている草稿に手を入れ続ける終盤に置くべきではありません。

Stage 1: ブリーフ、絶対に省略してはならないコンテキスト

ブリーフは、ほぼ誰も書かず、しかしほぼ全員に必要なものです。文章生成の前にモデルが読む、あなた自身が書いた1ページの文書です。これがないと、後段すべてが当てずっぽうになります。

機能するブリーフには6つの項目があります。読者像は1文で、ただし「みんな」では済まない程度の解像度をもって。中心となる主張を1文で、口頭でそのまま言える形で。成功基準として、何が満たされればこの記事を公開する価値があると言えるか。禁句として、見たくないAIっぽい言い回しや手垢のついた比喩。ボイスのリファレンスとして、既存記事を3〜5本（自作でも、尊敬する書き手のものでも、両方の混合でも可）。そして制約として、長さ、フォーマット、絶対に外せない条件。

私が使っているテンプレートはこちらです。素っ気ないですが、それが狙いです。

# Brief: [仮タイトル]

## 読者像
誰がこれを読むのかを1文で。読み手の前提知識のレベルと、
何を求めて来たのかを含める。

## 中心となる主張
この記事全体が成立させるための、たった1つの文。
1文で書けないなら、その記事はまだ準備ができていない。

## 成功基準
- 読者が何を実行する、共有する、信じ方を変えるか？
- 14分の読書時間を費やす価値があるとは、何があれば言えるか？

## 禁句
- "in today's fast-paced world"
- "let's dive in"
- "game-changer"
- （あなた個人が嫌いなAI特有の言い回しを追加）

## ボイスのリファレンス
- [自分が書いた記事のリンク]
- [尊敬する書き手の記事のリンク]
- [もう1本、できれば毛色の違うもの]

## 制約
- 長さ：2,500語
- トーン：意見はあるが嫌味にはならない
- 必須要素：表1つ、具体例3つ

ブリーフはプロンプトではなく、コンテキスト文書である点に注目してください。これは、私がコンテキストエンジニアリング：プロンプトエンジニアリングを置き換えるスキルで詳しく論じたのと同じ発想です。ブリーフはコンテキストエンジニアリングの資産であり、その後すべてのプロンプトの上流に位置します。

ブリーフ段階は、そもそもAIに手伝わせるべきかを決める段階でもあります。本当に自分の内側から出てきていて、まだ言葉になっていない種類の記事は、自分で草稿を書く前にモデルを介在させると質が落ちます。ブリーフは、その記事がどちらの種類かを見分けるための工程でもあります。中心となる主張を1文で書けないのなら、どんなモデルもそれを代わりに見つけてはくれません。

Glaspのウェブハイライターを私と同じように使っているなら、ブリーフ段階は、保存したハイライトが素材として活躍する場所でもあります。トピックに触れるハイライトを5本引っ張り出してブリーフに貼り付ければ、その後すべての段階に流し込める証拠と引用が揃います。

Stage 2: スケルトン、結論から逆算する

ブリーフができれば、スケルトン段階は素早く安価に進みます。仕事は文章を書くことではありません。同じ主張を異なる形で論じるアウトラインを3〜5本生成し、その中から実際に言いたいことに合うものを選ぶことです。

これがいきなり文章を書き始めるより優れているのは、構造的な理由からです。アウトラインは捨てるのが安いです。草稿はそうではありません。800語書いてから構造が間違っていることに気付いた場合、おそらくそのまま800語を残してしまいます。書いてしまったからです。これはサンクコストがコミットメントに化粧をしたものです。アウトラインなら、失うものがないのでこのバイアスが起きません。

私がこの段階で使うプロンプトは短いです。

あなたはアウトラインジェネレーターであり、ライターではありません。
以下のブリーフを読んでください。
そして、この記事のために対照的なアウトラインを3つ作ってください。
それぞれ同じ中心主張を異なる構造戦略で論じます：

1. 時系列／物語形式
2. 主張から証拠
3. 問題から仕組み、そして含意

各アウトラインについて以下を返してください：
- セクション見出し（4〜6セクション）
- 各セクションの要点を1文で
- どの読者層にこの構成が最も合うかのメモ

文章は書かないでください。アウトラインのみ。

[ここにブリーフを貼り付け]

返ってくるのは3つのスケルトンです。ブリーフを開いたまま読んでください。正解はたいてい30秒以内に見えてきます。ときには2つのアウトラインのハイブリッドが正解で、その統合作業の壁打ち相手としてモデルが役立つこともあります。3つとも違う場合もあり、それ自体が情報です。たいていはブリーフが曖昧だったということを意味します。

この段階は、私の経験上、構造的な多様性で ChatGPT が Claude を少しだけ上回る段階でもあります。Claude は3つのいとこのようなアウトラインを返しがちです。GPT は3つの他人のようなアウトラインを返してくれます。スケルトン段階では他人のほうが役に立ちます。どのモデルがどのタスクに合うかの詳細は、AIタスクとモデルマトリクスにあります。

Stage 3: ボイス、なぜ「私の文体で書いて」では機能しないのか

完成原稿が人間の書いたものに読めるかどうかを左右するのが、この段階です。ここで多くの人が間違ったプロンプトを使っています。間違ったプロンプトとは「私の文体で書いて」です。なぜなら、モデルはあなたの文体を知らないからです。仮にあなたが学習データに含まれる記事を何百本書いていたとしても、モデルが知っている「あなたの文体」は、隣接する書き手の文体と平均化されたものになっています。

解決策は2段階です。まず、あなたが選んだサンプルから、モデルに具体的なスタイルルールを抽出させる。次に、抽出されたルールに従って書かせる。「あなたのボイス」に従わせるのではありません。

抽出のためのメタプロンプトはこちらです。

あなたはスタイルアナリストであり、批評家ではありません。
以下に3本の文章を貼り付けます。
3本すべてを丁寧に読み、著者のボイスを、
具体的で反証可能なルールのリストとしてプロファイリングしてください。

各ルールについて：
- 具体的に述べる（「短文を使う」ではなく
  「文の60%が18語未満」など）
- サンプルから例を1つ示す
- 著者がそのルールを破る場面も指摘する（あらゆるボイスに例外がある）

少なくとも以下を扱う：
- 文の長さの分布
- 段落の長さとリズム
- 語選択のパターン（具体名詞か抽象名詞か？）
- 動詞（能動か受動か、強いか弱いか？）
- 短縮形、文の断片、リストの使い方
- 出だしと締めのパターン
- 著者が避けている語句

内容を解釈しないこと。スタイルだけを記述すること。

[サンプル1を貼り付け]
---
[サンプル2を貼り付け]
---
[サンプル3を貼り付け]

返ってくるのは15〜20個のルールのリストです。中には間違っているものもあるでしょう。当たり前すぎるものもあるでしょう。自分でも気付いていなかった癖がいくつか見つかるはずです。リストを読み、間違ったルールは削除し、曖昧なものを研ぎ直します。これで、以降のプロンプトに制約として渡せるスタイル文書が手元に揃いました。

これがうまくいくのは、モデルが「持っていない感覚」から生成するより、「パターンを記述する」ことのほうが圧倒的に得意だからです。「あなたのボイスで」と頼むのは感覚を求めることです。「15個の具体ルールに従って書いて」と頼むのはパターンマッチを求めることです。LLMが得意なのは後者です。

サンプルの選び方が重要です。関連トピックでのベスト原稿を3〜5本使い、雑多な寄せ集めにしないこと。新しい記事が意見の強いものであれば、中立なハウツーガイドを与えてはいけません。ボイスプロファイルは、与えたものを平均化してしまいます。

Stage 4: プレッシャーテスト、AIを懐疑論者にする

Stage 3 が終わると、草稿が手元にあります。ボイスルールに従ってモデルが書いたものでも、ボイスルールをセルフ編集チェックリストとして使ってあなたが書いたものでもかまいません。いずれにせよ、その草稿は次に「敵対的な読者」を生き延びる必要があります。これこそ、正しく頼めばAIが理不尽に得意な領域です。

デフォルトの失敗モードは「同意してくれるモデル」です。何もせずに使うと、Claude も ChatGPT も、あなたの草稿は素晴らしい、ちょっとした提案がいくつかある、と返してきます。彼らは RLHF によって役立つように調整されており、「この主張にはトラックが通れるくらいの穴がある」と言うのは抵抗の最も少ない道ではないのです。同意の癖から引きはがすには、明示的に指示する必要があります。

私がこの段階で回す6つのプロンプトを示します。混ぜると効果が薄まるので、別々のスレッドで1つずつ実行します。

1. 「この記事の中心主張に対する最強の反論は何か？
   それをスティールマンしてください。まだ反論はせず、
   反対意見の最も強いバージョンを述べるだけ。」

2. 「あなたは容赦なく原稿を切り刻むことで知られる雑誌の
   敵対的な編集者です。その地位に値しないあらゆる文に
   印を付けてください。文を引用し、なぜ削るのかを説明する。」

3. 「この記事の中で、私はどこで読者がすでに同意していると
   仮定しているか？共通基盤を当然のものとして
   扱っている具体的な文を引用してください。」

4. 「懐疑的な読者がこの記事に求めるはずなのに、
   欠けている証拠は何か？引用、数字、例が
   必要なのに私が示していない具体的な主張を列挙する。」

5. 「私はどこで結論を埋めているか？具体的に：
   この記事で最も興味深い1文はどれで、
   どこに登場するか？もっと前に置くべきでは？」

6. 「12か月後を想像してください。この記事は古びてしまった。
   トピックの何が変わって、この記事は間違ったのか？
   どの段落が最もそのリスクにさらされているか？」

実行してください。各プロンプトから、印が付けられた草稿が返ってきます。批評の大部分は的外れか弱いものですが、それで構いません。当たるのは少数で十分です。「敵対的な編集者」プロンプトは、たいてい3〜4文の死刑候補を見つけます。「結論埋め」プロンプトは、たいてい有用な並べ替えを提案します。

Glaspのライブラリを継続的に育てているなら、この段階でAIチャット機能があなたのハイライトに対して真価を発揮します。「私自身のハイライトの中に、この草稿の主張に対する反証はあるか？」と尋ねることは、新しいモデルに尋ねるのとは別の質問であり、より誠実な質問です。なぜなら、答えはあなた自身が信頼に値すると判断して保存したソースから返ってくるからです。

このファミリーのプロンプトパターンについては、思考のためのプロンプトパターンを参照してください。

Stage 5: ポリッシュ、AIに任せてはいけない最終工程

ここが、多くのワークフローが積み上げてきたものを台無しにする段階です。誘惑は強いものです。完成間近の草稿が手元にある。モデルもすぐそこにある。あと1回流して整え、ザラついた箇所をなめらかにし、ぎこちない文を直す。3分で終わる。

やってはいけません。

理由は「私の文体で書いて」が機能しないのと同じ理由です。ポリッシュは、ライティングにおいて最もボイスに敏感な操作です。リズム、語選択、文章を「人間が書いた」と感じさせる小さな癖が宿る場所です。モデルにポリッシュを頼むと、こうした細部の判断は平均化されます。技術的にはなめらかで、あなたらしさが薄れた草稿が返ってきます。読者は何が変わったのかを言語化できません。ただ「何かズレている」と感じるだけです。

ポリッシュ段階でAIに任せるべきは、編集ではなく候補のフラグ付けです。次のプロンプトを使います。

あなたはスタイル監査者であり、編集者ではありません。
以下の草稿を読んでください。何も書き直さないでください。
以下のリストを作成してください：

- 25語を超えるすべての文
- 直前の段落と同じ語で始まるすべての段落
- 動詞のほうが強くなる名詞化
  （"made a decision" vs "decided"）
- 弱い動詞（"there is", "it is", "this is"）
- 削れる副詞すべて
- 一般的すぎる比喩や陳腐な表現

該当する文を引用すること。提案は不要です。

長いリストが返ってきます。1文ずつ歩きながら自分で判断してください。フラグが付いた文の多くはそのままで問題ありません。問題があるものもあります。どちらかを判断することがあなたのボイスです。それを50回連続で行う行為こそが、最初の段落から「この人の文章だ」と認識される原稿を生み出します。

Verlyn Klinkenborg は『Several Short Sentences About Writing』で、私が常に思い出す一節を書いています。「文が長くなるほど、意味は薄くなる」。文字どおりの意味では真ではありませんが、感覚としては正しい。長い文は隠せます。短い文は腹を括らせます。ポリッシュ段階は腹を括る場所です。モデルはあなたの代わりに腹を括れません。腹を括るとは、モデルが持たないものだからです。

Stephen King は『On Writing』でもっと身も蓋もなく言っています。「Kill your darlings, kill your darlings, even when it breaks your egocentric little scribbler's heart, kill your darlings」。お気に入りを見つけるのにモデルを使い、殺すのは自分自身で行うのです。

ワークフローを1ページにまとめる

これがチートシートです。印刷し、モニターの上に貼り、次のロングフォーム執筆のときに参照してください。

段階	時間配分	AIの役割	人間の役割	ツール
1. ブリーフ	30〜45分	インタビュアー	読者、主張、禁句を決める	Markdown文書、Glaspハイライト
2. スケルトン	15〜30分	アウトライン生成	構造の適合を選ぶ	ChatGPT（多様性）
3. ボイス	30〜45分	スタイルルール抽出	3〜5本のサンプルを選ぶ	Claude（抽出品質）
4. プレッシャーテスト	30〜45分	敵対的編集者	どの批評を採るか決める	Claude、別々の6スレッド
5. ポリッシュ	30〜60分	パターン指摘のみ	細部編集はすべて手作業	あなた、コーヒーと一緒に

2,500語の記事で総所要時間は2〜4時間です。30分のワンショットプロンプトと比較すると、計算上は分が悪く見えます。しかし、出力を比べた瞬間にその印象は逆転します。ワンショット版はそもそも誰も最後まで読まないので、どこにも届きません。5段階版は実際に読まれ、共有されます。

定期的に書く人にとって便利なリズムがあります。気になっているトピックについてGlaspのコレクションを育て続けてください。ハイライトが臨界量（おおよそ強いものが5本）を超えたら、ブリーフを開き、ワークフローを歩きます。ハイライトは Stage 1 で証拠となり、Stage 4 で素材となり、モデルが従順すぎるときの錘となります。ハイライトの習慣さえあれば、パイプラインは勝手に回り出します。

よくある質問 {#frequently-asked-questions}

このワークフローはメールや短い記事にも使えますか？

いいえ。およそ1,500語以下のものに5段階は不要です。オーバーヘッドが利益を食い潰します。メールや短い投稿は、頭の中でブリーフを書き、スケルトンは飛ばして、いきなりドラフトに入ってください。このワークフローは、文単位の判断より構造判断のほうが重要な記事のために設計されており、短い記事はその逆です。

どの段階でどのAIを使うべきですか？

両者を広く使ってきた率直な結論を述べます。Claude はブリーフ、ボイス抽出、プレッシャーテストで強い傾向があります。長い構造化された指示に忠実で、プレッシャーテスト段階で「お気に召すように」と振る舞いにくいからです。ChatGPT はスケルトンで強い傾向があります。本当に多様な構成のアウトラインを生成してくれるからです。ポリッシュのフラグ付けはプロンプトが機械的なので、どちらでも構いません。これらの段階に Perplexity は避けてください。Perplexity はリサーチツールであり、執筆パートナーではありません。詳細はAIタスクとモデルマトリクスにあります。

AI検出ツールに引っかかりませんか？

Stage 5 を本当に手作業でやれば、個人的な癖が残り、検出ツールが拾うとっかかりが減ります。KDD 2024 のプリンストン GEO 論文（Aggarwal et al.）は、言語モデルがどう引用しスタイルを再現するかを研究しています。ここに関連する要点は、ボイスはレシピというよりむしろ指紋に近いということです。集合的なテキストで学習されたモデルは、特定の書き手の細部判断を再現するのが苦手です。それこそポリッシュ段階が重要な理由です。とはいえ、文章の重みが大きい場面（法務、学術、ジャーナリズム）では、どんなワークフローも検出を完全にすり抜けると保証はできません。AIは足場として使い、書き手として使わないでください。

このワークフローは実際どれくらい時間がかかりますか？

2,500語の投稿で2〜4時間です。30分のワンショットプロンプトに、得られた残念な草稿の書き直しに費やすであろう1時間ほどを足すと、差は縮まります。トレードオフは本当はスピードではなく、出来上がった記事が公開する価値を持つかどうかです。

急いでいるときはブリーフ段階を飛ばしてもいいですか？

いいえ。ブリーフを飛ばすことが、AIに見える草稿を生み出す最も確実な方法です。他のすべての段階はブリーフが明確であることに依存します。ブリーフがないと、スケルトン段階は「あなたが書きたかった記事ではない記事」のアウトラインを返します。ボイス段階は誤った内容にルールを適用します。プレッシャーテスト段階は誤った主張を批評します。合計10分しかないなら、9分をブリーフに、1分を1つのスケルトンに使ってください。10分間ゼロからプロンプトするより、ずっと先まで進めます。

結論 {#conclusion}

ワンショットのAIライティングが失敗する理由は、モデルが悪いからではありません。理由は、ロングフォームの執筆が5つの仕事だからです。そして、どんなモデルでも5つの仕事を1ショットで行わせれば、5つの平均が出てきます。Brief、Skeleton、Voice、Pressure-Test、Polish。それぞれが狭い範囲を担い、それぞれが異なる協働相手です。人間の役割は終盤に向けて縮むのではなく、ボイスが宿る場所で大きくなります。

このワークフローが意味を持つくらい書くのなら、最初の1本で元が取れます。書く頻度が低いなら、この記事を保存しておき、次にトピックが「1つのプロンプトでは大きすぎる」と感じたときに開いてください。

いずれにせよ、エッセイをモデルに書かせるのはやめましょう。インタビューさせ、構成案を当てさせ、サンプルからボイスを抽出させ、草稿を攻撃させ、パターンをフラグさせる。それから、自分で書く。モデルは部屋。書き手はあなたです。