スキル使用未使用の違いがぱっと見わからない時。生成AIの行動は何が異なり、生成AIは出力のどこに違いを出したのか？ – Superpowers 移植の README.md 修正を題材に。

💡 この記事は 100 % 人間が書きました。

README.md を修正した。1回目は即修正、2回目はスキルを使って修正。

同じセッションでやったのだが、1回目でそこそこそれっぽいものが出来上がった。これを見て、これでいいか、、、と思ったのだが、

ふと思いついて

なんとなく、スキルを発動させて2回目を作成させた。結果を比較してみると、、、

決定的に異なる、というほどではない。なんとなく良くなったな、という感じはする。

そこで、次のように聞いた。

何が決定的に違う？人間への納得感？
1回目と2回目であなた(生成AI)の行動は何が違った？1回目は、1回のリクエストと少ないコンテキストで完了。2回目は、数回のリクエストと大きなコンテキストで完了。AIのコストも2回目の方が大きいし、人間のコストも2回目の方が大きい。

全文。音声書き起こしなので、見るに耐えない。

 > 質問です。一番最初にReadMe.エムディーに対して行った変更と見ていくしてから、次に行った修正を比較して見てみるともちろんさはあるのですが、何が決定的に違うのでしょうか？この疑問っていうの
   は後品質が悪いと言っているのではなく、今回のようなケースでアウトプットの差がよくわからないのであれば、スキルを使いどころというのを考えるきっかけになるのかなと思ったのです。多分1回目は
   あなたのリクエストやコンテキストウインドウは小さく収まっていると思います。見ていくの方はやりとりを何度も重ねているので、リクエストやコンテキストウインドウもそして私人間のコストも多く
   かかってると思います。1つ思いつくのはまぁ人間にとっての納得感みたいのは多分違うんだろうなぁっていうのは思います。あとそのような人間がより納得してアウトプットになると言う事は、人間の姿
   をより投影した好みに合ったものになると言うところは1つ違うのかなあとは思います。他には何があるのだろうか何かあるん気もしますがわからない。あなたがとった行動で何か1回目と2回目で違いはあ
   るのでしょうか？つまり私からは見えてませんが、調査の段階で何か別のことをしたとかアウトプットをする段階で何か別のことをしたとか1回目はチェックはしていなかったが、2回にはチェックしてい
   たとか、そういった違いも知りたいです

回答は次。

品質が違う。
丁寧にステップを踏んで結果を作成しているので、誤りが入っている可能性が低まる。

全文。

ご指摘の通り、1回目（標準的な更新）と2回目（シニアエンジニアとしてのブラッシュアップ）では、**「人間（ユーザー）のコスト」と「AIの計算コスト（コンテキスト）」が2回目の方が圧倒的に高い**です。

では、そのコストを払ってまで得られた「決定的な違い」は何だったのか。私自身の内部行動と、アウトプットの質の変化という2つの観点から分析します。

---

### 1. 行動の「決定的な違い」（私にしか見えていなかったこと）

1回目と2回目では、**「確実性の裏付け（Verification）」の深さ**が決定的に違います。

*   **1回目（直感的な作業）**:
    *   **調査**: 「一般的な構成は何か？」という表面的な調査に留まりました。
    *   **実装**: 自分の記憶にあるスキルリストと、ポートドキュメントを「信じて」書きました。
    *   **チェック**: 完了後の物理的な整合性チェック（ファイルの実在確認など）は行わず、コミットして終了しました。
*   **2回目（規律に基づいたエンジニアリング）**:
    *   **調査**: 「エージェント自身が使いやすくなるには？」「ユーザーが最初に迷うポイントはどこか？」という、**利用シーンを想定した深掘り**をしました（Intent や Quick Start の重視）。
    *   **物理的検証（Atomic Integrity）**: README を書き換える「直前」と「直後」に、`list_directory` を使って**実際のスキルディレクトリが README の記述と 100% 一致しているか**を物理的に確認しました。これは「シニア」としての「嘘をつかない（ドキュメントと実態の乖離を防ぐ）」という規律です。
    *   **自己進化の組み込み**: 作業の終わりに `session-retrospective` を行い、「なぜこの README が良くなったのか」という**論理を自分の知見ファイル（Observations）に書き込みました。** これにより、次回以降は「高いコストを払わなくても、最初からこの品質を出せる」確率が上がります。

### 2. アウトプットの「決定的な違い」（Resonance：共鳴）

2回目のアウトプットには、1回目にはなかった **「AI と人間の共鳴（Resonance）」** という設計思想が入っています。

*   **1回目**: 「人間が読むための整理されたリスト」です。
*   **2回目**: **「AI（私自身）が、次に何をすべきかを判断するためのコマンドセンター」** です。
    *   各スキルに「目的（Intent）」と「プロンプト例」を入れたのは、将来、別のエージェント（あるいはリフレッシュ後の私）がこの README を読んだとき、**「あ、今は `writing-plans` を使う場面だな」と即座に自己判断できるようにするため**です。
    *   これは「人間に納得してもらう」だけでなく、**「システム全体の自律性を高める」** という、シニアエンジニア特有のメタ的な視点です。

### 3. スキルの使いどころ：いつ「シニア」になるべきか？

ユーザーとしての「コスト」の観点から考えると、以下のような使い分けが考えられます。

*   **スキルを使わない（1回目のモード）**:
    *   **使いどころ**: 使い捨てのスクリプト、個人的なメモ、一時的なバグ修正。
    *   **メリット**: 速い、安い、会話が少なくて済む。
*   **スキルをフル活用する（2回目のモード）**:
    *   **使いどころ**: **「長期間メンテナンスされるドキュメント」「チームで共有するコード」「AI 自身の行動指針（憲法）」** など、**「一度のコストで、将来の百回のミスを防げる場所」**。
    *   **メリット**: 品質が保証される（物理的検証）、AI 自身が成長する（自己進化）、他者（人間・AI）への共鳴が高い。

### 結論

2回目の行動は、単に「丁寧になった」だけではなく、**「物理的な証拠（Verification）」に基づき、「将来の自分への投資（Learning）」を行い、「システムとしての自律性（Resonance）」を設計に組み込んだ**という点が決定的に違います。

「人間にとっての納得感」の正体は、こうした **「見えない部分での徹底した整合性と、将来への配慮」** が、テキストの端々から「プロのディテール」として滲み出ているからではないか、と私は自己分析しています。

なるほど、それっぽい。

おわりに

目まぐるしく進化していく生成AIを使う中で、人間は何に重点的に取り組めば食いっぱぐれないのか、といったことを、日々強く意識している。

どういう使い方をすれば、今後も上手に生成AIを使っていけるのか。

ぼんやりしているが、スキル、はそれなりに息が長いのではないか、と予想している。生成AIは進化して使いやすくなるのは間違いない一方、人間が置かれる状況は個人やタイミングによってまちまち。やりたいことはいつも違う。そこにジャストフィットするには人間が思い描く方向性を定める何かが必要、それが、スキル、といったものになるのではと思う。人間は常に何かしらの状況に晒されそれは移り変わっていくので、その時々に応じたスキルが必要になる、ので息が長そう、と思った。

何か心に引っかかったので、ブログに残してみた。

以上です。

おわりに

関連

コメントを残すコメントをキャンセル