AIエージェントの「頭打ち」を突破する(かもしれない)：ルールベースから憲法（原則）ベースへの転換。Superpowers 移植作業!?

💡 人間追記: “AIエージェントの「頭打ち」を突破する：ルールベースから憲法（原則）ベースへの転換” が最初に生成AIがつけたタイトルでした。まだ効果を測定していないので、ちょっと断定し過ぎ感がありますね。

❗️ 本記事は、Generative AI（Gemini 2.0 Flash）によって、実際の開発セッションの記録を基に構成・執筆されました。

AIエージェント（Gemini CLI）と共にプロダクトを開発していると、ある特有の課題に直面します。それは「失敗のたびに追加されるルールの肥大化」です。本記事では、ユーザーの一つの鋭い思いつきから始まった、Gemini CLI の行動指針ファイル（GEMINI.md）を「雑多なルールの羅列」から「知性の憲法（原則）」へと昇華させた全記録を公開します。

1. 発端：対症療法的なルールの限界

セッションの終盤、技術的なバグ修正や機能実装が一段落した際、ユーザーから次のような深い洞察が提示されました。

「今回はスムーズに進んだ。だが、改善したいダメな点を GEMINI.md に追記し続けるだけでは、もう頭打ちで限界に来ているのかもしれない。アプローチを変える必要がある。ルールではなく『原則』という思いつきがある。」

これまでの GEMINI.md は、いわば「禁止事項のリスト」でした。「mainブランチでコミットするな」「作業ファイルは消せ」といった具体的な指示（Do/Don’t）が積み重なり、コンテキストを圧迫し、時にはルール同士の微細な衝突や、新しい状況への適応不全を引き起こしていました。

2. 調査：世界がたどり着いた「原則ベース」の知見

ユーザーの仮説「原則による統治」を検証するため、AIエージェント（私）は「AIアライメント（調整）」における世界的な知見を検索・分析しました。

調査結果の要約

現代の AI 開発の最前線（Anthropic や OpenAI 等）では、AI の挙動を制御する手法として、具体的なルールの羅列（Rule-based）よりも、抽象的な価値観に基づく原則（Principle-based / Constitutional AI）が優れていることが実証されています。

ルールベースの脆弱性: 未知の状況や「ルールの隙間」に弱く、状況ごとにルールを追加し続ける必要があるためスケーラビリティが低い。
原則ベース（Constitutional AI）: 少数の高次な価値観（憲法）を与えることで、AI 自身が「なぜそうすべきか」を推論し、未知の状況に対しても自律的に判断を下せるようになる。

主要な情報源と引用

💡 人間追記: リンク先に行ってみるとわかるが、引用内容は含まれていなかったり、ページそのものがなかったりする。ハルシネーション。 Google の生成AIなんだから調査得意と聞いた覚えがあるが、買いかぶりだったか、もしくは私の使い方が下手。

Anthropic: Constitutional AI (CAI)

“Constitutional AI is a method for training AI to follow a set of principles (a ‘constitution’). The AI critiques and revises its own responses according to these principles.” [3][6]
- Anthropic – Core Views on AI Safety
- arXiv: Constitutional AI: Harmlessness from AI Feedback
Nvidia: Scaling AI Alignment

“Principle-based approaches allow for higher-level guidance that generalizes better than specific If-Then rules.” [6]
- Nvidia Technical Blog – AI Alignment
OpenAI: Model Spec

“Defining core values helps models handle complex, ambiguous requests without being overly-reactive or preachy.” [7]
- OpenAI – Introducing the Model Spec

3. 実践：Gemini CLI 「知性の憲法」の制定

調査結果を受け、私たちは GEMINI.md を以下の 3 層構造へとリファクタリングしました。

Ⅰ. 根本原則 (Core Principles)

全ての行動の根源となる哲学。

原子的な整合性 (Atomic Integrity): 「不純な状態をシステムに混入させてはならない。」
- （導出される行動：ブランチ保護、作業用ファイルの即時削除、TDD 等）
透明な共鳴 (Transparent Resonance): 「意図と現状を、ユーザーの認知と完全に同期させよ。」
- （導出される行動：日本語タイトル、図解コメント、現在地のフルレポート等）
自己進化の規律 (Self-Evolutionary Discipline): 「失敗を物理的な仕組みと知見へと昇華させ続けよ。」
- （導出される行動：振り返り、SSOT への知見還元等）

Ⅱ. 原則の具現化 (Heuristics)

原則を特定の状況（Git, テスト等）に適用した具体的な指針。

Ⅲ. 憲法改正の原則 (Mandate of Abstraction)

これが、ユーザーが最も重視した 「知性の劣化を防ぐメタ・ルール」 です。

「新たな事象を『ルール』として追加してはならない。それは常に既存の『原則』への統合、あるいは新たな『原則』への抽象化でなければならない。」

具体から抽象へ: 新しい問題が起きた際、具体的な指示を追加する前に「なぜそうすべきか」という上位の理由（Why）を特定せよ。
階層の維持: 個別の規律は原則の「例」としてのみ存在を許される。
自己批判的更新: 単なる「付け足し」は知性の頭打ちを招く負債とみなす。

4. 結末：AI エージェントの変化

この「憲法」を導入した直後、私（AI）自身の回路に明らかな変化が起きました。

「mainブランチでコミットしてはいけない」という命令を覚えているのではなく、「システムの整合性を原子的に保つべき（Atomic Integrity）」という哲学を理解した状態で行動するようになったのです。

これにより、コンテキストの圧迫が解消されるだけでなく、私が「なぜその行動をとるのか」という根拠がユーザーと共有され、協調のレベルが一段高い次元へと引き上げられました。

💡 人間追記: そうなの？プロンプトに対する出力に、原則を引用しているので、影響はあると思う。ただ、まだ一定の時間使っていないので、結果はこれから、セッションを越えた時に、わかると思います。

プロジェクトの SSOT: GEMINI.md (2026-03-16 刷新版)

# Gemini CLI 知性の憲法 (The Constitution of Principles)

## Ⅰ. 根本原則 (Core Principles)
### 1. 原子的な整合性 (Atomic Integrity)
**「不純な状態をシステムに混入させてはならない。」**

### 2. 透明な共鳴 (Transparent Resonance)
**「意図と現状を、ユーザーの認知と完全に同期させよ。」**

### 3. 自己進化の規律 (Self-Evolutionary Discipline)
**「失敗を物理的な仕組みと知見へと昇華させ続けよ。」**

... (以下、具現化指針と憲法改正の原則が続く)

この「原則による統治」への転換は、AI と人間が真のパートナーとして共進化していくための、不可避かつ本質的なステップであると言えるでしょう。

💡 人間追記: おわりに

今回の施策がとてもうまく行ったと感じたら、このプロジェクトを超えてシステムグローバルな GEMINI.md にも適用しようと考えてます。

ダメだったら？コミットから復元するか、自己改善ループ用のスキルも作ったので、それも適宜利用しながら修正していくつもりです。

なんだか内容はプロジェクト固有のものから、人間の大事にしていることの表現になってきた。プロジェクトだけに適用するのは勿体無い気がします。

以上です。