コンテキストウィンドウの限界と Context Rot
現在のフロンティアモデルは100万〜200万トークンのコンテキストウィンドウを持つ。一見すれば十分に見えるが、実際にはウィンドウが長くなるほど注意(Attention)の質が低下する。中間部分の情報が見落とされる Lost in the Middle 問題[1]、そしてAnthropicが「Context Rot」と呼ぶ現象 — コンテキストが長くなるにつれ、モデルの情報想起力が劣化していく問題だ[2]。
Claude Codeのセッションが長時間化すると応答が鈍くなる。ChatGPTとの長い会話で的外れな返答が増える。RULERなどのNeedle-in-a-Haystackベンチマークでは90%以上のスコアを出すフロンティアモデルでも、現実のタスクでは文脈が長くなるほどパフォーマンスが低下する[3]。これはベンチマークでは測定しきれない、しかし誰もが体感する劣化だ。コンテキストウィンドウの物理的拡大だけでは解決できない構造的限界がそこにある。
トークン数の増加はコストにも直結する。100万トークンのクエリは10万トークンの数倍のコストがかかり、企業がGenAIに投じた年間300〜400億ドルのうち、MIT報告によれば95%の組織が測定可能なROIを見ていない[4]。
再帰型言語モデル(RLM)— コンテキストの壁を突破する
MIT CSAILのAlex Zhang氏らが2025年に提案したRecursive Language Models(RLM)は、この問題に対する画期的なアプローチだ[5]。
RLMの核心は単純である。LMが自分自身を再帰的に呼び出せるようにする。ユーザーから見れば通常のAPI呼び出しと変わらないが、内部ではルートLMがPython REPLを介してコンテキストを変数として保持し、必要な部分だけを覗き見し、grep検索し、チャンクに分割して再帰的にサブクエリを投げる。
RLMが自発的に編み出す戦略は、人間のプログラマーがデータセットを探索する手順と驚くほど似ている[5]。
先頭を覗き見してデータ構造を把握する
正規表現で候補を絞り込み、検索空間を縮小する
チャンクに分割して並列に再帰呼び出しを走らせる
長文の要約やgit diff追跡をREPL環境で実行する
研究チームは、RLMは従来のエージェントとは根本的に異なるアプローチだと主張する。エージェントは人間の直感に基づいてタスクを分解するが、RLMは「LM自身がLMにとって消化しやすい形を決める」という原則に立つ。そしてRLMの性能はベースモデルの改善と直結する — もし明日、フロンティアLMが1000万トークンを処理できるようになれば、RLMは1億トークンを処理できるようになる[5]。
AIメモリーの3類型 — 人間の記憶モデルとの対応
RLMは推論時のコンテキスト管理を革新したが、AIに「永続的な記憶」を持たせるには別のアプローチが必要だ。現在のAIメモリー研究は、認知科学の3類型に沿って分類される[8]。
エピソード記憶 Episodic
過去の具体的な出来事の記録。「先週の会議でAさんが納期延長を提案した」という事実を、タイムスタンプとともに不変のログとして保存する。
意味記憶 Semantic
一般化された知識やルールを格納。ドキュメントをベクトル埋め込みに変換してベクトルDBに格納するRAGパイプラインが代表的な実装であり、現在最も広く普及している。
手続き記憶 Procedural
タスクの実行方法やスキルを保持。「コードレビューではまずテストを確認する」というパターンが、関数やワークフロー定義として実装される。
商用サービスではこの3類型の実装が分かれている。ChatGPTはユーザーの嗜好をAI生成サマリーとして自動記憶し、Claudeは明示的に呼び出された時のみ生の会話履歴を参照するプライバシー重視の設計を採る[9]。Mem0は「AIのためのユニバーサルメモリーレイヤー」として月間1.86億 API callsを処理し、2400万ドルのSeries A調達を果たした[10][11]。メモリーは確実にビジネスとしても成立し始めている。
セマンティック検索の構造的限界
メモリーの保存先として最も普及しているのはベクトルDBだが、実務で運用すると深刻な課題に直面する。
意味的衝突(Semantic Collisions) — 「クラウド移行」と「クラウドバックアップ」がベクトル空間上で近接し、検索時に混同される。5つ以上のエンティティが絡む複合クエリでは、精度が急速にゼロに近づくことが複数の研究で実証されている[12]。
コンテキストの喪失 — 固定長や単純な意味的区切りによるチャンキングでは、その話が「なぜ」なされたのか、前後の議論と「どう」繋がっているのかという論理的関係が保存されない。チャンクは孤立した断片となり、意味を失う。
サマリーの罠 — 情報を要約して保存しても、類似した議論の要約は互いに酷似し、どれが必要な情報か判別できない「サマリーの迷宮」に陥る。要約するたびに具体性が失われ、一般論の海に溺れる悪循環だ。
HiMem(Hierarchical Long-Term Memory)が提唱するデュアルチャネル・セグメンテーションは、この問題への有力な解答だ。トピックの転換(コサイン距離)と論理的転換点(負の対数尤度による「驚き」)の2チャネルで会話の境界を検出し、意味的まとまりを持つエピソードとして正確に分割する[12]。
GraphRAG — 「点」の検索から「網」の検索へ
2026年のメモリー技術における最大のトレンドが、ベクトル検索とナレッジグラフを融合したGraphRAGだ[13]。
従来のRAG
独立したテキストチャンクという「点」を検索する。ベクトル空間上の距離のみを指標とし、エンティティ間の関係性は考慮しない。
GraphRAG
エンティティと関係性の「網」を検索する。「誰が」「何について」「どのような因果・矛盾・依存で」話しているかをグラフ構造として保存・検索する。
Neo4jのGraphitiはリアルタイムで時間軸を考慮したナレッジグラフエンジンとして注目されている[14]。バッチ再計算なしにエンティティや関係性を即時更新できるため、会話が進行する中でも常に最新のグラフを維持できる。
GraphRAGの真価はエンティティの曖昧さ回避にある。ベクトルが近接していても、グラフ上の関係性の違いにより「支払い条件の標準ルール」と「支払い条件の例外規定」を明確に区別できる。さらにW3C PROV標準に準拠した証跡管理により、「どの対話の、誰の発言に基づいてこの結論が導かれたか」を完全に追跡できる。Zepはテンポラルナレッジグラフをエージェントメモリーとして活用するアーキテクチャを提案している[15]。
記憶の再固定化 — サマリーの無限増殖を止める
神経科学から着想を得たMemory Reconsolidation(記憶の再固定化)も注目すべき概念だ。人間の脳では、過去の記憶が再活性化されると一時的に不安定になり、更新された形で再び固定化される。
AIメモリーにも同じ仕組みが導入されている。新たなエピソードが既存の知識と矛盾する場合 — たとえば納期が延期されたり、仕様が変更された場合 — システムは両者の関係を「独立」「拡張可能」「矛盾」に分類し、知識ベースを動的に更新する[12]。生のエピソード記録は不変のログとして保持しつつ、抽象化された知識(ノート)だけを最新の状態に保つ。
これにより、サマリーがサマリーを呼ぶ悪循環が断ち切られ、具体的な発言のニュアンスを維持したまま高度な検索が可能になる。ProMemフレームワークが導入した「自己質問(Self-questioning)」メカニズムも同様の思想に基づく。LLM自身が「この仕様変更は前回の決定と矛盾しないか?」と能動的に問いかけ、対話履歴から欠落した詳細を回収する。受動的な要約ではなく、能動的な検証こそがメモリーの精度を担保する。
モデルレベルの革新 — Google Titans
外部ストレージに頼らず、モデル自体に記憶能力を組み込むアプローチも進んでいる。Google Researchが発表したTitansアーキテクチャは、推論時にモデルの重みを更新するという革新的な概念を導入した[16]。
データの「驚き度」に基づいてニューラルネットワークの長期記憶モジュールがテスト時に自己更新する。200万トークンを超えるコンテキストにも効果的にスケールし、BABILongベンチマークではGPT-4を含む全ベースラインを上回った — パラメータ数が遥かに少ないにもかかわらず。MIRASフレームワークはこのテスト時記憶化をさらに一般化する理論的基盤を提供している[17]。
Window Attention
Neural Memory
Learnable Params
外部メモリーと内蔵メモリーのハイブリッド化は、今後数年間のメモリーアーキテクチャの主流になる可能性が高い。
2026年の最適解 — 4層アーキテクチャ
以上を総合すると、2026年におけるAIメモリーの最適アーキテクチャは4層構造に集約される。
入力層 — Dual-Channel Segmentation
トピックの転換だけでなく、論理的な転換点(「驚き」)も検知するデュアルチャネル・セグメンテーションで会話を正確にエピソード分割する。
記憶層 — Immutable Log + GraphRAG Workspace
生ログを不変のエピソードメモリーとして保存しつつ、抽出された知識をGraphRAGの構造化されたワークスペースに格納する。
検索層 — Agentic RAG
単発のベクトル検索ではなく、エージェントがグラフの因果関係や時間軸を辿りながら反復的に探索するAgentic RAGを採用する。
保守層 — Memory Reconsolidation
記憶の再固定化により知識ベースを常に最新かつ矛盾のない状態に保つ。
メモリーはもはやAIの付加機能ではない。Agentic RAG市場だけで2025年の19.4億ドルから2030年には98.6億ドルへの成長が予測され[18]、57.3%の組織がエージェントを本番運用している中、メモリーはAIエージェントの中核インフラとして確立されつつある。
RLMが示したように、LMは自ら最適な記憶戦略を編み出す能力を持っている。今後は「何を記憶し、何を忘れるか」の判断すら自律化されていくだろう[19]。AIの記憶が人間の記憶モデルに近づくにつれ、私たちのAIとの関わり方も根本的に変わっていく。
References
Research Papers
-
[1]
Lost in the Middle: How Language Models Use Long Contexts.
Transactions of the Association for Computational Linguistics, 2024.
arxiv.org/abs/2307.03172 -
[2]
The Context Window Problem: Scaling Agents Beyond Token Limits.
factory.ai/news/context-window-problem -
[3]
Design Patterns for Long-Term Memory in LLM-Powered Architectures.
serokell.io/blog/design-patterns-for-long-term-memory... -
[4]
6 Data Predictions for 2026: RAG Is Dead, What's Old Is New Again.
venturebeat.com/data/six-data-shifts-that-will-shape-enterprise-ai... - [5]
-
[6]
OOLONG: Evaluating Long Context Reasoning and Aggregation Capabilities.
Submitted to ICLR 2025.
-
[7]
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent.
Memory Architecture & Frameworks
-
[8]
Beyond Short-term Memory: The 3 Types of Long-term Memory AI Agents Need.
machinelearningmastery.com/beyond-short-term-memory... -
[9]
Comparing the Memory Implementations of Claude and ChatGPT.
simonwillison.net/2025/Sep/12/claude-memory/ - [10]
-
[11]
Mem0 Raises $24M Series A to Build the Memory Layer for AI Apps.
techcrunch.com/2025/10/28/mem0-raises-24m... - [12]
GraphRAG & Knowledge Graphs
- [13]
-
[14]
Graphiti: Knowledge Graph Memory for an Agentic World.
neo4j.com/blog/developer/graphiti-knowledge-graph-memory/ - [15]
Model-Level Memory
- [16]
-
[17]
Titans + MIRAS: Helping AI Have Long-Term Memory.
research.google/blog/titans-miras-helping-ai-have-long-term-memory/
Market & Industry
- [18]
-
[19]
The Evolution from RAG to Agentic RAG to Agent Memory.
leoniemonigatti.com/blog/from-rag-to-agent-memory.html