AIメモリー系 最新論文レビューと MoltMem 比較レポート
検証方針: 初回のWeb検索結果は広く拾う用途に使い、このレポートでは arXiv API で存在・日付・要旨を直接確認できた論文だけを採用した。
0. 先に結論
MoltMemにとって本当に重要な4点
- 保存前ゲート(admission control)を明示的に持つこと
2026年の流れでは「何を保存するか」が独立した設計論点になっている。 - Factだけで完結しないことを認めること
fact/summarized memory は安いが、将来の問い合わせに必要な証拠を落とす危険がある。raw evidence への戻り道が要る。 - retrieval を write と切り分けて評価すること
最近の論文では、書き方の工夫より retrieval の差の方が支配的という結果が出ている。 - 評価を多セッション・時系列・更新込みで回すこと
単純な recall ベンチだけだと、実運用の「覚えた結果として後続行動が改善するか」を見落とす。
要するに、MoltMemの今の強みはかなり良い線を行ってる。でも、次の勝負所は extraction の賢さそのものではなく、admission / evidence tier / retrieval eval だと思う。
1. MoltMem が今目指しているもの(比較の基準)
1.1 README 上の目的
"MoltMemは以下の課題を解決します:"
"1. 会話の記憶喪失: コンパクション時に会話内容が失われる問題"
"2. 圧縮の質が低い: 重要な情報が適切に保持されない問題"
"3. 会話履歴の追跡困難: どのターンで何が起きたか追跡できない問題"
この3点から見ると、MoltMemのコアは単なる「長期記憶」ではなく、memory + auditability の組み合わせにある。
1.2 自己学習パイプラインの現在地
"Goal: 自己学習パイプラインの未実装・不完全な部分(fact_extractor occurrence連携、procedural fact作成、NLI統合、source_typeフィルタ緩和、Admin UI設定)を全て修復し、全learning typeが昇格対象になるようにする。"
つまり MoltMem はすでに、occurrence / recurrence、source_type、NLI gate、Admin UI での監査と調整を持つ方向に進んでいる。これは最近の論文動向とかなり一致している。
1.3 Fact Ledger の設計思想
"Facts replace the legacy Memory/EpisodicMemory system with a unified, typed, auditable fact store."
自己学習・出典系フィールド: source_type / fingerprint / recurrence_count / first_seen_at / source_session_id / source_timestamp / source_turn_ids
これはかなり大きい。最近の論文で重要になっている admission 根拠、recurrence、provenance、traceability の土台が、少なくともデータモデル上は既にある。
1.4 現在の注入方式
"Tier 1: safety/pinned facts (全文掲載・件数制限なし)"
"Tier 2: 行動関連 facts (全文掲載・最大10件)"
これはシンプルで堅いが、逆に言うと query-adaptive retrieval ではない。ここが今後のギャップ候補。
2. 採用した論文(存在確認済み)
以下はすべて arXiv API でタイトル・日付・要旨を直接確認したもの。
| # | 論文タイトル | arXiv |
|---|---|---|
| 1 | Memory for Autonomous LLM Agents | 2603.07670 |
| 2 | Adaptive Memory Admission Control (A-MAC) | 2603.04549 |
| 3 | Memex(RL) | 2603.04257 |
| 4 | Diagnosing Retrieval vs. Utilization | 2603.02473 |
| 5 | Fact-Based Memory vs. Long-Context LLMs | 2603.04814 |
| 6 | TierMem (Provenance-Aware) | 2602.17913 |
| 7 | MemoryArena | 2602.16313 |
| 8 | Mnemis (Dual-Route Retrieval) | 2602.15313 |
| 9 | Neuromem | 2602.13967 |
| 10 | SimpleMem | 2601.02553 |
| 11 | Memory in the Age of AI Agents | 2512.13564 |
| 12 | Memoria | 2512.12686 |
3. 論文群から見える主要トレンド
3.1 Write Policy が主役化している
A-MAC はこう言っている。
"memory admission remains a poorly specified and weakly controlled component"
"A-MAC decomposes memory value into five complementary and interpretable factors: future utility, factual confidence, semantic novelty, temporal recency, and content type prior."
つまり「保存するかどうか」は、もう extraction のおまけじゃない。独立に設計し、しかも説明可能であるべきという流れ。
3.2 Summary-only は危ない、raw evidence への戻り道が要る
TierMem はこう言っている。
"This creates a fundamental write-before-query barrier"
"summaries can cause unverifiable omissions"
この指摘はかなり本質的。未来の問い合わせを知らない時点で summary を作る以上、後で必要な条件を落とす危険がある。
3.3 Retrieval が write より支配的な場合がある
Diagnosing Retrieval vs. Utilization の要点はかなり痛い。
"On LoCoMo, retrieval method is the dominant factor"
"Raw chunked storage, which requires zero LLM calls, matches or outperforms expensive lossy alternatives"
雑に言うと、頑張って賢く要約しても retrieval が弱いと負ける。
3.4 評価は recall 単体から multi-session action へ
MemoryArena はこう切っている。
"Existing evaluations of agents with memory typically assess memorization and action in isolation."
つまり「覚えてるか?」だけだと足りない。覚えた結果として後続行動が改善したかまで見る必要がある。
3.5 ストリーミング memory lifecycle を分解して評価する流れ
Neuromem:
"In practice, memory is streaming"
"accuracy and cost are governed by the full memory lifecycle, which encompasses the ingestion, maintenance, retrieval, and integration of information into generation"
これは MoltMem にかなり刺さる。なぜなら MoltMem は単なる検索DBではなく、作成→昇格→統合→注入→監査のパイプラインだから。
4. 論文ごとの評価(良い点 / 悪い点 / MoltMem 比較)
"agents either accumulate large volumes of conversational content, including hallucinated or obsolete facts, or depend on opaque, fully LLM-driven memory policies that are costly and difficult to audit."
"A-MAC decomposes memory value into five complementary and interpretable factors: future utility, factual confidence, semantic novelty, temporal recency, and content type prior."
- admission を明示的な設計対象にしている
- interpretable factors なので監査しやすい
- LLM 全振りではなく軽量特徴も使うため、コストバランスがいい
- hallucinated / obsolete fact の流入防止を正面から扱っている
- benchmark は LoCoMo 中心で、現実の複雑な運用条件まで一般化できるかは不明
- admission は扱うが、retrieval 側の最適化までは別問題
- factor 設計がドメイン依存になりやすく、チューニング地獄になりうる
かなり相性がいい。 MoltMem には source_type, fingerprint, recurrence_count, first_seen_at があり、A-MAC 的な admission score を載せやすい。逆に今の MoltMem は 昇格ゲート/NLI はあるが admission score の体系化はまだ弱い。短期導入候補として最優先。
future_utility: type / pinned候補 / action relevancefactual_confidence: NLI結果・source_type・人手承認有無semantic_novelty: fingerprint近傍・類似Factとの重複度temporal_recency: first_seen/update時刻content_type_prior: decision / preference / learning / procedural ごとの prior
"On LoCoMo, retrieval method is the dominant factor: average accuracy spans 20 points across retrieval methods (57.1% to 77.2%) but only 3-8 points across write strategies."
"Raw chunked storage, which requires zero LLM calls, matches or outperforms expensive lossy alternatives"
- write / retrieval / utilization を分離して見ている
- 「抽出さえ賢ければ勝てる」を崩してくれる
- BM25 / cosine / hybrid reranking の比較は実装判断に直結
- 新アーキテクチャではなく診断的
- LoCoMo依存の結果が多い
- raw chunk優位は retrieval 実装の未熟さに依存する可能性
MoltMem は fact 化・NLI・reconciliation に力が入っているが、今後の勝負所は retrieval baseline の強化。fact_context_builder は Tier1/Tier2 の静的注入なので query intent 別 retrieval が弱い可能性がある。まず BM25 / vector / hybrid rerank の比較実験を持つべき。
"This creates a fundamental write-before-query barrier"
"summaries can cause unverifiable omissions"
"TierMem uses a two-tier memory hierarchy to answer with the cheapest sufficient evidence"
- 要約と raw evidence を敵対させず階層化している
- provenance を正面から扱い、traceability の思想が強い
- sufficiency router により必要な時だけ raw にエスカレート
- router 設計が難しく、誤判定すると summary で答えて事故る
- raw store を持つので実装と運用が重くなる
- 人間が読める監査UIも同時に必要
MoltMem の核と非常に近い。 既に source_session_id, source_timestamp, source_turn_ids があり provenance-aware に進化しやすい。ただし runtime retrieval が evidence escalation まで体系化されているわけではない。「データモデル上は準備できているが、実行系が未完成」。
"Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy"
"Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices."
- summary-only の脆さを避けつつ full context の爆発も避ける
- index と dereference の考え方が明快
- 「必要時だけ原記録へ戻る」構造が強い
- RL を前提にしていて実装コストが高い
- 個人メモリ/Fact Ledger にそのまま落とすには重い
- 手元では heuristic router で十分な可能性
MoltMem が今すぐ真似すべき本質は RL ではなく indexed evidence dereference。RL controller まで飛ぶのは早い。
"Long-context GPT-5-mini achieves higher factual recall on LongMemEval and LoCoMo, while the memory system is competitive on PersonaMemv2, where persona consistency depends on stable, factual attributes suited to flat-typed extraction."
"At a context length of 100k tokens, the memory system becomes cheaper after approximately ten interaction turns"
- production 寄りでコスト比較が実務的
- fact-based memory の得意/苦手領域を分けて見ている
- 雑な二項対立を避けている
MoltMem が目指すべき結論: 安定属性は fact ledger、複雑な経緯は evidence tier、全部を一発注入しない。 どのクエリを fact-first で処理すべきかを定義すべき。
"existing methods (RAG and Graph-RAG) primarily retrieve memory through similarity-based mechanisms"
"Mnemis integrates System-1 similarity search with a complementary System-2 mechanism, termed Global Selection."
MoltMem は今の段階では まず graph ではなく retrieval baseline の整備が先。ただし preference / identity / relationship 系が増えるなら、限定的な entity graph 導入価値は高い。全面 graph 化はまだ早いが、関係表現のための局所 graph は検討価値あり。
"Existing evaluations of agents with memory typically assess memorization and action in isolation."
"agents with near-saturated performance on existing long-context memory benchmarks like LoCoMo perform poorly in our agentic setting"
MoltMem にはかなり必要。今の成功判定が fact 作成数や検索精度中心に寄ると、実際に後の会話品質が上がったかが見えない。今後は「記憶成功率」ではなく「後続タスク成功率」を見るべき。
"memory is streaming"
"the full memory lifecycle, which encompasses the ingestion, maintenance, retrieval, and integration of information into generation"
MoltMem はまさに ingestion / maintenance / retrieval / injection / audit を持つので、Neuromem の分解軸と相性がいい。今の MoltMem に必要なのは新機能追加だけでなく、どの段で性能/コスト/事故が出ているかの分解計測。
"semantic lossless compression"
"Semantic Structured Compression" / "Online Semantic Synthesis" / "Intent-Aware Retrieval Planning"
MoltMem の「圧縮の質が低い」を改善する発想としては参考になる。ただし auditability を重視するので、圧縮 + provenance 保持のハイブリッドが必要。
- Memory in the Age of AI Agents (2512.13564) — 用語整理、forms/functions/dynamics の三面整理。docs の概念整理に有用。
- Memory for Autonomous LLM Agents (2603.07670) — write-manage-read loop で俯瞰できる最新サーベイ。ingestion / consolidation / retrieval / evaluation の整理軸。
- Memoria (2512.12686) — summarization + KG user model のハイブリッド。preference / identity 系だけ構造化を厚くする発想。
5. MoltMem と比較した総合評価
5.1 すでに強く合っている点
A. Auditable Fact Store
"unified, typed, auditable fact store" を掲げていて、最近の memory 論文の中でもかなり正しい方向。
B. Provenance の土台
source_session_id, source_timestamp, source_turn_ids は強い。TierMem 的発展の土台が既にある。
C. Recurrence / Source_type
A-MAC 的 admission signal の候補が既にデータモデルに入っている。
D. Admin UI / Review
論文が軽視しがちな HITL・監査導線を持っているのは、かなり良い差別化点。
5.2 まだ弱い点・ギャップ
1. Admission control が体系化されていない
gate は持っているが、保存価値を多因子で明示スコア化する思想がまだ弱い。
2. Retrieval の研究が相対的に薄い
賢い write より retrieval の方が効くことがある。MoltMem はこの論点をもっと主戦場にしていい。
3. Evidence escalation が実行系として未完成
provenance フィールドはあるが、fact で足りないときに raw turn へエスカレートする runtime policy がまだ見えない。
4. Query-adaptive context building が弱い
現行 fact_context_builder は Tier1/Tier2 の静的注入。検索意図別の最適化には弱い。
5. 評価軸が立体化されていない
recall / overwrite / contradiction handling / downstream task success / token・latency に分解して測れているかは今後の課題。
6. MoltMem で次にやるべきこと(優先度順)
P0 すぐやるべき
P0-1. Admission Score Layer を追加
A-MAC を参考に、Fact 作成/昇格前に以下を数値化。
- utility
- confidence
- novelty
- recency
- content-type prior
出力例:
{
"admit": true,
"score": 0.81,
"factors": {
"utility": 0.9,
"confidence": 0.7,
"novelty": 0.8,
"recency": 0.6,
"type_prior": 0.95
},
"reason": "high-utility procedural learning with recurrence"
}
P0-2. Retrieval bake-off を作る
同一セットに対して以下を比較。
- vector only
- BM25 only
- hybrid rerank
- fact only
- fact + source_turn evidence
見たい指標: hit@k、exact answer accuracy、contradiction rate、latency、token cost
P0-3. Evidence escalation を実装
fact だけで回答しない。必要なら source_turn_ids から原文へ戻る。
- fact hit
- sufficiency check
- insufficiency なら source turns retrieve
- answer with citation
- verified result を fact/synopsis に還元
P1 次段階
P1-1. Query-adaptive context builder
今の Tier1/Tier2 は残しつつ、追加で intent 別ルートを持つ。
- persona/preference query → fact-first
- why/how/when query → source-turn/evidence-first
- action/task query → procedural/decision 優先
P1-2. Evaluation harness を整備
MemoryArena / Neuromem を参考に測定: multi-session consistency、stale fact correction success、provenance trace success、retrieval vs utilization failure split、insertion / retrieval latency
P1-3. Provenance-aware UI
Admin UI に「この fact はどの source turn に由来するか」を一発で見せる。論文比較上もかなり強い武器になる。
P2 後回しでいい
P2-1. Full graph memory
Mnemis は面白いが、全面 graph 化はまだ早い。まずは retrieval baseline と provenance tier を固める方が価値が高い。
P2-2. RL-based memory controller
MemexRL 的な controller はロマンあるけど、今の MoltMem に必要なのはまず explicit policy、measurement、auditability であって、学習 controller じゃない。
7. 一言でまとめると
MoltMem は方向性そのものはかなり合ってる。特に typed fact ledger、recurrence / provenance、NLI gate、audit/admin UI は、最近の論文の関心と噛み合ってる。
でも、2026年の論文群を踏まえると、次に強化すべき中核は 「もっと賢く抽出すること」ではなく
- 何を保存するか(admission control)
- どう取り出すか(retrieval policy)
- factで足りないときに証拠へ戻ること(evidence tier)
- 実際に後続行動が改善したかで測ること(evaluation)
ここ外さなければ、MoltMem は「よくある memory DB」じゃなく、監査可能で運用可能な memory system にちゃんと育つ。
8. 参考文献
- Memory for Autonomous LLM Agents: Mechanisms, Evaluation, and Emerging Frontiers — arxiv.org/abs/2603.07670
- Adaptive Memory Admission Control for LLM Agents — arxiv.org/abs/2603.04549
- Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory — arxiv.org/abs/2603.04257
- Diagnosing Retrieval vs. Utilization Bottlenecks in LLM Agent Memory — arxiv.org/abs/2603.02473
- Beyond the Context Window: Fact-Based Memory vs. Long-Context LLMs — arxiv.org/abs/2603.04814
- From Lossy to Verified: A Provenance-Aware Tiered Memory for Agents — arxiv.org/abs/2602.17913
- MemoryArena: Benchmarking Agent Memory in Multi-Session Agentic Tasks — arxiv.org/abs/2602.16313
- Mnemis: Dual-Route Retrieval on Hierarchical Graphs — arxiv.org/abs/2602.15313
- Neuromem: Granular Decomposition of the Streaming Lifecycle — arxiv.org/abs/2602.13967
- SimpleMem: Efficient Lifelong Memory for LLM Agents — arxiv.org/abs/2601.02553
- Memory in the Age of AI Agents — arxiv.org/abs/2512.13564
- Memoria: A Scalable Agentic Memory Framework — arxiv.org/abs/2512.12686
このレポートの「論文根拠」欄は、各論文の arXiv 要旨からの直接引用または要旨に基づく要約。「良い点 / 悪い点 / MoltMem比較」は、その要旨と MoltMem の現行 docs / code を照合して書いた分析であり、各論文のフル実装再現レビューではない。