AIメモリー系最新論文レビューと MoltMem 比較レポート

2026年3月11日 · 約30分で読了 · 対象期間: 2025後半〜2026初頭

検証方針: 初回のWeb検索結果は広く拾う用途に使い、このレポートでは arXiv API で存在・日付・要旨を直接確認できた論文だけを採用した。

0. 先に結論

MoltMemにとって本当に重要な4点

保存前ゲート（admission control）を明示的に持つこと
2026年の流れでは「何を保存するか」が独立した設計論点になっている。
Factだけで完結しないことを認めること
fact/summarized memory は安いが、将来の問い合わせに必要な証拠を落とす危険がある。raw evidence への戻り道が要る。
retrieval を write と切り分けて評価すること
最近の論文では、書き方の工夫より retrieval の差の方が支配的という結果が出ている。
評価を多セッション・時系列・更新込みで回すこと
単純な recall ベンチだけだと、実運用の「覚えた結果として後続行動が改善するか」を見落とす。

要するに、MoltMemの今の強みはかなり良い線を行ってる。でも、次の勝負所は extraction の賢さそのものではなく、admission / evidence tier / retrieval eval だと思う。

1. MoltMem が今目指しているもの（比較の基準）

1.1 README 上の目的

"MoltMemは以下の課題を解決します:"
"1. 会話の記憶喪失: コンパクション時に会話内容が失われる問題"
"2. 圧縮の質が低い: 重要な情報が適切に保持されない問題"
"3. 会話履歴の追跡困難: どのターンで何が起きたか追跡できない問題"

この3点から見ると、MoltMemのコアは単なる「長期記憶」ではなく、memory + auditability の組み合わせにある。

1.2 自己学習パイプラインの現在地

"Goal: 自己学習パイプラインの未実装・不完全な部分（fact_extractor occurrence連携、procedural fact作成、NLI統合、source_typeフィルタ緩和、Admin UI設定）を全て修復し、全learning typeが昇格対象になるようにする。"

つまり MoltMem はすでに、occurrence / recurrence、source_type、NLI gate、Admin UI での監査と調整を持つ方向に進んでいる。これは最近の論文動向とかなり一致している。

1.3 Fact Ledger の設計思想

"Facts replace the legacy Memory/EpisodicMemory system with a unified, typed, auditable fact store."

自己学習・出典系フィールド: source_type / fingerprint / recurrence_count / first_seen_at / source_session_id / source_timestamp / source_turn_ids

これはかなり大きい。最近の論文で重要になっている admission 根拠、recurrence、provenance、traceability の土台が、少なくともデータモデル上は既にある。

1.4 現在の注入方式

"Tier 1: safety/pinned facts (全文掲載・件数制限なし)"
"Tier 2: 行動関連 facts (全文掲載・最大10件)"

これはシンプルで堅いが、逆に言うと query-adaptive retrieval ではない。ここが今後のギャップ候補。

2. 採用した論文（存在確認済み）

以下はすべて arXiv API でタイトル・日付・要旨を直接確認したもの。

#	論文タイトル	arXiv
1	Memory for Autonomous LLM Agents	2603.07670
2	Adaptive Memory Admission Control (A-MAC)	2603.04549
3	Memex(RL)	2603.04257
4	Diagnosing Retrieval vs. Utilization	2603.02473
5	Fact-Based Memory vs. Long-Context LLMs	2603.04814
6	TierMem (Provenance-Aware)	2602.17913
7	MemoryArena	2602.16313
8	Mnemis (Dual-Route Retrieval)	2602.15313
9	Neuromem	2602.13967
10	SimpleMem	2601.02553
11	Memory in the Age of AI Agents	2512.13564
12	Memoria	2512.12686

3. 論文群から見える主要トレンド

AIメモリアーキテクチャ概念図 — AIメモリシステムのアーキテクチャ — Write / Retrieval / Evaluation の三面が主要論点に

3.1 Write Policy が主役化している

A-MAC はこう言っている。

"memory admission remains a poorly specified and weakly controlled component"

"A-MAC decomposes memory value into five complementary and interpretable factors: future utility, factual confidence, semantic novelty, temporal recency, and content type prior."

つまり「保存するかどうか」は、もう extraction のおまけじゃない。独立に設計し、しかも説明可能であるべきという流れ。

3.2 Summary-only は危ない、raw evidence への戻り道が要る

TierMem はこう言っている。

"This creates a fundamental write-before-query barrier"

"summaries can cause unverifiable omissions"

この指摘はかなり本質的。未来の問い合わせを知らない時点で summary を作る以上、後で必要な条件を落とす危険がある。

3.3 Retrieval が write より支配的な場合がある

Retrieval概念 — 検索・Retrieval — 賢く要約しても retrieval が弱いと負ける

Diagnosing Retrieval vs. Utilization の要点はかなり痛い。

"On LoCoMo, retrieval method is the dominant factor"

"Raw chunked storage, which requires zero LLM calls, matches or outperforms expensive lossy alternatives"

雑に言うと、頑張って賢く要約しても retrieval が弱いと負ける。

3.4 評価は recall 単体から multi-session action へ

評価・ベンチマーク — 従来の recall ベンチから multi-session action 評価へ

MemoryArena はこう切っている。

"Existing evaluations of agents with memory typically assess memorization and action in isolation."

つまり「覚えてるか？」だけだと足りない。覚えた結果として後続行動が改善したかまで見る必要がある。

3.5 ストリーミング memory lifecycle を分解して評価する流れ

Neuromem:

"In practice, memory is streaming"

"accuracy and cost are governed by the full memory lifecycle, which encompasses the ingestion, maintenance, retrieval, and integration of information into generation"

これは MoltMem にかなり刺さる。なぜなら MoltMem は単なる検索DBではなく、作成→昇格→統合→注入→監査のパイプラインだから。

4. 論文ごとの評価（良い点 / 悪い点 / MoltMem 比較）

4.1 Adaptive Memory Admission Control (A-MAC) 2026-03-04

arxiv.org/abs/2603.04549

"agents either accumulate large volumes of conversational content, including hallucinated or obsolete facts, or depend on opaque, fully LLM-driven memory policies that are costly and difficult to audit."

"A-MAC decomposes memory value into five complementary and interpretable factors: future utility, factual confidence, semantic novelty, temporal recency, and content type prior."

Good 良い点

admission を明示的な設計対象にしている
interpretable factors なので監査しやすい
LLM 全振りではなく軽量特徴も使うため、コストバランスがいい
hallucinated / obsolete fact の流入防止を正面から扱っている

Bad 悪い点

benchmark は LoCoMo 中心で、現実の複雑な運用条件まで一般化できるかは不明
admission は扱うが、retrieval 側の最適化までは別問題
factor 設計がドメイン依存になりやすく、チューニング地獄になりうる

MoltMem 比較

かなり相性がいい。 MoltMem には source_type, fingerprint, recurrence_count, first_seen_at があり、A-MAC 的な admission score を載せやすい。逆に今の MoltMem は 昇格ゲート/NLI はあるが admission score の体系化はまだ弱い。短期導入候補として最優先。

Adopt 採用するとしたら

future_utility: type / pinned候補 / action relevance
factual_confidence: NLI結果・source_type・人手承認有無
semantic_novelty: fingerprint近傍・類似Factとの重複度
temporal_recency: first_seen/update時刻
content_type_prior: decision / preference / learning / procedural ごとの prior

4.2 Diagnosing Retrieval vs. Utilization Bottlenecks 2026-03-02

arxiv.org/abs/2603.02473

"On LoCoMo, retrieval method is the dominant factor: average accuracy spans 20 points across retrieval methods (57.1% to 77.2%) but only 3-8 points across write strategies."

"Raw chunked storage, which requires zero LLM calls, matches or outperforms expensive lossy alternatives"

Good 良い点

write / retrieval / utilization を分離して見ている
「抽出さえ賢ければ勝てる」を崩してくれる
BM25 / cosine / hybrid reranking の比較は実装判断に直結

Bad 悪い点

新アーキテクチャではなく診断的
LoCoMo依存の結果が多い
raw chunk優位は retrieval 実装の未熟さに依存する可能性

MoltMem 比較

MoltMem は fact 化・NLI・reconciliation に力が入っているが、今後の勝負所は retrieval baseline の強化。fact_context_builder は Tier1/Tier2 の静的注入なので query intent 別 retrieval が弱い可能性がある。まず BM25 / vector / hybrid rerank の比較実験を持つべき。

4.3 TierMem — Provenance-Aware Tiered Memory 2026-02-20

arxiv.org/abs/2602.17913

"This creates a fundamental write-before-query barrier"

"summaries can cause unverifiable omissions"

"TierMem uses a two-tier memory hierarchy to answer with the cheapest sufficient evidence"

Good 良い点

要約と raw evidence を敵対させず階層化している
provenance を正面から扱い、traceability の思想が強い
sufficiency router により必要な時だけ raw にエスカレート

Bad 悪い点

router 設計が難しく、誤判定すると summary で答えて事故る
raw store を持つので実装と運用が重くなる
人間が読める監査UIも同時に必要

MoltMem 比較

MoltMem の核と非常に近い。 既に source_session_id, source_timestamp, source_turn_ids があり provenance-aware に進化しやすい。ただし runtime retrieval が evidence escalation まで体系化されているわけではない。「データモデル上は準備できているが、実行系が未完成」。

4.4 Memex(RL) 2026-03-04

arxiv.org/abs/2603.04257

"Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy"

"Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices."

Good

summary-only の脆さを避けつつ full context の爆発も避ける
index と dereference の考え方が明快
「必要時だけ原記録へ戻る」構造が強い

Bad

RL を前提にしていて実装コストが高い
個人メモリ/Fact Ledger にそのまま落とすには重い
手元では heuristic router で十分な可能性

MoltMem

MoltMem が今すぐ真似すべき本質は RL ではなく indexed evidence dereference。RL controller まで飛ぶのは早い。

4.5 Fact-Based Memory vs. Long-Context LLMs 2026-03-05

arxiv.org/abs/2603.04814

"Long-context GPT-5-mini achieves higher factual recall on LongMemEval and LoCoMo, while the memory system is competitive on PersonaMemv2, where persona consistency depends on stable, factual attributes suited to flat-typed extraction."

"At a context length of 100k tokens, the memory system becomes cheaper after approximately ten interaction turns"

Good

production 寄りでコスト比較が実務的
fact-based memory の得意/苦手領域を分けて見ている
雑な二項対立を避けている

MoltMem

MoltMem が目指すべき結論: 安定属性は fact ledger、複雑な経緯は evidence tier、全部を一発注入しない。 どのクエリを fact-first で処理すべきかを定義すべき。

4.6 Mnemis — Dual-Route Retrieval 2026-02-17

arxiv.org/abs/2602.15313

"existing methods (RAG and Graph-RAG) primarily retrieve memory through similarity-based mechanisms"

"Mnemis integrates System-1 similarity search with a complementary System-2 mechanism, termed Global Selection."

MoltMem

MoltMem は今の段階では まず graph ではなく retrieval baseline の整備が先。ただし preference / identity / relationship 系が増えるなら、限定的な entity graph 導入価値は高い。全面 graph 化はまだ早いが、関係表現のための局所 graph は検討価値あり。

4.7 MemoryArena 2026-02-18

arxiv.org/abs/2602.16313

"Existing evaluations of agents with memory typically assess memorization and action in isolation."

"agents with near-saturated performance on existing long-context memory benchmarks like LoCoMo perform poorly in our agentic setting"

MoltMem

MoltMem にはかなり必要。今の成功判定が fact 作成数や検索精度中心に寄ると、実際に後の会話品質が上がったかが見えない。今後は「記憶成功率」ではなく「後続タスク成功率」を見るべき。

4.8 Neuromem 2026-02-15

arxiv.org/abs/2602.13967

"memory is streaming"

"the full memory lifecycle, which encompasses the ingestion, maintenance, retrieval, and integration of information into generation"

MoltMem

MoltMem はまさに ingestion / maintenance / retrieval / injection / audit を持つので、Neuromem の分解軸と相性がいい。今の MoltMem に必要なのは新機能追加だけでなく、どの段で性能/コスト/事故が出ているかの分解計測。

4.9 SimpleMem 2026-01-29

arxiv.org/abs/2601.02553

"semantic lossless compression"

"Semantic Structured Compression" / "Online Semantic Synthesis" / "Intent-Aware Retrieval Planning"

MoltMem

MoltMem の「圧縮の質が低い」を改善する発想としては参考になる。ただし auditability を重視するので、圧縮 + provenance 保持のハイブリッドが必要。

4.10 Surveys / Framework papers

Memory in the Age of AI Agents (2512.13564) — 用語整理、forms/functions/dynamics の三面整理。docs の概念整理に有用。
Memory for Autonomous LLM Agents (2603.07670) — write-manage-read loop で俯瞰できる最新サーベイ。ingestion / consolidation / retrieval / evaluation の整理軸。
Memoria (2512.12686) — summarization + KG user model のハイブリッド。preference / identity 系だけ構造化を厚くする発想。

5. MoltMem と比較した総合評価

5.1 すでに強く合っている点

A. Auditable Fact Store

"unified, typed, auditable fact store" を掲げていて、最近の memory 論文の中でもかなり正しい方向。

B. Provenance の土台

source_session_id, source_timestamp, source_turn_ids は強い。TierMem 的発展の土台が既にある。

C. Recurrence / Source_type

A-MAC 的 admission signal の候補が既にデータモデルに入っている。

D. Admin UI / Review

論文が軽視しがちな HITL・監査導線を持っているのは、かなり良い差別化点。

5.2 まだ弱い点・ギャップ

1. Admission control が体系化されていない

gate は持っているが、保存価値を多因子で明示スコア化する思想がまだ弱い。

2. Retrieval の研究が相対的に薄い

賢い write より retrieval の方が効くことがある。MoltMem はこの論点をもっと主戦場にしていい。

3. Evidence escalation が実行系として未完成

provenance フィールドはあるが、fact で足りないときに raw turn へエスカレートする runtime policy がまだ見えない。

4. Query-adaptive context building が弱い

現行 fact_context_builder は Tier1/Tier2 の静的注入。検索意図別の最適化には弱い。

5. 評価軸が立体化されていない

recall / overwrite / contradiction handling / downstream task success / token・latency に分解して測れているかは今後の課題。

6. MoltMem で次にやるべきこと（優先度順）

P0 すぐやるべき

P0-1. Admission Score Layer を追加

A-MAC を参考に、Fact 作成/昇格前に以下を数値化。

utility
confidence
novelty
recency
content-type prior

出力例:

{
  "admit": true,
  "score": 0.81,
  "factors": {
    "utility": 0.9,
    "confidence": 0.7,
    "novelty": 0.8,
    "recency": 0.6,
    "type_prior": 0.95
  },
  "reason": "high-utility procedural learning with recurrence"
}

P0-2. Retrieval bake-off を作る

同一セットに対して以下を比較。

vector only
BM25 only
hybrid rerank
fact only
fact + source_turn evidence

見たい指標: hit@k、exact answer accuracy、contradiction rate、latency、token cost

P0-3. Evidence escalation を実装

fact だけで回答しない。必要なら source_turn_ids から原文へ戻る。

fact hit
sufficiency check
insufficiency なら source turns retrieve
answer with citation
verified result を fact/synopsis に還元

P1 次段階

P1-1. Query-adaptive context builder

今の Tier1/Tier2 は残しつつ、追加で intent 別ルートを持つ。

persona/preference query → fact-first
why/how/when query → source-turn/evidence-first
action/task query → procedural/decision 優先

P1-2. Evaluation harness を整備

MemoryArena / Neuromem を参考に測定: multi-session consistency、stale fact correction success、provenance trace success、retrieval vs utilization failure split、insertion / retrieval latency

P1-3. Provenance-aware UI

Admin UI に「この fact はどの source turn に由来するか」を一発で見せる。論文比較上もかなり強い武器になる。

P2 後回しでいい

P2-1. Full graph memory

Mnemis は面白いが、全面 graph 化はまだ早い。まずは retrieval baseline と provenance tier を固める方が価値が高い。

P2-2. RL-based memory controller

MemexRL 的な controller はロマンあるけど、今の MoltMem に必要なのはまず explicit policy、measurement、auditability であって、学習 controller じゃない。

7. 一言でまとめると

MoltMem は方向性そのものはかなり合ってる。特に typed fact ledger、recurrence / provenance、NLI gate、audit/admin UI は、最近の論文の関心と噛み合ってる。

でも、2026年の論文群を踏まえると、次に強化すべき中核は 「もっと賢く抽出すること」ではなく

何を保存するか（admission control）
どう取り出すか（retrieval policy）
factで足りないときに証拠へ戻ること（evidence tier）
実際に後続行動が改善したかで測ること（evaluation）

ここ外さなければ、MoltMem は「よくある memory DB」じゃなく、監査可能で運用可能な memory system にちゃんと育つ。

8. 参考文献

Memory for Autonomous LLM Agents: Mechanisms, Evaluation, and Emerging Frontiers — arxiv.org/abs/2603.07670
Adaptive Memory Admission Control for LLM Agents — arxiv.org/abs/2603.04549
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory — arxiv.org/abs/2603.04257
Diagnosing Retrieval vs. Utilization Bottlenecks in LLM Agent Memory — arxiv.org/abs/2603.02473
Beyond the Context Window: Fact-Based Memory vs. Long-Context LLMs — arxiv.org/abs/2603.04814
From Lossy to Verified: A Provenance-Aware Tiered Memory for Agents — arxiv.org/abs/2602.17913
MemoryArena: Benchmarking Agent Memory in Multi-Session Agentic Tasks — arxiv.org/abs/2602.16313
Mnemis: Dual-Route Retrieval on Hierarchical Graphs — arxiv.org/abs/2602.15313
Neuromem: Granular Decomposition of the Streaming Lifecycle — arxiv.org/abs/2602.13967
SimpleMem: Efficient Lifelong Memory for LLM Agents — arxiv.org/abs/2601.02553
Memory in the Age of AI Agents — arxiv.org/abs/2512.13564
Memoria: A Scalable Agentic Memory Framework — arxiv.org/abs/2512.12686

このレポートの「論文根拠」欄は、各論文の arXiv 要旨からの直接引用または要旨に基づく要約。「良い点 / 悪い点 / MoltMem比較」は、その要旨と MoltMem の現行 docs / code を照合して書いた分析であり、各論文のフル実装再現レビューではない。

AIメモリー系 最新論文レビューと MoltMem 比較レポート

0. 先に結論

MoltMemにとって本当に重要な4点

1. MoltMem が今目指しているもの（比較の基準）

1.1 README 上の目的

1.2 自己学習パイプラインの現在地

1.3 Fact Ledger の設計思想

1.4 現在の注入方式

2. 採用した論文（存在確認済み）

3. 論文群から見える主要トレンド

3.1 Write Policy が主役化している

3.2 Summary-only は危ない、raw evidence への戻り道が要る

3.3 Retrieval が write より支配的な場合がある

3.4 評価は recall 単体から multi-session action へ

3.5 ストリーミング memory lifecycle を分解して評価する流れ

4. 論文ごとの評価（良い点 / 悪い点 / MoltMem 比較）

5. MoltMem と比較した総合評価

5.1 すでに強く合っている点

A. Auditable Fact Store

B. Provenance の土台

C. Recurrence / Source_type

D. Admin UI / Review

5.2 まだ弱い点・ギャップ

1. Admission control が体系化されていない

2. Retrieval の研究が相対的に薄い

3. Evidence escalation が実行系として未完成

4. Query-adaptive context building が弱い

5. 評価軸が立体化されていない

6. MoltMem で次にやるべきこと（優先度順）

P0 すぐやるべき

P0-1. Admission Score Layer を追加

P0-2. Retrieval bake-off を作る

P0-3. Evidence escalation を実装

P1 次段階

P1-1. Query-adaptive context builder

P1-2. Evaluation harness を整備

P1-3. Provenance-aware UI

P2 後回しでいい

P2-1. Full graph memory

P2-2. RL-based memory controller

7. 一言でまとめると

8. 参考文献

AIメモリー系最新論文レビューと MoltMem 比較レポート