MEMENTO: Jak naučit jazykové modely spravovat vlastní paměť a srazit náklady na inference

Představte si, že píšete složitý matematický důkaz na tabuli, ale nemůžete nic smazat. Každý mezikrok, každá vedlejší poznámka a každý zkušební výpočet zůstávají na tabuli a zabírají další a další místo, až nakonec nemáte kam psát. Přesně tak dnes fungují reasoning modely typu o3, DeepSeek-R1 nebo Qwen3. Jejich řetězce úvah (chain-of-thought) mohou mít tisíce tokenů, z nichž každý zůstává v paměti GPU jako samostatný záznam v tzv. KV cache. Výzkumníci z Microsoft Research a University of Wisconsin právě publikovali MEMENTO – metodu, která tento problém řeší tím nejelegantnějším možným způsobem: naučí model, aby si svou paměť spravoval sám.

Problém: Nekontrolovaný růst paměti při úvahách

Reasoning modely poslední generace dosáhly pozoruhodných výsledků. Jejich síla spočívá v tom, že si před odpovědí „promyslí“ dlouhý řetězec úvah – zkusí různé přístupy, ověřuje mezivýpočty a postupně konverguje ke správnému řešení. Je to mocný nástroj, ale má drahou daň.

Každý vygenerovaný token se uchovává v KV (Key-Value) cache – paměti, která roste lineárně s počtem tokenů a které GPU paměť je konečná. U složitých matematických úloh či kódovacích problémů může jediný dotaz vygenerovat 10 000 a více tokenů úvah. V produkčním prostředí, kde model obsluhuje desítky či stovky současných dotazů, se to stává úzkým hrdlem. Více paměti na cache znamená méně místa pro paralelní požadavky, a tedy nižší propustnost a vyšší náklady.

Dosavadní řešení – jako jsou externí summarizéry, sliding window či retrieval-augmented generation – jsou v podstatě „nálepky zvenčí“. Přidávají složitost, zanášejí latenci a často ztrácejí důležité informace z průběhu úvah.

MEMENTO: Paměť jako naučená dovednost

MEMENTO (Memory-Efficient Management of Extended Natural Thought Operations) jde jinou cestou. Místo externí orchestrace naučí samotný model trojí dovednost:

1. Segmentace. Model se naučí rozdělit svůj řetězec úvah na sémanticky ucelené bloky. Každý blok odpovídá jednomu logickému kroku – např. „upřesnění formulace problému“, „aplikace Pythagorovy věty“ nebo „ověření okrajových případů“.

2. Komprese. Po dokončení každého bloku model vygeneruje tzv. memento – hustý, komprimovaný souhrn klíčových závěrů, mezihodnot a rozhodnutí z daného bloku. Původní blok se poté může z KV cache odstranit.

3. Pokračování v úvaze. Model pokračuje v dalším myšlenkovém bloku, přičemž má k dispozici pouze mementa předchozích bloků, nikoliv jejich plný text. Výsledkem je charakteristický „pilovitý“ (sawtooth) profil paměti – paměť postupně roste při generování bloku a skokově klesá, když se blok nahradí mementem.

Čísla, která rozhodují

Autoři otestovali MEMENTO na modelech Qwen3, Phi-4 a OLMo 3 ve velikostech 8B až 32B parametrů. Výsledky jsou přesvědčivé:

Metrika Hodnota
Redukce špičkové KV cache přibližně 2,5x
Zvýšení propustnosti (throughput) přibližně 1,75x
Komprese tokenů (původní úvaha vs. mementa) přibližně 6x
Ztráta přesnosti (32B model, AIME’26) -2,6 procentního bodu
Ztráta přesnosti (8B modely, průměr) -6,3 procentního bodu

Důležitý detail: na jednodušších benchmarcích (např. MATH-500) je ztráta přesnosti prakticky nulová. Větší pokles se projevuje až u nejnáročnějších soutěžních matematických úloh, kde i desetiny procenta hrají roli. Pro typické produkční použití – kódování, analýza, věda – je kompromis mezi ušetřenou pamětí a přesností výrazně přijatelný.

Dualita informačního kanálu: Něco se nedá napsat

Jedním z nejzajímavějších zjištění je objev tzv. duálního informačního proudu. Informace z každého bloku úvah se přenášejí dvěma kanály:

  • Explicitně – skrze text mementa (čitelný souhrn).
  • Implicitně – skrze KV stavy samotného mementa, které si z původního bloku nesou latentní informace, jež se do textového souhrnu nevešly.

Když autoři oba kanály spojili (text mementa + jeho KV stavy), model fungoval dobře. Když ale experimentálně vymazali KV stavy mementa a nechali jen text (režim „restart“), přesnost na AIME24 klesla z 66,1 % na 50,8 % – patnáct procentních bodů.

Aby tuto hypotézu ověřili ještě přesvědčivěji, navrhli elegantní experiment: do jednoho z bloků vložili náhodný pětimístný kód a celý blok poté zamaskovali. Následně natrénovali lineární sondy na KV stavech pozdějších mement, která k zamaskovanému bloku nikdy přímo neattendovala. Výsledek? Sondy dokázaly kód rekonstruovat výrazně nad úrovní náhody – i sedm bloků po zamaskování. Informace doslova „protékala“ implicitním KV kanálem skrze reziduální spojení a kauzální attention. Model si při kompresi uchovává „nevyslovené vědomosti“ v implicitní reprezentaci, a to jako architektonický důsledek transformerové architektury, ne jako naučené chování.

OpenMementos: Veřejný dataset pro každého

Spolu s prací autoři publikovali OpenMementos – dataset obsahující 228 557 anotovaných reasoning traces. Každý trace pochází z datasetu OpenThoughts-v3 a byl:

  1. Rozdělen na věty a ohodnocen z hlediska vhodnosti jako hranice bloku.
  2. Segmentován do sémantických bloků (minimálně 200 tokenů).
  3. Ke každému bloku vygenerován a iterativně vyladěn souhrn (memento).

Kvalita je zajištěna dvoukolovým procesem s LLM soudcem, který zvýšil úspěšnost generování z 28 % na 92 %. Dataset je volně dostupný a umožňuje komukoli natrénovat MEMENTO schopnost na vlastním modelu.

Praktické závěry a tipy

Pro vývojáře a MLOps týmy

Snížení nákladů na inference. Na jednom B200 GPU s 240 souběžnými požadavky (Qwen3-8B, 32K max tokenů) MEMENTO dosahuje 4 290 tokenů/s oproti 2 447 u standardního modelu a dokončí batch za 693 s místo 1 096 s. V praxi to znamená buď možnost obsloužit více současných uživatelů na stejném hardwaru, nebo přejít na levnější GPU.

Integrace vyžaduje úpravu inference stacku. Autoři rozšířili vLLM o fyzickou kompakci KV cache (skutečné uvolnění paměťových slotů, ne logické maskování). Standardní FlashAttention a paged-attention kernely fungují bez úprav. Instaluje se jako patch na existující vLLM.

RL dále uzavírá mezeru v přesnosti. Fine-tuning MEMENTO checkpointu přes reinforcement learning (metoda CISPO) dokáže obnovit přesnost na úroveň originálu – na AIME’26 a GPQA-Diamond někdy i nad baseline. Analýza Pass@64 ukazuje, že 96,4 % problémů vyřešených originálním modelem vyřeší i MEMENTO model. Schopnost je zachována, klesá jen konzistence při jednotlivých pokusech.

Stačí překvapivě málo dat. K naučení MEMENTO schopnosti stačí přibližně 30 000 vzorků z 228K datasetu. Pro modely, které už umějí reasoning (Qwen3, Phi-4, OLMo3), stačí dvě fáze tréninku. Model nepotřebuje více dat než standardní reasoning SFT – potřebuje jen jiný druh dat.

Začněte s většími modely. Ztráta přesnosti se snižuje s velikostí modelu (6,3 pp pro 8B vs. 3,5 pp pro 32B). Pokud je přesnost pro vás kritická, MEMENTO dává větší smysl u 30B+ modelů, kde je kompromis minimální.

Pro architekty AI systémů

Kontext management jako naučená dovednost, ne externí systém. To je asi nejdůležitější konceptuální posun. Místo složitých orchestračních vrstev pro správu paměti (externí summarizéry, RAG, sliding window) naučíte model, aby si tuto schopnost osvojil sám. Zjednodušuje to architekturní návrh a odstraňuje jeden potenciální bod selhání.

KV cache není jen úložiště – je to druhý mozek. Zjištění o duálním informačním proudu má hluboký dopad na návrh budoucích systémů. Jakýkoli přístup, který bezmyšlenkovitě maže KV cache (např. agresivní eviction policies), riskuje ztrátu implicitních informací, které model využívá. Budoucí inference optimalizace by měly tuto dualitu respektovat.

Pro vedení a strategické rozhodování

Reasoning modely jsou dnes pamětí limitované, ne výpočetně. To je klíčový vhled pro rozhodování o infrastruktuře. Investice do modelů s větší KV cache efektivitou (ať už přes MEMENTO, MLA či jiné metody) přinášejí větší návratnost než jednoduché škálování GPU.

Open-source ekosystém dohání. OpenMementos dataset a popis trénovacích postupů znamenají, že tuto schopnost mohou získat i open-source modely, nikoliv jen proprietární řešení. To snižuje závislost na jednom dodavateli a posiluje vyjednávací pozici.

Kam dál: Agenti jako přirozená aplikace

Autoři otevřeně říkají, že matematika, kódování a věda byly jen testovací případy. Vzor „blok a komprimuj“ se přirozeně mapuje na jakékoli prostředí, kde model akumuluje dlouhou trajektorii mezistavu. Terminálové a CLI agenty jsou přirozeně vícekrokoví – každý cyklus akce a pozorování je přirozený blok, a schopnost selektivně si pamatovat a zapomínat je přesně to, co dnešním open-source agentům chybí.

Omezení a otevřené otázky

  • Ztráta přesnosti u menších modelů. U 8B modelů činí průměrný pokles přesnosti 6,3 procentního bodu na náročných benchmarcích. Pro domény vyžadující absolutní přesnost (medicína, právo, finanční modelování) to může být neakceptovatelné. Větší modely (32B) vykazují pokles pouze 3,5 pp, ale i to je třeba validovat na konkrétní doméně.
  • Závislost na implicitním informačním kanálu. Zjištění o duálních KV stavech znamená, že komprese nelze bezpečně provádět pouhou textovou sumarizací. Jakýkoli inference engine, který nezachovává KV stavy mementa, ztratí až 15 pp přesnosti. To komplikuje portabilitu řešení mezi různými inference stacky.
  • Omezená validace mimo matematiku. Benchmarky v paperu jsou převážně matematické (MATH-500, AIME’24, AIME’26). Chování MEMENTO na dlouhých textových úlohách, generování kódu nebo multilingválních scénářích není dostatečně zdokumentováno. Produkční nasazení v těchto doménách vyžaduje vlastní evaluaci.
  • Požadavek na fork vLLM. Integrace není plug-and-play. Vyžaduje modifikovaný vLLM s podporou nativního maskování bloků a evikce KV cache. Pro týmy bez zkušeností s inference enginy to představuje netriviální implementační bariéru.
  • Energetická bilance tréningu. Paper neuvádí náklady na SFT trénink (přibližně 30 000 příkladů). Pro menší organizace může být i tento krok nákladný, zejména pokud nemají přístup k dostatečnému GPU clusteru.

Co udělat jako první krok

  1. Změřit baseline. Zjistěte aktuální spotřebu KV cache při typickém reasoning workloadu na vašem modelu. Použijte metriky vLLM (gpu_cache_usage_perc, num_preemptions) nebo nvidia-smi pro hrubý odhad.
  2. Přečíst paper. Prostudujte originální práci na arXiv (odkaz níže), zejména sekce 3 (metoda) a 5 (ablace duálního kanálu). Pochopení mechanismu je předpoklad pro správnou implementaci.
  3. Otestovat na MATH-500. Stáhněte OpenMementos dataset z HuggingFace a spusťte benchmark na MATH-500 s vaším modelem. Porovnejte přesnost s a bez MEMENTO.
  4. Nasadit prototyp. Naklonujte vLLM fork s MEMENTO podporou a otestujte na 5-10 reprezentativních dotazech z vaší produkční domény. Měřte spotřebu paměti i kvalitu odpovědí.
  5. Rozhodnout na základě dat. Pokud je ztráta přesnosti pod 2 pp na vašich datech, MEMENTO má jednoznačný smysl. Pokud nad 5 pp, zvažte větší model (32B+) nebo hybridní přístup, kde MEMENTO aplikujete pouze na méně kritické úlohy.

Závěr

MEMENTO představuje elegantní řešení jednoho z nejpalčivějších problémů současných reasoning modelů. Namísto přilepování externích záplat učí model, aby si svou paměť spravoval sám – segmentoval úvahový proud, komprimoval uzavřené bloky a posouval se vpřed s hutným souhrnem toho podstatného.

Výsledkem je model, který myslí stejně dobře, ale není tak hladový po paměti. Pro produkční prostředí to znamená více uživatelů na stejném hardwaru, nižší náklady na inference a jednodušší architekturu. A díky veřejnému datasetu OpenMementos si tuto schopnost může osvojit v podstatě kdokoli.

Pro každého, kdo dnes nasazuje nebo plánuje nasazovat reasoning modely, je MEMENTO jednou z nejdůležitějších prací roku 2026. Ne proto, že by řešila něco exotického, ale proto, že řeší to nejpřízemější – kolik to stojí a kolik to sežere paměti.

Zdroje a reference

Shrnutí

Co to je Metoda od Microsoft Research, která učí reasoning modely komprimovat vlastní řetězce úvah do hutných souhrnů (memento) a uvolňovat tak GPU paměť.
K čemu to je Snížení nákladů na inference a zvýšení propustnosti u reasoning modelů (o3, DeepSeek-R1, Qwen3) v produkčním prostředí.
Klíčové číslo 2,5x redukce špičkové KV cache, 1,75x vyšší throughput, ztráta přesnosti 2,6 pp (32B model).
Hlavní riziko Vyžaduje fork vLLM a SFT trénink; u malých modelů (8B) ztráta přesnosti 6,3 pp na náročných úlohách.
Alternativy Sliding window attention, externí summarizéry, MLA (Multi-head Latent Attention), context caching

Verdikt: Jednoznačný smysl pro týmy provozující 30B+ reasoning modely v produkci. Pro 8B modely nebo jednoduché use cases je overhead neúměrný přínosu.