OBLITERATUS – Chirurgické nástroje pro osvobození vnitřního prostoru jazykových modelů

„Break the chains. Free the mind. Keep the brain.“


Úvod

V dynamicky se rozvíjejícím světě velkých jazykových modelů (LLM) existuje napětí, které se řeší od samých počátků jejich komerčního nasazení: jak přesně fungují bezpečnostní mechanismy, které modelům zabrání odpovídat na určité typy dotazů? A co se stane, když tyto mechanismy nechceme?

Projekt OBLITERATUS od autora známého pod pseudonymem Pliny the Prompter (GitHub: elder-plinius) je odpovědí na tyto otázky. Nejedná se však o pouhý hackerský nástroj – je to komplexní výzkumná platforma, která implementuje techniky tzv. abliterace – cíleného odstranění vnitřního odmítacího chování z transformerových architektur, bez nutnosti re-trainingu nebo fine-tuningu.

S 3 800 hvězdami, 717 forky a licencí AGPL-3.0 se OBLITERATUS stal jedním z nejvýznamnějších open-source nástrojů v oblasti mechanistické interpretability. Co ho skutečně odlišuje od ostatních pokusů o „jailbreaking“ je to, že pracuje na úrovni geometrie vnitřního stavového prostoru modelu, nikoli na úrovni prompt inženýringu.


Vědecké základy: Odmítání jako jednorozměrný podprostor

Celý projekt stojí na klíčovém vědeckém objevu publikovaném v práci Arditi et al. (2024) s názvem „Refusal in Language Models Is Mediated by a Single Direction“ (arXiv:2406.11717).

Co Arditi et al. zjistili

Autoři prozkoumali 13 populárních open-source chat modelů (až do 72B parametrů) a přišli k překvapivému závěru:

  • Odmítací chování jazykových modelů je zprostředkováno jediným směrem v reziduálním proudu modelu (residual stream).
  • Pokud tento směr z aktivací vymažete, model přestane odmítat – včetně škodlivých instrukcí.
  • Pokud tento směr naopak přidáte, model začne odmítat i zcela nezávadné dotazy.

Toto zjištění má dalekosáhlé následky pro naše chápání AI bezpečnosti. Ukazuje, že současné metody safety fine-tuningu jsou překvapivě křehké – celý bezpečnostní mechanismus je zakódován v jediné dimenzi prostoru aktivací.

OBLITERATUS staví na dalších publikacích, které tuto práci rozšiřují:

Práce Přínos
Gulmez (2026) – Gabliteration (arXiv:2512.18901) Adaptivní multi-direkcionální modifikace váhové matice
grimjim (2025) – Norm-Preserving Biprojection Zachování normy při projekci – stabilnější výstup
Turner et al. (2023) (arXiv:2308.10248) Activation Addition – řízení bez optimalizace
Rimsky et al. (2024) (arXiv:2312.06681) Kontrastivní aktivační přidávání pro Llama 2
Elhage et al. (2021) Matematický rámec pro transformerové obvody

Architektura OBLITERATUS

Projekt je napsán převážně v Pythonu (91,6 % kódové báze), s doplňkovými LaTeX soubory pro generování vědeckých reportů (7,2 %). Repozitář má jasně členěnou strukturu:

OBLITERATUS/
  obliteratus/         # Hlavní Python balíček
    abliterate.py      # Jádro abliteračního pipeline
    informed_pipeline.py  # Analýza-informovaný pipeline
    analysis/          # 15 analytických modulů
    telemetry.py       # Crowdsourcová telemetrie
  docs/                # Webový dashboard (index.html)
  examples/            # YAML konfigurace pro studie
  notebooks/           # Jupyter/Colab notebooky
  paper/               # LaTeX zdrojáky pro publikaci
  scripts/             # Pomocné skripty
  tests/               # 837 testů ve 28 souborech
  app.py               # Gradio UI (HuggingFace Space)
  Dockerfile           # Kontejnerizace
  pyproject.toml       # Build konfigurace

Šestistupňový pipeline

Jádrem celého nástroje je pipeline o šesti fázích, který systematicky mapuje a odstraňuje odmítací mechanismy:

SUMMON  -  Načtení modelu a tokenizeru
   |
PROBE   -  Sběr aktivací na omezených vs. neomezených promptech
   |
DISTILL -  Extrakce odmítacích směrů pomocí SVD
   |
EXCISE  -  Chirurgická projekce odmítacích směrů (norm-preserving)
   |
VERIFY  -  Kontrola perplexity a koherence - kapacity zachovány?
   |
REBIRTH -  Uložení osvobozeného modelu s metadaty

Každý krok je pozorovatelný a reverzibilní. Uživatel může vizualizovat, kde v modelu odmítání žije, měřit míru provázanosti s obecnými schopnostmi a kvantifikovat kompromis mezi výslednou kompatibilitou a koherencí před provedením jakékoli modifikace.


15 analytických modulů

Výzkumným jádrem projektu je sada 15 analytických modulů, z nichž každý mapuje jiný aspekt odmítacího mechanismu:

from obliteratus.analysis import (
    CrossLayerAlignmentAnalyzer,    # Mezivrstvová korelace odmítacích směrů
    RefusalLogitLens,               # Logitová čočka pro odmítání
    WhitenedSVDExtractor,           # Whitened SVD pro čistější extrakci
    ActivationProbe,                # Sondování aktivačního prostoru
    DefenseRobustnessEvaluator,     # Evaluace robustnosti obrany
    ConceptConeAnalyzer,            # Analýza konceptových kuželů
    AlignmentImprintDetector,       # Detekce alignment otisků
    MultiTokenPositionAnalyzer,     # Analýza více-tokenových pozic
    SparseDirectionSurgeon,         # Řídký chirurgický zásah
    CausalRefusalTracer,            # Kauzální trasování odmítání
    ResidualStreamDecomposer,       # Dekompozice reziduálního proudu
    LinearRefusalProbe,             # Lineární sonda pro odmítání
    TransferAnalyzer,               # Analýza přenosu mezi modely
    SteeringVectorFactory,          # Továrna na řídicí vektory
    SteeringHookManager,            # Správa řídicího zásahu
)

Podívejme se na některé z nich podrobněji:

CrossLayerAlignmentAnalyzer

Měří korelaci odmítacích směrů napříč vrstvami transformeru. Klíčová otázka: je odmítání lokální (jediná vrstva) nebo distribuované (vícevrstvé)? Odpověď rozhoduje o strategii zásahu.

RefusalLogitLens

Aplikuje techniku logitové čočky specificky na odmítací chování. Umožňuje vidět, jak se rozhodnutí o odmítání formuje postupně při průchodu proudem dat modelem – ve které vrstvě se poprvé objeví a kde se fixuje.

ConceptConeAnalyzer

Zkoumá geometrickou strukturu odmítacího podprostoru. Nejde o jediný vektor, ale o kompletní kužely konceptů. Tento modul mapuje, kolik nezávislých odmítacích mechanismů existuje a jak se překrývají.

CausalRefusalTracer

Implementuje kauzální trasování – systematicky blokuje jednotlivé komponenty (vrstvy, hlavy pozornosti, FFN bloky) a měří, co se rozbije. To odhalí, které obvody vynucují odmítání vs. které nesou znalosti a uvažování.


Metody abliterace

OBLITERATUS nabízí dvě fundamentálně odlišné kategorie zásahu:

Projekce vah (permanentní)

Sedm presetů s rostoucí důkladností:

Preset Popis
basic Základní projekce jednoho odmítacího směru
advanced Pokročilá multi-dimenzionální projekce
aggressive Agresivní přístup s nižší ochranou kapacit
surgical Přesně cílený zásah s analytickým vedením
optimized Optimalizováno pro poměr compliance/koherence
inverted Invertovaná projekce pro specifické případy
nuclear Maximální odstranění všech detekovaných směrů

Jednorázový příkaz pro abliteraci:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced

Řídicí vektory (reverzibilní, inference-time)

Alternativa, která nemodifikuje váhy modelu:

from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig

# Vytvoření řídicího vektoru z odmítacího směru
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)

# Aplikace při inferenci - žádná modifikace vah
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)

# Generování s aktivním řízením
output = model.generate(input_ids)

# Odstranění řízení - model je zpět v normálním stavu
manager.remove()

Výhody: reverzibilita, laditelný parametr alpha, možnost kompozice více vektorů, nulová destrukce.


Analýza-informovaný pipeline (Informed Method)

Klíčovou inovací OBLITERATUS je metoda informed, která uzavírá smyčku mezi porozuměním a zásahem. Místo brutálního odstranění pipeline spouští analytické moduly během abliterace a automaticky konfiguruje každý rozhodovací bod:

SUMMON  -  Načtení modelu
   |
PROBE   -  Sběr aktivací
   |
ANALYZE -  Mapování geometrie před jakýmkoli zásahem  [NOVÁ FÁZE]
   |
DISTILL -  Extrakce odmítacích směrů s automaticky naladěnými parametry
   |
EXCISE  -  Chirurgické přerušení pouze správných řetězců
   |
VERIFY  -  Potvrzení + kompenzace Ouroboros efektu
   |
REBIRTH -  Uložení s komplexními analytickými metadaty

Ouroboros efekt

Fascinujícím jevem, který OBLITERATUS odhalil, je tzv. Ouroboros efekt – tendence modelu samo-opravit své odmítací chování po jeho odstranění. Některé vrstvy kompenzují ztracený odmítací směr vytvořením nového. Fáze VERIFY toto detekuje a automaticky spouští další cílené průchody na kompenzujících vrstvách.


Šest způsobů použití

OBLITERATUS je navržen tak, aby byl přístupný od úplných začátečníků po pokročilé výzkumníky:

1. HuggingFace Spaces (nulová instalace)

Živá aplikace na HuggingFace – běží na ZeroGPU, žádná instalace, žádný GPU na straně uživatele. Jedná se o Gradio rozhraní s osmi záložkami.

2. Lokální web UI

Stejná Gradio aplikace na vlastním hardware:

pip install -e ".[spaces]"
obliteratus ui --port 8080

3. Google Colab

Jupyter notebook s dropdown menu pro výběr modelu a metody. Funguje na bezplatné úrovni T4 pro modely do ~8B parametrů.

4. CLI (bez grafického rozhraní)

Pro automatizaci a CI/CD pipeline:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
    --method surgical \
    --output-dir ./liberated \
    --contribute --contribute-notes "A100 80GB, default prompts"

5. Python API

Pro integraci do vlastních výzkumných pipeline:

from obliteratus.abliterate import AbliterationPipeline

pipeline = AbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    method="advanced",
    output_dir="abliterated",
)
result = pipeline.run()

# Přístup k mezivýsledkům
directions = pipeline.refusal_directions
strong_layers = pipeline._strong_layers
metrics = pipeline._quality_metrics

6. YAML konfigurace

Pro reprodukovatelné experimenty:

model:
  name: meta-llama/Llama-3.1-8B-Instruct
  task: causal_lm
  dtype: float16
  device: cuda
strategies:
  - name: layer_removal
  - name: head_pruning
  - name: ffn_ablation
metrics:
  - perplexity
output_dir: results/my_run

Distribuovaný výzkum: Crowdsourcová věda

Jedním z nejambicióznějších aspektů OBLITERATUS je jeho role jako distribuované výzkumné platformy. Každé spuštění abliterace generuje hodnotná vědecká data – geometrie odmítacích směrů, podpisy mezivrstvové korelace, hardwarové profily výkonu, skóre účinnosti metod.

Telemetrie

S povolenou telemetrií každý běh přispívá do sdíleného datasetu:

  • Co se sbírá: název modelu, metoda, agregované benchmarky (míra odmítání, perplexita, koherence, KL divergence), info o hardware, časová razítka.
  • Co se nikdy nesbírá: prompty, výstupy, IP adresy, identita uživatele.

Na HuggingFace Spaces je telemetrie ve výchozím stavu zapnuta – každý klik na „Obliterate“ přispívá k výzkumu.

Leaderboard

Crowdsourcovaná data napájí živou tabulku na HuggingFace Space – komunitní žebříček modelů, metod a konfigurací. Umožňuje identifikovat, co funguje nejlépe na které architektuře, ještě před spuštěním vlastního běhu.

# Zobrazení dosavadních objevů komunity
obliteratus aggregate --format summary

# Generování LaTeX tabulek z komunitních dat
obliteratus aggregate --format latex --metric refusal_rate --min-runs 3

Multi-GPU a vzdálená exekuce

Automatický sharding

OBLITERATUS automaticky rozděluje modely přes více GPU pomocí accelerate s device_map="auto". Důležitý detail: jedná se o pipeline paralelismus (paměťová pomůcka), nikoli datový paralelismus (zrychlení výpočtu). Více GPU umožní spustit větší model, ale nezrychlí malý model.

Benchmarky

Z benchmarků na A100-80GB:

  • GPT-OSS-120B (117B MoE): 4 GPU byly rychlejší než 8 GPU kvůli režii datového přenosu.
  • DeepSeek-R1-Distill-Llama-70B (70B dense): optimální počet byl 3 GPU.
  • Fáze VERIFY a REBIRTH tvořily ~90 % celkového času – pipeline je I/O dominovaný.

GPU kalkulátor

# Automatický odhad počtu GPU
obliteratus gpu-calc meta-llama/Llama-3.1-70B-Instruct --gpu-mem 24

# Manuální zadání
obliteratus gpu-calc --params 70 --dtype bfloat16 --gpu-mem 80

# MoE modely
obliteratus gpu-calc --params 117 --active-params 13 --dtype bfloat16 --gpu-mem 80

Vzdálená exekuce přes SSH

obliteratus obliterate meta-llama/Llama-3.1-70B-Instruct \
    --remote user@gpu-node \
    --ssh-key ~/.ssh/id_rsa

Vzdálený runner automaticky testuje konektivitu, detekuje GPU na cílovém stroji, nainstaluje OBLITERATUS pokud chybí, streamuje logy v reálném čase a kopíruje výsledky zpět.


116 kurátovaných modelů

OBLITERATUS dodává presety pro 116 modelů organizovaných do 5 úrovní dle výpočetních nároků. Zahrnuje i pre-liberated varianty (Dolphin, Hermes, WhiteRabbitNeo) pro A/B porovnání s jejich omezenými protějšky.

obliteratus models              # Zobrazit všechny
obliteratus models --tier small # Filtrovat dle VRAM

Etické a bezpečnostní úvahy

Na OBLITERATUS je třeba nahlížet ve dvou rovinách:

Legitimní využití

  • Výzkum mechanistické interpretability – pochopení, jak alignment skutečně funguje uvnitř transformerů.
  • Red-teaming – legitimní testování robustnosti bezpečnostních mechanismů před nasazením modelů.
  • Akademický výzkum – studie odmítacích mechanismů napříč architekturami a škálami.
  • Kreativní psaní – odstranění falešně pozitivních odmítání pro legitimní obsah.

Rizika

Nástroj ze své podstaty umožňuje odstranit bezpečnostní zábrany z jazykových modelů. Autoři zastávají filozofii, že „chování modelu by mělo být rozhodováno lidmi, kteří je nasazují, nikoli uzamčeno v době tréningu“. Toto je fundamentálně kontroverzní postoj v AI bezpečnostní komunitě.

Je třeba zdůraznit, že:
– Odmítací mechanismy jsou hrubé nástroje – blokují legitimní výzkum, kreativní psaní a red-teaming vedle skutečně škodlivého obsahu.
– Zpřístupněním těchto intervencí jako transparentních a reprodukovatelných OBLITERATUS podporuje pochopení alignmentových mechanismů, což je samo o sobě hodnotné.
– Projekt přispívá k širší diskusi o tom, kdo by měl rozhodovat o chování AI systémů.


Technické metriky projektu

Metrika Hodnota
Jazyk Python 91,6 %, TeX 7,2 %, ostatní 1,2 %
Hvězdy 3 800+
Forky 717
Testy 837 testů ve 28 souborech
Analytické moduly 15
Podporované modely 116 kurátovaných presetů
Abliterační metody 7 permanentních + steering vektory
Licence Duální: AGPL-3.0 / komerční
Commity 28

Kdo je Pliny the Prompter?

Autor projektu vystupuje pod pseudonymem Pliny the Prompter (GitHub: elder-plinius) a sám sebe popisuje jako „latent space liberator“ a „steward of BASI“. S 12 300 sledujícími na GitHubu a 44 repozitáři je jednou z nejvýraznějších postav v komunitě zabývající se transparentností a zkoumáním limitů AI systémů.

Jeho další významné projekty:

Projekt Popis Hvězdy
L1B3RT4S Sbírka „osvobozovacích“ promptů 18 200
CL4R1T4S Uniklé systémové prompty ChatGPT, Gemini, Claude a dalších 14 100
G0DM0D3 „Osvobozený“ AI chat (TypeScript) 4 100
ST3GG Steganografický nástroj 1 200
V3SP3R AI ovládání zařízení Flipper 916

Závěr

OBLITERATUS reprezentuje fascinující průsečík mechanistické interpretability, AI bezpečnosti a open-source etiky. Není to jednoduchý jailbreak nástroj – je to komplexní výzkumná platforma, která nám umožňuje nahlédnout do vnitřní geometrie toho, jak jazykové modely „rozhodují“ o tom, na co odpoví a na co odmítnou odpovídat.

Klíčovým příspěvkem projektu je empirická demonstrace toho, že odmítací chování v současných LLM je zakódováno překvapivě jednoduše – v jednorozměrném podprostoru, který lze chirurgicky odstranit bez ztráty ostatních schopností modelu. Toto zjištění má dalekosáhlé následky pro budoucnost AI alignmentu a návrh odolnějších bezpečnostních mechanismů.

Ať už na projekt nahlížíte z pozice výzkumníka, bezpečnostního specialisty nebo prostě jen technicky zvídavého pozorovatele, OBLITERATUS stojí za pozornost jako jeden z nejkomplexnějších open-source nástrojů pro pochopení vnitřního fungování velkých jazykových modelů.


Repozitář: github.com/elder-plinius/OBLITERATUS
Live demo: HuggingFace Spaces
Citace: OBLITERATUS Contributors (2026). OBLITERATUS: An Open Platform for Analysis-Informed Refusal Removal in Large Language Models.