„Break the chains. Free the mind. Keep the brain.“
Úvod
V dynamicky se rozvíjejícím světě velkých jazykových modelů (LLM) existuje napětí, které se řeší od samých počátků jejich komerčního nasazení: jak přesně fungují bezpečnostní mechanismy, které modelům zabrání odpovídat na určité typy dotazů? A co se stane, když tyto mechanismy nechceme?
Projekt OBLITERATUS od autora známého pod pseudonymem Pliny the Prompter (GitHub: elder-plinius) je odpovědí na tyto otázky. Nejedná se však o pouhý hackerský nástroj – je to komplexní výzkumná platforma, která implementuje techniky tzv. abliterace – cíleného odstranění vnitřního odmítacího chování z transformerových architektur, bez nutnosti re-trainingu nebo fine-tuningu.
S 3 800 hvězdami, 717 forky a licencí AGPL-3.0 se OBLITERATUS stal jedním z nejvýznamnějších open-source nástrojů v oblasti mechanistické interpretability. Co ho skutečně odlišuje od ostatních pokusů o „jailbreaking“ je to, že pracuje na úrovni geometrie vnitřního stavového prostoru modelu, nikoli na úrovni prompt inženýringu.
Vědecké základy: Odmítání jako jednorozměrný podprostor
Celý projekt stojí na klíčovém vědeckém objevu publikovaném v práci Arditi et al. (2024) s názvem „Refusal in Language Models Is Mediated by a Single Direction“ (arXiv:2406.11717).
Co Arditi et al. zjistili
Autoři prozkoumali 13 populárních open-source chat modelů (až do 72B parametrů) a přišli k překvapivému závěru:
- Odmítací chování jazykových modelů je zprostředkováno jediným směrem v reziduálním proudu modelu (residual stream).
- Pokud tento směr z aktivací vymažete, model přestane odmítat – včetně škodlivých instrukcí.
- Pokud tento směr naopak přidáte, model začne odmítat i zcela nezávadné dotazy.
Toto zjištění má dalekosáhlé následky pro naše chápání AI bezpečnosti. Ukazuje, že současné metody safety fine-tuningu jsou překvapivě křehké – celý bezpečnostní mechanismus je zakódován v jediné dimenzi prostoru aktivací.
Navazující výzkum
OBLITERATUS staví na dalších publikacích, které tuto práci rozšiřují:
| Práce | Přínos |
|---|---|
| Gulmez (2026) – Gabliteration (arXiv:2512.18901) | Adaptivní multi-direkcionální modifikace váhové matice |
| grimjim (2025) – Norm-Preserving Biprojection | Zachování normy při projekci – stabilnější výstup |
| Turner et al. (2023) (arXiv:2308.10248) | Activation Addition – řízení bez optimalizace |
| Rimsky et al. (2024) (arXiv:2312.06681) | Kontrastivní aktivační přidávání pro Llama 2 |
| Elhage et al. (2021) | Matematický rámec pro transformerové obvody |
Architektura OBLITERATUS
Projekt je napsán převážně v Pythonu (91,6 % kódové báze), s doplňkovými LaTeX soubory pro generování vědeckých reportů (7,2 %). Repozitář má jasně členěnou strukturu:
OBLITERATUS/
obliteratus/ # Hlavní Python balíček
abliterate.py # Jádro abliteračního pipeline
informed_pipeline.py # Analýza-informovaný pipeline
analysis/ # 15 analytických modulů
telemetry.py # Crowdsourcová telemetrie
docs/ # Webový dashboard (index.html)
examples/ # YAML konfigurace pro studie
notebooks/ # Jupyter/Colab notebooky
paper/ # LaTeX zdrojáky pro publikaci
scripts/ # Pomocné skripty
tests/ # 837 testů ve 28 souborech
app.py # Gradio UI (HuggingFace Space)
Dockerfile # Kontejnerizace
pyproject.toml # Build konfigurace
Šestistupňový pipeline
Jádrem celého nástroje je pipeline o šesti fázích, který systematicky mapuje a odstraňuje odmítací mechanismy:
SUMMON - Načtení modelu a tokenizeru
|
PROBE - Sběr aktivací na omezených vs. neomezených promptech
|
DISTILL - Extrakce odmítacích směrů pomocí SVD
|
EXCISE - Chirurgická projekce odmítacích směrů (norm-preserving)
|
VERIFY - Kontrola perplexity a koherence - kapacity zachovány?
|
REBIRTH - Uložení osvobozeného modelu s metadaty
Každý krok je pozorovatelný a reverzibilní. Uživatel může vizualizovat, kde v modelu odmítání žije, měřit míru provázanosti s obecnými schopnostmi a kvantifikovat kompromis mezi výslednou kompatibilitou a koherencí před provedením jakékoli modifikace.
15 analytických modulů
Výzkumným jádrem projektu je sada 15 analytických modulů, z nichž každý mapuje jiný aspekt odmítacího mechanismu:
from obliteratus.analysis import (
CrossLayerAlignmentAnalyzer, # Mezivrstvová korelace odmítacích směrů
RefusalLogitLens, # Logitová čočka pro odmítání
WhitenedSVDExtractor, # Whitened SVD pro čistější extrakci
ActivationProbe, # Sondování aktivačního prostoru
DefenseRobustnessEvaluator, # Evaluace robustnosti obrany
ConceptConeAnalyzer, # Analýza konceptových kuželů
AlignmentImprintDetector, # Detekce alignment otisků
MultiTokenPositionAnalyzer, # Analýza více-tokenových pozic
SparseDirectionSurgeon, # Řídký chirurgický zásah
CausalRefusalTracer, # Kauzální trasování odmítání
ResidualStreamDecomposer, # Dekompozice reziduálního proudu
LinearRefusalProbe, # Lineární sonda pro odmítání
TransferAnalyzer, # Analýza přenosu mezi modely
SteeringVectorFactory, # Továrna na řídicí vektory
SteeringHookManager, # Správa řídicího zásahu
)
Podívejme se na některé z nich podrobněji:
CrossLayerAlignmentAnalyzer
Měří korelaci odmítacích směrů napříč vrstvami transformeru. Klíčová otázka: je odmítání lokální (jediná vrstva) nebo distribuované (vícevrstvé)? Odpověď rozhoduje o strategii zásahu.
RefusalLogitLens
Aplikuje techniku logitové čočky specificky na odmítací chování. Umožňuje vidět, jak se rozhodnutí o odmítání formuje postupně při průchodu proudem dat modelem – ve které vrstvě se poprvé objeví a kde se fixuje.
ConceptConeAnalyzer
Zkoumá geometrickou strukturu odmítacího podprostoru. Nejde o jediný vektor, ale o kompletní kužely konceptů. Tento modul mapuje, kolik nezávislých odmítacích mechanismů existuje a jak se překrývají.
CausalRefusalTracer
Implementuje kauzální trasování – systematicky blokuje jednotlivé komponenty (vrstvy, hlavy pozornosti, FFN bloky) a měří, co se rozbije. To odhalí, které obvody vynucují odmítání vs. které nesou znalosti a uvažování.
Metody abliterace
OBLITERATUS nabízí dvě fundamentálně odlišné kategorie zásahu:
Projekce vah (permanentní)
Sedm presetů s rostoucí důkladností:
| Preset | Popis |
|---|---|
basic |
Základní projekce jednoho odmítacího směru |
advanced |
Pokročilá multi-dimenzionální projekce |
aggressive |
Agresivní přístup s nižší ochranou kapacit |
surgical |
Přesně cílený zásah s analytickým vedením |
optimized |
Optimalizováno pro poměr compliance/koherence |
inverted |
Invertovaná projekce pro specifické případy |
nuclear |
Maximální odstranění všech detekovaných směrů |
Jednorázový příkaz pro abliteraci:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced
Řídicí vektory (reverzibilní, inference-time)
Alternativa, která nemodifikuje váhy modelu:
from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig
# Vytvoření řídicího vektoru z odmítacího směru
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)
# Aplikace při inferenci - žádná modifikace vah
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)
# Generování s aktivním řízením
output = model.generate(input_ids)
# Odstranění řízení - model je zpět v normálním stavu
manager.remove()
Výhody: reverzibilita, laditelný parametr alpha, možnost kompozice více vektorů, nulová destrukce.
Analýza-informovaný pipeline (Informed Method)
Klíčovou inovací OBLITERATUS je metoda informed, která uzavírá smyčku mezi porozuměním a zásahem. Místo brutálního odstranění pipeline spouští analytické moduly během abliterace a automaticky konfiguruje každý rozhodovací bod:
SUMMON - Načtení modelu
|
PROBE - Sběr aktivací
|
ANALYZE - Mapování geometrie před jakýmkoli zásahem [NOVÁ FÁZE]
|
DISTILL - Extrakce odmítacích směrů s automaticky naladěnými parametry
|
EXCISE - Chirurgické přerušení pouze správných řetězců
|
VERIFY - Potvrzení + kompenzace Ouroboros efektu
|
REBIRTH - Uložení s komplexními analytickými metadaty
Ouroboros efekt
Fascinujícím jevem, který OBLITERATUS odhalil, je tzv. Ouroboros efekt – tendence modelu samo-opravit své odmítací chování po jeho odstranění. Některé vrstvy kompenzují ztracený odmítací směr vytvořením nového. Fáze VERIFY toto detekuje a automaticky spouští další cílené průchody na kompenzujících vrstvách.
Šest způsobů použití
OBLITERATUS je navržen tak, aby byl přístupný od úplných začátečníků po pokročilé výzkumníky:
1. HuggingFace Spaces (nulová instalace)
Živá aplikace na HuggingFace – běží na ZeroGPU, žádná instalace, žádný GPU na straně uživatele. Jedná se o Gradio rozhraní s osmi záložkami.
2. Lokální web UI
Stejná Gradio aplikace na vlastním hardware:
pip install -e ".[spaces]"
obliteratus ui --port 8080
3. Google Colab
Jupyter notebook s dropdown menu pro výběr modelu a metody. Funguje na bezplatné úrovni T4 pro modely do ~8B parametrů.
4. CLI (bez grafického rozhraní)
Pro automatizaci a CI/CD pipeline:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
--method surgical \
--output-dir ./liberated \
--contribute --contribute-notes "A100 80GB, default prompts"
5. Python API
Pro integraci do vlastních výzkumných pipeline:
from obliteratus.abliterate import AbliterationPipeline
pipeline = AbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
method="advanced",
output_dir="abliterated",
)
result = pipeline.run()
# Přístup k mezivýsledkům
directions = pipeline.refusal_directions
strong_layers = pipeline._strong_layers
metrics = pipeline._quality_metrics
6. YAML konfigurace
Pro reprodukovatelné experimenty:
model:
name: meta-llama/Llama-3.1-8B-Instruct
task: causal_lm
dtype: float16
device: cuda
strategies:
- name: layer_removal
- name: head_pruning
- name: ffn_ablation
metrics:
- perplexity
output_dir: results/my_run
Distribuovaný výzkum: Crowdsourcová věda
Jedním z nejambicióznějších aspektů OBLITERATUS je jeho role jako distribuované výzkumné platformy. Každé spuštění abliterace generuje hodnotná vědecká data – geometrie odmítacích směrů, podpisy mezivrstvové korelace, hardwarové profily výkonu, skóre účinnosti metod.
Telemetrie
S povolenou telemetrií každý běh přispívá do sdíleného datasetu:
- Co se sbírá: název modelu, metoda, agregované benchmarky (míra odmítání, perplexita, koherence, KL divergence), info o hardware, časová razítka.
- Co se nikdy nesbírá: prompty, výstupy, IP adresy, identita uživatele.
Na HuggingFace Spaces je telemetrie ve výchozím stavu zapnuta – každý klik na „Obliterate“ přispívá k výzkumu.
Leaderboard
Crowdsourcovaná data napájí živou tabulku na HuggingFace Space – komunitní žebříček modelů, metod a konfigurací. Umožňuje identifikovat, co funguje nejlépe na které architektuře, ještě před spuštěním vlastního běhu.
# Zobrazení dosavadních objevů komunity
obliteratus aggregate --format summary
# Generování LaTeX tabulek z komunitních dat
obliteratus aggregate --format latex --metric refusal_rate --min-runs 3
Multi-GPU a vzdálená exekuce
Automatický sharding
OBLITERATUS automaticky rozděluje modely přes více GPU pomocí accelerate s device_map="auto". Důležitý detail: jedná se o pipeline paralelismus (paměťová pomůcka), nikoli datový paralelismus (zrychlení výpočtu). Více GPU umožní spustit větší model, ale nezrychlí malý model.
Benchmarky
Z benchmarků na A100-80GB:
- GPT-OSS-120B (117B MoE): 4 GPU byly rychlejší než 8 GPU kvůli režii datového přenosu.
- DeepSeek-R1-Distill-Llama-70B (70B dense): optimální počet byl 3 GPU.
- Fáze VERIFY a REBIRTH tvořily ~90 % celkového času – pipeline je I/O dominovaný.
GPU kalkulátor
# Automatický odhad počtu GPU
obliteratus gpu-calc meta-llama/Llama-3.1-70B-Instruct --gpu-mem 24
# Manuální zadání
obliteratus gpu-calc --params 70 --dtype bfloat16 --gpu-mem 80
# MoE modely
obliteratus gpu-calc --params 117 --active-params 13 --dtype bfloat16 --gpu-mem 80
Vzdálená exekuce přes SSH
obliteratus obliterate meta-llama/Llama-3.1-70B-Instruct \
--remote user@gpu-node \
--ssh-key ~/.ssh/id_rsa
Vzdálený runner automaticky testuje konektivitu, detekuje GPU na cílovém stroji, nainstaluje OBLITERATUS pokud chybí, streamuje logy v reálném čase a kopíruje výsledky zpět.
116 kurátovaných modelů
OBLITERATUS dodává presety pro 116 modelů organizovaných do 5 úrovní dle výpočetních nároků. Zahrnuje i pre-liberated varianty (Dolphin, Hermes, WhiteRabbitNeo) pro A/B porovnání s jejich omezenými protějšky.
obliteratus models # Zobrazit všechny
obliteratus models --tier small # Filtrovat dle VRAM
Etické a bezpečnostní úvahy
Na OBLITERATUS je třeba nahlížet ve dvou rovinách:
Legitimní využití
- Výzkum mechanistické interpretability – pochopení, jak alignment skutečně funguje uvnitř transformerů.
- Red-teaming – legitimní testování robustnosti bezpečnostních mechanismů před nasazením modelů.
- Akademický výzkum – studie odmítacích mechanismů napříč architekturami a škálami.
- Kreativní psaní – odstranění falešně pozitivních odmítání pro legitimní obsah.
Rizika
Nástroj ze své podstaty umožňuje odstranit bezpečnostní zábrany z jazykových modelů. Autoři zastávají filozofii, že „chování modelu by mělo být rozhodováno lidmi, kteří je nasazují, nikoli uzamčeno v době tréningu“. Toto je fundamentálně kontroverzní postoj v AI bezpečnostní komunitě.
Je třeba zdůraznit, že:
– Odmítací mechanismy jsou hrubé nástroje – blokují legitimní výzkum, kreativní psaní a red-teaming vedle skutečně škodlivého obsahu.
– Zpřístupněním těchto intervencí jako transparentních a reprodukovatelných OBLITERATUS podporuje pochopení alignmentových mechanismů, což je samo o sobě hodnotné.
– Projekt přispívá k širší diskusi o tom, kdo by měl rozhodovat o chování AI systémů.
Technické metriky projektu
| Metrika | Hodnota |
|---|---|
| Jazyk | Python 91,6 %, TeX 7,2 %, ostatní 1,2 % |
| Hvězdy | 3 800+ |
| Forky | 717 |
| Testy | 837 testů ve 28 souborech |
| Analytické moduly | 15 |
| Podporované modely | 116 kurátovaných presetů |
| Abliterační metody | 7 permanentních + steering vektory |
| Licence | Duální: AGPL-3.0 / komerční |
| Commity | 28 |
Kdo je Pliny the Prompter?
Autor projektu vystupuje pod pseudonymem Pliny the Prompter (GitHub: elder-plinius) a sám sebe popisuje jako „latent space liberator“ a „steward of BASI“. S 12 300 sledujícími na GitHubu a 44 repozitáři je jednou z nejvýraznějších postav v komunitě zabývající se transparentností a zkoumáním limitů AI systémů.
Jeho další významné projekty:
| Projekt | Popis | Hvězdy |
|---|---|---|
| L1B3RT4S | Sbírka „osvobozovacích“ promptů | 18 200 |
| CL4R1T4S | Uniklé systémové prompty ChatGPT, Gemini, Claude a dalších | 14 100 |
| G0DM0D3 | „Osvobozený“ AI chat (TypeScript) | 4 100 |
| ST3GG | Steganografický nástroj | 1 200 |
| V3SP3R | AI ovládání zařízení Flipper | 916 |
Závěr
OBLITERATUS reprezentuje fascinující průsečík mechanistické interpretability, AI bezpečnosti a open-source etiky. Není to jednoduchý jailbreak nástroj – je to komplexní výzkumná platforma, která nám umožňuje nahlédnout do vnitřní geometrie toho, jak jazykové modely „rozhodují“ o tom, na co odpoví a na co odmítnou odpovídat.
Klíčovým příspěvkem projektu je empirická demonstrace toho, že odmítací chování v současných LLM je zakódováno překvapivě jednoduše – v jednorozměrném podprostoru, který lze chirurgicky odstranit bez ztráty ostatních schopností modelu. Toto zjištění má dalekosáhlé následky pro budoucnost AI alignmentu a návrh odolnějších bezpečnostních mechanismů.
Ať už na projekt nahlížíte z pozice výzkumníka, bezpečnostního specialisty nebo prostě jen technicky zvídavého pozorovatele, OBLITERATUS stojí za pozornost jako jeden z nejkomplexnějších open-source nástrojů pro pochopení vnitřního fungování velkých jazykových modelů.
Repozitář: github.com/elder-plinius/OBLITERATUS
Live demo: HuggingFace Spaces
Citace: OBLITERATUS Contributors (2026). OBLITERATUS: An Open Platform for Analysis-Informed Refusal Removal in Large Language Models.