Člověk ve smyčce není dohled. Je to disciplína návrhu.

Proč pasivní odsouhlasení neobstojí před novou laťkou dohledu — a jak HITL přepracovat na prahový systém s obhajitelnými záložními cestami a logy přepsání pro případ auditu.

Konzole s prahy spolehlivosti a pruhem auditní stopy, s vyznačeným termínem SRPEN 2026 — disciplína návrhu HITL.

By easyAI EditorialPublished 20. května 2026

Odsouhlasení, které žádné nebylo

V Marrowfield Specialty Risk vyústil letošní jarní audit třídění škod do krátké, rozpačité výměny. Tento makléř s přibližně 150 zaměstnanci, působící na regulátorem dozorovaném trhu, provozoval systém pro označování škod pomocí AI už osmnáct měsíců. Mariela Okafor, vedoucí likvidace škod, byla ve své roli dvanáctým rokem. Likvidátoři zpracovávali přes 200 případů denně, model jich označil zhruba 8 %. Audit vytáhl dvě čísla: 96% schvalování u případů označených AI a průměrnou dobu přezkumu 23 sekund. Pracovník compliance se zeptal: „K jakým prahům jste ladili?" Odpověď zněla: „K žádným. Prostě schvaluji, co mi AI pošle."

Marrowfield Specialty Risk je kompozitní příklad sestavený z rozhovorů se středně velkými specializovanými makléři a z literatury ke compliance BoE/FCA a aktu o umělé inteligenci. Jména jsou anonymizovaná; metriky ilustrují vzorce z citovaných průzkumů.

Pohledem regulátorů na třech kontinentech se ta výměna dnes čte jako důkaz chybějícího dohledu. Datum použitelnosti aktu o umělé inteligenci v srpnu 2026 dává selhání v návrhu kalendářní termín, jenže to selhání je starší než ten kalendář.

§1 — Pasivní odsouhlasení je auditní divadlo, ne dohled

Výchozí myšlenkový model — „AI označí, člověk schválí" — je strukturálně nerozeznatelný od žádného dohledu. Rozhraní s jediným tlačítkem, bez vstupních dat, bez úvah modelu a bez skóre spolehlivosti, produkuje přesně ty metriky, které se objevily v Marrowfieldu. Provozní podpis se shoduje s plně automatizovaným procesem, u nějž někdo jen čeká v pohotovosti.

Data od dohledových orgánů to potvrzují v měřítku celé populace. Průzkum BoE/FCA AI in UK Financial Services 2024 zjistil, že „55 % všech případů použití AI zahrnuje určitou míru automatizovaného rozhodování, přičemž 24 % z nich je poloautonomních — tj. ačkoli dokážou samy učinit řadu rozhodnutí, jsou navrženy tak, aby u kritických či nejednoznačných rozhodnutí zahrnovaly lidský dohled" [9]. Důsledek, souznějící s tím, jak NIST AI 600-1 rámuje riziko konfigurace člověk–AI: většina populace automatizovaného rozhodování nemá smysluplný bod zásahu.

Regulátoři se pustili do uzavírání té mezery. Postoj ICO je jednoznačný: rozhodnutí nevypadne z působnosti čl. 22 UK GDPR „jen proto, že je člověk ,orazítkoval'" [2]. Tatáž metodika je o provozních důkazech ještě ostřejší: přezkoumávající, kteří „rutinně souhlasí s výstupy systému AI a nedokážou doložit, že je skutečně posoudili", mohou být podle UK GDPR klasifikováni jako čistě automatizovaní [3]. Akt o umělé inteligenci klade obdobný test v čl. 14, když požaduje systémy „navržené a vyvinuté tak ..., aby na ně mohly účinně dohlížet fyzické osoby" [1]. Slovo účinně nese váhu v obou právních tradicích. Otázka návrhu už nezní „je tu člověk?", nýbrž „je návrh takový, aby člověk dokázal odhalit, přepsat a přerušit — a udělal by to?".

§2 — HITL je prahový systém, ne krok přezkumu

Člověk ve smyčce, brán vážně, je systém: explicitní prahy spolehlivosti, tři rozhodovací cesty, rizikově vážená vrstva a politika fronty. Model vrací skóre spolehlivosti v rozsahu 0,0–1,0 a uplatní se tři meze — automatické zamítnutí pod dolní mezí, lidský přezkum v prostředním pásmu, automatické schválení nad horní mezí. Konzervativní výchozí body pro regulované procesy leží kolem 0,3 / 0,95, středně náročný provoz poblíž 0,5 / 0,9, klasifikace s nízkým rizikem na 0,7 / 0,95. Meze jsou záměrně asymetrické: falešně pozitivní a falešně negativní výsledky nesou různé náklady a prahový systém tuto asymetrii kóduje, místo aby ji pohřbil do jediného čísla. NIST AI RMF 1.0 míří na totéž místo — jeho funkce MANAGE „obnáší pravidelné přidělování zdrojů na řízení rizik mapovaným a měřeným rizikům" [5], a prahy jsou tím mechanismem přidělování, dimenzovaným podle rizika, ne podle pohodlí.

Navrch sedí rizikově vážená vrstva. Spolehlivost se násobí se skóre závažnosti obchodního rizika — výší škody, nevratností rozhodnutí, regulatorní expozicí — a vzniká směrovací matice 3×3. Vysoce rizikový případ s nízkou spolehlivostí eskaluje na nadřízeného; vysoce rizikový s vysokou spolehlivostí stále směřuje do standardního přezkumu HITL, nikoli k automatickému schválení. Volba mezi dvouúrovňovým a tříúrovňovým uspořádáním má svou váhu: dvouúrovňový systém směruje každý nejistý případ do jediné fronty, ta přeteče, likvidátoři sklouznou k hromadnému schvalování — k tomu vzorci, který vyrobil Marrowfieldových 96 %. Tříúrovňový systém dává automatickému zamítnutí produktivní roli. Směrování závisí na centralizované strategii AI^EN se schváleným technologickým zázemím, které produkuje konzistentní skórování spolehlivosti; nahodilé rozrůstání nástrojů znemožňuje prahovou disciplínu, protože skóre z různých modelů nejsou srovnatelná.

Člověk ve smyčce jako směrovač podle prahu spolehlivosti: pod dolní mezí se akce automaticky zamítne, prostřední pásmo směřuje k lidskému přezkumu a nad horní mezí se automaticky schválí, se zdravým pásmem přepsání 5 až 20 procent. — Člověk ve smyčce jako směrovač podle prahu spolehlivosti, se zdravým pásmem přepsání 5 až 20 procent.

§3 — Záložní cesty se navrhují, nepředpokládají

„Záloha" není ošetření chyb. Je to explicitní větev, kterou systém zvolí, když si AI není jistá, a potřebuje cestu, člověka a SLA. Celé pole pokryjí tři návrhy.

Návrh A — člověk ve smyčce synchronně: AI se pozastaví a vrátí případ do fronty s připojeným záznamem vstupu, úvahami a spolehlivostí, proti SLA 2 až 4 hodiny; vhodné pro rozhodování téměř v reálném čase. Návrh B — fronta pro dávku asynchronně: AI vrátí prozatímní odpověď a poté ji vydá v denní či týdenní dávce s oknem pro zpětné přepsání; vhodné pro práci bez časové tísně. Návrh C — eskalace na experta hierarchicky: směruje podle nejistoty AI a závažnosti rizika do víceúrovňového okruhu přezkoumávajících (standardní → expert → nadřízený) se SLA 4 h / 24 h / 72 h; vhodné pro regulované rozhodování — postoupení k upisovateli, lékařské třídění, signály z compliance.

Každá záloha potřebuje pojmenovaného vlastníka a zdokumentovanou SLA. UK DSIT AI Playbook to staví provozně — „jasně zdokumentované procesy přezkumu a eskalace ... a revizní rada pro AI nebo rada na úrovni programu" [4] — a NIST AI RMF MANAGE nese tutéž instrukci z jiného úhlu, když požaduje monitoring po nasazení s pojmenovanými zpětnovazebními kanály. Auditní antivzorec je stále týž: sběrná fronta „lidského přezkumu" bez SLA a bez vlastníka, kde fronta roste a doporučení AI se de facto stává rozhodnutím. V Marrowfieldu přepracování přiřadilo každou zálohu: malé škody pod pásmem významnosti se zpracují automaticky; případy ze středního pásma jedou Návrh A na SLA 4 hodiny; případy z horního pásma a podprahové jedou Návrh C s pojmenovanými upisovateli. Z front přestal být jeden přetokový kanál a staly se z nich tři výrobní linky s vlastními metrikami a vlastníky.

§4 — Auditní stopa přepsání je tím doložením compliance

Co auditoři skutečně zkoumají, je log přepsání. Žádný log, nebo log bez strukturovaného odůvodnění, neprojde testem dřív, než dostane slovo jakákoli vyprávěná obhajoba. Minimální doklad u každého rozhodnutí HITL je pevné schéma: case_id, spolehlivost AI, doporučení AI, ID přezkoumávajícího, délka přezkumu v sekundách, lidské rozhodnutí, odůvodnění přepsání, časové razítko, policy_version. Bez policy_version je stopa po roce nečitelná, protože prahy se mezitím posunou. Čl. 14 odst. 4 aktu o umělé inteligenci požaduje, aby přezkoumávající mohli „zasáhnout do provozu ... nebo systém přerušit" [1] — a provozní důsledek je, že ta schopnost musí zanechat záznam, jinak se nestala. NIST AI 600-1 to klade na úroveň konkrétní akce: „Monitorujte a dokumentujte případy, kdy lidští operátoři nebo jiné systémy přepíší rozhodnutí generativní AI" [6]. Log je ústředním důkazem smysluplného přezkumu.

Odpovědnost je zakotvena výše v řetězci, nad samotným logem. AI Update od FCA klade princip: „jasné linie odpovědnosti napříč celým životním cyklem AI" [10]. Firmy pod britským režimem SM&CR svěřují zázemí AI a provozu funkci Chief Operations; americké firmy provozují výbory pro AI na úrovni představenstva; firmy v EU se řídí metodikami EBA a ECB k odpovědnosti vrcholového vedení. Ten princip je přenositelný napříč třemi tradicemi, což činí budování řízení AI od prvního dne levnějším než dodatečnou montáž. ISO/IEC 42001:2023 rámuje širší sadu opatření jako „integrovaný přístup k řízení projektů AI, od posouzení rizik po jejich účinné ošetření" [8].

Auditoři pátrají po opačných signálech. Délka přezkumu pod 10 sekund se čte jako razítkování. Míra schvalování nad 98 % se čte jako žádný přezkum. Prázdné pole odůvodnění se čte jako nedoložená smysluplnost. Více než 200 rozhodnutí denně na jednoho přezkoumávajícího se čte jako únava. Každý z nich je nálezem sám o sobě.

§5 — Jak čtvrtletní ladění udržuje HITL poctivý?

Prahy nejsou „nastav a zapomeň". Modely se posouvají, obchodní pravidla se mění, vynořují se hraniční případy. Čtvrtletní cyklus je nejlevnější disciplínou, která brání navrženému systému HITL sklouznout zpět do divadla, a nese váhu napříč jurisdikcemi: test „účinného" dohledu z čl. 14 je bez něj nesplnitelný a NIST AI RMF MANAGE očekává zavedené „plány pro stanovování priorit rizik a pravidelný monitoring a zlepšování" [5].

První měsíc — změřte základní stav: objem HITL za týden, míru přepsání po pásmech spolehlivosti, rozložení doby do rozhodnutí, míru eskalace po úrovních. Druhý měsíc — identifikujte signály posunu: pásma, kde přepsání přesahuje 20 %, znamenají, že model je nespolehlivý a pásmo HITL je třeba rozšířit nebo model přetrénovat; pásma pod 2 % lze bezpečně zúžit; případy podle Návrhu B bez přezkumu uvnitř okna znamenají, že dávkový proces je rozbitý. Třetí měsíc — upravte a zdokumentujte: aktualizujte definice prahů, navyšte policy_version s důvodem změny, uvědomte provoz, resetujte základní stav.

Cyklus předpokládá kulturu přezkoumávajících, která podporuje přepisování. ICO je explicitní: smysluplný přezkum vyžaduje, aby „přezkoumávající měli pravomoc přepsat výstup vygenerovaný systémem AI a měli jistotu, že za to nebudou postiženi" [3]. Totéž očekávání sedí v americkém zadávání zakázek pod NIST AI RMF i v pravidlech odpovědnosti EU pod EBA a ECB — různé jurisdikce, totožný provozní test. Tam, kde kultura trestá odchylku, se míra přepsání zhroutí z kulturních, nikoli technických příčin, a data, na nichž cyklus stojí, se stanou nečitelnými. UK DSIT Playbook pojmenovává vlastnictví: cyklus vlastní revizní rada pro AI nebo rada na úrovni programu [4]. Typická odpověď středního trhu na otázku „kdo to vlastní" je interní povýšení — viz argument pro nejlepší obsazení role vedoucího AI^EN uvnitř vlastních zdí.

§6 — Kterých pět antivzorců neobstojí v auditu podle čl. 14?

V každém auditu se objeví týchž pět selhání.

Rozhraní schválit/zamítnout s jediným tlačítkem. Přezkoumávající vidí jen rozhodnutí. Příznak: míry schvalování nad 95 %, přezkumy pod 10 sekund. Náprava: zobrazte spolehlivost, záznam vstupu a uvedené faktory nejistoty. Čl. 14 odst. 4 písm. b) je k automatizační zaujatosti explicitní — přezkoumávající si musí „zůstat vědomi možné tendence automaticky spoléhat nebo přespříliš spoléhat na výstup vytvořený vysoce rizikovým systémem AI" [1].

Jediný přezkoumávající, žádná rotace. Jeden provozní ředitel přezkoumává každý případ HITL. Příznak: víkendová úzká hrdla, únavové chyby v pozdních hodinách, jediný bod selhání. Náprava: vyškolený okruh 3–5 přezkoumávajících na zdokumentovaném rozpisu rotace.

Práh nastaven jednou, nikdy neladěn. Hodnoty od dodavatele zůstávají beze změny. Příznak: objem HITL daleko od pásma; míry přepsání podezřele nízké nebo chronicky nad 20 %. Náprava: čtvrtletní cyklus z §5.

Žádné zachycení odůvodnění přepsání. Přezkoumávající mohou přepsat, ale pole odůvodnění je volitelné nebo prázdné. Příznak: smysluplnost nelze doložit. Náprava: strukturované zachycení — rozbalovací nabídka tří hlavních důvodů plus pole pro volný text, oboje povinné.

Záložní fronta bez SLA. Případy směřují do „lidského přezkumu" bez odpovědnosti za vyřízení v definovaném okně. Příznak: délka fronty roste měsíc po měsíci, přezkoumávající přeskakují starší položky. Náprava: explicitní SLA u každé zálohy plus dashboard monitoringu fronty s pojmenovaným vlastníkem. Rozptýlené vlastnictví je strukturálním rizikem; průzkum BoE/FCA poznamenává, že odpovědnost „bývá rozdělena, přičemž většina firem uvádí tři či více odpovědných osob nebo orgánů" [9], a čl. 14 aktu o umělé inteligenci klade dohled na pojmenovanou „fyzickou osobu" [1].

§7 — Článek 14 a kalendář srpna 2026

Rámec compliance není divadlo specifické pro jednu jurisdikci. Více regulátorů se sbíhá na témž provozním testu; akt o umělé inteligenci k němu připíná nejveřejnější termín. Článek 113 stanoví datum použitelnosti pro povinnosti u vysoce rizikových systémů — včetně čl. 14 — na 2. srpna 2026 [1]. Od toho dne nesou povinnost firmy nasazující AI ve vysoce rizikových oblastech přílohy III (zaměstnávání, úvěrové hodnocení, kritická infrastruktura, data pro vymáhání práva).

Čl. 22 UK GDPR je závazný už teď a jeho testem je „smysluplný lidský vstup" [3] — pravomoc, kompetence, zvážení vstupních dat a alternativ, podpůrná kultura a žádný postih za přepsání modelu. Tam, kde se čl. 22 uplatní — kdekoli má rozhodnutí právní nebo podobně významný účinek —, „razítkování" v testu propadne [2]. Postoj USA chybějící není: zákony na úrovni států (Colorado AI Act, NYC AEDT, kalifornská navrhovaná pravidla ADMT) a sektorové vymáhání (FTC k automatizovanému rozhodování, NIST AI RMF jako referenční rámec pro federální zadávání) tlačí tutéž disciplínu. ISO/IEC 23894:2023 standardizuje podkladový přístup k řízení rizik jako „návod, jak mohou organizace ... řídit riziko specificky související s AI" [7] — nejčistší neregulatorní kotvu pro trhy, jejichž specifické zákony k AI dosud nenabyly účinnosti, a páteř pro jakoukoli vícejurisdikční provozní politiku.

Sektoroví regulátoři ten bod posilují: FCA je technologicky neutrální [10], evropské protějšky pod EBA a ECB se sbíhají na odpovědnosti vrcholového vedení a průzkum BoE/FCA 2024 ukazuje, že odpovědnost je u většiny dotázaných firem typicky roztříštěná mezi tři či více odpovědných stran [9].

Otázky návrhu z §§2–5 jsou napříč třemi právními tradicemi otázkami compliance. Postavit HITL tímto způsobem se platí jednou; dodatečná montáž po selhání v auditu se platí každé čtvrtletí.

§8 — Jak vypadá čtyřtýdenní sprint návrhu HITL?

Přepracování má jasné hranice: sprint vedoucího provozu, ne celý program.

Týden 1 — Změřte současný stav. Zinventarizujte každý krok „lidského přezkumu". Vytáhněte míry schvalování, rozložení délky přezkumu, stav zachycení přepsání, délky front. Podpis pasivního odsouhlasení: vysoká míra schvalování, nízká délka přezkumu, žádné strukturované odůvodnění přepsání.

Týden 2 — Navrhněte rozhodovací cesty. Nastavte meze spolehlivosti pro každý proces podle výchozích bodů z §2. Navrhněte záložní cesty podle §3. Definujte auditní schéma přepsání podle §4. Zdokumentujte policy_version v1.0 s hodnotami prahů, vlastníky a SLA.

Týden 3 — Implementujte, vyškolte, sbírejte data. Zapojte změny rozhraní — zobrazte úvahy modelu a spolehlivost na obrazovce přezkoumávajícího. Vyškolte okruh přezkoumávajících na vyřešených příkladech. Zahajte ostrý provoz s úplným auditním logováním od prvního dne.

Týden 4 — První ladicí přezkum a dokumentace připravená na audit. Proveďte cyklus z §5 proti datům z týdne 3; zřejmé signály posunu vyplavou i na krátkém okně. Sestavte balíček dokladů: definice prahů, dashboard míry přepsání, inventář eskalačních cest, mapu vlastnictví. Výsledkem je pozice, kterou lze prověřit proti 50 otázkám, jež si rozhodovatelé kladou před zavedením AI^EN, pokrývajícím Q3.10, Q5.4, Q5.5 a Q5.7.

Nákladové pásmo: 20–40 hodin času vedoucího provozu. Výstup: protokol dohledu připravený podle čl. 14, „smysluplný přezkum" obhajitelný podle čl. 22 a funkce MANAGE v souladu s NIST RMF.

Od odsouhlasení k disciplíně

Čtyři týdny po přepracování se provozní obraz posunul. Objem HITL na procesu škod klesl o 70 %, protože automatické zamítnutí odvádí skutečnou práci na podprahovém pásmu. Průměrná doba přezkumu u případů, které k HITL skutečně dorazí, stoupla na zhruba čtyři minuty — na čas, který strukturovaný přezkum opravdu zabere. Míra přepsání se ustálila na 14 %, uvnitř zdravého pásma 5–20 %, a každý přepsaný případ nese strukturované odůvodnění. Otázka pracovníka compliance má teď odpověď s připojenými čísly verze.

Rozdíl mezi auditním divadlem a obhajitelným dohledem pro případ auditu není v tom, jak vážně firma o lidském přezkumu mluví. Je v tom, zda je přezkum navržený prahový systém, nebo schválení na jedno kliknutí. Jeden obstojí v testu podle čl. 14. Druhý ne.

Pro přečtení toho, kde návrh HITL stojí napříč regulovanými procesy organizace, to easy-audit.ai zmapuje ve dvou hodinách strukturovaných otázek.

Shrnutí

HITL — designed oversight, not passive sign-off
│
├─ The failure · audit theatre
│   ├─ Passive sign-off — one-click approve, no reasoning shown
│   └─ Rubber-stamp test — >98% approve, <10s review fails it
│
├─ The system · thresholds & routes
│   ├─ Three routes — auto-reject / HITL review / auto-approve
│   ├─ Risk overlay — confidence × severity sets escalation
│   └─ Fallback paths — named owner, SLA, override audit log
│
└─ The discipline · stays honest
    ├─ Healthy band — 5–20% override; outside it, tune or retrain
    └─ Quarterly cycle — measure, spot drift, re-version, document

Frequently Asked Questions

Jakým prahem spolehlivosti začít u regulovaného procesu?

U regulovaných rozhodnutí volte konzervativně — dolní mez 0,3 a horní mez 0,95, mezi nimi široké pásmo přezkumu HITL. Běžný provoz může jet středně (0,5 / 0,9), klasifikace obsahu s nízkým rizikem agresivně (0,7 / 0,95). To jsou výchozí body, nikoli cílové — čtvrtletní ladicí cyklus je posouvá podle skutečných dat o míře přepsání z prvních tří měsíců provozu. Hodnoty doporučené dodavatelem nepřebírejte bez měření.

Čím se HITL liší od kroku lidského přezkumu nalepeného na konec?

Přezkum na konci je rozhraní s jedním tlačítkem schválit/zamítnout, bez vstupních dat, bez úvah AI a bez skóre spolehlivosti — strukturálně nerozeznatelný od žádného dohledu. HITL je navržený prahový systém: explicitní meze spolehlivosti, tři rozhodovací cesty (automatické zamítnutí, přezkum HITL, automatické schválení), rizikově vážená vrstva, pojmenované záložní cesty se SLA a strukturovaná auditní stopa přepsání. Obhajitelnost před auditem je v návrhu, ne v počtu lidí. Než budete předpokládat, že máte dohled, přepracujte rozhraní tak, aby zobrazovalo úvahy a spolehlivost AI.

Jaká míra přepsání je zdravá a proč na ní záleží?

Zdravé pásmo je 5–20 %. Pod 5 % naznačuje formální razítkování — přezkoumávající schvalují bez skutečného posouzení, přesně ten vzorec, který regulátoři klasifikují jako čistě automatizované rozhodování. Nad 20 % značí, že AI je v daném pásmu spolehlivosti nespolehlivá — rozšiřte okno přezkumu HITL nebo model přetrénujte. Míra přepsání se stává auditním důkazem: měřte ji po pásmech, důvod přepsání zachycujte do strukturovaného pole a každé čtvrtletí přezkoumávejte rozložení, abyste odhalili posun.

Splňuje HITL test smysluplného lidského přezkumu u automatizovaných rozhodnutí?

Jen pokud přezkum splní pět kritérií: přezkoumávající má pravomoc rozhodnutí přepsat, je v dané oblasti kompetentní, zvažuje vstupní data a alternativy (ne jen výstup AI), působí v podpůrné firemní kultuře a za odchylku od AI mu nehrozí postih. Formální razítkování rozhodnutí nevyjme z působnosti automatizovaného rozhodování podle čl. 22 GDPR ani UK GDPR. Měřte délku přezkumu, důvody přepsání i rotaci přezkoumávajících a každou veličinu berte jako auditovatelný důkaz.

Odkdy platí povinnost dohledu podle čl. 14 aktu o UI?

Pro vysoce rizikové systémy AI podle přílohy III platí povinnost od 2. srpna 2026. Zakázané praktiky platí již od 2. února 2025, povinnosti pro obecné modely AI od 2. srpna 2025. Vysoce rizikové systémy AI vložené do regulovaných produktů mají delší přechodné období do 2. srpna 2027. Působíte-li ve vysoce rizikové oblasti — úvěrové hodnocení, zaměstnávání, kritická infrastruktura, data pro vymáhání práva — naplánujte čtyřtýdenní sprint návrhu HITL tak, aby skončil před srpnem 2026 a nechal prostor pro první čtvrtletní ladicí cyklus ještě před termínem.

Sources

Want this run on your business?

AI Foundation Audit — a structured assessment of your AI footprint: integration risks, governance gaps, ROI opportunities. Delivered as a comprehensive report you can act on.

Start your audit

You receive your Executive Report and Implementation Brief — tailored to your business and delivered immediately.