Inimene otsustusahelas ei ole järelevalve. See on disainidistsipliin.
Miks passiivne heakskiitmine ei küüni uue järelevalvelati taha — ja kuidas kujundada HITL ümber lävipunktide süsteemiks, mille varuradasid ja tühistamiste logisid saab auditis kaitsta.

Heakskiit, mida polnud
Marrowfield Specialty Risk ettevõttes lõppes selle kevade kahjukäsitluse triaaži audit lühikese ja piinliku vestlusega. Maakler, umbes 150 töötajaga ja regulaatori järelevalve all olevas turus, oli kaheksateist kuud kasutanud tehisintellekti märgistussüsteemi. Mariela Okafor, kahjukäsitluse juht, oli sellel kohal kaheteistkümnendat aastat. Käsitlejad menetlesid üle 200 juhtumi päevas; mudel märgistas neist umbes 8%. Audit tõi välja kaks numbrit: 96% heakskiit tehisintellekti märgistatud juhtumitele ja 23-sekundiline keskmine läbivaatusaeg. Vastavuskontrolli ametnik küsis: „Milliste lävipunktide järgi te kalibreerisite?" Vastus: „Mitte ükski. Ma lihtsalt kinnitan selle, mida tehisintellekt mulle saadab."
Marrowfield Specialty Risk on liittegelane, mis on koostatud intervjuudest keskturu spetsialiseerunud maakleritega ning BoE/FCA ja EU AI Act vastavuskirjandusest. Nimed on anonümiseeritud; näitajad illustreerivad tsiteeritud uuringutes esinevaid mustreid.
Kolme mandri regulaatorite silmis loeb see vestlus nüüd tõendina puuduva järelevalve kohta. EU AI Act 2026. aasta augusti kohaldamise kuupäev paneb disainivea peale kalendri, ent viga ise on kalendrist vanem.
§1 — Passiivne heakskiit on audititeater, mitte järelevalve
Vaikimisi mõttemudel — „tehisintellekt märgistab, inimene kinnitab" — on ülesehituselt eristamatu järelevalve puudumisest. Ühe nupuga liides ilma sisendandmeteta, ilma mudeli arutluskäiguta ja ilma usaldusväärsuse skoorita toodab täpselt need näitajad, mille Marrowfield välja tõi. Töömuster langeb kokku täielikult automatiseeritud töövooga, kus inimene seisab ootel.
Järelevalveandmed kinnitavad seda kogu sektori mastaabis. BoE/FCA uuring AI in UK Financial Services 2024 leidis, et „55% kõigist tehisintellekti kasutusjuhtudest sisaldab teatud määral automatiseeritud otsuste tegemist, millest 24% on poolautonoomsed, st kuigi need suudavad iseseisvalt teha hulga otsuseid, on need kavandatud kaasama inimjärelevalvet kriitiliste või mitmetähenduslike otsuste puhul" [9]. Järeldus kattub NIST AI 600-1 käsitlusega inimese ja tehisintellekti konfiguratsiooniriskist: enamikul automatiseeritud otsustamise mahust pole ühtegi sisulist sekkumispunkti.
Regulaatorid on asunud seda lõhet sulgema. ICO seisukoht on selge: otsus ei jää UK GDPR artikli 22 alt välja „üksnes seetõttu, et inimene on selle 'kummitempliga' kinnitanud" [2]. Sama juhend on töötõendite osas teravam: vaatajaid, kes „nõustuvad rutiinselt tehisintellektisüsteemi väljunditega ega suuda tõendada, et on neid tõeliselt hinnanud", võidakse UK GDPR alusel liigitada üksnes automatiseerituks [3]. EU AI Act seab paralleelse testi artiklis 14, nõudes süsteeme, mis on „kavandatud ja välja töötatud nii ..., et füüsilised isikud saavad nende üle tõhusalt teostada järelevalvet" [1]. Sõna tõhusalt kannab mõlemas õigustraditsioonis kogu raskust. Disainiküsimus ei ole enam „kas inimene on kohal?", vaid „kas disain on selline, et inimene suudab avastada, tühistada ja katkestada — ja kas ta seda ka teeks?"
§2 — HITL on lävipunktide süsteem, mitte läbivaatuse samm
Inimene otsustusahelas (human-in-the-loop), tõsiselt võetuna, on süsteem: selged usaldusväärsuse lävipunktid, kolm otsustusrada, riskikaaluga kiht ja järjekorrapoliitika. Mudel tagastab usaldusväärsuse skoori vahemikus 0.0–1.0 ning kehtib kolm lävipunkti — automaatne tagasilükkamine alla alumise läve, inimkontroll keskmises vööndis, automaatne heakskiit üle ülemise läve. Konservatiivsed lähtepunktid reguleeritud töövoogudele jäävad umbes 0.3 / 0.95 juurde; mõõdukad operatsioonid 0.5 / 0.9 lähedale; madala riskiga klassifitseerimine 0.7 / 0.95 juurde. Lävipunktid on teadlikult asümmeetrilised: valepositiivsetel ja valenegatiivsetel tulemustel on erinevad kulud ning lävipunktide süsteem kodeerib selle asümmeetria, mitte ei mata seda ühte numbrisse. NIST AI RMF 1.0 jõuab samale järeldusele — selle MANAGE funktsioon „hõlmab riskiressursside regulaarset eraldamist kaardistatud ja mõõdetud riskidele" [5], ning lävipunktid ongi see eraldamise mehhanism, mõõdetud riski, mitte mugavuse järgi.
Selle peal asub riskikaaluga kiht. Usaldusväärsus korrutatakse äririski raskusskooriga — kahju suurus, otsuse pöördumatus, regulatiivne avatus —, et saada 3×3 marsruutimismaatriks. Suure riskiga, madala usaldusväärsusega juhtum eskaleerub juhile; suure riskiga, kõrge usaldusväärsusega juhtum suunatakse endiselt standardsesse HITL-i läbivaatusse, mitte automaatsesse heakskiitu. Valik 2-tasemelise ja 3-tasemelise vahel loeb: 2-tasemeline süsteem suunab iga ebakindla juhtumi ühte järjekorda, järjekord ujutab üle, käsitlejad libisevad masskinnitamisele — just see muster tekitas Marrowfieldi 96% määra. 3-tasemeline süsteem annab automaatsele tagasilükkamisele tootliku rolli. Marsruutimine sõltub tsentraliseeritud tehisintellektistrateegiastEN, millel on heakskiidetud tehnoloogiakomplekt, mis annab järjepideva usaldusväärsuse skoori; juhuslik tööriistade vohamine muudab lävipunktide distsipliini võimatuks, sest eri mudelite skoorid pole võrreldavad.

§3 — Varurajad kujundatakse, neid ei eeldata vaikimisi
„Varurada" ei ole veakäsitlus. See on selge haru, mille süsteem valib siis, kui tehisintellekt on ebakindel, ja sellel peab olema rada, inimene ja SLA. Kolm disaini katavad kogu välja.
Disain A — sünkroonne inimene ahelas: tehisintellekt peatub ja tagastab juhtumi järjekorda koos lisatud sisendkirje, arutluskäigu ja usaldusväärsusega, 2–4-tunnise SLA vastu; sobib peaaegu reaalajalistele otsustele. Disain B — asünkroonne pakk-järjekord: tehisintellekt tagastab esialgse vastuse ja toob selle siis esile päeva- või nädalapakis koos tagasiulatuva tühistamisaknaga; sobib tööle, mis pole ajakriitiline. Disain C — hierarhiline eskaleerimine eksperdile: marsruudib tehisintellekti ebakindluse ja riski raskuse järgi mitmetasemelisse vaatajate rühma (standard → ekspert → juht), SLA-dega 4h / 24h / 72h; sobib reguleeritud otsustamisele — kindlustusandmise suunamised, meditsiiniline triaaž, vastavusmärgistused.
Iga varurada vajab nimelist omanikku ja dokumenteeritud SLA-d. UK DSIT AI Playbook sõnastab selle praktiliselt — „selgelt dokumenteeritud läbivaatus- ja eskaleerimisprotsessid ... ning tehisintellekti läbivaatusnõukogu või programmitasandi nõukogu" [4] —, ning NIST AI RMF MANAGE kannab sama juhist teise nurga alt, nõudes juurutusjärgset seiret nimeliste tagasisidekanalitega. Auditi vastumuster on järjepidev: üldine „inimkontrolli" järjekord ilma SLA ja omanikuta, kus järjekord kasvab ja tehisintellekti soovitusest saab de facto otsus. Marrowfieldis andis ümberkujundus igale varurajale oma marsruudi ja omaniku: väikesed kahjud alla olulisuse läve menetletakse automaatselt; keskmise vööndi juhtumid jooksevad Disain A järgi 4-tunnise SLA-ga; kõrge vööndi ja läve-alused juhtumid jooksevad Disain C järgi nimeliste kindlustusandjatega. Järjekorrad lakkasid olemast üks ületulvakanal ja said kolmeks tootmisliiniks, igaühel oma näitajad ja omanikud.
§4 — Tühistamiste auditijälg on vastavuse artefakt
See, mida audiitorid tegelikult kontrollivad, on tühistamiste logi. Logi puudumine — või logi ilma struktureeritud põhjenduseta — kukub testil läbi enne, kui ükski jutustav kaitsekõne saab ärakuulamist. Miinimumartefakt iga HITL-i otsuse kohta on kindel skeem: case_id, AI confidence, tehisintellekti soovitus, reviewer ID, läbivaatuse kestus sekundites, inimese otsus, tühistamise põhjendus, timestamp, policy_version. Ilma policy_version väljata pole jälg aasta hiljem tõlgendatav, sest lävipunktid on selleks ajaks nihkunud. EU AI Act artikli 14 lõige 4 nõuab, et vaatajad saaksid „sekkuda töösse ... või katkestada süsteemi" [1] — ja praktiline järeldus on, et see võimekus peab jätma jälje, muidu seda ei toimunud. NIST AI 600-1 sõnastab selle tegevuse tasandil: „Jälgige ja dokumenteerige juhtumid, kus inimoperaatorid või muud süsteemid tühistavad generatiivse tehisintellekti otsuseid" [6]. Logi on sisulise läbivaatuse keskne tõend.
Vastutus algab logist ülesvoolu. FCA dokument AI Update seab põhimõtte: „selged vastutusliinid, mis on kehtestatud kogu tehisintellekti elutsükli ulatuses" [10]. UK SM&CR-i ettevõtted paigutavad tehisintellekti ja operatsioonide vastutuse peamise operatsioonide funktsiooni alla; USA ettevõtted peavad juhatuse tasandi tehisintellekti komiteesid; ELi ettevõtted järgivad EBA ja ECB juhiseid kõrgema juhtkonna vastutuse kohta. Põhimõte on ülekantav üle kõigi kolme traditsiooni, mis muudab tehisintellekti juhtimise rajamise juba esimesest päevast odavamaks kui hilisem ümberehitamine. ISO/IEC 42001:2023 raamib laiema kontrollikomplekti kui „integreeritud lähenemise tehisintellekti projektide juhtimisele, alates riskihindamisest kuni nende riskide tõhusa käsitlemiseni" [8].
Audiitorid otsivad pöördsignaale. Alla 10 sekundi pikkune läbivaatus loeb formaalse heakskiiduna. Üle 98% heakskiidumäär loeb läbivaatuse puudumisena. Tühi põhjenduseväli loeb dokumenteerimata sisulisusena. Üle 200 otsuse päevas ühe vaataja kohta loeb väsimusena. Igaüks neist on iseseisev leid.
§5 — Kuidas hoiab kvartaalne kalibreerimine HITL-i ausana?
Lävipunkte ei saa seada-ja-unustada. Mudelid triivivad, ärireeglid muutuvad, tekivad piirjuhtumid. Kvartaalne tsükkel on odavaim distsipliin, mis hoiab kujundatud HITL-i süsteemi tagasi teatriks libisemast, ja sellel on kaal kõigis jurisdiktsioonides: artikli 14 „tõhusa" järelevalve test pole ilma selleta täidetav, ning NIST AI RMF MANAGE eeldab, et paigas oleksid „plaanid riski prioriseerimiseks ning regulaarseks seireks ja parendamiseks" [5].
Esimene kuu — mõõtke baasjoon: HITL-i maht nädalas, paranduste määr usaldusväärsuse vööndite kaupa, otsustamiseni kuluva aja jaotus, eskaleerimismäär tasemete kaupa. Teine kuu — tuvastage triivisignaalid: vööndid, kus paranduste määr ületab 20%, tähendavad, et mudel on ebausaldusväärne ja HITL-i vööndit tuleb laiendada või mudel ümber treenida; alla 2% vööndeid saab ohutult kitsendada; Disain B juhtumid, mida akna sees ei vaadata, tähendavad, et pakkprotsess on katki. Kolmas kuu — kohandage ja dokumenteerige: uuendage lävipunktide määratlusi, suurendage policy_version muudatuse põhjusega, teavitage operatsioone, lähtestage baasjoon.
Tsükkel eeldab vaatajakultuuri, mis toetab tühistamist. ICO on selgesõnaline: sisuline läbivaatus nõuab, et „vaatajatel oleks volitus tühistada tehisintellektisüsteemi loodud väljund ja et nad oleksid kindlad, et neid selle eest ei karistata" [3]. Sama ootus istub USA hangetes NIST AI RMF alusel ning ELi vastutusreeglites EBA ja ECB alusel — erinevad jurisdiktsioonid, identne töötest. Kus kultuur karistab kõrvalekallet, varisevad paranduste määrad kokku kultuurilistel, mitte tehnilistel põhjustel, ja andmed, millest tsükkel sõltub, muutuvad tõlgendamatuks. UK DSIT Playbook nimetab omaniku: tsüklit haldab tehisintellekti läbivaatusnõukogu või programmitasandi nõukogu [4]. Tüüpiline keskturu vastus küsimusele „kes selle eest vastutab" on edutamine seestpoolt — vaadake argumenti, et parim tehisintellekti juhi värbamineEN on maja sees.
§6 — Millised viis vastumustrit kukuvad artikli 14 auditil läbi?
Samad viis ebaõnnestumisviisi ilmuvad igas auditis.
Ühe nupuga kinnita/lükka-tagasi liides. Vaataja näeb ainult otsust. Sümptom: üle 95% heakskiidumäärad, alla 10-sekundilised läbivaatused. Parandus: tooge esile usaldusväärsus, sisendkirje ja väljaöeldud ebakindluse ajurid. Artikli 14 lõike 4 punkt b on automatiseerimise kallutatuse osas selgesõnaline — vaatajad peavad „jääma teadlikuks võimalikust kalduvusest automaatselt või liigselt usaldada suure riskiga tehisintellektisüsteemi loodud väljundit" [1].
Üks vaataja, ilma rotatsioonita. Üks operatsioonide direktor vaatab läbi iga HITL-i juhtumi. Sümptom: nädalavahetuse pudelikaelad, väsimusvead päeva lõpus, üksainus tõrkepunkt. Parandus: koolitatud 3–5 vaataja kogum dokumenteeritud rotatsioonigraafiku alusel.
Lävi seatud korra, kunagi kalibreerimata. Tarnija vaikeväärtused jäävad muutmata. Sümptom: HITL-i maht vööndist kaugel; paranduste määrad kahtlaselt madalad või krooniliselt üle 20%. Parandus: §5 kvartaalne tsükkel.
Tühistamise põhjendust ei salvestata. Vaatajad saavad tühistada, kuid põhjenduseväli on valikuline või tühi. Sümptom: sisulisust ei saa tõendada. Parandus: struktureeritud salvestus — kolme peamise põhjuse rippmenüü pluss vabateksti väli, mõlemad kohustuslikud.
Varurada ilma SLA-ta. Juhtumid suunatakse „inimkontrolli" ilma vastutuseta nende lahendamise eest määratud akna sees. Sümptom: järjekorra pikkus kasvab kuust kuusse, vaatajad jätavad vanemad kirjed vahele. Parandus: selge SLA igale varurajale pluss järjekorra seire töölaud nimelise omanikuga. Hajus vastutus on struktuurne risk; BoE/FCA uuring märgib, et vastutus „on sageli jagatud, kuna enamik ettevõtteid teatab kolmest või enamast vastutavast isikust või organist" [9], ning EU AI Act artikkel 14 paneb järelevalve nimelisele „füüsilisele isikule" [1].
§7 — Artikkel 14 ja 2026. aasta augusti kalender
Vastavusraamistik ei ole jurisdiktsioonipõhine teater. Mitu regulaatorit koonduvad samale töötestile; EU AI Act lisab sellele kõige avalikuma tähtaja. Artikkel 113 määrab suure riskiga kohustuste — sealhulgas artikli 14 — kohaldamise kuupäevaks 2. august 2026 [1]. Sellest kuupäevast kannavad seda kohustust ettevõtted, kes juurutavad tehisintellekti suure riskiga III lisa aladel (tööhõive, krediidihindamine, elutähtis taristu, õiguskaitse andmed).
UK GDPR artikkel 22 on juba siduv ja selle test on „sisuline inimese sekkumine" [3] — volitus, pädevus, sisendandmete ja alternatiivide kaalumine, toetav kultuur ning mingit karistust mudeli tühistamise eest. Kus artikkel 22 kehtib — kõikjal, kus otsusel on õiguslik või sarnaselt oluline mõju —, kukub „formaalne heakskiit" testil läbi [2]. Ka USA seisukoht pole tühi: osariigitasandi seadused (Colorado AI Act, NYC AEDT, California kavandatavad ADMT reeglid) ja sektoripõhine täitmine (FTC automatiseeritud otsustamise osas, NIST AI RMF kui hankeviide föderaalseks kasutuseks) suruvad sama distsipliini. ISO/IEC 23894:2023 standardiseerib aluseks oleva riskijuhtimise lähenemise kui „juhise selle kohta, kuidas organisatsioonid ... saavad juhtida konkreetselt tehisintellektiga seotud riski" [7] — puhtaim mitteregulatiivne ankur turgudele, mille tehisintellektipõhised seadused pole veel jõustunud, ning selgroog igale mitut jurisdiktsiooni hõlmavale töökorrale.
Sektoriregulaatorid tugevdavad seda punkti: FCA on tehnoloogianeutraalne [10], ELi vasted EBA ja ECB alusel ühtlustuvad kõrgema juhtkonna vastutuse osas, ning BoE/FCA 2024. aasta uuring näitab, et vastutus on enamikus küsitletud ettevõtetes tavaliselt killustatud kolme või enama vastutava poole vahel [9].
§§2–5 disainiküsimused on vastavusküsimused üle kolme õigustraditsiooni. HITL-i sel viisil ehitamise eest makstakse korra; ümberehituse eest pärast auditi läbikukkumist makstakse igas kvartalis.
§8 — Milline näeb välja neljanädalane HITL-i disainisprint?
Ümberkujundus on piiritletud: operatsioonide juhi sprint, mitte programm.
1. nädal — mõõtke praegune seis. Inventeerige iga „inimkontrolli" samm. Tõmmake välja heakskiidumäärad, läbivaatuse kestuse jaotused, tühistamiste salvestuse seis, järjekordade pikkused. Passiivse heakskiidu signatuur: kõrge heakskiidumäär, madal läbivaatuse kestus, struktureeritud tühistamise põhjendus puudub.
2. nädal — kujundage otsustusrajad. Seadke usaldusväärsuse lävipunktid igale töövoole, kasutades §2 lähtepunkte. Kujundage varurajad §3 järgi. Määratlege tühistamiste auditiskeem §4 järgi. Dokumenteerige policy_version v1.0 koos lävipunktide väärtuste, omanike ja SLA-dega.
3. nädal — juurutage, koolitage, koguge andmeid. Ehitage sisse liidese muudatused — tooge mudeli arutluskäik ja usaldusväärsus vaataja ekraanile. Koolitage vaatajate kogum läbitöötatud näidetel. Alustage reaalset tegevust täieliku auditilogimisega juba esimesest päevast.
4. nädal — esimene kalibreerimisülevaatus ja auditivalmis dokumentatsioon. Käivitage §5 tsükkel 3. nädala andmete vastu; ilmsed triivisignaalid tulevad esile ka lühikese akna puhul. Pange kokku artefaktikomplekt: lävipunktide määratlused, paranduste määra töölaud, eskaleerimisradade inventuur, vastutuskaart. Tulemus on positsioon, mida testida 50 küsimuse vastu, mida otsustajad esitavad enne tehisintellekti juurutamistEN, mis katab Q3.10, Q5.4, Q5.5 ja Q5.7.
Kuluvahemik: 20–40 tundi operatsioonide juhi aega. Väljund: artiklile 14 valmis järelevalveprotokoll, artikli 22 mõttes kaitstav „sisulise inimkontrolli" positsioon ja NIST RMF-iga kooskõlas olev MANAGE funktsioon.
Heakskiidust distsipliinini
Neli nädalat pärast ümberkujundust on töömuster nihkunud. HITL-i maht kahjukäsitluse töövoos on langenud 70%, sest automaatne tagasilükkamine teeb läve-alusel vööndil reaalset tööd. Keskmine läbivaatusaeg juhtumitel, mis HITL-i siiski jõuavad, on tõusnud umbes neljale minutile — ajale, mille struktureeritud läbivaatus tegelikult võtab. Paranduste määr on stabiliseerunud 14% juures, terve 5–20% vööndi sees, ja iga tühistatud juhtum kannab struktureeritud põhjendust. Vastavuskontrolli ametniku küsimusel on nüüd vastus, millel on versiooninumbrid küljes.
Vahe audititeatri ja auditis kaitstava järelevalve vahel ei seisne selles, kui tõsiselt ettevõte inimkontrollist räägib. See seisneb selles, kas läbivaatus on kujundatud lävipunktide süsteem või ühe klõpsu kinnitus. Üks läbib artikli 14. Teine mitte.
Et hinnata, kus HITL-i disain organisatsiooni reguleeritud töövoogude lõikes paikneb, kaardistab easy-audit.ai selle kahe tunni struktureeritud küsimustega.
Kokkuvõte
HITL — designed oversight, not passive sign-off │ ├─ The failure · audit theatre │ ├─ Passive sign-off — one-click approve, no reasoning shown │ └─ Rubber-stamp test — >98% approve, <10s review fails it │ ├─ The system · thresholds & routes │ ├─ Three routes — auto-reject / HITL review / auto-approve │ ├─ Risk overlay — confidence × severity sets escalation │ └─ Fallback paths — named owner, SLA, override audit log │ └─ The discipline · stays honest ├─ Healthy band — 5–20% override; outside it, tune or retrain └─ Quarterly cycle — measure, spot drift, re-version, document
Frequently Asked Questions
Millise usaldusväärsuse läviga peaks reguleeritud töövoos alustama?
Mille poolest erineb HITL lõppu külgeriputatud inimkontrolli sammust?
Milline on terve paranduste määr ja miks see loeb?
Kas HITL rahuldab automatiseeritud otsuste sisulise inimkontrolli testi?
Millal hakkab kehtima EU AI Act artikli 14 järelevalvekohustus?
Sources
- 1.EU AI Act Regulation 2024/1689, Article 14 — Human Oversight — Official Journal of the European Union · 2024
- 2.Guidance on AI and Data Protection — landing — Information Commissioner's Office (ICO) · 2024
- 3.Guidance on AI and Data Protection — full — Information Commissioner's Office (ICO) · 2024
- 4.AI Playbook for the UK Government — UK Department for Science, Innovation and Technology (DSIT) · 2025
- 5.Artificial Intelligence Risk Management Framework 1.0 — National Institute of Standards and Technology (NIST) · 2023
- 6.NIST AI 600-1 — Generative AI Profile — National Institute of Standards and Technology (NIST) · 2024
- 7.ISO/IEC 23894:2023 — Information Technology, AI, Guidance on Risk Management — International Organization for Standardization (ISO) · 2023
- 8.ISO/IEC 42001:2023 — Information Technology, AI, Management System — International Organization for Standardization (ISO) · 2023
- 9.Artificial Intelligence in UK Financial Services 2024 — Bank of England + Financial Conduct Authority · 2024
- 10.AI Update — Financial Conduct Authority (FCA) · 2024
Want this run on your business?
AI Foundation Audit — a structured assessment of your AI footprint: integration risks, governance gaps, ROI opportunities. Delivered as a comprehensive report you can act on.
You receive your Executive Report and Implementation Brief — tailored to your business and delivered immediately.