Barriere di sicurezza
Meccanismi tecnici e procedurali che vincolano il comportamento dell'IA entro limiti accettabili e prevengono output dannosi o non conformi.
Definizione
Le barriere di sicurezza (guardrail) sono meccanismi tecnici e procedurali che vincolano il comportamento di un sistema di IA entro confini accettabili, prevenendo output o azioni che potrebbero causare danni, violare policy o requisiti regolatori. A differenza del monitoraggio passivo, le barriere intervengono attivamente per bloccare, modificare o escalare operazioni che superano parametri definiti.
I requisiti del EU AI Act su gestione del rischio, supervisione umana e robustezza dipendono da barriere efficaci. L'articolo 9 richiede misure per eliminare o ridurre i rischi e l'articolo 14 impone meccanismi per l'intervento umano. Le barriere traducono questi requisiti in controlli runtime, garantendo che la conformità non sia solo documentata, ma applicata durante il funzionamento. Per agenti IA che compiono azioni autonome, le barriere sono cruciali: un agente che può inviare email, eseguire transazioni o accedere a dati sensibili deve avere confini eseguibili che impediscano azioni non autorizzate. L'enfasi sulla supervisione umana si implementa con barriere che "gattano" azioni ad alto rischio, richiedendo approvazione umana prima di operazioni irreversibili.
Distinguete tipi di barriere e applicatele in modo appropriato. Le barriere di input validano e sanitizzano dati o prompt. Le barriere di output filtrano o bloccano risposte con contenuti dannosi, biasati o non conformi. Le barriere di azione impediscono che agenti eseguano operazioni ad alto rischio senza autorizzazione.
L'approccio più robusto tratta le barriere come policy-as-code: regole codificate e applicate programmaticamente, anziché dipendere da revisioni manuali. Questo consente enforcement coerente su larga scala e mantiene tracce di audit. Tuttavia, non tutte le barriere devono essere completamente automatizzate: decisioni ad alto impatto spesso richiedono gate di approvazione umana che sospendono l'esecuzione finché un operatore autorizzato non revisiona e approva l'azione proposta.
Termini correlati
Supervisione umana
Meccanismi che garantiscono che le persone possano monitorare, intervenire e sovrascrivere l'operatività di un sistema di IA quando necessario.
Rilevamento della deriva
Il monitoraggio delle performance di un sistema di IA nel tempo per individuare degradazioni o deviazioni dal comportamento atteso.
Governance dell'IA
Il quadro di politiche, processi e controlli che garantisce che i sistemi di IA operino in modo sicuro, etico e conforme alle normative.
