Garde-fous
Des mécanismes techniques et procéduraux qui maintiennent un système d'IA dans des limites acceptables et empêchent des sorties nuisibles ou non conformes.
Définition
Les garde-fous sont des mécanismes techniques et procéduraux qui contraignent le comportement d'un système d'IA à des limites acceptables, en empêchant des sorties ou des actions susceptibles de causer un préjudice, de violer des politiques ou de contrevenir aux exigences réglementaires. Contrairement à une surveillance passive, les garde-fous interviennent activement pour bloquer, modifier ou escalader des opérations IA qui dépassent des paramètres définis.
Les exigences du EU AI Act en matière de gestion des risques, de supervision humaine et de robustesse reposent toutes sur des garde-fous efficaces. L'article 9 impose la mise en œuvre de mesures qui éliminent ou réduisent les risques, tandis que l'article 14 exige des mécanismes permettant une intervention humaine. Les garde-fous traduisent ces exigences en contrôles opérationnels exécutés à l'exécution, garantissant que la conformité n'est pas seulement documentée, mais appliquée activement pendant le fonctionnement. Pour des agents IA capables d'actions autonomes, les garde-fous deviennent encore plus critiques : un agent qui peut envoyer des emails, exécuter des transactions ou accéder à des données sensibles doit avoir des limites opposables empêchant des actions non autorisées ou dangereuses. L'accent mis sur la supervision humaine est concrètement mis en œuvre par des garde-fous qui conditionnent les actions à risque, en exigeant une approbation humaine avant que des opérations irréversibles ne se produisent.
Les organisations doivent distinguer différents types de garde-fous et les déployer de manière appropriée. Les garde-fous d'entrée valident et assainissent les données ou prompts avant traitement. Les garde-fous de sortie filtrent ou bloquent des réponses contenant des contenus nuisibles, biaisés ou non conformes. Les garde-fous d'action empêchent des agents d'exécuter des opérations à haut risque sans autorisation appropriée.
L'approche la plus robuste traite les garde-fous comme de la policy-as-code : des règles de conformité codifiées et appliquées de manière programmatique plutôt que via une revue manuelle de chaque transaction. Cela permet une application cohérente à grande échelle tout en maintenant des pistes d'audit sur l'application des politiques. Toutefois, tous les garde-fous ne doivent pas être entièrement automatisés : les décisions à enjeux élevés nécessitent souvent des portes d'approbation humaine qui suspendent l'exécution jusqu'à ce qu'un opérateur autorisé examine et approuve l'action proposée.
Termes connexes
Supervision humaine
Des mécanismes garantissant que des humains peuvent surveiller, intervenir et outrepasser le fonctionnement d'un système d'IA lorsque nécessaire.
Détection de dérive
La surveillance des performances d'un système d'IA dans le temps afin d'identifier une dégradation ou une dérive par rapport au comportement attendu.
Gouvernance de l'IA
Le cadre de politiques, de processus et de contrôles qui garantit que les systèmes d'IA fonctionnent de manière sûre, éthique et conforme aux réglementations.
