Salvaguardas
Mecanismos técnicos y procedimentales que mantienen el comportamiento de la IA dentro de límites aceptables y evitan salidas dañinas o no conformes.
Definición
Las salvaguardas son mecanismos técnicos y procedimentales que constriñen el comportamiento de un sistema de IA dentro de límites aceptables, evitando salidas o acciones que puedan causar daño, violar políticas o incumplir requisitos regulatorios. A diferencia de la monitorización pasiva, las salvaguardas intervienen activamente para bloquear, modificar o escalar operaciones que exceden parámetros definidos.
Los requisitos del EU AI Act de gestión de riesgos, supervisión humana y robustez dependen de salvaguardas eficaces. El artículo 9 exige medidas para eliminar o reducir riesgos, y el artículo 14 exige mecanismos que permitan intervención humana. Las salvaguardas convierten estos requisitos en controles operativos en tiempo de ejecución, asegurando que el cumplimiento no sea solo documentación, sino aplicación activa. Para agentes de IA que realizan acciones autónomas, las salvaguardas son especialmente críticas: un agente que puede enviar correos, ejecutar transacciones o acceder a datos sensibles necesita límites ejecutables que impidan acciones no autorizadas o dañinas. El énfasis en supervisión humana se implementa mediante salvaguardas que “gobiernan” acciones de alto riesgo, exigiendo aprobación humana antes de operaciones irreversibles.
Distinga tipos de salvaguardas y aplíquelas adecuadamente. Las salvaguardas de entrada validan y sanitizan datos o prompts antes de procesar. Las salvaguardas de salida filtran o bloquean respuestas con contenido dañino, sesgado o no conforme. Las salvaguardas de acción evitan que agentes ejecuten operaciones de alto riesgo sin la autorización adecuada.
Un enfoque robusto trata las salvaguardas como policy-as-code: reglas de cumplimiento codificadas y aplicadas programáticamente, en lugar de depender de revisión manual. Esto permite aplicación consistente a escala y mantiene rastros de auditoría. Sin embargo, no todo debe automatizarse: decisiones de alto impacto suelen requerir compuertas de aprobación humana que detienen la ejecución hasta que un operador autorizado revise y apruebe la acción propuesta.
Términos relacionados
Supervisión humana
Mecanismos que garantizan que las personas puedan monitorizar, intervenir y anular la operación de un sistema de IA cuando sea necesario.
Detección de deriva
La monitorización continua del rendimiento de un sistema de IA para identificar degradación o desviaciones respecto al comportamiento esperado.
Gobernanza de la IA
El marco de políticas, procesos y controles que garantiza que los sistemas de IA operen de forma segura, ética y conforme a la normativa.
