Erklärbarkeit
Die Fähigkeit, nachzuvollziehen und zu kommunizieren, wie ein KI-System zu Outputs oder Entscheidungen gelangt.
Begriffserklärung
Erklärbarkeit beschreibt, in welchem Maß Menschen die Begründung hinter Outputs, Vorhersagen oder Entscheidungen eines KI-Systems verstehen und artikulieren können. Das umfasst sowohl technische Interpretierbarkeit (Verständnis interner Modellmechanismen) als auch praktische Transparenz (Erklärungen für Betroffene in verständlicher Form).
Der EU AI Act verankert Erklärbarkeit als Teil vertrauenswürdiger KI über die Transparenzanforderungen aus Artikel 13. Hochrisiko-KI muss so gestaltet sein, dass Nutzer Outputs angemessen interpretieren und Systemverhalten verstehen können. Das ist nicht nur ein technisches Häkchen, sondern Voraussetzung für menschliche Aufsicht: Entscheidungen lassen sich nicht sinnvoll überwachen, wenn sie nicht nachvollziehbar sind. In hochwirksamen Kontexten wie Kredit oder Hiring ist Erklärbarkeit sowohl regulatorische Pflicht als auch ethischer Imperativ. Der Rechtsakt erkennt an, dass „ausreichende Transparenz“ nicht bedeutet, jedes Gewicht vollständig interpretierbar zu machen. Stattdessen müssen Erklärungen risikoadäquat und für die Zielgruppe verständlich sein, ob Compliance Officer oder betroffene Person.
Organisationen müssen Erklärbarkeit auf mehreren Ebenen umsetzen. Auf Model-Ebene kommen Techniken wie SHAP values, LIME oder attention visualization zum Einsatz, um Feature-Importance und Entscheidungswege zu verstehen. Auf Decision-Ebene sollten Systeme menschenlesbare Erklärungen pro Output erzeugen, die in Aufsichtsworkflows geprüft oder Betroffenen auf Anfrage bereitgestellt werden können.
Die Herausforderung ist, Erklärbarkeit mit Modellleistung und operativer Effizienz auszubalancieren. Die Erklärbarkeitsstrategie sollte als Teil der technischen Dokumentation nach Anhang IV dokumentiert werden: verwendete Methoden, pro Entscheidung erfasste Informationen und Zugänglichkeit für relevante Stakeholder.
Verwandte Begriffe
Menschliche Aufsicht
Mechanismen, die sicherstellen, dass Menschen KI-Systeme überwachen, eingreifen und sie bei Bedarf außer Kraft setzen können.
Bias-Erkennung
Der Prozess, unfairen oder diskriminierenden Muster in KI-Ausgaben oder Trainingsdaten zu identifizieren und zu messen.
Modellkarte
Ein standardisiertes Dokument, das Zweck, Performance, Grenzen und ethische Aspekte eines KI-Modells beschreibt.
