Zusammenfassung
Der IDW Prüfungsstandard 861 (03/2023) stellt erstmals einen systematischen Rahmen für die freiwillige Prüfung von KI-Systemen außerhalb der Abschlussprüfung bereit. Der vorliegende Beitrag erläutert die Struktur des Standards, vertieft die zentralen Prüfkriterien und verbindet diese mit praktischen Prüfungshandlungen. Ziel ist es, Wirtschaftsprüfern und verantwortlichen Unternehmensfunktionen eine fundierte und zugleich praxisnahe Orientierung zur Prüfung von KI-Systemen zu geben. Besondere Aufmerksamkeit gilt der Integration von Governance, Datenmanagement, Modellsteuerung und IT-Sicherheit in einen kohärenten Prüfungsansatz.
1. Einleitung (Tz. 1–5)
Künstliche Intelligenz (KI) wird zunehmend in unternehmerischen Entscheidungsprozessen eingesetzt und beeinflusst operative Abläufe ebenso wie strategische Steuerungsmechanismen. Der Einsatz von KI-Systemen führt zu neuen Risiken hinsichtlich Transparenz, Fairness, Nachvollziehbarkeit und rechtlicher Verantwortung. Vor diesem Hintergrund schafft der IDW Prüfungsstandard 861 (03/2023) erstmals einen systematischen Rahmen für die freiwillige Prüfung von KI-Systemen außerhalb der Abschlussprüfung. Ziel ist es, hinreichende Sicherheit über die Angemessenheit und Wirksamkeit solcher Systeme zu erlangen und diese in eine prüfbare Organisations- und Kontrollstruktur einzubetten.
2. Begriffsbestimmung und Elemente eines KI-Systems (Tz. 6–7)
Ein KI-System liegt vor, wenn datenbasierte Modelle mithilfe maschinellen Lernens erstellt und auf neue Daten angewendet werden. Nicht erfasst sind rein regelbasierte Systeme oder klassische Statistikverfahren ohne Lernfähigkeit. Der Prüfungsstandard grenzt den Prüfungsgegenstand klar ab und definiert ein KI-System als Zusammenspiel folgender Elemente:
- KI-Governance / KI-Compliance / KI-Monitoring
- Daten (Trainings-, Validierungs-, Test- und Outputdaten)
- KI-Algorithmus / KI-Modell
- KI-Anwendung
- IT-Infrastruktur
Die KI-Governance bildet den organisatorischen Rahmen und legt Verantwortlichkeiten sowie ethische Leitlinien fest. Die Daten stellen die inhaltliche Grundlage des Lernprozesses dar und bestimmen maßgeblich die Qualität der Ergebnisse. Das KI-Modell fungiert als zentrale Verarbeitungseinheit, während die KI-Anwendung die Integration in betriebliche Prozesse ermöglicht. Die IT-Infrastruktur schließlich stellt die technische Basis dar, ohne die ein sicherer und stabiler Betrieb nicht möglich wäre. Erst das koordinierte Zusammenwirken dieser Elemente erlaubt eine prüfbare und steuerbare Nutzung von KI.
3. Ziel, Prüfungsgegenstand und Prüfungsarten (Tz. 7–10)
Gegenstand der Prüfung ist die Beschreibung des KI-Systems durch die gesetzlichen Vertreter einschließlich der Aussage, dass die eingerichteten Maßnahmen die definierten Kriterien erfüllen. Der Standard unterscheidet zwischen zwei Prüfungsarten:
- Angemessenheitsprüfung
- Wirksamkeitsprüfung
Die Angemessenheitsprüfung beurteilt, ob die eingerichteten Maßnahmen geeignet und zum Prüfzeitpunkt implementiert sind. Sie stellt damit eine Strukturprüfung dar. Die Wirksamkeitsprüfung geht darüber hinaus und untersucht, ob diese Maßnahmen über einen definierten Zeitraum hinweg tatsächlich funktionsfähig waren. Sie erfordert Funktionsprüfungen und liefert eine höhere Prüfungssicherheit.
4. Anforderungen an das KI-System (Tz. 11–19)
Die Beurteilung eines KI-Systems erfolgt anhand vier zentraler Prüfkriterien, die gemeinsam den Maßstab für die Prüfung bilden:
- Ethische und rechtliche Anforderungen
- Nachvollziehbarkeit (Transparenz und Erklärbarkeit)
- IT-Sicherheit
- Leistungsfähigkeit
Die ethischen und rechtlichen Anforderungen zielen darauf ab, KI-Systeme mit fundamentalen Werten wie menschlicher Autonomie, Fairness und Nichtdiskriminierung in Einklang zu bringen. Nachvollziehbarkeit verlangt, dass Entscheidungsprozesse des KI-Systems für sachkundige Dritte erklärbar bleiben. Die IT-Sicherheit orientiert sich an den klassischen Schutzzielen der Informationssicherheit und schützt vor Manipulation und Datenverlust. Die Leistungsfähigkeit beschreibt schließlich, in welchem Maße das KI-System die vom Unternehmen definierten Anforderungen erfüllt. Diese Kriterien sind nicht isoliert zu betrachten, sondern wirken funktional zusammen.
4.1 Maßnahmen bezogen auf die Elemente des KI-Systems (Tz. 20–43)
Der IDW Prüfungsstandard 861 konkretisiert in den Textziffern 20 bis 43 die Anforderungen an Maßnahmen, die sich unmittelbar auf die einzelnen Elemente eines KI-Systems beziehen. Diese Maßnahmen erfüllen die in Tz. 12 formulierten grundlegenden Anforderungen an ein KI-System und werden vom IDW ausdrücklich als geeignete Prüfkriterien angesehen. Sie sind daher zwingend der Prüfung zugrunde zu legen (vgl. Tz. 20).
Die Systematik folgt einer funktionalen Gliederung entlang der wesentlichen Bestandteile eines KI-Systems: KI-Governance, Daten, KI-Algorithmus bzw. -Modell, KI-Anwendung sowie IT-Infrastruktur. Dadurch wird deutlich, dass die Ordnungsmäßigkeit eines KI-Systems nicht isoliert technisch zu beurteilen ist, sondern nur im Zusammenwirken organisatorischer, prozessualer und technischer Maßnahmen.
KI-Governance, KI-Compliance und KI-Monitoring (Tz. 21–27)
Die Anforderungen an die KI-Governance bilden den organisatorischen Rahmen für Entwicklung und Betrieb eines KI-Systems. Durch eine geeignete Aufbau- und Ablauforganisation ist sicherzustellen, dass ethische, gesetzliche, regulatorische sowie unternehmensinterne KI-Ziele und Vorgaben eingehalten werden (vgl. Tz. 21).
Zentral ist hierbei das Vorhandensein einer dokumentierten KI-Strategie, welche die KI-Ziele aus den Unternehmenszielen sowie aus gesetzlichen, regulatorischen und ethischen Anforderungen ableitet (vgl. Tz. 22). KI wird damit explizit in die Unternehmenssteuerung integriert und nicht als isolierte technische Funktion betrachtet.
Diese strategischen Vorgaben sind durch dokumentierte Verfahren und Richtlinien zu operationalisieren. Diese müssen insbesondere organisatorische und technische Maßnahmen festlegen sowie klare Verantwortlichkeiten für Entwicklung, Betrieb, Überwachung und Weiterentwicklung des KI-Systems definieren (vgl. Tz. 23). Damit entsteht ein Governance-Rahmen, der mit etablierten Modellen aus IT-Governance und Risikomanagement vergleichbar ist.
Ein weiteres zentrales Element ist die Festlegung eines anwendungsbezogenen Qualitätsmaßes. Dieses ist nachvollziehbar zu dokumentieren und bei Bedarf anzupassen (vgl. Tz. 24). Qualität wird somit nicht abstrakt definiert, sondern an der jeweiligen Zielsetzung des KI-Systems ausgerichtet.
Zur Sicherstellung der Nachvollziehbarkeit fordert der Standard dokumentierte Prüfpfade, die es ermöglichen, KI-Entscheidungen und deren Begründung transparent darzustellen (vgl. Tz. 25). Diese Prüfpfade bilden sowohl für interne Steuerungsprozesse als auch für externe Prüfungen eine wesentliche Grundlage.
Von besonderer Bedeutung ist die Sicherstellung menschlicher Autonomie. Die Verfahren müssen so ausgestaltet sein, dass jederzeit ein menschlicher Eingriff möglich ist, insbesondere bei kritischen Entscheidungen (vgl. Tz. 26). Damit wird dem Grundsatz „Human-in-the-Loop“ Rechnung getragen.
Schließlich verlangt der Standard eine regelmäßige Überwachung der eingerichteten Maßnahmen. Die Ergebnisse dieser Überwachung sind zu dokumentieren und bei Bedarf durch Verbesserungsmaßnahmen zu adressieren (vgl. Tz. 27). Dadurch wird ein kontinuierlicher Verbesserungsprozess etabliert.
Daten als Grundlage des KI-Systems (Tz. 28–31)
Daten stellen die inhaltliche Basis jedes KI-Systems dar. Der IDW PS 861 fordert, dass verwendete Daten sowie deren Beschaffung und Nutzung mit ethischen, rechtlichen und regulatorischen Anforderungen im Einklang stehen und für den jeweiligen Anwendungsfall geeignet sind (vgl. Tz. 28).
Hierzu müssen Richtlinien und Anweisungen existieren, die insbesondere ethische Anforderungen an die Datenausgestaltung, Qualitätsanforderungen an externe Datenquellen sowie sachliche Anforderungen an Art und Umfang der Daten festlegen (vgl. Tz. 29).
Die Herkunft der Daten ist eindeutig zu identifizieren und zu dokumentieren. Auch Anforderungen an externe Datenanbieter sowie deren Überwachung sind verbindlich zu regeln (vgl. Tz. 30). Datenbeschaffung wird damit selbst zu einem prüfungsrelevanten Prozess.
Darüber hinaus sind technische und organisatorische Maßnahmen zur Sicherstellung der Datensicherheit und zur Nachvollziehbarkeit von Änderungen umzusetzen. Änderungen an Datenbeständen und Datenquellen müssen überwacht, dokumentiert und nachvollziehbar sein (vgl. Tz. 31). Diese Anforderungen entsprechen konzeptionell den Grundsätzen eines revisionssicheren Datenmanagements.
KI-Algorithmus und KI-Modell (Tz. 32–36)
Für den KI-Algorithmus und das zugrunde liegende Modell fordert der Standard ein geeignetes Entwicklungs- und Anpassungsverfahren, das sowohl die Zielerreichung als auch die Nachvollziehbarkeit der getroffenen Entscheidungen sicherstellt (vgl. Tz. 32).
Die Entwicklung und Anpassung muss im Einklang mit den unternehmensintern definierten ethischen Werten erfolgen, insbesondere im Hinblick auf menschliche Autonomie, Fairness und Nichtdiskriminierung (vgl. Tz. 33). Neue Lernmethoden sowie menschliche Eingaben im Trainingsprozess unterliegen einem Test- und Freigabeverfahren. Auch die Weiterentwicklung des Modells im Produktivbetrieb muss einem geordneten Verfahren folgen.
Zur Sicherstellung der Leistungsfähigkeit sind technische Maßnahmen zur Überwachung der Modellperformance einzurichten (vgl. Tz. 34). Zudem muss das Entwicklungsverfahren geänderte Rahmenbedingungen berücksichtigen, die Auswirkungen auf das KI-Modell haben können (vgl. Tz. 35).
Schließlich fordert der Standard technische und organisatorische Maßnahmen zur Sicherung des KI-Algorithmus und des Modells sowie zur Nachvollziehbarkeit von Änderungen (vgl. Tz. 36). Dadurch wird verhindert, dass nicht autorisierte Modelländerungen unbemerkt in produktive Systeme gelangen.
KI-Anwendung (Tz. 37–39)
Die KI-Anwendung stellt die operative Umsetzung des Modells dar. Ihre Entwicklung, Auswahl und Beschaffung muss anhand geeigneter Verfahren erfolgen und den unternehmensinternen Vorgaben entsprechen (vgl. Tz. 37).
Ein strukturiertes Change-Management sowie Test- und Freigabeverfahren stellen sicher, dass nur autorisierte und geprüfte Änderungen produktiv genutzt werden (vgl. Tz. 38). Dadurch wird KI in bestehende IT-Governance- und Kontrollprozesse integriert.
Der Standard fordert außerdem, dass Geschäftsprozesse durch den Einsatz von KI nicht ungewollt unterbrochen oder verlangsamt werden. Der Betrieb des KI-Systems ist anhand geeigneter Kennzahlen regelmäßig zu überwachen (vgl. Tz. 39). Leistungsüberwachung wird damit zu einem kontinuierlichen Steuerungsinstrument.
IT-Infrastruktur (Tz. 40–43)
Die IT-Infrastruktur muss sachgerecht in Abhängigkeit von Ausprägung und Einsatz des KI-Systems gestaltet sein (vgl. Tz. 40). Sie bildet die technische Voraussetzung für Stabilität, Sicherheit und Verfügbarkeit.
Ein aus der KI-Strategie und den mit dem Einsatz von KI-Systemen verbundenen Risiken abgeleitetes KI-Sicherheitskonzept ist erforderlich und in das allgemeine IT-Sicherheitskonzept des Unternehmens einzubetten (vgl. Tz. 41). Dieses Konzept muss dokumentiert, kommuniziert und regelmäßig überprüft werden und insbesondere Zugriffskontrollen, Schutz vor Schadprogrammen, physische Sicherheitsmaßnahmen sowie Datensicherungsverfahren enthalten.
Darüber hinaus ist das KI-System gegen Manipulation, Verlust, Zerstörung und unbefugten Zugriff zu schützen (vgl. Tz. 42). Ergänzend sind Backup- und Recovery-Verfahren vorzusehen, um kritische Datenbestände abzusichern (vgl. Tz. 43).
4.2 Verantwortung der gesetzlichen Vertreter (Tz. 44–45)
Die Verantwortung für Auswahl, Konzeption, Implementierung, Dokumentation und Wirksamkeit des KI-Systems liegt bei der Unternehmensleitung. Der Wirtschaftsprüfer übernimmt keine Gestaltungsfunktion, sondern prüft die eingerichteten Maßnahmen. Diese klare Rollentrennung ist Voraussetzung für ein unabhängiges Prüfungsurteil.
4.3 Beschreibung des KI-Systems (Tz. 46–48)
Die Beschreibung des KI-Systems stellt die zentrale Grundlage der Prüfung dar und enthält die Aussagen der gesetzlichen Vertreter zu den von ihnen eingerichteten Maßnahmen. Sie dient als Referenzrahmen für die Beurteilung von Angemessenheit und – bei Wirksamkeitsprüfungen – der tatsächlichen Funktionsfähigkeit des KI-Systems.
Die Beschreibung muss bestimmte Mindestinhalte umfassen. Dazu gehören die Darstellung der verwendeten Kriterien oder Rahmenwerke, die Abgrenzung und Erläuterung der einzelnen Elemente des KI-Systems sowie eine klare, verständliche, vollständige und aktuelle Darstellung der zur Einhaltung dieser Kriterien eingerichteten Maßnahmen. Darüber hinaus haben die gesetzlichen Vertreter ausdrücklich zu erklären, dass diese Maßnahmen angemessen sind und – sofern eine Wirksamkeitsprüfung erfolgt – im Berichtszeitraum wirksam waren. Wesentliche Veränderungen des KI-Systems im Prüfungszeitraum sind ebenfalls darzustellen.
Angaben, die nicht Gegenstand der Prüfungsvereinbarung sind, dürfen nicht mit prüfungsrelevanten Inhalten vermischt werden, sondern sind entweder zu unterlassen oder eindeutig von diesen abzugrenzen. Dadurch wird sichergestellt, dass sich das Prüfungsurteil ausschließlich auf klar definierte und nachvollziehbare Inhalte bezieht.
5. Anforderungen an die Prüfung (Tz. 49-105)
Der folgende Abschnitt regelt die Anforderungen an den gesamten Ablauf einer Prüfung von KI-Systemen nach IDW PS 861. Er umfasst die Voraussetzungen der Auftragsannahme (Unabhängigkeit, Fachkompetenz des Prüfungsteams, geeignete Kriterien, prüfbare Beschreibung des KI-Systems und klare Auftragsbedingungen), die Festlegung von Wesentlichkeit sowie die sachliche, personelle und zeitliche Prüfungsplanung. Weiter beschreibt er die Prüfungsdurchführung mit dem Verständnis von Unternehmen und KI-System, der Identifikation und Beurteilung wesentlicher Risiken, der Prüfung der Beschreibung des KI-Systems sowie der Angemessenheit und Wirksamkeit der Maßnahmen. Ergänzend werden der Einsatz von Sachverständigen und Interner Revision, der Umgang mit Ereignissen nach dem Prüfungszeitpunkt, sonstigen Informationen und schriftlichen Erklärungen der Unternehmensleitung behandelt. Abschließend regelt der Abschnitt die Auswertung der Prüfungsfeststellungen und die Bildung des Prüfungsurteils einschließlich möglicher Einschränkungen, Versagungen oder zusätzlicher Hinweise.
5.1 Auftragsannahme (Tz. 49–58)
Vor Annahme des Prüfungsauftrags hat der Wirtschaftsprüfer sicherzustellen, dass die berufsrechtlichen Anforderungen sowie die Regelungen des internen Qualitätssicherungssystems eingehalten werden können. Zentrale Voraussetzung ist, dass die Unabhängigkeit gewahrt bleibt und der Prüfungsauftrag fachlich ordnungsgemäß durchgeführt werden kann.
Der Auftrag darf nur angenommen werden, wenn das KI-System eindeutig abgrenzbar und prüfbar ist, geeignete Kriterien vereinbart wurden, eine Beschreibung des KI-Systems vorliegt oder deren Erstellung verbindlich zugesagt ist und Verantwortlichkeiten sowie Art der Berichterstattung vertraglich klar geregelt sind. Bereits bei der Auftragsannahme ist zu prüfen, ob ausreichende Prüfungsnachweise grundsätzlich erlangt werden können. Ergeben sich Umstände, die voraussichtlich zur Nichtabgabe eines Prüfungsurteils führen würden, ist der Auftrag abzulehnen. Änderungen der Auftragsbedingungen sind nur bei sachlich vertretbarer Begründung zulässig und dürfen nicht dazu führen, dass bereits erlangte Prüfungsnachweise unbeachtet bleiben.
Wesentlichkeit bei Prüfungsplanung und -durchführung (Tz. 59)
Wesentlichkeit bildet eine zentrale Bezugsgröße für Planung und Durchführung der Prüfung. Der Wirtschaftsprüfer hat zu beurteilen, welche falschen Darstellungen in der Beschreibung des KI-Systems oder welche Mängel des KI-Systems für das Prüfungsurteil erheblich sind. Diese Beurteilung erfolgt im pflichtgemäßen Ermessen und steuert Umfang, Tiefe und Schwerpunktsetzung der Prüfungshandlungen.
5.2 Prüfungsplanung (Tz. 60–66)
Die Prüfung ist in sachlicher, personeller und zeitlicher Hinsicht so zu planen, dass die Prüfungsziele mit hinreichender Sicherheit erreicht werden können. Art, Umfang und zeitliche Abfolge der Prüfungshandlungen sind festzulegen und in einem Prüfungsprogramm zu dokumentieren.
Das Prüfungsteam muss insgesamt über ausreichende Fachkenntnisse im Bereich von KI-Systemen, über Branchenwissen sowie – sofern erforderlich – über rechtliche Expertise verfügen. Die Planung erfolgt mit einer kritischen Grundhaltung und dem Bewusstsein, dass wesentliche falsche Darstellungen oder Mängel des KI-Systems vorliegen können. Ziel ist es, das Prüfungsrisiko auf ein vertretbar niedriges Maß zu reduzieren.
Dabei ist die jeweilige Prüfungsart – Angemessenheits- oder Wirksamkeitsprüfung – angemessen zu berücksichtigen. Ergänzend sind Maßnahmen der auftragsbezogenen Qualitätssicherung sowie die Durchsicht der Prüfungsergebnisse einzuplanen. Die Relevanz und Verlässlichkeit der vorgesehenen Prüfungsnachweise ist laufend zu würdigen; widersprüchliche oder zweifelhafte Informationen machen eine Anpassung der Prüfungshandlungen erforderlich.
5.3 Prüfungsdurchführung (Tz. 67–95)
Die Prüfungsdurchführung folgt einem systematischen und risikoorientierten Ansatz. Sie umfasst sowohl die organisatorischen Rahmenbedingungen des KI-Systems als auch dessen technische Ausgestaltung und tatsächliche Anwendung.
Verständnis von Unternehmen und KI-System (Tz. 67–69)
Der Wirtschaftsprüfer hat ein angemessenes Verständnis vom Unternehmen, seinem rechtlichen und wirtschaftlichen Umfeld sowie vom beschriebenen KI-System zu erlangen. Hierzu gehören insbesondere die Analyse von Verantwortlichkeiten, Prozessen und internen Kontrollen im Zusammenhang mit der Erstellung der Systembeschreibung. Befragungen der gesetzlichen Vertreter und weiterer geeigneter Personen dienen dazu, mögliche falsche Darstellungen, Gesetzesverstöße oder Systemmängel zu identifizieren sowie den Einsatz von Interner Revision oder Sachverständigen nachzuvollziehen.
Identifizierung und Beurteilung wesentlicher Risiken (Tz. 70–71)
Auf Grundlage dieses Verständnisses sind Risiken wesentlicher falscher Darstellungen der Systembeschreibung sowie Risiken wesentlicher Mängel des KI-Systems zu identifizieren und zu beurteilen. Diese Risikoeinschätzung bildet die Grundlage für die weiteren Prüfungshandlungen. Neue oder widersprüchliche Erkenntnisse erfordern eine Anpassung der Risikobeurteilung und eine Modifikation der geplanten Prüfungsschritte.
Prüfung der Beschreibung des KI-Systems (Tz. 72–74)
Der Wirtschaftsprüfer beurteilt, ob die Beschreibung des KI-Systems vollständig, sachgerecht und verständlich ist und alle erforderlichen Mindestinhalte umfasst. Zudem ist festzustellen, ob die Beschreibung dem aktuellen Stand des KI-Systems entspricht. Wesentliche Änderungen am System müssen in der Beschreibung angemessen berücksichtigt werden. Bei Wirksamkeitsprüfungen ist zusätzlich zu beurteilen, ob Veränderungen innerhalb des Prüfungszeitraums nachvollziehbar dargestellt sind.
Prüfung der Angemessenheit des KI-Systems (Tz. 75–76)
Im Rahmen der Angemessenheitsprüfung wird beurteilt, ob die beschriebenen Maßnahmen geeignet sind, die festgelegten Kriterien mit hinreichender Sicherheit einzuhalten. Der Wirtschaftsprüfer kombiniert hierzu Befragungen mit Beobachtungen sowie Einsichtnahmen in Dokumentationen, Systemeinstellungen und Aufzeichnungen, um festzustellen, ob die Maßnahmen tatsächlich implementiert sind.
Prüfung der Wirksamkeit des KI-Systems (Tz. 77–78)
Die Wirksamkeitsprüfung baut auf der Angemessenheitsprüfung auf und untersucht, ob die Maßnahmen während des gesamten Prüfungszeitraums tatsächlich funktioniert haben. Hierzu sind Funktionsprüfungen erforderlich; reine Befragungen reichen nicht aus. Wurden Maßnahmen im Prüfungszeitraum geändert, ist ihre Wirksamkeit sowohl vor als auch nach der Änderung zu beurteilen.
Zusätzliche Prüfungshandlungen (Tz. 79–95)
Der Wirtschaftsprüfer kann sich bei der Prüfung der Unterstützung von Sachverständigen, anderen Prüfern oder der Internen Revision bedienen, bleibt jedoch in jedem Fall für das Prüfungsurteil verantwortlich. Kompetenz und Objektivität der herangezogenen Personen sind zu beurteilen. Ereignisse nach dem Prüfungszeitpunkt sind bis zum Datum der Berichterstattung zu würdigen. Nicht prüfungsgegenständliche sonstige Informationen in der Systembeschreibung sind klar von prüfungsrelevanten Inhalten abzugrenzen; wesentliche Unstimmigkeiten können zu Einschränkung oder Versagung des Prüfungsurteils führen. Vor Abschluss der Prüfung sind schriftliche Erklärungen der gesetzlichen Vertreter einzuholen; bei Zweifeln an deren Verlässlichkeit sind die Auswirkungen auf das Prüfungsurteil kritisch zu würdigen.
5.4 Auswertung der Prüfungsfeststellungen und Bildung des Prüfungsurteils (Tz. 96–105)
Der Wirtschaftsprüfer beurteilt, ob ausreichende geeignete Prüfungsnachweise als Grundlage für sein Prüfungsurteil vorliegen. Auf dieser Basis ist zu entscheiden, ob nicht korrigierte falsche Darstellungen oder festgestellte Mängel als wesentlich einzustufen sind. Liegen keine wesentlichen Mängel vor, ist ein uneingeschränktes Prüfungsurteil abzugeben. Bei wesentlichen, jedoch nicht durchgreifenden Mängeln ist das Urteil einzuschränken; bei gravierenden oder umfassenden Mängeln ist es zu versagen.
Kann der Wirtschaftsprüfer keine ausreichenden Prüfungsnachweise erlangen, liegt ein Prüfungshemmnis vor, das je nach Tragweite zur Einschränkung oder zur Erklärung der Nichtabgabe eines Prüfungsurteils führt. Einschränkungen, Versagungen oder die Nichtabgabe eines Prüfungsurteils sind eindeutig zu kennzeichnen und zu begründen. Zusätzlich können Hinweise zur Hervorhebung wesentlicher Sachverhalte oder erläuternde Hinweise erforderlich sein, ohne dass dadurch das Prüfungsurteil selbst verändert wird.ch aufeinander auf und gewährleisten eine systematische Prüfung.
6. Dokumentation der Prüfungshandlungen (Tz. 106–111)
Der Wirtschaftsprüfer hat seine Prüfungshandlungen und die erlangten Prüfungsnachweise zeitnah und vollständig in den Arbeitspapieren zu dokumentieren (vgl. Tz. 106). Die Dokumentation muss so ausgestaltet sein, dass ein erfahrener, nicht am Auftrag beteiligter Prüfer die Einhaltung der Berufspflichten, Art und Umfang der Prüfungshandlungen sowie die wesentlichen Prüfungsergebnisse nachvollziehen kann (vgl. Tz. 107).
Die Nutzung von Arbeiten der Internen Revision oder von Sachverständigen ist einschließlich der eigenen Beurteilung zu dokumentieren (vgl. Tz. 108). Ergeben sich nachträglich neue Erkenntnisse zu bedeutsamen Sachverhalten, sind die ergriffenen Maßnahmen festzuhalten (vgl. Tz. 109).
Die Auftragsdokumentation ist zeitnah nach Berichterstattung abzuschließen; nachträgliche Löschungen sind unzulässig. Änderungen oder Ergänzungen sind nur mit Begründung, Zeitangabe und Verantwortlichkeit zu dokumentieren (vgl. Tz. 110–111).Prüfungshandlungen in der Praxis – Beispiel KI-System
Zur Illustration soll ein KI-System betrachtet werden, das zur automatisierten Bonitätsprüfung eingesetzt wird. Im Rahmen der Angemessenheitsprüfung analysiert der Wirtschaftsprüfer zunächst die dokumentierte KI-Strategie und die Beschreibung der verwendeten Trainingsdaten. Anschließend werden die Modellarchitektur sowie die Test- und Freigabeverfahren beurteilt. Bei einer Wirksamkeitsprüfung wird zusätzlich untersucht, ob die Kontrollmechanismen während des Prüfzeitraums tatsächlich eingehalten wurden, beispielsweise durch Stichproben aus Entscheidungsprotokollen und durch Nachvollzug von Modellanpassungen. Dieses Beispiel verdeutlicht, dass KI-Prüfung sowohl technisches Verständnis als auch organisatorische und rechtliche Beurteilung erfordert.
7. Prüfungsbericht und Prüfungsurteil (Tz. 112–118)
Der Wirtschaftsprüfer hat einen schriftlichen Prüfungsbericht zu erstellen, der ein klar formuliertes Prüfungsurteil enthält oder – falls erforderlich – eine Erklärung, dass kein Prüfungsurteil abgegeben werden kann (vgl. Tz. 112). Das Prüfungsurteil ist dabei deutlich von erläuternden Informationen zu trennen (vgl. Tz. 113).
Der Prüfungsbericht muss bestimmte Mindestbestandteile enthalten, insbesondere Angaben zu Prüfungsgegenstand, Verantwortlichkeiten von Unternehmensleitung und Prüfer, angewandten Kriterien, Art und Umfang der Prüfung sowie Hinweise auf inhärente Grenzen von KI-Systemen und die Zweckbindung des Berichts (vgl. Tz. 114–116). Die Beschreibung des KI-Systems ist als Anlage beizufügen.
Zulässige Prüfungsurteile unterscheiden sich nach Prüfungsart:
Bei einer Angemessenheitsprüfung lautet das Prüfungsurteil, dass
- die Beschreibung des KI-Systems den Mindestinhalten des IDW PS 861 entspricht und
- die dargestellten Maßnahmen geeignet und zum Prüfzeitpunkt implementiert sind
(vgl. Tz. 117).
Bei einer Wirksamkeitsprüfung lautet das Prüfungsurteil, dass
- die Beschreibung des KI-Systems den Mindestinhalten des IDW PS 861 entspricht und
- die dargestellten Maßnahmen geeignet,
- im geprüften Zeitraum implementiert und
- im geprüften Zeitraum wirksam waren
(vgl. Tz. 118).
Neben diesen positiven Urteilen ist auch zulässig, dass der Wirtschaftsprüfer erklärt, kein Prüfungsurteil abgeben zu können, wenn die Voraussetzungen hierfür nicht vorliegen (vgl. Tz. 112).
Damit legt der IDW PS 861 klar fest, dass Prüfungsurteile ausschließlich strukturiert nach Angemessenheit und Wirksamkeit erfolgen und stets an die dokumentierte Beschreibung des KI-Systems sowie die definierten Kriterien gebunden sind.
8. Inhalte des Anhangs ab Kapitel 6 – Anwendungshinweise und fachliche Konkretisierung
Der Anhang des IDW PS 861 dient der fachlichen Auslegung und praktischen Konkretisierung der normativen Anforderungen des Standards. Er erläutert zentrale Begriffe, vertieft die Prüfungslogik und gibt methodische Hinweise zur Umsetzung der Prüfung von KI-Systemen.
Ein wesentlicher Schwerpunkt liegt auf der Begründung und Auslegung der Prüfungsziele und -kriterien. Der Anhang konkretisiert, wie Kriterien zur Beurteilung von KI-Systemen auszuwählen und zu bewerten sind, und stellt klar, dass diese nicht nur formal geeignet, sondern auch inhaltlich nachvollziehbar, konsistent und für die vorgesehenen Nutzer verständlich sein müssen. Dabei wird insbesondere auf die Bedeutung von Transparenz, Nachvollziehbarkeit und Dokumentation hingewiesen.
Weiter erläutert der Anhang die Risikoorientierung der Prüfung. Er beschreibt typische Risikofelder bei KI-Systemen, etwa im Zusammenhang mit Datenqualität, Modellveränderungen, menschlicher Kontrolle, IT-Sicherheit oder ethischen Anforderungen. Diese Risiken bilden die Grundlage für die Ausgestaltung der Prüfungshandlungen und die Entscheidung, ob eine Angemessenheits- oder eine Wirksamkeitsprüfung durchzuführen ist.
Ergänzend enthält der Anhang konkrete Beispiele für mögliche Feststellungen und typische Risikoszenarien. Diese reichen von unzureichend dokumentierten Trainingsdaten über fehlende menschliche Eingriffsmöglichkeiten bis hin zu nicht nachvollziehbaren Modelländerungen oder unklaren Verantwortlichkeiten im Betrieb des KI-Systems. Damit unterstützt der Anhang die Prüfer bei der Einordnung praktischer Sachverhalte und bei der Ableitung angemessener Prüfungshandlungen.
Ein weiterer Schwerpunkt betrifft die Abgrenzung der Verantwortlichkeiten zwischen Unternehmensleitung und Wirtschaftsprüfer. Der Anhang verdeutlicht, dass die Beschreibung des KI-Systems und die Festlegung der Kriterien in der Verantwortung der gesetzlichen Vertreter liegen, während der Wirtschaftsprüfer diese Beschreibung prüft und darauf aufbauend sein Urteil bildet. Zugleich wird herausgestellt, dass die Verantwortung für das Prüfungsurteil nicht auf Sachverständige oder andere Prüfer übertragen werden kann.
Darüber hinaus enthält der Anhang detaillierte Hinweise zur Gestaltung der Prüfungshandlungen. Er konkretisiert, welche Arten von Prüfungshandlungen (z. B. Befragungen, Einsichtnahmen, Beobachtungen, Funktionsprüfungen) in welchen Prüfungssituationen angemessen sind und warum reine Befragungen für Wirksamkeitsprüfungen regelmäßig nicht ausreichen. Besondere Aufmerksamkeit gilt der Prüfung von Änderungen am KI-System sowie der Bewertung von Trainings- und Lernprozessen.
Ein eigenes Themenfeld bildet der Umgang mit sonstigen Informationen und Ereignissen nach dem Prüfungszeitpunkt. Der Anhang erläutert, wie nicht prüfungsrelevante Informationen in der Systembeschreibung abzugrenzen sind und unter welchen Umständen sie dennoch Auswirkungen auf das Prüfungsurteil haben können. Ebenso wird dargelegt, wie nachträgliche Erkenntnisse bis zum Berichtsdatum in die Beurteilung einzubeziehen sind.
Schließlich konkretisiert der Anhang die Ausgestaltung des Prüfungsurteils und der Berichterstattung. Er erläutert die Unterschiede zwischen uneingeschränktem, eingeschränktem und versagtem Prüfungsurteil sowie der Erklärung der Nichtabgabe eines Urteils und gibt Hinweise zur Formulierung von Hervorhebungs- und sonstigen Hinweisen. Ziel ist eine klare, transparente und für die Adressaten verständliche Berichterstattung.
9. Fazit
Der IDW PS 861 stellt einen Meilenstein für die prüfbare Gestaltung von KI-Systemen dar. Er verbindet technische, organisatorische, ethische und rechtliche Anforderungen zu einem integrierten Prüfungsrahmen. Für Unternehmen bedeutet dies, dass KI nicht als Black Box betrieben werden darf. Für Wirtschaftsprüfer eröffnet sich ein neues interdisziplinäres Prüfungsfeld, das IT-Kompetenz, Organisationsverständnis und rechtliche Expertise vereint.
Gern unterstützen wir Sie als Unternehmen bei der Umsetzung der Anforderungen und Sicherstellung der Prüfbarkeit Ihrer KI-Systeme und als Wirtschaftsprüfer in der Prüfung dieser. Bei Bedarf führen wir auch Workshops und Coachings zum Prüfungsvorgehen, Dokumentation und Berichterstattung durch.