ChatGPT für echte Steuerberatung? Einsatzmöglichkeiten der KI

Von Dr. Rainer Bräutigam und Steffen Kirchhoff

ChatGPT und ähnliche Sprachmodelle erhalten auch im Bereich der Steuerberatung starke Aufmerksamkeit. Dabei wird zumeist darauf verwiesen, dass die aktuellen Modellfähigkeiten noch nicht für einen tatsächlichen steuerfachlichen Einsatz ausreichen. Aber ist dies auch langfristig der Fall? Der nachfolgende Artikel umschreibt anhand der technischen Grundlagen zunächst, an welche Grenzen die aktuellen Modelle noch stoßen und wie ChatGPT und KI schon in Kürze für neue Arbeitsweisen in der Steuerkanzleien sorgen werden.

ChatGPT antwortet nicht – es berechnet Wahrscheinlichkeiten

ChatGPT basiert technisch auf einem sogenannten Large Language Model (LLM). Ein Maßstab für Größe, und damit häufig einhergehend für die Qualität, eines LLMs ist der Umfang der trainierten Parameter des dem Sprachmodell zugrunde liegenden neuronalen Netzwerks und die Anzahl der beim Training verwendeten Teilwörter. Die genaue Größe des GPT-4-Modells wurde zwar nicht von OpenAI veröffentlicht, Schätzungen gehen jedoch davon aus, dass sich das GPT-4-Modell im Bereich von ca. 1 Billionen Parametern bewegt und ca. 20 Billionen Teilwörter zum Training verwendet worden sind. Diese ungeheure Größe an Trainingsdaten führt auch dazu, dass für das „Anlernen“ des Modells zunächst kein menschliches Zutun benötigt wird. Das Modell versucht, in den Trainingsdaten stets Muster und Ähnlichkeiten zu erkennen und „lernt“ daraus, welche Wörter z. B. häufig in Zusammenhang miteinander verwendet werden. Aufgrund der großen Masse an Trainingsdaten lassen sich so sehr viele sinnvolle Kombinationen ableiten. Außerdem ist wichtig zu verstehen, dass bei einem LLM quasi immer die höchste Wahrscheinlichkeit des nächsten Teilworts berechnet wird – ausgehend vom bereits bekannten Kontext, wie z. B. der entsprechenden Nutzeranfrage sowie der bereits produzierten Antwort. Somit ist die von ChatGPT generierte Antwort als eine Aneinanderreihung „wahrscheinlichster Einzelwörter“ zu verstehen. Zur maßgeblichen Erhöhung der Qualität der Antworten ist es nachgelagert notwendig, dem Modell zumindest anhand von einem kleineren Satz von Trainingsdaten deutlich zu machen, welche Antworten aufgrund welcher Merkmale präferiert werden. Die dabei „gelernten“ Zusammenhänge werden vom Modell wieder generalisiert auf alle Anfragen angewandt.

„Weltdatenbank“ als Hindernis beim „steuerfachlichen Einsatz“

Mittlerweile sind zum Thema ChatGPT eine große Anzahl an Handlungsanleitungen und allgemeine Einschätzungen verfügbar, wie ChatGPT aktuell in der Steuerberatung angewandt werden kann. Häufig wird darauf verwiesen, dass ein steuerfachlicher Einsatz aktuell nur schwer möglich ist und eher „Nebentätigkeiten“ (z. B. das Erstellen von Stellenanzeigen oder Blogbeiträgen) mit Unterstützung von ChatGPT erledigt werden sollten.

Als Hauptgrund wird bisher zumeist angeführt, dass das Modell nicht spezifisch auf Steuerliteratur trainiert ist und viele notwendige, tiefgehende Quellen von Verlagsseite bereitgestellt werden müssten. Neben diesen Gründen soll jedoch darauf hingewiesen werden, dass Antworten von ChatGPT bei fachlichen Fragen auch langfristig unvollständig bzw. inkorrekt sein können: Aufgrund der ungeheuren Datenmenge an Quellen und der wortweisen Wahrscheinlichkeitsberechnung besteht immer die Gefahr, dass andere Quellen (die eventuell aus anderen Rechtsgebieten stammen) die Antwort verfälschen und eventuell sogar zu sogenannten „KI-Halluzinationen“ führen. Diese Problematik lässt sich mit entsprechend ausführlichen und detaillierten Suchanfragen eingrenzen, aber modellimmanent ist es dennoch, dass „zwanghaft“ versucht wird, eine Antwort auf die gestellte Frage im gesamten Korpus des vorhandenen Datensatzes zu finden.

Diese Merkmale haben sich auch in unseren eigenen Experimenten gezeigt^[1]. Eine steuerfachliche Prüfungsaufgabe konnte von der aktuellen Modellgeneration GPT-4 bereits knapp bestanden werden, da dort im entsprechenden Korpus des Modells entsprechend große Datenmengen vorhanden sind, um eine hinreichend korrekte Antwort zu formulieren. Demgegenüber war es zumindest beim Modell ChatGPT 3.5 stellenweise der Fall, dass eine Frage nach Quellen für ein Thema in einer spezifischen steuerfachlichen Zeitschrift mittels Halluzination beantwortet wurde: Autorennamen und Titel der Aufsätze hörten sich vielversprechend an – waren aber bei näherer Prüfung in der Realität nicht existent. Eine signifikante Qualitätsverbesserung zwischen den beiden Modellen 3.5 und 4 ist also bereits in wenigen Monaten erreicht worden. Doch wie gelingt der Sprung von einer „knapp bestandenen“ zu einer „sehr gut bestandenen“ steuerfachlichen Prüfungsaufgabe?

Fachspezifische Modelle mit Zugriff auf aktuelles Fachwissen aus Verlagsdatenbanken als Königsweg?

Ausgehend von der obigen Sachlage ist ein vielversprechender Ansatz, die modellbedingten Stärken in der Textgenerierung von ChatGPT mit einer deutlich größeren Menge an steuerfachlichen Informationen zu kombinieren. So, dass nicht mehr eine „Weltdatenbank“, sondern eine „Steuerdatenbank“ Grundlage der generierten Antworten ist. Neben einer stärkeren steuerfachlichen Tiefe ließe sich so auch der Hang zur zwanghaften Beantwortung von Fragen und die Gefahr von Halluzinationen reduzieren.

An solchen fachspezifischen Sprachmodellen, denen zur Beantwortung steuerfachlicher Fragen Zugriff auf Verlagsdatenbanken gewährt wird, arbeitet Taxy.io in enger Zusammenarbeit mit Kanzleien und Verlagen. Aktuelle Versuche bauen neben kostenfrei zugänglichen Arbeitsmaterialien (Gesetze, Verwaltungsanweisungen, Urteile) auch umfangreiche Kommentarliteratur und Zeitschriftenartikel ein. Bei den Antworten wird transparent gemacht, auf welchen Quellen die generierte Antwort aufbaut, sodass eine einfachere Überprüfung der gegebenen Antwort möglich ist. Außerdem ist es aktuell bereits möglich, eigene Kanzleidokumente in die Anwendung zu integrieren, die dann ebenfalls im Rahmen der Antwortgenerierung Berücksichtigung finden. Eine Anmeldung zur limitierten BETA-Phase mit Inhalten des Verlag Dr. Otto Schmidt ist unter taxy.io möglich.

Durch diese technologische Entwicklung wird es in näherer Zukunft möglich sein, ein höchst individuelles Sprachmodell zu erstellen, zu trainieren und somit auch in die Hauptarbeit von Steuerkanzleien zu integrieren. In Anbetracht der hohen sprachlichen Qualität und der direkten Angabe von Quellen, die dann zur weiteren (eigenen) Recherche genutzt werden können, sind hier hohe Effizienzgewinne zu erwarten. Dies kann in Anbetracht der hohen Arbeitsbelastung und des gleichzeitigen Fachkräftemangels eine große Erleichterung für Steuerkanzleien darstellen. Sollte das technologische Entwicklungstempo so beibehalten werden, wird dies vermutlich schon sehr zeitnah Realität sein.

Langfristige Grenzen von KI in der Steuerberatung

Der steuerberatende Berufsstand wird sich durch den Einsatz von KI nachhaltig verändern. Anstelle der aufwendigen Recherche und dem anschließenden Zusammenfassen der gewonnenen Informationen in eigenen ausformulierten Worten (z. B. für Stellungnahmen, Beantwortung von Anfragen von Mandant:innen) wird sich die Tätigkeit in einzelnen Teilbereichen langfristig gesehen hin zu einer Überprüfung und Ergänzung vorformulierter Antworten verlagern.

Dennoch ist der steuerliche Berufsstand nach wie vor nicht zu ersetzen. Er wird weiterhin als persönlicher Ansprechpartner relevant bleiben: Neben der Beurteilung von in der Realität oftmals komplexen Sachverhalten steht der steuerberatende Berufsstand auch für eine entsprechende Verbindlichkeit der gegebenen Auskünfte, die eine KI nicht erfüllen kann, da diese an regulatorische Grenzen stößt. Auch eine steuerfachliche Ausbildung wird weiterhin notwendig bleiben, z. B. um Gesetze und Verordnungen zu verabschieden, um Recht zu sprechen, um die rechtliche Auslegung in der Fachliteratur zu kommentieren, und nicht zuletzt, um geltendes Recht in der Steuerberatung bestmöglich im Sinne der Mandantschaft anzuwenden.

Zusätzlich wird die KI an Grenzen stoßen, die auch den Alltag von Kanzleien ständig begleiten: Trotz umfassender Gesetze, Verwaltungsanweisungen und Urteile verbleiben in der Rechtsanwendung in vielen Fällen häufig Unsicherheiten, die durch die Unbestimmtheit von Rechtsbegriffen verursacht sind. Die entsprechenden Fallzahlen der jährlichen neu eingereichten finanzgerichtlichen Verfahren sind Ausdruck dieser Unsicherheiten. Daher lässt sich die „Treffsicherheit“ und Antwortqualität einer KI selbst unter der hypothetischen Verfügbarkeit aller steuerfachlichen Quellen nur dann weiter erhöhen, wenn die Digitalisierbarkeit des Steuerrechts an sich vorangetrieben wird.

Wie Sie ChatGPT jetzt in der Kanzlei einsetzen können und wie nicht, lesen Sie hier im Beitrag von Melchior Neumann.