Mehr Datenschutz mit RAG?

Briefing

Die Datenschutzkonferenz (DSK) hat im November 2025 ihre „Orientierungshilfe zu datenschutzrechtlichen Besonderheiten generativer KI-Systemen mit RAG-Methode“ in der Version 1.0 veröffentlicht (OH RAG). Im Ergebnis kommt die DSK zum Schluss, dass der Einsatz von RAG bei generativen KI-Systemen datenschutzrechtlich positive Auswirkungen haben kann. Es bleiben allerdings viele Fragezeichen.

Die Bedeutung von RAG-Systemen wird dabei durch aktuelle Entwicklungen unterstrichen: Empirische Untersuchungen zeigen, dass offene Sprachmodelle bei vergleichbarer Leistung erhebliche Kostenvorteile gegenüber geschlossenen Modellen bieten. Zugleich ermöglicht die RAG-Architektur eine modulare Gestaltung, bei der das Sprachmodell zur austauschbaren Komponente wird, während die Wissensbasis unter voller Kontrolle des Verantwortlichen verbleibt – ein Aspekt, der sowohl aus ökonomischer als auch aus Souveränitätsperspektive zunehmend an Bedeutung gewinnt.

Zum Hintergrund

RAG bzw. Retrieval-Augmented Generation bezieht sich im Kontext von KI-Systemen in der Regel auf eine Kombination eines generativen Sprachmodell mit einer Retrieval-Komponente. Die DSK untersuchte insbesondere solche RAG-Systeme, bei denen die Nutzereingabe (Prompt) durch Texte aus Referenzdokumenten ergänzt werden sollen, sodass das generativer KI-System diese relevanten Informationen miteinbezieht und das Risiko einer unzureichenden Faktengrundlage und daraus resultierend Halluzinationen des KI-Systems mindert. Hierzu werden die Referenzdokumente in Teile (Chunks) aufgeteilt und durch ein sog. Embedding-Modell in eine Verktordatenbank überführt. Das für die Ergänzung der Texte aus den Referenzdokumenten zuständige Modul (Retriever) „sucht“ in der Vektordatenbank nach den am ehesten passenden Chunk anhand ihrer möglichst geringen Distanz zum Anfragevektor und ergänzt den Prompt entsprechend.

Zur datenschutzrechtlichen Einordnung

Die DSK kommt zu dem Ergebnis, dass die RAG-Methode einen positiven Effekt auf zentrale Datenschutzgrundsätze haben kann – aber nicht vorbehaltlos:

RAGs bieten die Möglichkeit, falsche Daten zu korrigieren: Der Austausch der relevanten Referenzdokumente würde genügen, um nicht mehr aktuelle personenbezogene Daten auf den neuesten Stand zu bringen.
Positive Effekte kann die RAG-Methode auch in Bezug auf die Datenminimierung haben, das Training von Sprachmodellen könne viel effektiver und spezialisierter erfolgen und die Verarbeitung umfangreicher, auch personenbezogener Daten vermeiden.
Durch die Kontrolle über die Referenzdokumente können im Zweifel Löschkonzepte zu mindestens in Bezug auf die Referenzdokumente und die zugehörige Vektordatenbank umgesetzt werden.
Werden Referenzdokumente und Embeddings in separaten Datenbanken gespeichert, kann über Rollen- und Berechtigungskonzepte gesteuert werden, wie bzw. in welchem Umfang das LLM auf Daten zugreifen kann.
Protokolliert das RAG-System, welche Quellen zur Beantwortung einer Anfrage herangezogen werden, kann dadurch die Transparenz im Hinblick auf den Input des LLM erhöht werden.
In Bezug auf die Betroffenenrechte aus Kapitel 3 der DSGVO können RAG-Systeme zumindest in Teilen dabei unterstützen, die Vorgaben der DSGVO einzuhalten.

Zugleich betont die DSK, dass gleichwohl erhebliche Risiken verbleiben, die auch der Einsatz eines RAG nicht gänzlich ausschließen kann. In Bezug auf die Datenrichtigkeit etwa bietet das System zwar grundsätzlich die Möglichkeit, Daten zu aktualisieren und so zu korrigieren, das muss allerdings auch so vorgesehen sein und durch den Verantwortlichen umgesetzt werden. Ferner mag durch die Verwendung von Referenzdokumenten die Datenqualität steigen, auf der anderen Seite bietet eine solche Sammlung von möglicherweise sensiblen Informationen ein lohnenswertes Ziel für Cyberangriffe und muss deswegen besonders geschützt werden. Und die DSK betont, dass auch durch den Einsatz der RAG-Methode das grundsätzliche Black-Box-Problem des Sprachmodells nicht ausgehebelt wird. Gleiches gilt für rechtswidrig trainierte Sprachmodelle: Auch hier kann der Einsatz der RAG-Methode nicht dafür sorgen, dass ein rechtswidrig trainiertes Basismodell legal wird.

Gleichwohl lässt sich festhalten, dass die Verwendung von RAG in einem KI System Verantwortlichen dabei helfen kann, Datenschutz, Effizienz und Souveränität in Einklang zu bringen. Verantwortliche müssen nach Art. 5 Abs. 2 DSGVO dokumentieren, wie sie Embedding-Modell, Chunking-Strategie, Filter und Zugriffsrechte gewählt haben und wie sie Betroffenenrechte umsetzen. Entscheidend ist, dass jede Konzeption individuell geprüft und dokumentiert wird. Durch technisches und organisatorisches Design kann RAG eine leistungsstarke, kosteneffiziente und datenschutzkonforme Alternative zu geschlossenen KI-Lösungen darstellen.

Konsequenzen für die Praxis

Die OH RAG der DSK zeigt auf, dass durch entsprechendes Design auch in sensiblen Bereichen KI-Systeme eingesetzt werden können, ohne dass der Verantwortliche jegliche Kontrolle aus der Hand gibt oder bei der Auswahl von KI-Systemen erheblich limitiert ist. Die Orientierungshilfe macht zugleich deutlich, dass RAG-Systeme keine datenschutzrechtliche „Wunderlösung" darstellen, sondern eine Architektur, die bei sachgerechter Implementierung erhebliche Vorteile bieten kann. Verantwortliche sind verpflichtet, in diesen Fällen genau zu prüfen, ob und wie das jeweilige System aufgebaut und umgesetzt ist.

RAG-Systeme kombinieren wirtschaftliche Effizienz, digitale Souveränität und Datenschutz. Sie ermöglichen durch modulare Architektur bei Bedarf den Austausch des Sprachmodells und sichern Kontrolle über die Wissensbasis, was einen Anbieterwechsel erleichtert und die Souveränität beim Einsatz von KI stärkt. Zudem reduziert RAG unnötige Datenübermittlungen und unterstützt die Durchsetzung von Betroffenenrechten, etwa das Recht auf Löschung.

Rechtsgebiete und Gruppen Daten & Cyber-Sicherheit