Die Berlin Group, eine internationale Arbeitsgruppe für Datenschutz in der Technologie, hat unter dem Vorsitz der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit (BfDI) am 27. Dezember 2024 zwei wegweisende Arbeitspapiere veröffentlicht: eines zu Large Language Models (LLMs) und eines zum Thema Data Sharing. Während das Papier zum Data Sharing Möglichkeiten für einen sicheren und datenschutzkonformen Austausch von Daten untersucht, widmet sich das LLM-Papier einer detaillierten Analyse der technologischen und datenschutzrechtlichen Aspekte dieser innovativen KI-Modelle.
Mit diesen Veröffentlichungen zeigt die Berlin Group, wie datengetriebene Technologien nicht nur innovativ, sondern auch im Einklang mit Datenschutzgrundsätzen gestaltet werden können.
Im Fokus: Das Working Paper zu Large Language Models
Das am 06. Dezember 2024 veröffentlichte „Working Paper on Large Language Models (LLMs)“ der Berlin Group analysiert die Chancen und Herausforderungen dieser Technologie aus Sicht des Datenschutzes.
Zusammenfassung des Berlin Group-Dokuments zu LLMs
Einleitung (Kapitel „Introduction“, Seite 6)
Das Dokument beleuchtet die Datenschutz- und Privatsphäre-Aspekte von Large Language Models (LLMs). Diese Modelle, die mithilfe künstlicher Intelligenz und maschinellen Lernens entwickelt werden, bieten beeindruckende sprachverarbeitende Fähigkeiten, stellen jedoch erhebliche Datenschutzrisiken dar. Zu den Herausforderungen zählen Designentscheidungen, die Verarbeitung personenbezogener Daten und technische Einschränkungen. Ziel des Dokuments ist es, eine mehrdimensionale Analyse durchzuführen, die technologische, datenschutzrechtliche und risikomindernde Perspektiven vereint.
Anwendungsfälle (Kapitel „1. Use cases“, Seiten 8–10)
Drei fiktive Szenarien verdeutlichen die Chancen und Risiken von LLMs:
- Chatbots im Online-Shopping (Seite 8): Während Chatbots den Einkauf erleichtern, können sie sensible Daten (wie Allergien) verarbeiten und fehlerhafte oder beleidigende Empfehlungen geben.
- Medizinische Berichterstellung (Seite 9): In Krankenhäusern können LLMs administrative Aufgaben erleichtern, bergen jedoch Risiken wie ungenaue Diagnosen und unklare Einwilligungen der Patienten zur Datennutzung.
- Geschichtserhalt und Gedächtnis (Seite 10): LLMs können helfen, Zeitzeugenberichte zu bewahren, sind aber anfällig für die Verbreitung von Desinformation.
Technische Grundlagen von LLMs (Kapitel „2. What are LLMs?“, Seiten 10–24)
LLMs basieren auf der Transformer-Architektur und nutzen Milliarden bis Billionen Parameter für die Sprachverarbeitung. Ihr Entwicklungszyklus umfasst drei Hauptphasen:
- Pre-Training (Seiten 11–13): LLMs werden auf großen Datenmengen wie Webtexten und Büchern trainiert, um das nächste Wort in einem Satz vorherzusagen. Dieser Prozess nutzt selbstüberwachtes Lernen.
- Fine-Tuning/Alignment (Seiten 15–18): Nach dem Pre-Training werden Modelle so angepasst, dass sie besser auf menschliche Werte (hilfreich, ehrlich, harmlos) reagieren. Dies geschieht mittels überwachten Lernens und Reinforcement Learning (z. B. RLHF – Reinforcement Learning from Human Feedback).
- Nutzung (Seiten 24–28): LLMs werden interaktiv durch Benutzereingaben („Prompts“) genutzt. Parameter wie „Temperature“ steuern die Zufälligkeit der Ausgaben.
Risiken für Datenschutz und Privatsphäre (Kapitel „3. Risks to data protection and privacy“, Seiten 29–41)
Das Arbeitspapier identifiziert zahlreiche Risiken:
- Erhöhte Datenverarbeitung (Seite 30): LLMs benötigen große Mengen an Trainingsdaten, was zu umfassender Datenverarbeitung führt.
- Datenrechtsverlust (Seite 32): Nutzer verlieren oft die Kontrolle über ihre Daten.
- Diskriminierung durch Bias (Seite 39): Vorurteile in den Trainingsdaten können perpetuiert werden.
- Desinformation (Seiten 40–41): LLMs können Fehlinformationen verbreiten, die schädlich oder irreführend sind.
Datenschutzprinzipien und technische Maßnahmen (Kapitel „4. Privacy principles and technical mitigations“, Seiten 42–56)
Das Dokument schlägt verschiedene Prinzipien und Maßnahmen vor:
- Datenschutzprinzipien (Seiten 43–47): Zweckbindung, Datenminimierung und Transparenz sollten strikt eingehalten werden. Sicherheit und Verantwortlichkeit sind entscheidend.
- Technische Maßnahmen (Seiten 48–56):
- Differential Privacy: Reduziert die Wahrscheinlichkeit, dass personenbezogene Daten rekonstruiert werden.
- Machine Unlearning: Erlaubt es, Daten nachträglich aus einem Modell zu entfernen.
- Datenkuratierung und -vorverarbeitung: Verbessern die Qualität der Trainingsdaten durch Filterung und Duplikatentfernung.
Lokale LLMs: Chancen und Herausforderungen (Kapitel „5. Emerging practices: Local LLMs“, Seiten 57–59)
Lokale LLMs bieten Vorteile wie erhöhte Privatsphäre und Unabhängigkeit von Internetverbindungen. Herausforderungen sind jedoch:
- Hoher Speicher- und Rechenaufwand.
- Risiko der Exklusion kleinerer Organisationen durch begrenzte Ressourcen.
Fazit (Kapitel „Conclusion“, Seite 59)
Das Dokument betont, dass Datenschutzgesetze eine zentrale Rolle bei der Regulierung von KI-Technologien spielen. Die vorgestellten Analysen und Prinzipien bieten eine Grundlage für effektive Governance-Ansätze im Umgang mit LLMs.
Appendix A: The Transformer Architecture (Seiten 61–74)
Der Anhang beschreibt die grundlegenden technischen Komponenten der Transformer-Architektur, die die Grundlage für Large Language Models (LLMs) bilden. Diese Architektur hat sich als besonders leistungsstark für natürliche Sprachverarbeitung erwiesen.
Wortschatz und Wort-Embeddings (Seite 62–63)
- Wortschatz (Vocabulary): Der Wortschatz eines LLM besteht aus Token, die entweder aus vollständigen Wörtern, Wortteilen oder Symbolen bestehen. Diese Token werden numerisch dargestellt, um sie im Modell zu verarbeiten.
- Wort-Embeddings: Token werden in hochdimensionale Vektoren umgewandelt, die semantische Beziehungen zwischen den Wörtern kodieren. Wörter mit ähnlicher Bedeutung haben ähnliche Vektordarstellungen. Dies erleichtert dem Modell das Erkennen von Mustern und Zusammenhängen.
Kontextfenster (Seite 68)
Das Kontextfenster definiert die Anzahl der Token, die das Modell gleichzeitig verarbeitet. Ein größeres Kontextfenster ermöglicht es dem Modell, größere Textabschnitte zu analysieren und dadurch komplexere Beziehungen zu verstehen. Dies ist besonders wichtig für Aufgaben wie Textzusammenfassungen oder das Beantworten von Fragen auf Basis langer Dokumente.
Maskierte Multi-Head Self-Attention (Seiten 69–73)
- Self-Attention: Diese Schlüsselkomponente der Transformer-Architektur ermöglicht es dem Modell, die Bedeutung jedes Tokens im Kontext des gesamten Satzes zu bewerten. Beispielsweise kann ein Modell erkennen, dass „Bank“ in einem Satz entweder ein Finanzinstitut oder ein Flussufer bedeuten kann, abhängig von den umliegenden Wörtern.
- Multi-Head Attention: Durch die gleichzeitige Verarbeitung von Informationen auf mehreren „Köpfen“ kann das Modell verschiedene Aspekte eines Satzes analysieren. Jeder Kopf fokussiert auf unterschiedliche Beziehungen zwischen den Tokens.
- Maskierung: Bei Aufgaben wie Textgenerierung wird Maskierung verwendet, um sicherzustellen, dass zukünftige Tokens nicht berücksichtigt werden. Dadurch bleibt der Fokus auf bereits vorhandenen Tokens, was wichtig für die Vorhersage des nächsten Tokens ist.
Feed-Forward Neural Networks (Seiten 73–74)
Jeder Transformer-Block enthält eine Feed-Forward-Schicht, die eine nichtlineare Transformation der Token-Daten durchführt. Diese Schicht erweitert die Fähigkeit des Modells, komplexe Muster zu lernen, und wird durch Aktivierungsfunktionen wie ReLU unterstützt.
Gesamtanzahl der Parameter (Seite 74)
LLMs bestehen aus Hunderten von Milliarden bis hin zu mehreren Billionen Parametern. Diese Parameter repräsentieren die Gewichte und Verzerrungen im Modell, die während des Trainings optimiert werden, um die Genauigkeit der Vorhersagen zu maximieren. Die enorme Anzahl an Parametern ermöglicht eine hohe Komplexität und Genauigkeit, erhöht jedoch auch den Speicher- und Rechenaufwand.
Fazit
Das Arbeitspapier (Working Paper) zeigt eindrucksvoll, dass der Einsatz von LLMs fundierte Datenschutzkonzepte und eine konstruktive Begleitung durch Regulierungsbehörden erfordert. Es liefert nicht nur eine detaillierte Analyse der technischen Grundlagen und Risiken, sondern auch praktikable Empfehlungen für eine datenschutzkonforme Nutzung.
Quellen:
- BfDI Pressemitteilung (27.12.2024): https://www.bfdi.bund.de/SharedDocs/Pressemitteilungen/DE/2024/16_Berlin-Group-LLMs-und-Data-Sharing.html
- Arbeitspapier Large Language Models (06.12.2024): https://www.bfdi.bund.de/SharedDocs/Downloads/DE/Berlin-Group/20241206-WP-LLMs.pdf?__blob=publicationFile&v=2