Die Berlin Group, eine in­ter­na­tio­na­le Ar­beits­grup­pe für Daten­schutz in der Tech­no­lo­gie, hat unter dem Vorsitz der Bun­des­be­auf­trag­ten für den Daten­schutz und die In­for­ma­ti­ons­frei­heit (BfDI) am 27. De­zem­ber 2024 zwei weg­wei­sen­de Ar­beits­pa­pie­re ver­öf­fent­licht: eines zu Large Lan­guage Models (LLMs) und eines zum Thema Data Sharing. Während das Papier zum Data Sharing Mög­lich­kei­ten für einen si­che­ren und da­ten­schutz­kon­for­men Aus­tausch von Daten un­ter­sucht, widmet sich das LLM-Papier einer de­tail­lier­ten Analyse der tech­no­lo­gi­schen und da­ten­schutz­recht­li­chen Aspekte dieser in­no­va­ti­ven KI-Modelle.

Mit diesen Ver­öf­fent­li­chun­gen zeigt die Berlin Group, wie da­ten­ge­trie­be­ne Tech­no­lo­gien nicht nur in­no­va­tiv, sondern auch im Ein­klang mit Da­ten­schutz­grund­sät­zen ge­stal­tet werden können.

Im Fokus: Das Working Paper zu Large Lan­guage Models

Das am 06. De­zem­ber 2024 ver­öf­fent­lich­te „Working Paper on Large Lan­guage Models (LLMs)“ der Berlin Group ana­ly­siert die Chancen und Her­aus­for­de­run­gen dieser Tech­no­lo­gie aus Sicht des Datenschutzes.

Zu­sam­men­fas­sung des Berlin Group-Do­­ku­­ments zu LLMs

Ein­lei­tung (Kapitel „In­tro­duc­tion“, Seite 6)

Das Do­ku­ment be­leuch­tet die Da­ten­­­schutz- und Pri­­va­t­sphä­­re-Aspekte von Large Lan­guage Models (LLMs). Diese Modelle, die mit­hil­fe künst­li­cher In­tel­li­genz und ma­schi­nel­len Lernens ent­wi­ckelt werden, bieten be­ein­dru­cken­de sprach­ver­ar­bei­ten­de Fä­hig­kei­ten, stellen jedoch er­heb­li­che Da­ten­schutz­ri­si­ken dar. Zu den Her­aus­for­de­run­gen zählen De­sign­ent­schei­dun­gen, die Ver­ar­bei­tung per­so­nen­be­zo­ge­ner Daten und tech­ni­sche Ein­schrän­kun­gen. Ziel des Do­ku­ments ist es, eine mehr­di­men­sio­na­le Analyse durch­zu­füh­ren, die tech­no­lo­gi­sche, da­ten­schutz­recht­li­che und ri­si­ko­min­dern­de Per­spek­ti­ven vereint.

An­wen­dungs­fäl­le (Kapitel „1. Use cases“, Seiten 8–10)

Drei fiktive Sze­na­ri­en ver­deut­li­chen die Chancen und Risiken von LLMs:

  • Chat­bots im Online-Shop­­­ping (Seite 8): Während Chat­bots den Einkauf er­leich­tern, können sie sen­si­ble Daten (wie All­er­gien) ver­ar­bei­ten und feh­ler­haf­te oder be­lei­di­gen­de Emp­feh­lun­gen geben.
  • Me­di­zi­ni­sche Be­richt­erstel­lung (Seite 9): In Kran­ken­häu­sern können LLMs ad­mi­nis­tra­ti­ve Auf­ga­ben er­leich­tern, bergen jedoch Risiken wie un­ge­naue Dia­gno­sen und unklare Ein­wil­li­gun­gen der Pa­ti­en­ten zur Datennutzung.
  • Ge­schichts­er­halt und Ge­dächt­nis (Seite 10): LLMs können helfen, Zeit­zeu­gen­be­rich­te zu be­wah­ren, sind aber an­fäl­lig für die Ver­brei­tung von Desinformation.
Tech­ni­sche Grund­la­gen von LLMs (Kapitel „2. What are LLMs?“, Seiten 10–24)

LLMs ba­sie­ren auf der Tran­s­­for­­mer-Ar­chi­­tek­­tur und nutzen Mil­li­ar­den bis Bil­lio­nen Pa­ra­me­ter für die Sprach­ver­ar­bei­tung. Ihr Ent­wick­lungs­zy­klus umfasst drei Hauptphasen:

  1. Pre-Trai­­ning (Seiten 11–13): LLMs werden auf großen Da­ten­men­gen wie Web­tex­ten und Büchern trai­niert, um das nächste Wort in einem Satz vor­her­zu­sa­gen. Dieser Prozess nutzt selbst­über­wach­tes Lernen.
  2. Fine-Tu­­nin­­g/A­­lignment (Seiten 15–18): Nach dem Pre-Trai­­ning werden Modelle so an­ge­passt, dass sie besser auf mensch­li­che Werte (hilf­reich, ehrlich, harmlos) re­agie­ren. Dies ge­schieht mittels über­wach­ten Lernens und Rein­force­ment Lear­ning (z. B. RLHF – Rein­force­ment Lear­ning from Human Feedback).
  3. Nutzung (Seiten 24–28): LLMs werden in­ter­ak­tiv durch Be­nut­zer­ein­ga­ben („Prompts“) genutzt. Pa­ra­me­ter wie „Tem­pe­ra­tu­re“ steuern die Zu­fäl­lig­keit der Ausgaben.
Risiken für Daten­schutz und Pri­vat­sphä­re (Kapitel „3. Risks to data pro­tec­tion and privacy“, Seiten 29–41)

Das Ar­beits­pa­pier iden­ti­fi­ziert zahl­rei­che Risiken:

  • Erhöhte Da­ten­ver­ar­bei­tung (Seite 30): LLMs be­nö­ti­gen große Mengen an Trai­nings­da­ten, was zu um­fas­sen­der Da­ten­ver­ar­bei­tung führt.
  • Da­ten­rechts­ver­lust (Seite 32): Nutzer ver­lie­ren oft die Kon­trol­le über ihre Daten.
  • Dis­kri­mi­nie­rung durch Bias (Seite 39): Vor­ur­tei­le in den Trai­nings­da­ten können per­p­etu­iert werden.
  • Des­in­for­ma­ti­on (Seiten 40–41): LLMs können Fehl­in­for­ma­tio­nen ver­brei­ten, die schäd­lich oder ir­re­füh­rend sind.
Da­ten­schutz­prin­zi­pi­en und tech­ni­sche Maß­nah­men (Kapitel „4. Privacy prin­ci­ples and tech­ni­cal mi­ti­ga­ti­ons“, Seiten 42–56)

Das Do­ku­ment schlägt ver­schie­de­ne Prin­zi­pi­en und Maß­nah­men vor:

  • Da­ten­schutz­prin­zi­pi­en (Seiten 43–47): Zweck­bin­dung, Da­ten­mi­ni­mie­rung und Trans­pa­renz sollten strikt ein­ge­hal­ten werden. Si­cher­heit und Ver­ant­wort­lich­keit sind entscheidend.
  • Tech­ni­sche Maß­nah­men (Seiten 48–56):
    • Dif­fe­ren­ti­al Privacy: Re­du­ziert die Wahr­schein­lich­keit, dass per­so­nen­be­zo­ge­ne Daten re­kon­stru­iert werden.
    • Machine Un­lear­ning: Erlaubt es, Daten nach­träg­lich aus einem Modell zu entfernen.
    • Da­ten­ku­ra­tie­rung und -vor­ver­ar­bei­tung: Ver­bes­sern die Qua­li­tät der Trai­nings­da­ten durch Fil­te­rung und Duplikatentfernung.
Lokale LLMs: Chancen und Her­aus­for­de­run­gen (Kapitel „5. Emer­ging prac­ti­ces: Local LLMs“, Seiten 57–59)

Lokale LLMs bieten Vor­tei­le wie erhöhte Pri­vat­sphä­re und Un­ab­hän­gig­keit von In­ter­net­ver­bin­dun­gen. Her­aus­for­de­run­gen sind jedoch:

  • Hoher Spei­­cher- und Rechenaufwand.
  • Risiko der Ex­klu­si­on klei­ne­rer Or­ga­ni­sa­tio­nen durch be­grenz­te Ressourcen.
Fazit (Kapitel „Con­clu­si­on“, Seite 59)

Das Do­ku­ment betont, dass Da­ten­schutz­ge­set­ze eine zen­tra­le Rolle bei der Re­gu­lie­rung von KI-Tech­­no­­lo­­gien spielen. Die vor­ge­stell­ten Ana­ly­sen und Prin­zi­pi­en bieten eine Grund­la­ge für ef­fek­ti­ve Go­­ver­­nan­ce-Ansätze im Umgang mit LLMs.

Ap­pen­dix A: The Trans­for­mer Ar­chi­tec­tu­re (Seiten 61–74)

Der Anhang be­schreibt die grund­le­gen­den tech­ni­schen Kom­po­nen­ten der Tran­s­­for­­mer-Ar­chi­­tek­­tur, die die Grund­la­ge für Large Lan­guage Models (LLMs) bilden. Diese Ar­chi­tek­tur hat sich als be­son­ders leis­tungs­stark für na­tür­li­che Sprach­ver­ar­bei­tung erwiesen.

Wort­schatz und Wort-Em­­be­d­­dings (Seite 62–63)
  • Wort­schatz (Vo­ca­bu­la­ry): Der Wort­schatz eines LLM besteht aus Token, die ent­we­der aus voll­stän­di­gen Wörtern, Wort­tei­len oder Sym­bo­len be­stehen. Diese Token werden nu­me­risch dar­ge­stellt, um sie im Modell zu verarbeiten.
  • Wort-Em­­be­d­­dings: Token werden in hoch­di­men­sio­na­le Vek­to­ren um­ge­wan­delt, die se­man­ti­sche Be­zie­hun­gen zwi­schen den Wörtern ko­die­ren. Wörter mit ähn­li­cher Be­deu­tung haben ähn­li­che Vek­tor­dar­stel­lun­gen. Dies er­leich­tert dem Modell das Er­ken­nen von Mustern und Zusammenhängen.
Kon­text­fens­ter (Seite 68)

Das Kon­text­fens­ter de­fi­niert die Anzahl der Token, die das Modell gleich­zei­tig ver­ar­bei­tet. Ein grö­ße­res Kon­text­fens­ter er­mög­licht es dem Modell, größere Text­ab­schnit­te zu ana­ly­sie­ren und dadurch kom­ple­xe­re Be­zie­hun­gen zu ver­ste­hen. Dies ist be­son­ders wichtig für Auf­ga­ben wie Text­zu­sam­men­fas­sun­gen oder das Be­ant­wor­ten von Fragen auf Basis langer Dokumente.

Mas­kier­te Multi-Head Self-At­­ten­­ti­on (Seiten 69–73)
  • Self-At­­ten­­ti­on: Diese Schlüs­sel­kom­po­nen­te der Tran­s­­for­­mer-Ar­chi­­tek­­tur er­mög­licht es dem Modell, die Be­deu­tung jedes Tokens im Kontext des ge­sam­ten Satzes zu be­wer­ten. Bei­spiels­wei­se kann ein Modell er­ken­nen, dass „Bank“ in einem Satz ent­we­der ein Fi­nanz­in­sti­tut oder ein Fluss­ufer be­deu­ten kann, ab­hän­gig von den um­lie­gen­den Wörtern.
  • Multi-Head At­ten­ti­on: Durch die gleich­zei­ti­ge Ver­ar­bei­tung von In­for­ma­tio­nen auf meh­re­ren „Köpfen“ kann das Modell ver­schie­de­ne Aspekte eines Satzes ana­ly­sie­ren. Jeder Kopf fo­kus­siert auf un­ter­schied­li­che Be­zie­hun­gen zwi­schen den Tokens.
  • Mas­kie­rung: Bei Auf­ga­ben wie Text­ge­ne­rie­rung wird Mas­kie­rung ver­wen­det, um si­cher­zu­stel­len, dass zu­künf­ti­ge Tokens nicht be­rück­sich­tigt werden. Dadurch bleibt der Fokus auf bereits vor­han­de­nen Tokens, was wichtig für die Vor­her­sa­ge des nächs­ten Tokens ist.
Feed-Forward Neural Net­works (Seiten 73–74)

Jeder Tran­s­­for­­mer-Block enthält eine Feed-Forward-Schicht, die eine nicht­li­nea­re Trans­for­ma­ti­on der Token-Daten durch­führt. Diese Schicht er­wei­tert die Fä­hig­keit des Modells, kom­ple­xe Muster zu lernen, und wird durch Ak­ti­vie­rungs­funk­tio­nen wie ReLU unterstützt.

Ge­samt­an­zahl der Pa­ra­me­ter (Seite 74)

LLMs be­stehen aus Hun­der­ten von Mil­li­ar­den bis hin zu meh­re­ren Bil­lio­nen Pa­ra­me­tern. Diese Pa­ra­me­ter re­prä­sen­tie­ren die Ge­wich­te und Ver­zer­run­gen im Modell, die während des Trai­nings op­ti­miert werden, um die Ge­nau­ig­keit der Vor­her­sa­gen zu ma­xi­mie­ren. Die enorme Anzahl an Pa­ra­me­tern er­mög­licht eine hohe Kom­ple­xi­tät und Ge­nau­ig­keit, erhöht jedoch auch den Spei­­cher- und Rechenaufwand.

Fazit

Das Ar­beits­pa­pier (Working Paper) zeigt ein­drucks­voll, dass der Einsatz von LLMs fun­dier­te Da­ten­schutz­kon­zep­te und eine kon­struk­ti­ve Be­glei­tung durch Re­gu­lie­rungs­be­hör­den er­for­dert. Es liefert nicht nur eine de­tail­lier­te Analyse der tech­ni­schen Grund­la­gen und Risiken, sondern auch prak­ti­ka­ble Emp­feh­lun­gen für eine da­ten­schutz­kon­for­me Nutzung.

Quellen:
Haben Sie Fragen oder be­nö­ti­gen Sie Un­ter­stüt­zung? Wir stehen Ihnen gerne zur Ver­fü­gung: consulting@AdOrgaSolutions.de

Wie können wir Ihnen weiterhelfen?

Kontaktieren Sie uns: Wir sind gerne für Sie da!