Fachartikel

Innovation im Legal Tech durch leistungsstarke Sprachmodelle

Sprachmodelle haben sich rasant weiterentwickelt. Der Generative-KI-Markt in Deutschland soll bis 2030 auf 14,34 Mrd. € wachsen, global sogar auf 325,40 Mrd. €. Andere Prognosen gehen von noch höheren Werten aus.

Dieser Artikel beleuchtet die technischen Grundlagen der Modelle V3 und R1 von DeepSeek. Ziel ist es, die Architektur und Ansätze maschinellen Lernens innerhalb der Modelle zu verstehen und ihren Nutzen für Legal Tech einzuordnen. Auch wenn zukünftig die Notwendigkeit einer manuellen Modellauswahl entfällt (so kürzlich Sam Altmann, OpenAI) ist es nützlich, die Unterschiede in Techniken und Architekturen zu erfassen, um die jeweiligen Stärken und Einsatzmöglichkeiten nachzuvollziehen.

Warum der aktuelle Hype?

Der Hype resultiert aus einer effizienteren Ressourcenverwendung. DeepSeek zeigt mit deutlich geringeren Ressourcen – insbesondere durch den effizienten Einsatz von Chips mit reduziertem Speicherbedarf und Rechenleistung (sog. FP8-Training) – eine vergleichbare Performance wie die Modelle von OpenAI. Die Besonderheit ergibt sich aus der gezielten Neuzusammensetzung bestehender Architekturen – auf einige davon werde ich im Folgenden näher eingehen.

Um eine ähnliche Leistungsfähigkeit mit weniger Rechenaufwand zu erreichen, hat sich DeepSeek vermutlich auch der sog. Knowledge Destillation bedient. Es handelt sich um eine Technik des maschinellen Lernens, bei der ein großes, leistungsfähiges Modell (Lehrer) genutzt wird, um ein kleineres, effizienteres Modell (Schüler) zu trainieren. Letzteres lernt nicht nur von den korrekten Antworten des Lehrermodells, sondern auch von den Wahrscheinlichkeitsverteilungen (sog. Soft Target).

Durch seine Open-Source-Philosophie, die lokale Ausführbarkeit und eine kosteneffiziente Nutzung lassen sich vergleichbare Leistungen mit geringerer Rechenleistung erzielen.

Technische Grundlagen

DeepSeek v3

DeepSeek v3 ist ein leistungsstarkes KI-Sprachmodell mit 671 Milliarden Parametern, von denen pro Token nur 37 Milliarden aktiv genutzt werden. Anders als Open AI hat DeepSeek die Zahl der Parameter offengelegt.

Das nur 37 Milliarden pro Token aktiv genutzt werden, ist auf die Mixture-of-Experts Architektur (sog. MoE) zurückzuführen. Statt „einem großen neuronalen Netzwerk“ besteht das Modell aus mehreren Experten-Netzwerken. Zu jedem Eingabetoken wird basierend auf bestimmten Merkmalen entschieden, welche Experten-Netzwerke am besten geeignet sind. Dadurch kann das Modell gezielt sein Wissen verteilen und ist oft effizienter und leistungsfähiger als ein einziges, riesiges Netzwerk.

Multi-Head Latent Attention (MLA): Beim sog. Attention-Mechanismus wird ermittelt, welche Teile des Eingabetextes gerade besonders wichtig sind. Multi-Head bedeutet, dass jeweils parallel unterschiedliche Muster erkannt und verschiedene semantische und syntaktische Beziehungen gleichzeitig erfasst werden. Zusätzlich können Schlüsselbegriffe mit hinterlegten Bedeutungen (sog. Key-Value-Repräsentationen) abgerufen werden, wodurch die Informationen komprimiert (sog. latent) gespeichert und Speicher- und Rechenaufwand gespart wird.

Durch die Integration von MLA und MoE erreicht das Modell eine hohe Effizienz und reduzierte Kosten bei Training und Inferenz. Dabei sagt ein Modell anstatt eines Token mehrere Token gleichzeitig oder sequentiell voraus, wodurch größere Zusammenhänge besser erfasst werden können (sog. Multi Token Prediction (MTP)).

DeepSeek R1

DeepSeek-R1 wurde durch gezieltes Reinforcement Learning auf komplexe Reasoning-Aufgaben trainiert. Dadurch verbessert sich seine Fähigkeit, logisch zu strukturieren und differenzierte und präzise Schlussfolgerungen zu ziehen. R1 wurde mit hochwertigen Daten vortrainiert mit dem Ziel eine klare Argumentationsstruktur (sog. Chain of Thought (CoT)) zu unterstützen. Dabei bricht die KI komplexe Probleme in kleine Sequenzen auf und erklärt ihre Gedankengänge für präzisere und nachvollziehbare Antworten. Mit dem Reward Modeling für formatierte Antworten bevorzugt und belohnt das System Antworten, die in einem bestimmten Format und einer standardisierten Struktur erfolgen. Zudem nutzt R1 eine Kombination aus regelbasierten und generativen Belohnungsmodellen.

Der Nutzen von Sprachmodellen für Legal-Tech-Anwendungen

Sprachmodelle haben bei Legal-Tech-Anwendungen folgende Stärken:

  • Umgang mit komplexen Texten: Sprachmodelle sind dafür trainiert, große Textmengen zu verstehen, zusammenzufassen und passgenaue Antworten zu generieren.
  • Flexibilität in Fragenbeantwortung und Recherche: Sprachmodelle lernen, auf Fragen unterschiedlichster Art zu antworten und relevante Kontexte hervorzusuchen.
  • Automatisierung sich wiederholender Arbeiten: Durch standardisierte Textbausteine und Muster wird Arbeitsaufwand reduziert.

Die Potenziale von Sprachmodellen in der juristischen Praxis

  • Dokumentenanalyse: MoE und MTP führen zu einer effizienten Analyse und Verarbeitung großer Mengen von Dokumenten. Benchmarks zeigen, dass V3 bei umfangreichen Textanalysen eine hohe Genauigkeit erreicht.
  • Juristische Recherche: V3 überzeugt durch MLA und MoE. Durch ein gezieltes Training mit juristischen Daten könnte die Suche nach Präzedenzfällen weiter verbessert werden, indem das System semantische Zusammenhänge erkennt, juristischen Kontext versteht und somit relevante Quellen liefert.
  • Argumentation: Bei komplexen logischen Aufgaben zeigt R1 dank Reinforcement Learning und CoT eine starke Leistung. Durch ein Training mit juristischen Daten könnte das System, deduktive Argumentationsstrukturen aufbauen.
  • Umfassende Gesamtbetrachtung und Auswertung von Beweismitteln: Die Benchmark-Werte von R1 für logische Schlussfolgerungen und komplexe Argumentationsstrukturen sind herausragend. So ist das Modell besonders gut darin, Kausalzusammenhänge zu verstehen und Problemlösungen zu entwickeln. Wenn das Regelungsgefüge und der Inhalt maßgeblicher Normen (inkl. der Definition von Tatbestandsmerkmalen und der Rechtfolgen) mit juristischen Daten trainiert wurden, könnte das Modell die Tatbestandsmerkmale bei der Würdigung des Sachverhalts zueinander in Beziehung setzen. Zudem könnten im Rahmen der Beweiswürdigung Beweismittel zueinander und zu anderen Umständen in Beziehung gesetzt werden.

Die Bedeutung einer integrierten juristischen KI-Architektur

Auch wenn Benchmarks objektive Vergleichswerte liefern, sind Anpassungen für den juristischen Einsatz erforderlich. Für die tatsächliche Nutzbarkeit eines Modells kommt es im Wesentlichen auf folgende Aspekte an:

  • Die genannten Sprachmodelle sind nicht speziell auf juristische Fragestellungen trainiert. Um überhaupt die nötige Transferleistung zu erbringen, ist ein Training mit juristischem Fachwissen und ein Verständnis für die juristische Semantik erforderlich. Die dafür benötigten Daten sollten aus der entsprechenden Domäne stammen – regelmäßig wird hier nach anwendbarem Recht, Gerichtsbarkeiten, Instanzen und Rechtsgebieten trainiert – und auch ein besonderes Augenmerk auf die juristische Methodik und Subsumtionstechniken gelegt werden.
  • Zudem ist eine Kopplung mit einer juristischen Datenbank zu empfehlen, die auch die Aktualität von Gesetzen sowie den neuesten Entscheidungen sicherstellt. Dies kann durch die Integration von RAG-Systemen erfolgen.
  • Maßgeschneiderte Prompts führen dabei zu noch besseren, konkreten Ergebnissen.
  • Auch das Zusammenspiel mit symbolischer, regelbasierter KI kann die Ergebnisse signifikant verbessern. Durch ein deterministisches Fundament kann den Risiken probabilistischer Systeme („Halluzinationen“, unvollständige Antworten) begegnet werden.
  • Darüber hinaus ist ein datenschutzkonformer Einsatz sicherzustellen, was durch einen lokal betriebenen („on-premises“) Betrieb oder in einer DSGVO-konformen, isolierten Cloud-Umgebung ermöglicht werden kann.

Auch wenn zukünftig weitere Anbieter diese Funktionen umfassend abdecken werden, ist es meiner Ansicht nach wesentlich zu verstehen, wie wir als Menschen und wie Sprachmodelle unterschiedlich mit Text, Logik, Strukturen und Argumentation umgehen. Ich empfehle daher, sich zunächst darüber klar zu werden, welche juristischen Kompetenzen benötigt werden, um anschließend nachvollziehen zu können, mit welchen Ansätzen und Methoden diese technisch umgesetzt werden können.

Autorin: Claudia Jandek ist Head of Partnerships im Verein eLegal, welcher für die Bedeutung von Legal Tech in der juristischen Ausbildung sensibilisiert. Auf LinkedIn teilt sie regelmäßig aktuelle Entwicklungen zu KI.

- WERBUNG -