Wird DeepSeek der neue Platzhirsch bei den LLMs im RE? 

BLOG-Artikel-Serie Teil 1

DeepSeek ist ein Large Language Model (LLM) eines chinesischen Unternehmens, dass bei üblichen LLM-Tests mit OpenAI und anderen großen LLMs mithalten soll. Der Coup? Das Training des Modells soll nur 5,5 Millionen Dollar gekostet haben [1], also nur ein Bruchteil im Vergleich zu OpenAI und Copilot [2]. 

Wir haben DeepSeek ausprobiert und wollen hier berichten, wie DeepSeek aus unserer Sicht im Requirements Engineering (RE) abschneidet.  

Für unsere Tests haben wir DeepSeek mit zwei typischen Einsatzszenarien aus dem RE konfrontiert und das Ergebnis dann mit den Ergebnissen von ChatGPT und Copilot verglichen. Als Szenarien dienten uns: 

  • Anforderungen aus einem unstrukturierten Text erstellen 
  • Konsistenz der Anforderungen bewerten und verbessern 
Hier gibt es den Blog-Artikel als Video – unser -Avatar KaI ReSE liest vor :-)

Über die Ergebnisse werden wir in den nächsten Blogbeiträgen ausführlich berichten, stattdessen wollen wir hier unsere ersten Eindrücke und Erkenntnisse teilen. Eine wichtige Erkenntnis aus der Verwendung von DeepSeek in unseren ausgewählten Szenarien ist, dass DeepSeek seine „Gedanken“ mit uns teilt. Wenn der „Thinking Mode“ aktiviert ist, teilt uns das LLM seinen „Denkprozess“ bei der Erstellung der Antwort auf unseren Prompt mit. 

 Natürlich können LLMs nicht wirklich denken, aber wir als Benutzer sehen, welche Schritte das Modell bei der Generierung des Ergebnisses durchläuft und welche Zwischenergebnisse erzeugt werden. Je detaillierter die Zwischenschritte dokumentiert sind, desto einfacher ist es für uns als Menschen, unsere Interaktionen und Prompts an die Funktionsweise des LLMs anzupassen und können dadurch qualitativ hochwertigere Ergebnisse erzielen. Zwar bieten Copilot und OpenAI ähnliche Funktionen, sind aber bei Weitem nicht so detailliert. 

Unser Fazit:
DeepSeek kann in den von uns durchgeführten RE-Szenarien mit den etablierten LLMs hinsichtlich der Qualität der generierten Ergebnisse mithalten.  

Negativ aufgefallen ist leider die Performance der Server. Diese sind meist überlastet, was zu unzuverlässigen oder stark verzögerten Antworten führt. Im Moment ist also noch viel Geduld bei der Arbeit mit DeepSeek gefragt. 

Die Frage nach dem Datenschutz haben wir bewusst nicht gestellt, da die Entscheidung über den Einsatz von KI-Systemen zur Unterstützung der Mitarbeiter von jedem Unternehmen selbst getroffen werden muss. Aus qualitativer Sicht empfehlen wir, die Entwicklung von DeepSeek weiter zu verfolgen. 

In unseren nächsten Blogbeiträgen erhalten Sie eine ausführliche Einschätzung von uns zu DeepSeek in typischen Einsatzszenarien im RE.

Bleiben Sie dran! 

Quellen: 

[1] “DeepSeek-V3 Technical Report“, DeepSeek-AI, Dezember 2024, online verfügbar: https://arxiv.org/html/2412.19437v1 

[2] Nestor Maslej, Loredana Fattorini, Raymond Perrault, Vanessa Parli, Anka Reuel, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Juan Carlos Niebles, Yoav Shoham, Russell Wald, and Jack Clark, “The AI Index 2024 Annual Report,” AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, April 2024, online verfügbar: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_2024_AI-Index-Report.pdf

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert