3 Min. Lesezeit

Acceptance test-driven LLM development

Acceptance test-driven LLM development

Vorab: Entschuldigt die schlechte Audio-Qualität, das ist uns leider erst im Nachgang aufgefallen. Ich hoffe, der Inhalt tröstet Euch darüber hinweg :-) Die Entwicklung von Large Language Models (LLMs) und die Rolle von Acceptance Test Driven Development (ATDD) sind zentrale Themen in der KI-Entwicklung. David, Experte in der Entwicklung und Qualitätssicherung von KI-basierten Telefon-Bots für Arztpraxen, teilt seine Erfahrungen und Einblicke in diesen Prozess. Die Herausforderungen und Lösungsansätze beim Trainieren und Testen von LLMs, einschließlich der Nutzung von Prompt Engineering und Fine Tuning, werden beleuchtet. Besonders bemerkenswert ist der Ansatz, ATDD-Methoden auf LLM-Entwicklungen anzuwenden, um die Qualität und Effektivität der Modelle zu verbessern. Ein weiterer Fokus liegt auf dem CPMAI-Prozess, der eine moderne Herangehensweise an die Entwicklung und Implementierung von KI-Projekten darstellt.

“Das ist relativ anspruchsvoll. Letzten Endes haben wir ein paar Komponenten. Wir machen zuerst Speech-to-Text und dann auf reiner Textbasis benutzen wir ein Language-Model.” – David Faragó

David ist Deep-Learning-Engineer bei Mediform, spezialisiert auf Fine-Tuning von Large-Language-Models, Prompt-Engineering und Microservices. Nebenbei leitet er QPR Technologies, ein Beratungsunternehmen für innovative Qualitätssicherung, und ist Mitglied des Leitungsgremiums der GI-Fachgruppe Test, Analyse und Verifikation.

Highlights in dieser Episode:

  • David und sein Team setzen Large Language Models (LLMs) ein, um einen Telefon-Bot für Arztpraxen zu entwickeln
  • Sie nutzen Acceptance Test Driven Development, um die Qualität ihres LLMs sicherzustellen
  • Ein wichtiger Teil ihrer Arbeit ist das Fine-Tuning des LLMs, um es an spezifische Aufgaben anzupassen
  • Sie entwickelten einen soliden Prozess und ein Test-Framework, um hohe Qualität zu gewährleisten
  • Ein spezielles Tool, das Language Model Evaluation Harness von Eloifa, wird für die Verifikation des LLMs verwendet
  • David sieht Acceptance-Test-Driven-LLM-Development als einen neuen Ansatz in der Entwicklung von KI-Systemen
  • Sie nutzen auch andere Testarten, wie Stresstests und Metamorphic Testing, um ihr LLM weiter zu verbessern

Weiterführende Links:

Wie Acceptance Test Driven Development LLMs neu definiert

Bei der Entwicklung KI-basierter Telefon-Bots für Arztpraxen gibt es eine Menge neuer Herausforderungen bei der Qualitätssicherung zu bewältigen. Ein Lösungsansatz im Testprozess ist Acceptance Test Driven LLM Development

Die neuen Anwendungsfelder der KI-Entwicklung

David Faragó, ein renommierter Experte im Bereich KI und speziell in LLM-Themen, teilt seine umfangreichen Kenntnisse über den Einsatz von Large Language Models. Von Prompt Engineering bis hin zur Feinabstimmung von Foundational Models – David deckt alle Aspekte ab. Sein aktuelles Projekt bei Mediform zielt darauf ab, einen Telefon-Bot für Arztpraxen zu entwickeln, welcher dank moderner KI in natürlicher Sprache mit Patienten kommunizieren kann. Diese innovative Anwendung stellt einen bedeutenden Fortschritt dar und zeigt das Potenzial von LLM in der Praxis.

Entwicklung und Testing

Das Herzstück von Davids Arbeit ist ein solide entwickelter Testprozess, der sich auf Acceptance Tests konzentriert. Durch eine sorgfältige Analyse realer Dialoge und iterative Verbesserungen wird ein hochwertiges Modell geschaffen. David erzählt von den Herausforderungen und Lösungsansätzen bei der Entwicklung von LLMs, einschließlich des Umgangs mit Nichtdeterminismus und der Blackbox-Natur dieser Technologie. Durch den Einsatz spezialisierter Tools wie dem Language Model Evaluation Harness von Eloifa gelingt es dem Team, die Qualität ihrer Modelle effektiv zu messen und zu verifizieren.

Acceptance Test Driven LLM Development

Acceptance Test Driven LLM Development ist nicht nur eine Methode, sondern eine Philosophie. Es verwebt agile Methoden mit dem maschinellen Lernen und ermöglicht so schnelle Iterationszyklen unter direkter Einbindung des Endnutzers. David erläutert den Prozess detailliert und zeigt auf, wie dieser Ansatz es ermöglicht hat, ein robustes und effektives System für Arztpraxen zu entwickeln. Dieser Ansatz stellt sicher, dass das Endprodukt genau den Anforderungen entspricht und gleichzeitig flexibel für zukünftige Anpassungen bleibt.

Die Rolle von CPMAI im Entwicklungszyklus

Ein weiteres Schlüsselelement in Davids Strategie ist die Anwendung von CPMAI (Cognitive Process Management for AI), einem modernen Prozessrahmenwerk, das Agilität mit maschinellem Lernen verbindet. Diese Methode unterstützt das Team bei jeder Phase des Entwicklungszyklus – vom Verständnis des Geschäftsbedarfs bis hin zum Deployment des Modells. Durch diesen strukturierten Ansatz können Probleme schnell identifiziert und behoben werden, was eine kontinuierliche Verbesserung des Systems ermöglicht.

Die Zukunft der KI-Entwicklung

Die Diskussion zeigt nicht nur die Komplexität hinter der Entwicklung von Large Language Models auf, sondern auch das enorme Potenzial dieser Technologie. Durch innovative Ansätze wie Acceptance Test Driven LLM Development wird die Tür zu einer neuen Ära der KI-Entwicklung aufgestoßen – einer Ära, in der Qualitätssicherung und agile Methoden Hand in Hand gehen. Diese Episode wirft ein Licht auf die spannende Zukunft der KI-Technologie und ihre vielseitigen Anwendungsmöglichkeiten.

Qualität von und mit Prompt Engineering

Qualität von und mit Prompt Engineering

Als Deep-Learning-Enigneer erforscht David die Möglichkeiten zum Einsatz der KI. Es geht um seine Annäherung an KI-generierte Testfälle, die Grenzen...

Weiterlesen
GenAI in der Testautomatisierung

GenAI in der Testautomatisierung

Die Nutzung von KI in der Testautomatisierung eröffnet spannende Möglichkeiten zur Effizienzsteigerung und Flexibilisierung von...

Weiterlesen
German Testing Day

German Testing Day

Der German Testing Day, ein Podcast-Partner der ersten Stunde, steht im Mittelpunkt dieser Episode. Klaus Moritzen und Thomas Rinke, zwei Veteranen...

Weiterlesen