Blog

Audio-KI testen - Richard Seidl

Geschrieben von Richard Seidl | 10.07.2023

Olaf ist Experte für Audio-KIs. Dabei gibt es eine Menge Herausforderungen, gerade im deutschsprachigen Raum: Sehr viele unterschiedliche Dialekte und die dazu notwendigen – aber oft fehlenden – Trainingsdaten. Er nimmt uns mit in die Welt der Sprach-KIs, wie wir diese trainieren und testen können und welche Aufgaben er eigentlich ChatGPT stellt.

“Wir haben leider beim Audio das Problem, dass die Datenmengen ungleich größer sind. Deswegen gibts da auch noch nicht so coole Modelle wie jetzt von OpenAI ChatGPT oder sowas” – Olaf Thiele

Olaf digitalisiert gesprochenes Deutsch. Er trainiert Modelle für die Transkription und Synthese von deutschem Audiomaterial mit Hilfe von künstlicher Intelligenz. Da diese Modelle immer stärker genutzt werden, wird auch das Testen und die Qualitätssicherung dieser Modelle immer wichtiger.

Highlights in dieser Episode:

  • Olaf arbeitet seit vielen Jahren mit künstlicher Intelligenz, besonders im Bereich der Audio-KIs
  • Das Testen von Audio-KIs stellt eine besondere Herausforderung dar, da es sich um eine Kombination aus zwei anspruchsvollen Bereichen handelt
  • Olaf und sein Team haben sich auf Deutsch spezialisiert, da es weniger große Datenmengen in dieser Sprache gibt
  • Die Entwicklung von KI-Modellen hat sich durch Technologien wie Deep Learning stark verändert
  • Es ist schwierig, KI-Modelle zu testen, da sie wie eine Blackbox funktionieren und auf unterschiedlichen Rechnerarchitekturen unterschiedliche Ergebnisse liefern können
  • Tools wie Chat-GPT können helfen, textuelle Testdaten zu generieren, um die Modelle besser zu testen
  • Es gibt noch viel Raum für Verbesserungen und Standardisierungen im Bereich des Testens von KI-Modellen
  • Olaf sieht in Hugging Face einen potenziellen Akteur für die Weiterentwicklung und Standardisierung von KI-Modelltests

Das Testen von Audio-KI- warum das besonders schwierig ist

In dieser Podcast-Folge geht es um das Testen von Audio-KI ein, die Herausforderungen und Chancen, und wie wir mit den neuesten Technologien Fortschritte machen können.

Herausforderungen beim Testen von Audio-KI

Olaf betonte, dass das Testen von Audio-KI nicht nur technisch anspruchsvoll ist, sondern auch eine enorme kreative Denkleistung erfordert. Er erläuterte die Schwierigkeiten, die mit der begrenzten Verfügbarkeit von Daten in deutscher Sprache und den variierenden Dialekten zusammenhängen. Die Herausforderung besteht darin, genügend diversifizierte Daten zu sammeln, um ein Modell effektiv trainieren zu können. Darüber hinaus berichtete er über die Probleme der Reproduzierbarkeit bei unterschiedlichen Hardwarekonfigurationen und die Schwierigkeiten bei der Sicherstellung der Modellgeneralisierung.

Der Einsatz von Chat-GPT zur Generierung von Testdaten

Olaf erzählte von Chat-GPT als Werkzeug zur Generierung von Testdaten. Dies könnte eine revolutionäre Methode sein, um das Spektrum möglicher Testszenarien zu erweitern. Durch solche Tools können Tester eine Vielzahl an Daten produzieren lassen, ohne dass manuelle Eingriffe nötig sind. Dies könnte insbesondere für Sprachmodelle nützlich sein, wo Variation in der Aussprache oder im Dialekt schwierig manuell zu simulieren ist.

Die Zukunft des Testens in der KI-Ära

Olaf äußerte Hoffnung auf fortschreitende Entwicklungen bei Tools und Methodiken, insbesondere durch Plattformen wie Hugging Face. Diese könnten standardisierte Verfahren für das Training und Testen von KI-Modellen einführen. Eine solche Entwicklung würde nicht nur das Testen vereinfachen, sondern auch zu aussagekräftigeren Vergleichen zwischen verschiedenen Modellen führen.

Die ethische Dimension des KI-Einsatzes

Neben den technischen Aspekten sprachen wir auch über die ethischen Überlegungen beim Einsatz von KI-Technologien. Die Notwendigkeit einer sorgfältigen Abwägung dessen, was Modelle lernen sollten und was nicht, wurde hervorgehoben. Zudem wurde über den European AI Act diskutiert, der potentielle Regulierungen für den Einsatz von KI-Systemen vorsieht.

Eine Welt voller Möglichkeiten

Das Gespräch endete mit einem optimistischen Ausblick auf die Möglichkeiten, die sich durch fortschrittliche KI-Technologien eröffnen. Trotz der zahlreichen Herausforderungen sind sowohl Olaf als auch ich überzeugt, dass durch innovative Ansätze und kontinuierliche Forschung das Potenzial von Audio-KI voll ausgeschöpft werden kann.