KI & AgentenCloudPDF

Spracherkennung mit KI

OpenAI Whisper bietet eine wunderbare Grundlage, Ihre (medizinische) Dokumentation zu automatisieren, Gespräche sowie Dokumente zusammenzufassen und Ihre IT-Systeme sprachlich zu steuern.

5. Januar 2024
3 Min. Lesezeit
KI-basierte Spracherkennung mit OpenAI Whisper

Für eilige Leser

  • OpenAIs Whisper Modell hat sich in der Spracherkennung zu einem ernstzunehmenden Konkurrenten für etablierte Anbieter wie Dragon Naturally Speaking oder Wolters Kluwer DictNow entwickelt.
  • Spracherkennung ist die Grundlage vieler KI-basierter Automatisierungen wie z.B. Meeting-Zusammenfassungen, medizinische Arzt-Patient Gesprächsdokumentation, Sprachsuche in Unternehmensdaten oder auch spezifischer Übersetzungsdienste.
  • Whisper erzielt bereits in seinem Basis-Modell (70 Millionen Parameter) hervorragende Ergebnisse. So lassen sich nicht nur Diktate bestens zusammenfassen, sondern auch Gespräche protokollieren und die darin vereinbarten Maßnahmen automatisiert extrahieren.
  • Mithilfe der jetzt verfügbaren Sprachmodelle können unternehmensspezifische Anwendungsfälle perfekt umgesetzt werden. Weg von mühsamer Tipparbeit, hin zur gezielten Spracheingabe und Sprachsteuerung von IT-Systemen und Maschinen.

Tipp zum Ausprobieren

Wer den Anwendungsfall der Zusammenfassung von Gesprächsinhalten aus MS Teams, Zoom oder Google Meet usw., der Analyse von Online Meetings nach Gesprächsanteilen sowie der Extraktion von Next Steps selbst ausprobieren möchte, sollte sich die Anbieter fireflies.ai und read.ai ansehen. Beide hängen sich als stiller Teilnehmer in eine Videokonferenz ein, protokollieren jedes Wort präzise und erstellen daraus eine Gesprächsanalyse nach vorgefertigtem Muster.

Der springende Punkt

In der Automatisierung von Geschäftsprozessen geht es in der Phase der Ideenfindung immer auch darum, den "springenden Punkt" (lat. punctum saltans) zu finden. Anders ausgedrückt: Welcher Beweis muss erbracht werden, damit eine Automatisierungstechnologie für einen Anwendungsfall als wirksam und zielführend einstuft werden kann?

Im Fall von KI-basierten Automatisierung ist das zuallererst die Erkennungsrate (engl. accuracy): Liefert die künstliche Intelligenz ein korrektes Ergebnis? Diese Frage ist so wichtig, weil KI auf stochastischen Verfahren beruht, welche das wahrscheinlichste Ergebnis liefern. Das muss nicht notwendigerweise das korrekte sein, je nachdem wie (gut) das KI-Modell trainiert wurde.

Bei unserem sprachlichen Anwendungsfall ist der springende Punkt die korrekte Transkription der Audioaufnahme in einen Fließtext. Darauf konzentrieren wir uns.

Whisper - das Flüstermodell

OpenAI stellt mit seinem Whisper Modell eine hervorragende Spracherkennungsbibliothek zur Verfügung. Wir integrieren diese mithilfe einer Python Bibliothek. Einzige derzeitige Besonderheit ist, dass Whisper nur 30 Sekunden lange Audiodateien verarbeiten kann. Folglich müssen wir unsere Aufnahme in 30-Sekunden Schnipsel zerteilen, um eine längere Aufnahme zu transkribieren.

Diese Schnipsel liest Whisper nacheinander ein und übersetzt sie in Spektrogramme. Ein Beispiel sehen Sie oben im Titelbild.

Das ist interessant! Whisper erzeugt nicht direkt aus der Audiodatei eine Textdatei sondern nimmt den Umweg über ein graphisches Artefakt - das Spektrogramm. Aus diesem Spektrogramm erschließt sich Whisper sodann durch Mustererkennung nicht nur die gesprochene Sprache (z.B. Deutsch oder Englisch) sondern dekodiert, d.h. transkribiert, den gesprochenen Text. Hier kommt der von OpenAI verfolgte GPT-Ansatz zum Vorschein: Aus Muster mache Zahlen, aus Zahlen mache - hier - Text.

Das geschieht mit jedem 30-Sekunden Schnipsel. Am Ende wird der transkribierte Text aneinander gereiht: Fertig ist die Transkription.

Cui bono?

Wo kann Whisper im Unternehmensumfeld nützlich sein? Neben seiner hohen Erkennungsgenauigkeit besticht die Einfachheit der Nutzung der Whisper Bibliothek. Sie bildet somit eine willkommene Grundlage für spezifische Anwendungen von künstlicher Intelligenz auf Probleme im Unternehmen. Hier einige Beispiele:

  • Zusammenfassungen von Gesprächen und Verhandlungen (Gesprächsnotizen)
  • Durchsuchen von längeren Aufzeichnungen nach bestimmten besprochenen Inhalten (semantische Suche)
  • Sprachsteuerung von nachgelagerter Software (z.B. ERP-System) und Kommunikation mit Maschinen (natürliche Sprachsteuerung)
  • Gesprochene Interaktion mit AI-Agenten zur automatisierten Erstellung von Datenanalysen, Auswertungen und Dashboards (sprechen statt schreiben)

Menschen, die gerne mittels gesprochener Sprache mit Computersystemen interagieren wollen statt zu tippen, werden diese Möglichkeit schätzen. Whisper ebnet nicht nur den Weg zur Analyse und Verwertung von Gesprochenem als Gegenstand des Interesses; es eröffnet auch eine neue Interaktion mit Unternehmensanwendungen und Unternehmensdaten, wie wir es von Consumer Software wie Apples Siri kennen.

Das gesprochene Wort zählt wieder.

Interessiert an unseren Lösungen?

Kontaktieren Sie uns für eine kostenlose Erstberatung.

Kontakt aufnehmen

Weiterlesen in diesem Themenbereich

Hauptartikel
KI-Agenten und künstliche Intelligenz im UnternehmenEmpfohlen
KI & AgentenAgentenPraxis

KI-Agenten im Unternehmen: Mehr als nur Chatbots

KI-Agenten revolutionieren die Unternehmensautomatisierung. Erfahren Sie, wie sie sich von Chatbots unterscheiden und wo sie echten Mehrwert bieten.

1. November 2024
5 Min. Lesezeit
Business Automatica Team
Titelbild zum Artikel: OpenClaw: Autonome KI-Agenten im Unternehmenseinsatz
KI & AgentenAgentenPraxis

OpenClaw: Autonome KI-Agenten im Unternehmenseinsatz

OpenClaw markiert den Wandel von Sprachmodellen zu handelnden KI-Agenten. Das Framework ermöglicht die Automatisierung komplexer Aufgaben in Unternehmen.

15. April 2026
7 Min. Lesezeit
Business Automatica Team
Ein fotorealistisches Bild zeigt einen Mann in einem modernen Büro an einem Schreibtisch mit drei Bildschirmen. Er sitzt in einem ergonomischen Stuhl und blickt auf die Monitore, während er eine Tastatur und eine Maus bedient. Auf den Bildschirmen sind verschiedene Anwendungen wie Slack und ein Webbrowser mit einer Google Drive-Oberfläche zu sehen. Die Szene ist hell und wird durch natürliches Tageslicht aus einem großen Fenster im Hintergrund beleuchtet, das einen Blick auf eine Stadt bietet. Die Farben sind natürlich und warm, und die Komposition ist im Querformat gehalten.
KI & AgentenAgentenSecurity

Claude Computer Use: KI steuert den Desktop

Künstliche Intelligenz bricht aus dem Chatfenster aus. Dank Anthropics Computer Use bedienen autonome Agenten nun Software und Desktops selbstständig.

1. April 2026
5 Min. Lesezeit
Business Automatica Team
Eine professionelle, fotorealistische Aufnahme zeigt einen männlichen KI-Entwickler mit Brille in einem modernen, lichtdurchfluteten Büro. Er sitzt an einem Schreibtisch aus Holz und blickt konzentriert auf zwei Monitore, die die Benutzeroberfläche von "OpenClaw-RL" anzeigen, einem Framework zur Verbesserung von KI-Agenten. Auf dem Hauptbildschirm ist die Dashboard-Übersicht von "OpenClaw-RL: Real-Time AI Agent Self-Improvement" zu sehen, die Graphen, Daten und Konfigurationsoptionen zeigt. Seine rechte Hand ruht auf der Maus, während er die Leistung und das Lernverhalten des KI-Agenten analysiert und anpasst. Die Büroumgebung im Hintergrund ist leicht unscharf (Tiefenschärfe), was den Fokus auf den Entwickler und die Bildschirme lenkt. Im Hintergrund sind weitere Arbeitsplätze, ein großes Fenster mit Blick auf eine Stadtlandschaft und ein Whiteboard mit Architekturdiagrammen zu erkennen. Die Beleuchtung ist natürlich und angenehm. Die Komposition ist dynamisch und fängt die Konzentration und den technologischen Fortschritt ein. Das Bild strahlt eine moderne, innovative Arbeitsatmosphäre aus.
KI & AgentenAgentenCloud

KI-Agenten: Lernt doch selbst!

KI-Agenten revolutionieren die Interaktion, indem sie sich durch Nutzerfeedback selbstständig verbessern.

20. März 2026
6 Min. Lesezeit
Business Automatica Team
DonnaTax Dashboard - KI-gestützter Buchhaltungsassistent für automatisierte Belegverarbeitung
KI & AgentenDATEVPDF

DonnaTax: Ihr KI-Buchhaltungsassistent

DonnaTax ist der KI-gestützte Buchhaltungsassistent für automatische Belegerfassung, intelligente Transaktionszuordnung und DATEV-konformen Export.

17. November 2025
2 Min. Lesezeit
Business Automatica Team
Lead Management Symbolbild mit Geschäftsmann und Kundenkontakt-Icons
KI & AgentenERPAgenten

Lead Management Agent (LMA)

KI-Agenten revolutionieren das Lead Management: automatische E-Mail-Klassifikation, intelligente Aufgabenpriorisierung und dynamische CRM-Integration.

15. Oktober 2025
4 Min. Lesezeit
Business Automatica Team