KI & AgentenAgentenCloud

Gespräche auswerten und verarbeiten

Natürliche Gespräche mehrerer Teilnehmer automatisiert verstehen und verarbeiten - die Basis wirksamer Automatisierung in behandelnden und beratenden Berufen. Diarization bildet eine wichtige Erfolgsg

5. Januar 2024
4 Min. Lesezeit
Gespräche auswerten und verarbeiten

Für eilige Leser

  • Transkription überführt gesprochene Worte in geschriebenen Text. Dieser Text kann anschließend vielfältig im Unternehmenskontext genutzt werden. Wir nennen das Sprachautomatisierung.
  • Zusammenfassungen von Gesprächen, Videokonferenzen oder YouTube-Videos sind die bekanntesten Anwendungsfälle. Jedoch können mittels KI zahlreiche weitere anwendungsspezifische Berichte erstellt und weiterführende Automatisierungen angestoßen werden.
  • Voraussetzung ist, die Gesprächspartner in der Aufnahme eindeutig zu identifizieren sowie ihnen die Texte korrekt und exakt zuzuordnen. Dieses Vorgehen nennt sich Diarization ("Tagebuchführung").
  • Diarization ermöglicht die sprecherspezifische Interpretation von Inhalten und deren Nutzung. Sie ist Grundlage für automatisch erstellte Arztbriefe, Anwalt-Mandanten Gespräche, Auftragsdokumentation im Banking sowie Versicherungswesen und vieles mehr.
  • Zudem können Folgeprozesse automatisch angestoßen werden, wenn z.B. ein Vorgesetzter im Gespräch eine Maßnahme genehmigt, die anschließend einen Genehmigungsprozess im ERP-System veranlasst und entsprechend abschließt.

Tipp zum Ausprobieren

Wer ChatGPT nutzt, sollte sich den neuen Prompt-Guide von OpenAI ansehen. Der Hersteller von ChatGPT hat eine eigene Prompt-Erstellungsanleitung veröffentlicht, wie ein guter und aussagekräftiger Prompt in ChatGPT - und auch über die API - aussehen soll, damit das Ergebnis eine möglichst hohe Qualität erreicht. Hervorzuheben ist, dass OpenAI im Allgemeinen eine sehr verständliche Dokumentation verfasst, sodass auch nicht IT-Fachleute das Beste aus ChatGPT, DALL-E und Whisper für sich herausholen können.

Handlungen erfordern Präzision

Soll Transkription über eine reine Spracherkennung sowie Übersetzung von gesprochenen Wörtern und Sätzen hinausgehen, so ist die eindeutige Zuordnung des Gesagten zu einzelnen Sprechern notwendig.

Videokonferenz-Hersteller wie Microsoft Teams, Zoom, Google Meet, GoToMeeting oder Cisco WebEx können in ihren Produkten bereits jeden Sprecher identifizieren und dessen Äußerungen genau zuordnen, da jeder Videokonferenzteilnehmer einem eigenen Kanal nutzt. Das funktioniert im Grunde zuverlässig, wenn wir von kleineren Zuordnungsfehlern bei Unterbrechungen absehen (z.B. beim "Dazwischenreden").

Will man beispielsweise eine medizinische Dokumentation auf Basis eines oder mehrerer Arzt-Patient-Gespräche automatisch erstellen und in das Krankenhausinformationssystem bzw. Praxissystem zwecks Dokumentation automatisch einspielen, dann ist die Nutzung der vorgenannten Videokonferenzsysteme oftmals nicht zweckmäßig. Zwar kann der Arzt sich behelfen, indem er während des Termins oder in dessen Anschluss die wesentlichen Informationen in sein Smartphone spricht und von dort aus ein automatischer Transkriptionsprozess stattfindet; allerdings besteht der verständliche Wunsch, das normale Arzt-Patientengespräch direkt zu verarbeitet, sodass die vollständige Aufmerksamkeit dem Patienten entgegengebracht werden kann.

Diarization

KI-basierte Transkriptionsplattformen wie das OpenAI Whisper Modell können zwar ganze Audiodateien in Textdateien umwandeln - und sie so einer Weiterverarbeitung zugänglich machen -, jedoch bieten sie keine Möglichkeit, die einzelnen Sprecher zu identifizieren, sodass es zu Fehlinterpretationen des KI-Modells kommt, wenn z.B. die Beschwerden zu Beginn des Aufnahmeberichts des Krankenhauses separat aufgeführt werden sollen.

Zur Identifikation der Sprecher (z.B. Arzt, Patient, Pflegekraft, Angehöriger usw.) werden deshalb andere KI-Modelle benutzt. Sie heißen Diarization-Modelle und liefern eine Liste mit Einträgen zurück, aus der hervorgeht, welcher Sprecher von welcher Sekunde bis zu welcher Sekunde etwas gesagt hat.

Mit dieser Information wird dann die Aufnahme über Transkriptionsmodelle zu Text weiterverarbeitet, sodass bei der anschließenden, ebenfalls KI-basierten Textauswertungen die Information genutzt werden kann, wer was gesagt hat. Das ist bei der Differenzierung von Inhalten wichtig. So kommt z.B. die Beschwerde vom Patienten, während Therapievorschlag vom Arzt stammt. Fehlt die stimmliche Differenzierung - wie das bei Text der Fall ist - kann kein Computer das gesagte eindeutig zuordnen. Es würden sich vermehrt Fehlinterpretationen einschleichen, die wir gerade in kritischen Bereichen vermeiden müssen.

Anwendungsfälle

Diese Kombination mehrerer KI-Modelle ermöglicht die Automatisierung branchenspezifischer Anwendungsfälle. Wie KI-Agenten in Unternehmen derartige Prozesse orchestrieren, erläutern wir in einem separaten Beitrag.

So können automatisiert Arztbriefe und Pflegeberichte angefertigt und an den gewünschten Adressaten zugestellt werden, Rechtsanwälte sowie Steuerberater können die Ergebnisse ihrer Beratungsgespräche und die mit ihrem Mandanten abgestimmten nächsten Schritte in der digitalen Akte protokollieren, Banken und Versicherungen können Aufträge und Kundeninteraktionen nicht nur nachhalten sondern daraus umgehend automatisierte Handlungen wie z.B. Kauf- oder Verkaufaufträge oder die Zusendung einer Polizze veranlassen.

Customer Service Desks und Helpdesks können Buchungen mit konkreten, vom Kunden im Gespräch mitgeteilten Details aufnehmen oder Lizenzen für den Gesprächspartner aktiveren bzw. deaktivieren lassen.

Allen Anwendungsfällen ist gemein und liegt zugrunde, dass die künstliche Intelligenz den Sinn des Gesprächs deuten kann sowie dank Zuordnung zum Gesprächspartner in einen Kontext setzen kann. Unser kostenloser Audio-in-Text-Konverter zeigt, wie einfach der Einstieg in die Transkription sein kann. So lassen sich weiterführende Automatisierungsprozesse ohne explizite menschliche Handlung in Folgesystemen veranlassen. Die menschliche Kommunikation dient der Problemlösung, die Umsetzung wird dank KI automatisch durchgeführt.

Transkription mit Diarization eröffnen Unternehmen jeglicher Branche völlig neue Möglichkeiten, ihr Tagesgeschäft zu automatisieren, um ihre eigene Produktivität zu heben, ihren Wettbewerbsvorteil auszubauen, sowie die Zufriedenheit ihrer Mitarbeiter dank Wegfall monotoner Tätigkeiten zu heben.

Kurzum: Aus Worten folgen Taten.

Interessiert an unseren Lösungen?

Kontaktieren Sie uns für eine kostenlose Erstberatung.

Kontakt aufnehmen

Weiterlesen in diesem Themenbereich

Hauptartikel
KI-Agenten und künstliche Intelligenz im UnternehmenEmpfohlen
KI & AgentenAgentenPraxis

KI-Agenten im Unternehmen: Mehr als nur Chatbots

KI-Agenten revolutionieren die Unternehmensautomatisierung. Erfahren Sie, wie sie sich von Chatbots unterscheiden und wo sie echten Mehrwert bieten.

1. November 2024
5 Min. Lesezeit
Business Automatica Team
Titelbild zum Artikel: OpenClaw: Autonome KI-Agenten im Unternehmenseinsatz
KI & AgentenAgentenPraxis

OpenClaw: Autonome KI-Agenten im Unternehmenseinsatz

OpenClaw markiert den Wandel von Sprachmodellen zu handelnden KI-Agenten. Das Framework ermöglicht die Automatisierung komplexer Aufgaben in Unternehmen.

15. April 2026
7 Min. Lesezeit
Business Automatica Team
Ein fotorealistisches Bild zeigt einen Mann in einem modernen Büro an einem Schreibtisch mit drei Bildschirmen. Er sitzt in einem ergonomischen Stuhl und blickt auf die Monitore, während er eine Tastatur und eine Maus bedient. Auf den Bildschirmen sind verschiedene Anwendungen wie Slack und ein Webbrowser mit einer Google Drive-Oberfläche zu sehen. Die Szene ist hell und wird durch natürliches Tageslicht aus einem großen Fenster im Hintergrund beleuchtet, das einen Blick auf eine Stadt bietet. Die Farben sind natürlich und warm, und die Komposition ist im Querformat gehalten.
KI & AgentenAgentenSecurity

Claude Computer Use: KI steuert den Desktop

Künstliche Intelligenz bricht aus dem Chatfenster aus. Dank Anthropics Computer Use bedienen autonome Agenten nun Software und Desktops selbstständig.

1. April 2026
5 Min. Lesezeit
Business Automatica Team
Eine professionelle, fotorealistische Aufnahme zeigt einen männlichen KI-Entwickler mit Brille in einem modernen, lichtdurchfluteten Büro. Er sitzt an einem Schreibtisch aus Holz und blickt konzentriert auf zwei Monitore, die die Benutzeroberfläche von "OpenClaw-RL" anzeigen, einem Framework zur Verbesserung von KI-Agenten. Auf dem Hauptbildschirm ist die Dashboard-Übersicht von "OpenClaw-RL: Real-Time AI Agent Self-Improvement" zu sehen, die Graphen, Daten und Konfigurationsoptionen zeigt. Seine rechte Hand ruht auf der Maus, während er die Leistung und das Lernverhalten des KI-Agenten analysiert und anpasst. Die Büroumgebung im Hintergrund ist leicht unscharf (Tiefenschärfe), was den Fokus auf den Entwickler und die Bildschirme lenkt. Im Hintergrund sind weitere Arbeitsplätze, ein großes Fenster mit Blick auf eine Stadtlandschaft und ein Whiteboard mit Architekturdiagrammen zu erkennen. Die Beleuchtung ist natürlich und angenehm. Die Komposition ist dynamisch und fängt die Konzentration und den technologischen Fortschritt ein. Das Bild strahlt eine moderne, innovative Arbeitsatmosphäre aus.
KI & AgentenAgentenCloud

KI-Agenten: Lernt doch selbst!

KI-Agenten revolutionieren die Interaktion, indem sie sich durch Nutzerfeedback selbstständig verbessern.

20. März 2026
6 Min. Lesezeit
Business Automatica Team
DonnaTax Dashboard - KI-gestützter Buchhaltungsassistent für automatisierte Belegverarbeitung
KI & AgentenDATEVPDF

DonnaTax: Ihr KI-Buchhaltungsassistent

DonnaTax ist der KI-gestützte Buchhaltungsassistent für automatische Belegerfassung, intelligente Transaktionszuordnung und DATEV-konformen Export.

17. November 2025
2 Min. Lesezeit
Business Automatica Team
Lead Management Symbolbild mit Geschäftsmann und Kundenkontakt-Icons
KI & AgentenERPAgenten

Lead Management Agent (LMA)

KI-Agenten revolutionieren das Lead Management: automatische E-Mail-Klassifikation, intelligente Aufgabenpriorisierung und dynamische CRM-Integration.

15. Oktober 2025
4 Min. Lesezeit
Business Automatica Team