Co-Intelligence
Alle Folgen / EP_010
EP_010 35 min

Voice AI im Unternehmen: 7 smarte Anwendungen für Sprache & Sound

Erschienen 28. Mai 2025
// Lieber nur Audio? Bei Spotify hören

// KI-Zusammenfassung

Dieser Podcast beleuchtet sieben smarte Anwendungen von Voice AI in Unternehmen, von Sprachsynthese und Audiooptimierung bis hin zu KI-generierter Musik und Sprachassistenten. Er zeigt auf, wie diese Technologien die Effizienz steigern, die Barrierefreiheit verbessern und neue Formen der Inhaltserstellung ermöglichen, inklusive einer Diskussion aktueller Tools und zukünftiger Entwicklungen.

Shownotes

In dieser Episode geht es um den Einsatz von KI in Sprache, Podcasts und Audioformaten – von automatischer Transkription bis hin zu Voicebots und synthetischen Stimmen. Dabei fällt auch der Name von Whisper https://openai.com/de-DE/index/whisper/ , dem Open-Source-Transkriptionsmodell von OpenAI. Es ermöglicht die zuverlässige Umwandlung von gesprochener Sprache in Text und wird heute bereits in vielen professionellen Workflows eingesetzt. Darüber hinaus sprechen Benjamin und Moritz über eine Vielzahl an Anwendungsfällen, die sich durch aktuelle KI-Tools erschließen – auch wenn keine weiteren Markennamen genannt werden. Zu den relevanten Lösungen in diesem Bereich zählen unter anderem:

- ElevenLabs: https://elevenlabs.io/de – für hochwertige, KI-generierte Stimmen mit natürlichem Sprachfluss - Descript: https://www.descript.com/ – All-in-One-Editor für Podcasts & Videos inklusive Transkription, Schnitt und Voice Cloning - Play.ht: https://play.ht/ – Plattform zur Text-zu-Sprache-Konvertierung mit Fokus auf Natürlichkeit - Resemble: https://www.resemble.ai/ – Voice Cloning mit Emotionen und API-Anbindung für dynamische Inhalte - Murf: https://murf.ai/ – Cloudbasierte Lösung zur Erstellung professioneller Voiceovers - Coqui: https://coqui.ai/ – Open-Source-Plattform für Sprachsynthese und Stimmmodellierung

Ob für Podcasts, E-Learning oder digitale Assistenten – die Möglichkeiten, Sprache mit KI zu erzeugen, zu bearbeiten und zu automatisieren, sind heute vielfältiger denn je.

Erkenntnisse

  • 1:29

    Sprachsynthese und Voiceovers erleichtern die effiziente Vertonung von Videos, E-Learning und Präsentationen, inklusive Internationalisierung.

  • 2:38

    KI-Tools können bestehende Audioaufnahmen optimieren, indem sie Rauschen unterdrücken, Fehler entfernen und sogar länderspezifische Akzente herausfiltern.

  • 4:13

    Die Generierung von KI-Songs und Sounddesign ermöglicht die Erstellung maßgeschneiderter Musik für Jingles, Werbespots oder interne Zwecke.

  • 7:01

    KI-Notetaker revolutionieren Meetings und Vertriebsgespräche, indem sie Gespräche transkribieren, zusammenfassen und relevante Daten in CRM-Systeme integrieren.

  • 13:02

    Voice AI trägt zur Barrierefreiheit bei, indem sie Webseiten und Apps für Menschen mit Sehbehinderung durch Sprachausgabe zugänglich macht.

Zitate

  • „Die Geschwindigkeit, wie sich die Technologie verbessert ist einfach wirklich crazy."

  • „Für mich ist ein absoluter Gamechanger, wenn wir in Vertriebsgesprächen sind. Natürlich sage ich am Anfang immer dazu, er ist ja auch sichtbar, dass der Snippy der Notaker mit dabei ist und meistens ist es dann eine ganz nette Unterhaltung schon über den Notaker am Anfang und der oder die gegenüber sollen natürlich wissen, dass dieser Call aufgenommen transkriert wird, aber dann ist es für mich ein Gamechanger aus zwei Gründen, weil ich zum einen 100% im Call sein kann und der Person zuhören kann"

  • „Aber ein mit quasi den neuen System ist es möglich natürlich zu identifizieren und dann direkt auf mich einzugehen. Und wenn ich diese Voice Systeme eben mit dem CM-System oder ERP System verbinde, dann können die mir in der Regel auch zumindest für alles, was Standardgaben sind, sehr gut helfen."

  • „Ja, wie ihr seht, es fühlt sich nicht mehr an, als wenn man mit einer AI spricht. Die Stimme ist ziemlich natürlich, es gibt Pausen, trotzdem ist es recht schnell."

  • „Aber wir glauben, dass es da eine große berufliche Anwendbarkeit gibt in eigentlichen verschiedensten Unternehmensbereichen, sowohl für interne Kommunikation als auch externe Kommunikation, Marketing, Sales, Support, whatever might be viele Use Cases."

Zahlen

  • im Juni

    Ein neues Gesetz tritt in Kraft, das alle Webseiten komplett barrierefrei machen muss.

    0:32

  • 40%

    Ein Chatsystem schließt bereits einen Großteil der Tickets automatisiert ab.

    11:16

Häufige Fragen

Welche Vorteile bietet Sprachsynthese und Voice AI für Unternehmen?

Sprachsynthese und Voice AI ermöglichen Unternehmen, Videos, E-Learning-Inhalte und Präsentationen effizient zu vertonen und zu internationalisieren. Sie reduzieren den Aufwand für Audioerstellung erheblich und machen Inhalte durch automatische Stimmerzeugung leichter zugänglich und anpassbar für verschiedene Sprachen und Zielgruppen.

Wie können KI-Tools die Qualität bestehender Audioaufnahmen verbessern?

KI-Tools können Audioaufnahmen erheblich optimieren, indem sie Rauschen unterdrücken, Fehler entfernen und sogar länderspezifische Akzente herausfiltern. Dies führt zu professioneller klingenden Webinaren, Podcasts und anderen Audioinhalten, was besonders im Unternehmenskontext wichtig für einen seriösen Auftritt ist.

Welche Rolle spielen KI-Notetaker bei der Effizienzsteigerung in Meetings?

KI-Notetaker zeichnen Meetings auf, transkribieren sie, fassen die Inhalte zusammen und können relevante Daten direkt in CRM-Systeme wie HubSpot oder Salesforce integrieren. Dies ermöglicht es den Teilnehmern, sich voll auf das Gespräch zu konzentrieren und reduziert den manuellen Aufwand für Notizen und Nachbereitung erheblich.

Wie verbessern Voicebots und Sprachassistenten den Kundenservice?

Voicebots und Sprachassistenten können den Kundenservice automatisieren und personalisieren, indem sie Anrufer über ihre Telefonnummer identifizieren und auf bestehende Kundendaten zugreifen. Sie können Bestellungen aufnehmen, Standardfragen beantworten und interne Helpdesks unterstützen, was zu einer effizienteren und persönlicheren Kundeninteraktion führt.

Inwiefern trägt Voice AI zur Barrierefreiheit von Webseiten und Apps bei?

Voice AI macht Webseiten und Apps für Menschen mit Sehbehinderung zugänglich, indem sie Inhalte vorliest und die Navigation per Sprache ermöglicht. Dies ist besonders relevant, da ab Juni ein neues Gesetz die Barrierefreiheit von Webseiten vorschreibt. Auch für sehende Nutzer bietet es Mehrwert, Inhalte unterwegs hören zu können.

Welche Tools werden für die Generierung von KI-Musik empfohlen?

Für die Generierung von KI-Musik werden Udio und Suno als führende Tools genannt. Beide bieten ähnliche Funktionen und ermöglichen es, Songs in verschiedenen Musikrichtungen zu erstellen. Es wird empfohlen, beide in ihren kostenlosen Versionen auszuprobieren, um eine Vielzahl von Entwürfen zu generieren und den passendsten Song zu finden.

Anleitungen

So erstellst du Audioinhalte mit KI-Sprachsynthese

Lerne, wie du mit KI-Stimmen schnell und effizient Audioinhalte für Videos, E-Learning und Präsentationen erzeugst, auch für internationale Zielgruppen.

  1. 01

    Anwendungsbereiche identifizieren

    Überlege, für welche Videos, E-Learning-Module oder Präsentationen du synthetische Stimmen einsetzen möchtest, um den Aufwand zu reduzieren.

    1:37

  2. 02

    KI-Stimmen generieren

    Nutze KI-Tools, um Stimmen synthetisch zu erzeugen und so Audioinhalte effizient zu erstellen.

    1:56

  3. 03

    Inhalte internationalisieren

    Erweitere die Reichweite deiner Inhalte, indem du die generierten Stimmen für verschiedene Sprachen anpasst.

    1:58

Optimiere deine Audioaufnahmen mit KI-Tools

Verbessere die Qualität deiner Podcasts, Webinare und Aufnahmen durch KI-gestützte Rauschunterdrückung und Fehlerkorrektur, um professioneller zu wirken.

  1. 01

    Audioaufnahmen analysieren

    Nutze KI-Tools, um bestehende Webinare, Podcasts oder andere Aufnahmen im Nachhinein zu verbessern.

    2:33

  2. 02

    Rauschen und Akzente entfernen

    Wende Rauschunterdrückung an und filtere bei Bedarf länderspezifische Akzente aus der Sprache heraus, um die Verständlichkeit zu erhöhen.

    2:37

  3. 03

    Fehler korrigieren

    Entferne Verhaspler und andere Fehler in deinen Aufnahmen, um ein professionelleres Soundbild zu erzielen.

    3:48

Nutze KI-Notetaker für effizientere Meetings

Optimiere deine Meetings und Vertriebsgespräche, indem du KI-Notetaker für automatische Transkription, Zusammenfassungen und CRM-Integration einsetzt.

  1. 01

    KI-Notetaker einsetzen

    Integriere einen KI-Notetaker in deine Vertriebs- und internen Gespräche, um diese automatisch aufzeichnen und verarbeiten zu lassen. Informiere die Teilnehmer über die Aufzeichnung.

    12:19

  2. 02

    Gespräche transkribieren und zusammenfassen

    Lass die KI die gesprochene Sprache in Text transkribieren und wichtige Punkte zusammenfassen, damit du dich voll auf das Gespräch konzentrieren kannst.

    13:09

  3. 03

    Daten ins CRM-System integrieren

    Verbinde den Notetaker mit deinem CRM-System (z.B. HubSpot oder Salesforce), damit relevante Gesprächsdaten und Zusammenfassungen automatisch in die entsprechenden Felder eingetragen werden.

    13:31

  4. 04

    Aufgaben ableiten

    Nutze die KI, um aus den transkribierten und zusammengefassten Gesprächen direkt Aufgabenlisten zu generieren, die du dann abarbeiten kannst.

    14:00

Automatisiere Kundenservice mit Voicebots und Sprachassistenten

Nutze Voicebots und Sprachassistenten, um Kundenservice, Bestellungen und interne Anfragen zu automatisieren und durch Personalisierung zu verbessern.

  1. 01

    Anwendungsbereiche identifizieren

    Lege fest, ob du Voicebots für Bestellabwicklung, Kundenservice-Thematiken oder interne Helpdesks einsetzen möchtest, um Prozesse zu automatisieren.

    15:49

  2. 02

    Voicebot mit Kundendaten verknüpfen

    Verbinde den Voicebot mit bestehenden Kundendaten (z.B. über Telefonnummern und CRM-Systeme), um eine direkte und personalisierte Ansprache zu ermöglichen.

    16:39

  3. 03

    Standardanfragen automatisieren

    Nutze die KI, um Standardfragen und -aufgaben im Kundenservice oder Helpdesk effizient zu bearbeiten und so menschliche Mitarbeiter zu entlasten.

    17:19

  4. 04

    Personalisierte Interaktionen ermöglichen

    Ermögliche dem Voicebot, auf Basis der Kundendaten direkt auf den Anrufer einzugehen und so ein besseres Kundenerlebnis zu schaffen.

    16:59

Mache deine Inhalte barrierefrei mit Voice AI

Nutze Voice AI, um Webseiten und Apps für Menschen mit Sehbehinderung zugänglich zu machen und das Konsumieren von Inhalten unterwegs zu erleichtern.

  1. 01

    Gesetzliche Anforderungen prüfen

    Informiere dich über aktuelle Gesetze zur Barrierefreiheit, die vorschreiben, dass Webseiten und Apps inklusiv gestaltet sein müssen.

    21:39

  2. 02

    Sprachausgabe implementieren

    Ermögliche die Sprachausgabe von Webseiten und Apps, damit Menschen mit Sehbehinderung Inhalte hören können, anstatt sie zu lesen.

    21:41

  3. 03

    Navigation per Sprache ermöglichen

    Implementiere Funktionen, die es Nutzern erlauben, auf der gesamten Webseite oder App komplett mit Sprache zu navigieren.

    21:52

  4. 04

    Inhalte für mobiles Hören optimieren

    Nutze Voice AI, um Blogposts und Webseiten in Audio umzuwandeln, damit Nutzer diese unterwegs, z.B. beim Joggen oder Autofahren, konsumieren können.

    22:09

Weitere Fragen

Wie helfen KI-Notetaker konkret in Vertriebsgesprächen?

KI-Notetaker transkribieren das Gespräch und ermöglichen es dir, dich voll auf dein Gegenüber zu konzentrieren. Sie integrieren sich direkt in CRM-Systeme wie HubSpot oder Salesforce und befüllen dort automatisch die relevanten Felder.

„Und diese Tools sind mittlerweile soweit, dass sie eine direkte Integration in ein Cystem haben, ob das jetzt ein Hubspot oder Sales Force ist und befüllen dann die relevanten Felder im Sales Force." · 6:33
Sind KI-generierte Songs für Unternehmenszwecke GEMA-frei?

Ja, komplett KI-generierte Songs sind GEMA-frei und können problemlos für Marketingaktionen genutzt werden. Du hast jedoch kein eigenes Urheberrecht auf den Song, solange du ihn nicht als Mensch maßgeblich veränderst.

„Aber dadurch, dass wir den Song komplett KI generiert haben, haben wir sofort von der GEMER die Bestätigung bekommen, okay, Geh frei und konnten so am Ende diese Kassetten auch bedrucken." · 15:04
Wie lassen sich Voicebots für Retouren im E-Commerce einsetzen?

Kunden können den Rücksendegrund per Sprache über einen Button auf der Webseite mitteilen. Diese Voice-Daten werden analysiert und direkt mit der Webseite verknüpft, um beispielsweise Hinweise zur Passform eines Artikels zu ergänzen.

„Die haben zusätzlich die Möglichkeit gegeben mit einem Button, der einfach auf der Seite ist, kann der Kunde reinsprechen, hat mir nicht gefallen, war zu groß, wie auch immer. Und dann werden diese Voice Daten analysiert und dem E-Commerce Shop am Ende eben eine Analyse gegeben, was die Hauptgründe sind, bei welchem Artikel, was wiederum connected ist mit der Seite" · 12:10
Welche Voice-KI eignet sich, wenn ich keine Daten in die USA senden darf?

Wenn du sensible Informationen verarbeitest, die nicht in die USA abfließen sollen, sind Open-Source-Lösungen sinnvoll. Tools wie Vapi lassen sich lokal in deine eigenen Systeme und Workflows anbinden.

„Wenn ich quasi nicht diese oder wenn ich quasi eine Open Source Lösung nutzen möchte, vielleicht, weil auch jetzt was reingesprochen wird, Daten sind und Informationen enthält, die ich vielleicht nicht in die USA schicken möchte, dann ergeben so Open Source Lösungen eigentlich immer Sinn." · 24:42
Wie kann ich aus bestehenden Dokumenten einen Podcast erstellen?

Mit Tools wie NotebookLM kannst du verschiedene Quellen wie PDFs, Webseiten oder YouTube-Videos hochladen. Das System generiert daraus automatisch einen Podcast, in dem sich zwei KI-Stimmen über deine Inhalte unterhalten.

„Im Wesentlichen kann ich mit verschiedenen Inputquellen, beispielsweise YouTube Videos, Dokumente, die ich reinlade, PDFs, Internetseiten, daraus ein Podcast erstellen lassen. Das quasi zwei Personen, die sich über diese Inhalte unterhalten." · 18:11

Diese Folge wird zitiert in

In anderen Folgen erwähnt

Transkript

// Vollständiges Transkript

Komplettes Transkript dieser Folge öffnen →