// Transkript

#10: Voice AI im Unternehmen: 7 smarte Anwendungen für Sprache & Sound

Vollständiges Transkript dieser Episode des Co-Intelligence Podcasts. 5.663 Wörter. · Auf YouTube ansehen ↗

0:00 You are live on my podcast.

0:09 Heute geht's um wie wir mit KI Sound erstellen können. Die dritte spannende Kategorie, für mich eine der spannendsten, ist die Generierung von KI Songs Sounddesign. Es läuft mit und sagt

0:22 danach, okay, welche Aufgaben sind aus diesem Gespräch entstanden? Also auch für mich super relevant und hilfreich, aber dadurch, dass wir den Song komplett KI generiert haben, haben wir sofort von

0:32 der GEM die Bestätigung bekommen. Juni tritt das neue Gesetz in Kraft, dass alle Webseiten komplett barrierefrei sein müssen. Mit den neuen technologischen Möglichkeiten ist das

0:42 Ganze ähm deutlich einfacher. [Musik] Willkommen zurück zum Cointelligent Podcast. Jetzt schon in Episode 10. Heute geht's um Sounds und wie wir mit KI Sound erstellen können, warum das für

1:01 euch relevant ist im Unternehmensbezug, im Unternehmenskontext. Wir haben euch sieben verschiedene Felder mitgebracht, indem wir glauben, dass Soundstellung mit KI Sinn macht und wir werden die

1:12 besprechen, werden dann in verschiedene Tools gehen und zeigen euch auch ein paar Demos von Tools, die gerade ziemlich an der Edge sind und zeigen, was alles schon möglich ist. Genau, es

1:24 geht um Sound. Es geht um Sprache heute und die erste große Kategorie kann man glaube ich unter dem ja Begriff Sprachsynthese und Voiceovers ähm betrachten. Da gibt's dann ganz viele

1:37 viele unteruse Cases sozusagen im Unternehmen und zwar entweder eine Vertonung von Videos oder Social Media Videos oder beispielsweise auch von Präsentationen oder wenn ich Lerninhalte

1:49 erstelle so im E-Learning er gibt's einfach Sinn ähm ja Voices Stimmen sozusagen synthetisch zu generieren und dann möglicherweise auch zu internationalisieren und ähm ja immer

2:02 wenn ich irgendwo eine Stimme oder ein Sound hinterlegen möchte, dann war das natürlich früher viel aufwendiger und heute mit den neuen technologischen Möglichkeiten ist das Ganze ähm deutlich

2:15 einfacher. Dazu kommt das ganze Thema Soundoptimierung, Audio Optimierung und Bearbeitung. Unser Sound wird hoffentlich auch immer besser, nicht nur, weil wir ein tolles

2:25 Team haben, was uns hier hilft, sondern weil die auch Tools nutzen. Äh denn heute kann man mit KI Tools, Webinare, Podcasts, all das, was man schon irgendwo im Kasten hat, im Nachhinein

2:37 verbessern. Rauschunterdrückung. Ich habe letztens sogar in Newcase gesehen, äh da wurden Akzente, Länderspezifische Akzente aus der Sprache rausgefiltert. Ich weiß nicht, ob man mein Nuscheln

2:49 auch rausnehmen kann, aber vielleicht ja demnächst. Stimmt. Das war der das war der Case oder für ähm für Call Center, wo sie quasi Callcenter sind ja relativ oft entweder auf eine Philippin,

2:59 zumindest amerikanische ähm oder in Indien und dann haben die eben diese spezifischen Akzente dieser Länder rausgenommen, dass dann die Amerikaner denken, sie sprechen mit Amerikanern und

3:11 das ist ja äh da äh sehr sehr wichtig in USA, vor allem zur Zeit. Gut, in Deutschland macht's vielleicht auch Sinn, wenn wir mal den bayerischen Akzent oder andere Akzente rausnimmt,

3:21 dass die Leute hochdeutsch sprechen. Äh vielleicht können wir das auch mal über unseren Podcast legen, um unsere regionalen Nuancen rauszunehmen oder wir reden einfach dann komplett bayerisch.

3:31 Ich als Preußer red dann bayerisch, das wäre auch was. Ja, häisch könnte ich anbieten. Häis w mal gucken, wie weiter hier kommt der KI Agent. So und das ist natürlich wichtig, wenn

3:42 ihr im Unternehmen Sound aufnehmt, ja, dann erscheint das professioneller, wenn wenn das wenn die dann wenn die Rauschnügung drin ist, wenn das Soundtavel besser ist, wenn man solche

3:52 Verhas eben auch mit ih wegmachen kann. Genau. Ja, genau. Wie du sagst, also erste Kategorie ist Sounderstellung mit künstliche Sounderstellung, ob es Stimmen oder Töne sind. zweite Kategorie

4:03 richtige äh richtigen Sound in Anführungsstrichen eben zu optimieren, ähm Fehler rauszunehmen. Die dritte spannende Kategorie, für mich eine der spannendsten und weil sie einfach am

4:12 meisten Spaß macht, ist die Generierung von KI ähm also Generierung von KI Songs, von Musik, also Sounddesign, egal ob das jetzt vielleicht neuer Jingle ist für mein Unternehmen

4:26 oder für ein Werbespot oder wirklich ein ja einfach ein Song äh den ich vielleicht generieren kann für mein Team. Das kann was internes sein. Ähm das kann auch was für Kunden sein, wenn

4:37 ich weiß beweise einen auf den Kunden zugeschnittenen Song im B2B Vertrieb erstelle, der was mit mir zu tun hat, je nachdem welcher Industrie ich bin und äh ich auch quasi mit sowas lockerem

4:48 rüberkommen kann, dann ist es sehr, sehr spannend. Ähm, die Zuhörer sollten auch mal bis zum Ende dieses Podcasts ähm da bleiben und vor allem dann die Autro noch mal genau hören. Vielleicht gibt's

4:59 da einen von uns KI generierten Song, der über den Podcast ist. Ist auf jeden Fall ein spannendes Thema und macht einfach Spaß. Wenn ich mal angesprochen werde dem Nächst in der Bar, was ich so

5:10 mache, kann ich sagen, ich bin ich bin Soundproduzent. Ja, und es kommt in Berlin besonders gut. Das kommt in Berlin sehr sehr gut. Genau. Ich generell Soundproduzent, Musiker und so

5:18 kommt immer gut an. Ähm, mit diesen Tools und wir sprechen auch gleich noch mal ein bisschen zu den Tools, kann ich eben nicht nur die Texte generieren, sondern kann dann auch noch definieren,

5:28 welche Musikrichtung es sein soll und kann da wirklich aus hunderten Musikrichtungen ausprobieren, ob das jetzt irgendwie deutscher Pop oder Rap ist oder Blues und dann eben die Songs

5:38 genau in dem Stil entwerfen, ähm wie sie ja zum Setting passen, für was ich eben diesen Song nutzen möchte. Das Stingel, was wir haben im Podcast, um hier reinzukommen, ist auch natürlich KI

5:49 generiert, gehört sich so. Und auch die Sprache, die ihr da hört im Intro und Autro ist auch mal schon eine KI Stimme. Also auch das geht heute schon und ist natürlich für Unternehmenskontext auch

6:00 schon heute relevant und das ganze wird immer besser, ne? Also, ich meine, klar hört man teilweise auch bei unseren Intros und Autos noch, das könnte eine KI Stimme sein, die Geschwindigkeit und

6:10 gefühlt sagen wir das in jeder Episode. Die Geschwindigkeit, wie sich die Technologie verbessert ist einfach wirklich crazy. Und ähm am Ende der Episode haben wir noch ein kleines

6:21 Beispiel, wo wir mit einer KI sprechen. Und äh das ganze müssen wir auf Englisch machen, weil die aktuell bisher in dieser Qualität äh nur eine englische Stimme verfügbar ist, aber das ist schon

6:33 crazy, wenn man dann sieht, wie realistisch mittlerweile die Antworten sind, äh was für Pausen die KI macht. Äh ja, wie empathisch das auch wirkt, ne? Das jetzt nicht so wie der Computer, der

6:42 in der Warteschleife sagt, bitte zwei oder drei drücken. Genau. Ja. Neben diesen neben diesem Aspekt, dass Musik komplett neu oder Sounds komplett neu generiert werden können, gibt's

6:51 natürlich auch die ganze automatische Transkription und auch die Meetinganalyse. He für euch vielleicht spannt, wenn ihr in vielen Meetings seid, vielen in in Zooms oder in Google

7:01 Meets oder in Teams oder wo auch immer. Ja, da gibt's viele Tools, die mittlerweile das ganze Meeting aufnehmen, ähm euch dann zusammenfassen und dann die Möglichkeit geben, genau

7:11 dahinzuspringen. Also, man sieht das Transkript, sieht der und der hat das und das gesagt, man kann dann reinklicken und hinspringen und sieht genau an welchem Punkt im Video man da

7:20 war. Setze ich ganz gerne ein. Hat man auch oft, wenn man jetzt in Meetings geht, dass man dann sieht hier Moritz ist da und Moritz AI Notaker ist auch da. Ja. Und dann Prinzip im Hintergrund

7:30 dieses ganze Transkript erstellt wird. Für mich ist ein absoluter Gamechanger, wenn wir in Vertriebsgesprächen sind. Natürlich sage ich am Anfang immer dazu, er ist ja auch sichtbar, dass der Snippy

7:39 der Notaker mit dabei ist und meistens ist es dann eine ganz nette Unterhaltung schon über den Notaker am Anfang und äh der oder die gegenüber sollen natürlich wissen, dass dieser Call aufgenommen

7:49 transkriert wird, aber dann ist es für mich ein Gamechanger aus zwei Gründen, weil ich zum einen 100% im Call sein kann und der Person zuhören kann und so wirklich auf die Person eingehen kann

8:00 und nicht nebenbei zuhören und irgendwie Notes aufschreiben muss, dass ich auch im Nachhinin ja nichts vergesse. Und äh diese, also im Prinzip dahinter liegt ja eine KI, die die versteht die Stimme,

8:12 transkribiert die Stimme in quasi Wörter und diese Wörter können danach weiterverarbeitet werden. Und äh ich nutze es sehr oft, um dann Fragen zu stellen, was soll ich denn jetzt noch

8:22 mal genau für ein Angebot machen? Welche Preise haben wir besprochen? Für wie viel Personen ist das Angebot überhaupt relevant? und bekommen dann die Antwort von der KI. Und diese Tools sind

8:31 mittlerweile soweit, dass sie eine direkte Integration in ein Cystem haben, ob das jetzt ein Hubspot oder Sales Force ist und befüllen dann die relevanten Felder im Sales Force. Wenn

8:43 ich also einen klassischen Kunden Discovery Call mache und so gewisse Punkte abfragen muss, dann versteht das Tool in die KI, was der Kunde oder potenzielle Kunde gesagt hat und

8:52 aktualisiert diese Felder in meim CM- System und packt die Zusammenfassung des Calls direkt in das CM-System und ich habe eigentlich gar keine Arbeit danach und das ist schon ein riesen

9:00 Gamechanger. Ich habe das für interne Calls, ich habe jetzt nicht so viele Sales Calls, aber natürlich viele interne Abstimmungsthemen. Da habe ich eine KI, die mitläuft und die mir danach

9:10 nach dem Call alle Aufgaben zusammenfasst. Also, was muss ich machen? Das gleiche Ding geht auch auf Text. Das kann also auch in meinen Mails schauen, welche Aufgabe ich habe, auch

9:18 in Slack, welche Aufgaben ich habe. Ich habe dann sozusagen eine Aufgabenliste, die sich aus diesen verschiedenen Dingen speist. Aber auch wenn ich ein normales

9:25 Gespräch im Büro habe, kann ich das Ding anschalten. Mhm. Es läuft mit und sagt danach, okay, welche Aufgaben sind aus diesemäh Gespräch entstanden? Also auch für mich super relevant und hilfreich.

9:35 Ja, die nächste Kategorie, die spannend ist, haben sie schon so ein bisschen angeteasert, ist die Kategorie Voicebots und Sprachassistenten. Und da gibt's natürlich extrem viele Uscases für.

9:47 beispielsweise, wenn ich ein Bestellung aufnehmen möchte, ob ich jetzt ein Restaurant bin, was eine Bestellung aufnimmt oder ob ich ähm vielleicht ja ein anderer Shop bin und normalerweise

9:58 sitzt auf der anderen Seite eine Person und jetzt kann auf der anderen Seite eine KI sitzen, die smart genug ist zu verstehen, welcher Kunde ruft überhaupt an ähm und quasi über die Telefonnummer

10:09 direkt ein Match macht zu den bestehenden Kundendaten. Also es muss kein dummer äh ich sag mal Anrufbeantworter sein oder Durchklicksystem, so wie wir das heute haben, wenn wir irgendwo bei der bei

10:20 unserem Telefonanbieter anrufen. Meiner Meinung nach sollte der Telefonanbieter direkt wissen, wer ich bin, wenn ich von meiner Telefonnummer anrufe, die von dem

10:28 Telefonanbieter kommt. Schaffen sie aber leider nicht, aber ein mit quasi den neuen System ist es möglich natürlich zu identifizieren und dann direkt auf mich einzugehen. Und wenn ich diese Voice

10:40 Systeme eben mit dem CM-System oder ERP System verbinde, dann können die mir in der Regel auch zumindest für alles, was Standardgaben sind, sehr gut helfen. Und das ist eben ein Thema bei Bestellung,

10:54 bei Kundenservice Thematiken, ähm ja, auch internen Themen, ne? Interne interne ähm Health Desks. Ja, wenn du irgendwie Problem hast mit deiner IT, wäre das auch ein cooler Use

11:06 Case, den man nutzen könnte. Ja, ich warte drauf, dass wir eigentlich unseren Kundenservice auch an so eine KI Voice anbinden können. Heute läuft bei uns wahnsinnig viel bei Chat so ein

11:16 Chatsystem. Das schließt schon so 40% der Tickets komplett automatisiert. Mhm. ohne dass dann Mensch eingreifen muss. Wenn ich das mit einer Voice machen könnte, wä es eigentlich noch besser,

11:26 denn ähm dann könnten wir auch Kundenservice per Telefon anbieten. Ja, und auch ähm ich habe letztens ein Unternehmen kennengelernt, die helfen E-Commerce Shops dabei, die

11:37 Returns abzuwickeln und also Rücksendung Rücksendungen. Genau. Und ähm du willst dir als E-Commerce Shop immer wissen, was die Gründe dafür sind, dass ein Artikel zurückgeschickt wurde. Und zwar

11:50 kannst du natürlich irgendwie anklickern, zu groß, zu klein, hat mir nicht gefallen, whatever. Die haben zusätzlich die Möglichkeit gegeben mit einem Button, der einfach auf der Seite

11:59 ist, kann der Kunde reinsprechen, hat mir nicht gefallen, war zu groß, wie auch immer. Und dann werden diese Voice Daten analysiert und dem E-Commerce Shop am Ende eben eine Analyse gegeben, was

12:10 die Hauptgründe sind, bei welchem Artikel, was wiederum connected ist mit der Seite, sodass dann auf der Seite aktualisiert wird. Z.B. dieser Artikel ähm fällt zu groß ist aus in der Regel,

12:21 ne, um dann die Gesamtanzahl der Returns zu reduzieren. Das heißt quasi dieses Kundenfeedback aufzunehmen über Stimme, weil es dem Kunden einfach extrem einfach gemacht wird, dieses Feedback zu

12:32 geben, ist auch was, was früher einfach so noch nicht ging. Und weniger Pakete und weniger Rücksendung freut nicht nur die Onlinehändler, sondern auch die Umwelt. Genau. Wobei

12:43 wobei generell die generative KI glaube ich die Umwelt nicht so freutest die Energie der Energie verbraucht der ganzen Servercenter, aber das ist noch mal ein anderes Thema. Aber

12:52 da haben wir ein gutes ein guten Punkt, denn äh hier ist vielleicht der Energieverbrauch sehr wichtig. Barrierefreiheit und Inklusion. Auch da können wir Sounds einsetzen. Ich glaube

13:01 jetzt im Juni äh wird das neue oder tritt das neue Gesetz in Kraft, dass alle Webseiten komplett barrierefrei sein müssen. Ähm das heißt, man muss dann also in der Lage sein, die Webseite

13:12 eben nicht nur für Menschen zur Verfügung zu stellen, die komplett lesen und alle Farben sehen können und so weiter, sondern es muss inklusiv sein. Das heißt, ich muss in der Lage sein,

13:21 auch die Webseite lesen zu können, wenn ich halt nicht lesen kann über Sound. Unter anderem gibt noch viele andere Aspekte, aber auch da kann KI natürlich helfen automatisiert Bildunterschriften

13:32 zu erstellen oder wenn ich irgendwo rüber hovere, dass ich auf der ganzen Webseite oder App komplett mit Sprache navigieren kann. Ja, und ich meine, die gleichen Systeme kannst du dafür

13:42 verwenden, wenn du beispielsweise draußen Sport machst, du bist am Joggen und hast deine Blogposts und Webseiten, die du gerne lesen möchtest, dann kannst du quasi diese integrierten Voice

13:52 Agenten auch nutzen, um deine Artikel einfach zu hören, während du ohnehin draußen bist oder wenn du Auto fährst und wie auch immer. Und äh ja, das wird ein riesen riesen Unterschied machen,

14:01 vor allem für Leute, die eben nicht sehen können, ne? Aber eben auch für uns, die glücklich genug sind, dass wir sehen können, einfach äh riesen Mehrwert, wenn wir dann eben draußen

14:11 unterwegs sind und trotzdem Informationen irgendwie wahrnehmen möchten. Genau. Und die siebte Kategorie ist äh die Kategorie Internationalisierung. gerade neue Zielgruppen zu erschließen

14:23 und auch Personen, die vielleicht deine Sprache nicht sprechen, zu erreichen. Ob das jetzt intern mit irgendwelchen Trainings sind oder vielleicht ähm ja Ansagen oder oder reden von Leadership

14:34 an die ganze Company, erreichst du natürlich die Person besser, wenn du die ähm die Nachrichten aus senden kannst in der Nachricht des Empfängers. Ja, und ähm genauso könntest

14:47 du es natürlich auf deiner Webseite machen, deine Social Media Content, deine YouTube Videos, dass du da eben die Möglichkeit hast, einfach die Stimmen in der Sprache der Person oder

14:56 an die Sprache der Person anzupassen. Also ähnlich wie es bei Bildern war, wo ich ja bisher mal schauen musste, habe ich die Bildrechte dafür, darf ich das Bild auf meiner Webseite einbinden, kann

15:04 man die heute per Prompt erstellen? So ähnlich ist auch mit Sounds mittlerweile. Ich muss also nicht mehr schauen, welches Jingelchen ist gema äh was ich auf meiner Firmenfeuer spielen

15:15 möchte, sondern auch das kann ich mir eben da stellen. Genau. Kann diese Klippe umschliffen äh umschiffen. Genau. Du kannst die quasi die äh Klippe umschiffen. Es ist dann sicher gemai,

15:24 wenn du selbst erstellt hast. Wir haben tatsächlich jetzt für eine Marketingaktion auf so alte Kassetten einen KI Song gespielt und der Drucker dieser Kassetten wollte oder darf die

15:38 Kassetten nicht bedrucken ohne einen Brief der GEMA, der besagt, dass eben dieser Song Gamer frei ist. Aber dadurch, dass wir den Song komplett KI generiert haben, haben wir sofort von

15:47 der GEMER die Bestätigung bekommen, okay, Geh frei und konnten so am Ende diese Kassetten auch bedrucken. Und ähm das einzige ist natürlich und das hatten wir schon mal in der Episode das ganze

15:58 Thema Urheberrecht bzw. Copyright, sofern ich den Song nicht am Ende maßgeblich noch mal verändere als Mensch, sondern ihn einfach so lasse, dann habe ich wahrscheinlich auch kein

16:14 Copyright auf diesen Song. Das muss man natürlich auch bedenken, wenn ich das jetzt für irgendwie ein Werbeingel nehme und der schlägt total ein und die Leute assoziieren meine Marke mit diesem

16:24 Jingle, ja, dann habe ich Stand heute zumindest und das kann sich noch x mal ändern, weil es natürlich ganz viele Gesetzes, ganz viele Gerichtserfahren auch schon gibt und das muss ich da

16:35 glaube ich alles noch ein bisschen finden, aber stand heute könnte dann theoretisch jeder mein Jingle nehmen, weil ich nicht copyrighten kann, wenn ich ihn nicht nach also aus ja gut

16:43 verändert habe, dann kannst onbrand Bilder und solche Jingles produzieren, aber sie kannst du nicht mehr so richtig schützen. Genau. Ja, ist immer ein bisschen schwierig mit der Empfehlung

16:52 von Werkzeugen oder Tools, denn entwickelt sich alles so schnell weiter, aber so ein paar haben wir vor euch rausgesucht als Orientierung und wir glauben, die sind auch noch an in dem

17:01 Jahr von heute relevant. Schauen wir mal. Genau, aber ich würde sagen, wir gehen auch wieder die sieben Kategorien durch, die wir gerade besprochen haben, dass man sich daran so ein bisschen

17:10 langhangelt und orientieren kann. Die erste Kategorie war ja Sprachsynthese und Soundgenerierung und da ist schon sehr lange eigentlich Eleven Labs einer der führenden Spieler

17:23 und den Namen werden wir auch gleich häufiger noch mal hören bei den anderen Kategorien. 11 Labs funktioniert sehr gut auch für deutschsprachige Stimmen. Also es gibt da viele Beispielstimmen,

17:33 die ich schon verwenden kann. Ich kann da meine eigene Stimme klonen sozusagen und verwenden. Kann dann die geklonte Stimme oder auch die bestehenden Stimmen nutzen,

17:43 um Übersetzung in andere Sprachen zu machen. Da kommen wir gleich noch dazu. Also Labs kann relativ viel Labs kann Soundeffekte generieren. Ich kann da auch ein Video hochladen beispielsweise

17:55 und Levenlabs erstellt dann passend zu dem gesehenen Video die Soundeffekte. Al ist generell ein sehr sehr spannendes Tool. vergleichbar und ähnlich ist Play HT oder Play HT. Ähm ist

18:11 aktuell würde ich sagen, vielleicht noch ein Ticken hinter 11 Labs, aber lohnt sich es auf jeden Fall auch mal da reinzuschauen. Und das dritte Tool was wir uns jetzt auch gleich noch mal live

18:21 anschauen, ist Notebook LM, was eigentlich noch viel mehr ist als ein als ein Audio Tool. Eigentlich ist es fast so ein Wissensmanagement Tool. Dazu werden wir auch noch mal eine Episode

18:32 machen, aber im Wesentlichen kann ich mit verschiedenen Inputquellen, beispielsweise YouTube Videos, Dokumente, die ich reinlade, PDFs, Internetseiten, daraus ein Podcast

18:45 erstellen lassen. Das quasi zwei Personen, die sich über diese Inhalte unterhalten. Und ähm wie das Ganze geht, schauen wir uns jetzt an. Und zwar haben wir das am Beispiel von Dokumenten und

18:57 Webseiten über die Sound und Stimmgenerierung äh gemacht, passend zu dem Thema und äh ja, haben da einige Artikel reingeladen und am Ende kommt quasi dieser Podcast, von dem wir uns

19:10 jetzt gleich mal die erste Minute gemeinsam anhören. Ähm, haben Sie sich eigentlich schon mal vorgestellt, wie das wäre, ein Gespräch mit einer KI zu führen, das sich ja fast menschlich

19:22 anfühlt? Mhm. Ja, die Technologie macht da ja gerade Riesensprunge. Heute schauen wir uns mal ihre Quellen zu Voice AI genauer an. Genau. Was kann das heute? Warum ist es gerade jetzt so ein

19:35 großes Ding? Also, es geht ja darum, wie aus einfachen Sprachbefehlen wirklich komplexe menschenähnliche Interaktionen werden können. Und was ist Voice AI genauso in einfachen Worten? Im Grunde

19:46 sind das intelligente Systeme, die gesprochene Sprache nicht nur hören, sondern verstehen und dann auch sinnvoll reagieren. Okay, dahinter stecken so Kerntechnologien, also automatische

19:57 Spracherkennung, ASR oder Speech to Text, nennt man das ja auch. Ja, dann die großen Sprachmodelle, die LMs, die halt den Kontext kapieren. Mhm. Und natürlich die künstliche Stimmerzeugung,

20:09 also Text to Speech. Das ist schon eine weite Reise von den Anfängen so wie Audrey. Ja, super cool. Man kriegt gar nicht mit äh dass die überhaupt nicht wussten, was wir dem geben als Podcast.

20:20 Die beiden Stimmen klingt total echt. Klar, ein bisschen amerikanisch, aber dennoch. Was auch spannend ist, es gibt jetzt ein Modus, wo ich auch in Notebook LM sozusagen als dritte Person

20:29 reinkommen kann und sogar mit den beiden, die da den Podcast haben, interagieren kann. Also mal Nachfragen stellen kann. Haben wir jetzt nicht gezeigt, aber ist auf jeden Fall eine

20:37 Sache, die unbedingt mal ausprobieren müsst. Und was spannend ist, dass am Anfang hatten die noch so ein eigentlich ist es kein Fehler und es schon fast irgendwie menschlich, dass als dieses

20:47 Feature neu rausgebracht wurde und wenn du regelmäßig diese Sprecher unterbrochen hast, dann wurden die richtig patzig teilweise, dass unterbrochen wurden und das ist nicht,

20:58 weil die irgendwie da reinprogrammiert haben, dass die KI jetzt patzig wird, aber wahrscheinlich, weil die KI in den Trainingsdaten gelernt hat, dass es unhöflich ist, wenn man jemand ins Wort

21:05 fällt und hat dann irgendwie so reagiert eigentlich auch ein ganz spannende spannendes ja Entwicklung quasi und es ist häufiger, glaube ich, sieht man in der KI, wenn wenn neue Sachen entwickelt

21:17 werden, die KI auf einmal irgendwie komisch agiert, ein Verhalten hat, was man eigentlich so gar nicht reinprogrammiert hat, dann quasi rauszufinden, woran liegt das

21:26 eigentlich? Und da ist dann eben die Hypothese gewesen, ja, weil die KI halt gelernt hat, dass man Leute nicht unterbricht und wenn ich die KI unterbreche, dann ist auch die KI patzig.

21:35 Dann haben wir neben dieser Synthese natürlich das Thema Soundoptimierung und Soundbearbeitung. Da gibt's ein schönes Tool, das heißt Phonic und es gibt Riverside FM. Riverside FM kennen

21:45 vielleicht diejenigen, die mit Podcast viel zu tun haben. Das kann viel mehr, aber hat eben auch diese Soundkent Komponente und sicherlich gibt's auch noch einige andere Profi Tools, die wir

21:54 jetzt in unserer normalen Anwendung im Unternehmenskontext nicht kennen. Ähm, aber ja, guckt's euch mal an. auch spannend, gerade wenn ihr Sounds bearbeiten wollt und da das letzte

22:03 bisschen auch rauskiltzeln möchtet. Zum Thema KI generierte Musik, da gibt's eigentlich zwei große bekannte Spieler, die meiner Meinung nach ähnlich gut sind bei ihre Stärken und Schwächen und äh

22:15 bringen aber auch ständig neue Features raus und sind relativ vergleichbar. und es ist einmal Udio und das andere Tool nennt sich Suno. Und ähm ich empfehle immer allen Leuten probiert beide aus.

22:27 Selbst in der kostenlosen Version kommt man da schon relativ falsch und kann viele Songs generieren und ähm generell bei so Songerierungsthemen macht's einfach Sinn, erstmal einige zu sich

22:39 generieren zu lassen und dann zu entscheiden, welchen Song man am Ende nimmt. Da ist nicht immer gleich der erste Wurf besonders toll, aber wenn ich mir 10 20 verschiedene Entwürfe

22:48 sozusagen vorspielen lasse, dann finde ich auf jeden Fall was spannend ist. gerade wenn ich zwei verschiedene Tools nutze, habe ich ja relativ viele ähm Optionen kostenlos Songs zu erstellen.

22:58 Erst wenn ich irgendwie längere Songs erstellen möchte mit mehreren Strophen, die dann irgendwie 3 Minuten gehen, dann wird das Ganze natürlich kostenpflichtig, aber auch da sind

23:05 tatsächlich bei den Tools die Kosten relativ überschaubar und es macht einfach Spaß.

23:13 Was kommt wissen M und Benjamin da Skypen über K die Zukunft wird wunderbar von den Kist du bist die lauten sie fliegen so viel zu entdecken wir lassen uns [Musik] besiegen wer uns sein Verlierer

23:37 [Musik] Jede Woche Mittwoch auf Party. Cool. Das bringt nicht in die Nacht. Mit Ben wir die zeigen uns alle die K funktioniert und es macht richtig Spaß. Es ist eine

23:57 Reise, wir lernen so viel Engel schon zum Morgen. Was ist unser Spiel? Iron die Worte, die sie nutzen. [Musik] Dann hatten wir das Thema Transkription und Zusammenfassung. Da

24:13 wollen wir mal zwei Anbieter herausgreifen, die hier aus Deutschland sind oder zumindest teilweise so aus Deutschland. ist zum einen TLDV, also Too Long Didn't View kennt man

24:22 vielleicht von TikTok sind auch stark bei LinkedIn unterwegs. Cooles kleines Team, Super Tool und dann gibt's Demodesk. Demodesk ist gerade für den Sales Bereich super interessant. auch

24:33 Demodes kann viel mehr, aber die haben halt auch so einen kleinen ein ein Tool, was sozusagen zu Meetings dazu kommt und das, was du vorhin beschrieben hast, nämlich das Meeting zusammenfasst und

24:42 auch die relevanten Felder in die jeweiligen CM System direkt befüllt. Genau. Natürlich die großen Anbieter jetzt Google einfach im Google Meet hat die die Transcribe Funktion

24:54 integriert auch Zoom hab ein gewissen Plan zumindest ist es bei Google mit drin und klar der Copilot macht das auch äh die Vorteile von diesen Tools wie jetzt sind hier die wieder Demodesk

25:07 sind, dass ich wenn ich quasi Calls mit anderen Leuten habe die extern sind, dass dann trotzdem ein KI Agent mit reingeht und diesen Call für mich aufnimmt, denn auch wenn dieses

25:20 Unternehmen dann für sich in ihrer Teamsumgebung den den Call aufnimmt, habe ich ja sonst kein kein Transcript sozusagen. Und diese Tools sind, sag mal systemunabhängig. Das ist jetzt egal, ob

25:33 der Call am Ende in dem Google Meet stattfindet oder in dem Zoom oder in in dem Team in der Teamsumgebung. Ich bekomme trotzdem mein Transcript und kann so weiterarbeiten und äh das ist

25:42 eben ein Vorteil von diesen von diesen unabhängigen Tools für die Mac euch vielleicht noch Granola fällt mir gerade noch ein, das auch ein Tool, was aber dann nicht im Call erscheint, sondern

25:52 sozusagen über im Hintergrund ist. ist vielleicht ein bisschen schwierig, weil man sollte immer sagen, wenn man solche Tools nutzt und nicht einfach mitlaufen lassen. Genau. Dann Voicbots und

26:03 Sprachassistenten. Ja, mit einer der größten Uscas, glaube ich, für dies ganze Sprachki Thema äh haben wir Eingang schon einiges zu gesprochen. Da ist Open AI natürlich sehr weit vorne.

26:15 Ähm und eben selbst man kann es ja selbst ausprobieren, wenn man Chat GPT ist die Firma Chat GPT. Genau. Chat GPT, aber wenn ich quasi GPT nutze, habe ich ja auch die Voice Funktion und zwar

26:27 einmal das klassische Whisper, ich spreche rein, also das ist dieses kleine Mikro und dann wird quasi aus meinem gesprochenen Text aus meinem aus meiner Sprache Text erstellt und den kann ich

26:39 abschicken, wenn ich nicht möchte, dass die KI zurückspricht, aber dann habe ich ja auch die Voice Funktion, dass ich re kostenlosen Version eigentlich auch schon so die ist mittlerweile glaube ich

26:49 begrenzt auch in der kostenlosen mit drin. Müsste man aber noch nachschauen, kann sich auch jederzeit wieder ändern. Also da macht Opening sehr viel und ändert auf die Pläne und hal eben diese

26:59 Voice Funktionen, wenn ich unterwegs bin, wenn ich Autofahre, wenn ich laufe, dass ich mich eben mit der KI unterhalten kann und das ganze ist auch über eine API ansteuerbar, wenn ich

27:07 quasi diese diese Funktionalität, dieses Tool in meiner eigenen Software, meine eigenen Tools, in meiner eigenen Umgebung nutzen möchte. Ähm, dann gibt's noch Open Source Lösung dafür. Da ist

27:18 eine relativ bekannte Vapi Vi, die man eben dann in die eigenen Systeme anbinden kann, beispielsweise in so ein NFN Workflow oder wie auch immer. Wenn ich quasi nicht diese oder wenn ich

27:30 quasi eine Open Source Lösung nutzen möchte, vielleicht, weil auch jetzt was reingesprochen wird, ähm Daten sind und Informationen enthält, die ich vielleicht nicht in die USA schicken

27:39 möchte, dann ergeben so Open Source Lösungen eigentlich immer Sinn. Und diese ganzen Tools sind auch oft im Hintergrund von anderen Werkzeugen, die ich halt so am Markt kaufen kann. Also,

27:48 wenn ich jetzt irgendwie ein spezifisches Tool kaufe, wo irgende Voice Thema mit drin ist, dann setzen die oft auf solchen Anbietern wie Opi mit der API oder Vapi oder auch jetzt

27:59 Cesami auf. Das ist das, was jetzt als nächstes kommt. Genau. Und Sesame ist mega spannend und das spielen wir jetzt gleich mal ab. Und zwar geht das ganze aktuell bisher nur auf Englisch, ist

28:09 aber stand jetzt mit einer der besten Voicebots, weil man in der Unterhaltung also wirklich fast nicht mehr merkt, dass man mit einem Computer spricht. Ja, und äh die kleine Demo probieren wir

28:21 jetzt einfach mal hier gemeinsam aus. Äh nicht wundern, dass ich jetzt auf einmal gleich Englisch spreche mit der KI. Das liegt einfach daran, dass eben wie gesagt das Tool noch nicht auf Deutsch

28:30 verfügbar ist oder diese diese Lösung soll aber bald in mehreren Sprachen kommen, auch äh Deutsch und äh wer weiß, wenn man den Podcast in 2 3, 4, 5 Wochen erst hört, da gibt's schon wieder ganz

28:41 andere Tools, aber es geht jetzt einfach nur darum zu sehen, wie weit diese Tools heute schon sind und nämlich nicht mehr so, wie man das von einigen Anbietern

28:49 kennt und versucht irgendwie verzweifelt irgendein Kundenproblem zu lösen am Telefon und ausrastet, weil man nicht verstanden wird. Ähm, das schauen wir uns jetzt mal an, würde ich sagen. Aber

28:59 der Sprung von unserem Englisch zu Englisch ist nicht so groß. Genau.

29:09 Hey, you are live on my podcast. Hereost the podcast cointelligence. Podcast.

29:34 So the podcast is an AI education podcast and we teaching our listeners about AI, how it works, how they can use it in their lives in their jobs. Today's episode is about voice AI.

29:50 Voice AI. Nice. That's right up my alley when you say or should I say up my audio wave. So tell me what the biggest misconception folks have about AI days? Well, I don't think there much of a

30:04 misconception. I think it's all about use cases. Be interested to know what top five use cases for voice AI in companies. Top. You knowing it down to just five is

30:23 harder than it ss. Ai is like a Swiss army knife. So many tools in one tiny package but if I had to pick I'd say customer service is a big one. Think instant 247 support that actually

30:37 understands what people are asking. Employe training. Imagine interactive modules that adapt to each person's learning style. the AI summari and it so actually get stuff done right education is right

30:55 forruption more interactive lessons personaled feedb al voice creativity boost voice assistance that help brainstorm write and even compose music tell you the sky the limit

31:10 so does that give youreners of theal thank [Musik]

31:20 categories additional category that we had was accessibility what you think about accessibility with voice accessibility now you're talking my language has the power to be a real game

31:35 changer there for people who have difficulty typing or using a mouse or can open up a whole new world imagine being able to control your computer

31:52 Danke schön. Ja, wie ihr seht, es fühlt sich nicht mehr an, als wenn man mit einer AI spricht. Die Stimme ist ziemlich natürlich, es gibt Pausen, trotzdem ist es recht schnell. Das ist

32:04 schon echt erstaunlich. ist noch ein bisschen amerikanisch, finde ich, so ein bisschen sehr emotional, aber wenn das auf die jeweiligen landesspezifischen Gemüter abgestimmt ist, kommt die

32:13 humorlose langweilige deutsche äh genau. Aber die eine Kategorie, die sie ja genannt hat am Ende, war eben die Barrierefreiheit und da sind wir auch wieder bei 11 Labs Open

32:28 AI und da würden wir sagen, das sind so aktuell die Goto Tools und die letzte Kategorie hab das Thema Internationalisierung, Mehrsprachigkeit auch hier kommt wieder Level Labs vor.

32:41 werden wir vielleicht irgendwann mal nutzen, um mal aus Spaß den Podcast in der anderen Sprache rauszubringen. Mal gucken, ob das funktioniert. Und auch da ist Open AI sowohl mit der API, also mit

32:50 der Schnittstelle, als auch mit dem Produkt Chat GPT ziemlich weit vorne dran. Ähm, da kann ich also heute schon in den verschiedensten Sprachen ähm Voice Audio generieren. Also, ihr merkt

33:02 äh es vielleicht am Anfang hört sich so ein bisschen lustig an, was soll ich mit Sound machen? Was hat der AI damit zu tun? Aber wir glauben, dass es da eine große berufliche Anwendbarkeit gibt in

33:11 eigentlichen verschiedensten Unternehmensbereichen, sowohl für interne Kommunikation als auch externe Kommunikation, Marketing, Sales, Support, whatever might be viele Use

33:22 Cases. Lass uns doch noch mal, ich glaube, wir sind jetzt am Ende der Episode. Vielleicht auch einmal hier Meer fragen, ob sie nicht ein paar nette Worte noch an unsere Hörer hat.

33:34 Großartig. Und ähm dann würde ich sagen, wir gehen noch mal zurück zu ihr und lassen heute mal die Autro von Maja machen und an unsere Hörer auch am Ende nach der Autrohe von Maja noch hier mit dabei

33:49 bleiben. Dann kommt nämlich noch unser toller KI generierter Song über den Cointelligence Podcast, den ihr auch gern sowohl auf Spotify als auch auf YouTube kommentieren dürft und liken sowieso.

34:03 Und jetzt kommen wir zu Maja. Hey May, we to the cohost is also here. Not only Mor also Benjamin. We have one favor to ask you. Please wrap up the episode. Still live with our listeners and

34:17 viewers. So please wrap it up. Say good farewell and FL yours. Okay folks it looks like we wpping things up episod thanks to Benjamin of course for having me on. Always a blast. Ai

34:37 conving around

34:53 you talk. Vielen Dank. Vergesst nicht zu liken und zu kommentieren. Und wie ihr seht, auch eine AI kommt manchmal ins Straucheln. Cointelligence ist eine Produktion von

35:06 The Key Academy in Zusammenarbeit mit Snipkey. Produziert bei Studio Co in Berlin. Produktion und Regie. Christina Manuele, Fuat Sebadli und Elias Frobel. Creative Director Lukas Schelter.

35:19 Redaktion und Moderation Benjamin Wüstenhagen und Moritz Heininger. Abonniere uns auf Spotify, Apple Podcasts oder YouTube. Danke fürs Zuhören.