Co-Intelligence

// Transkript

#9: Avatar, Action, Algorithmus – Videos neu gedacht

Vollständiges Transkript dieser Episode des Co-Intelligence Podcasts. 5.045 Wörter. · Auf YouTube ansehen ↗

0:00 Und noch vor zwei Jahren sah das ganze relativ freaky aus. Mus irwi verstehen, wie funktioniert Licht, wie es irgendwie wie Erdanziehung schon abgefahren, dass das

0:10 funktioniert. Genau. Ja, das ist schon ja nahe in der Perfektion. Meine Damen und Herren

0:17 Avatare, die aufgrundlage von euren eigenen Bildern oder euren eigenen Videos generiert werden. Also ihr könnt Prinzip so ein digitalen Zwilling bauen. Also ich schreibe irgendwas in Prompt

0:26 Fenster. Die KI erstellt mir dann ein

0:32 Video. Das ist schon ziemlich crazy, was da heute alles geht. [Musik]

0:47 Willkommen zurück zu Coelligence, eurem KI Lernpodcast mit Moritz und mir Benjamin. Episode 9. Haben uns jetzt schon acht mal hier zusammengesetzt, heute das neunte Mal. Heute geht es um

0:59 KI generierte Videos und wie ihr diese in eurem Unternehmenscontext, in eurem Unternehmen einsetzen könnt. Nachdem wir beim letzten Mal erstaunt waren, wie schnell sich das Ganze bei Bildern

1:08 weiterentwickelt, wird's heute noch rasanter. Genau. Und wir sagen es zwar jede Folge immer wieder, dass die Entwicklungsgeschwindigkeit crazy ist und bei Video kann man es sehr gut sehen

1:21 an einem ganz bekannten Video und zwar gibt's das Will Smith Spaghetti oder It's Pasta Video und das erste Video ist ein paar Jahre alt und nebendran zeigen wir gleich ein neues Video, um mal zu

1:35 vergleichen, ja, wie crazy die Entwicklung eigentlich ist. Und heute sieht einfach das Video ultra realistisch aus und noch vor zwei Jahren sah das ganze relativ freaky aus. Also

1:45 für alle Hörer und Hörern, die jetzt nur mit per Ton zuhören und das Video nicht vorsicht haben, wir beschreiben es jetzt natürlich ein bisschen. Ich klicke hier

1:53 jetzt einmal auf Play und wir sehen auf der linken Seite Will Smith ein komplett verzerrt im Gesicht. Also sieht schon fast aus wie so ein Geist in so einer Achterbahn. Auf der rechten Seite

2:03 sieht's halt einfach aus wie Will Smith, der einen leckeren Tellern Nudeln ist. Also sehr, sehr realistisch, während ja das Video auf der linken Seite einem schon ein bisschen Angst machen kann.

2:15 Und damals ging es halt so, also als dann Video KI generierte Videos rauskam und dann das als Beispiel war, hieß ja, also das wird ja nichts, das das ist vielleicht irgendwie ein ganz witziger

2:24 Gag, aber es wird Vide Produktion nicht ersetzen. Wenigen Jahre später sind wir ja schon an dem an dem Punkt, wo wir fast sagen können, Videoproduktion für solche kleinen Dinge können ersetzt

2:35 werden und äh wir vermuten, es geht rasant weiter. Ja, und nicht nur mal den kleinen Ding. Also vielleicht äh zoomen wir noch mal einen Schritt aus und raus und überlegen, was was gibt's denn

2:46 eigentlich für Möglichkeiten mit KI Videos zu erstellen. Und die drei Hauptmöglichkeiten sind aus einem Text, also ich schreibe irgendwas in Prompt Fenster und die KI erstellt mir dann ein

3:01 Video. Das ist so die einfachste Variante. Dann kann ich mir aus einem Bild ein Video erstellen lassen. kann beispielsweise ein Foto von einer Eisen Surferin hochladen und dann der KI

3:13 sagen: "Animiere mir das jetzt, mach mir da mal ein Video draus." Ich kann aus dem Video ein Video machen. Ist auch spannend. Ich kann beispielsweise ein Video nehmen und kann sagen, okay,

3:23 ändere in dem Video, tausche den Hund gegen eine Katze aus oder tausche das Produkt aus, was der Schauspieler in der Hand hält. Das Gesicht. Das Gesicht z.B. Spiel. Ja, vielleicht könnte man uns

3:34 zwei noch mal den Podcast noch mal neu aufnehmen und ein bisschen jüngere, hübschere Kerle hier reinsetzen. Also, es ist gibt sehr, sehr viele verschiedene Anwendungsfälle und ich

3:42 würde sagen, wir gehen einfach mal Schritt für Schritt durch. Fangen wir vielleicht mal an mit Text zu Video und ja, überlegen mal so ein bisschen, was es da für geschäftliche Anwendungsfälle

3:52 gibt. Ja, schauen uns mal ein paar Beispiele an, wo Text zu Video Sinn macht. Immer denn, wenn ihr konkret was im Kopf habt, was ihr als Video produzieren wollt, funktioniert das gut.

4:01 Z allererst natürlich Social Media, sei jetzt für extern TikTok, Shorts, Instagram, all überall da, wo es kurze Videos gibt oder auch für interne Kommunikation, wenn ihr ein internes

4:12 Netzwerk habt. Solche Thema, wenn ihr Skripte habt, die in verschiedenen Sprachen als Video produziert werden können, eigentlich das auch super. passenden Lippenbewegung mittlerweile.

4:22 Ich kann aus einem Text sozusagen Avatar erstellen, die dann in der anderen Sprache Lippen synchron sprechen. Avatar gucken wir uns auch gleich noch mal ganz konkret an, ne? Wenn ihr Erklärvideos

4:34 braucht für komplexe Produkte oder komplexe Zusammenhänge, geht das auch wunderbar. äh mit heute Text to Video und für personalisierte Kundenansprache. Stellt euch vor, eure Kunden bekommen

4:46 nicht nur eine E-Mail, sondern ist auch noch ein Videoolink dahinter persönlichen Geburtstagsgruß irgendwie, der bisschen auf die Person eingeht, den Namen erwähnt. Ähm genau und äh tatsächlich

4:57 was ähm glaube ich von einem halben Jahr auch noch gerne für möglich gehalten hätte, ist, dass du heute eigentlich ganze Werbefilme KI generieren kannst. und wollen uns mal ein Beispiel

5:07 anschauen von einer Privatperson, die eine fiktive Volvo Werbung erstellt hat und gesagt hat, dass sie dafür anderthalb Tage gebraucht hat. Und äh wir versuchen jetzt gleich so ein

5:17 bisschen zu erklären, was man auf dem Bildschirm sieht. ähm für die Hörer und Hörerinnen, die ähm quasi nicht äh die YouTube Variante anschauen oder Spotify mit dem Video und das ist schon ziemlich

5:29 verrückt. Also ich glaube jemand wie wir, ich me wir sind natürlich keine Videoexperten, äh wir würden jetzt also ich habe nicht erkannt, dass es KI generiert ist, also da sind Special

5:38 Effects drin, aber der Unterschied von kompletten Filmcw mit dem Special Effects Team und was ebenchrauber diese eine Person alleine gemacht hat, ist schon absolut wahnsinnig.

5:50 Und wir klicken jetzt hier mal auf Play und versuchen das so ein bisschen auch zu beschreiben, was man sieht. Also hier sieht man so ein ein Volvo der das durch so ein ja schwarze Landschaft,

6:00 Lavalandschaft fährt, könnte irgendwie Island sein, jetzt so Richtung Stadt fährt, die ist komplett äh grau und Leben und auf einmal überall, wo dieser Volvo vorbeifährt, sprieß das Grün, die

6:12 Pflanzen kommen aus dem Boden, wachsen über die Betonwüste und äh das Wasser, es gibt Wasserfälle auf einmal. Also der der Volvo bringt irgendwie das Leben in die Betonwüste, in die Betonwüste

6:25 Großstadt hinein. ist eine junge Frau im Auto ähm die aus dem Fenster schaut und total begeistert ist, wie auf einmal alles grün wird und äh Wasserfälle sich von den Wolkenkratzern äh erspringen und

6:39 am Ende quasi hat der Volvo vor der Skyline beim Sonnenuntergang und also wenn ich diese Werbung im Fernseh sehen würde, würde ich nicht drauf kommen, dass das eine Person in anderthalb Tagen

6:52 am Laptop alleine zu Hause gemacht hat. Ja, freing auch gerade am Anfang, wenn der wenn dieses Auto so durch die Landschaft fährt, d stell dir vor, du würdest das normalerweise machen wollen

7:01 mit einem Film brauchst irgendwie zwei Hubschrauber und keine wie viel Kameras. Ja, unvergleichlich. Ja, es ist äh ist ist wild. Neben dem Text zu Video gibt's

7:10 natürlich auch Bild zu Video. Also immer dann, wenn ihr schon Bilder habt und aus diesen Bildern mehr Bewegung herausholen wollt, das se die Möglichkeit oder eben

7:18 eine Szene definiert habt, vielleicht irgendwie ein auch eventuell ein KI generiertes Bild habt und dann oder eventuell Moodboard irgendwie erstellt oder so verschiedene Szenen. Wenn ich in

7:29 der Videoproduktion bin, dann habe ich ja sozusagen wie so Einzelbilder, die quasi die verschiedene Szenen definieren ähm mit einer Beschreibung unten drunter. Und aus diesen Bildern kann ich

7:40 jetzt theoretisch auch ein ganzes Video machen, ne? Also im einfachsten Fall so ein vorher nachherbild, ich irgendwie ein Foto von einem von dem Vogelnest und danach habe ich ein Foto von irgendwie

7:50 den Küken, die in dem Nest sind. Dann kann die KI quasi diesen Prozess der schüpfenden Kücken mittlerweile extrem glaubwürdig erstellen. Und ähm ja, oft habe ich vielleicht ein Foto von der

8:02 Schauspielerin und möchte das irgendwie animieren oder in Szene setzen oder ein Foto vom Produkt und dann kommt ein bisschen Bewegung ins Produkten, Lichteinfall, ja, oder irgendwie eine

8:12 Animation. Ich kann meine Produktkataloge auf einmal irgendwie lebendiger machen. Ähm, ich kann Social Media Stories lebendiger machen, wenn ich da schon Bilder zur Verfügung habe

8:20 oder ich kann vielleicht auch Testimonials irgendwie beleben. Genau. Oder halt auch äh in der Immobilienschaft wird es relativ häufig genutzt. Du hast irgendwie verschiedene

8:28 Fotos von einem Haus oder von dem Raum und kannst die dann quasi mit KI animieren und ein Video draus machen. Und auch da ist es wieder, wir haben es in der letzten Folge oder vorletzten

8:38 Folge glaube ich gesagt, es gibt so viele verschiedene Uscases und wir sind einfach so speziell auf jede einzelne Person, auf jedes Unternehmen ähm bezogen. Man muss halt einfach wissen,

8:48 was geht und ich kann eben aus meinen Gedanken zu Text ein Text niederschreiben und ein Video machen. Muss natürlich oft ist es auch ein Trial Error Thema, ne? Also, wenn ihr von

9:00 wahrscheinlich zehn Videos, die ihr erstellt, sind wahrscheinlich acht nicht brauchbar, aber das ist ja kein Problem, weil diese Erstellung an sich so günstig ist natürlich und schnell, ja, und immer

9:10 schnell leer. Und ähm ich kann ja immer wieder neue produzieren, bis ich am Ende ein Clip habe, den ich verwenden kann. Wahrscheinlich hat die Person, die diese

9:19 Volvo Werbung gemacht hat, 1000 einzelne Clips irgendwie produziert und dann bestzusagen am Ende zusammengeschnitten. Aber ja, ich muss es halt eben dann wieder in Relation

9:30 stellen. Fast man sollte nicht einmal ein Video generieren und sagen, es ist ja Murx, also es ist alles Quatsch, sondern man hat ja die Möglichkeit immer wieder zu erstellen, auszuprobieren, den

9:39 Prompt anzupassen. Und oft ist das Problem nicht die Video KI, sondern die Art und Weise, wie ich die Video KI gepromptet habe. Und da geht natürlich wieder eine ähnliche Regel, wie es auch

9:49 quasi bei den Bildprompts oder auch bei den Textprompts ist. Die Textpromps sind natürlich ein bisschen anders als Bildprompts, aber beim Bildproms muss ich einfach sehr genau sein. Ich muss

9:58 sehr genau erklären, wie ich die Szene haben möchte, wie die aussehen soll, wie die Kamera ähm sich bewegen soll und so weiter und so fort. Und da kommen wieder

10:06 bisschen zu dem Punkt, wenn man Experte oder Expertin in dem Feld ist, kann man auch einfach viel besser mit der KI umgehen und bekommt viel mehr aus der KI raus, weil man viel besser versteht, wie

10:18 man mit der KI kommuniziert. Ich habe keine Ahnung von Videoproduktion, ne? Aber ich kann mir vorstellen, dass wir die Kollegen, die uns gerade aufnehmen, die können einen viel besseren Job

10:28 machen. Die können viel mehr aus der KI rausholen, als ich das hier machen könnte. Und ist auch dein Aspekt noch drin. Es entwickelt sich ständig weiter. Wir haben glaub beim letzten Mal

10:37 gesprochen, dass jetzt auch Infografiken mit KI generiert werden können, statische Infografiken, was lange Zeit nicht dem möglich war, weil einfach die Schrift weird aussah. Ich kann jetzt

10:46 auch natürlich, wenn ich von Bild zu Video gehe, auch animierte Infografiken erstellen, was wahrscheinlich von einem halben Jahr noch nicht möglich gewesen wäre. Und die Frage ist ja nur, was die

10:54 ob die KI das mit dem Text dann die den Text nicht sehr komisch mor immer die Frage. Ja. Ähm, genau. Und ich würde sagen, wir schauen uns noch mal ein weiteres sehr spannendes Video an.

11:06 Und zwar hatte die KI früher große Probleme dabei, ähm sag mal so, so wilde Bewegung und äh Physik richtig abzubilden, also so Breakdance oder sowas war eine absolute äh

11:22 Katastrophe. Das ging früher eigentlich nicht und die Modelle werden so viel besser. Das neueste Google Modell stand heute neueste Google Modell des WO2. Es kann auch sein, dass in zwei Monaten das

11:33 3 rauskommt oder Ende des Jahres vielleicht das fünf. Aber allein das Modell, was wir uns jetzt gleich anschauen, zeigt eine Eiskunstläuferin und die Bewegung der Schattenwurf

11:46 ist meiner Meinung nach nahzu perfekt. Wahrscheinlich würde eine Eiskunstlaufexpertin oder ein Experte erkennen, dass es vielleicht nicht ganz perfekt ist, aber leihe wie wir ähm hat

11:59 er schon ja eine schwere Zeit, das wirklich zu erkennen. Guckt, wie das wie das Kleid quasi zeigst jetzt quasi dieses dieses Video der Eiskunstlerin. Jetzt sieht man so ein Surfer. Genau,

12:10 der Surfer steht auf dem Brett. Man sieht ihr Basketballer, die KI generiert sind und der Basketball macht keine komischen Bewegung. Hier sieht man eine Person, die Eiskunstlauf auf dem See und

12:20 sich da bewegt. Das haben wir zwei Samuraikämpfer ähm die ja sich sehr realistisch bewegen. Hier fällt einer hin. Selbst das Hinfallen ist irgendwie realistisch gemachter Schatten. Hier ist

12:34 ein Kletterer an der Kletterwand mit einem nahezu perfekten Schattenwurf. Ein Skateboard Fahrer, der ein Kickflip macht. Also so ein Trick, wo sich das das Brett quasi einmal dreht und äh das

12:45 ist schon ja nahe in der Perfektion. aus irgendwie so ein Weltmodell müss irwi verstehen, wie funktioniert Licht und wie es irgendwie wie ist Erdanziung ist schon abgefahren, dass das funktioniert.

12:53 Genau. Ja. Und das ich meine und das ist das schlechteste was es je geben wird. Ja, das muss uns immer bewusst sein und ähm ja, es geht auch wieder so ein bisschen in die Ethikrichtung, ne? Und

13:05 äh wo entwickelt sich die Welt hin? Was können wir in Zukunft noch können wir in Zukunft noch echt und falsch unterscheiden? Also meiner Meinung nach auf gar keinen Fall.

13:13 auch spannend für Deepfakes, ja auch das ganze Thema Sicherheit im Unternehmen. Ja, wenn du auf einmal ein Video bekommst von deinem Chef, der sagt man, schick mir noch mal das Passwort zu und

13:21 das sieht täuschend echt aus, ja, muss man sich ganz andere Dinge einfallen lassen, ja, wie man irwi Sicherheit, also wahrscheinlich musst du und da habe ich auch letzte Woche erst drüber

13:29 nachgedacht, wahrscheinlich musst du dir mit deinem Partner, deiner Partnerin, deiner Familie irgendwie so ein Safeew überlegen äh auch für Betrug, ne, dass wenn irgendwie, dass du sagst, okay, das

13:39 ist das safe, das steht nirgendswo und wenn irgendwie mal ein komischer Anruf kommt und irgendeiner ich Geld von dir verlange, was auch immer oder Passwörter. Ja, dann fragst du nach dem

13:49 Safeew und äh also das ist eine Art und Weise äh wie man gegen sie ganzen ja Frocces cases vorgehen kann. Kryptografie irgendwie ähm was kryptografisch zu unterschreiben als

14:03 echt was man selbst erstellt hat. Äh das ist vielleicht mal ein Real World US Case von Krypto tatsächlich. Also sind auf jeden Fall spannende gesellschaftliche Fragen dahinter und

14:13 ich bin ja sonst immer ein sehr großer Gegner von Überregulierung und äh EU und AI Act, aber ähm ja, da gibt's ein paar sinnvolle Regeln ähm in Verbindung mit eben dem ganzen Fake Thema und äh ja,

14:29 man sollte es kennzeichnen, ja, auch im Unternehmen, wenn man da Videos produziert, die AI produziert sind, bin ich ein Fan davon, da zumindest eine Kennzeichnung zu haben und zu sagen:

14:36 "Hey, das ist eine AI generiertes Video. Ja, damit man auch ja Menschen, die die denken, es ist nicht generiert überhaupt, erstmal dahin führt, dass das möglich ist. Und LinkedIn macht das ja

14:46 mittlerweile. Wir haben ja schon mal diese Content Credentials auch angesprochen vor einer vorletzten Folge oder drittletzte Folge und auf LinkedIn sieht man das immer mehr, das ist wie so

14:56 eine Art Watermark da ist. Ich meine, es ist ja nicht schlecht oder schlimm, wenn das KI generiert ist. Ist einfach nur gut, wenn man es einfach kommuniziert. Jetzt haben wir Text zu Video

15:07 besprochen. Welche zu Video? Fehlt noch Video zu Video. Was könnte Video zu Video sein? Was sind da Beispiele? Wir hatten schon in Episoden davor, dass wir mit KI Content für andere Zwecke neu

15:21 verwenden können. Repurposing in Neudeutsch. Auch das ist natürlich gut bei Videos. Ich kann längere Videos zu kürzeren Videos machen. Ich kann sie für andere Kontexte einsetzen. Wenn ich

15:31 jetzt vielleicht ein längeres Produktvideo hatte, kann ich es jetzt mit KI einfach zu einem Short Social Media Short machen. Ja, kann Videos anpassen, kann Elemente rausnehmen, ähm

15:41 sozusagen auch editieren äh mit KI. Ich kann ein Video nehmen, kann dann mit Text reinbockpen, was ich verändern möchte und ein neues Video aus dem Urschungsvideo nehmen. Ähm, ich kann ähm

15:51 Stile im Nachdrag nachträglich anpassen von dem Video. Ähm, angenommen, ich drehe jetzt ein Video so in unserer Welt und sag jetzt, ich hätte gerne das gleiche Video in irgendwie im 80 Style

16:02 für eine Werbung, dann kann ich das mit KI sehr gut machen oder vielleicht hat auch für verschiedene Märkte ja verschiedene Märkte an verschiedene Empfindungen von was ist was ist hübsch,

16:11 was ist schön, was ist was ist ansprechend auch da kann ich dann ein Video nehmen und für ein anderen Markt anpassen. Ja, der klassische Fall Übersetzung. Ähm, wir hatten ja eben

16:19 schon, dass ich aus dem Text quasi verschiedenste Videos generieren kann, verschiedenen Sprachen. Natürlich äh beispielsweise ich bin der CEO auf einer großen Company und ich möchte gern jeden

16:30 Mitarbeitenden in auf der Welt in der eigenen Sprache ansprechen und selbst der beste CEO wird nicht so viel sprachen können. Dann nehme ich das Video quasi einmal auf und die KI kann

16:40 dann quasi Lippen Lippensynchron mich jede Sprache der Welt sprechen lassen und oder auch Kundenansprachen oder was auch immer oder Investorpräsentationen ähm da sollte man

16:51 auch immer noch checken, ob die auch wirklich die richtigen Sachen sagt. aber quasi aus einem Video verschiedenste Videos zu machen und die Zielgruppengerecht, ob das jetzt die

17:00 Sprache ist, ob das der Stil ist oder was auch immer eben ja auszuspielen. Gilt natürlich auch von meiner Marke, wenn ich jetzt ein Rebranding habe oder generell Videos habe, die ich spezifisch

17:09 auf meine Marke mit meinen Farben, mit meinem was auch immer meine Marke ausmacht, anpassen will. Auch das geht mit K mittlerweile viel einfacher. Ja. Ja, vielleicht habe ich ein Reprining

17:18 gemacht. Genau. Und habe irgendwie noch äh ganze gute Marketing Assets und Videos und Social Media aus der Vergangenheit und will ich me ganzen Kanal löschen, um die alten das alte

17:26 Branding rauszunehmen. Da kann ich wie du genau richtig gesagt, die Logos austauschen, ins Stil anpassen und so weiter. Also gibt sehr sehr viele spannende US Casses auch für Video zu

17:36 Video und die Ausrede Marketing hat keine Zeit, gilt dann eben nicht mehr. Ja, genau. Kann meine eigene Marketingabteilung aufmachen. Jetzt schauen wir uns noch mal ein weiteres

17:45 Beispiel an und zwar eine Übersetzung von einem Video in eine andere Sprache. Und zwar hier haben wir den Herr Böhmermann, der ähm auf Deutsch spricht und ein kleiner Clip und jetzt hören wir

18:00 ihn gleich noch mal auf Spanisch. Alles KI generiert. Ja, alles. Also aktuell ist es noch das Original, ne? Also was wir gerade sehen, auch wieder für die Zuhörer, die äh das Video nicht

18:13 sehen, hier ist einfach ein, man sieht hier ein Video, man hört ihn ja auch ähm von einer Show, was ca. 30 Sekunden dann geht. Und jetzt schauen wir uns direkt danach die Übersetzung an.

18:28 Meine Damen und Herren sind und alle dazwischen und außerhalb, wir sind nicht wie die anderen. Wir vom ZDF Magazin Royal, wir spalten nicht, wir bauen Brücken. Am liebsten da, wo gar keine

18:37 nötig sind. Señoras, señores, todos los demás no somos como los demás. Nosotros de CTDF Magazine Royal no dividimos construimos puentes. Ja, ihr hört natürlich ist es

18:50 klingt spanisch, es klingt auch nach seiner Stimme. Spannende ist aber auch die Lippenbewegung und auch die Mimik und Gstick passt dazu. Das ist schon Wahnsinn. Ja, sieht aus wie echt. Also es sieht

19:01 aus als würde w man auf einmal Spanisch können. Ich glaub Synchronsprecher haben auch einen schweren Stand demnächst. Ja, tatsächlich. Natürlich gibt's auch noch ein paar Probleme. Ja, wir hatten

19:11 eingangs gesehen das Thema Spaghettis. Äh immer dann, wenn es komplexe Bewegung gibt oder sehr viele Details, ist es noch nicht immer 100%. Und Physik ist immer noch so ein Thema,

19:23 aber auch da wieder und bei den Fotos in der letzten Sendung haben wir auch dazu gesprochen, wie das mit den Händen ist, wie die früher immer ganz schlimm aussehen, man heute auch noch drauf

19:31 achten muss, aber muss dazu sagen, wie man ja gerade an den Beispielen von Google WO2 gesehen hat, was nur eins von ganz vielen Modellen ist und tatsächlich sind die Chinesen sehr sehr weit was

19:42 Video KI angeht und äh aktuell vielleicht ich sogar fast vor den westlichen Modellen. Es wird immer besser, aber klar, desto komplexer die Bewegungsabläufe in so einem Video,

19:53 desto mehr Details drin sind, die auch konstant bleiben müssen über die Zeit. So eine Konstanz. Konstanz ist auch immer ein großes Thema, ähm dass nicht auf einmal irgendwelche Objekte

20:02 wegmorfen oder sowas. Ähm ja und halt eben dieses so eine Art Weltverständnis ähm ist halt auch ein relevantes Thema, aber es wird immer immer besser und man sollte nicht

20:14 auf dessen, was die KI heute kann entscheiden, dass gewisse Use Casases für einen selbst irrelevant sind, weil die KI da noch nicht ist. Also es kann wirklich sein, dass nach zwei Wochen

20:23 dauert und dann der nächste Riesensprung kommt. Ist einfach Wahnsinn, wie schnell die Geschwindigkeit ist. So, jetzt haben wir schon zu dem Thema, also zu verschiedensten Arten der

20:33 Videogenerierung gesprochen. Wir auch schon mal kurz Avatare angeteasert und Avatare werden immer realistischer. Surprise, surprise, immer besser. Ich habe will sagen eigentlich nichts

20:45 anderes in dem Podcast als die KI wird immer immer besser und zuschlich halt auch. Ähm und ähm die drei Top Player aktuell im Avatarmarkt sind tatsächlich andere Player, also nicht die Tools, die

20:57 wir sonst kennen, wie jetzt irgendwie ein Chat GPT oder Google, sondern da gibt's eigentlich drei, die ähnlich gut sind. Äh das eine ist Hayen, äh das zweite Tool nennt sich Synt und das

21:10 dritte ist Hedra. Das wirklich ein Kopf an Kopfrennen äh mit unterschiedlichen Stärken. Da kommen ständig neue ja neue Verbesserungen raus. Preispunkten, unterschiedliche Preispunkte. Aktuell

21:22 muss man dazu sagen, sind Avatare noch relativ teuer. Ähm, aber auch da wie überall in der KI fallen die Preise einfach rasant, weil es einfach einen krassen Wettbewerb zwischen den Angebiet

21:33 Anbietern gibt und so wie Open AI mit der gleichen Power dieses Jahr nur noch ein Zehntel von dem kostet wie im Jahr davor. ähm ist es auch bei tatsächlich bei in den Avatarmodellen so, dass die

21:44 regelmäßig günstiger werden. Und Avatare heißt hier zum einen komplett KI generierte Avatare, aber auch Avatare, die aufgrundlage von euren eigenen Bildern oder euren eigenen Videos

21:54 generiert werden. Also ihr könnt Prinzip so einen digitalen Zwilling bauen. Genau, ihr könnt ein digitalen Zwilling von euch bauen oder halt so of the shelf Avatage runterladen, die dann weiter

22:03 verwenden. Genau. Brauch jemanden, der so und so alt sieht, so und so ausp. Genau. Und jetzt schauen wir uns auch noch mal ein Beispiel an, ein kurzes, und sehen hier ein Avatar, der von einem

22:14 Bild erstellt wurde. Und zwar haben wir hier eine Frau, die im Studio sitzt und vor einem Mikrofon sitzt, also ein reines Foto. Und jetzt schauen wir uns die Animation oder die Frau sprechend an

22:27 und das ist halt komplett KI generiert. Selbstbewegungen wirken immer realistischer. Ja, man sieht jetzt äh die Frau, wie sich bewegt. Man sieht Bewegung am T-Shirt, Gesichtsausdrück,

22:38 ja, die Stimme richtig der auch die auch die Lippenbewegung passt zu den Worten. All das nur von dem Foto. Ja, das ist äh schon ziemlich crazy, was da heute alles

22:50 geht. Aber was würdest du sagen, sind so die größten Use Cases für dich? Ich glaub für den Anfang sicherlich interne Videos, also wenn es um interne Schulung geht, äh Vorstellungen, Onboardings

23:02 immer da, wenn ich jetzt nicht die Zeit habe für jeden einzelnen Mitarbeiter ein eigenes Video zu produzieren, kann ich das über Avatare machen. Kann natürlich nach außen gehen, kann also auch in die

23:10 in die Kundenkommunikation gehen. Ja, irgendwie der CEO kann sich digital einen digitalen Zwilling bauen oder die CEO und kann jeden einzelnen Mitarbeiter oder einzelne Märkte, einzelne Länder

23:21 ansprechen. Was fällt dir noch ein? Ähm, was immer mehr kommt, glaube ich, ist das ganze Thema UGC Creators. Was heißt UGC Creator? Ein UGC ist ein User Generated Content. Ja, und zwar gibt's

23:35 ja ganz viele von diesen so halbwegs amateurhaft aufgenommenen Videos, wenn irgendeine Person in die Kamera spricht und sagt: "Hey, guck mal irgendwie keine Ahnung, ich habe jetzt irgendwie die

23:47 neue Playstation oder die neue elektrische Zahnbürste und finde die super cool." Ja, und ähm das funktioniert wohl in der Werbewelt ganz gut. Ähm und äh sowas kannst du jetzt

23:58 natürlich ma createn und das klappt tatsächlich sehr gut. gerade letzte Woche haben wir da bisschen rumgespielt, da gibt's ein paar neue Lösungen und äh sieht schon überzeugend aus und auch

24:08 immer emotionaler und auch mit den Tools, die du genannt hast, auch mit den Tools. Hayen hat da jetzt was Neues rausgebracht und äh das sind schon relativ gut, was so ein was natürlich

24:19 nicht ersetzen kann. Also es gibt ja unbekannte UGC Creator, die kannst du natürlich ersetzen, aber viele Creator haben ja auch schon ihr Following, ne? Also, wenn du dir irgend so ein

24:29 Influencer holst, Mr. Beast, Mr. Beast, ja, oder ich bin leider nicht so in diesem Star und und Sternchen Game, ich kenne eigentlich gar keine Influencer, aber du kaust dir natürlich auch das

24:40 Following dieser Personen, ne? Ja, kaufst dir nicht nur das Video, was die Person erstellt und dann irgendwie aufnimmt, sondern halt die ganzen Fans, die sozusagen dieses Video anschauen,

24:49 aber halt für deine eigenen Organic Websites, Website Ads oder oder Instaads oder TikTok Ads und so weiter, da kannst du sowas schon relativ gut einsetzen mittlerweile und da gibt's so ein paar

25:03 Grenzfälle, glaube ich, da muss man überlegen, ob man das irgendwie machen will oder nicht, ne? Also, ich habe von Unternehmen gehört, die äh erste Interviews im HR Bereich mit einer KI

25:13 ähm durchführen. Kann ich dann meine KI dahin schicken, dass die weit könntest du könntest du ist halt die Frage, was du dann damit für ein Signal an deine Bewerber oder Bewerberin sendest, ne?

25:23 Aber es gibt ein extrem ähm erfolgreiches Unternehmen. Ich habe jetzt vergessen, wie es heißt. Ähm, was also du bewirbst dich quasi einmal bei diesem Unternehmen und machst ein 20

25:36 Minuten Interview mit einem Avatar, der dir alle möglichen Fragen stellt und wirklich test, wie gut du bist in dem ja, was du quasi angibst, ja, und dann hal ein komplettes Profil von dir

25:45 erstellt und dann das ist aber eine Plattform und die spielt dann wiederum dein Profil mit deinem Skillset an deren Unternehmenspartner aus, die dann sozusagen dein Interview, also du bewst

25:57 dich einmal und es geht halt direkt an weiß ich nicht wie viele verschiedene Companies und die Companies können dann halt quasi das Avatarinterview mit dir sehen, um schon mal ein Eindruck von dir

26:06 zu gewinnen. Das hast so eine gewisse Skill Einschätzung, so eine Art wie so ein so ein so ein validierten CV. Ja. Und das Rekrup auf der anderen Seite bekommt schon Gefühl für dich.

26:18 Da kann man drüber streiten, aber die sind auf jeden Fall extrem erfolgreich, sowohl bei Unternehmen als auch bei Werber und Bewerberinnen, weil ich eben nicht immer durch tausende Prozesse

26:29 muss, sondern einmal einen guten Job machen. Aber jetzt, wenn ich es höre, zucke ich erstmal auf der anderen Seite. Ich unterhalte mich ja auch mit Chat GBT. Hatten wir in der letzten Folge ja

26:35 irgendwie, wenn das jetzt genutzt würde für Bewerbungsprozesse, ja, vielleicht. Na, wo es ganz gut klappt im Match AR, glaube ich, ist so ein Onboarding onboarding Prozesse fürs Offboarding

26:45 will wahrscheinlich weniger nehmen, als wenn geht so bisschen wir wollen sch reden, wir schicken jetzt unseren Avatar, aber gerade in so einem so einem Trainingssetting, also ich meine die

26:55 meisten Corp Schulungen, da sitzt irgend ultra gelangweilt und geht durch die Slides, das kann ein Avatar im Zweifel besser machen. Es sei denn, sie sind von Snip KI oder Academy. Genau, genau.

27:06 Genau. Dann ist es äh ja, wir machen tatsächlich alles noch äh mit echten Menschen, da wo es drauf ankommt. Aber klar, bei großen Corporates oder äh irgendwelche Sicherheitstrainings, die

27:17 man machen muss, die da halt auf 1000 Sprachen übersetzt werden, die kann man dann nur mit machen, aber vielleicht hat man irgendwie ein Entertaining Avatar, der das vielleicht noch ein bisschen

27:25 mehr Emotion und Power macht, wie das der gelangweilte Learning und Development oder IT Sicherheitsexperte oder Expertin macht, ne? Also ähm da gibt's schon verschiedenste Cases, ich

27:36 glaub viele Avatar Cases sind noch intern, weil sie eben weil du da eine höhere Fehleroleranz hast. Ja, aber ja und jetzt sagen wir es zum 100000 mal werden so schnell so viel besser, dass

27:48 es eben wie mit diesenCreatorn auch immer mehr externe Cases gibt. Unser Appell wie immer, probiert's aus, lasst euch nicht ermutig entmutigen, sondern ermutigt euch, ermutigt eure Kolleginnen

28:01 und Kollegen. Wir hatten jetzt schon kurz Sprache äh über die Übersetzung an angeteasert. Beim nächsten Mal geht's tatsächlich um Sprachgenerierte, um Sprache, die von KI generiert wird,

28:14 Übersetzungen, aber auch Musik, eigene Songs und auch das ganze Thema ähm Emotionen in Sprache, dass es eben nicht anhört wie ein Roboter, sondern fast echt oder besser als echt. Insofern,

28:27 wenn es euch gefällt, wie immer liked uns, abonniert den Kanal, redet über Kommentar drunter, schickt uns eure Fragen, wir freuen uns drüber und bis bald. Ich bin nicht nur euer Podcast

28:39 Assistent, ich bin auch ein bisschen stolz auf euch. Ihr habt heute gelernt, wie ich Videos erschaffen kann. Vielleicht bald sogar besser als Hollywood. Bis zur nächsten Folge, wenn

28:48 wir gemeinsam mit euch in die Welt der KI generierten Sprache eintauchen. Bleibt neugierig und menschlich. Cointelligence ist eine Produktion von The Key Academy in Zusammenarbeit mit

28:59 Snipkey. Produziert bei Studio Co in Berlin. Produktion und Regie. Christina Manule, Furzadle und Elias Probl. Creative Director Lukas Schelter, Redaktion und Moderation

29:13 Benjamin Wüstenhagen und Moritz Heininger. Abonniere uns auf Spotify, Apple Podcast oder YouTube. Danke fürs Zuhören. [Musik]

Zur Folgen-Übersicht