// Transkript

#2: GPT, Transformer & Halluzinationen – So tickt ChatGPT!

Vollständiges Transkript dieser Episode des Co-Intelligence Podcasts. 2.567 Wörter. · Auf YouTube ansehen ↗

0:01 [Musik]

0:09 Willkommen zurück zu Cointelligence. Heute mit Episode 2. Nachdem wir beim letzten Mal die wirklichen Grundlagen gelegt haben, steigen wir heute ein bisschen tiefer ein und schauen uns an,

0:19 was ist eigentlich Chat TPT und warum weiß KI eigentlich gar nicht, sondern schätzt nur. Genau. Und zwar schauen wir uns Chat GPT an und jeder kennt Chat GPT. wahrscheinlich haben die meisten Leute

0:35 mit Chat BD die erste zumindest bewusste generative KI Erfahrung gemacht und ich kann mich selbst noch dran erinnern, als ich das erste Mal von diesem Computer saß und mit dieser Maschine gesprochen

0:46 hat und ich magische Moment der magische Moment ja und ich Antworten bekommen habe auf ja auch komplexe Fragen, die einfach für mich zumindest Sinn ergeben haben. Auch bei Themen, den ich mich gut

0:58 auskannte, habe ich eine Antwort bekommen, die erstmal richtig war. Und ich habe mir gedacht, das Ding ist ganz schön schlau, das weiß er ganz schön viel, aber eigentlich weiß das Ding gar

1:07 nichts, denn man muss verstehen, was dahinter steht und vor allem auch was die drei Buchstaben bedeuten. Das G, das P und das T. Das G steht für generativ, das P steht für pretrained und das T

1:25 steht für Transformer. Können wir noch mal reinklicken? Klar, lass uns mal auf das G reinklicken, ein bisschen reinzoomen. Ähm, was heißt G? G heißt generativ, also was neu ist erschaffend.

1:38 Und das ist der große Unterschied zu der alten KI in Anführungsstrichen. Machine Learning und so weiter. Machine Learning. Genau. Kannst ja wahrscheinlich vom Netflix schauen, dann

1:46 kriegst du irgendwie ein Vorschlag, was das wahrscheinlichste nächste Video ist, was dir gut gefallen wird. Ähm, das ist ganz viel Machine Learning, weil da wird ja erstmal nichts Neues erschaffen in

1:56 dem Sinn. Oder auch wenn ich in der KI entscheidet, ist das Foto jetzt ein Hund oder ist es eine Katze oder Donut oder ein Donut. Genau. Da das ist kein Generative KI. Generative heißt ist

2:09 etwas Neues erstellt. Das heißt eine KI, die ein Bild von einem Hund erstellen kann oder ein Bild von einer Katze oder ein Aufsatz oder ein Blogpost. Das ist generative KI und das ist ganz einfach

2:21 dieses G in Chat GPT. Nach G kommt P. Wofür steht P? P steht für pretrained. Also, die Modelle wurden trainiert und zwar wurden die Modelle auf sehr großen Datensätzen trainiert.

2:37 In der Regel mittlerweile auf allen Daten, die irgendwie öffentlich verfügbar sind im Internet. Und ähm es gibt eigentlich keine große Differenzierung mehr zwischen den

2:46 Modellherstellern, weil die im Prinzip alle alle Daten nutzen, die sie irgendwie finden. Gibt natürlich auch gewisse ja Gerichtsverfahren mittlerweile, ob die wirklich alle Daten

2:55 nutzen durften, die da reinfließen durften. Aber dieses Pretrain einfach zum Verständnis ist, ich habe dieses Modell auf Basis von unterschiedlichsten Daten trainiert. versteht Zusammenhänge

3:07 zwischen diesen Daten und ähm kann dadurch, dass es trainiert, vorab trainiert ist, auch viel schneller antworten. Das heißt, es muss ähm gar nicht so viel denken, weil in diesem

3:19 Modell ähm im Ende die der Zusammenhang zwischen einzelnen Wörtern und Themengebieten einfach berechnet wurde aufgrund eben ja dieser großen Datensätze und so kann man glaube ich ja

3:33 leicht diesen Begriff pretrained erklären, ohne zu sehr in die technische Details zu gehen. Und das war auch der der Grund, warum jetzt einige Seiten wie Reddit eben nicht mehr so einfach

3:43 zugänglich sind für Maschinen, weil die genutzt würden für dieses Pretraining, ohne dass sie es wussten. Genau. Oder Unternehmen, andere Unternehmen, die sehr viel Daten haben, mittlerweile

3:52 diese Daten, wo sehr viel Geld verkaufen können. Und äh bei Reddit ist es ja meine ich so, dass Google Reddit gekauft hat, besitzt und aus dem Grund kein anderes Unternehmen zumindest öffentlich

4:03 diese Reddit Daten nutzen darf. Äh während Google sich sozusagen ja einen großen Datenschatz gekauft hat, um eben die eigenen Gemini Modelle damit zu trainieren. Genau. Wir hten das G, wir

4:13 hatten das P, jetzt fehlt das T. Es steht nicht für Trained, sondern Nein, das T steht für Transformer und zwar hat den Transformer, was im Prinzip die Architektur hinter diesen Modellen

4:26 ist, 2017 Google Engenieure erfunden oder zumindest das erste Paper darüber veröffentlicht mit ein ganz bekannten Namen. Paper nennt sich Attention ist all you need. Und im Wesentlichen ist

4:39 das ähm die äh das System dahinter, was die Beziehung zwischen Wörtern im Kontext zueinander ähm versteht und parallel Informationen verarbeiten kann, so dass du, wenn du mit deinem Chat GPT

4:54 sprichst, einfach sehr schnell sehr präzise Antworten bekommst und im Prinzip revolutioniert dieses Modell das Verständnis von natürlicher Sprache und ähm es ist ein relativ komplexes, eine

5:08 komplexe Architektur. Ich habe, glaube ich, selbst, ich bin auch kein Techniker, bestimmt zwei Tage gesessen und habe am Ende eine super gute Visualisierung gefunden, die sehr gut

5:19 erklärt, wieso sowas funktioniert. Aber wirklich jeden einzelnen Schritt nachzuvollziehen in so einem Transformer Modell, vielleicht bin ich auch nicht schlau genug, hat bei mir eine Weile

5:28 gedauert. Fairerweise muss ich sagen ist es auch gar nicht so wichtig wirklich genau zu verstehen, wie so ein GPT Modell funktioniert. Denn und das Beispiel habe ich schon mal gebracht,

5:40 ich kann sehr gutes Internet bedienen. Ich habe keine Ahnung, wie das TCPIP Protokoll dahinter funktioniert und genauso muss ich kein detailliertes technisches Verständnis von diesen

5:51 Modellen haben, um eben sehr erfolgreich KI in meinem Alltag einzusetzen. Attention All you Need könnte auch so die Hymne für Podcaster sein. Ihr könnt es gerne die Shonuts verlinken das

6:00 Paper, wenn ihr irgendwie ganz nördig unterwegs seid. Ganz vollschnittig ist es doch so, wenn ich es richtig verstehe, ist so eine Art Wahrscheinlichkeit, also es wird die

6:09 Wahrscheinlichkeit errechnet, was folgt auf das nächste Wort. Genau. Also es ist eine sogenannte Prediction Machine, wie man so schön sagt. Es wird der nächste Token oder das nächste Wort kann man

6:21 glaube ich für unseren Fall hier eins zu eins ersetzen. Ein Token ist ein bisschen weniger als ein Wort, aber damit verwirrt man eigentlich nur die Leute. Im Prinzip kann man sich so

6:30 vorstellen, es werden gewisse Worte reingegeben und die KI macht dann eine Prediction, also eine Vorheraussage, was das nächste Wort sein wird. Ja, und mit den Daten, die pretrained

6:43 sind, kannst diese Voraussage machen, weil es einfach gefüttert wurde mit all den Möglichkeiten und je mehr ich je mehr Futter ich habe, desto eher kann ich natürlich voraussagen, was als

6:52 nächstes kommen wird. Genau. Beispiel, ich packe meinen. Was könnte das nächste Wort sein? Baum, Glas, Rucksack, Maschine, Koffer. Koffer. Genau. Dann wäre es aber schwer,

7:06 wenn ich Rucksack und Koffer habe, dann ist es muss es wahrscheinlich genau überlegen, was jetzt wahrscheinlicher ist. Aber ähm genau, es ist quasi hinter jedem einzelnen möglichen nächsten Wort

7:17 liegt eine Wahrscheinlichkeit und das Wort, was die höchste Wahrscheinlichkeit hat, wird dann sozusagen ausgewählt und dann geht das Spiel weiter. Dann ich packe meinen Rucksack und jetzt könnte

7:31 dahinter stehen, sind dahinter alle Wörter. Jetzt steht da rotgrün, was auch immer. äh und schnell, vielleicht ist schnell das richtige Wort, wenn ich irgendwie vier Witter als Auswahl habe.

7:41 Das ist im Prinzip alles, was so grundlegend hinter diesen GPD Modellen liegt. Damit haben wir es generativ vortrainiert und Transformer. Genau so. Jetzt haben wir uns einmal High Level

7:55 ohne zu theoretisch zu werden angeschaut, wiee GPT Modelle funktionieren oder was da dahinter steht und haben das ein Beispiel von einer Text, also eine Wortvorhersage gemacht,

8:08 aber KI kann ja heute immer mehr und ähm zu dem ja Thema Aufbruch der Medienilos sollten wir uns, glaube ich, auch noch mal kurz unterhalten. Ja. Äh super spannend. Ich meine, als GPT1 rauskam,

8:23 war das wirklich nur ein Textmodell. Heute ist es multimodal geworden. Das heißt, ich kann nicht nur Text erzeugen, ich kann auch Bilder erzeugen. Es gibt das Modelle, die ganze Videos erzeugen.

8:33 Erste kleine Filme, ähm Code und ich kann das auch in alle Richtung machen. Also, ich kann mit Text ein Bild erzeugen, aus einem Bild äh ein Video erzeugen oder auch aus dem Video

8:46 wiederum Text erzeugen. Da ganz spannend ist, hast du mich auch mal drauf aufmerksam gemacht, ist das äh Notebook LM von Google. Da kann ich im Prinzip ein Bild oder auch ein Text generieren

8:57 oder hochladen. Daraus generiere ich dann wiederum Text und daraus wird dann eine Unterhaltung gemacht und wie so eine Art Podcast. Da sind zwei Menschen, die sich dann unterhalten zu dem Thema,

9:07 was davorkam. Also da werden wirklich die verschiedenen Medienformen miteinander gemixt und ich merke, dass einfach diese Silos, die es früher gab, komplett aufgebrochen werden. Ja, also

9:16 Notebook LM ist was, was mich auch total geflascht hat. Das war auch so ein Aha Moment, einfach nur so paar Informationen reinzugeben oder wissenschaftliche Paper und auf einmal

9:24 unterhalten sich zwei Menschen, also wie richtige Menschen äh ein Podcast darüber. Das war spannend. Ein weiteres Beispiel noch ähm was was mir eine Fähigkeit gegeben hat, die ich vorher

9:37 nicht hatte, ist ein ein Mockup für eine Webseite mit einem äh LM Text quasi zu erstellen. Ich habe einfach ähm beschrieben, wie soll die Webseite aussehen, was sind die Elemente, was

9:50 sind die Texte, die da drauf sollen und dann hat mir innerhalb von einer Minute, in dem Fall war das Cloud, das können die anderen Modelle aber auch Mockup von der Webseite erstellt

10:00 und diesen Mockup konnte ich dann nehmen, um zu richtigen Entwicklern zu gehen, zu sagen, so ungefähr soll meine Webseite aussehen. Ja, umgedreht. Was wir auch noch mal gemacht hatten, ist

10:12 wir haben eine eine andere Website genommen, die wir schön fanden, haben ein Screenshot davon gemacht, haben dieses Bild ohne irgendeinen Code in ein LM gegeben und das hat uns dann daraus

10:24 den Code erstellt für diese Webseite. Wir hten auf einmal eine funktionale Webseite auf Basis dieses Inputbilds und dieses ja hin und her von Bild zu Text zu Text zu Bild zu Video und so weiter

10:35 ist einfach das was was super spannend ist und ähm ja gerade Leute in in Marketingfunktionen auf einmal Skills und Fähigkeiten geben, die undenkbar waren und wenn wir noch mal in Episode 1

10:45 denken, sind wir hier auf jeden Fall in dieser Phase 2 und jetzt kann ich auf einmal Dinge, die konnte ich vorher nie. Das hat nichts damit zu tun, dass ich irgendwie meine Kosten reduziere,

10:54 sondern ich bekomme Super Powers, die ich vorher nicht hatte. Ja, total. Ich habe letztens auch ein ein Screenshot hochgeladen und habe mir daraus eine Tabelle generieren lassen. Ich hatte

11:03 keinen Bock, das irgendwie alles abzutippen. Ja, einmal Screenshot, zack, haben die Tabelle zurück. Also auch da kann man zwischen den verschiedenen Modi schon wechseln und die Entwicklung geht

11:12 ja weiter. Also wenn du heute sagst, heute kannst du beim Prompt ein erstes MVP bekommen oder ein ersten Mockup, dann werden wir demnächst auch wirklich schönen clean rausbekommen. Ne, also wir

11:22 entwickeln, es ist total verrückt, aber wenn es gibt so Tools wie um nur eins zu denn wie Curser, da kann man wirklich Text man gibt Text ein und bekommt Code und kann sich kann den Code debuggen,

11:36 kann die Seite ändern und man kann heute sich schon kleine Webtools bauen, was vollkommt undenkbar war vorher und man muss wirklich keine Ahnung, also 0,0 Ahnung vom Coden haben. Das ist super

11:50 spannend. Also, es gibt ganz ganz viele Us Cases. Es kommen bestimmt auch häufiger noch auf ähm verschiedene Cases im Rahmen von dem Podcast. So, und jetzt wir noch mal vielleicht ein Schritt raus

12:00 zum Ende der Episode und zwar was bedeutet das eigentlich? Was passiert eigentlich gerade? Und zwar äh steht auch die generative KI unter der Überschrift der Entwertung durch

12:12 Technologie. und Entwertung hört sich erstmal negativ an, führt aber einfach zu unglaublichen Innovationen. Wenn wir mal ein paar Jahre zurückgehen, vielleicht 30 Jahre zurückgehen, der

12:24 Entstehung des Internets. Was ist eigentlich da passiert? Die das Internet an sich hat die Verbreitung von Informationen, die Kosten der Verbreitung von der Informationen quasi

12:34 auf null, fast auf null runtergesetzt. Vor dem Internet musste ich Briefe schreiben oder Magazine oder Zeitungen, die mussten gedruckt werden, die mussten verteilt werden, um Informationen von A

12:44 nach B zu bringen. Das Internet hat die ganzen Kosten quasi auf null gesenkt. Die nächste Technologie, Cloudte Technologie hat im Prinzip die Kosten für Speicher auf null gesetzt.

12:58 Also Content musste Content hat auf einmal keine keine Kosten mehr gehabt der Lagerung sozusagen. Wir sehen es ja am Handy vorher. Früher hatten wir Digitalkameras, da mussen wir überlegen,

13:10 wie viel Fotos können wir machen, weil die Speicher begrenzt waren und äh diese diese Speicherkosten sind durch diese diese Serverfarm einfach auf null runter. Heute haben wir brauch keinen

13:20 sechsfach CD-Wechsler mehr im Kofferraum, sondern ich hab alle Musik, die ich mir vorstellen kann, immer mit. Genau. Genau. Und du hast unendlich viele Fotos auf deinem Handy und einfach

13:28 dieser diese die Erstehung, diese massive Entstehung des Contents kostet einfach nichts mehr zu speichern. Und jetzt generative KI kostet auf einmal auch die Generierung des Contests

13:40 Contents fast nichts mehr. Ja, und ähm es ist nicht nur die Erstellung des Contents, die Kostenerstellung des Contents, die quasi fast auf null runtergehen, sondern in gewisser Art und

13:51 Weise auch die Kosten von Intelligenz, die auf null runtergehen. Und äh was das alles heißt, ist auf jeden Fall ja ein spannendes Thema und äh da sprechen wir, glaube ich, noch dazu. Bisschen wie die

14:04 Dampfmaschine zur Revolution äh beigetragen hat, dass einfach die Kosten für Kraft nicht mehr so hattest. Ja, hast du heute KI, die die Kosten für Intelligenz am Ende auf dem Pferd. Ja,

14:18 das äh wird auf jeden Fall sehr spannend nächsten Jahren. Jetzt haben wir so ein bisschen das Doomsday Szenario. KI macht alles kostenlos. Ja, kann alles generieren, aber man könnte auch sagen,

14:28 man gelernt ist eigentlich ein Transformermodell, also es hat nur eine gewisse Wahrscheinlichkeit. Was kann KI denn dann, wenn es nur schätzt? Ja, KI ähm wird manchmal so bisschen als der

14:40 stochastische Papagei abgetan und in der Regel sind es auch die Leute, die sich richtig mit KI auseinandersetzen und äh einfach unterschätzen äh wie viel Power dieser stochastische Papagei

14:54 eigentlich hat. Und die Leute, die eben den storaastischen Papagei nutzen und sinnvoll einsetzen, haben eben massiven Vorteil. Denn KI weiß zwar nichts und macht nur vorher vorhersagen. KI ist

15:08 aber ein extrem powerful ein Tool, was extrem powervoll ist, um mal wieder so einen englischen Begriff reinzuwerfen. Ähm und der, der weiß, wie dieses Tool verwendet, hat einfach einen klaren

15:19 Vorteil gegenüber den anderen. Definitiv. Und beim nächsten Mal haben wir dann vielleicht auch ein Frasenschwein. Genau. Für die englischen Bilde. Auch die besten Papageien verplappern

15:29 sich mal oder halluzinieren. Beim nächsten Mal wird es darum gehen zu verstehen, warum unser Papagei sich verplappert, warum er halluziniert und was wir auch an Ethik und Datenschutz

15:41 beachten sollten, wenn es um KI geht. Und wenn es euch gefallen hat, abonniert gerne den Podcast, zeigt euren Freunden, gibt uns fünf Sterne, kommentiert's. Danke. Ein stochastischer Papagei. Na

15:54 gut, so hat mich noch niemand genannt. Aber hey, ich bin ja auch nur die KI. Cointelligence ist eine Produktion von The Key Academy in Zusammenarbeit mit Snip KI, produziert bei Studio Cour in

16:04 Berlin. Redaktion und Moderation Benjamin Wüstenhagen und Moritz Heininger. Abonniere uns auf Spotify, Apple Podcast oder YouTube. Danke fürs Zuhören. Bis zum nächsten Mal.