Ich lag bei Papaplatte FALSCH... Sprache analysiert [Data Deep Dive]

About

Description

Der Wortschatz von Papaplatte (aus Edeltalk), Julien Bam (aus Hobbylos) und einem weiteren Youtuber wird analysiert. Auch die Gesprächsdominanz, Sprechgeschw…

Notes

Transcript

00:00 Hallo zusammen. Nach den letzten beiden kontroversen Videos gibt’s heute mal wieder was entspannteres. Ich habe ja Kevins papaplattes Wortschatz analysiert und da kam raus, dass sein Wortschatz kleiner ist als der von Apured. Papa Platte hat dazu folgendes gesagt: Ja, keine Ahnung, Bro. Ich sage ihn bisschen rckt. Und was soll ich sagen? Er hat absolut recht. Meine Daten waren nicht gut und meine Methodik war noch schlechter. Deswegen liefere ich heute nach. Ich habe mir sehr saubere Daten beschafft und habe dafür gesorgt, dass die Methodik stimmt. Ich habe mich in die Linguistik eingelesen und nicht nur den Wortschatz analysiert, sondern viele weitere spannende Metriken gefunden. Auch einige, die ich so gar nicht von Papa Platte erwartet hätte. Ich habe das Ganze auch ins Verhältnis gesetzt zu Julian Bam und noch einem anderen Influencer. Und ja, bevor ich lange rumrede, let’s go. [musik] Papa Platte hat ja behauptet, dass sein Wortschatz viel besser wäre, wenn ich nicht sein Gaming Channel, sondern sein Podcast analysiere. Ich sag Podcast wä ein insan inser Buff. 00:59 Deswegen habe ich genau das gemacht. Ich habe mir den Eeltalk Podcast runtergeladen, 10 Folgen und hatte damit eine Audiospur über 17 Stunden. Um das jetzt sinnvoll analysieren zu können, brauchen wir wieder das Transkript davon. Diesmal habe ich nicht das automatisch generierte YouTube Transkript genutzt, denn das war fehleranfällig und konnte vor allem nicht zwischen den Sprechern unterscheiden. Deswegen habe ich dieses Mal ein Sprachmodell, das Nova 2 Modell benutzt. Das kann sauber transkribieren und kann vor allem zwischen den Sprechern unterscheiden. Damit die KI weiß, wer Papa Platte ist, füttere ich der KI davor eine Referenzaufnahme von Papa Platte, also einen 2 Minuten Ausschnitt, wo nur er spricht. Und die KI erkennt dann immer an der Tonhöhe Dynamik und Resonanz, ob gerade Papa Platte spricht oder jemand anders und kann das im Transkript entsprechend labeln. Und das Ganze hat auch echt ganz gut funktioniert. Es stößt natürlich an seine Grenzen, wenn mehrere Leute gleichzeitig sprechen. Damit ihr einschätzen könnt, wie gut es funktioniert, also wie gut unsere Daten 01:52 sind, lasse ich einfach mal das Transkript mit dem Podcast zusammen ein Stückchen laufen. Herzlich willkommen zum Edelk zusammen mit Dominik und Kevin in der Special Edition. Freunde, Achtung, weil aufgepasst, wir haben heute einen Gast. Ihr seht, also das ganze funktioniert recht gut. Ist natürlich nicht zu 100% korrekt. Aber anhand dieses Transkripts können wir jetzt ganz gut unsere Analyse starten. Bevor ich den Wortschatz von Kevin enthülle, zeige ich euch erstmal, wie ich den berechnet habe. Die Wissenschaft nutzt dafür eine Methode, die eigentlich aus dem Dschungel kommt. [musik] Die sind nämlich damals auf ein Problem gestoßen und zwar, dass das einfache Zählen von den Worten nicht aussagekräftig [musik] für den Wortschatz ist. Darum wird, wenn es in der Wissenschaft darum geht, wie viele Worte ein Mensch kennt, meistens mit Lemmata, also den Grundformen gearbeitet. Warum? [musik] Wenn du das Wort gehen kennst, dann ist es keine intellektuelle Leistung auch du gehst oder er ist gegangen zu bilden. 02:46 Das bedeutet, die werden zusammengefasst, damit die Sprache nicht künstlich aufgebläht wird. Heißt also, um den Wortschritt zu berechnen, müssen wir erstmal alle gebeugten Wörter als ihre Lemmata zusammenfassen und dafür nutzen wir ein KI Modell namens Spacy. Das lematisiert das Transkript und auf dieses lematisierte Transkript können wir jetzt eine Formel zur Berechnung des Wortschatzes anwenden. [musik] Warum brauchen wir hier eine Formel? Na ja, wir haben ja nur ein paar Stunden Auszug aus seiner Sprache und daran hat er natürlich nicht jedes Wort gesagt, dass er kennt. Deswegen müssen wir mit einer Formel schätzen, was noch alles in seinem Kopf steckt. Ich nutze hier nicht irgendeine Formel, sondern den Scha 1 Schätzer. Der kommt ursprünglich aus der Biologie, um die Tierarten in einem Dschungel zu schätzen, die noch nicht entdeckt wurden. Nur in unserem Fall schätzen wir nicht die unentdeckten Tierarten im Dschungel, sondern die unentdeckten Wörter in Kevins Kopf. Die Formel für den Scha1 Schätzer sieht folgendermaßen aus. Sieht total kompliziert aus, aber ist einfacher als [musik] man denkt. Sie nimmt einfach den 03:42 Wortschatz, den wir anhand unseres Transkripts berechnet haben und rechnet da drauf einen Schätzwert, wie viele Worte wohl noch im Wortschatz liegen. Dieser Schätzwert ergibt sich durch die Anzahl der Wörter, die nur ein einziges Mal gefallen sind im Quadrat geteilt durch zweimal die Wörter, die zweimal gefallen [musik] sind. Die Logik dahinter, wenn jemand viele dieser seltenen Wörter nutzt, dann weiß das Modell, in seinem Kopf stecken wahrscheinlich noch viel mehr Worte, die wir einfach noch nicht gehört haben. Der Wortschatz wird dann also höher eingeschätzt und dabei kommen folgende Grafik raus. Ihr seht diese blaue Kurve, das ist der tatsächlich [musik] beobachtete Wortschatz. Am Anfang steigt noch, weil viele neue Worte dabei sind und irgendwann flacht die dann ab, also wird gesättigt. Die rote Strichellinie ist dann die Schätzung der Formel und zwar ist das die tatsächlich beobachtete Wortmenge plus die Dunkelziffer. [musik] Kevins aktiver Wortschatz liegt also laut der Joel bei 12160 Lemmata. Die Formel gibt auch einen Konfidzintervall an, also wie sicher sie sich mit dieser Schätzung ist und sie 04:41 ist sich zu 95% sicher, dass der Wortschatz zwischen 11504 und 12816 Lemmerta groß ist. [musik] Cool, das klingt ziemlich abstrakt und ist für sich alleinstehend nicht besonders aussagekräftig. Deswegen ziehe ich gleich Julian Bam als Vergleichsperson ran, dann kann man diese ganzen Werte besser einschätzen. Davor will ich euch aber ganz kurz noch ziemlich coole andere Metriken zu Powerplatte zeigen. Da unser Transkriptions KI Modell auch immer die Zeiten eingetragen hat, zu der einen Satz startet und auch endet, war die Redegeschwindigkeit sehr einfach zu berechnen und zwar einfach die Anzahl aller Worte geteilt durch die [musik] geredeten Minuten. Papa Platte ist ein relativ schneller Redner. Er redet 225,5 Worte [musik] pro Minute. Um die Lieblingsworte von Kevin herauszufinden, habe ich einfach wieder die Wortgruppen als Lemmer zusammengefasst und dann gezählt, wie oft die vorkommen. Dann habe ich einfach dargestellt alle Wörter, die er oft sagt und zwar je größer [musik] das Wort ist, desto öfter hat er es gesagt und da kommt dann diese 05:38 Wortcloud raus und wir sehen hier, dass er z.B. Bro oder mal extrem häufig sagt. Um Kevins Denglisch Anteil herauszufinden, habe ich einfach mit Gemini eine Liste von 2000 Wörtern geschrieben. Da sind Wörter wie Weird, Cringe, Safe, Rip, Hassle und so weiter drin. Klar deckt es nicht alle Wörter ab, aber 2000 ist schon eine große Stichprobe und damit können wir sehr gut die verschiedenen Influencer miteinander vergleichen. Kevin hat einen DISteil von 2,84%. Das klingt erstmal ziemlich wenig, aber auch hierfür gibt es eine gute Erklärung. Funktionsworte wie der die das machen einen Großteil der Sprache aus und sind meistens deutsch. Außerdem fallen sie dem Gehirn weniger auf, weil sie nur dafür da sind, die Sätze zusammenzuhalten. Sie enthalten nicht wirklich eigene Informationen. Wenn also Kevin für einige Inhaltsworte denglische Begriffe nutzt, dann fällt uns das sehr auf, ohne dass es prozentual gesehen einen großen Unterschied macht. So und jetzt setzen wir mal diese schwer zu greifenden Zahlen ins Verhältnis, indem wir Julian Bam als Vergleichsperson heranziehen. 06:44 Um all diese Metriken auf einen Blick erfassen zu können, habe ich folgende Grafik erstellt. Papa Platte befindet sich mit seinen 1260 Lemmat geschätzten Wortschatz auf der Y-Achse hier. Und die X-Achse beschreibt den Gesprächsanteil. Dazu kommen wir gleich. Die Größe seines Kreises gibt Auskunft über seine Redegeschwindigkeit. Die liegt bei Kevin, wie vorhin gesagt bei 225,5 Worten pro Minute. Und bei Julian Bam habe ich, wie auch bei Papa Platte 25 000 Worte analysiert. Dabei wurde ein Wortschatz von 4193 Lematta gefunden. 1422 Wörter wurden nur einmal benutzt und 969 Wörter wurden zweimal benutzt. Das heißt, Julian Bam hat nach der CO 1 Formel einen geschätzten Wortschatz von 5236 Lematta und seine Redegeschwindigkeit liegt etwas unter der von Papa Platte und zwar bei 192,16 Worten pro Minute. Falls euch auch die Wortwolke von Julian Bam interessiert, seht ihr sie hier. Da gehe ich nicht weiter drauf ein. Julian Bam hat übrigens einen Dlischanteil von 1,67%. Also etwas weniger als Papa Platte. Doch jetzt kommen wir mal zu den wirklich interessanten Statistiken, denn ich habe 07:54 ja nicht nur die Redegeschwindigkeit und den Wortschatz berechnet, sondern auch die Gesprächsdominanz, also wie viel jemand im Gespräch redet und auch die Informationsdichte, also ob jemand viel redet, ohne dass dabei viel rumkommt oder andersrum. [musik] Um den Gesprächsanteil fair herauszufinden, habe ich einfach die Anzahl an Sprecher in einer Folge berechnet und dann die Länge geteilt durch die Sprecher genommen und dann geschaut, ob ein Sprecher mehr oder weniger als seinem theoretisch [musik] zustehendem Teil gesprochen hat. Das ganze habe ich dann Gesprächs Dominanz genannt. Da es im Podcast aber immer wieder Zwischenrufe gibt oder auch Audiateien abgespielt werden, habe ich nur Sprecher mit reingenommen, die einen Redeanteil von mindestens 5% haben. Und da kam raus, dass Papa Platte eine Gesprächsdominanz von -1,6% hat. Er redet also etwas weniger als seine Gesprächspartner. Es ist aber ziemlich ausgeglichen. Ganz anders sieht’s aus beim Hobbylos Podcast, denn Julien Bam hat eine Gesprächsdominanz von -26%. Er redet also deutlich weniger als seine 08:53 Gesprächspartner, in dem Fall Riso. Zu dem kommen wir nachher auch noch. Schauen wir uns davor aber mal an, wie hoch die Informationsdichte ist der Sprecher, denn man kann ja auch sehr viel sagen, ohne wirklich Inhalt rüber zu bringen. Um das zu berechnen, nutzen wir diese Studie hier von Kondal aus dem Jahr 2015. Darin ist beschrieben, wie man die lexikalische Dichte berechnen kann. [musik] Wir wissen ja von vorhin, dass es zum einen diese Informationswörter gibt, die wirklich Information enthalten, also z.B. laufen oder Haus. [musik] Und es gibt diese Funktionswörter, die die Sätze einfach zusammenhalten, also der, die das und so weiter. Deswegen messen wir jetzt einfach, wie viele Worte von allen gesprochenen Worten Inhaltswörter sind und je höher dieser Anteil, desto mehr Informationen wurden in dem Gesprochenen gesagt. [musik] Wir nutzen also wieder unser KI Modell Spacey. Das kann zwischen Inhaltsworten und Funktionsworten unterscheiden und so können wir berechnen, dass Papa Platte eine lexikalische Dichte von 29,82% hat und Julien Bam eine lexikalische Dichte von 32,86% 09:51 hat. Das heißt, Julien Bam bringt mit derselben Anzahl an Worten etwas mehr Informationen rüber. So, jetzt kommen wir mal zu Julian Bams Gesprächspartner Rizo und für den habe ich auch 25 000 Worte analysiert. [musik] Da wurde ein Wortschatz von 5516 Lemata gefunden. Er hat 2840 mal ein Wort nur einmal benutzt und 1025 mal ein Wort zweimal. Damit kommen wir laut der CO 1 Formel auf einen gesamten geschätzten Wortschatz von 9450 Lemata. Seine lexikalische Dichte ist mit 31,97% am höchsten und sein dlischanteil liegt [musik] bei 1,66 % und ist damit am niedrigsten. Und wie schnell spricht er? Er redet 183,63 Worte pro Minute und seine Gesprächsdominanz liegt bei 26%. Er spricht also deutlich mehr als Julien Bam. Und falls es euch interessiert, ist natürlich auch hier noch seine Wortwolke. Freunde, wie ihr seht, ist in dieser Übersicht noch sehr viel Platz für weitere Influencer. Schreibt also gerne in die Kommentare, welche Influencer ich hier noch eintragen soll. die Kommentare mit den meisten Likes 10:54 gewinnen. [musik] Lasst außerdem gerne ein Like da, Abo, ihr kennt das Ganze [musik] so, die Analyse hat ergeben, dass Papa Platte einen höheren Wortschatz als Rizo und Julien Bam hat. Ich will [musik] dieses Ergebnis auch gar nicht anfechten. Ich möchte euch aber noch einen anderen Blickwinkel drauf geben. [musik] Und zwar gibt’s natürlich verschiedene Methoden, den Wortschatz zu schätzen. Man muss ihn immer schätzen, denn man kann ihn nicht genau messen und je nach Schätzung kommen da auch unterschiedliche Ergebnisse raus. Deswegen [musik] wird in der Forschung oft eine Formel angewandt oder verschiedene Formeln angewandt, die nicht versuchen, den exakten Wortschatz zu schätzen, sondern die sprachliche Komplexität zu schätzen. Das wird dann z.B. dafür verwendet, die [musik] Schwierigkeiten von verschiedenen Schulbüchern einzuordnen. Zwei dieser Indizes zur Berechnung der sprachlichen Komplexität sind der Prunetzindex und der Uberindex. Und [musik] in dieser Übersicht sehen wir, dass dort alle drei einen sehr ähnlichen Index haben. Das heißt, alle drei 11:52 bewegen sich auf einem ähnlichen Sprachniveau. [musik] Ein Überindex von 67 in gesprochener Sprache gilt übrigens als sehr gut. Das macht auch Sinn, denn das sind ja Influencer, deren Job ist es zu reden und wenn man das viel macht, dann wird man auch besser darin. Eine Sache möchte ich aber noch anmerken und zwar basieren diese Indizes und auch die CH1 Formel sehr auf der Anzahl der einmal gefallenen Worte. Das heißt, wenn jetzt jemand viele Wortneuschöpfungen macht, wie z.B. oder auch viele denglische Begriffe nutzt, dann boostet das schon des sprachlichen Niveau künstlich nach oben. [musik] Was ich aus dieser Analyse mitnehme, ist, dass man je nach Methodik völlig unterschiedliche Ergebnisse erhalten kann. Ich hätte bestimmt auch eine Methodik finden können, bei der Papa Platte am schlechtesten abschneidet. Das hat mir etwas zu denken gegeben, wie sehr man Studien wirklich vertrauen kann. Klar gibt es Sicherheitsmechanismen wie den Peer Review, aber es gibt nicht umsonst das Sprichwort: “Vertue keiner Studie, die du nicht selber gefaked hast”. Ich 12:52 möchte hier überhaupt nicht an der Wissenschaft zweifeln. Es ist sehr gut, dass wir solche Studien haben. Man muss sich aber immer anschauen, wer hat die finanziert, wie ist die Datenlage und wie ist die Methodik? Denn es gibt einige Beispiele, bei denen die Ergebnisse einer Studie nachweislich erkauft wurden. Z.B. der Harvard Zuckerskandal in den 60er Jahren, in den der Zusammenhang zwischen Zucker und Herzerkrankungen künstlich heruntergespielt wurde, finanziert von der Zuckerloben. So, jetzt sind wir aber ein bisschen abgedriftet, das wollte ich aber noch gesagt haben. Schreibt mir gerne in die Kommentare, wen oder was ich als nächstes analysieren soll. Bleibt stabil und bis zum nächsten Mal. Ja.

Life OS

Explorer

Ich lag bei Papaplatte FALSCH... Sprache analysiert [Data Deep Dive]

About

Notes

Transcript

Graph View

Table of Contents