Home » Lesen & Schreiben

Klassiker sind berechenbar: Project Gutenberg bestätigt Zipfsches Gesetz

11 Mrz 2016 0 Kommentare

Zipf-VerteilungWenn man literarischen Texten mit statistischen Methoden zu Leibe rückt, geht’s meist darum, was sie voneinander unterscheidet. Z.B. um herauszufinden: was ist die Geheimformel für einen Bestseller? Manchmal ist aber viel interessanter, was Texte miteinander verbindet: zum Beispiel das Zipfsche Gesetz. Das besagt schlicht und einfach: das häufigste Wort in einem Text kommt doppelt so oft vor wie das zweithäufigste, das zweithäufigste doppelt so oft wie das dritthäufigste, und so weiter. Formuliert wurde es schon in den 1930er Jahren vom us-amerikanischen Linguisten George Kingsley Zipf.

Ultimative Probe mit 30.000 Texten

Bisher war es im Rahmen einzelner Studien aber immer nur mit Textkorpora überprüft worden, die höchstens ein Dutzend Texte umfassten. Dabei gibt es ja im Web-Zeitalter längst viel größere Textmengen — im Bereich der Literatur zum Beispiel die mehr als 30.000 gemeinfreien Werke von Project Gutenberg. Forscher des katalanischen “Centre de Recerca Matematicá” haben nun die gigantische Klassiker-Bibliothek genutzt, um das Zipfsche Gesetz auf die ultimative Probe zu stellen (siehe: Large-Scale Analysis of Zipf’s Law in English Texts, PLOS ONE (2016)). Und siehe da: es funktioniert.

Auch Shakespeare gehorcht Zipf

Mit anderen Worten: Auch Shakespeare, Melville oder Dickens haben sich in punkto Häufigkeitsverteilung offenbar unbewusst an das Zipfsche Gesetz gehalten (das übrigens verwandt ist mit der Pareto-Verteilung bzw. dem Pareto-Prinzip). Lässt man besonders seltene Worte bei der Analyse außen vor, verläuft die Wortverteilungskurve von 55 Prozent aller Project Gutenberg-Texte perfekt im Rahmen der von Zipf vorhergesagten Abfolge. Und das übrigens auch unabhängig von der Textlänge — die variierte im Gutenberg-Korpus zwischen 100 und einer Million Worte.

“Auch wenn Literatur als eine der höchsten Ausdrucksformen von kreativer Freiheit gilt, können nicht einmal die ganz großen Autoren der Tyrannei des Zipfschen Gesetzes entkommen”, so der an der Studie beteiligte Mathematiker Alvaro Corral.

(via phys.org)

Abb.: Von Berklas, CC BY-SA 2.5

Comments are closed.