Hallo!
Ich habe die Sache mit dem Zipf etwas grob zusammengefasst, aber zum grundlegenden Verständnis sollte es reichen! Hoffentlich seid ihr damit halbwegs zufrieden! Mein Freund hat sich noch nicht gemeldet! Dürfte etwas im Stress sein! Wie mir das auf den ZIPF geht!
OK, kleine Erklärung:
Zipfsches Gesetz
Dieses Gesetz geht zurück auf den amerikanischen Philologen Zipf (1902-1950). Er entdeckte bei seinen Forschungen, einen direkten Zusammenhang zwischen dem Rang (r) eines Wortes und der Häufigkeit (h), mit der es in einem Text vorkommt. Das häufigste Wort bekommt dabei den ersten Rang. Die gleichen Gesetzmäßigkeiten gelten auch bei Buchstaben.
Es handelt sich bei der Beziehung zwischen Rang und Häufigkeit um eine lineare, konstante Beziehung. Sie folgt der Regel:
C=r*h
C ist eine Konstante, die innerhalb eines Textes oder einer Sprache in etwa gleich ist, egal welches Wort oder welcher Buchstabe untersucht werden.
Es existiert eine Proportion bei diesen Berechnungen, denn je häufiger ein Wort vorkommt, desto höher der Rang. Umgekehrt gilt aber auch, je seltener ein Wort erscheint, desto niedriger ist auch sein Rang.
Diese Beziehung lässt sich auch grafisch darstellen, denn die errechneten Häufigkeiten eines Buchstabens liegen alle um eine Gerade herum, die sich wie folgt berechnen lässt:
h=C/r
Das Gesetz von Zipf kann noch in vielen Bereichen angewandt werden, um bestimmte Sachverhalte abzuschätzen.
Ich habe mir die Mühe gemacht, den gesamten geschichtlichen Schmarren aus dem Internet zu suchen!
Und noch etwas......
Ich habe da eine Liste gefunden, nach welcher wahrscheinlich auch mein Freund gearbeitet hat.
Ich bin so frei zu zitieren:
Der Textumfang für das deutsche Sprachprofil untersucht 640.686 Wörter und 4.147.917 Zeichen. Ein Prozent sind also ungefähr 41.479 Zeichen. Das É/é trat demnach bei 0,006 % mit ungefähr 249 Zeichen auf.
Das Deutsche unterscheidet sich am meisten von allen untersuchten Sprachen. Das ist vermutlich auf seine abweichende Herkunft zurückzuführen. Es hat im Vergleich die wenigsten verschiedenen Sonderzeichen, aber keineswegs den niedrigsten Sonderzeichenprozentsatz, denn mit 1,8 % liegt Deutsch weit vor Italienisch und Portugiesisch.
Der häufigste Buchstabe ist das E/e. Es ist mit 16,343 % zugleich der höchste Prozentsatz, der bei Untersuchungen einzelner Buchstaben aufgetreten ist.
Die deutsche Sprache hat mit Abstand die meisten Konsonanten und somit die wenigsten Vokale. Dadurch wird diese Sprache auch oft als hart bezeichnet. Mit fast 62 % Konsonanten übertrifft Deutsch Französisch (Sprache mit den zweitmeisten Konsonanten) noch um ungefähr 6,3 %. Beachtlich ist auch, mit wie wenig Vokalen die deutsche Sprache auskommt. Es sind nur ca. 36,3 %.
A/a=5,440 %
Ä/ä=0,560 %
B/b=1,962 %
Ö/ö=0,287 %
C/c=3,059 %
Ü/ü=0,616 %
D/d=4,969 %
ß=0,308 %
E/e=16,343 %
é=0,006 %
F/f=1,606 %
G/g=2,989 %
H/h=4,782 %
I/i=8,058 %
J/j=0,233 %
K/k=1,393 %
L/l=3,726 %
M/m=2,536 %
N/n=10,082 %
O/o=2,535 %
P/p=0,842 %
Q/q=0,027 %
R/r=7,295 %
S/s=6,439 %
T/t=6,177 %
U/u=3,878 %
V/v=0,863 %
W/w=1,604 %
X/x=0,045 %
Y/y=0,097 %
Z/z=1,234 %
Sonderzeichen=1,777 %
Kosonanten=61,960 %
Vokale=36,254 %
Als weitere Quelle für ein deutsches Sprachprofil haben wir uns mit der IDS Mannheim[12] kurzgeschlossen. Sie analysierten ebenfalls mit einem Auszählprogramm ihren Korpus, der ungefähr 2 Milliarden Wörter und 11.671.448.184 Zeichen umfasst. Die Abweichungen sind mit durchschnittlich 0,153 % sehr gering. Wir können daher sagen, dass unser Buchstabenprofil genau genug und somit präzise ausgewertet worden ist.
Wie ihr seht, scheue ich keine Mühen und Kosten euch ...äh....geistig zu befriedigen!
lG Satyr