You are on page 1of 2

1.

Zipf’s Verteilungsgesetz

Die Wörter in einem Text sind zu ungefähr nach Zipf’s Verteilungsgesetz quantitativ verteilt.
Dieses Verteilungsgesetz sagt uns, dass die Auftretenswahrscheinlichkeit eines Wortes
umgekehrt proportional zu seinem Häufigkeitsrang ist. Das heißt, das zweihäufigste Wort einer
Sprache ist halb so häufig wie das häufigste, das dritthäufigste ein Drittel so häufig, das
vierhäufigste ein Viertel so häufig und so weiter. Dadurch wird der Benutzer ermöglicht zu
sehen wie viele Wörter sehr häufig und wie viele nicht so häufig sind.

2. Vorteil der graphischen Darstellung der „doppellogarithmischen Darstellung“ im


Vergleich zu graphischen Darstellung nach Zipfs Verteilungsgesetz:

Die Verteilungskurven der graphischen Darstellung nach Zipfs Verteilungsgesetz zeigen uns
wie einzige Wortformen in einem Text verteilt sind. Die Y Achse zeigt uns die Häufigkeit der
Wortformen im Text, während die X Achse die einzelnen Rangstellen der Häufigkeitsverteilung
zeigt, wo eine bestimmte Zahl verschiedenen Wortformen aus einem Text abgebildet ist. Dieser
Typ von Darstellung verrät aber nicht sehr viele Details über die Texte. Auf der anderen Seite,
die „doppellogarithmischen Darstellung“ besteht aus zwei Linien die zwei verschiedenen
Aspekte verraten. Die rote Linie stellt die tatsächliche Verteilung der Wörter in einem Text dar,
während die blaue Linie die ideale Zipf-Verteilung zeigt. Dieser Typ der Darstellung
ermöglicht dem Benutzer die tatsächliche Verteilung mit dem erwarteten Ergebnisse der Zipf-
Verteilung zu vergleichen.

3. „Mehr als die Hälfte der Wörter in einem Korpus kommt nur 1 Mal vor“. Wie ist
das Verhältnis in kleinen und größeren Korpora?

Die Anzahl die Wörter die nur einem einzigen Mal vorkommen ist bei kleinen Korpora höher
als bei den großen. Mehr als die Hälfte aller Wörter in deutlich größere Korpora kommt nur 1
Mal vor. Man kann aber nicht genau wissen, wie hoch die Anzahl dieser Wörter bei großen
Korpora ist.

4. Gründe für die Zipfsche Verteilung

Man kann diese Verteilung benutzen um es herauszufinden, welche Arten von Wörter ein Text
enthält. Dieser Typ der Verteilung ermöglicht einem die Spekulationen über die Natur des
Textes zu machen. Herr Engelberg gibt ein paar Anmerkungen dazu. Die Wörter, die sehr
häufig benutzt werden, sind kognitiv sehr einfach und schnell zu verarbeiten, während die
seltenen Wörter kognitiv „schwer“ sind. Man kann auch feststellen, dass die häufigen Wörter
zu den üblichen Redeweisen gehören, während die seltenen Wörter die Kreativität ausdrücken.
Die Wörter, die sehr selten benutzt werden enthalten mehr Information als die Wörter, die
häufig vorkommen.

Die Zipfsche Verteilung hat auch viel zu tun mit der Große des Wortschatzes, den man in
Korpora findet.

5. Wichtige Aspekte bei der Ermittlung der Lexemanzahl in Korpora


1. Bestimmte Abhängigkeiten der Bestimmung der Wortschatzgroße von:
- Dem geeigneten Lexemkonzept (Status attributiven Partizipien, Partikelverben,
Klitisierungen, Eigennamen, Abkürzungen).
- Der Funktionsweise von Tokenisierung und Lemmatisierung (Nichtwörter,
fremdsprachliches Material, Schreibfehler) und
- Der geeignete quantitative Methodik (geeignetes Maß, um das Wachstum des
Wortformenbestands relativ zum Korpuswachstum zu messen).
6. Größe des lexikographisch erfassten Wortschatzes

You might also like