Bei den Zahlen, die sich im Folgenden auf das Dudenkorpus beziehen, unterscheiden wir zwischen den Wortformen, wie sie in einem Fließtext vorkommen, und den mittels einer (maschinellen) Analyse auf ihre Grundform zurückgeführten Wortformen.
Unter einer Wortform verstehen wir jedes einzelne Wort eines Fließtextes. Dieses kann, je nach Wortart, entweder gebeugt oder ungebeugt vorkommen. Der Satz Sie versprach, den Betrag gutzuschreiben beispielsweise besteht aus den Wortformen »Sie«, »versprach«, »den«, »Betrag« und »gutzuschreiben«.
Die Grundform eines Wortes ist zum Beispiel bei Verben der Infinitiv, bei Substantiven normalerweise der Nominativ Singular oder bei Artikeln der Nominativ Singular. Die Grundformen zu dem oben angeführten Beispiel lauten «sie«, »versprechen«, »der«,
Wortform im Korpus | Grundform im Korpus/Stichwort im Duden |
Sie | sie |
versprach | versprechen |
den | der |
Betrag | Betrag |
gutzuschreiben | gutschreiben |
In einem Wörterbuch kommt jedes Stichwort normalerweise nur einmal vor. In einem Text hingegen können Wortformen mehrmals vorkommen, so zum Beispiel in dem Satz:
»Wer täglich das tut, was täglich getan werden muss, hat viel zu tun.«
Aus wie vielen Wörtern besteht dieser Satz? Beim einfachen Zählen kommt man auf 13; zählt man aber nur die verschiedenen Wörter, sind es nur 12, denn »täglich« kommt zweimal vor. Reduziert man alle Wörter auf ihre Grundform und zählt nur, wie viele verschiedene Grundformen es gibt, dann heißt das Ergebnis 10, denn »tun« kommt dreimal (in den Formen tut, getan, tun) vor.
Wenn in diesem Kapitel die Rede von Wortformen und Grundformen ist, ist mit Wortformen immer die erste Zählweise (13), mit Grundformen immer die letzte Zählweise (10) gemeint.
Zum Umfang des deutschen Wortschatzes
Exakte Angaben über den Umfang des deutschen Wortschatzes sind nicht nur deshalb unmöglich, weil ständig Wörter neu gebildet und aus anderen Sprachen entlehnt werden. Eine genaue Feststellung wird auch dadurch erschwert, dass die Abgrenzung der festen Bestandteile unseres (Allgemein)wortschatzes von den Situations- oder Gelegenheitsbildungen (etwa »Autohimmel« in dem Satz »Der neue Sportwagen ist ein Stern am Autohimmel «) und den fach- und sondersprachlichen Wörtern nicht möglich ist. Im Allgemeinen setzt man den Wortschatz der deutschen Gegenwartssprache auf zwischen 300 000 und 500 000 Wörter (Grundformen) an. Der aktive Wortschatz eines deutschen Durchschnittssprechers wird heute auf 12 000 bis 16 000 Wörter (davon etwa 3 500 Fremdwörter) geschätzt. Ohne Schwierigkeiten verstanden werden mindestens 50 000 Wörter.
Der Rechtschreibduden enthält rund 140 000 Stichwörter, das »Deutsche Wörterbuch«
47