Hoe vaak worden Nederlandse woorden gebruikt ?
Hoe vaak worden Nederlandse woorden gebruikt?
Een nieuwe, gemakkelijk te gebruiken database van woordfrequenties
Marc Brysbaert Emmanuel Keuleers
Vakgroep Experimentele Psychologie, Universiteit Gent
Onderzoek heeft aangetoond dat we het snelst stimuli herkennen die we vroeg geleerd hebben en die we dikwijls gezien hebben. Dit heeft belangrijke gevolgen voor het leren van nieuw materiaal (bijv. bij het leren lezen of het leren van een nieuwe taal). De eerste woorden die we leren en de woorden die we het meest zien en horen, onthouden we het best. Dit is goed nieuws, omdat het leerkrachten en hulpverleners handvaten geeft om het leerproces te optimaliseren. Recent onderzoek in ons centrum laat ons vermoeden dat we een woord al beduidend sneller herkennen als we het 20 keer gelezen hebben dan als we het nog maar 10 keer gelezen hebben. Het zogenaamde woordfrequentie-effect is dus geen effect dat alleen maar van belang is bij woorden die we al honderden keren gezien hebben!
Welke zijn dan de meest frequente woorden in het Nederlands? Om hier een antwoord op te krijgen, hebben onderzoekers teksten ingescand en het aantal woorden geteld. De bekendste woordfrequentielijst is de Celexlijst, samengesteld door het Max Planck Instituut in Nijmegen in de jaren 1980-1990. Jammergenoeg is deze lijst nogal moeilijk te gebruiken (zie op http://celex.mpi.nl/) en bovendien zijn de woordfrequenties niet altijd juist, omdat ze op nogal oude teksen voor volwassenen gebaseerd zijn.
We krijgen betere woordfrequentiematen als we ondertitels van films en televisieprogramma’s gebruiken. Dit is zo in alle talen die we getest hebben: het Frans, het Engels, het Chinees, het Spaans, en ook het Nederlands. Wanneer we kijken welke woorden studenten goed en snel kunnen lezen, dan zijn de woordfrequenties op basis van ondertitels een betere voorspeller dan de Celexfrequenties. Meer hierover kun je lezen in Keuleers, Brysbaert, & New (2010). Een bijkomend voordeel is dat de woordfrequenties op basis van ondertitels vrij beschikbaar zijn en gedownload kunnen worden vanop het internet of zelfs rechtstreeks opgevraagd kunnen worden. De Excelfile ziet er als volgt uit:
De woorden zijn geordend van hoogfrequent naar laagfrequent (in ondertitels komen “ik” en “je” dus het vaakst voor). De betekenis van de kolommen is als volgt:
- FREQcount: het aantal keren dat het woord voorkomt in het corpus (op een totaal van 43.8 miljoen woorden).
- CDcount: het aantal films/programma’s waarin het woord voorkomt (op een totaal van 8070).
- FREQlow en CDlow : zelfde informatie maar wanneer het woord begint met een kleine letter. Dit geeft belangrijke informatie over welke woorden vooral met een hoofdletter beginnen. Dit is bijvoorbeeld zo voor “wat” (begint 220 duidend keren met een kleine letter en 260 duizend keren met een hoofdletter).
- FREQlemma: de som van de verbuigingen (bijv. voor “koord” is dat de som van “koord” en “koorden”).
- SUBTLEXWF: frequentie per 1 miljoen woorden.
- Lg10WF : logaritme van de frequentie.
- SUBTLEXCD : frequentie per 100 documenten.
- Lg10CD : logartime van het aantal documenten.
Gebruikers die graag meer weten over het gebruik van woorden in hun verschillende syntactische rollen (bijv. “spelen” als werkwoord vs. als zelfstandig naamwoord) vinden hun gading in de file met lemmas en woordvormen. Je kunt hier ook rechtstreeks de frequenties vinden van de woorden die je interesseren (zie ook hier voor meer uitleg over de online opzoekingen).
De gegevens van het ondertitelcorpus leveren een paar contra-intuïtieve inzichten op. Zo blijkt dat we met een woordenschat van 61 woorden al de helft van de woorden kunnen verstaan die mensen in conversaties gebruiken! Een op de vijf woorden die we zeggen, zijn “ik”, “je”, “het”, “de”, “dat”, “is”, “niet”, of “een”. Met een woordenschat van 1000 woorden begrijp je al 82% van de woorden die gezegd worden. De percentages voor 2000 en 3000 woorden zijn respectievelijk 87% en 90% (wat wel betekent dat we met een woordenschat van 3000 woorden nog altijd 1 op de 10 woorden niet zullen begrijpen). Inzicht in dergelijke wetmatigheden zorgt ervoor dat we ons onderwijs en onze hulpverlening sterk kunnen optimaliseren. Het is immers veel interessanter om een relatief beperkte groep van vaak gebruikte woorden goed en herhaaldelijk in te oefenen dan om een een lange lijst slechts eenmaal door te nemen.
Zo zijn er in het Engels zo’n 400 onregelmatige werkwoorden (waarvan een aantal samengesteld zijn, zoals “outrun”). Een oninteressante manier om die aan te leren is om ze allemaal te willen geven. Veel van die werkwoorden komen immers zo goed als niet voor in het alledaagse taalgebruik (bijv., abide, alight, backslide, befall, beget, behold, bend, bereave, beseech, …). Een veel interessantere onderwijsmethode is om uit te gaan van de vraag hoe vaak een leerling een woord nodig zal hebben en dan te zien welke werkwoorden de belangrijkste zijn (voor Engelse ondertitelfrequenties, zie http://expsy.ugent.be/subtlexus). Dan blijkt dat een lijst van zo’n 50 werkwoorden het overgrote deel van alle gebruikte werkwoorden bevat. De volgende werkwoorden zouden zeker in de lijst voorkomen: be, have, do, know, get, like, go, come, think, see, let, take, tell, say, make, give, find, put, think, win, keep, feel, make, leave, hear, show, understand, hold, meet, run, bring. Het is veel belangrijker om deze woorden goed in te oefenen dan om de volledige lijst van werkwoorden half te kennen.