De resultaten van de Woordentest 2013

Tussen 16 maart 2013 en 15 december 2013 werd een Groot Nationaal Onderzoek Taal georganiseerd door ons centrum, de Universiteit Gent en de Nederlandse omroepen NTR en VPRO in samenwerking met de NWO. Hier zullen wij in het vervolg naar verwijzen onder de noemer Woordentest 2013.

Aan de deelnemers werd gevraagd om een proefje van zo’n 4 minuten af te werken. Elk proefje bestond uit het aanbieden van 100 letterreeksen (één na één), waarbij de deelnemers telkens moesten beslissen of het om een gekend Nederlands woord ging of niet. Om gisgedrag te ontmoedigen, waren een 30-tal letterreeksen nepwoorden en ging de score omlaag als op deze nepwoorden “ja” gezegd werd.

De resultaten werden kenbaar gemaakt in Labyrint uitzendingen op Nederland2 (zondag 15 december) en CANVAS (maandag 16 december).

Je kunt er ook een boek over kopen.

Rapport met bevindingen

In dit rapport staan de bevindingen beschreven.

Here you find an English summary on the basis of a talk we gave in Leiden for computational linguists (CLIN24)

Samenvatting

Dit waren de belangrijkste resultaten:

  • Dit rapport beschrijft de belangrijkste bevindingen van het Groot Nationaal Onderzoek Taal, georganiseerd tussen 16 maart 2013 en 15 december 2013 door de Universiteit Gent en de Nederlandse omroepen NTR en VPRO in samenwerking met de NWO.

  • Elke test bestond uit het aanbieden van 100 letterreeksen (één na één), waarbij de deelnemer telkens moest beslissen of het om een gekend Nederlands woord ging of niet. Om gisgedrag te ontmoedigen, waren een 30-tal letterreeksen nepwoorden en ging de score omlaag als op deze nepwoorden “ja” gezegd werd.

  • Omdat 735 verschillende lijsten gebruikt werden, kunnen we uitspraken doen over bijna 53.000 Nederlandse woorden.

  • Ruim 600.000 tests werden afgelegd door iets minder dan 400.000 deelnemers (bijna 2% van de Nederlandstalige populatie). Hiervan kwamen 212.000 deelnemers uit Nederland en 180.000 uit België. Vlamingen hebben dus proportioneel gezien meer deelgenomen.

  • Er waren drie types van deelnemers: 76% nam één keer deel, 20% deed de test een paar keer en stopte bij een hogere score. De resterende 4% deed de test minstens 10 keer (met een maximum van 489 keer). Dit waren gewoonlijk mensen die met een hoge score begonnen en dus een grote interesse voor de Nederlandse taal hebben.

  • De meest voorkomende score is 75,5%. Er is echter een duidelijk effect van leeftijd. De woordenschat groeit constant tussen 12 en 80 jaar (de uitersten die we konden testen): 12-jarigen kennen gemiddeld 50% van de woorden, 80-jarigen gemiddeld 80% van de woorden. Dit is een verschil van bijna 16.000 woorden.

  • Er is ook een effect van opleidingsniveau: hoe hoger het behaalde diploma, hoe meer woorden men gemiddeld kent.

  • Er is een verschil van 1,5% tussen Nederland en België in het voordeel van Nederland. Dit verschil komt door de lagere scores in België dan in Nederland bij de deelnemers ouder dan 40 jaar.

  • Deelnemers die naast het Nederlands als moedertaal meerdere talen spreken, kennen een groter aantal Nederlandse woorden. Het effect is cumulatief: wie vier talen spreekt, kent meer Nederlandse woorden dan wie drie talen spreekt, en wie drie talen spreekt, kent meer Nederlandse woorden dan wie twee talen spreekt.

  • Nederlanders en Vlamingen hebben een gedeelde woordenschat van 16.000 woorden (gekend door 97,5% van alle deelnemers). Volgens hetzelfde criterium kennen Vlamingen 2.000 extra woorden en Nederlanders 5.000 extra woorden. Hiervan zijn er 1.250 typisch Zuid-Nederlandse woorden (zoals foor en pagadder) en 1.900 typisch Noord-Nederlandse woorden (kliko, vlaflip en salmiak). Er is dus een grotere gedeelde woordenschat in Nederland dan in België.

  • Sommige woorden worden beter herkend door mannen dan door vrouwen en omgekeerd (bijv. mandekker vs. sleehak).

  • De scheidingslijn qua taal ligt duidelijk op de landsgrens. De Nederlandse en Belgische provincies vormen twee aparte clusters als gekeken wordt naar de overeenkomsten in woordenkennis tussen de provincies.

Lijsten

De lijsten die hieronder staan, zijn voorlopig om drie redenen:

  1. Ze zijn gebaseerd op 370 duizend deelnemers tot eind oktober (terwijl we hopen er 500 duizend te hebben aan het einde van het jaar).

  2. Het gaat om eenvoudige gemiddelden. Die houden geen rekening met individuele verschillen in gisgedrag. Om hiervoor te corrigeren, moeten we een Rasch-analyse doen, maar die zal tijd vergen, gezien de omvang van de database.

  3. Bij de laatste aanpassing begin december 2013 zijn 3000 nieuwe (langere) woorden toegevoegd. Die maken nog geen deel uit van de lijsten hieronder.

Bestanden

  • Woordenkennis Nederland vs. België (Excel, tekst)

  • Woordenkennis mannen-vrouwen in Nederland-België (Excel, tekst)

  • Woordenkennis leeftijd in Nederland-België (Excel, tekst)

  • Woordenkennis opleidingsniveau Nederland-België (Excel, tekst)

  • Woordenkennis provincies waarvan meer dan 7,500 deelnemers (Excel, tekst)

  • Accuraatheid nepwoorden Nederland-België (Excel, tekst)

  • Accuraatheid nepwoorden per provincie waarvan meer dan 7,500 deelnemers (Excel, tekst)

  • Lijst van woorden die in de drie herzieningen uit de lijst weggehaald werden wegens niet meer gebruikt, niet juist gespeld of te verwarrend met de nepwoorden (Excel, tekst)

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Comments are closed.