The Zipf-scale: A better standardized measure of word frequency

A problem with word frequency counts is that they depend on the size of the corpus. As a result, absolute numbers are difficult to interpret. For instance, the frequency count of apple in HAL is 65,844. In SUBTLEX-US it is 1,207.

To make word frequency norms comparable, researchers use a standardized measure, a measure that is independent of the corpus size. The standardized measure used thus far has been frequency per million words (fpmw). So, the standardized SUBTLEX-US frequency of apple is 23.67 pmw (as the corpus includes 51 million words). The fpmw measure of HAL is more difficult to calculate because no-one knows how large the HAL corpus is. It has been claimed to be 130 million words or 160 million words, but in all likelihood it is larger than 400 million words (if you simply add up all the frequencies of the words in the ELP lexicon, you already get this figure).

Increasingly, however, we have felt unease with this standardized measure, because it leads to a wrong intuitive understanding of the word frequency effect. Here are two problems with the fpmw measure:

  • Intuitively, people associate a measure of 1 with the lowest value. However, more than half of the words in a frequency list have frequencies lower than 1 pmw. The reason why 1pmw for a long time seemed like a good start of the scale was that all word frequency research was based on the Kucera & Francis (1967) word frequency list, which used a corpus of 1 million words only. So, a frequency count of 1 indeed was the lowest value. However, now that corpora easily include 100 million or even 100 billion words, we see that very many word types have frequencies below 1 pmw.

  • The frequency effect does not stop below 1 pmw. As a matter of fact, as can be seen below and has been reported by us a few times before, nearly half of the word frequency effect is situated below 1 pmw. In addition, because the word frequency effect is a logarithmic effect, the difference between .1 fpmw and .7 fpmw equals the difference between 5 fpmw and 35 fpmw. Again, this is very difficult to explain to psycholinguistic researchers. It leads to particularly bad results when authors are “matching” conditions on word frequency. So, you’d read that one condition has a mean frequency of .5 pmw and the other has a mean frequency of 3 pmw. This means that the average frequency in the former condition is six times lower than that in the latter (which no one would except if the frequencies were 10 and 60). However, because the raw frequency norms are used for the analysis (instead of the logarithmic values), the difference between the conditions usually is not significant (p > .05!) and, hence, is not noticed by the authors and the readers.

We have been thinking long and hard about how a standardized word frequency scale should look like in order to lead to intuitively correct understanding. These are the elements we saw necessary:

  1. It should be a logarithmic scale (e.g., like the decibel scale of sound loudness).
  2. It should look like a typical Likert rating scale (e.g., from 1 to 7), so that the values are easy to interpret.
  3. The middle of the scale should separate the low-frequency words from the high-frequency words.
  4. The scale should have a straightforward unit.

Once you know what you are looking for, it is not so difficult to come up with a scale that fulfills all requirements. Simply taking log10(frequency per billion words) already solves the first 3 problems. In such a scale, words with a frequency of .1 pmw get a value of 2, words with a frequency of 1 pmw get a value of 3, and words with a frequency of 10 pmw get a value of 4. The word apple gets a SUBTLEX Zipf value of 4.37.

To meet the fourth requirement of our list, we propose to call the new scale the Zipf scale, after the American linguist George Kingsley Zipf (1902–1950) who first thoroughly analyzed the regularities of the word frequency distribution and formulated a law that was named after him (Zipf, 1949). The unit then becomes the Zipf.

We presented the Zipf scale for the first time in a 2014 article on word frequency measures for British English (Van Heuven, Mandera, Keuleers, & Brysbaert, 2014; please, refer to it when you are using the Zipf scale). In that article we also give examples of words with various Zipf values. Here they are (click on the picture to get a larger image):

To see how the word frequency effect translates to the Zipf values, in the figure below we plot the lexical decision RTs to the known words (accuracy > .67) in the British Lexicon Project (N = 19,487). As can be seen, the word frequency effect is now nicely centralized relative to the word frequency scale, with values of 1-3 representing low frequency words, and values of 4-7 representing high frequency words.

A criticism often raised against frequency values lower than 1 pmw is that these words are not known to the participants. Again, we can have a look at the British Lexicon Project. If we only take the words that were answered positively by more than two thirds of the participants, we get the following distribution as a function of Zipf values:

Again, the distribution centers nicely on the scale. Below we give some examples of BLP words in the various bins (all BLP words were monosyllabic or disyllabic words).

In our future publications we will make the Zipf norms available as the primary word frequency variable, because we think this will help researchers and lay people to much better understand what the word frequency effect is and how it should be studied and controlled for. We hope many of you will join us! The Zipf values are easy to calculate from fpmw values. Simply take log10(fpmw)+3 or log10(fpmw*1000).

Here you find a zipped Excel file of the SUBTLEX-US frequencies with the Zipf values added.

Here you can look up the UK Zipf frequencies for thousands of words.


  • Van Heuven, W.J.B., Mandera, P., Keuleers, E., & Brysbaert, M. (2014). Subtlex-UK: A new and improved word frequency database for British English. Quarterly Journal of Experimental Psychology, 67, 1176-1190. pdf

  • Zipf, G. (1949), Human Behaviour and the Principle of Least Effort. Reading MA: Addison-Wesley.

Hoeveel auteurs van boeken ken jij?

In een grote bibliotheek kun je boeken van meer dan 15 duizend fictieauteurs en illustratoren (romans, verhalen, strips, kinderboeken, poëzie) lenen. Hoeveel hiervan ken jij?

In navolging van onze woordentest hebben we een auteurstest ontwikkeld die hierop een antwoord geeft. Zoals bij de woordentest krijg je 100 stimuli, in dit geval persoonsnamen. Twee derden van die namen verwijzen naar personen die aan fictieboeken meegewerkt hebben (schrijver, illustrator); één derde bestaat uit lukraak gekozen namen (komende uit allerhande lijsten, zoals slachtoffers van oorlogen, willekeurige combinaties van populaire namen, deelnemers aan loopwedstrijden, lijsten van studenten en personeel, enz.).

Voor elke naam moet je aangeven of hij volgens jou naar een auteur verwijst of niet.

De test duurt ongeveer 5 minuten en je kunt hem zo vaak doen als je wil. Er bestaan meer dan 200 verschillende versies.

Op basis van de eerste resultaten zien we dat de meeste deelnemers zo’n 3 tot 4 schrijvers en illustratoren herkennen per lijst. Dit betekent dat ze naar schatting zo’n 1000 auteursnamen kennen. Hoe scoor jij?

Update 9 oktober 2013

De resultaten voor Vlaanderen zijn al beschikbaar en vind je hier.

Concreteness ratings for 40 thousand English lemmas

We have collected concreteness ratings for 40 thousand English lemma words with Amazon Mechanical Turk. The ratings come from a larger list of 63 thousand words and represent all English words known to 85% of the raters. As such, the list can be used as a reference list for future word recognition in (American) English.

This is our article about the ratings:

Your find the ratings here (Excel file) and here (txt file).

You find the trial-level data here.

Creative Commons License This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Call for papers: QJEP Special Issue on megastudies, crowdsourcing and big datasets in psycholinguistics

A QJEP Special Issue on megastudies, crowdsourcing and big datasets in psycholinguistics will be edited by Emmanuel Keuleers (Ghent University) and Dave Balota (Washington University, St. Louis)

We invite papers for a special issue of the Quarterly Journal of Experimental Psychology on recent advances in megastudies and crowdsourcing methods and on the use of large non-experimental data sources. The issue will address both the collection of data and the use of these data to answer important theoretical questions.


In recent years, methods of data collection in psycholinguistics have been rapidly evolving along several dimensions.

First, there is a trend towards establishing large laboratory-based experiments without constrained research questions. In these megastudies, behavioral measures are collected for many items using tasks such as lexical decision and naming or sentence reading, with forerunners such as the English Lexicon Project (Balota et al., 2007) or the Dundee Corpus (Kennedy & Pynte, 2005). The number of available datasets produced using the megastudy approach is rapidly increasing for different languages and using different experimental paradigms (Hutchison et al., in press, Cohen-Shikora & Balota, 2013; Keuleers et al., 2010.).

Another recent trend is to gather behavioral data using crowdsourcing rather than laboratory methods (Mason & Suri, 2011). New norms for variables such as Age-of-Acquisition are being successfully collected using Amazon Mechanical Turk (e.g., Kuperman, Stadthagen-Gonzalez & Brysbaert, 2012), and large scale word-association studies are quickly gaining momentum (e.g., De Deyne, Navarro & Storms, 2012). Recent research in Belgium and the Netherlands shows that it is even possible to recruit hundreds of thousands of participants to participate in a lexical decision experiment ( The use of smartphone technology appears also may revolutionize data collection in these large scale studies, as exemplified the Dufau et al. (2011) study of mega lexical decision study of 7 different languages.

In addition to the controlled data collection methods described above, psychologists have been increasingly using freely generated behavioral data, such as text corpora, to extract behaviorally relevant measures. With the increased availability of text sources, particularly subtitles from film and television, high quality word frequency norms are becoming available for various languages.

An exciting trend in this regard is that researchers have been using these text sources to operationalize existing psychological constructs traditionally collected using subjective evaluation (e.g., Bestgen & Vincze, 2012) or to extend learning theory to large-scale learning models (Baayen et al., 2011)

Examples of topics for this special issue:

  1. Papers addressing important theoretical issues using rigorous analyses of megastudy or crowdsourcing data. Preferably, these articles should address the same issue using multiple data sources and use state of the art statistical and computational methods. Articles that use data collection beyond their intended purpose are especially welcomed.

  2. Papers addressing methodological issues with the collection of large datasets, either introducing new methodology or critically evaluating current methods.

  3. Papers presenting new data collected using megastudy or crowdsourcing methods or presenting new measures derived from large corpora.

We aim for a body of high quality articles that introduces and encourages the collection and analysis of large datasets to a large audience and encourages the use of novel data sources and new data collection methods in the research community.

Time Line

September 22, 2013 (or shortly after): Send initial proposals, abstracts of max 400 words to

January 23, 2014: Submission of manuscripts

March 23, 2014: Initial round of reviews

May 23, 2014: Second round of reviews

Fall 2014: Publication

References Baayen, R. H., Milin, P., Djurdjević, D. F., Hendrix, P., & Marelli, M. (2011). An amorphous model for morphological processing in visual comprehension based on naive discriminative learning. Psychological review, 118(3), 438.

Balota, D. A., Yap, M. J., Hutchison, K. A., Cortese, M. J., Kessler, B., Loftis, B., … Treiman, R. (2007). The English lexicon project. Behavior Research Methods, 39(3), 445–459.

Bestgen, Y., & Vincze, N. (2012). Checking and bootstrapping lexical norms by means of word similarity indexes. Behavior Research Methods, 44(4), 998–1006. doi:10.3758/s13428-012-0195-z

De Deyne, S., Navarro, D. J., & Storms, G. (2012). Better explanations of lexical and semantic cognition using networks derived from continued rather than single-word associations. Behavior research methods, 1–19.

Dufau, S., Duñabeitia, J.A., Moret-Tatay, C., McGonigal, A., Peeters, D., Alario, F.-X., Balota, D.A., Brysbaert, M., Carreiras, M., Ferrand, L., Ktori, M., Perea, M., Rastle, K., Sasburg, O., Yap, M.J., Ziegler, J.C., & Grainger, J. (2011). Smart phone, smart science: How the use of smartphones can revolutionize research in cognitive science. PLoS ONE, 6, e24974

Hutchison, K. A., Balota, D. A., Neely, J. H., Cortese, M. J., Cohen-Shikora, E. R., Tse, C.-S., … Buchanan, E. (2013). The semantic priming project. Behavior Research Methods. doi:10.3758/s13428-012-0304-z

Kennedy, A., & Pynte, J. (2005). Parafoveal-on-foveal effects in normal reading. Vision research, 45(2), 153–168.

Keuleers, E., Diependaele, K., & Brysbaert, M. (2010). Practice Effects in Large-Scale Visual Word Recognition Studies: A Lexical Decision Study on 14,000 Dutch Mono- and Disyllabic Words and Nonwords. Frontiers in Psychology, 1. doi:10.3389/fpsyg.2010.00174

Kuperman, V., Stadthagen-Gonzalez, H., & Brysbaert, M. (2012). Age-of-acquisition ratings for 30,000 English words. Behavior Research Methods. doi:10.3758/s13428-012-0210-4

Mason, W., & Suri, S. (2011). Conducting behavioral research on Amazon’s Mechanical Turk. Behavior Research Methods, 44(1), 1–23. doi:10.3758/s13428-011-0124-6

Lextale-Esp: A fast, free vocabulary test for Spanish

Lemhöfer and Broersma (2012) published an English vocabulary test which turned out to be very useful in our research on bilingualism and native language processing. Because we think such a test should be available for all languages, we decided to develop a Spanish one as well.

Here you can find the text describing the test. Please refer to it as:

  • Izura, C., Cuetos, F., & Brysbaert, M. (2014). Lextale-Esp: A test to rapidly and efficiently assess the Spanish vocabulary size. Psicologica, 35, 49-66.

Here you can download the test with instructions in various languages:

Here you find the response key to mark the test.

The test can also be used with Catalan-Spanish bilinguals, as you can read here.

For our Spanish subtitle word frequencies have a look here.

And here you find the French Lextale test.

Lextale-Esp: Un test para la rápida y eficaz evaluación del tamaño del vocabulario en español

Los métodos para medir el tamaño del vocabulario varían según las disciplinas. Esta heterogeneidad dificulta las comparaciones entre estudios y enlentece la comprensión de los hallazgos. Para remediar este problema, recientemente ha sido desarrollado un test de competencia lingüística en inglés que es rápido, eficaz y gratis, el LexTALE. El LexTALE ha sido validado y ha demostrado ser una herramienta eficaz para distinguir entre distintos niveles de competencia lingüística en inglés. El test también se ha realizado en holandés, alemán y francés. El presente estudio presenta la versión española del test; Lextale-Esp. El test mostró una buena discriminación entre los niveles altos y bajos de competencia en español y reveló grandes diferencias entre el tamaño de vocabulario de nativos y no nativos.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

SUBTLEX-CH is the best word frequency measure for Mandarin Chinese

A new megastudy has been published with lexical decision times to 2500 single character Chinese (Mandarin) words (Sze, Liow, & Yap, 2013). When the correlations with the various frequency measures were correlated, SUBTLEX-CH came out as the best. Further noteworthy was that the still frequently used Chinese word frequency measure based on the Dictionary of Modern Chinese frequency (1986) was by far the worst.

You find files with Chinese Mandarin word frequencies here and you can do online searches here.


Wei Ping Sze, Susan J. Rickard Liow, Melvin J. Yap (June 2013). The Chinese Lexicon Project: A repository of lexical decision behavioral responses for 2,500 Chinese characters. Behavior Research Methods.

Test woordenschat kinderen (lagere school, middenschool)

De woordentest die we ontwikkeld hebben voor volwassenen is een onverwacht succes. Na twee maanden zijn al een half miljoen tests afgelegd.

Dit laat ons toe een paar eerste conclusies te trekken. Zo bleken niet alle nepwoorden even nep te zijn. Op basis van de vele reacties die we kregen en de fouten die gemaakt werden op de niet-woorden, hebben we in twee stappen ongeveer 1.500 nepwoorden aangepast, zodat ze minder dubbelzinnig (of soms ronduit fout) zijn.

Ook bij de woorden zaten een duizendtal items die tot discussie leidden. Deze kwamen uit de Officiële Woordenlijst van de Taalunie of uit de lijst aangelegd door Open Taal en goedgekeurd door de Taalunie. Dit waren woorden die ooit gebruikt werden of op een andere manier op de lijst terechtgekomen zijn, maar nu enkel nog een spookbestaan in woordenboeken en scrabble-of wordfeudlijsten lijken te hebben. Ook deze hebben we uit de lijst gehaald en door minder dubieuze alternatieven vervangen (de lijst zullen we aan het einde van het onderzoek, in januari 2014, bekendmaken).

Een laatste iets wat we vastgesteld hebben is dat er een mooie kernwoordenschat bestaat. Zo blijken 14 duizend woorden door zo goed als iedereen gekend te zijn, en 20 duizend woorden door meer dan 97.5% van de deelnemers. Dit bracht ons op het idee om een jeugdversie van de test uit te brengen. Deze test bevat de 20 duizend woorden die door bijna iedereen gekend zijn (en dus voor kinderen interessant zijn om te leren) in plaats van de volledige lijst met 52 duizend woorden. Op die manier kunnen kinderen een hogere score behalen en worden ze niet geconfronteerd met woorden die door bijna niemand gekend zijn.

We denken dat de kindertest moeilijk genoeg is voor de lagere school en de middenschool. Hoe jonger het kind, hoe minder woorden het zal kennen (iets wat we nauwkeuriger in kaart hopen te brengen). Deze test is in de eerste plaats bedoeld als een spel (ouders mogen gerust meedoen en de woorden voorlezen; de test kan ook in groep of met een volledige klas gedaan worden). Verder zal hij wellicht ook interessant zijn voor leerkrachten en logopedisten omdat ze op een paar minuten tijd een mooi beeld krijgen van de woordenschat van een kind.

Er zijn 300 verschillende versies van de test. Hij kan dus meerdere keren afgelegd worden met telkens andere woorden (bijv. bij een onverwacht resultaat of gewoon omdat het leuk is om nieuwe woorden te leren). Reacties kun je kwijt op deze website. Zoals bij de volwassen versie, zal daar rekening mee gehouden worden.

Meer uitleg vind je in dit artikel van de Volkskrant.

Wim Tops (2014) heeft een eerste onderzoek over de bruikbaarheid van de test gepubliceerd. Hieruit blijkt dat de test probleemloos 2x afgenomen kan worden en een goede paralleltestbetrouwbaarheid heeft. De resultaten vind je hier.

Hoe dyslexie diagnosticeren in het hoger onderwijs?

Een deel van ons onderzoek gaat over dyslexie in het hoger onderwijs.

Ondertussen begint deze onderzoekslijn haar vruchten af te werpen. Eén daarvan is dat we nu kunnen aangeven hoe men op een efficiënte en valide manier dyslexie kan testen bij studenten die aan het hoger onderwijs beginnen. Dit is mogelijk met drie tests, eventueel aangevuld door een test voor vloeiende intelligentie (Tops, Callens, Lammertyn, Van Hees, & Brysbaert, 2012).

De drie test zijn:

  1. Woordspelling (Test voor Gevorderd Lezen en Schrijven of GL&SCHR; De Pessemier & Andries, 2009): deze subtest omvat een dictee van 30 woorden waarbij je bij elk woord moeten aanduiden hoe zeker je bent van de correcte spelling (onzeker, een beetje zeker, heel zeker). Deze zekerheid wordt in rekening genomen bij de scoring zodat er een gewogen score ontstaat. Het is belangrijk dat hier de gewogen score ingegeven wordt (minumumscore = 0, maximumscore = 150)

  2. Woorden lezen (Een Minuut Test of EMT; Brus & Voeten, 1991): het betreft een klassieke woordleestest waarbij op één minuut tijd zoveel mogelijk woorden correct moeten worden gelezen. De score die moet worden ingegeven is het aantal correct gelezen woorden in één minuut (minimumscore = 0, maximumscore = 116)

  3. Omkeringen tijd (GL&SCHR; De Pessemier & Andries, 2009): dit is een taak voor fonologische verwerking waarbij je twee woorden aangeboden krijgt (vb. rut – tur) en moet beoordelen of zij elkaars omgekeerde zijn. Hier moet de snelheidsscore (uitgedrukt in seconden) ingegeven worden en niet de accuraatsheidsscore (minimumscore = 0, maximumscore = /).

De scores op deze drie tests kunnen in een wiskundige formule gegoten worden die aangeeft hoe groot de kans op dyslexie is (van 0 tot 1). Om het gemakkelijk te maken hebben we hiervoor een Excel file gemaakt. Die kun je hier downloaden.

Verder bevat deze Excel file de data van onze 100 studenten met dyslexie en 100 controlestudenten op een aantal veel gebruikte tests. Dit geeft een idee van de scores die men op deze tests kan verwachten bij studenten uit het hoger onderwijs.

Which word frequency measure to use in picture naming studies?

Together with Betty Mousikou we examined which word frequency measure is the best to use in picture naming studies.

After a series of analyses it became clear that nothing beats the Noun frequencies of the picture names.

You find our text here.

Mousikiou, P. & Brysbaert, M. (2012). Word frequency effects in picture naming: Which frequency measure to use for homophones? Retrieved Month Day, Year from

As part of our analyses it once again became clear how bad the frequency measures are with which our English-speaking colleagues work!

For instance, the Celex frequencies given for the IPNP pictures (Szekely et al., 2003, 2004) correlate only -.34 with the picture naming times, against a correlation of -.44 for the SUBTLEX-US Noun frequencies (these correlations translate to 11.5% explained variance for Celex vs. 19.4% for SUBTLEX-US).

You find the SUBTLEX-frequencies for the IPNP pictures here.


Székely, A., D’Amico, S., Devescovi, A., Federmeier, K., Herron, D., Iyer, G., … & Bates, E. (2003). Timed picture naming: Extended norms and validation against previous studies. Behavior Research Methods, Instruments, & Computers, 35(4), 621-633.

Szekely, A., Jacobsen, T., D’Amico, S., Devescovi, A., Andonova, E., Herron, D., … & Bates, E. (2004). A new on-line resource for psycholinguistic studies. Journal of memory and language, 51(2), 247-250.

Wuggy geeft een nieuwe dimensie aan een ASMR filmpje

Wuggy, de generator van pseudowoorden die Emmanuel Keuleers ontworpen heeft, werd gebruikt om een nieuwe dimensie te geven aan ASMR films.

Bij ASMR clips wordt een alledaagse actie uitgevoerd terwijl de uitvoerder op fluistertoon uitleg geeft, zoals uitgelegd in dit fragment van De Wereld Draait Door.

Nu is iemand op het idee gekomen om de stem te laten vervormen door Wuggy, zodat hetgeen gezegd wordt nog wel Engels lijkt, maar niet meer te begrijpen valt. Kijk hier om het resultaat ervan te zien. Of hoe algoritmen ontwikkeld voor de wetenschap een eigen leven gaan leiden.

Hoeveel Nederlandse woorden kent u?

In dit onderzoek proberen we een antwoord te formuleren op de vraag welke Nederlandse woorden anno 2013 algemeen gekend zijn en welke niet. Hiervoor werken we samen met de Nederlandse omroepen NTR en VPRO aan een Groot (Inter)Nationaal Onderzoek Taal. De deelnemers krijgen 100 letterreeksen te zien, waarvan ze moeten aangeven of ze de reeks als een bestaand Nederlands woord herkennen of niet. Door niet alleen met woorden te werken maar ook met nepwoorden, kunnen we de echte woordenkennis berekenen door het aantal woord-antwoorden te vergelijken op bestaande en niet-bestaande woorden. Een extra voor de deelnemers is dat ze een schatting krijgen van de grootte van hun woordenschat. Dit onderzoek heeft een vliegende start genomen op 16 maart 2013, met meer dan 100 duizend ingevulde lijsten tijdens de eerste dag alleen al!

De woorden komen uit alle mogelijke bronnen, zoals de woordenlijst van de Nederlandse Taalunie, de SUBTLEX-NL woordenlijst, de woordenlijst van OpenTaal, een Vlaams woordenboek, catalogussen uit allerhande winkels, enz. De niet-woorden werden gemaakt met Wuggy, een programma dat nepwoorden genereert op basis van bestaande woorden. Deze niet-woorden worden vergeleken met alle woordenlijsten om bestaande woorden zoveel mogelijk te weren. Verder werden ze gecheckt met de spell checker van Microsoft Office en ook gedeeltelijk manueel gecontroleerd. Toch is de kans groot dat een aantal problematische nepwoorden aan onze controle ontsnapt zijn, juist doordat de niet-woorden zo sterk op echte woorden gelijken. Meestal zal het hierbij dan gaan om zeer zeldzame vervoegingen of verbuigingen van woorden, of om zeer zeldzame samengestelde woorden (zoals “eretent”).

We zijn er ons van bewust dat dergelijk twijfelgevallen niet leuk zijn voor de deelnemers aan de test, omdat ze hun score enigszins verlagen, waarvoor onze verontschuldigingen. Anderzijds biedt het Groot (Inter)Nationaal Onderzoek ons de gelegenheid om te zien welke nepwoorden door de meerderheid van de taalgebruikers als bestaande woorden ervaren worden. Deze zullen, samen met de andere recente woorden die we in de lijst opgenomen hebben, aan de Nederlandse Taalunie overgemaakt worden voor opname in de spellingslijst. Als zodanig heeft ons onderzoek een bijkomende, praktische toepassing.

Problematische nepwoorden kunnen op de site van het Groot Nationaal Onderzoek gemeld worden.

Kijk hier voor een grappig promotiefilmpje.

Veel succes met je deelname!

Recensie “Dwaalspoor dyslexie”

Boekbespreking “Dwaalspoor dyslexie: Hoe elk kind een vlotte lezer wordt” (Erik Moonen; Standaard Uitgeverij, 2012)

In het boek Dwaalspoort dyslexie van Erik Moonen worden twee stellingen verdedigd: (1) dyslexie bestaat niet, en (2) veel leesproblemen kunnen voorkomen worden door goed onderwijs. De eerste stelling heeft de meeste aandacht gekregen (vanwege de titel van het boek) en werd door de auteur in allerhande interviews met verve verdedigd (al dan niet aangedikt door de journalist en de krant op zoek naar een sensationele titel om te verkopen). Dit is jammer, want deze stelling kan gemakkelijk weerlegd worden en verdringt de meer interessante, tweede boodschap naar de achtergrond.

In een grootschalig onderzoek hebben wij een groep van 100 studenten met dyslexie uit het hogere onderwijs in Vlaanderen vergeleken met een even grote controlegroep, juist omdat we nu wel eens wilden weten wie die studenten met dyslexie in Vlaanderen zijn. Uit de resultaten kwam een ondubbelzinnig beeld naar voren. Studenten met dyslexie zijn wie ze beweren te zijn: even slim als hun studiegenoten, maar met een selectieve uitval op leessnelheid, schrijfaccuraatheid en de mogelijkheid om op een vlotte manier met klanken en woorden om te gaan (Callens et al., 2012). Dit is een vreemde bevinding vanuit het standpunt van Moonen. Hier hebben we een selectieve groep van uiterst gemotiveerde jongeren, die zich twaalf jaar lang ingespannen hebben om hun handicap zoveel mogelijk op te vangen (vaak met doorgedreven hulp van ouders en professionelen) en daar niet in geslaagd zijn. Hoe valt een dergelijke hardnekkigheid te rijmen met de boodschap van Moonen dat een beetje beter onderwijs dat allemaal had kunnen voorkomen? Hoe is het mogelijk dat die jongeren na 12 jaar de fonologische code van het Nederlands nog altijd niet gekraakt hebben?

Moonen is duidelijk: dit komt door het slechte onderwijs in Vlaanderen (en de onkunde van taakleerkrachten en logopedisten, die inspringen voor de opvang).  In dit opzicht verschilt het boek Dwaalspoor dyslexie niet van alle andere populaire, psychologische zelfhulpboeken. “Het probleem bestaat niet echt; u kent alleen de revolutionaire oplossing niet die wij gevonden hebben”.  De revolutionaire oplossing die voorgesteld wordt, is dat de Nederlandse spelling nagenoeg volledig beschreven kan worden vanuit 42 basiskoppelingen tussen klanken en letters en 44 bijkomende afwijkende codeerpatronen (zoals de verdubbeling van de medeklinker in bepaalde woordfamilies). Als deze 86 koppelingen goed aangeleerd worden, dan kan dit voor geen enkel kind een probleem zijn, zelfs niet voor kinderen met een zwak codeervermogen. De huidige problemen komen tot stand omdat de koppelingen in het bestaande onderwijs niet duidelijk onderwezen worden.

De denkfout die Moonen maakt, kan gemakkelijk aangetoond worden met de tafels van vermenigvuldiging. Als je deze analyseert op de manier van Moonen, dan gaat het hier om een nog eenvoudiger systeem. De vermenigvuldigingen met 0 en 1 moet je niet onthouden, want die volgen eenvoudige regels (getal maal 0 is 0, getal maal 1 is getal). Van de andere getallen, moet je maar de helft kennen, want 4 x 5 = 5 x 4. Dus alles samen hoef je slechts 36 oplossingen van buiten te leren om de tafels van 0 tot 9 te kennen, wat volgens Moonen een fluitje van een cent zou moeten zijn, zeker als je die duidelijk uitlegt en goed inoefent. Waarom hebben dan zoveel mensen last met hoofdrekenen? De reden hiervoor is relatief eenvoudig. De oplossingen van de verschillende vermenigvuldigingen hinderen elkaar. Als je bijvoorbeeld de oplossingen van 7 x 8 (= 56) een tijdje inoefent omdat je ondervindt dat je daar dikwijls problemen mee hebt, dan blijkt het opeens moeilijker te gaan om 7 x 7 en 8 x 8 op te lossen. Zo is ook gevonden dat het moeilijker is om 7 x 8 op te lossen als je net voordien 7 + 8 opgelost hebt. Wat we hier vaststellen is dat er heel wat interferentie bestaat tussen gelijkaardige stimuli die geen rijke betekenis hebben. Extra instuderen helpt niet, want wat je wint voor het ene probleem, verlies je weer voor een ander. Een soortgelijk fenomeen doet zich voor bij spellingsvormen die met elkaar concurreren (zie Sandra et al., 2001, voor dt-vormen)  en dan zijn 44 tegenstrijdige koppelingen helemaal niet te onderschatten! Of om het nog anders uit te drukken, iemand die 44 eenvoudige wiskundige formules kent, komt al heel ver in de goniometrie (of de geometrie, de statistiek, zelfs de matrixalgebra).

Als dusdanig is het verleidelijk om het boek Dwaalspoor dyslexie aan de kant te leggen als de zoveelste hypothese die opgeworpen wordt zonder ondersteunend onderzoek. Maar dan blijkt Moonen toch meer in zijn mars te hebben, want hij heeft een gedetailleerd leerplan ontworpen dat op meerdere vlakken interessant is. Dit is de tweede, veel interessantere boodschap van het boek.

Vooreerst wijst Moonen op het feit dat de Nederlandse spelling een onvolmaakte manier is om de gesproken woorden voor te stellen. Het komt er dus op aan leerlingen enthousiast te maken om de code te kraken. Dit kan het best door vanuit de klanken te vertrekken en de kinderen eerst de letters voor de belangrijkste klanken uit het Nederlands te leren (de 42 basiskoppelingen) en die te laten inoefenen. Moonen is hier in goed gezelschap, want het is al lang geweten dat een goed fonologisch bewustzijn (weten dat woorden uit klanken bestaan die je door letters kunt weergeven) niet voldoende is om te leren lezen. Je moet ook de bijbehorende letters kennen en van elkaar kunnen onderscheiden (o.a. Frith, 1986; Morais, 1994). Moonen geeft hier één van de beste overzichten van welke letters geleerd moeten worden voor welke klanken, en welke de meest interessante (frequentie-gebaseerde) volgorde is. Dit is werk van hoog niveau. Hij houdt ook een pleidooi om de letters te schrijven in plaats van ze te typen of te stempelen, omdat aangetoond is dat motorische bewegingspatronen beter onthouden worden.

Vervolgens gaat Moonen over tot de moeilijkere categorie van schrijfvormen die afwijken van de klank-letterkoppelingen: de zogenaamde regelwoorden en weetwoorden. Opnieuw heeft hij hierover zeer zinnige dingen te zeggen. Zo wijst hij er terecht op dat het weinig zin heeft om spellingsregels te leren (zoals open en gesloten lettergrepen), omdat dergelijke regels moeilijk te onthouden zijn, elkaar soms tegenspreken en altijd uitzonderingen hebben. Een beter systeem is om de kinderen patronen te tonen. Zo wordt bij bijna alle éénlettergrepige woorden met korte klinkers (a, e, i, o, u) en één klank erna, de klank met een dubbele letter geschreven als je “–en” erna hoort. Dus “rat” wordt “ratten”, “ster” wordt “sterren”, enz. (één van de weinig uitzonderingen is “lach”). Dergelijke patronen kunnen kinderen gemakkelijk leren, omdat ze aansluiten bij hun manier van informatie verwerven (gelijkaardige fenomenen worden onder eenzelfde categorie geplaatst). Ook hier doet Moonen een interessante ontdekking. Een goede vuistregel om te weten of een medeklinker bij woorden met meerdere lettergrepen verdubbelt, is te kijken of hij volgt op een beklemtoonde klinker of niet (dus appel en apart). Dit is een zeer bruikbare regel voor (jonge) schrijvers en veel gemakkelijker te hanteren dan te weten dat de uitzonderingen bijna allemaal uit het Frans komen (met zijn afwijkend patroon van klemtonen). Ook voor afbrekingsregels heeft Moonen een interessant systeem. Ga eerst na of het een samengesteld woord is. Indien ja, dan valt het streepje tussen de twee woorden (kinder-boek). Indien niet, ga dan na of er één of meer klanken na de klinker zijn. Indien één, dan breek je af na de klinker (ta-ken) tenzij de volgende klank dubbel gespeld wordt. Dan splits je tussen de twee letters (tak-ken). Als er meer dan één klank na de klinker is, breek dan af na de eerste klank (woor-den, ek-ster).

De voorstellen van Moonen om de klank-letterkoppelingen expliciet en op een inductieve manier te leren aan beginnende lezers verdienen zeker aandacht, zowel vanuit de onderwijswereld als vanuit logopedie (daarom is het zo jammer dat dit deel verdrongen dreigt te worden door de klemtoon op de eerste boodschap). Goed onderwijs is inderdaad de efficiëntste manier om leesproblemen te beperken. Torgesen (2009) geeft bijvoorbeeld een overzicht van het effect dat een onderwijshervorming had op leesproblemen in Florida. Terwijl voor de hervorming 27% van de kinderen in het derde leerjaar een percentiel onder 20 hadden voor lezen, was dit twee jaar na de hervorming teruggelopen tot 19%. De kinderen met echte leesproblemen waren teruggelopen van 10% naar 6%.

De ervaringen uit Florida tonen nog iets anders. Verbeteringen in het onderwijs zullen de leesproblemen verminderen, maar niet helemaal wegnemen, wat ons weer bij het begin van deze bespreking brengt. Het dyslexieprobleem kan door goed onderwijs enigszins verholpen worden, maar nooit helemaal. Een groep kinderen wordt met een dergelijk hardnekkig probleem geconfronteerd dat zij gedurende hun hele leven gevolgen ervan zullen ondervinden, hoe hard zij ook hun best doen. Op zich hoeft dit geen onoverkomelijk probleem te zijn (Desoete et al., 2010; zie ook studeren met dyslexie), maar gegeven de extra inspanningen die het probleem met zich meebrengt is het wel goed als het door de maatschappij erkend wordt en niet van tafel geveegd, zoals nu in het boek van Moonen gebeurt.

Tot slot nog dit. Moonen wijst herhaaldelijk op het feit dat zijn methode wetenschappelijk onderbouwd is. Jammer genoeg verwijst hij hiervoor bijna altijd naar onderzoek van de Amerikaanse makers van de methode (McGuinness, 2004; McGuinness et al., 1996). Dit is een gevaarlijke praktijk omdat uit meerdere studies blijkt dat onderzoekers die baat hebben bij hun bevindingen gewoonlijk sterkere effecten rapporteren dan onderzoekers die niet rechtstreeks betrokken zijn. Een speurtocht naar meer resultaten in de Engelse literatuur leverde minder op dan gehoopt, maar toch de volgende interessante studie. Torgesen et al. (2001; zie ook Torgesen, 2006) beschreven het effect van een interventie bij kinderen met ernstige leesproblemen, die sterk aansluit bij de methode van Moonen (auditory discrimination in depth). Gedurende 65 uur kregen de kinderen individuele begeleiding waarin ze 85% van hun tijd besteedden aan het leren discrimineren en schrijven van fonemen, 10% aan het leren herkennen van hoogfrequente woorden (zoals de equivalenten van “een” en “de”), en 5% aan het lezen van verhaaltjes. Na deze interventie ging het leesniveau van de kinderen omhoog van standaardscore 79 naar standaardscore 90 (100 is het gemiddelde van de normale lezers) en dit niveau bleef behouden twee jaar na de interventie. Dit toont tegelijk de zinvolheid van een interventie à la Moonen aan (een duidelijke verbetering) en de beperking  ervan (nog altijd geen prestaties op normaal niveau).

Interessant genoeg bevatte de studie van Torgesen et al. (2001) nog een tweede groep kinderen met even grote leesproblemen. Deze groep kreeg een interventie (embedded phonics) waar Moonen ten zeerste voor waarschuwt. Zij spendeerden 50% van hun tijd aan het gesuperviseerd lezen van teksten, 30% aan het lezen van hoogfrequente “kijkwoorden”, en slechts 20% aan fonologisch bewustzijn en coderen. Wat waren de gevolgen voor deze kinderen? Tegen de voorspellingen van Moonen in, steeg deze groep eveneens van standaardscore 79 naar 90 en behield die twee jaar later. Ook dit is interessant om weten: Moonen heeft interessante dingen te vertellen (als je zijn eerste boodschap even vergeet), maar zijn methode is niet noodzakelijk de enig zaligmakende. Wel is het een verdienste van Moonen om zijn methode in voldoende detail uit te werken, zodat ze praktisch bruikbaar wordt. Dit is iets wat al te vaak ontbreekt in het Nederlands.

Marc Brysbaert

10 maart 2013

Aanvulling april 2016

Wie op zoek is naar een bruikbaar boek over dyslexie, kan dit beter lezen:

De boekbespreking als pdf

Zie ook de bespreking van het boek door Code.


Callens, M., Tops, W., & Brysbaert, M. (2012). Cognitive Profile of Students Who Enter Higher Education with an Indication of Dyslexia. PLoS ONE 7(6): e38081. doi:10.1371/journal.pone.0038081.

Desoete, A., Brysbaert, M., Tops, W., Callens, M., De Lange, C., & Van Hees, V. (2010). Studeren met dyslexie. Gent: BSH & Universiteit Gent.

Frith, U. (1986). A developmental framework for developmental dyslexia. Annals of dyslexia, 36, 69-81.

McGuinness,C., McGuinness, D., & McGuinness, G. (1996). Phono-Graphix: A new method for remediating reading difficulties. Annals of Dyslexia, 46, 73-96.

McGuinness, D. (2004). Early reading instruction: What science really tells us about how to teach reading. Cambridge, MA: MIT Press.

Morais, J. (1994). L’art de lire. Paris: Ed. Odile Jacob.

Sandra, D., Brysbaert, M., Frisson, S., & Daems, F. (2001). Paradoxen van de Nederlandse werkwoordspelling: Een confrontatie tussen taalkundige logica, problemen voor spellers en bruikbaarheid voor lezers. De Psycholoog, 36, 282-287.

Torgesen, J.K. (2006).Recent discoveries from fresearch on remedial interventions for children with dyslexia. In M. Snowling & C. Hulme (Eds), The science of reading: A handbook. Oxford: Blackwell Publishers.

Torgesen, J.K., Alexander, A. W., Wagner, R.K., Rashotte, C.A., Voeller, K., Conway, T. & Rose, E. (2001). Intensive remedial instruction for children with severe reading disabilities: Immediate and long-term outcomes from two instructional approaches. Journal of Learning Disabilities, 34, 33-58.

Affective ratings for nearly 14 thousand English words

gems hack tool clash of clanscoc hack gems how to install clash of clans hack

In collaboration with Amy Warriner and Victor Kuperman we have collected affective norms of valence, arousal, and dominance for 13,915 English words (lemmas). They are a complement of our age-of-acquisition ratings and subtitle word frequencies. They were collected with Amazon Mechanical Turk.

The procedure of collecting the affective norms and the main findings are described in the article:

Warriner, A.B., Kuperman, V., & Brysbaert, M. (2013). Norms of valence, arousal, and dominance for 13,915 English lemmas. Behavior Research Methods, 45, 1191-1207.

You find the affective ratings here.

You find equivalent affective norms for the Dutch language here.


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Third North Sea Meeting on Brain Asymmetries

On October 5-6 2012, we (in particular Lise!) organized the 3rd North Sea Meeting on Brain Asymmetries. This series of workshops is intended to exchange information about ongoing research on laterality and interhemispheric communication. The series started in 2010 when Markus Hausmann convened the first meeting at Durham University. In 2011 it was followed by the second meeting organized by Alan Beaton at Gregynog (Wales). If everything goes according to plan the next meeting will be in Bergen (Norway) in 2014.

Here you find the program of the 3rd meeting

Photo of a session

Lextale-Fr: A fast, free vocabulary test for French

Lemhöfer and Broersma (2012) published an English vocabulary test which turned out to be very useful in our research on bilingualism and native language processing. Because we wanted to have a similar test for French, we decided to develop one.

Here you can find the text describing the test. Please refer to it as:

  • Brysbaert, M. (2013). LEXTALE_FR: A fast, free, and efficient test to measure language proficiency in French. Psychologica Belgica, 53, 23-37.

Here you can download the test with instructions in various languages:

Here you find the response key to mark the test.

Here you find an excel table to convert the raw scores to percentiles for L1 and L2 speakers. For instance, someone with a score of 8/56 has percentile 0 for L1 speakers (nobody had such a low score) and percentile 59 for L2 speakers (more than half of the L2 test takers had this score or lower). L1 norming is based on 550 first-year students from the Universities of Liège and Louvain-la-Neuve (thanks to Steve Majerus and Arnaud Szmalec for their kind cooperation). The L2 data (289 students in total) mostly come from first-year students Educational Science from Ghent University and the non-native French speakers in Liège and Louvain-la-Neuve, although there were also 40 students from Artesis College (thanks to Katrien Lievois) studying to become French translators. So, only to be used for these comparison groups!

Finally, for those who are interested in the details, there is a file with supplementary information about the items and their validation.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

How to deal with zero word frequencies?

While making and comparing word frequency lists, we were often confronted with the question what to do with words that are not present in a corpus. Giving these words a frequency of 0 did not seem correct and also led to mathematical nuisances. Rather than selecting one option, we decided to do a bit of testing to see what worked well. As it happened, the easiest transformation, the Laplace transformation, turned out to be the best choice. You find our conclusions in Brysbaert & Diependaele (Behavior Research Methods, 2013).

As part of our efforts, Kevin Diependaele wrote a Python routine for the Good-Turing algorithm, which you can download in zip format or in tar.gz format. This text explains you how to run the programs.

In the coming months we will update our frequency lists and interactive websites with the corrected frequencies, so that the zero word frequencies should be a pain of the past.

Accounting for individual differences in the word frequency effect

In an upcoming paper Kevin Diependaele (Diependaele et al., in press) shows that individual differences in the word frequency effect can be predicted by the participants’ vocabulary size, as measured with the LexTALE test: People with a small vocabulary size show a larger frequency effect than people with a large vocabulary size. Interestingly, differences in vocabulary size were also able to predict the larger frequency effect in second language (L2) processing than in first language (L1) processing: People on average have a larger frequency effect in L2 than in L1 because they know less L2 words. No further assumption was needed.

Norms of Valence, Arousal, Dominance, and AoA for 4300 Dutch words

Colleagues interested in the emotional value of words have assembled a list of norms for valence, arousal, and dominance. We managed to convince them also to collect data about age-of-acquisition. In total, 4,300 Dutch words were rated by students from different universities in Flanders and the Netherlands.

You find the norms here.

And this is the ms describing them (Moors et al., BRM, in press).

In bovenstaande links vind je normen van valentie, opwinding, dominantie en verwervingsleeftijd voor 4.300 Nederlandse woorden.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Mixed effects modelling and power analysis

If you are looking for my old texts on mixed effects modelling and power analysis, these are now superseded by new and improved texts.

Power analysis

  • Brysbaert, M. and Stevens, M. (2018). Power Analysis and Effect Size in Mixed Effects Models: A Tutorial. Journal of Cognition, 1: 9, 1–20, DOI: pdf
  • Brysbaert, M. (2019). How Many Participants Do We Have to Include in Properly Powered Experiments? A Tutorial of Power Analysis with Reference Tables. Journal of Cognition, 2(1), 16. pdf
  • Brysbaert, M. (2021). Power considerations in bilingualism research: Time to step up our game. Bilingualism: Language and Cognition. pdf

Mixed effects modelling

  • Brysbaert, M. and Stevens, M. (2018). Power Analysis and Effect Size in Mixed Effects Models: A Tutorial. Journal of Cognition, 1: 9, 1–20, DOI: pdf
  • Brysbaert, M. (2020). Basic statistics for psychologists (2nd edition). Macmilan International. Chapter 17.


De eerste bevindingen van onze dyslexiestudie zijn beschikbaar

Eindelijk zijn een aantal papers over ons dyslexieproject voor publicatie aanvaard (dit had wat meer voeten in de aarde dan verwacht, want blijkbaar hebben Engelstalige tijdschriften niet zoveel interesse voor bevindingen in het Nederlands).

In dit project werden de resultaten van 100 eerstejaarsstudenten met dyslexie in het hoger onderwijs vergeleken met die van 100 controles op een batterij van tests, om een volledig profiel te krijgen van de sterktes en zwaktes van studenten met dyslexie. De belangrijkste bevindingen zijn:

  • De studenten met dyslexie vertonen een patroon van resultaten dat volledig overeenstemt met de klassieke definitie van dyslexie: dezelfde vloeiende intelligentie, gecombineerd met ernstige tekorten op woorspelling, woord lezen en fonologische verwerking. In geen enkel opzicht werd de indruk gewekt dat deze studenten probeerden van hun diagnose gebruik te maken om andere zwaktes te compenseren (zoals al eens beweerd wordt).

  • De studenten met dyslexie hebben het ook iets moeilijker om verbale informatie uit hun langetermijngeheugen op te roepen. Hieronder vallen ook de eenvoudige rekenkundige operaties (tafels van optelling en vermenigvuldiging).

  • Omdat de problemen zo specifiek zijn, verkrijgt men geen verdere informatie meer nadat men drie tests afgenomen heeft (woordspelling, woordlezen en fonologisch bewustzijn). De resultaten op deze tests laten ons toe om 91% van de toekomstige studenten met zekerheid te diagnosticeren.

  • Het handschrift van onze studenten met dyslexie werd niet als minder net beoordeeld dan dat van de controlestudenten. Wel waren hun teksten iets minder gestructureerd, waardoor ze minder aangenaam waren om lezen. Wij denken dat dit iets is waar onderwijsondersteuning bij kan helpen.

  • Studenten met dyslexie geven dezelfde antwoorden op persoonlijkheidstests als studenten zonder dyslexie.

  • De resultaten op vijftig en meer tests kunnen samengevat worden door middel van 10 factoren. Studenten met dyslexie hebben lagere scores op 8 van deze factoren.

  • Studenten met dyslexie hebben geen slechtere metacognitie dan andere studenten. Ze weten even goed of ze een woord goed of verkeerd geschreven hebben; ze maken alleen meer schrijffouten.

Op basis van onze resultaten hebben we een praktisch boekje geschreven voor studenten met dyslexie: wat is dyslexie en hoe pak je het probleem aan om te slagen in je studies?

Een volledige beschrijving van onze resultaten kan gevonden worden in (wel in het Engels):

Callens, M., Tops, W., & Brysbaert, M. (2012). Cognitive profile of students who enter higher education with an indication of dyslexia. PLoS ONE 7. pdf

Tops, W., Callens, M., Lammertyn, J., Van Hees, V., & Brysbaert, M. (2012). Identifying students with dyslexia in higher education. Annals of Dyslexia, 62, 186-203. pdf

Tops, W., Callens, M., Bijn, E., & Brysbaert, M. (2013). Spelling in adolescents with dyslexia: Errors and modes of assessment. Journal of Learning Disabilities. pdf

Tops, W., Verguts, E., Callens, M., & Brysbaert, M. (2013). Do students with dyslexia have a different personality profile as measured with the Big Five? PLoS ONE 8(5): e64484. doi:10.1371/journal.pone.0064484. pdf

Callens, M., Tops, W., Stevens, M., & Brysbaert, M. (2014). An exploratory factor analysis of the cognitive functioning of first-year bachelor students with dyslexia. Annals of Dyslexia, 64, 91-119. pdf

Tops, W., Callens, M., Bijn, E., & Brysbaert, M. (2014). Spelling in Adolescents With Dyslexia Errors and Modes of Assessment. Journal of learning disabilities, 47(4), 295-306. pdf

Tops, W., Callens, M., Desoete, A., Stevens, M., & Brysbaert, M. (2014). Metacognition for spelling in higher education students with dyslexia: is there evidence for the dual burden hypothesis?. PloS One, 9(9), e106550. pdf

How to add word frequencies, word norms, and lexical decision times to your Excel files?

You may have noticed that we make much of our information (SUBTLEX word frequencies, AoA norms, RTs from the Lexicon Projects, …) available as Excel files. We do this because we know many people work with such files.

Most of the time we simply open the Excel files and manually look up the information we need. This is nice as long as the number of items is limited. However, it becomes an (error-prone!) chore once the stimulus lists become large and we need information for many variables. In such case it is nice to know that you can do the work automatically by making use of the Excel VLOOKUP function.

To help you, we have included a number of screenshots of how to do this in a pdf file.

After the publication of this post, Ian Simpsom (University of Granada) contacted us with some more interesting examples of Excel functions to be used with text databases. You find them here.

The first papers of our study on dyslexia in higher education are published now

At long last the first papers of our dyslexia project have been accepted for publication. In this project we administered a battery of tests to a sample of 100 first-year higher-education students with dyslexia and 100 controls, in order to have a full profile of their strengths and weaknesses.

The basic findings are:

  • The students with dyslexia show a pattern of results that completely fits the traditional definition of dyslexia: equivalent fluid intelligence combined with severe deficits in word reading, spelling, and phonological processing (there are no indications that they use the assessment to compensate for a lack of other skills).

  • The students with dyslexia are also slightly at a disadvantage to retrieve verbal information from long term memory; this includes simple arithmetical facts (addition, multiplication, division).

  • Because the problems are so specific, assessment only requires three tests (word reading, word spelling, phonological awareness). This allows us to correctly predict the status of 91% of future participants.

  • The handwriting of students with dyslexia is not judged as more sloppy than that of controls. Their texts tend to be slightly less structured, though, and are therefore judged as less agreeable to read. This is something we think remedial teaching can help with.

  • Personality descriptions based on questionnaires do not differ between students with and without dyslexia.

A full description of our findings can be found in:

Callens, M., Tops, W., & Brysbaert, M. (2012). Cognitive profile of students who enter higher education with an indication of dyslexia. PLoS ONE 7(6): e38081. doi:10.1371/journal.pone.0038081.

Tops, W., Callens, M., Lammertyn, J., Van Hees, V., & Brysbaert, M. (2012). Identifying students with dyslexia in higher education. Annals of dyslexia, 62(3), 186-203. pdf

Tops, W., Callens, C., Van Cauwenberghe, E., Adriaens, J., & Brysbaert, M. (2013). Beyond spelling: the writing skills of students with dyslexia in higher education. Reading and Writing, 26, 705-720. pdf

Tops W, Verguts E, Callens M, & Brysbaert M (2013) Do Students with Dyslexia Have a Different Personality Profile as Measured with the Big Five? PLoS ONE 8(5): e64484. doi:10.1371/journal.pone.0064484

Age-of-acquisition (AoA) norms for over 50 thousand English words

Together with Victor Kuperman and Hans Stadthagen-Gonzalez, we collected age-of-acquisition (AoA) ratings for 30,121 English content words (nouns, verbs, and adjectives). The collection of these new AoA norms was possible because we made use of the web-based crowdsourcing technology offered by the Amazon Mechanical Turk. Correlations with existing AoA measures suggest that these estimates are as good as the existing ones.

You find the article on the new AoA norms (Kuperman et al., Behavior Research Methods, 2012) here.

You find the Kuperman et al. (2012) AoA ratings here.

Here you find a comparison with the AoA norms from other large-scale databases (Bird et al., 2001; Stadthagen-Gonzalez & Davis, 2006; Cortese & Khanna, 2008; Schock et al., 2012). In each sheet two or three new columns have been added: the Kuperman et al. AoA ratings for the overlapping words, and the predicted Kuperman et al. AoA norms on the basis of original rating (by means of linear or polynomial regression; the regression weights are shown as well).

Because the Age-of-acquisition norms can also be used for inflected forms and because the other studies contained ratings for words we did not include (pronouns, number words, adverbs, nouns mostly used as names) we can expand the original Kuperman et al. list to a total of 51,715 words, which you find here. In this list, for each word we give the Kuperman et al. AoA rating, and the predicted AoA ratings on the basis of other studies (based on the lemmas of the words).

Here you find a demo on how to easily enter the AoA values into your stimulus Excel file.

Update April 24, 2012: We collected AoA norms of some 1000 more words (in 4 new batches). The new words include interesting words from the previous AoA rating studies that had been overlooked, a few other missing words (like heather), and words of which the plural has a different meaning (e.g., glasses, aliens, …). These new AoA norms have been included in the respective files making that the Kuperman et al. list now includes 31,124 entries .

Update November, 2017: With help from Andrew Biemiller, we have been able to get access to the test-based AoA measures collected by Dale and O’Rourke in the 1970s. Children from various grades were given multiple choice questions about words. On the basis of their responses words got assigned to specific grades. These can be considered as a more objective measure of AoA. It correlates well with other measures we collected, as we report in Brysbaert & Biemiller (2017; see here if you do not have access to the journal). You can directly download the test-based norms here. See Brysbaert (2017) for further validation of the AoA ratings and the test-based AoA norms.

If you spot a calculation error or if you find important words for which we do not have an AoA measure, please contact Marc Brysbaert!

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Comments on ‘Orthographic Processing in Baboons (Papio papio)’

We were recently asked by Nature News to comment on the Science paper by Grainger and colleagues showing that baboons can acquire orthographic processing skills, and to clarify its relation to human orthographic processing skills. I wrote up some comments, of which  Nature published just one in their article “Baboons can learn to recognize words“, but they were kind enough to link to our website, so I’m posting the remainder here.

What Grainger and colleagues have shown, is that baboons can learn the ‘written fingerprint’ of a language without knowing the language.

For English speakers, it may be more intuitive to imagine the task the baboons were given if they consider that they are themselves doing an experiment in a language they don’t know. For instance, imagine that you are seated in front of a computer screen. You are then presented with a letter sequence which either is an existing word in the Basque language, or a distractor letter sequence (a nonword), and you have to decide which is which. Since Basque is different from all other languages you know, you have to guess, and you are told whether your guess is correct or not. However, after some trials you start seeing that there are similarities between the letter sequences you are presented with and letter sequences you have previously seen. Based on the feedback you get, you start making informed guesses about which stimuli are Basque words and which are nonword distractors.

The difficulty of this task depends on the kind of distractor stimuli. Below you’ll see a sequence of Basque five-letter words, mixed with five-letter distractors which are just random sequences of alphabetic letters. It’s easy to find out which words are Basque, because the distractors have no relation to the Basque orthographic patterns.

ezfec erosi tafqp ontsa wlftk
eurak edkzt tjtsj pjfwl puska
pscwf cobbf busti gosez medio

(bold: words, regular: nonwords)

Now imagine that you have to do the same, but with the following sequence. This is much harder, because the nonwords are derived from the same orthographic patterns as the words.

ordez oinez salmo koroa oirat
gorga adere eupez surda halbo
zerga berme agiri gekal edeti

(bold: words, regular: nonwords)

What the baboons did, had a degree of difficulty in between the first task and the second task. The nonwords were composed primarily of bigrams (letter pairs) which occur very rarely in English words, while the words were composed primarily of bigrams which occur very often in English words. So, the baboons learned to discriminate between orthographically very typical English letter strings and  orthographically very atypical English letter strings. What’s more, Grainger and colleagues also showed that the less similar nonwords were to previously presented words, the higher the probability was that the baboons would make a nonword response.

Grainger and colleagues also analyzed data from the British Lexicon project, a very large experiment that we published recently (Keuleers, Lacey, Rastle & Brysbaert, 2012, [open access]) and found traces of the same behavior for humans. In our experiment, each of 78 participants responded to nearly 30.000 trials, deciding whether a presented sequence was an English word or not. Of course, the main difference was that our participants knew most of the English words. Therefore, they didn’t have to rely on the statistical regularities in orthographic patterns to make a decision. In contrast to Grainger and colleagues, we also made it exceptionally difficult for our participants to distinguish between the words and the nonwords based on these orthographic patterns. Still, as we  also reported earlier (Keuleers & Brysbaert, 2011 [preprint]), Grainger and colleagues found that, in addition to their knowledge of English, and despite extreme efforts, our participants partly relied on the orthographic similarities between the current stimulus and the previously presented stimuli to decide whether a stimulus was a word or not.

The new study adds to the evidence that orthographic processing can occur without linguistic processing. More importantly, showing this in baboons demonstrates that orthographic processing can be independent of the capacity to acquire high-level linguistics skills.

The new findings don’t have immediate practical use. However, they do have implications for research in language acquisition, bilingualism, visual word recognition, emotional processing, executive control, and many other fields, where word/nonword decision experiments are used very often with human participants . Usually, the reaction time to words is the variable of interest. The basic assumption in all of these experiments is that the meaning of the presented words is activated when making a decision. Now, if such an experiment can accurately be performed by baboons, it is clear that that experiment does not require accessing the meaning of those words, and results are tainted. Therefore, in ordinary experiments, the nonwords must be meticulously chosen so that the differences between words and nonwords is minimized. We have written a free application called Wuggy to do that ( It is used by researchers to generate nonwords that match the orthographic patterns in words as closely as possible, for languages from English to Vietnamese (Keuleers & Brysbaert, 2010 [preprint]).

Since not everyone has access to baboons to check whether their experiment is valid,  we have also written an algorithm (Keuleers & Brysbaert, 2011 [preprint][code]) that tries to perform this type of experiment as accurately as possible without knowing the language. The mechanism used by the algorithm (exemplar-based learning) is very similar to the one that I hypothesize is used by the baboons. We intend to look at Grainger and colleagues’ data to see how similar they are .


Keuleers, E., & Brysbaert, M. (2010). Wuggy: A multilingual pseudoword generator. Behavior Research Methods, 42(3), 627-633. [preprint]

Keuleers, E., & Brysbaert, M. (2011). Detecting inherent bias in lexical decision experiments with the LD1NN algorithm. The Mental Lexicon, 6 (1). [preprint]

Keuleers, E., Lacey, P., Rastle, K., & Brysbaert, M. (2012). The British Lexicon Project: Lexical decision data for 28,730 monosyllabic and disyllabic English words. Behavior Research Methods, 44, 287-304, doi: 10.3758/s13428-011-0118-4 [open access]

Part-of-Speech information added to the SUBTLEX-US word frequencies

We have now tagged the SUBTLEX-US corpus with the CLAWS tagger, so that we can add Part-of-Speech (PoS) information to the SUBTLEX-US word frequencies. Five new columns have been added to the file:

  1. The dominant (most frequent) PoS of each entry
  2. The frequency of the dominant PoS
  3. The relative frequency of the dominant PoS
  4. All PoS observed for the entry
  5. The frequency of each PoS

You find more information about the tagging in Brysbaert, New, & Keuleers (Behavior Research Methods, in press).

You find a zipped Excel version of the SUBTLEX-US word frequency file with PoS information here.

You find a zipped text version of the file here.

You find more information about the SUBTLEX-US word frequencies here.

Here you find a demo on how to easily enter SUBTLEX information into your stimulus Excel file.

After publication of the files Kati Renvall alerted us to the fact that verb abbreviations (like ll, couldn, and doesn) are classified as predominantly Nouns. A look at the columns B (FREQcount) and N (All_freqs_SUBTLEX) shows why this is the case. Of the 224,097 times ll was observed in the corpus, only 1,312 remained after parsing (because the other were translated to will and shall). Of the 1,312 remaining 1,290 were classified as noun and 22 as name. Hence, why in the processed file the dominant PoS of ll is listed as Noun. Thanks for this feedback! It shows how careful one must be with the outcome of algorithms. We intend to correct these entries manually in future versions. In the meantime, always compare the frequencies of the parsed entries (column N) with those of the initial count (column B), to make sure the dominant PoS indees applies to the majority of cases!

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.