Archive by Author

Wuggy geeft een nieuwe dimensie aan een ASMR filmpje

Wuggy, de generator van pseudowoorden die Emmanuel Keuleers ontworpen heeft, werd gebruikt om een nieuwe dimensie te geven aan ASMR films.

Bij ASMR clips wordt een alledaagse actie uitgevoerd terwijl de uitvoerder op fluistertoon uitleg geeft, zoals uitgelegd in dit fragment van De Wereld Draait Door.

Nu is iemand op het idee gekomen om de stem te laten vervormen door Wuggy, zodat hetgeen gezegd wordt nog wel Engels lijkt, maar niet meer te begrijpen valt. Kijk hier om het resultaat ervan te zien. Of hoe algoritmen ontwikkeld voor de wetenschap een eigen leven gaan leiden.

Hoeveel Nederlandse woorden kent u?

In dit onderzoek proberen we een antwoord te formuleren op de vraag welke Nederlandse woorden anno 2013 algemeen gekend zijn en welke niet. Hiervoor werken we samen met de Nederlandse omroepen NTR en VPRO aan een Groot (Inter)Nationaal Onderzoek Taal. De deelnemers krijgen 100 letterreeksen te zien, waarvan ze moeten aangeven of ze de reeks als een bestaand Nederlands woord herkennen of niet. Door niet alleen met woorden te werken maar ook met nepwoorden, kunnen we de echte woordenkennis berekenen door het aantal woord-antwoorden te vergelijken op bestaande en niet-bestaande woorden. Een extra voor de deelnemers is dat ze een schatting krijgen van de grootte van hun woordenschat. Dit onderzoek heeft een vliegende start genomen op 16 maart 2013, met meer dan 100 duizend ingevulde lijsten tijdens de eerste dag alleen al!

De woorden komen uit alle mogelijke bronnen, zoals de woordenlijst van de Nederlandse Taalunie, de SUBTLEX-NL woordenlijst, de woordenlijst van OpenTaal, een Vlaams woordenboek, catalogussen uit allerhande winkels, enz. De niet-woorden werden gemaakt met Wuggy, een programma dat nepwoorden genereert op basis van bestaande woorden. Deze niet-woorden worden vergeleken met alle woordenlijsten om bestaande woorden zoveel mogelijk te weren. Verder werden ze gecheckt met de spell checker van Microsoft Office en ook gedeeltelijk manueel gecontroleerd. Toch is de kans groot dat een aantal problematische nepwoorden aan onze controle ontsnapt zijn, juist doordat de niet-woorden zo sterk op echte woorden gelijken. Meestal zal het hierbij dan gaan om zeer zeldzame vervoegingen of verbuigingen van woorden, of om zeer zeldzame samengestelde woorden (zoals “eretent”).

We zijn er ons van bewust dat dergelijk twijfelgevallen niet leuk zijn voor de deelnemers aan de test, omdat ze hun score enigszins verlagen, waarvoor onze verontschuldigingen. Anderzijds biedt het Groot (Inter)Nationaal Onderzoek ons de gelegenheid om te zien welke nepwoorden door de meerderheid van de taalgebruikers als bestaande woorden ervaren worden. Deze zullen, samen met de andere recente woorden die we in de lijst opgenomen hebben, aan de Nederlandse Taalunie overgemaakt worden voor opname in de spellingslijst. Als zodanig heeft ons onderzoek een bijkomende, praktische toepassing.

Problematische nepwoorden kunnen op de site van het Groot Nationaal Onderzoek gemeld worden.

Kijk hier voor een grappig promotiefilmpje.

Veel succes met je deelname!

Recensie “Dwaalspoor dyslexie”

Boekbespreking “Dwaalspoor dyslexie: Hoe elk kind een vlotte lezer wordt” (Erik Moonen; Standaard Uitgeverij, 2012)

In het boek Dwaalspoort dyslexie van Erik Moonen worden twee stellingen verdedigd: (1) dyslexie bestaat niet, en (2) veel leesproblemen kunnen voorkomen worden door goed onderwijs. De eerste stelling heeft de meeste aandacht gekregen (vanwege de titel van het boek) en werd door de auteur in allerhande interviews met verve verdedigd (al dan niet aangedikt door de journalist en de krant op zoek naar een sensationele titel om te verkopen). Dit is jammer, want deze stelling kan gemakkelijk weerlegd worden en verdringt de meer interessante, tweede boodschap naar de achtergrond.

In een grootschalig onderzoek hebben wij een groep van 100 studenten met dyslexie uit het hogere onderwijs in Vlaanderen vergeleken met een even grote controlegroep, juist omdat we nu wel eens wilden weten wie die studenten met dyslexie in Vlaanderen zijn. Uit de resultaten kwam een ondubbelzinnig beeld naar voren. Studenten met dyslexie zijn wie ze beweren te zijn: even slim als hun studiegenoten, maar met een selectieve uitval op leessnelheid, schrijfaccuraatheid en de mogelijkheid om op een vlotte manier met klanken en woorden om te gaan (Callens et al., 2012). Dit is een vreemde bevinding vanuit het standpunt van Moonen. Hier hebben we een selectieve groep van uiterst gemotiveerde jongeren, die zich twaalf jaar lang ingespannen hebben om hun handicap zoveel mogelijk op te vangen (vaak met doorgedreven hulp van ouders en professionelen) en daar niet in geslaagd zijn. Hoe valt een dergelijke hardnekkigheid te rijmen met de boodschap van Moonen dat een beetje beter onderwijs dat allemaal had kunnen voorkomen? Hoe is het mogelijk dat die jongeren na 12 jaar de fonologische code van het Nederlands nog altijd niet gekraakt hebben?

Moonen is duidelijk: dit komt door het slechte onderwijs in Vlaanderen (en de onkunde van taakleerkrachten en logopedisten, die inspringen voor de opvang).  In dit opzicht verschilt het boek Dwaalspoor dyslexie niet van alle andere populaire, psychologische zelfhulpboeken. “Het probleem bestaat niet echt; u kent alleen de revolutionaire oplossing niet die wij gevonden hebben”.  De revolutionaire oplossing die voorgesteld wordt, is dat de Nederlandse spelling nagenoeg volledig beschreven kan worden vanuit 42 basiskoppelingen tussen klanken en letters en 44 bijkomende afwijkende codeerpatronen (zoals de verdubbeling van de medeklinker in bepaalde woordfamilies). Als deze 86 koppelingen goed aangeleerd worden, dan kan dit voor geen enkel kind een probleem zijn, zelfs niet voor kinderen met een zwak codeervermogen. De huidige problemen komen tot stand omdat de koppelingen in het bestaande onderwijs niet duidelijk onderwezen worden.

De denkfout die Moonen maakt, kan gemakkelijk aangetoond worden met de tafels van vermenigvuldiging. Als je deze analyseert op de manier van Moonen, dan gaat het hier om een nog eenvoudiger systeem. De vermenigvuldigingen met 0 en 1 moet je niet onthouden, want die volgen eenvoudige regels (getal maal 0 is 0, getal maal 1 is getal). Van de andere getallen, moet je maar de helft kennen, want 4 x 5 = 5 x 4. Dus alles samen hoef je slechts 36 oplossingen van buiten te leren om de tafels van 0 tot 9 te kennen, wat volgens Moonen een fluitje van een cent zou moeten zijn, zeker als je die duidelijk uitlegt en goed inoefent. Waarom hebben dan zoveel mensen last met hoofdrekenen? De reden hiervoor is relatief eenvoudig. De oplossingen van de verschillende vermenigvuldigingen hinderen elkaar. Als je bijvoorbeeld de oplossingen van 7 x 8 (= 56) een tijdje inoefent omdat je ondervindt dat je daar dikwijls problemen mee hebt, dan blijkt het opeens moeilijker te gaan om 7 x 7 en 8 x 8 op te lossen. Zo is ook gevonden dat het moeilijker is om 7 x 8 op te lossen als je net voordien 7 + 8 opgelost hebt. Wat we hier vaststellen is dat er heel wat interferentie bestaat tussen gelijkaardige stimuli die geen rijke betekenis hebben. Extra instuderen helpt niet, want wat je wint voor het ene probleem, verlies je weer voor een ander. Een soortgelijk fenomeen doet zich voor bij spellingsvormen die met elkaar concurreren (zie Sandra et al., 2001, voor dt-vormen)  en dan zijn 44 tegenstrijdige koppelingen helemaal niet te onderschatten! Of om het nog anders uit te drukken, iemand die 44 eenvoudige wiskundige formules kent, komt al heel ver in de goniometrie (of de geometrie, de statistiek, zelfs de matrixalgebra).

Als dusdanig is het verleidelijk om het boek Dwaalspoor dyslexie aan de kant te leggen als de zoveelste hypothese die opgeworpen wordt zonder ondersteunend onderzoek. Maar dan blijkt Moonen toch meer in zijn mars te hebben, want hij heeft een gedetailleerd leerplan ontworpen dat op meerdere vlakken interessant is. Dit is de tweede, veel interessantere boodschap van het boek.

Vooreerst wijst Moonen op het feit dat de Nederlandse spelling een onvolmaakte manier is om de gesproken woorden voor te stellen. Het komt er dus op aan leerlingen enthousiast te maken om de code te kraken. Dit kan het best door vanuit de klanken te vertrekken en de kinderen eerst de letters voor de belangrijkste klanken uit het Nederlands te leren (de 42 basiskoppelingen) en die te laten inoefenen. Moonen is hier in goed gezelschap, want het is al lang geweten dat een goed fonologisch bewustzijn (weten dat woorden uit klanken bestaan die je door letters kunt weergeven) niet voldoende is om te leren lezen. Je moet ook de bijbehorende letters kennen en van elkaar kunnen onderscheiden (o.a. Frith, 1986; Morais, 1994). Moonen geeft hier één van de beste overzichten van welke letters geleerd moeten worden voor welke klanken, en welke de meest interessante (frequentie-gebaseerde) volgorde is. Dit is werk van hoog niveau. Hij houdt ook een pleidooi om de letters te schrijven in plaats van ze te typen of te stempelen, omdat aangetoond is dat motorische bewegingspatronen beter onthouden worden.

Vervolgens gaat Moonen over tot de moeilijkere categorie van schrijfvormen die afwijken van de klank-letterkoppelingen: de zogenaamde regelwoorden en weetwoorden. Opnieuw heeft hij hierover zeer zinnige dingen te zeggen. Zo wijst hij er terecht op dat het weinig zin heeft om spellingsregels te leren (zoals open en gesloten lettergrepen), omdat dergelijke regels moeilijk te onthouden zijn, elkaar soms tegenspreken en altijd uitzonderingen hebben. Een beter systeem is om de kinderen patronen te tonen. Zo wordt bij bijna alle éénlettergrepige woorden met korte klinkers (a, e, i, o, u) en één klank erna, de klank met een dubbele letter geschreven als je “–en” erna hoort. Dus “rat” wordt “ratten”, “ster” wordt “sterren”, enz. (één van de weinig uitzonderingen is “lach”). Dergelijke patronen kunnen kinderen gemakkelijk leren, omdat ze aansluiten bij hun manier van informatie verwerven (gelijkaardige fenomenen worden onder eenzelfde categorie geplaatst). Ook hier doet Moonen een interessante ontdekking. Een goede vuistregel om te weten of een medeklinker bij woorden met meerdere lettergrepen verdubbelt, is te kijken of hij volgt op een beklemtoonde klinker of niet (dus appel en apart). Dit is een zeer bruikbare regel voor (jonge) schrijvers en veel gemakkelijker te hanteren dan te weten dat de uitzonderingen bijna allemaal uit het Frans komen (met zijn afwijkend patroon van klemtonen). Ook voor afbrekingsregels heeft Moonen een interessant systeem. Ga eerst na of het een samengesteld woord is. Indien ja, dan valt het streepje tussen de twee woorden (kinder-boek). Indien niet, ga dan na of er één of meer klanken na de klinker zijn. Indien één, dan breek je af na de klinker (ta-ken) tenzij de volgende klank dubbel gespeld wordt. Dan splits je tussen de twee letters (tak-ken). Als er meer dan één klank na de klinker is, breek dan af na de eerste klank (woor-den, ek-ster).

De voorstellen van Moonen om de klank-letterkoppelingen expliciet en op een inductieve manier te leren aan beginnende lezers verdienen zeker aandacht, zowel vanuit de onderwijswereld als vanuit logopedie (daarom is het zo jammer dat dit deel verdrongen dreigt te worden door de klemtoon op de eerste boodschap). Goed onderwijs is inderdaad de efficiëntste manier om leesproblemen te beperken. Torgesen (2009) geeft bijvoorbeeld een overzicht van het effect dat een onderwijshervorming had op leesproblemen in Florida. Terwijl voor de hervorming 27% van de kinderen in het derde leerjaar een percentiel onder 20 hadden voor lezen, was dit twee jaar na de hervorming teruggelopen tot 19%. De kinderen met echte leesproblemen waren teruggelopen van 10% naar 6%.

De ervaringen uit Florida tonen nog iets anders. Verbeteringen in het onderwijs zullen de leesproblemen verminderen, maar niet helemaal wegnemen, wat ons weer bij het begin van deze bespreking brengt. Het dyslexieprobleem kan door goed onderwijs enigszins verholpen worden, maar nooit helemaal. Een groep kinderen wordt met een dergelijk hardnekkig probleem geconfronteerd dat zij gedurende hun hele leven gevolgen ervan zullen ondervinden, hoe hard zij ook hun best doen. Op zich hoeft dit geen onoverkomelijk probleem te zijn (Desoete et al., 2010; zie ook studeren met dyslexie), maar gegeven de extra inspanningen die het probleem met zich meebrengt is het wel goed als het door de maatschappij erkend wordt en niet van tafel geveegd, zoals nu in het boek van Moonen gebeurt.

Tot slot nog dit. Moonen wijst herhaaldelijk op het feit dat zijn methode wetenschappelijk onderbouwd is. Jammer genoeg verwijst hij hiervoor bijna altijd naar onderzoek van de Amerikaanse makers van de methode (McGuinness, 2004; McGuinness et al., 1996). Dit is een gevaarlijke praktijk omdat uit meerdere studies blijkt dat onderzoekers die baat hebben bij hun bevindingen gewoonlijk sterkere effecten rapporteren dan onderzoekers die niet rechtstreeks betrokken zijn. Een speurtocht naar meer resultaten in de Engelse literatuur leverde minder op dan gehoopt, maar toch de volgende interessante studie. Torgesen et al. (2001; zie ook Torgesen, 2006) beschreven het effect van een interventie bij kinderen met ernstige leesproblemen, die sterk aansluit bij de methode van Moonen (auditory discrimination in depth). Gedurende 65 uur kregen de kinderen individuele begeleiding waarin ze 85% van hun tijd besteedden aan het leren discrimineren en schrijven van fonemen, 10% aan het leren herkennen van hoogfrequente woorden (zoals de equivalenten van “een” en “de”), en 5% aan het lezen van verhaaltjes. Na deze interventie ging het leesniveau van de kinderen omhoog van standaardscore 79 naar standaardscore 90 (100 is het gemiddelde van de normale lezers) en dit niveau bleef behouden twee jaar na de interventie. Dit toont tegelijk de zinvolheid van een interventie à la Moonen aan (een duidelijke verbetering) en de beperking  ervan (nog altijd geen prestaties op normaal niveau).

Interessant genoeg bevatte de studie van Torgesen et al. (2001) nog een tweede groep kinderen met even grote leesproblemen. Deze groep kreeg een interventie (embedded phonics) waar Moonen ten zeerste voor waarschuwt. Zij spendeerden 50% van hun tijd aan het gesuperviseerd lezen van teksten, 30% aan het lezen van hoogfrequente “kijkwoorden”, en slechts 20% aan fonologisch bewustzijn en coderen. Wat waren de gevolgen voor deze kinderen? Tegen de voorspellingen van Moonen in, steeg deze groep eveneens van standaardscore 79 naar 90 en behield die twee jaar later. Ook dit is interessant om weten: Moonen heeft interessante dingen te vertellen (als je zijn eerste boodschap even vergeet), maar zijn methode is niet noodzakelijk de enig zaligmakende. Wel is het een verdienste van Moonen om zijn methode in voldoende detail uit te werken, zodat ze praktisch bruikbaar wordt. Dit is iets wat al te vaak ontbreekt in het Nederlands.

Marc Brysbaert

10 maart 2013

Aanvulling april 2016

Wie op zoek is naar een bruikbaar boek over dyslexie, kan dit beter lezen:

De boekbespreking als pdf

Zie ook de bespreking van het boek door Code.

Referenties

Callens, M., Tops, W., & Brysbaert, M. (2012). Cognitive Profile of Students Who Enter Higher Education with an Indication of Dyslexia. PLoS ONE 7(6): e38081. doi:10.1371/journal.pone.0038081.

Desoete, A., Brysbaert, M., Tops, W., Callens, M., De Lange, C., & Van Hees, V. (2010). Studeren met dyslexie. Gent: BSH & Universiteit Gent.

Frith, U. (1986). A developmental framework for developmental dyslexia. Annals of dyslexia, 36, 69-81.

McGuinness,C., McGuinness, D., & McGuinness, G. (1996). Phono-Graphix: A new method for remediating reading difficulties. Annals of Dyslexia, 46, 73-96.

McGuinness, D. (2004). Early reading instruction: What science really tells us about how to teach reading. Cambridge, MA: MIT Press.

Morais, J. (1994). L’art de lire. Paris: Ed. Odile Jacob.

Sandra, D., Brysbaert, M., Frisson, S., & Daems, F. (2001). Paradoxen van de Nederlandse werkwoordspelling: Een confrontatie tussen taalkundige logica, problemen voor spellers en bruikbaarheid voor lezers. De Psycholoog, 36, 282-287.

Torgesen, J.K. (2006).Recent discoveries from fresearch on remedial interventions for children with dyslexia. In M. Snowling & C. Hulme (Eds), The science of reading: A handbook. Oxford: Blackwell Publishers.

Torgesen, J.K., Alexander, A. W., Wagner, R.K., Rashotte, C.A., Voeller, K., Conway, T. & Rose, E. (2001). Intensive remedial instruction for children with severe reading disabilities: Immediate and long-term outcomes from two instructional approaches. Journal of Learning Disabilities, 34, 33-58.

Affective ratings for nearly 14 thousand English words

gems hack tool clash of clanscoc hack gems how to install clash of clans hack

In collaboration with Amy Warriner and Victor Kuperman we have collected affective norms of valence, arousal, and dominance for 13,915 English words (lemmas). They are a complement of our age-of-acquisition ratings and subtitle word frequencies. They were collected with Amazon Mechanical Turk.

The procedure of collecting the affective norms and the main findings are described in the article:

Warriner, A.B., Kuperman, V., & Brysbaert, M. (2013). Norms of valence, arousal, and dominance for 13,915 English lemmas. Behavior Research Methods, 45, 1191-1207.

You find the affective ratings here.

You find equivalent affective norms for the Dutch language here.

Enjoy!

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Third North Sea Meeting on Brain Asymmetries

On October 5-6 2012, we (in particular Lise!) organized the 3rd North Sea Meeting on Brain Asymmetries. This series of workshops is intended to exchange information about ongoing research on laterality and interhemispheric communication. The series started in 2010 when Markus Hausmann convened the first meeting at Durham University. In 2011 it was followed by the second meeting organized by Alan Beaton at Gregynog (Wales). If everything goes according to plan the next meeting will be in Bergen (Norway) in 2014.

Here you find the program of the 3rd meeting

Photo of a session

Lextale-Fr: A fast, free vocabulary test for French

Lemhöfer and Broersma (2012) published an English vocabulary test which turned out to be very useful in our research on bilingualism and native language processing. Because we wanted to have a similar test for French, we decided to develop one.

Here you can find the text describing the test. Please refer to it as:

  • Brysbaert, M. (2013). LEXTALE_FR: A fast, free, and efficient test to measure language proficiency in French. Psychologica Belgica, 53, 23-37.

Here you can download the test with instructions in various languages:

Here you find the response key to mark the test.

Here you find an excel table to convert the raw scores to percentiles for L1 and L2 speakers. For instance, someone with a score of 8/56 has percentile 0 for L1 speakers (nobody had such a low score) and percentile 59 for L2 speakers (more than half of the L2 test takers had this score or lower). L1 norming is based on 550 first-year students from the Universities of Liège and Louvain-la-Neuve (thanks to Steve Majerus and Arnaud Szmalec for their kind cooperation). The L2 data (289 students in total) mostly come from first-year students Educational Science from Ghent University and the non-native French speakers in Liège and Louvain-la-Neuve, although there were also 40 students from Artesis College (thanks to Katrien Lievois) studying to become French translators. So, only to be used for these comparison groups!

Finally, for those who are interested in the details, there is a file with supplementary information about the items and their validation.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

How to deal with zero word frequencies?

While making and comparing word frequency lists, we were often confronted with the question what to do with words that are not present in a corpus. Giving these words a frequency of 0 did not seem correct and also led to mathematical nuisances. Rather than selecting one option, we decided to do a bit of testing to see what worked well. As it happened, the easiest transformation, the Laplace transformation, turned out to be the best choice. You find our conclusions in Brysbaert & Diependaele (Behavior Research Methods, 2013).

As part of our efforts, Kevin Diependaele wrote a Python routine for the Good-Turing algorithm, which you can download in zip format or in tar.gz format. This text explains you how to run the programs.

In the coming months we will update our frequency lists and interactive websites with the corrected frequencies, so that the zero word frequencies should be a pain of the past.

Accounting for individual differences in the word frequency effect

In an upcoming paper Kevin Diependaele (Diependaele et al., in press) shows that individual differences in the word frequency effect can be predicted by the participants’ vocabulary size, as measured with the LexTALE test: People with a small vocabulary size show a larger frequency effect than people with a large vocabulary size. Interestingly, differences in vocabulary size were also able to predict the larger frequency effect in second language (L2) processing than in first language (L1) processing: People on average have a larger frequency effect in L2 than in L1 because they know less L2 words. No further assumption was needed.

Norms of Valence, Arousal, Dominance, and AoA for 4300 Dutch words

Colleagues interested in the emotional value of words have assembled a list of norms for valence, arousal, and dominance. We managed to convince them also to collect data about age-of-acquisition. In total, 4,300 Dutch words were rated by students from different universities in Flanders and the Netherlands.

You find the norms here.

And this is the ms describing them (Moors et al., BRM, in press).

In bovenstaande links vind je normen van valentie, opwinding, dominantie en verwervingsleeftijd voor 4.300 Nederlandse woorden.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Mixed effects modelling and power analysis

Seems like Royal Holloway has deleted my webpage. Because it contained two methodological texts that are still often used, here they are.

The first is about mixed effects modelling in SPSS (or R). Maybe I should add at this point that things seem to be moving here. There are concerns that the models as I described them lead to elevated significance levels. In particular, Barr and colleagues argue on the basis of simulations that it is better to include many more random effects than only the intercepts of participants and stimuli. Their text is still a working text, but you find a copy here.

The second text is about power analysis for simple designs with two conditions. It tells you in simple terms how to do this. Of course, all is now much better explained in my book Basic Statistics for Psychologists.

De eerste bevindingen van onze dyslexiestudie zijn beschikbaar

Eindelijk zijn een aantal papers over ons dyslexieproject voor publicatie aanvaard (dit had wat meer voeten in de aarde dan verwacht, want blijkbaar hebben Engelstalige tijdschriften niet zoveel interesse voor bevindingen in het Nederlands).

In dit project werden de resultaten van 100 eerstejaarsstudenten met dyslexie in het hoger onderwijs vergeleken met die van 100 controles op een batterij van tests, om een volledig profiel te krijgen van de sterktes en zwaktes van studenten met dyslexie. De belangrijkste bevindingen zijn:

  • De studenten met dyslexie vertonen een patroon van resultaten dat volledig overeenstemt met de klassieke definitie van dyslexie: dezelfde vloeiende intelligentie, gecombineerd met ernstige tekorten op woorspelling, woord lezen en fonologische verwerking. In geen enkel opzicht werd de indruk gewekt dat deze studenten probeerden van hun diagnose gebruik te maken om andere zwaktes te compenseren (zoals al eens beweerd wordt).

  • De studenten met dyslexie hebben het ook iets moeilijker om verbale informatie uit hun langetermijngeheugen op te roepen. Hieronder vallen ook de eenvoudige rekenkundige operaties (tafels van optelling en vermenigvuldiging).

  • Omdat de problemen zo specifiek zijn, verkrijgt men geen verdere informatie meer nadat men drie tests afgenomen heeft (woordspelling, woordlezen en fonologisch bewustzijn). De resultaten op deze tests laten ons toe om 91% van de toekomstige studenten met zekerheid te diagnosticeren.

  • Het handschrift van onze studenten met dyslexie werd niet als minder net beoordeeld dan dat van de controlestudenten. Wel waren hun teksten iets minder gestructureerd, waardoor ze minder aangenaam waren om lezen. Wij denken dat dit iets is waar onderwijsondersteuning bij kan helpen.

  • Studenten met dyslexie geven dezelfde antwoorden op persoonlijkheidstests als studenten zonder dyslexie.

  • De resultaten op vijftig en meer tests kunnen samengevat worden door middel van 10 factoren. Studenten met dyslexie hebben lagere scores op 8 van deze factoren.

  • Studenten met dyslexie hebben geen slechtere metacognitie dan andere studenten. Ze weten even goed of ze een woord goed of verkeerd geschreven hebben; ze maken alleen meer schrijffouten.

Een volledige beschrijving van onze resultaten kan gevonden worden in (voorlopig wel nog in het Engels):

Callens, M., Tops, W., & Brysbaert, M. (2012). Cognitive profile of students who enter higher education with an indication of dyslexia. PLoS ONE 7. pdf

Tops, W., Callens, M., Lammertyn, J., Van Hees, V., & Brysbaert, M. (2012). Identifying students with dyslexia in higher education. Annals of Dyslexia, 62, 186-203. pdf

Tops, W., Callens, M., Bijn, E., & Brysbaert, M. (2013). Spelling in adolescents with dyslexia: Errors and modes of assessment. Journal of Learning Disabilities. pdf

Tops, W., Verguts, E., Callens, M., & Brysbaert, M. (2013). Do students with dyslexia have a different personality profile as measured with the Big Five? PLoS ONE 8(5): e64484. doi:10.1371/journal.pone.0064484. pdf

Callens, M., Tops, W., Stevens, M., & Brysbaert, M. (2014). An exploratory factor analysis of the cognitive functioning of first-year bachelor students with dyslexia. Annals of Dyslexia, 64, 91-119. pdf

Tops, W., Callens, M., Bijn, E., & Brysbaert, M. (2014). Spelling in Adolescents With Dyslexia Errors and Modes of Assessment. Journal of learning disabilities, 47(4), 295-306. pdf

Tops, W., Callens, M., Desoete, A., Stevens, M., & Brysbaert, M. (2014). Metacognition for spelling in higher education students with dyslexia: is there evidence for the dual burden hypothesis?. PloS One, 9(9), e106550. pdf

How to add word frequencies, word norms, and lexical decision times to your Excel files?

You may have noticed that we make much of our information (SUBTLEX word frequencies, AoA norms, RTs from the Lexicon Projects, …) available as Excel files. We do this because we know many people work with such files.

Most of the time we simply open the Excel files and manually look up the information we need. This is nice as long as the number of items is limited. However, it becomes an (error-prone!) chore once the stimulus lists become large and we need information for many variables. In such case it is nice to know that you can do the work automatically by making use of the Excel VLOOKUP function.

To help you, we have included a number of screenshots of how to do this in a pdf file.

After the publication of this post, Ian Simpsom (University of Granada) contacted us with some more interesting examples of Excel functions to be used with text databases. You find them here.

The first papers of our study on dyslexia in higher education are published now

At long last the first papers of our dyslexia project have been accepted for publication. In this project we administered a battery of tests to a sample of 100 first-year higher-education students with dyslexia and 100 controls, in order to have a full profile of their strengths and weaknesses.

The basic findings are:

  • The students with dyslexia show a pattern of results that completely fits the traditional definition of dyslexia: equivalent fluid intelligence combined with severe deficits in word reading, spelling, and phonological processing (there are no indications that they use the assessment to compensate for a lack of other skills).

  • The students with dyslexia are also slightly at a disadvantage to retrieve verbal information from long term memory; this includes simple arithmetical facts (addition, multiplication, division).

  • Because the problems are so specific, assessment only requires three tests (word reading, word spelling, phonological awareness). This allows us to correctly predict the status of 91% of future participants.

  • The handwriting of students with dyslexia is not judged as more sloppy than that of controls. Their texts tend to be slightly less structured, though, and are therefore judged as less agreeable to read. This is something we think remedial teaching can help with.

  • Personality descriptions based on questionnaires do not differ between students with and without dyslexia.

A full description of our findings can be found in:

Callens, M., Tops, W., & Brysbaert, M. (2012). Cognitive profile of students who enter higher education with an indication of dyslexia. PLoS ONE 7(6): e38081. doi:10.1371/journal.pone.0038081.

Tops, W., Callens, M., Lammertyn, J., Van Hees, V., & Brysbaert, M. (2012). Identifying students with dyslexia in higher education. Annals of dyslexia, 62(3), 186-203. pdf

Tops, W., Callens, C., Van Cauwenberghe, E., Adriaens, J., & Brysbaert, M. (2013). Beyond spelling: the writing skills of students with dyslexia in higher education. Reading and Writing, 26, 705-720. pdf

Tops W, Verguts E, Callens M, & Brysbaert M (2013) Do Students with Dyslexia Have a Different Personality Profile as Measured with the Big Five? PLoS ONE 8(5): e64484. doi:10.1371/journal.pone.0064484

Age-of-acquisition (AoA) norms for over 50 thousand English words

Together with Victor Kuperman and Hans Stadthagen-Gonzalez, we collected age-of-acquisition (AoA) ratings for 30,121 English content words (nouns, verbs, and adjectives). The collection of these new AoA norms was possible because we made use of the web-based crowdsourcing technology offered by the Amazon Mechanical Turk. Correlations with existing AoA measures suggest that these estimates are as good as the existing ones.

You find the article on the new AoA norms (Kuperman et al., Behavior Research Methods, 2012) here.

You find the Kuperman et al. (2012) AoA ratings here.

Here you find a comparison with the AoA norms from other large-scale databases (Bird et al., 2001; Stadthagen-Gonzalez & Davis, 2006; Cortese & Khanna, 2008; Schock et al., 2012). In each sheet two or three new columns have been added: the Kuperman et al. AoA ratings for the overlapping words, and the predicted Kuperman et al. AoA norms on the basis of original rating (by means of linear or polynomial regression; the regression weights are shown as well).

Because the Age-of-acquisition norms can also be used for inflected forms and because the other studies contained ratings for words we did not include (pronouns, number words, adverbs, nouns mostly used as names) we can expand the original Kuperman et al. list to a total of 51,715 words, which you find here. In this list, for each word we give the Kuperman et al. AoA rating, and the predicted AoA ratings on the basis of other studies (based on the lemmas of the words).

Here you find a demo on how to easily enter the AoA values into your stimulus Excel file.

Update April 24, 2012: We collected AoA norms of some 1000 more words (in 4 new batches). The new words include interesting words from the previous AoA rating studies that had been overlooked, a few other missing words (like heather), and words of which the plural has a different meaning (e.g., glasses, aliens, …). These new AoA norms have been included in the respective files making that the Kuperman et al. list now includes 31,124 entries .

If you spot a calculation error or if you find important words for which we do not have an AoA measure, please contact Marc Brysbaert!

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Part-of-Speech information added to the SUBTLEX-US word frequencies

We have now tagged the SUBTLEX-US corpus with the CLAWS tagger, so that we can add Part-of-Speech (PoS) information to the SUBTLEX-US word frequencies. Five new columns have been added to the file:

  1. The dominant (most frequent) PoS of each entry
  2. The frequency of the dominant PoS
  3. The relative frequency of the dominant PoS
  4. All PoS observed for the entry
  5. The frequency of each PoS

You find more information about the tagging in Brysbaert, New, & Keuleers (Behavior Research Methods, in press).

You find a zipped Excel version of the SUBTLEX-US word frequency file with PoS information here.

You find a zipped text version of the file here.

You find more information about the SUBTLEX-US word frequencies here.

Here you find a demo on how to easily enter SUBTLEX information into your stimulus Excel file.

After publication of the files Kati Renvall alerted us to the fact that verb abbreviations (like ll, couldn, and doesn) are classified as predominantly Nouns. A look at the columns B (FREQcount) and N (All_freqs_SUBTLEX) shows why this is the case. Of the 224,097 times ll was observed in the corpus, only 1,312 remained after parsing (because the other were translated to will and shall). Of the 1,312 remaining 1,290 were classified as noun and 22 as name. Hence, why in the processed file the dominant PoS of ll is listed as Noun. Thanks for this feedback! It shows how careful one must be with the outcome of algorithms. We intend to correct these entries manually in future versions. In the meantime, always compare the frequencies of the parsed entries (column N) with those of the initial count (column B), to make sure the dominant PoS indees applies to the majority of cases!

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Subtitle word frequencies for Spanish: SUBTLEX-ESP

Word frequency norms based on film subtitles have been shown to be better than word frequencies based on books and newspapers, because they are more representative for everyday language use. In all languages we tested, word frequencies based on a corpus of 40 million words from film subtitles predict more variance in word recognition times than word frequencies based on much larger written corpora.

Here you find the word frequencies for Spanish. Full information about the collection of the database can be found in our article (Cuetos et al., 2011).

You find an excel file with the SUBTLEX-ESP here.

Here you find a demo on how to easily enter the SUBTLEX frequencies into your stimulus Excel file.

Shortly after the publication of the list, it was brought to our attention that there were some copy errors in the original list of SUBTLEX-ESP , mainly involving non-ASCII characters. In addition, some words had two entries.

These problems became apparent in an article by Angeles Alonso, Fernandez, and Diez (2011) on oral frequency norms for Spanish words. Although SUBTLEX-ESP did reasonably well, its performance was less than we had expected.

We think we now have corrected all errors. The corrected version has 44,374 words in common with Angeles Alonso et al. (instead of 42,609). The correlation with the oral frequencies now is .72 (was .67). R² for the naming times of Cuetos & Barbon (2006) now is .308 (was .290); R² for the picture naming times from Cuetos, Ellis & Alvarez (1999) is .118 (was .033). There are no changes for the analyses reported by Cuetos et al. (2011).

To make sure you are using the correct version of SUBTLEX-ESP, check the following words:

  • cenar [dine] : should have a frequency count of 3721
  • verdad [truth] : should have a frequency count of 54203

We thank Manolo Perea and Maria Angeles Alonso for their feedback. If you find other problems in our databases, please let us know. Although we try to control our data as much as possible, it is impossible to completely avoid programming errors with such vast databases.

References:

Alonso, M.A., Fernandez, A., & Diez, E. (2011). Oral frequency norms for 67,979 Spanish words. Behavior Research Methods, 43, 449-458.

Cuetos, F., Glez-Nosti, M., Barbon, A., & Brysbaert, M. (2011). SUBTLEX-ESP: Spanish word frequencies based on film subtitles. Psicologica, 32, 133-143. pdf

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

The data of the British Lexicon Project are available now

Now that our paper on the British Lexicon Project is published in Behavior Research Methods (Keuleers et al., 2012), we are delighted we can make the data of the British Lexicon Project available to other users. For the time being, you have to download them as databases (there are various formats). Once we have munched them over some more, we will make a search engine for them similar to the one for the Dutch Lexicon Project.

Here you find a demo on how to easily enter BLP information into your stimulus Excel file.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

On-line searches in SUBTLEX-CH possible now

As part of our efforts to make valid word frequencies available in an easy-to-use format, we are delighted to announce that on-line searches in SUBTLEX-CH are possible now. SUBTLEX-CH is a database of Chinese word frequencies derived from film subtitles (Cai & Brysbaert, 2010). These subtitle word frequencies explain significantly more variance in lexical decision times than the traditional word frequency measures based on written sources. In addition, SUBTLEX-CH contains information about the various syntactic roles (Parts of Speech) taken by the words.

You can find the database here in case you want to download it.

However, now you can also do on-line searches.

Feedback is welcome! Also, if you have information about a word variable not included in the list, please contact us, as this information can easily be added to our search engine. We will acknowledge your contribution.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Nieuwe zoekfuncties SUBTLEX-NL

SUBTLEX-NL is een databestand dat informatie verschaft over de frequentie van woorden in Nederlandse ondertitels. Uit ons onderzoek is gebleken dat dergelijke woordfrequenties beter leestijden voorspellen dan frequenties gebaseerd op schriftelijke bronnen (Keuleers & Brysbaert, 2010). Verder geeft SUBTLEX-NL ook informatie over de syntactische rollen van de woorden.

Om het SUBTLEX-NL databestand toegankelijker te maken voor onderzoekers en andere taalgebruikers hebben we een krachtige zoekmachine laten ontwikkelen. Deze maakt het mogelijk om op een eenvoudige manier woorden te vinden die aan verschillende criteria tegelijk beantwoorden. Omdat SUBTLEX-NL in de eerste plaats ontwikkeld werd voor onderzoek, is Engels de voertaal. Deze post geeft een overzicht in het Nederlands.

Klik hier om een pdf van deze post te openen.

Algemeen overzicht

Wanneer je SUBTLEX-NL opent, dan krijg je het volgende scherm te zien:

Dit scherm geeft je de volgende informatie:

    SUBTLEX-NL bevat 134.722 ingangen. De meeste hiervan zijn woorden, maar een aantal zijn spelfouten of verkeerd gelezen woorden. Dit is zeker bij ondertitels het geval, omdat die soms vlug geschreven werden en gebaseerd zijn op optische karakterherkenning. Het is de bedoeling (hoop?) om het corpus ooit uit te vlooien op dergelijke fouten, hoewel de praktische winst daarvan waarschijnlijk heel klein zal zijn (het bestand zou er alleen wat netter uitzien).
    Bovenaan links is er een knop Variables. Deze verwijst naar de zoekcriteria die gebruikt worden. Je kunt die terugzetten op de defaultwaarden, je kunt de criteria van je zoektocht opslaan (waardoor je de zoektocht later gemakkelijk kunt hervatten) of de criteria van een vroegere zoektocht oproepen. Dit is ook handig wanneer verschillende mensen samenwerken rond een project. Op die manier kan de ene gemakkelijk controleren wat de andere gedaan heeft.
    De knop Scroll to bevat de verschillende zoekcriteria. Je kunt die ook vinden door de lijst in de linkerkolom af te lopen. Deze lijst kan echter nogal lang worden, zeker wanneer verschillende filter actief zijn.
    De Export knop spreekt vanzelf. Deze knop laat toe om de gegevens van je zoektocht te kopiëren of op te slaan in een bestand.
    Het rechtergedeelte bevat de woorden die beantwoorden aan je zoekcriteria. Bovenaan zie je om hoeveel woorden (rijen) het gaat. Bij het opstarten is dit altijd het volledige databestand (134,7K lijnen). De kolommen bevatten de informatie die je opvraagt. Dit kan je eenvoudig houden door slechts een paar kolommen zichtbaar te maken. De ervaring leert dat gebruikers de neiging hebben om gaandeweg meer kolommen zichtbaar te maken, naarmate ze de zoekmachine beter kennen. Je kunt de breedte van een kolom aanpassen met de muis. Je kunt een kolom ook van laag naar hoog of van hoog naar laag ordenen door op de titel te klikken. Wat niet gaat is om de volgorde van de kolommen te veranderen.

Kies op woorden

Als je informatie zoekt over een beperkt aantal woorden, dan is het handigst om die gewoon in het venster Word te tikken. Bijvoorbeeld ik wil weten hoe vaak de woorden bloem, bloemen, bloempje en bloempjes voorkomen in het Nederlands. Dan typ ik die gewoon in het venster, zoals hieronder getoond:

SUBTLEX-NL informeert mij dan dat bloem een woord is dat vooral in het meervoud voorkomt: de frequentie van bloemen (46 per miljoen woorden) is ongeveer drie keer zo hoog als die van bloem (13 per miljoen). De verkleinvormen worden zelden gebruikt en vaker in het enkelvoud (bloempje) dan in het meervoud.   Een bijkomend voordeel aan het Word venster is dat het je alle informatie geeft over speciale lettertekens (die niet in het Engels voorkomen). Als je bijvoorbeeld ruïne intikt, dan krijg je niet alleen de frequentie van het woord ruïne, maar ook van de spelfout ruine, zoals hieronder getoond:

Omgekeerd geeft het je ook informatie over hoe vaak een woord met speciale tekens gebruikt wordt. Zo blijkt dat er nogal wat varianten zijn van het woordje een:

Als je een lijst met woorden in een tekstbestand hebt, dan kun je die gemakkelijk inlezen. Een alternatief is om te werken met knippen en plakken.

Kies op woorddelen

Soms is het handig om alle woorden te krijgen die een bepaalde lettersequentie bevatten. Dan kun je de selectie Spelling – Regexp Search gebruiken. Dit is een zeer krachtige zoekmachine, die we hier niet volledig uitleggen. We geven enkel de drie vaakst voorkomende criteria. Zo kun je bijvoorbeeld op zoek zijn naar alle woorden die beginnen met bloem. Dan tik je ^bloem in het venster. Let wel op: in deze functie kun je slechts 1 woord(deel) tegelijk zoeken. Je mag ook geen enter achter ^bloem zetten, want dan zoekt het programma naar de ingangen die beginnen met bloem en eindigen op een enter-code (en die bestaan niet). Als alles goed gegaan is, krijg je het volgende venster:

Dan zie je dat er 55 ingangen zijn die beginnen met bloem.

Je kunt ook zoeken naar alle woorden die eindigen op bloem. Dan gebruik je bloem$ en krijg je 13 ingangen die aan dit criterium beantwoorden. Tot slot kun je ook op zoek gaan naar alle woorden waarin bloem voorkomt, ongeacht de plaats. Dit doe je door eenvoudigweg bloem in te tikken in het venster.

Een grote beperking bij deze zoekactie is dat je niet kunt zoeken naar woorden met speciale tekens. Dit is een jammerlijk gevolg van keuzes die gemaakt werden door de Engelstalige ontwikkelaars van de software, waar wij geen vat op hebben.

Kies op lengte

Een ander criterium is de lengte van het woord. Misschien ben je enkel geïnteresseerd in woorden van vijf letters? Dan vul je dit als volgt in:

Kies op frequentie

Een ander criterium is de frequentie. Ik ben bijvoorbeeld enkel geïnteresseerd in de laagfrequente woorden met een frequentie tussen 0 per miljoen en 1 per miljoen (bemerk dat dit het grootste deel vormt van het databestand: 111 van de 134 duizend woorden!):

Kies op woordsoort

Als ik enkel geïnteresseerd ben in werkwoorden of zelfstandige naamwoorden, dan kan ik gebruik maken van het venster dominant.pos. Deze kolom geeft de meest voorkomende syntactische rol (Part of Speech) van het woord en maakt het dus mogelijk om hierop te selecteren. Zo kan ik enkel de zelfstandige naamwoorden (N) zoeken:

Let wel op: dit criterium is het meest onderhevig aan fouten (zie verderop hoe je hier meer over te weten kunt komen). Hierbij krijg je een cumulatie van spelfouten en verkeerde analyses door de parser die we gebruikt hebben. Een ruwe schatting is dat zo’n 5% van de ingangen hier verkeerd kunnen zijn. Is dus indicatief en zeker niet normerend!

Voorts is het mogelijk om criteria te combineren en bijvoorbeeld op zoek te gaan naar alle zelfstandige naamwoorden van vijf letters:

All pos en all pos freq

Als je meer info wilt hebben over de verschillende syntactische rollen die een woord vervult volgens de parseerder die we gebruikt hebben, dan kun je de kolommen all.pos en all.pos.freq zichtbaar maken. Dit toont je bijvoorbeeld dat het woord “leven” meestal als een zelfstandig naamwoord gebruikt wordt (37.125 op een totaal van 44 miljoen woorden), maar ook dikwijls als een werkwoord (8.237 keer) en occasioneel ook als een naam of een andere rol waar de parseerder niet echt goed mee weg kon (SPEC: 347). Dezelfde kolommen tonen ons dat het woord “kweek” een niet-frequent woord is en 28 keer voorkomt als werkwoordsvorm en 25 keer als zelfstandig naamwoord.

FREQcount, CDcount, FREQlow, CDlow, FREQlemma, Lg10WF, SUBTLEXCD, Lg10CD

Dit zijn allemaal kolommen die je wellicht niet zullen interesseren, behalve wanneer je echt taalonderzoek doet. Voor deze kolommen verwijzen we je naar onze tekst over SUBTLEX-NL. Wat wel interessant kan zijn, is een vergelijking van het aantal keren waarop het woord met een kleine letter en met een hoofdletter begint. Dit kan interessant zijn om in te schatten hoe dikwijls een woord voorkomt als een naam. Zo zie je bijvoorbeeld dat de woorden olympisch en olympische vooral met een hoofdletter geschreven worden.

Lg10WF is de kolom die je nodig zult hebben wanneer je woorden wilt selecteren op het logaritme van hun frequentie.

Spellcheck en Hazenberg & Hulstijn

Bij corpusanalyse krijg je altijd veel rotzooi, vooral bij de laagfrequente ingangen. Een groot deel hiervan werd uitgezuiverd door als criterium te gebruiken dat een ingang slechts aanvaard werd als het lemma van de ingang in minstens 3 films voorkwam. Zoals hierboven aangegeven, blijven er echter nog veel “rare” ingangen over. Hierbij kunnen twee strategieën gevolgd worden: ofwel schonen wij de lijst op, ofwel geven we de gebruikers toegang tot de ongekuiste versie. We hebben gekozen voor het laatste. Dikwijls geeft dit een interessante kijk op het materiaal (zoals de verschillende manieren waarop “een” geschreven wordt) en je merkt er ook niets van wanneer je de frequenties van specifieke woorden zoekt.

De oneigenlijke ingangen worden wel een probleem wanneer je woordlijsten wilt genereren op basis van criteria. Wanneer ik bijvoorbeeld alle woorden van 5 letters wil, dan heb ik niets aan de ingangen die te wijten zijn aan spelfouten of die verband houden met (voor)namen of cijfers. Om deze te kunnen uitfilteren, hebben we verschillende criteria toegevoegd:

    – Wordt de ingang aanvaard door de MSOffice spellcheck? De laatste versie van deze spellcheck leek ons goed genoeg te zijn om als criterium gebruikt te worden. Een interessant aspect aan dit criterium is dat het namen uitsluit, omdat die met een hoofdletter geschreven moeten worden (wat niet gebeurd is in onze database). Omdat (Engelse) namen veel voorkomen in ondertitels is een dergelijke selectie meegenomen. Je kunt op dit criterium filteren door MS_Office te selecteren in het venster spellcheck:

    – Komt de ingang voor in de lijst van de Taalunie? De Taalunie heeft een Woordenlijst Nederlandse Taal samengesteld waarin voor meer dan 200 duizend woordvormen de correcte spelling weergegeven wordt. De mensen van OpenTaal hebben deze lijst ingedeeld in basiswoorden en verbogen woorden. Dit zijn andere interessante criteria die gebruikt kunnen worden bij de zoektocht. Zo vermindert het aantal ingangen van vijf letters van 8.174 naar 3.553 wanneer MSOffice gebruikt wordt, naar 3.190 wanneer Taalunie basis gebruikt wordt, naar 1.304 wanneer Taalunie verbogen woorden gebruikt wordt, en naar 3.383 wanneer zowel MSOffice als de beide lijsten van de Taalunie gebruikt worden. Een andere interessante vaststelling is dat niet alle woorden uit SUBTLEX in de Woordenlijst Nederlandse Taal voorkomen!

    – Komt de ingang voor in de Hazenberg & Hulstijn lijst? Hazenberg en Hulstijn (1996) hebben een lijst samengesteld van 23.500 woorden die zij als basiswoorden van het Nederlands beschouwen. Deze lijst kwam vooral uit het Basiswoordenboek Nederlands, aangevuld met hoogfrequente woorden uit Celex. De overlap met SUBTLEX-NL is 18.822 woorden. Een reden hiervoor is dat de lijst van Hazenberg & Hulstijn afkortingen bevat en woorden die je enkel nog in woordenboeken aantreft. Een andere reden is ook dat sommige interessante woorden niet in SUBTLEX-NL voorkomen. In de toekomst hopen we deze woorden aan SUBTLEX-NL toe te voegen met een frequentie van 0. Volgens het Hazenberg & Hulstijn criterium zijn er slechts 1.582 basiswoorden van vijf letters in SUBTLEX-NL. Je kunt er echter wel op vertrouwen dat deze woorden interessant zijn voor alledaags taalgebruik (hoewel zo’n lijst natuurlijk ook het onvermijdelijke “aagje” bevat, dat bijna altijd als een naam gebruikt wordt in ondertitels).

Dominante pos lemma

Een laatste reeks van kolommen laat je toe om te selecteren op de lemma’s. Dit zijn de grondwoorden waartoe de woordvormen behoren: de onverbogen vorm van adjectieven en zelfstandige naamwoorden, en de infinitiefvorm van werkwoorden. Let op, want hier zijn opnieuw fouten mogelijk door de automatische parsering die we gebruikt hebben. De kolom dominant.pos.lemma toont het lemma samenhangend met de vaakst voorkomende syntactische rol van het woord. Voor “leven” is dit bijvoorbeeld het zelfstandige naamwoord leven en voor “kweek” is dit het werkwoord kweken.

Je kunt ook selecteren op de frequentie van de dominante lemmas. Als je bijvoorbeeld op zoek wilt gaan naar de meest frequente werkwoorden in het Nederlands, dan selecteer je WW onder dominant.pos, dan maak je de kolom dominant.pos.lemma.freq zichtbaar, en dan sorteer je deze kolom van hoog naar laag (dit doe je door te klikken op de titel van de kolom). Dan zie je dat de meest frequente werkwoorden – niet onverwacht – zijn: zijn, hebben, gaan, kunnen, doen, willen, moeten, zullen, weten, komen, zeggen, zien, laten, denken, worden, maken, houden, vinden, zitten, geven, vinden, kijken, horen, …. Deze volgorde blijft dezelfde wanneer de Hazenberg & Hulstijn filter ingeschakeld wordt.

Het feit dat deze selectie enkel indicatief is (en dus met gezond verstand moet bekeken worden), blijkt uit de lijst van de meest frequente zelfstandige naamwoorden. Deze zijn: een (sic), man, mensen (sic), dag, vrouw, tijd, jaar, leven, huis, oké (sic), vader, kind, geld, keer, moeder, probleem, werk, vriend, naam, meneer, dingen (sic), auto, idee, jongen, beetje (sic), paar, zaak, verdomme (sic), hand, ….

Tip

Als je op zoek bent naar informatie over korte woorden (van 1 en 2 lettergrepen) voor onderzoek, dan kun je beter gebruik maken van het Dutch Lexicon Project. Dit databestand bevat meer informatie per woord (bijv. het aantal buurwoorden) en ook de tijd die proefpersonen nodig hebben om dit woord te herkennen in een lexicale decisietaak.

Woorden opzoeken voor kruiswoordraadsels

Hoewel SUBTLEX-NL daarvoor niet ontwikkeld werd, kun je de zoekmachine natuurlijk ook gebruiken als je vastzit in een kruiswoordraadsel. Je bent bijvoorbeeld hopeloos op zoek naar een sport, met zeven letters, tweede letter = A, laatste letter = L. Beperk dan de zoekresultaten tot PoS = Noun, length=7, en Spelling-Regexp Search = .a….l. Veel kans dat je woord ertussen zit!

How to determine whether one frequency measure is better than the other?

In our research comparing various frequency measures, we usually look at the correlations between the frequency measures and word processing times (e.g., lexical decision times) and we go for the frequency measure with the highest correlation. However, increasingly reviewers (and editors) request to see a p-value when we recommend one frequency measure over another.

As long as we are dealing with megastudy data of 10 thousands of observations, there is not really a point in testing the statistical significance between different measures, as differences as small as .02 are likely to be statistically “significant” (p < .05!). However, when we only have small-scale studies at our disposal, things become different and reviewers are right asking statistical confirmation.

    Hotelling-Williams test for dependent correlations

The test recommended for differences in correlations that are themselves intercorrelated (as is the case for various frequency measures) is the Hotelling-Williams test (Steiger, 1980). You can find the test in several R-packages, but it is reasonably simple to implement one yourself. The figure shows the equation you need. For instance, when the SUBTLEX log frequency correlates .75 with 240 lexical decision times and the Celex log frequency .69 while both log frequency measures have a correlation of .84, then r12 = .75, r13 = .69, r23 = .84, N = 240, t = 2.4934, df = 237, p = .0133. You find an Excel file here that does the calculations for you.

    The Vuong-test and Clarke-test for non-nested models

The Hotelling-Willams test is fine as long as you are dealing with simple correlations. This is a limitation in frequency research because the relationship between word processing times and log frequency is not linear, but levels off at high word frequencies. We capture this aspect by running nonlinear regression analyses (either with polynomials or restricted cubic splines). Then, we have R²-values rather than r-values. For instance, for the above data we would have something like R² = .59 for the SUBTLEX log frequencies, and R² = .51 for the Celex log frequencies (i.e., a few percent above the squared values of the linear correlations). Are these still significant?

The test usually recommended here is the Vuong test (Vuong, 1989). It is based on a comparison of the loglikelihoods of the two models. The calculations are rather complicated, but the test is available in several R-packages, such as games, pscl, spatcounts, or ZIGP (be careful, some require the models to be estimated with the glm-function, other with the lm-function). Clarke (2007) reviewed the Vuong test and found it to be conservative for small N. That is, the test is less likely to yield statistical significance than is warranted. Clarke (2007) proposed an alternative nonparametric test that is claimed not to be conservative.

To test the usefulness of the Vuong and Clarke tests for word frequency research, we ran Monte Carlo simulations of likely scenarios. Each simulation was based on 10K datasets. Per dataset we generated normally distributed variables XYZ that had the following theoretical intercorrelations (these were the same between all three variables): .0, .2, .4, or .6. We additionally varied the number of data triplets: 10, 20, 40, 80, 160, 320, 640, 1280, 2560, or 5120. For each set, we calculated the obtained intercorrelations between the variables and tested whether the correlation between XY was significantly different from the correlation between XZ according to the Hotelling-Williams test, the Vuong test, and the Clarke test. For the sake of simplicity, we only present the percentage of tests for which p < .05 and p < .10.

If the test works well, we expect 5% of the tests to be significant at the .05 level and 10% of the tests to be significant at the .10 level (given that both correlations were generated with the same algorithm and, hence, were assumed to be equivalent at the population level). This was exactly what we obtained with the Hotelling-Williams test, as you can see here. In line with Clarke’s observations, the Vuong test was conservative. Surprisingly, this was not the case for the smallest sample sizes (N = 10) and neither when the variables were intercorrelated with each other (as is the case for frequency measures). The Vuong test was particularly conservative when the theoretical correlations between X, Y, and Z were 0. Certainly for correlations of .4 and .6, the Vuong test was no longer conservative.

In contrast, Clarke’s test was way too liberal, in particular for large sample sizes and intercorrelated variables. In the worst cases, it returned more than 50% significance for a situation in which no differences in correlations were expected. Hence, there is not much you can conclude from a significant Clarke test for the question we are addressing (unless you want to impress reviewers and editors without statistical sophistication who insist on seeing “reassuring” p-values).

Thus far we have only used the Vuong and Clarke test for situations in which the better Hotelling-Williams test applies as well. As indicated above, we need the Vuong or Clarke test more for situations in which more complicated models are compared to each other. Therefore, we checked how well these tests would perform when instead of linear regression we used restricted cubic splines with 3 knots (which allows you to capture the floor effect at high word frequencies). For comparison purposes we also calculated the Hotelling-Williams test on the correlations. The results were reassuring: The introduction of nonlinear regression did not lead to an unwarranted increase in significant tests, as you can see here.

All in all, the Hotelling-Williams test is the best to compare dependent correlations. The Vuong test is a good alternative, unless there is very little correlation between the variables. The Clarke test is less useful for our purposes, because it will often return significance when this is not indicated.

Clarke, K.A. (2007). A Simple Distribution-Free Test for Nonnested Model Selection. Political Analysis, 15, 347-363.

Steiger, J.H. (1980), Tests for comparing elements of a correlation matrix, Psychological Bulletin, 87, 245-251.

Vuong, Q.H. (1989): Likelihood Ratio Tests for Model Selection and non-nested Hypotheses. Econometrica, 57, 307-333.

German SUBTLEX-DE word frequencies available now

Together with colleagues from Münster and Berlin we have collected and validated subtitle-based word frequencies for German. As in other languages, the SUBTLEX-DE word frequencies explain more variance in lexical decision times than the other available word frequency measures, including CELEX, Leipzig, dlexDB, and Google Ngram=1. You find our ms about the SUBTLEX-DE word frequencies here (Brysbaert et al., 2011) and easy to use files with the frequencies here.

Here you find a demo on how to easily enter SUBTLEX-DE values into your stimulus Excel file.

In Zusammenarbeit mit Kollegen aus Münster und Berlin haben wir Worthäufigkeiten für die deutsche Sprache erhoben und validiert. Die Datenbasis waren Filmeuntertiteln. Wie auch in anderen Sprachen erklären die SUBTLEX-DE Worthäufigkeiten mehr Varianz lexikaler Entscheidungszeiten als andere Worthäufigkeitsmaße wie z.B. CELEX, Leipzig, dlexDB und Google Ngram=1. Der Artikel über die SUBTLEX-DE Worthäufigkeiten kann hier heruntergeladen werden (Brysbaert et al., 2011); einfach zu verwendende Dateien, die die Worthäufigkeiten enthalten, hier.

Reference

  • Brysbaert, M., Buchmeier, M., Conrad, M., Jacobs, A.M., Bölte, J., & Böhl, A. (2011). The word frequency effect: A review of recent developments and implications for the choice of frequency estimates in German. Experimental Psychology, 58, 412-424.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

A new and improved search tool for the Dutch Lexicon Project released

We have improved the search tool for the Dutch Lexicon Project. Whereas before it was only possible to get data for words you entered, now it is also possible to generate lists of words with the use of filters. For instance, if you want the data for all nouns of 6 letters containing the letter a, then the new search tool will allow you to do so with a minimum of input and a maximum of user friendliness (at least, we hope; please inform us about things that make use difficult for you). The words are limited to monosyallabic and disyllabic words, given that these were the only ones presented in the Dutch Lexicon Project. We intend to make the same search search options available for the SUBTLEX-NL database soon. In the meantime, enjoy your DLP searches!

Test je woordenschat

Stephane Dufau van de Universiteit van Marseille heeft een app ontwikkeld waarbij mensen met een iPod, iPhone of iPad hun woordenschat kunnen testen. De proef bestaat uit een lexicale decisietaak waarbij per pakketje 50 woorden en niet-woorden aangeboden worden (duurt een paar minuten). Daarna krijg je informatie over je prestaties.

UPDATE: Wij hebben aan deze proef meegewerkt van 4 februari 2011 tot 16 maart 2012. Daarna hebben we samen met Nederlandse omroepen een veel ambitieuzere en leerrijkere megastudie over woordenkennis van het Nederlands opgezet. Meer informatie hierover vind je hier.

Veel plezier ermee!

A new kid in town: Are the new Google Ngram frequencies better than the SUBTLEX word frequencies?

We got alerted by several colleagues to the new Google Ngram Viewer. Given that Ngram=1 equals word frequency and given that these Google Ngrams are calculated on the basis of millions of books, wouldn’t these frequencies be much better than our SUBTLEX word frequencies, based on some 50 million words only?

The answer to this question largely depends on the type of texts used by Google Ngram Viewer. We found that above 30 million words, corpus register is much more important than corpus size for word frequencies. What type of language is used to build the corpus?

There is only one way to test word frequencies for psycholinguistic research: By correlating them with word lexical decision times. As a first analysis we correlated the Google Ngrams and the other estimates of word frequency with the 28.7K words from the British Lexical Project (standardized RTs, which are the most reliable variable). For this analysis, we excluded the few 100 words that were not in Google Ngram (mostly because they were loan words with non-ascii letters). In total we could use a matrix of 28,370 words (0 frequencies were given to the words that were not observed in the smaller corpora).

This was the outcome (all word frequencies were log transformed):

Correlation with SUBTLEX-US (51M words): r = -.635

Correlation with Google Ngram 1 English One Million (93.7B words) : r = -.546

Further analyses indicated that the poor performance of the Google Ngram measure was due to (1) the use of old books, and (2) the fact that non-fiction books were included in the corpus. As our findings below show, the best Google Ngram frequency measure is based on the English Fiction corpus for the period 2000-2008:

Correlation with Google Ngram 1 English One Million restricted to the years 2000 and later (6.10B words): r = -.607

Correlation with Google Ngram 1 English Fiction all years (75.2B words) : r = -.594

Correlation with Google Ngram 1 Englih Fiction years 2000 and later (24.2B words) : -.635

All in all, three interesting findings:

  1. Word frequencies become outdated after some time (hence the better performance of recent word frequencies than for all word frequencies)

  2. The fiction corpus is better than the One MIllion corpus. This presumably has to do with the fact that the fiction corpus better approximates the type of language participants in psychology experiments have been exposed to.

  3. Despite the much larger corpus size, the Google Ngram estimates are not better than the SUBTLEX measures of word frequency (actually, SUBTLEXUS explains 1% more of variance). This agrees with our previous observation that size does not matter much above 30M words.

Article in which the Google Ngrams are announced:

Quantitative Analysis of Culture Using Millions of Digitized Books by: Jean-Baptiste Michel, Yuan K. Shen, Aviva P. Aiden, Adrian Veres, Matthew K. Gray, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, Erez L. Aiden Science, Published Online 16 December 2010

You can now do direct searches in SUBTLEX-NL

We are in the process of developing tools that should make your life as a language researcher easier. One of these is a dynamic app that allows you to directly search in the SUBTLEX-NL database. Have a look here. It should be rather self-explaining (for a Dutch description of the search functions, have a look here). If not, please inform us, so that we can make the app better. Also keep in mind that we are still in de development phase. There are still quite a few loose ends to attend to!