Nieuwe zoekfuncties SUBTLEX-NL

SUBTLEX-NL is een databestand dat informatie verschaft over de frequentie van woorden in Nederlandse ondertitels. Uit ons onderzoek is gebleken dat dergelijke woordfrequenties beter leestijden voorspellen dan frequenties gebaseerd op schriftelijke bronnen (Keuleers & Brysbaert, 2010). Verder geeft SUBTLEX-NL ook informatie over de syntactische rollen van de woorden.

Om het SUBTLEX-NL databestand toegankelijker te maken voor onderzoekers en andere taalgebruikers hebben we een krachtige zoekmachine laten ontwikkelen. Deze maakt het mogelijk om op een eenvoudige manier woorden te vinden die aan verschillende criteria tegelijk beantwoorden. Omdat SUBTLEX-NL in de eerste plaats ontwikkeld werd voor onderzoek, is Engels de voertaal. Deze post geeft een overzicht in het Nederlands.

Klik hier om een pdf van deze post te openen.

Algemeen overzicht

Wanneer je SUBTLEX-NL opent, dan krijg je het volgende scherm te zien:

Dit scherm geeft je de volgende informatie:

    SUBTLEX-NL bevat 134.722 ingangen. De meeste hiervan zijn woorden, maar een aantal zijn spelfouten of verkeerd gelezen woorden. Dit is zeker bij ondertitels het geval, omdat die soms vlug geschreven werden en gebaseerd zijn op optische karakterherkenning. Het is de bedoeling (hoop?) om het corpus ooit uit te vlooien op dergelijke fouten, hoewel de praktische winst daarvan waarschijnlijk heel klein zal zijn (het bestand zou er alleen wat netter uitzien).
    Bovenaan links is er een knop Variables. Deze verwijst naar de zoekcriteria die gebruikt worden. Je kunt die terugzetten op de defaultwaarden, je kunt de criteria van je zoektocht opslaan (waardoor je de zoektocht later gemakkelijk kunt hervatten) of de criteria van een vroegere zoektocht oproepen. Dit is ook handig wanneer verschillende mensen samenwerken rond een project. Op die manier kan de ene gemakkelijk controleren wat de andere gedaan heeft.
    De knop Scroll to bevat de verschillende zoekcriteria. Je kunt die ook vinden door de lijst in de linkerkolom af te lopen. Deze lijst kan echter nogal lang worden, zeker wanneer verschillende filter actief zijn.
    De Export knop spreekt vanzelf. Deze knop laat toe om de gegevens van je zoektocht te kopiëren of op te slaan in een bestand.
    Het rechtergedeelte bevat de woorden die beantwoorden aan je zoekcriteria. Bovenaan zie je om hoeveel woorden (rijen) het gaat. Bij het opstarten is dit altijd het volledige databestand (134,7K lijnen). De kolommen bevatten de informatie die je opvraagt. Dit kan je eenvoudig houden door slechts een paar kolommen zichtbaar te maken. De ervaring leert dat gebruikers de neiging hebben om gaandeweg meer kolommen zichtbaar te maken, naarmate ze de zoekmachine beter kennen. Je kunt de breedte van een kolom aanpassen met de muis. Je kunt een kolom ook van laag naar hoog of van hoog naar laag ordenen door op de titel te klikken. Wat niet gaat is om de volgorde van de kolommen te veranderen.

Kies op woorden

Als je informatie zoekt over een beperkt aantal woorden, dan is het handigst om die gewoon in het venster Word te tikken. Bijvoorbeeld ik wil weten hoe vaak de woorden bloem, bloemen, bloempje en bloempjes voorkomen in het Nederlands. Dan typ ik die gewoon in het venster, zoals hieronder getoond:

SUBTLEX-NL informeert mij dan dat bloem een woord is dat vooral in het meervoud voorkomt: de frequentie van bloemen (46 per miljoen woorden) is ongeveer drie keer zo hoog als die van bloem (13 per miljoen). De verkleinvormen worden zelden gebruikt en vaker in het enkelvoud (bloempje) dan in het meervoud.   Een bijkomend voordeel aan het Word venster is dat het je alle informatie geeft over speciale lettertekens (die niet in het Engels voorkomen). Als je bijvoorbeeld ruïne intikt, dan krijg je niet alleen de frequentie van het woord ruïne, maar ook van de spelfout ruine, zoals hieronder getoond:

Omgekeerd geeft het je ook informatie over hoe vaak een woord met speciale tekens gebruikt wordt. Zo blijkt dat er nogal wat varianten zijn van het woordje een:

Als je een lijst met woorden in een tekstbestand hebt, dan kun je die gemakkelijk inlezen. Een alternatief is om te werken met knippen en plakken.

Kies op woorddelen

Soms is het handig om alle woorden te krijgen die een bepaalde lettersequentie bevatten. Dan kun je de selectie Spelling – Regexp Search gebruiken. Dit is een zeer krachtige zoekmachine, die we hier niet volledig uitleggen. We geven enkel de drie vaakst voorkomende criteria. Zo kun je bijvoorbeeld op zoek zijn naar alle woorden die beginnen met bloem. Dan tik je ^bloem in het venster. Let wel op: in deze functie kun je slechts 1 woord(deel) tegelijk zoeken. Je mag ook geen enter achter ^bloem zetten, want dan zoekt het programma naar de ingangen die beginnen met bloem en eindigen op een enter-code (en die bestaan niet). Als alles goed gegaan is, krijg je het volgende venster:

Dan zie je dat er 55 ingangen zijn die beginnen met bloem.

Je kunt ook zoeken naar alle woorden die eindigen op bloem. Dan gebruik je bloem$ en krijg je 13 ingangen die aan dit criterium beantwoorden. Tot slot kun je ook op zoek gaan naar alle woorden waarin bloem voorkomt, ongeacht de plaats. Dit doe je door eenvoudigweg bloem in te tikken in het venster.

Een grote beperking bij deze zoekactie is dat je niet kunt zoeken naar woorden met speciale tekens. Dit is een jammerlijk gevolg van keuzes die gemaakt werden door de Engelstalige ontwikkelaars van de software, waar wij geen vat op hebben.

Kies op lengte

Een ander criterium is de lengte van het woord. Misschien ben je enkel geïnteresseerd in woorden van vijf letters? Dan vul je dit als volgt in:

Kies op frequentie

Een ander criterium is de frequentie. Ik ben bijvoorbeeld enkel geïnteresseerd in de laagfrequente woorden met een frequentie tussen 0 per miljoen en 1 per miljoen (bemerk dat dit het grootste deel vormt van het databestand: 111 van de 134 duizend woorden!):

Kies op woordsoort

Als ik enkel geïnteresseerd ben in werkwoorden of zelfstandige naamwoorden, dan kan ik gebruik maken van het venster dominant.pos. Deze kolom geeft de meest voorkomende syntactische rol (Part of Speech) van het woord en maakt het dus mogelijk om hierop te selecteren. Zo kan ik enkel de zelfstandige naamwoorden (N) zoeken:

Let wel op: dit criterium is het meest onderhevig aan fouten (zie verderop hoe je hier meer over te weten kunt komen). Hierbij krijg je een cumulatie van spelfouten en verkeerde analyses door de parser die we gebruikt hebben. Een ruwe schatting is dat zo’n 5% van de ingangen hier verkeerd kunnen zijn. Is dus indicatief en zeker niet normerend!

Voorts is het mogelijk om criteria te combineren en bijvoorbeeld op zoek te gaan naar alle zelfstandige naamwoorden van vijf letters:

All pos en all pos freq

Als je meer info wilt hebben over de verschillende syntactische rollen die een woord vervult volgens de parseerder die we gebruikt hebben, dan kun je de kolommen all.pos en all.pos.freq zichtbaar maken. Dit toont je bijvoorbeeld dat het woord “leven” meestal als een zelfstandig naamwoord gebruikt wordt (37.125 op een totaal van 44 miljoen woorden), maar ook dikwijls als een werkwoord (8.237 keer) en occasioneel ook als een naam of een andere rol waar de parseerder niet echt goed mee weg kon (SPEC: 347). Dezelfde kolommen tonen ons dat het woord “kweek” een niet-frequent woord is en 28 keer voorkomt als werkwoordsvorm en 25 keer als zelfstandig naamwoord.

FREQcount, CDcount, FREQlow, CDlow, FREQlemma, Lg10WF, SUBTLEXCD, Lg10CD

Dit zijn allemaal kolommen die je wellicht niet zullen interesseren, behalve wanneer je echt taalonderzoek doet. Voor deze kolommen verwijzen we je naar onze tekst over SUBTLEX-NL. Wat wel interessant kan zijn, is een vergelijking van het aantal keren waarop het woord met een kleine letter en met een hoofdletter begint. Dit kan interessant zijn om in te schatten hoe dikwijls een woord voorkomt als een naam. Zo zie je bijvoorbeeld dat de woorden olympisch en olympische vooral met een hoofdletter geschreven worden.

Lg10WF is de kolom die je nodig zult hebben wanneer je woorden wilt selecteren op het logaritme van hun frequentie.

Spellcheck en Hazenberg & Hulstijn

Bij corpusanalyse krijg je altijd veel rotzooi, vooral bij de laagfrequente ingangen. Een groot deel hiervan werd uitgezuiverd door als criterium te gebruiken dat een ingang slechts aanvaard werd als het lemma van de ingang in minstens 3 films voorkwam. Zoals hierboven aangegeven, blijven er echter nog veel “rare” ingangen over. Hierbij kunnen twee strategieën gevolgd worden: ofwel schonen wij de lijst op, ofwel geven we de gebruikers toegang tot de ongekuiste versie. We hebben gekozen voor het laatste. Dikwijls geeft dit een interessante kijk op het materiaal (zoals de verschillende manieren waarop “een” geschreven wordt) en je merkt er ook niets van wanneer je de frequenties van specifieke woorden zoekt.

De oneigenlijke ingangen worden wel een probleem wanneer je woordlijsten wilt genereren op basis van criteria. Wanneer ik bijvoorbeeld alle woorden van 5 letters wil, dan heb ik niets aan de ingangen die te wijten zijn aan spelfouten of die verband houden met (voor)namen of cijfers. Om deze te kunnen uitfilteren, hebben we verschillende criteria toegevoegd:

    – Wordt de ingang aanvaard door de MSOffice spellcheck? De laatste versie van deze spellcheck leek ons goed genoeg te zijn om als criterium gebruikt te worden. Een interessant aspect aan dit criterium is dat het namen uitsluit, omdat die met een hoofdletter geschreven moeten worden (wat niet gebeurd is in onze database). Omdat (Engelse) namen veel voorkomen in ondertitels is een dergelijke selectie meegenomen. Je kunt op dit criterium filteren door MS_Office te selecteren in het venster spellcheck:

    – Komt de ingang voor in de lijst van de Taalunie? De Taalunie heeft een Woordenlijst Nederlandse Taal samengesteld waarin voor meer dan 200 duizend woordvormen de correcte spelling weergegeven wordt. De mensen van OpenTaal hebben deze lijst ingedeeld in basiswoorden en verbogen woorden. Dit zijn andere interessante criteria die gebruikt kunnen worden bij de zoektocht. Zo vermindert het aantal ingangen van vijf letters van 8.174 naar 3.553 wanneer MSOffice gebruikt wordt, naar 3.190 wanneer Taalunie basis gebruikt wordt, naar 1.304 wanneer Taalunie verbogen woorden gebruikt wordt, en naar 3.383 wanneer zowel MSOffice als de beide lijsten van de Taalunie gebruikt worden. Een andere interessante vaststelling is dat niet alle woorden uit SUBTLEX in de Woordenlijst Nederlandse Taal voorkomen!

    – Komt de ingang voor in de Hazenberg & Hulstijn lijst? Hazenberg en Hulstijn (1996) hebben een lijst samengesteld van 23.500 woorden die zij als basiswoorden van het Nederlands beschouwen. Deze lijst kwam vooral uit het Basiswoordenboek Nederlands, aangevuld met hoogfrequente woorden uit Celex. De overlap met SUBTLEX-NL is 18.822 woorden. Een reden hiervoor is dat de lijst van Hazenberg & Hulstijn afkortingen bevat en woorden die je enkel nog in woordenboeken aantreft. Een andere reden is ook dat sommige interessante woorden niet in SUBTLEX-NL voorkomen. In de toekomst hopen we deze woorden aan SUBTLEX-NL toe te voegen met een frequentie van 0. Volgens het Hazenberg & Hulstijn criterium zijn er slechts 1.582 basiswoorden van vijf letters in SUBTLEX-NL. Je kunt er echter wel op vertrouwen dat deze woorden interessant zijn voor alledaags taalgebruik (hoewel zo’n lijst natuurlijk ook het onvermijdelijke “aagje” bevat, dat bijna altijd als een naam gebruikt wordt in ondertitels).

Dominante pos lemma

Een laatste reeks van kolommen laat je toe om te selecteren op de lemma’s. Dit zijn de grondwoorden waartoe de woordvormen behoren: de onverbogen vorm van adjectieven en zelfstandige naamwoorden, en de infinitiefvorm van werkwoorden. Let op, want hier zijn opnieuw fouten mogelijk door de automatische parsering die we gebruikt hebben. De kolom dominant.pos.lemma toont het lemma samenhangend met de vaakst voorkomende syntactische rol van het woord. Voor “leven” is dit bijvoorbeeld het zelfstandige naamwoord leven en voor “kweek” is dit het werkwoord kweken.

Je kunt ook selecteren op de frequentie van de dominante lemmas. Als je bijvoorbeeld op zoek wilt gaan naar de meest frequente werkwoorden in het Nederlands, dan selecteer je WW onder dominant.pos, dan maak je de kolom dominant.pos.lemma.freq zichtbaar, en dan sorteer je deze kolom van hoog naar laag (dit doe je door te klikken op de titel van de kolom). Dan zie je dat de meest frequente werkwoorden – niet onverwacht – zijn: zijn, hebben, gaan, kunnen, doen, willen, moeten, zullen, weten, komen, zeggen, zien, laten, denken, worden, maken, houden, vinden, zitten, geven, vinden, kijken, horen, …. Deze volgorde blijft dezelfde wanneer de Hazenberg & Hulstijn filter ingeschakeld wordt.

Het feit dat deze selectie enkel indicatief is (en dus met gezond verstand moet bekeken worden), blijkt uit de lijst van de meest frequente zelfstandige naamwoorden. Deze zijn: een (sic), man, mensen (sic), dag, vrouw, tijd, jaar, leven, huis, oké (sic), vader, kind, geld, keer, moeder, probleem, werk, vriend, naam, meneer, dingen (sic), auto, idee, jongen, beetje (sic), paar, zaak, verdomme (sic), hand, ….

Tip

Als je op zoek bent naar informatie over korte woorden (van 1 en 2 lettergrepen) voor onderzoek, dan kun je beter gebruik maken van het Dutch Lexicon Project. Dit databestand bevat meer informatie per woord (bijv. het aantal buurwoorden) en ook de tijd die proefpersonen nodig hebben om dit woord te herkennen in een lexicale decisietaak.

Woorden opzoeken voor kruiswoordraadsels

Hoewel SUBTLEX-NL daarvoor niet ontwikkeld werd, kun je de zoekmachine natuurlijk ook gebruiken als je vastzit in een kruiswoordraadsel. Je bent bijvoorbeeld hopeloos op zoek naar een sport, met zeven letters, tweede letter = A, laatste letter = L. Beperk dan de zoekresultaten tot PoS = Noun, length=7, en Spelling-Regexp Search = .a….l. Veel kans dat je woord ertussen zit!

Comments are closed.