Orde 10

Voor een aantal projectjes waar ik momenteel mee bezig ben liep ik er tegen aan dat mijn corpus van Nederlandse taal te klein is (ongeveer 1 miljard woorden). Het bleek moeilijk om zinnige dingen te zeggen over wat minder voorkomende woorden.

Recentelijk heb ik dus mijn best gedaan om een groter corpus te creëren, om een concreet doel te hebben heb ik besloten om een woordvierkant te zoeken van 10 x 10, de heilige graal in de lologica. Alle 10 letter woorden uit mijn huidige corpus kunnen samen niet zo’n vierkant vormen.

Engels

In het Engels zijn vele serieuze pogingen gedaan in de afgelopen 100 jaar, de meest succesvolle is van Rex Gooch in 2004 met 692847 woorden en maar liefst een jaar computatie. Dit woordvierkant gebruikt helaas 2 onzin dorpjes en een woord met een streepje (Een Turkse en een Guineese plaats beide van 100 inwoners), maar wordt wel gezien als oplossing. Dus we houden dat voorlopig aan als maatstaf voor een Nederlandse variant.

 d e s c e n d a n t
 e c h e n e i d a e
 s h o r t c o a t s
 c e r b e r u l u s
 e n t e r o m e r e
 n e c r o l a t e r
 d i o u m a b a n a
 a d a l e t a b a t
 n a t u r e n a m e
 t e s s e r a t e d

“Echeneidae” is met een hoofdletter, “Dioumabana” en “Adaletabat” zijn kleine dorpjes, en “nature-name” heeft een streepje.

Eerste poging

Ik heb eerst berekend hoeveel 10-letter woorden er nodig zijn om een redelijke kans op minstens één vierkant te hebben, dat zijn er ongeveer 250000. Toen ik 2.5 miljard woorden in m’n corpus had was ik op dit punt. De data is nu nog redelijk betrouwbaar: nieuwsartikelen, boeken, staatsdocumenten, rechtspraak (een miljard woorden!) woordenboeken, ondertiteling, een hoop grote Nederlandse websites en Wikipedia.

Helaas leverde dit nog geen fatsoenlijk vierkant op. Een serieuze poging dataverzameling later zat ik op 4.4 miljard woorden. Dit keer is er een heel hoop internettekst bijgekomen, simpelweg data verzameling van websites maar ook enkele fora. Hierin vinden we 400.000 verschillende 10 letter woorden die minstens 3 keer voorkomen. Daarmee maken we 65 vierkanten van lage kwaliteit, de beste is deze:

 e s c a p e g a m e
 s t o l o n i f e r
 c o l l e g e d a g
 a l l u d e r e n d
 p o e d e l e n d e
 e n g e l a n d e n
 g i e r e n m e r k
 a f d e n d e r d e
 m e a n d e r d e n
 e r g d e n k e n d

– R. stolonifer (zwarte broodschimmel)
– er zijn meerdere Nederlandse plaatsen genaamd Engeland.
– gierenmerk is een goedkoop merk
– ergdenkend is oud-Nederlands, in de klasse weldenkend en omdenkend.

Oplossing

Ideaal is het niet, en ook niet beter dan de Engelse variant. Dus ik heb nog een poging gedaan. 6 miljard woorden, waarvan 500.000 unieke 10 letter woorden met een frequentie van minimaal 3. De belangrijkste extra bronnen zijn de grote Nederlandse fora waarvan ik nu een volledige “back-up” heb, de kwaliteit van deze tekst is natuurlijk lager dus we moeten wat meer spitten. Hiermee vinden we na een week de computer te laten draaien 1040 vierkanten waarvan de beste:

 r a s k a k k e r s
 a n t a l i a n e n
 s t a m l e n g t e
 k a m e e l g e e l
 a l l e r d o l s t
 k i e l d i e p t e
 k a n g o e r o e s
 e n g e l p o o r t
 r e t e s t e r k e
 s n e l t e s t e n

Antalianen zijn mensen uit Antalya (Turkse toeristenstad met 2.2M inwoners). De rest van de woorden spreekt voor zichzelf, geen slecht resultaat! Met als enige schoonheidsfout een hoofdletter vermoed ik dat er niet een veel betere oplossing is. In de toekomst ga ik wat interessantere projectjes doen met dit nieuwe corpus, maar dit was in ieder geval een leuke motivatie om hem samen te stellen.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s