Waarschuwing: dit stuk gaat over statistiek. Maar als je allergie krijgt van sommetjes of wiskunde dan kun je dit stuk gewoon lezen. In de tekst staan geen getalletjes of formules.
Dit stuk schrijf ik in Zwitserland tussen de hoge bergen en diepe dalen. Zwitserland is een fantastisch mooi land dat vooral bekend staat om zijn vele wandelmogelijkheden. Momenteel heb ik uitzicht op wel twingtig prachtige bergen waarnaartoe mooie tochten te maken zjin. Bij het plannen van een tocht staat één vraag altijd centraal: hoe lang gaat deze wandeling duren. Bij gebrek aan goede beschrijvingen op kaarten en in boekjes zou ik dit graag willen uitrekenen. Hoe pak je zoiets aan?
De tijd die nodig is voor een wandeling is afhankelijk van een aantal factoren. Factoren zijn die dingen die de uitkomst bepalen. Voor eenvoudige berekeningen zijn het aantal factoren beperkt. Bijvoorbeeld: om de inhoud van een kubus te berekenen heb je de volgende factoren nodig: de hoogte, de lengte en de breedte. Met deze drie factoren kun je de inhoud van een kubus heel exact berekenen. Het is goed je te realiseren dat je niet alles in het leven kunt uitrekenen. De duur van een wandeling is daar een goed voorbeeld van. Hierbij spelen namelijk te veel factoren een rol.
Laten we de factoren voor onze wandeltocht eens benoemen. Een eerste factor die in het vlakke Nederlandse land te binnen schiet is de afstand. Des te meer kilometers, des te langer je er over doet. Als je in de bergen gaat lopen zijn er meer factoren die een rol spelen. Om er een paar te noemen: het te overwinnen hoogteverschil en het type pad (asfalt loopt sneller dan grote puinblokken). Er zijn nog meer factoren die de wandeltijd beïnvloeden: heb je ’s nachts lekker geslapen, hoe fit ben je, wat is het tijdstip van de dag, het weer (in de snikhete zon loop je minder rap een berg op). Je voelt waarschijnlijk wel aan dat des te meer factoren je toevoegt, des te nauwkeuriger de formule wordt.
Je kunt je voorstellen dat des te langer je nadenkt over mogelijke factoren, des te meer je er weet te bedenken. Zo zullen er altijd factoren zijn waar je nu nog niet aan hebt gedacht. Je formule zal daardoor nooit ‘af’ zijn. Je zult zien dat de berekening van de wandeltijd daardoor nooit precies uitkomt. Stel dat je met een formule uitrekent dat een wandeling drie uur een acht minuten duurt, dan zal je altijd zien dat je er iets korter of langer over doet. Bij en dergelijke berekening zit je bijna altijd fout.
De formule berekent dus niet, maar doet een voorspelling hoelang je er deze keer over doet. Het is een gooi in de goede richting. Pas als je de wandeling 100 keer maakt, dan is je gemiddelde tijd drie uur een acht minuten. Omdat de formule voorspelt in plaats van berekent is het eigenlijk geen formule, maar een model. Een model is een beeld van de werkelijkheid waarin bepaalde details, ten behoeve van de bruikbaarheid, zijn weggelaten.
Gelukkig is het niet erg dat het model voorspelt in plaats van berekent. De nauwkeurigheid van de voorspelling met een onvolledige model is waarschijnlijk al groot genoeg. En de nog ontbrekende factoren zullen niet de belangrijkste zijn. Met het aantal kilometers, het hoogteverschil en het type pad kom je negen van de tien keer al een heel eind. Sterker: Een pragmaticus in het Hollandse vlakke land zal met alleen de factor kilometers al ruim genoegen nemen!
Normaal gesproken probeer je het aantal factoren zelfs zo veel mogelijk te beperken. Des te minder factoren je nodig hebt om te voorspellen des te beter. Dat klinkt best logisch. Meer factoren zorgt er voor meer nauwkeurigheid, maar je moet ook meer informatie in je model stoppen: je model wordt ingewikkelder. Paradoxaal genoeg is een model met minder factoren vaak het meest bruikbaar, ondanks zijn lagere nauwkeurigheid. Als de factoren die we nu hebben (afstand, hoogteverschil en padtype) goede voorspellers zijn, dan hebben we naast deze drie geen extra factoren nodig.
Om te bepalen welke factoren je in een model opneemt en welke je weglaat kun je op de computer ingewikkelde berekingen maken. Je kunt ook de JBF-methode toepassen (Jan-boeren-fluitjes). Met gevoel voor het onderwerp kom je een heel eind. Zo zal de factor ‘het aantal stappen’ niet veel toevoegen als je ‘het aantal kilometers’ al gebruikt. Factoren kun je soms voor elkaar verwisselen. Allebei toevoegen heeft dan geen nu. Je mag kiezen welke het makkelijkst of het meest pragmatisch is. In dit geval het aantal kilometers.
Ook factoren met een heel lage voorspellende waarde kun je beter weglaten. Dat je ’s ochtends drie in plaats van vier boterhammen hebt gegeten zal best een factor zijn. Toch ga ik liever af op het aantal kilometers. Factoren die een formule niet sterk verbeteren hebben geen waarde. Is het aantal boterhammen een factor? Absoluut, maar de voorspellende waarde is dusdanig laag dat hij in praktische zin geen waarde heeft. Wat uiteraard niet wegneemt dat je goed moet eten voor je aan een fikse tocht begint. Maar dat is een andere discussie.
Pingback: Introductie tot variantieanalyse « Florian Hoornaar