Introductie tot variantieanalyse

In het eerste deel van de introductie tot variantieanalyse schreef ik dat het aantal boterhammen dat je eet geen factor is in het model om de tijdsduur van een wandeling te berekenen. In de situatie die ik schetste wilde ik een wandeling plannen en ik vraag mij af hoelang ik daar mee bezig ga zijn. Voor mij zijn de belangrijkste factoren het aantal kilometers, het aantal hoogtemeters en het type pad. Het aantal boterhammen zal best een factor zijn, maar hij is te onbelangrijk om op te nemen in het model.

Stel dat ik niet zou gaan wandelen, maar als professioneel atleet ga hardlopen. Dan is mijn voeding plots wel een factor. Het aantal grammen koolhydraten is van groot belang en zal ik absoluut opnemen in het model. Ik zou proberen het aantal boterhammen (of macroni-schelpjes) zo te plannen dat ik voor een gegeven afstand zo min mogelijk tijd nodig heb. Welke factoren je in een model opneemt is deels op de computer te berekenen en zal je deels moeten aanvoelen.

Hoe een model eruit ziet is voor een groot deel afhankelijk van de gebruiker en het doel wat hij of zij heeft. Het model is als een kaart van een stad: een vereenvoudigde weergave van de werkelijkheid. Een metrokaart geeft een globale indruk van de plaatsen een straten in een stad, maar je moet deze niet al te letterlijk volgen. De waterleidingmaatschappij zal een andere kaart gebruiken waarop details staan die voor hun relevant zijn. Zo is deze tekst ook hier-en-daar iets vereenvoudigd en daardoor niet meer 100% correct.

Dat een model voorspelt in plaats van berekent is een direct gevolg van de vereenvoudiging. Als er geen vereenvoudiging zou zijn (met alle factoren houden we rekening), dan klopt de voorspelling exact en is het dus een berekening. We zagen dat de voorspelling een afwijking heeft; de ene keer naar boven, de andere keer naar onder. Deze voorspelfouten komen doordat we factoren hebben vergeten of met opzet hebben weggelaten. Hierdoor kunnen we zeggen dat de werklijkheid gelijk is aan het model plus de fouten. Het model kun je uitdrukken in een percentage van de werkelijkheid (Dit gaat overigens iets lastiger dan het op het eerste oog lijkt, maar dat maakt voor het principe niet uit). Een dergelijk percentage heet een proportie, in dit geval de proportie verklaard model.

Dit is een mooi moment om te kijken naar wat het model nou precies verklaard. Het model verklaard waarom we voor de ene wandeling twee uur nodig hebben en voor een ander drie uur. Dit komt doordat de eerste wandeling kort was, of minder hoogteverschil heeft of omdat we over een beter pad lopen. Een verandering in één of meerdere factoren gaat gepaard met een verandering de wandeltijd. Bij een verandering van de lengte, de hoogte of het type pad, zien we een verandering in de benodigde wandeltijd. Deze verandering is niet willekeurig, maar in een model te gieten. Het model verklaart de veranderingen, die we varianties noemen. Met variantieanalyse proberen we zo goed mogelijke modellen te maken waarbij een zo groot mogelijk deel van de variantie verklaard wordt. Dit deel is de proportie verklaard model oftewel de proportie verklaarde variantie.

De proportie verklaarde variantie wil je zo hoog mogelijk hebben. Tegelijkertijd proberen we bij het opzetten van een model nog steeds zo min mogelijk factoren te gebruiken. Dit is een spanningsveld waarbij we bij iedere factor moet afwegen wat zijn bijdrage is aan het model en wat de kosten zijn om in een specifiek geval zijn waarde te bepalen (bijvoorbeeld: het aantal kilometers of het aantal stappen). We laten een factor weg waarneer de proportie verklaarde variantie niet sterk daalt. Met andere woorden: mét of zónder de factor is proportie verklaarde variantie ongeveer hetzelfde.

Florian Hoornaar

A blog on software entrepreneurship

Introductie tot variantieanalyse

Leave a comment Cancel reply

Share this:

Related

Leave a comment Cancel reply