Paneldata en statistiekpakketten, de verschillen

Vandaag heeft DDMM een nieuwe editie van zijn nieuwsbrief gepubliceerd. Daarin staat een artikel over de verschillen tussen de data uit statistiekpakketten en data uit panelonderzoek. Dit artikel is overgenomen gezien de vele vragen die er over zijn in de markt. DDMM-data worden gegenereerd met behulp van een panel. Van 9.000 respondenten wordt via meetsoftware bijgehouden op welke sites en apps zij zijn geweest. Vervolgens wordt de paneldata gewogen en geëxtrapoleerd naar een totaal van de populatie. Naarmate het panel een betere afspiegeling van die populatie is, zal het geprojecteerde bereik- of bezoekcijfer dichter bij de ‘waarheid’ liggen. Allen de vraag is, wat is de waarheid? Veel sites werken met eigen statistiekprogramma’s of dat van derden zoals Google Analytics, comScore, Omniture of Adobe. Dergelijke programma’s produceren een groot aantal gegevens op basis van meetcodes en/of pixels die worden aangeroepen op het moment dat iemand of iets op een pagina komt. Het resultaat van deze metingen kan op een aantal belangrijke parameters verschillen met de resultaten uit een panel. De belangrijkste verschillen zijn hieronder weergegeven.

Unieke bezoekers

Het aantal ‘unieke bezoekers’ geeft aan door hoeveel personen of ‘andere eenheden’ een website of een pagina is bezocht. In het panelonderzoek wordt veelal gesproken over netto bereik en het resultaat is gebaseerd op het gedrag van mensen. Bij pixelmetingen is de basis vaak een cookie of andere kunstmatige entiteit. Zodra iemand zijn cookies verwijdert van zijn machine en vervolgens weer op dezelfde website komt als daarvoor, telt hij of zij als twee unieke cookies. Hetzelfde geldt als iemand vanaf een andere browser of device op die betreffende website komt. Elke keer wordt die ene persoon weer als unieke bezoeker geteld bij de pixelmetingen. Dat gebeurt niet bij een panelmeting. Daar zorgt de login ervoor dat steeds dezelfde persoon wordt herkend op elk van de browsers/devices.

Doelgroepen

Door het feit dat panels uit personen bestaan, is uit paneldata heel goed doelgroepinformatie te halen. Het panel is (als het goed is) een afspiegeling van de te meten populatie, dus er zitten altijd een aantal standaardkenmerken in paneldata. Als de populatie iedereen van 13 jaar of ouder is, wordt er bij de werving altijd naar leeftijd gevraagd. Die leeftijd kan dan later worden gekoppeld bij analyses of verdere verwerking van de output. Als ook naar geslacht en sociale klassen wordt gevraagd, kunnen de variabelen ook worden gecombineerd. Bijvoorbeeld ingeval van de veel gebruikte doelgroep ‘Man 20-49 AB’.

Pixelmetingen hebben geen doelgroepinformatie omdat de data niet aan personen is gekoppeld. Op basis van IP-adressen of besturingssystemen kan wel op een andere manier een gradatie worden aangebracht, zoals ‘alle iOS-gebruikers in Noord- Zuid Holland’, maar dit zijn meestal geen gangbare media-doelgroepen. Bovendien is de indeling op basis van IP-adressen niet altijd waterdicht.

Extrapolatie

Paneldata worden zoals gezegd geëxtrapoleerd naar populatie-totalen. Dat gebeurt binnen van te voren vastgestelde marges. De meest gangbare is die 95% betrouwbaarheid. Afhankelijk van de omvang van de steekproef en het gevonden resultaat (bijvoorbeeld een bereikspercentage) kan dan vastgesteld worden hoe groot de marges zijn rond om de gevonden uitkomst. Voorbeeld: van website x met een maandbereik van 10% kan met 95% betrouwbaarheid gezegd worden dat in werkelijkheid het bereik tussen 8 en 12% ligt.

Binnen de statistiekpakketten wordt er niet geëxtrapoleerd, maar telt normaal gesproken elke meting mee. Het aantal keren dat een pagina of website is bezocht, is dan ook direct af te leiden uit de totalen van het betreffende pakket. Zonder marges en met optimale betrouwbaarheid, uitzonderingen daar gelaten.

In deze statistieken zitten dan ook alle metingen. Binnen- en buitenland en vaak ook robotverkeer, maar dat kan eruit gefilterd worden. Bij het vergelijken van paneldata en statistiekdata moet goed gerealiseerd worden wat er precies vergeleken wordt. In DDMM wordt er gemeten in de doelgroep 13+ in Nederland. Binnen de data van een statistiekpakket moet dan goed gedefinieerd worden wat 13+ Nederland is. Nederland is op basis van IP-nummers nog redelijk goed af te bakenen, maar 13+ is veel lastiger. Het betekent namelijk dat 0-12 jaar eruit gefilterd moet worden.

Gelijke definities

Naast het gelijk houden van doelgroep-definities is het ook van belang om de meeteenheden en de te meten pagina’s gelijk te houden in beide bronnen. Als niet alle pagina’s getagd zijn, maar de meetsoftware in het panel registreert wel elke afzonderlijke pagina, ontstaan er verschillen. En bovendien moet gecheckt worden of een ‘pagina’ in beide gevallen ook echt dezelfde pagina is. Dat geldt ook voor de definitie van een bezoek en de lengte daarvan. Wanneer is sprake van een bezoek en wanneer wordt een bezoek door een time-out afgekapt?

Zo zijn er nog tal van andere oorzaken die de vergelijking tussen paneldata en data uit statistiekpakketten lastig maken. Het zijn twee verschillende waarheden, die zich het beste laten vergelijken met appels en peren. Ze kunnen allebei goed van kwaliteit zijn, maar hebben ook elk hun specifieke kenmerken.