Wat is datakwaliteit?

Een compleet model voor datakwaliteit biedt het SmarTEST IDQ model. De kwaliteit en bruikbaarheid van een gegevensverzameling worden bepaald door drie dingen:

1. De inherente kwaliteit - de fundamentele eigenschappen van de gegevens zelf, ook wel de inherente eigenschappen genoemd;

2. De kwaliteit van de meta-data - de ‘informatie over de informatie': toelichting, herkomstgegevens, aanwijzingen voor gebruik, veiligheidsclassificatie enzovoort;

3. De systeemkwaliteit - de kwaliteit en functionaliteit van het systeem waarin de informatie is opgeslagen of waarmee deze wordt benaderd.

Het IDQ model dekt onderdeel 1 en 2. Onderdeel 3 wordt vooral gedekt door het model voor systeemkwaliteit. Voorheen ISO9126, tegenwoordig wordt ISO25010 gehanteerd. De Nederlandse versie van al deze modellen vindt u hier.

 

Hoe meet je datakwaliteit? Data Profiling.

Data Profiling

Een uiterst krachtige en praktisch inzetbare techniek voor het concreet beoordelen van gegevensverzamelingen en databases is "Data Profiling". Een techniek die, met enige training, ook door softwaretesters goed inzetbaar is.
De kracht van deze techniek is dat het een ‘van binnen naar buiten'-aanpak is. Dat wil zeggen dat een gegevensverzameling met de bijbehorende data en metadata wordt beoordeeld zonder dat daar veel externe informatie en expertise voor nodig is.

Lees meer in hoofdstuk 19 "Datakwaliteit" van SmarTEST.

Als gegevensverzamelingen een belangrijk projectresultaat zijn, bieden het IDQ model en Data Profiling hulp. Typische toepassingsvoorbeelden zijn: Datawarehouse (DWH), Business Intelligence (BI), CRM- en ERP systemen.

 

 

Thema avond maart 2014

Datakwaliteit bij Valori

De thema avond van 26 maart 2014 trok veel belangstelling. Download hier de en hier  de .

 

Een vervuild meer

Datakwaliteit is als een meerNet als voor software geldt ook voor data: een succesvolle benadering begint bij de bron. Thomas Redman vergelijkt in zijn boek "Data Quality, The Field Guide" slechte data met een vervuild meer. Je kunt allerlei acties ondernemen om de waterkwaliteit te verbeteren, maar zolang er vervuild water in blijft stromen, krijg je het meer niet schoon.

 

 

Waarom aandacht voor datakwaliteit

Vreemd eigenlijk: testers hebben het altijd over de systemen en maar zelden over de data. Terwijl het uiteindelijk om die informatie gaat: de juiste cijfers in het grootboek, actuele aan- en verkoopkoersen in het handelssysteem en adequate informatie in de salesdatabase. De systemen, met al hun functionaliteit en andere fraaie eigenschappen zijn afhankelijk van de kwaliteit van de informatie die we erin stoppen: ‘garbage in, garbage out’.