Datakwaliteit; meten, verbeteren én borgen

“Garbage in, garbage out”; Wat er in gaat, komt er ook weer uit. Dit geldt ook voor IT-systemen waarbij de kwaliteit van de input cruciaal is om een goede output te realiseren. Tegenwoordig zie je bij steeds meer BI-trajecten dat een onderzoek naar de datakwaliteit verplicht is alvorens een dashboard gebouwd wordt. Niet gek als je nagaat dat er binnen (bijna) elke organisatie verbetering valt te behalen op de kwaliteit van de data.

Wat is datakwaliteit?

Data begint steeds verder door te sijpelen in het bedrijfsleven. Organisaties erkennen dat data het nieuwe goud is om te groeien en de concurrentie te verslaan, mits data optimaal benut wordt. Iedere organisatie bezit data; de een meer dan de ander, waarbij data vaak gebruikt wordt in de vorm van informatievoorziening. Men wil weten wat er ‘onderwater’ gebeurt om zo kritieke beslissingen te kunnen nemen die de toekomst van de organisatie kunnen beïnvloeden. Nagaande dat 50% van de kosten van een doorsnee organisatie wordt veroorzaakt door onjuiste data zou dé motivatie moeten zijn om ermee aan de slag te gaan! Maar wat verstaan we eigenlijk onder de term ‘datakwaliteit’? Er zijn meerdere definities van datakwaliteit, maar wij hanteren graag: “datakwaliteit is de mate waarin data geschikt is voor het doel waarvoor ze gebruikt wordt”.

Wat kun je meten?

Datakwaliteit is goed te meten, hiervoor kun je gebruik maken van een datakwaliteitscan. Een datakwaliteitscan kun je uitvoeren over een selectie van databronnen.

Hiermee test je in feite elk gewenst data-record op een aantal vooraf gedefinieerde ‘checks’. Deze checks kun je zelf definiëren (of de leverancier doet dit vóór jou), omdat je immers zelf het beste weet hoe de data er uit zou móeten zien.

Dit kan vrij simpel zijn; een voornaam dient met een hoofdletter te beginnen, maar het kunnen ook complexe eisen zijn via koppelingen met externe systemen. Er zijn diverse aspecten die je kunt meten om de datakwaliteit te toetsen. De meest gebruikte zijn

Dubbelingen: staat een collega meermaals in de personeelsomgeving, dan spreek je hierbij van een dubbeltelling in de data, hij moet immers maar één keer voorkomen in hetzelfde systeem.

Formaat regels: een mobiel nummer moet uit tien cijfers bestaan, waarvan de eerste twee altijd 06 moeten zijn. Op deze manier controleer je bijvoorbeeld of er geen foutieve informatie tussen staat; een nummer dat bijvoorbeeld met 07 begint.

Volledigheid: zijn alle gegevens wel volledig ingevuld? Denk hierbij aan formulieren die door klanten ingevuld dienen te worden waarbij een set aan gegevens ingevuld moet worden en een gedeelte optioneel is. Je wilt niet dat er gegevens ontbreken die vereist zijn.

Consistentie: hoe is de relatie onderling tussen de data? Kloppen dezelfde typen gegevens bijvoorbeeld wel in meerdere systemen (bijvoorbeeld de gegevens van een accountmanager die zowel in het primaire systeem als in het CRM-systeem juist moeten zijn)

Zwevende data: gegevens die helemaal niet gekoppeld zijn en dus in feite ‘zweven’ en niet zijn toegewezen.

Door deze aspecten te meten kun je de datakwaliteit binnen jouw organisatie analyseren én monitoren. Voornamelijk het laatste is van belang, omdat er dagelijks nieuwe data wordt toegevoegd óf omdat bestaande data wordt gewijzigd. Het eenmalig scannen van de datakwaliteit is daarom niet voldoende om in de toekomst gegarandeerd kwalitatieve data te bezitten.

Het verbeteren van de datakwaliteit!

Als basis weet je nu wat datakwaliteit inhoudt en hoe je het kunt meten. Vervolgens wil je natuurlijk de mogelijke ‘defects’ in de data verbeteren. Het ‘repareren’ van de defects wilt niet zeggen dat de kwaliteit ook goed blijft; je moet de problemen bij de bron(nen) aanpakken.

Om te beginnen is het goed om binnen je organisatie een vaste IT structuur te bespreken. Denk bijvoorbeeld aan de manier waarop databases worden ingericht. Door een uniforme structuur te hanteren zullen er in de toekomst minder/geen defects optreden op het gebied van consistentie. Ik vind dit niet zo’n goed punt. Ik snap niet helemaal wat je probeert uit te leggen.

Vervolgens is het goed om dubbelingen aan te pakken. Dit zijn gegevens die meermaals voorkomen, terwijl dit niet de bedoeling is. Naast het controleren en verwijderen van dubbele records, is het ook goed om de processen omtrent defects goed te analyseren; het kan zijn dat door een fout in het proces gegevens dubbel worden ingevoerd!

Zorg voor ‘awareness’ in je organisatie. Het klinkt misschien logisch, maar het is enorm belangrijk om iedereen op de hoogte te brengen van de essentie van datakwaliteit én waarom het juist nu zo belangrijk is/wordt. Organisaties worden afhankelijk(er) van de informatievoorziening, waarbij kritieke managementbeslissingen steeds vaker gebaseerd zijn op data.

Monitor de datakwaliteit

Nadat je de datakwaliteit (eenmalig) hebt verbeterd, wil je de kwaliteit blijven monitoren. Op het moment dat er een nieuw proces wordt opgezet waardoor er gegevens dubbel worden ingevoerd (dubbelingen), dan wil je snel kunnen schakelen alvorens er meerdere databases worden ‘vervuild’ met hetzelfde probleem. Met een datakwaliteitsmonitor kun je op een visuele manier inzien wat de stand van zaken is omtrent de datakwaliteit binnen jouw organisatie.

Het monitoren van de datakwaliteit is in feite een vorm van Business Intelligence; je analyseert en monitort bedrijfsdata op een visuele wijze om cruciale beslissingen te kunnen nemen. Net als bij Business Intelligence is het daarom bij een datakwaliteitsmonitor goed om deze bij de juiste personen neer te leggen: een goed borging via een bewezen Data Governance proces is hierin de sleutel.

Siderian en de VERA datakwaliteitscan

Bij Siderian leveren we voor de Nederlandse woningcorporaties als dienst een VERA datakwaliteitscan. De VERA datakwaliteitscan is gebaseerd op het VERA model, wat speciaal voor de corporatiesector is ontwikkeld. Door data uit het primaire systeem om te zetten naar het VERA datamodel, kunnen wij eenvoudig en snel een datakwaliteitscan uitvoeren op de ERP-data. Hierbij weet je niet alleen waar de defects liggen, maar kun je ook gebruik maken van de datakwaliteitmonitor, om altijd op de hoogte te zijn van eventuele defects binnen jouw organisatie!

Daarnaast bieden we ook een datakwaliteitscan aan voor het Common Data Model (CDM). Zou je graag meer willen weten over hoe een VERA datakwaliteitscan óf een CDM datakwaliteitscan in zijn werk gaat? Klik dan op een van de onderstaande knoppen!

Of ben je geïnteresseerd in wat wij nog meer te bieden hebben op het gebied van datakwaliteit en data governance? Neem gerust een kijkje op onze website of neem contact met ons op.

Datakwaliteit; meten, verbeteren én borgen

Wat is datakwaliteit?

Wat kun je meten?

Het verbeteren van de datakwaliteit!

Monitor de datakwaliteit

Siderian en de VERA datakwaliteitscan

Gerelateerde artikelen

Hoe een dashboard jou helpt proactief te sturen

Herken de ‘processen’ in jouw organisatie

Ook starten met het bouwen van een mooi dashboard?

Gerelateerde artikelen

Hoe een dashboard jou helpt proactief te sturen

Herken de ‘processen’ in jouw organisatie