Min kund har ett problem med datakvalitén

Just den här historien handlar om ett stort retailbolag, och om datakvalité på ett oväntat sätt. Vi byggde ett stort datalager som bland annat innehöll försäljningsdata, och in i datalagret strömmade det stora mängder data dagligen. Från datalagret kunde man sedan göra analyser på längden och bredden.

En dag kommer Krister, försäljningsansvarig för en serie produkter, rusande och var mycket upprörd över att hans bonus minskat och förvunnit helt under sommaren.

Vad som hänt var att de geografiskt utspridda lagren succesivt bytt system för lagerhållningen och det nya systemet var lite felprogrammerat – så just Kristers artikelserie skickades inte över på det sätt vi förväntade oss när vi läste in all data. Kruxet var att just hans artikelserie var så liten i jämförelse med all försäljning att hans område minskat försvann i bruset.

Detta är, för oss som jobbar med BI, en ganska klassisk situation där data plötsligt ”saknas”. Lösningen var ganska lätt, vi fick korrigera inläsningen av artiklar och sedan göra en extra körning där vi läste in den historiska data som saknades. Krister blev nöjd och historien kunde ha slutat här.

Men – vi införde också ett skript som analyserade volymen av inlästa produkter per produktserie och som larmade om det började avvika för mycket.

Vikten av att införa det där lilla automatiserade testet går inte att betona för mycket.

Varje gång jag infört ett litet automatiserat kontrollskript växer detta ganska snabbt, plötsligt har man inte bara ett skript som kontrollerar en viss sak, utan även ett annat skript som kanske försäljning indelat i olika geografiska områden mot en sannolikhetssiffra, och strax därefter skript till exempel kontrollerar kunder på längden och bredden. De här automatiska skripten växer och växer när man väl börjar med dem. På något ställe där jag jobbat kom det ”lilla skriptet” upp i över 2000 kontroller, och med det fångar man bristande datakvalité innan kunden märker det.

Detta är ett av alla sätt att attackera dålig datakvalité.

OBS: Alla bolagsnamn, situationer och namn i berättelsen är ändrade för att inte lämna ut några detaljer kring konsultuppdrag.