English Čeština

Datová kvalita – podrobný přehled

datová kvalita

Datová kvalita

Práce s daty

Řada ekonomických subjektů v průběhu své činnosti sbírá, udržuje a následně využívá množství dat, která zdánlivě s přímou ekonomickou činností nesouvisí.  Často se jedná o data o obchodních partnerech, zaměstnancích apod. Takováto data vznikají dlouhodobě, pořizují je různí uživatelé nebo vznikají v různých systémech. Často je tedy patrná různorodost zdrojů odpovídající různé úplnosti nebo věrohodnosti takto sesbíraných dat. 

Důvody zajišťování datové kvality

Při nedostatečné kvalitě sbíraných dat může jejich následné užívání přinášet vícenáklady. Jasně vyčíslitelnými náklady mohou být náklady na nedoručitelnou korespondenci nebo vícenásobné reklamní zásilky jedné osobě. Používání nekvalitních dat však může přinášet i méně zřejmé náklady v podobě zhoršení komunikace s partnerem a poškozování firemní image.

Kroky ke zlepšování datové kvality

datZlepšování datové kvality není jednorázová záležitost, ale dlouhodobý proces. Během něj je nutné kvantifikovat výchozí kvalitu sledovaných dat. Tuto pak dále monitorovat prostřednictvím vypovídajících výstupů z pohledu času či vstupujících zdrojů. Dalším nutným krokem je omezení vstupu nekvalitních dat automatizovanou kontrolou prováděnou v okamžiku pořizování dat. Teprve na dalším místě mohou být proaktivní opatření, která budou kvalitu již pořízených dat zlepšovat. Tyto kroky musí být navrženy na základě vyhodnocení výchozí kvality dat a určení typických chyb v datech.

Obecně lze takovéto aktivní operace členit do různých skupin:

  • Parsing – rozdělení sloučených informací na atomické elementy.
  • Identifikace obsahu podle domény – odpovídající uspořádání jednotlivých částí informace podle kategorií.
  • Náhrady – záměny nesprávného způsobu zápisu.
  • Standardizace – uvedení tvaru informace do jednotné podoby.
  • Obohacení – doplnění chybějící informace vyplývající z kontextu.
  • Deduplikace – sloučení opakujících se informací do jedné.

Cíle procesu zajištění datové kvality

Cílem procesu zajištění datové kvality musí být sada unikátních záznamů s úplnými, formálně a věcně správnými hodnotami domény v souladu s definovanými pravidly. Ať už se jedná o shodu se vzorovou číselníkovou hodnotou nebo prostou formální shodu se vzorem.

Pro tyto účely jsou používány veřejně dostupné číselníky poskytované institucemi veřejné správy (RÚIAN, RES, jména a příjmení) nebo číselníky definované řešitelem či zadavatelem a obecně užívané vzory (telefonní číslo, datum narození, rodné číslo, e-mail atd.)

Výstupy čištění dat

Výstupy z projektu datové kvality jsou:

  • Sada vyčištěných dat.
  • Logy automaticky prováděných činností s daty.
  • Reporty vývoje datové kvality.

Řešení DQ společností AMBICA s.r.o.

Zlepšení kvality zákaznických dat je realizováno v několika etapách:

LogoAmbica

  • Nastavení metrik pro měření datové kvality.
  • Omezení vstupu nevalidních dat.
  • Počáteční vyčištění již existujících dat.
  • Průběžné měření a reportování posunu datové kvality.
  • Aplikace pro manuální dočištění dat.
  • Návrh záznamů určených pro deduplikaci.
  • Automatická/manuální deduplikace podle podmínek a priorit zadavatele.
  • Nastavení procesů trvalého zajištění datové kvality.

Od nastavení a používání metrik pro měření datové kvality dochází k pravidelnému průběžnému měření s výstupy do reportů. Tak lze monitorovat vývoj datové kvality ve všech fázích projektu i při běžném životním cyklu sbíraných dat.

Nastavení metrik pro měření datové kvality

Pro možnost měření musí být jednotlivé atributy sbíraných dat kontrolovatelné podle přesných pravidel.

Formálně:

  • Minimální/maximální délka.
  • Přítomnost/nepřítomnost nějakého znaku.
  • Formátování zápisu (velikost písmen, mezery).

Věcně:

  • Hodnota definovaná z výčtu.

Obvykle se však jedná o komplexnější pravidla kombinující více aspektů současně.

Na základě těchto pravidel je číselně ohodnocena správnost jednotlivých atributů. Jednotlivé atributy jsou často slučovány do větších celků (např. ulice, číslo popisné, obec, PSČ do poštovní adresy). V dalším kroku dochází k ohodnocení těchto celků a na závěr k hodnocení celého záznamu. Tím je hierarchicky ohodnocena kvalita celého záznamu s možností rozpadu kvality na detail. Tak lze reportovat vývoj kvality v čase nebo podle uživatelů pořizujících data nebo zdrojových  systémů.

Omezení vstupu nevalidních datdata

V okamžiku znalosti míry nekvality sbíraných dat, pro které bylo nutné stanovit pravidla posouzení kvality, je nutné přenést maximální míru validace na počátek procesu sbíraných dat. Obsluha musí být o chybě nebo jen podezřelé informaci vyrozuměna a nucena chybu odstranit.

Při zachycení chyby hned na počátku procesu sbírání dat je lepší možnost opravit chybu v souladu se skutečností. Každá pozdější případná oprava obsahuje určitou míru nejistoty o správnosti navrženého opatření. Proto do vstupních mechanismů pro sběr dat jsou v maximální míře aplikována známá validační pravidla. Důslednou aplikací a následným užíváním takovýchto validací by mělo dojít k poklesu vstupu nevalidních dat do evidence.

Počáteční vyčištění již existujících dat

datassaV okamžiku startu projektu datové kvality již obvykle existuje nějaké množství dat, na něž je dodatečně nutné aplikovat validační pravidla a v souladu s nimi je opravit. Zde pak záleží na objemu takto zpracovávaných dat a míře konzervativnosti zvoleného postupu. Podle těchto kritérií jsou připraveny mechanismy pro automaticky provedené opravy. Tyto opravy jsou po důsledném otestování na vzorku dat v dalším kroku provedeny. Vždy však zůstanou záznamy, které se opravit nepodaří. Podíl automaticky opravených a neopravených lze ovlivnit strategií automatizovaného čištění.

Čím je zvolena progresivnější strategie automatického čištění, tím je opraven vetší podíl nevalidních dat, ale existuje i větší míra rizika, že oprava přinese nežádoucí významovou změnu hodnoty. Toto riziko nelze zcela vyloučit nikdy.

Průběžné měření a reportování posunu datové kvality

datasPo jednotlivých krocích oprav je nutné měřením kvality ověřovat, že prováděné akce vedou požadovaným směrem. Ne vždy to musí být číselný posun v kvalitě k lepším hodnotám. Pokud dochází k odstraňování nevalidních textů typicky u e-mailu hodnota „nemá“, „neuvedl“, může docházet i ke zhoršování číselného ohodnocení kvality. Důležitá je možnost monitoringu datové kvality.

Aplikace pro manuální dočištění dat

Data, která nebyla opravena automaticky, jsou postoupena k ručnímu čištění. V některých případech může obsluha vyhodnotit správnou variantu hodnoty nebo musí učinit doplňovací dotaz a hodnotu získat nebo ověřit u zdroje. Optimálně dojde k úplné opravě záznamu nebo bude záznam vyřazen z evidence. Reálně však bývají ponechány v evidenci i záznamy, které se podařilo opravit pouze částečně.

Návrh záznamů určených pro deduplikaci

Často se stane, že v evidenci jsou data o stejném subjektu. Deduplikací dojde ke sloučení takovýchto záznamů a nahrazení jediným záznamem. Pokud se záznamy shodují ve všech atributech, jejich nalezení je snadné. Častější ovšem bývají dílčí rozdíly, projevující se neúplností záznamu nebo naplnění jinými hodnotami atributů v záznamu. U takových záznamů jsou navržena pravidla, podle kterých jsou identifikovány záznamy, kde je předpoklad, že odpovídají stejnému subjektu. A po kontrolách je nutné rozhodnout, zda k jejich sloučení má dojít automatizovaně nebo manuálně po individuálním zkontrolování obsluhou.

Automatická/manuální deduplikace podle podmínek a priorit zadavatele

Rozhodnutí, zda použít automatickou nebo manuální deduplikaci, často závisí na objemu dat vyhodnocených pro deduplikaci. Výhodou manuální deduplikace je možnost změkčit pravidla pro identifikaci záznamů, které mají být deduplikací zasaženy. Tím mohou být nalezeny záznamy, které mají některé atributy vyplněné rozdílnými hodnotami. Při automatické deduplikaci je obtížné stanovit jednoznačná pravidla, která by takovéto kolize řešila. Při manuální deduplikaci je rozhodnutí na obsluze, která nemusí navrženou skupinu pro deduplikaci akceptovat.

Nastavení procesů trvalého zajištění datové kvality

Poslední fází projektu, která však může být implementována už během předchozích kroků, je nastavení kontrolních mechanismů, které by bránily opětovnému zanesení nevalidních dat do evidence. Důležité součásti tohoto kroku jsou již realizované kroky:

  • validace dat co nejdříve jejich sběru a tlak na jejich opravu u zdroje,
  • průběžný monitoring datové kvality.

Jako doplněk se jeví informace o přírůstcích v datech a o jejich kvalitě. U nevalidních dat z přírůstku budou tyto postupovány manuálnímu vyčištění.