Datové pumpy
Datové pumpy se starají o načítání dat z primárních systémů do datového skladu. Jejich základem jsou tzv. ETL nástroje. Jak již vyplývá z názvu, ETL nástroje zabezpečují tři důležité kroky v plnění datového skladu daty:
- Extraction (extrakce, vylití) dat z databází primárních datových zdrojů. V tomto kroku je typicky požadována maximální rychlost extrakce s cílem minimálně zatížit primární systém. Typicky probíhá 1 : 1 bez dalších úprav. Toto vylití je směřováno do 0 vrstvy datového skladu nebo do textových souborů.
- Transformation (transformace, kontrola dat) - v tomto kroku dochází k rozhodujícím úpravám dat před vstupem do datového skladu. Probíhá kontrola na referenční a doménovou integritu, data mohou být agregována, vypočítávány různé vypočítávané ukazatele. Veškeré operace jsou zaznamenány v logu. Do logu jsou zaznamenána i chybová hlášení.
- Loading (plnění) 1. vrstvy datového skladu. Důležitou úlohou datové pumpy je řízení návaznosti jednotlivých úloh (tasků) v procesu pumpování. Tyto úlohy mohou být zabezpečovány jak nástroji datové pumpy, tak speciálně vytvořenými skripty.
ETL (zdroj: Microsoft)
Plnění 0. vrstvy je v podstatě přesun zdrojových dat do datového skladu s minimálními nebo žádnými úpravami. Jako zdroj většinou slouží přímé připojení do zdrojové databáze, textové extrakty exportované z primárních systémů a další externí zdroje, většinou také upravené do textové formy. Pro zajištění přírůstkového plnění dat je nutné zajistit identifikaci změn v primárních systémech. To je nezbytné pro zajištění denní frekvence aktualizace dat.
Plnění 1. vrstvy vychází z dat 0. vrstvy a je po logické, formální i výpočetní stránce velmi náročným procesem. Výsledkem jsou zkonsolidovaná a očištěná detailní data v 1. vrstvě datového skladu. V této části probíhá i většina datových kontrol a sekundárním produktem jsou chybové reporty.
Při případném plnění 2. vrstvy probíhá agregace dat. Pokud jsou součástí datového skladu i účetní data, probíhá zde i jejich zpracování. Některé klientské nástroje umožňují automatickou správu agregací.
DTS Microsoft
Microsoft poskytuje technologii zvanou Data Transformation Services (DTS); technologie je součástí instalace MS SQL Serveru 2000 a jedná se o ETL nástroj, který slouží především k výše jmenovaným úkolům. Technologie DTS umožňuje importovat, exportovat a transformovat data pomocí COM, OLE DB, a Microsoft ActiveX Scripts. Pomocí DTS může správce datového skladu vytvářet, spravovat a udržovat datová tržiště a datové sklady. DTS poskytuje:
- stroj na řízení posloupnosti úloh, který umožňuje provádění posloupností komplexních operací;
- integrované postupy pro čištění, přenos, validaci a transformaci dat;
- uživatelsky přívětivý návrhář jednotlivých kroků transformace dat a jejich posloupnosti;
- uložení popisu transformace dat a posloupnosti kroků (metadata) ve formě tzv. packages (balíčků) do Microsoft repository, MS SQL Serveru nebo souborového systému;
- poté, co je balíček uložen, může být spouštěn automaticky (dávkově) pomocí SQL Server Agenta;
- integraci s MS OLAP Serverem.
Uživatelské prostředí DTS
Každá datová pumpa ("package") je orientovaný graf, kde uzly grafu jsou jednotlivé činnosti (akce) a spojnice určují posloupnost jejich provádění. Na základě úspěšnosti vykonání činnosti lze provést větvení: On success (úspěch), On complete (provedení činnosti, nehledě na výsledek), On failure (chyba). Taskem se rozumí například:
- připojení k datovému zdroji a přenos dat na základě dotazu SQL;
- procedurální zpracování pumpovaného záznamu pomocí Microsoft ActiveX Scriptu (např. VB Scriptu);
- provedení DML příkazu SQL (např. update);
- provedení DDL příkazu SQL (např. create table);
- zaslání zprávy e-mailem;
- volání externích programů.
|