www.ambica.cz - Ambica s.r.o. je česká konzultační a softwarová firma, která se specializuje na řešení Business Intelligence a Data Warehousing na platformě Microsoft.
Domovská stránka

PRODUKTY, ŘEŠENÍ

TECHNOLOGIE
BI platforma
Datová platforma
Uživatelské rozhraní
Office
Prezentační vrstva
O společnosti Kontakty Zákazníci Kariéra Z tisku Hledat English
Data Mining - příprava dat Tisk E-mail

Je třeba definovat datové zdroje, které by měly být konzistentní a měly by obsahovat čistá data. Data v primárních systémech mohou být uložena v mnoha různých formátech na mnoha různých místech společnosti. V datech se mohou vyskytovat různé chyby typu „zákazník nakoupil zboží předtím, než se narodil“, „prodej se realizoval v obchodě, který ještě neexistoval“, …. Tyto možné nekonzistence v datech je třeba odhalit a odstranit. Pokud ve firmě existuje datový sklad, který požadovaná data obsahuje, je tento krok výrazně urychlen. V datovém skladu by se měly nalézat už vyčištěná a konzistentní data. Pokud není datový sklad dosud zaveden, bývají právě data miningové problémy dobrým důvodem, proč ho zavést. Na čistých datech se provádějí dále transformace do tvaru vhodného pro použití data miningu.

SQL Server 2005/2008 Integration Services pak obsahují veškeré nástroje potřebné pro tento krok data miningového procesu. V případě SQL Serveru 2000 jsou k dispozici služby DTS, které také postačují.

Dostat data do potřebné formy není úplně snadný úkol, který může vyžadovat několikastupňové transformace a agregace.

dm_2

    2. Fáze: příprava dat (zdroj obrázku: Microsoft)

Příklad:

V datovém skladu je faktová tabulka, kde každý řádek odpovídá jedné prodané položce. U každého řádku je uveden i datum prodeje položky, obchod, kde se prodej uskutečnil, obsluhující obchodník, způsob platby, cena, …. Tato data jsou konzistentní a zkontrolovaná, ale nejsou ve vhodném tvaru pro řešení data miningového problému. Zkoumáme zákazníka, nikoli položku. Potřebujeme data nejlépe ve formě, kdy jeden řádek odpovídá jednomu zákazníkovi a ve sloupcích jsou atributy zákazníka, na základě kterých chceme predikci provádět (věk, plat, bydliště, … viz 1.krok DM).

<< Předchozí            Následující>>

 
(C) Copyright 2012 AMBICA s.r.o.