Jak zajistit aktualizaci datových sad
Minimum publikovaných dat se v průběhu času nemění. Největší zájem ze strany uživatelů bývá zpravidla o aktuální data. Distribuce datových sad je proto nutné pravidelně aktualizovat dle periodicity aktualizace nastavené v záznamu o datové sadě. Aktualizuje se buď již jednou publikovaná distribuce, nebo se vytváří nová distribuce obsahující aktualizaci (tj. nově přidané záznamy, nebo změny v již publikovaných záznamech). Proces aktualizace je zásadní pro reálnou možnost využití publikovaných dat. Aby probíhal správně, je nutné zajistit součinnost všech členů vytvořeného týmu.
Příprava aktualizace datové sady v podstatě znamená připravit distribuci datové sady. Příprava distribuce znamená buď vytvořit novou distribuci, nebo aktualizovat již jednou publikovanou. Aktualizace se přitom nemusí týkat jen samotné datové sady. Často bývá potřeba aktualizovat také atributy záznamu o datové sadě. Za přípravu aktualizace odpovídá kurátor dané datové sady, který předá aktualizovanou distribuci Koordinátorovi otevírání dat spolu s připraveným záznamem o datové sadě k formální kontrole a k zajištění aktualizace. Koordinátor zpravidla zajistí aktualizaci ve spolupráci s pracovníky IT oddělení.
Různé způsoby aktualizace datové sady
Všechny datové sady se časem změní a mohou se měnit různými způsoby. Například v excelové tabulce mohou přibývat jednotlivé řádky, nebo se mohou měnit hodnoty v těch stávajících. Aktualizace se proto mohou řešit různými způsoby v závislosti na charakteru změn.
- Vytvořením nového datového souboru s novými položkami při každé periodě aktualizace
- Udržováním pouze jednoho datového souboru a při každé periodě vytvořením nového, kterým nahraďte ten předchozí
- Vytvořením více souborů pro každou aktualizaci
Automatizovaná aktualizace dat
Stejně jako při vytváření nové distribuce, i v případě automatizace může výrazně pomoci automatizace. Právě v případě procesu automatizace se ukáže, jak efektivní je snaha o automatizaci sběru dat. Automatizace přináší výraznou úsporu času, ale především stabilitu. Především díky minimální chybovosti (konzistence dat) a rychlosti zpracování. V poslední době je možné využít řadu způsobů, jak automatizovat sběr dat a aktualizaci distribucí.
- Řada informačních systémů umožňuje nastavení automatických reportů do datových souborů (CSV, XML, Json),
- využití BI funkcí v rámci datových skladů, nebo databázových systémů,
- pomocí opakovatelně spustitelného skriptu, který vytváří datový soubor přímo z databází, nebo dotazy na API,
- využití technologií pro robotickou procesní automatizaci (RPA) které umožňují sběr dat, nebo tvorbu exportů i ze systémů, které nemají API rozhraní, ani otevřený přístup k databázím,
- další možnosti.
Snaha o maximální automatizaci při návrhu datových sad i v jejich následné aktualizaci výrazným způsobem přispívá k udržitelnosti provozu celého katalogu.
Procesy:
Nástroje: