Analýza cloudového řešení akademického nástroje pro dolování pravidel z databází

Václav Zeman
unpublished
Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze vaclav.zeman@vse.cz Abstrakt: Webová aplikace EasyMiner je akademický nástroj pro získávání znalostí z malých i velkých dat ve formě asociačních pravidel. Systém využívá prostředí Apache Hadoop a Apache Spark pro zpracování velkých datových zdrojů na výpočetním clusteru MetaCentra sdružení CESNET. Aplikace se skládá z několika mikroslužeb, které vykonávají různé operace z oblasti
more » ... race z oblasti strojového učení a jako celek tvoří data miningový software fungující jako cloudová webová služba-SaaS. Abstract: EasyMiner is a web service for association rules mining. A new version of this tool uses Apache Hadoop and Apache Spark for big data analysis in the MetaCloud of the CESNET association. The application consists of several services for dataset uploading into a server site, preprocessing, association rules discovery and classification based on associations. All services communicate with each other through REST APIs and form a complex software working as a service in the cloud. 1. Úvod Akademický nástroj EasyMiner 1 je webová služba, vyvíjena převážně na katedře informačního a znalostního inženýrství Vysoké školy ekonomické v Praze, se zaměřením na dolování asociačních pravidel z databází (Agrawal, et al., 1993). Aplikace poskytuje grafické uživatelské rozhraní (viz Obrázek 1) a je schopna vykonat všechny nutné operace pro získávání znalostí z dat od nahrávání datových zdrojů přes předzpracování až po samotné dolování a interpretaci výsledků. Nová verze tohoto nástroje dokáže zpracovat i velká data díky nasazení do prostředí Apache Hadoop 2 a Apache Spark 3 a lze ji použít pro akademické účely bez jakýchkoliv omezení s využitím výpočetního clusteru na půdě MetaCentra 4 sdružení CESNET. Mezi nejdůležitější operace, které lze v systému EasyMiner vykonávat, patří:  Proudové nahrávání datových zdrojů do datového úložiště 1 http://www.easyminer.eu 2
fatcat:5ynof34cljavti6cyzkcml2rhe