Efficient development and execution of environmental applications on high performance parallel and distributed computing infrastructures

Diana-Denisa Rodila, Anthony Lehmann, Nicolas Ray, Dorian Gorgan
2016
Global environmental changes, linked to climate, biodiversity, environmental degradation, pollution, and others are threatening our planet more and more every day, with negative outcomes such as global sea level rise, intensified droughts, glaciers melting, etc. Environmental Sciences community and the human society at large need to find effective and operational responses to these complex changes. These actions imply more than ever a better understanding of the complex Earth system, the
more » ... inkage between its sub-systems and the impacts of human induced activities on natural phenomena. Such a challenge requires not only access to a huge amount of environmental data, from various disciplines and geographic scales, but also storing and processing resources as well as standardized performant tools, algorithms and services, able to extract useful and meaningful information from raw data, information which will support better decision making and better actions towards a sustainable development and a sustainable planet. This thesis focuses on analyzing and exploring solutions in which Information Technology, and especially parallel and distributed high performance systems, can improve the urgent needs of environmental community in managing this unprecedented amount of environmental data to provide meaningful information and knowledge in a timely manner. The required computational and storage capacity for such a challenge exceeds most of the time what an average computational center can offer. We propose in this thesis a general methodology and framework for easily porting and executing environmental applications simultaneously on different parallel and distributed infrastructures such as cluster, Grid and Cloud. Such a Hybrid Computing Environment introduces complex challenges to tackle with, especially in supporting the interoperability and the coexistence of the underlying distributed, heterogeneous computing infrastructures. The interoperability between Environmental Sciences (environmental data and environmental applications) and such a Hybrid Computing Environment is also an important goal to achieve in this thesis and the proposed approach is based on a mediation solution, through the introduction of an intermediate "broker" layer (mediator), able to hide the complexity of the computing environment and to provide access to its functionalities and capabilities in an easy and flexible manner. Abstract Schimbările globale de mediu, legate de climă, biodiversitate, degradarea mediului, poluare dar și altele, amenință planeta noastră din ce în ce mai mult în fiecare zi, cu rezultate negative precum: creșterea nivelului global al mării, secete intensificate, topirea ghetarilor, etc. Comunitatea Științelor Mediului, și societatea umană în general, trebuie să găsească răspunsuri eficiente și operaționale pentru aceste schimbări complexe. Aceste acțiuni necesită mai mult ca oricând o mai bună înțelegere a sistemului complex numit Pământ, a interdependenței dintre subsistemele sale și a impactului activităților umane induse asupra fenomenelor naturale. O astfel de provocare necesită acces nu numai la o mare cantitate de date de mediu, care provin din diferite domenii și se află la diferite scări geografice, dar și la resurse de stocare și de procesare, precum și la unelte, algoritmi și servicii performante și standardizate, capabile de a extrage informații utile și semnificative din datele brute, informații care vor sprijini procesul de luare a unor decizii și acțiuni mai bune, care vor duce către o dezvoltare durabilă și o planetă mai bună. Această teză se concentrează pe analiza și explorarea de soluții prin care tehnologia informației, și în special sistemele de calcul de înaltă performanță, paralele și distribuite, pot îmbunătăți nevoile urgente ale comunității de mediu legate de gestionarea acestei cantități fără precedent de date, pentru a furniza informații semnificative în timp util. Capacitatea de calcul și de stocare cerută pentru o astfel de provocare depășește de cele mai multe ori ceea ce un centru de calcul mediu poate oferi. În această teză propunem o metodologie și o platformă generală pentru portarea cu ușurință și execuția aplicațiilor de mediu, în mod simultan, pe diferite infrastructuri paralele și distribuite, cum ar fi cluster, Grid și Cloud. Un astfel de mediu hibrid de calcul introduce provocări complexe ce trebuie rezolvate, în special în sprijinirea interoperabilității și coexistenței infrastructurilor distribuite și eterogene care stau la baza acestui mediu hibrid. Interoperabilitatea dintre Științele Mediului (date de mediu și aplicații de mediu) și un astfel de mediu hibrid de calcul este un obiectiv important de realizat în această teză iar abordarea propusă se bazează pe o soluție de mediere, prin introducerea unui nivel intermediar "broker" (mediator), capabil să ascundă complexitatea mediului de calcul și să ofere acces la funcțiile și capacitățile sale într-un mod simplu și flexibil. de stocare și de calcul, eterogene, pentru aplicații științifice complexe. Résumé Les changements environnementaux globaux liés notamment au climat, à la biodiversité, à la dégradation des habitats, et à la pollution mettent de plus en plus en danger notre écosystème planétaire avec des conséquences néfastes comme la hausse du niveau de la mer, une intensification des sécheresses, une fonte accélérée des glaciers, etc. La communauté des scientifiques oeuvrant dans les sciences environnementales, et la société au sens large, ont un besoin accru de trouver des solutions efficaces et opérationnelles à ces changements complexes. Ces actions impliquent, plus que jamais, une meilleure compréhension du système de la planète Terre, des relations entre ses sous-systèmes, ainsi que des impacts induits par la société humaine sur les dynamiques naturelles de l'environnement. Un tel challenge requiert non seulement un accès à une immense quantité de données, provenant de diverses disciplines et à des échelles géographiques variées, mais également à des ressources massives pour le stockage et l'analyse de ces données, ainsi qu'à des outils standardisés performants, des algorithmes et des services capables d'extraire de l'information pertinente et utile à partir des données brutes. Ceci en vue de permettre un meilleur processus de prise de décision, et des actions ciblées et utiles pour satisfaire les buts liés au développement durable. Ce travail de thèse se focalise sur l'analyse et l'exploration de solutions permettant aux technologies de l'informations, et particulièrement les systèmes de calcul à haute performance, d'apporter des réponses utiles aux besoins de la communauté des sciences de l'environnement dans le domaine de la provision d'information et de nouvelles connaissances. Beaucoup de ces besoins demandent une capacité d'analyse et de stockage des données qui excède ce qu'un unique centre de calcul de taille moyenne peut offrir. Nous proposons dans cette thèse une méthodologie générale pour facilement porter et exécuter des applications environnementales de manière simultanée sur diverses infrastructures de calcul parallèles et distribuées telles que des clusters, Grid et Cloud. Cet environnement de calcul hybride introduit des problèmes très complexes à résoudre, notamment ceux en lien avec l'interopérabilité et la coexistence de ces infrastructures hétérogènes distribuées. Facilitée l'interopérabilité entre les données et applications environnementales et cette infrastructure hybride a été un des buts majeurs de cette thèse, et la solution présentée se base sur une approche utilisant une couche intermédiaire de -10 -médiation (mediator) capable de cacher la complexité de l'environnement computationnel tout en donnant accès à ses fonctionnalités de manière simple et flexible. Nous basant sur une approche euristique, nous avons analysé les avantages et désavantages de l'intégration de différentes applications environnementales sur les infrastructures hautes performances parallèles et distribuées. Nous avons ensuite défini une méthode de conceptualisation pour les applications environnementales qui permet une intégration facilitée dans n'importe quel environnement computationnel. Le modèle conceptuel est un élément clé de la méthode générale proposée. Basée sur ce modèle, une application est décomposée et planifiée pour être exécutée dans un ensemble approprié de ressources computationnelles appartenant à une ou plusieurs infrastructures distribuées. Le composant de planification (planificateur) prend en compte des facteurs tels que le type d'application, la complexité de la tâche à exécuter, les préférences de l'utilisateur, la disponibilité des plateformes, l'historiques d'exécution, etc. L'exécution sur différentes infrastructures computationnelles est alors faite en utilisant des adaptateurs spécialisés. La définition et le développement d'une telle méthodologie vient en réponse aux besoins de la communauté environnementale à devoir utiliser une quantité croissante de ressources computationnelles, afin d'informer au mieux les processus décisionnels liés à l'environnement et la société. L'approche proposée est suffisamment flexible pour être appliquée à un large spectre d'applications environnementales, et même d'applications liées à d'autres thématiques. Nous croyons qu'une telle méthodologie est une avancée significative vers une façon standardisée d'accéder à un ensemble hétérogène de ressources de stockage et de calcul. I want to give my special thanks and thoughts to all my friends, for constantly supporting me, encouraging me, and most of all for being there for me during this entire journey. I always considered myself the luckiest person for having such wonderful people around me. In the end, I would like to thank my family, my parents and my brother, who offered me more than I could ever ask for. Words cannot express how grateful I am to have them. Their love, their constant support in following my dreams, their patience and help in difficult moments, their encouragements and most of all their trust that I can do anything I want, motivated me beyond my limits! I also thank God for guiding my steps throughout this journey and I have faith that He has even bigger plans for me in the future.
doi:10.13097/archive-ouverte/unige:92516 fatcat:2vwxzc3tnbemflqrst4baoaqvq