Towards Optimal Multi-Level Checkpointing

Anne Benoit, Aurelien Cavelan, Valentin Le Fevre, Yves Robert, Hongyang Sun
2017 IEEE transactions on computers  
We provide a framework to analyze multi-level checkpointing protocols, by formally defining a k-level checkpointing pattern. We provide a first-order approximation to the optimal checkpointing period, and show that the corresponding overhead is in the order of k =1 √ 2λ C , where λ is the error rate at level , and C the checkpointing cost at level . This nicely extends the classical Young/Daly formula on single-level checkpointing. Furthermore, we are able to fully characterize the shape of the
more » ... optimal pattern (number and positions of checkpoints), and we provide a dynamic programming algorithm to determine the optimal subset of levels to be used. Finally, we perform simulations to check the accuracy of the theoretical study and to confirm the optimality of the subset of levels returned by the dynamic programming algorithm. The results nicely corroborate the theoretical study, and demonstrate the usefulness of multi-level checkpointing with the optimal subset of levels. Résumé : Ce travail analyse les techniques de checkpoint multi-niveaux. Onétudie les schémas de calcul périodiques, où les différents niveaux de checkpoint sont imbriqués, et on caractérise le schéma optimal, i.e., celui dont le surcoût par unité de calcul est minimal. On montre que ce surcoût minimal est de l'ordre de k =1 √ 2λ C , où λ est le taux d'erreur au niveau , et C le coût de checkpoint au niveau . Cette formuleétend la célèbre formule de Young/Daly pour un seul niveau. On proposeégalement un algorithme de programmation dynamique pour déterminer le meilleur sous-ensemble de niveuaxà utiliser pour minimiser le surcoût global. Enfin, nous conduisons des simulations pour vérifier l'étude théorique, et confirmer l'optimalité du sous-ensemble déterminé par l'algorithme de programmation dynamique. Les résultats corroborent bien l'étude théorique, et montrent toute l'utilité d'une approche multi-niveaux basée sur le sous-ensemble de niveaux optimal.
doi:10.1109/tc.2016.2643660 fatcat:siic5gbf3zfvxfl3yafzci2dyi