Graph-based data mining for biological applications

Leander Schietgat
2011 AI Communications  
© Katholieke Universiteit Leuven -Faculty of Engineering Celestijnenlaan 200A, B-3001 Leuven (Belgium) Alle rechten voorbehouden. Niets uit deze uitgave mag worden vermenigvuldigd en/of openbaar gemaakt worden door middel van druk, fotokopie, microfilm, elektronisch of op welke andere wijze ook zonder voorafgaande schriftelijke toestemming van de uitgever. All rights reserved. No part of the publication may be reproduced in any form by print, photoprint, microfilm or any other means without
more » ... ten permission from the publisher. D/2010/7515/57 ISBN 978-94-6018-218-1 Beknopte samenvatting Het onderzoek in deze thesis situeert zich in het domein van het relationeel leren. In het bijzonder stellen we leeralgoritmes voor die modellen bouwen voor gestructureerde gegevens op basis van grafen. Het belangrijkste doel van deze thesis is om de efficiëntie van relationele leeralgoritmes te verhogen, alsook hun toepasbaarheid op problemen uit de biologie en chemie. In het eerste deel bestuderen we hiërarchische multi-label classificatie (HMC), een variant van classificatie waarbij een voorbeeld tot meerdere klassen kan behoren en waarbij de klassen georganiseerd zijn in een hiërarchie. Deze hiërarchie kan voorgesteld worden door een graaf en de uitvoer van een HMC-model bestaat uitéén of meerdere paden van deze graaf. Een belangrijke toepassing van HMC is het voorspellen van functies van genen. Het is bekend dat een gen meerdere functies kan hebben, terwijl biologen deze functies hebben ingedeeld in hiërarchieën. In plaats van een methode te gebruiken dat voor iedere klasse een onafhankelijk model leert, stellen we een methode voor datéén model leert dat alle klassen ineens voorspelt. We tonen aan dat deze methode in de context van beslissingsbomen resulteert in modellen die niet alleen efficiënter geleerd worden, maar die ook beter presteren op het vlak van predictieve performantie, complexiteit en interpreteerbaarheid. Als we gaan vergelijken met state-of-the-art technieken voor het voorspellen van functies van genen stellen we vast dat de voorgestelde HMCmethode een hogere efficiëntie en een vergelijkbare predictieve performantie heeft. In het tweede deel beschouwen we leeralgoritmes waarvan de invoer voorgesteld wordt door grafen. De toepassing die we hier voor ogen hebben is het leren van structuur-activiteitsrelaties (SAR). Het doel van SAR is om eigenschappen van moleculen te voorspellen aan de hand van hun chemische structuur. Om de leeralgoritmes efficiënter te maken, buiten we specifieke eigenschappen uit van moleculaire grafen. Doordat de meeste moleculen voorgesteld kunnen worden door outerplanaire grafen en omdat het blok-en-brug-behoudende (BBP) subgraaf isomorfisme een geschikte vergelijkingsoperator blijkt voor SAR, kunnen we een polynomiaal algoritme ontwikkelen dat een maximaal gemeenschappelijke subgraaf van twee outerplanaire grafen berekent. We gebruiken dit algoritme om een metriek voor moleculen te bouwen en om patronen voor moleculen te genereren. Deze methodes blijken niet alleen efficiënter te zijn dan bestaande methodes, maar behalen ook een state-of-the-art predictieve performantie op SAR-problemen. i Abstract The research presented in this thesis is situated in the field of relational learning. More specifically, we propose learning algorithms for structured data that are able to construct models for which either the input or the output data consist of graphs. The main goal of this thesis is to improve the efficiency of such learning algorithms and to apply them to real-life problems from biology and chemistry. In the first part, we study the task of hierarchical multi-label classification (HMC), a variant of classification where an example may belong to multiple classes and where the classes are organised in a hierarchy. This hierarchy can be represented as a single graph, so that the output of an HMC model, that is, the classes that are predicted, consists of one or more paths in this graph. A key application of HMC is gene function prediction. It is known that a gene may have multiple functions, while biologists have organised these functions into hierarchies. Instead of following an approach that learns an independent model for each class, we propose an approach that learns a single model that predicts all the classes at once. We show that, at least in the context of decision trees, this results in models that are not only learned more efficiently, but that are also superior in terms of predictive performance, model size and interpretability. Moreover, the proposed HMC decision tree approach is better than the state-of-the-art tools for gene function prediction, producing models that are efficiently learnable on large datasets and that reach a competitive predictive performance, while being easier to use. In the second part, we consider the task of graph mining, in which the input data of the learning algorithm are represented as graphs. The application we focus on is the learning of structure-activity relationships (SAR). Here, the goal is to predict properties of molecules based on their atom-bond structure. In order to make the learning algorithms more efficient, we exploit specific properties of molecular graphs. Motivated by the fact that the majority of molecules can be represented as outerplanar graphs and that the block-and-bridge-preserving (BBP) subgraph isomorphism is a suitable matching operator in the SAR context, we propose a polynomial algorithm that computes a maximum common subgraph of two outerplanar graphs. We use this algorithm to construct a metric for molecules and to generate features for them. It turns out that the proposed methods are not only more efficient than existing graph mining algorithms, but also obtain a state-of-the-art predictive performance on several SAR tasks. iii
doi:10.3233/aic-2010-0482 fatcat:kguu6ugombfx7bvfia64d6mqii