High-resolution crystal structures leverage protein binding affinity predictions

Simon Marillet, Pierre Boudinot, Frédéric Cazals
2015 Proteins: Structure, Function, and Bioinformatics  
Predicting protein binding affinities from structural data has remained elusive, a difficulty owing to the variety of protein binding modes. Using the structure-affinity-benchmark (SAB, 144 cases with bound/unbound crystal structures and experimental affinity measurements), prediction has been undertaken either by fitting a model using a handfull of pre-defined variables, or by training a complex model from a large pool of parameters (typically hundreds). The former route unnecessarily
more » ... the model space, while the latter is prone to overfitting. We design models in a third tier, using twelve variables describing enthalpic and entropic variations upon binding, and a model selection procedure identifying the best sparse model built from a subset of these variables. Using these models, we report three main results. First, we present models yielding a marked improvement of affinity predictions. For the whole dataset, we present a model predicting K d within one and two orders of magnitude for 48% and 79% of cases, respectively. These statistics jump to 62% and 89% respectively, for the subset of the SAB consisting of high resolution structures. Second, we show that these performances owe to a new parameter encoding interface morphology and packing properties of interface atoms. Third, we argue that interface flexibility and prediction hardness do not correlate, and that for flexible cases, a performance matching that of the whole SAB can be achieved. Overall, our work suggests that the affinity prediction problem could be partly solved using databases of high resolution complexes whose affinity is known. Résumé : La prédiction d'affinité de liaison entre deux protéines à partir de données structurales reste difficile, en raison de la variété des modes d'appariement de deux protéines. À partir des données du structure-affinity-benchmark (SAB, 144 entrées comprenant les structures liées et non liées, ainsi que des mesures d'affinité expérimentales), la prédiction a été abordée soit en ajustant un modèle utilisant un petit nombre de variables prédéfinies, soit en entrainant un modèle complexe à partir d'un ensemble de paramètres de grande taille. Alors que la première stratégie restreint inutilement l'espace des paramètres, la seconde est encline au sur-apprentissage. Ce travail propose des modèles dans un troisième registre, en utilisant douze variables décrivant les variations d'enthalpie et d'entropie intervenant lors de l'appariement, et une stratégie de sélection de modèle permettant d'identifier les meilleurs modèles parcimonieux construits à partir d'un sous-ensemble de ces variables. En utilisant ces modèles, nous rapportons ici trois résultats principaux. Premièrement, nous présentons des modèles permettant une nette amélioration des prédictions. Pour le jeux de données SAB complet, nous présentons un modèle capable de prédire le K d à un et deux ordres de grandeur près pour respectivement 48% et 79% des complexes. Ces statistiques passent à respectivement 62% et 89% pour les structures à haute résolution du SAB. Deuxièmement, nous expliquons que ces performances sont dues à un nouveau paramètre codant pour la morphologie de l'interface et les propriétés de packing des atomes interfaciaux. Troisièmement, nous montrons que la flexibilité de l'interface et la difficulté à prédire l'affinité ne sont pas corrélées, et que, pour les cas flexibles, nos modèles exhibent une performance égale à celle obtenue sur le SAB complet. Plus généralement, notre travail suggère que le problème de prédiction de l'affinité pourrait être en partie résolu par l'utilisation de bases de données de complexes à haute résolution dont l'affinité serait connue. Mots-clés : Prédiction d'affinité de liaison, flexibilité des protéines, packing atomique, cristallographie à haute résolution, régression linéaire
doi:10.1002/prot.24946 pmid:26471944 fatcat:laodirubxvd3dl5x3y54tbgyi4