Peptide-Cation Systems: Conformational Search, Benchmark Evaluation, and Force Field Parameter Adjustment Using Regularized Linear Regression

Markus Schneider
2018
Metal cations often play an important role in shaping the three-dimensional structure of peptides. As an example, the model system AcPheAla 5 LysH + is investigated in order to fully understand the forces that stabilize its helical structure. In particular, the question of whether the local fixation of the positive charge at the peptide's C-terminus is a prerequisite for forming helices is addressed by replacing the protonated lysine residue by alanine and a sodium cation. The combination of
more » ... -phase cold-ion vibrational spectroscopy with molecular simulations based on density-functional theory (DFT) revealed that the charge localization at the C-terminus is imperative for helix formation in the gas phase as this stabilizes the structure through a cation-helix dipole interaction. For sodiated AcPheAla 6 , globular rather than helical structures were found caused by the strong cation-backbone and cation-π interactions. Interestingly, the global minimum-energy structure from simulation is not present in the experiment where the system remains kinetically trapped in a solution-state structure. Thereby calculated energies and IR spectra that are sufficiently accurate relied on DFT with computationally costly hybrid functionals, while for the structure search low-computationalcost force field (FF) models are crucial. This inspired a study where the goodness of commonly applied levels of theory, i.e. FFs, semi-empirical methods, density-functional approximations, composite methods, and wavefunction-based methods are being evaluated with respect to benchmark-grade coupled-cluster calculations. Acetylhistidine -either bare or in presence of a zinc cation -thereby serves as a molecular benchmark system. Neither FFs nor semi-empirical methods are reliable enough for a description of these systems within "chemical accuracy" of 1 kcal/mol. Accurate energetic description within chemical accuracy is achieved for all systems using the meta-GGA SCAN or computationally more demanding hybrid functionals. The double-hybrid functional B3LYP+XYG3 is best resembling the benchmark method DLPNO-CCSD(T). Despite poor energetic performances of conventional FFs for peptides in the gas phase, their low computational costs still render them appealing tools for large-scale structure searches. Consequently, a machine learning approach is presented where the torsional parameters and (if desired) van der Waals parameters in the potential-energy function of a particular FF are adjusted by fitting it against DFT energies using regularized regression models like LASSO or Ridge regression. For the peptide AcAla 2 NMe, this resulted in a significant improvement when comparing to standard OPLS-AA FF parameters. For more challenging peptide-cation systems, e.g. AcAla 2 NMe + Na + , this approach does not give satisfying results, which is caused iii by the formulation of the potential energy of the FF itself: While derived empirical partial charges using Hirshfeld partitioning or the electrostatic potential (ESP) decrease the accuracy, part of the energetic discrepancy can be "compensated" due to the flexibility of the torsional contributions in terms of the energetic description. Zusammenfassung Metallkationen spielen oft eine wichtige Rolle beim Formen dreidimensionaler Strukturen von Peptiden. Als Beispiel dafür wird das System AcPheAla 5 LysH + untersucht um die für die Stabilisierung helikaler Strukturen ursächlichen Kräfte zu verstehen. Im Detail wird der Frage nachgegangen, ob die Fixierung der lokalen positiven Ladung am C-Terminus des Peptids eine Voraussetzung für die Bildung der Helix ist, indem das protonierte Lysin-Residuum durch ein Alanin und ein Natrium-Kation ersetzt wird. Durch die Kombination von Kalte-Ionen-Vibrationsspektroskopie im Vakuum und molekularen Simulationen basierend auf der Dichtefunktionaltheorie (DFT) wurde gezeigt, dass die lokale Ladung am C-Terminus zwingende Voraussetzung für die Helix-Bildung im Vakuum ist. Für das System AcPheAla 6 + Na + wurden hingegen globuläre Strukturen gefunden, welche durch starke Kation-Rückgrat-und Kation-π-Wechselwirkungen verursacht werden. Die in der Simulation gefundene Struktur globaler minimaler Energie wurde im Experiment nicht beobachtet, weil das System in einer Lösungs-Struktur kinetisch gefangen bleibt. Für ausreichend genau berechnete Energien und IR-Spektren benötigt man dabei rechenaufwändige DFT-Hybridfunktionale, während für die Struktursuche Kraftfeld-Modelle geringem Rechenaufwands verwendet werden. Dieser Umstand motivierte eine Benchmark-Studie, in der die Qualität gängiger theoretischer Methoden, d.h. Kraftfelder, semi-empirische Methoden, Dichtefunktionalnäherungen, Mischmethoden und Methoden basierend auf Wellenfunktionen, gegen Coupled-Cluster-Rechnungen getestet werden. Acetylhistidin, mit und ohne einem angrenzenden Zink-Kation, dient dabei als molekulares Benchmark-System. Weder Kraftfelder noch semi-empirische Methoden sind dabei verlässlich genug solche Systeme innerhalb der "chemischen Genauigkeit" von 1 kcal/mol zu beschreiben. Eine Beschreibung der Energie innerhalb der chemischen Genauigkeit wird für alle System bei Verwendung des meta-GGA SCAN-oder der rechenaufwändigeren Hybridfunktionale gefunden. Das Doppelhybridfunktional B3LYP+XYG3 beschreibt die Benchmark-Methode DLPNO-CCSD(T) am besten. Trotz der ungenauen energetischen Beschreibung konventioneller Kraftfelder für Peptide im Vakuum, kommen diese wegen ihres niedrigen Rechenaufwands oft bei großangelegten Struktursuchen zum Einsatz. Diese Tatsache motivierte ein Machine-Learning-Verfahren, in dem Torsionsparameter und (falls gewünscht) van-der-Waals-Parameter in der Funktion der potenziellen Energie eines bestimmten Kraftfelds gegen DFT-Energien durch Einsatz regularisierter Regressionsmodelle wie Ridge-Regression oder LASSO gefittet werden. Für das Peptid AcAla 2 NMe resultierte dies in einer signifikanten Verbesserung verglichen mit v den Standardwerten des OPLS-AA Kraftfeldes. Für kompliziertere Peptid-Kation-Systeme wie AcAla 2 NMe + Na + liefert das Verfahren keine zufriedenstellende Ergebnisse, wofür die Formulierung der potenziellen Energie des Kraftfelds selbst ursächlich ist: Während empirisch abgeleitete Partialladungen, entweder durch Anwendung der Hirshfeld-Partitionierung oder des elektrostatischen Potentials (ESP), zu ungenaueren Ergebnissen führen, kann ein Teil der energetischen Diskrepanz durch die Flexibilität der Torsionsterme in der energetischen Beschreibung "kompensiert" werden.
doi:10.5075/epfl-thesis-8812 fatcat:osngb76o3bc5lbt2znlatfqmaq