Robotics and Biology Laboratory

Leveraging Novel Information for Coarse-Grained Prediction of Protein Motion

Ines Putz

Titel:
Leveraging Novel Information for Coarse-Grained Prediction of Protein Motion

Zusammenfassung:

Proteine sind an fast allen Funktionen in unseren Zellen beteiligt, da sie Konformationsbewegungen mit chemischer Spezifität kombinieren können. Daher bieten Informationen über die Bewegungen eines Proteins Einblicke in seine Funktion. Proteine bewegen sich in einer zerklüfteten Energielandschaft mit vielen lokalen Minima, die ihrem hochdimensionalen Konformationsraum auferlegt ist. Die vollständige Erfassung dieses Raums übersteigt die verfügbaren Rechenressourcen für alle außer den kleinsten Proteinen. Daher müssen Berechnungsansätze die potenzielle Energiefunktion und/oder die Auflösung des Modells vereinfachen, indem sie Informationen darüber verwenden, was relevant ist und was ignoriert werden kann. Die Genauigkeit der Approximation hängt von der Genauigkeit der verwendeten Informationen ab. Informationen, die spezifisch für den Problembereich sind, d. h. in unserem Fall die Proteinbewegung, führen in der Regel zu besseren Modellen.

In dieser Arbeit schlage ich ein neuartiges elastisches Netzwerkmodell für gelernte, aufrechterhaltene Kontakte vor, lmcENM. Es erweitert den Bereich der Bewegungen, die durch solche vereinfachten Modelle erfasst werden können, indem es neue Informationen über die Struktur eines Proteins nutzt. Dies verbessert die allgemeine Anwendbarkeit von elastischen Netzwerkmodellen.

Elastische Netzwerkmodelle (ENMs) sind eine sehr beliebte grobkörnige Methode zur Untersuchung von Proteinbewegungen. Sie gehen davon aus, dass Proteinbewegungen harmonisch um eine Gleichgewichtskonformation herum verlaufen und weitgehend von der strukturellen Konnektivität des Proteins bestimmt werden. Dies führt zu einer vereinfachten Darstellung eines Proteins als elastisches Masse-Feder-Netzwerk auf der Grundlage der Wechselwirkungen zwischen den Resten. Trotz ihrer Einfachheit sagen ENMs intrinsische Proteinbewegungen mit überraschender biologischer Relevanz voraus. Genaue ENM-Vorhersagen erfordern jedoch, dass die anfängliche Kontakttopologie während der Bewegung eines Proteins erhalten bleibt. Dies ist bei hoch kollektiven Bewegungen natürlich erfüllt und führt zu erfolgreichen Vorhersagen. Lokalisierte funktionelle Übergänge, die erhebliche Änderungen der Kontakttopologie mit sich bringen, werden jedoch oft nur unzureichend erklärt. Dies schränkt die praktische Relevanz von ENMs ein, da die Art der Bewegung eines Proteins a priori unbekannt ist und somit nicht bekannt ist, ob ENMs sie erfassen können.

lmcENM überwindet diese Einschränkung, indem es Informationen über das dynamische Verhalten von Kontakten nutzt, d. h. ob sie unterbrochen oder aufrechterhalten werden, wenn sich das Protein bewegt. Die aufrechterhaltenen Kontakte bleiben erhalten, nachdem die vorhergesagten abbrechenden Kontakte aus dem ursprünglichen Netzwerk entfernt wurden. Im Gegensatz zu bestehenden ENM-Varianten ist lmcENM in der Lage, Proteinbewegungen auch für lokalisierte und unkorrelierte funktionelle Übergänge mit wechselnder Kontakttopologie genau vorherzusagen.

Im ersten Teil meiner Arbeit zeige ich, dass ENMs durch das Fehlen von beobachteten Kontaktunterbrechungen in der Lage sind, lokalisierte funktionelle Übergänge genau zu erklären. Das sich daraus ergebende Netzwerk von beobachteten aufrechterhaltenen Kontakten, mcENM, kann erstellt werden, wenn Start- und Endkonformation eines Funktionsübergangs bekannt sind. Um diese Strategie im Standardfall anwenden zu können, wenn nur eine einzige Proteinkonformation verfügbar ist, müssen wir natürlich in der Lage sein, diese Bruchkontakte vorherzusagen.

Im zweiten Teil meiner Dissertation zeige ich, wie die brechenden Kontakte vorhergesagt werden können. Dazu habe ich einen auf maschinellem Lernen basierenden Klassifikator entwickelt, der auf der Grundlage einer graphenbasierten Kodierung des strukturellen Kontextes zwischen unterbrochenen und aufrechterhaltenen Kontakten unterscheidet. Die physikalisch-chemischen Eigenschaften des strukturellen Kontexts eines Kontakts geben an, wie eng verschiedene Teile des Proteins aneinander gebunden sind, wie dies ihre Bewegungen beeinflusst und letztlich ihre Kontakttopologie. Um lmcENM zu erstellen, werden die vorhergesagten Bruchkontakte aus dem ursprünglichen Netzwerk entfernt. Anhand einer großen Anzahl von Proteinen, die verschiedene Bewegungstypen abdecken, demonstriere ich die Wirksamkeit von lmcENM.

Meine Arbeit erschließt Kontaktabbrüche oder allgemein dynamische Kontaktveränderungen als eine neue Informationsquelle, die sich bei der grobkörnigen Vorhersage von Proteinbewegungen als wertvoll erwiesen hat. Da sie auf der Grundlage eines vereinfachten Modells der strukturellen Konnektivität eines Proteins definiert werden, sind sie unempfindlich gegenüber strukturellen Details, die ansonsten ihre Identifizierung und Vorhersage erschweren würden. Das Vorhandensein und die Nützlichkeit von brechenden Kontakten, die in meiner Arbeit gezeigt wurden, ermöglichen zukünftige Forschungsmöglichkeiten, um die Bedingungen zu untersuchen, unter denen sie auftreten, und um die Merkmale zu untersuchen, die am meisten zu ihrer genauen Vorhersage beitragen. Unser Rahmen für die Vorhersage von brechenden Kontakten kann leicht erweitert werden, um unser Verständnis von Proteinbewegungen weiter zu verbessern.

November 2018