Robotics and Biology Laboratory

Predicting protein contacts by combining information from sequence and physicochemistry

Motivation

Die Vorhersage von Kontakten hat ein immenses Potenzial zur Unterstützung der Vorhersage von Proteinstrukturen gezeigt. Trotz der jüngsten Erfolge bleibt die Kontaktvorhersage ein schwieriges Problem. Die Schwierigkeit ist hauptsächlich auf die Größe des Lösungsraums zurückzuführen. Es werden zwangsläufig Informationen benötigt, um die richtigen Kontaktpaare in diesem Raum zu finden. Der vielversprechendste Ansatz zur Verbesserung der Kontaktvorhersage besteht daher darin, Informationsquellen zu identifizieren, zu nutzen und zu kombinieren, die auf Kontakte hinweisen. Wir gehen über die derzeitigen Methoden hinaus, indem wir drei orthogonale Informationsquellen kombinieren: evolutionäre, sequenzbasierte und physikochemische.

Beschreibung der Arbeit

Durch den Meta-Ansatz werden die Ergebnisse im Allgemeinen verbessert. Die Kombination mehrerer Informationsquellen kann dazu beitragen, die Nachteile einzelner Methoden auszugleichen, ähnlich wie beim Ensembling im maschinellen Lernen. Durch die Erweiterung der Informationsmenge erhöht sich jedoch unweigerlich die Dimensionalität des Merkmalsraums, was neue Herausforderungen mit sich bringt. Erstens erhöht die hohe Dimensionalität des Merkmalsraums die Lernkomplexität, den Datenumfang und die Trainingszeit und fördert die Überanpassung.
Zweitens sind die meisten der häufig verwendeten Merkmalsätze für sich allein und nicht im Zusammenhang mit Meta-Ansätzen entwickelt worden. Verschiedene Informationsquellen können sich immer noch überschneiden und tragen somit nicht zum Lernen bei. Daher ist es sinnvoll, sie neu zu evaluieren.

Wir haben eine Analyse der Merkmalsbedeutung durchgeführt, die ergab, dass die Aminosäurezusammensetzung, ein weit verbreitetes Merkmal, entfernt werden kann, ohne die Leistung zu beeinträchtigen. Wir gehen davon aus, dass es durch die Einführung von evolutionären Methoden, die ein ähnliches Ziel verfolgen, überflüssig geworden ist.

Auf der Grundlage des neuen Merkmalssatzes entwickeln wir einen neuen Kontaktprädiktor (neuronales Netz mit 4 versteckten Schichten).

Ergebnisse

Entwicklung eines neuen Kontaktprädiktors namens S\P-CP, der evolutionäre, physikochemische und sequenzbasierte Informationen kombiniert. S\P-CP verbessert die mittlere Genauigkeit auf 1.5L für CASP11 Hard FM Targets um 16% gegenüber dem aktuellen Stand der Technik MetaPSICOV. Der neue und verfeinerte Merkmalssatz hat die Dimensionalität drastisch reduziert (um 75 %).