13.04.2021 | Trends

Der "Heilige Gral" der Strukturbiologie

ein Schritt näher dran durch Spezialsoftware

Proteinstrukturen vorhersagen ist aufwendig

Über die letzten 100 Jahre wurden wirkungsvolle experimentelle Methoden entwickelt, um die 3D-Struktur von Proteinen zu analysieren: Die Röntgen-Kristallographie, Kernspinresonanz-Spektroskopie und zuletzt die Kryo-Elektronenmikroskopie sind mittlerweile zu höchster Leistung ausgereift. Doch sie unterliegen inhärenten Limits, und die Preise für einige der Methoden, besonders die Kristallographie mit Synchroton-Strahlung, sind atemberaubend. Die Experimente erfordern eine Menge langwieriger eintöniger Arbeit – und Glück, angefangen bei der Vorbereitung des Materials. Ein Engpass ist die Kristallisation der Proteine, die künstlerisches Geschick und viel Geduld erfordert, manchmal über Jahre. Viele Proteine, vor allem aus der Zellmembran, weigern sich rundweg zu kristallisieren. Ein Problem, das erst jetzt mit Hilfe der Kryo-Elektronenmikroskopie in manchen Fällen umgangen werden kann.

Die korrekte Berechnung der 3D-Struktur von Proteinen aus ihren Aminosäuresequenzen wäre die Königslösung. Über Jahrzehnte galt sie als Heiliger Gral der Strukturbiologie, und sie wäre ein Segen für Life Sciences und Wirkstoffentwicklung. Leider ist sie aber eine außerordentlich schwierige wissenschaftliche Herausforderung, vor allem wegen der schier unendlich großen Zahl möglicher Konformationen mit gleichem Energieniveau.  

Der Wettbewerb “Critical Assessment of Techniques for Protein Structure Prediction (CASP)” findet alle zwei Jahre statt und beobachtet den Fortschritt auf diesem Gebiet seit 1994. Die Benchmarks, die die mittlere Genauigkeit der Strukturvorhersage beschreiben, die führende Softwarelösungen liefern, überschritten nie die Schwelle von 40 im Global Distance Test (GDT). Seine Werte reichen von 0 bis 100 und beschreiben den prozentualen Anteil der Aminosäurereste, die innerhalb einer definierten Entfernung von ihrer korrekten Position liegen. Ein GDT-Ergebnis von 90 und mehr gilt experimentellen Methoden der Proteinstruktur-Aufklärung als ebenbürtig.  

2018 trat die AlphaFold-Software von Deep Mind in den Wettbewerb ein und hob die Messlatte auf 60 an. Im November 2020 erreichte die neueste Version ein mittleres Ergebnis von 92,4 über alle Zielproteine und von 87,0 für die schwierigsten Proteine aus der „Free-Modelling“-Kategorie.

Erstmals erreichte damit eine Software durchgängig die Genauigkeit der experimentellen Methoden. Abgesehen davon, dass die Berechnung nur ein paar Tage in Anspruch nahm, markiert diese Leistung einen sensationellen Durchbruch, mit dem viele Wissenschaftler in ihrem Leben nicht mehr gerechnet hatten. Die Auswirkungen werden gewaltig sein: Theoretisch lassen sich nun einige Millionen Proteinsequenzen, die in Genomdatenbanken lagern, strukturell analysieren. Das überschreitet bei weitem die 160.000 Strukturen, die seit 1971 in der Protein Data Bank (PDB) gesammelt wurden. Neuartige Proteine aus Pathogenen könnten beispielsweise fast umgehend untersucht werden und damit die Medikamentenentwicklung in ungeahnter Weise beschleunigen. Auch die Entwicklung von Biokatalysatoren würde enorm profitieren, wenn die 3D-Strukturen der Varianten eines Enzyms verfügbar wären.

Wie funktioniert AlphaFold?

Eine wissenschaftliche Publikation soll im ersten Halbjahr 2021 veröffentlicht werden, das Unternehmen hat aber schon einen Überblick geliefert: Ein gefaltetes Protein kann als „räumlicher Graph“ betrachtet werden, in dem die Knoten die Aminosäurerestgruppen darstellen und die Kanten die Restgruppen in der Nachbarschaft verbinden. Das ist essenziell, um die physikalischen Interaktionen innerhalb der Proteine und ihre Evolutionsgeschichte zu verstehen. Die neueste Version von AlphaFold ist ein „aufmerksames“ neuronales Netzwerk (attention-based neural network), das versucht, die Struktur dieses Graphen zu interpretieren, während es über den impliziten Graphen, den es dabei aufbaut, „nachdenkt“. Evolutionär verwandte Sequenzen, multiple Sequenzausrichtungen und eine Abbildung der Aminosäurerestgruppen-Paare werden genutzt, um es zu verfeinern. Das System entwickelt iterativ Voraussagen der physikalischen Struktur, die dem Protein zugrunde liegt. Das führt zu sehr genauen Strukturen. Durch die Eingrenzung von internen „Vertrauensintervallen“ kann die Software auch die Zuverlässigkeit von Teilstrukturen angeben. Das System wurde an den 160.000 öffentlich zugänglichen Proteinstrukturen aus der Protein Data Bank und einer großen Zahl von Proteinsequenzen mit unbekannter Struktur trainiert. Die Hardware basiert auf 16 Tensor-Prozessoren der dritten Generation, die für Machine-Learning-Berechnungen entwickelt wurden. Das entspricht, grob gerechnet, der Leistung von 100-200 Grafikkarten in PCs.

Der nächste logische Schritt ist das de-novo-Design von Proteinen mit erwünschten Funktionalitäten in silico. Auch er wird möglicherweise wieder Jahrzehnte dauern. Wenn es aber schließlich gelingt, ihn in einen in-silio-Workflow bei der Stammentwicklung mit Hilfe von Metabolic Engineering, Genomsynthese und rechnergestützter Bioprozessentwicklung zu integrieren, wird das den Eintritt in eine Ära der vollständig digitalen Biotechnologie markieren.

Über Jahrzehnte galt die rechnergestützte Vorhersage der 3D-Struktur von Proteinen als Heiliger Gral der Strukturbiologie. Der Fortschritt war mäßig. Jetzt machen fortschrittliche Rechenmethoden endlich einen Unterschied – mit gewaltigen Auswirkungen.

Stellen Sie sich vor, Sie hätten eine Kette aus 100 Gliedern unterschiedlicher Größe, und einige dieser Glieder wären magnetisch. Andere sind mit einem Klettstreifen versehen. Wenn Sie diese Kette auf den Boden fallen lassen – könnten Sie vorhersagen, welche Form dieser Haufen hat und wo welches Glied zu liegen kommt?

Auf den Punkt gebracht ist das das Problem, dem sich Wissenschaftler gegenübersehen, die versuchen, die Struktur von Proteinen vorherzusagen. Proteine sind die Bausteine und die Maschinen der Zellen. Sie bestehen aus langen Ketten von Aminosäuren mit definierter Reihenfolge, die sich im dreidimensionalen Raum zu charakteristischen Strukturen (Konformationen) verknäueln. „Die Form bestimmt die Funktion” ist das Axiom der Molekularbiologie. Deshalb ist die Aufklärung der entstehenden dreidimensionalen Proteinstrukturen der Schüssel, um ihre biologische Funktion zu verstehen: Die Wirkungsweise von pharmazeutischen Wirkstoffen bei der Medikamentenentwicklung, die gezielte Beeinflussung von Bindungseigenschaften oder Enzymaktivitäten – alle modernen medizinischen und biotechnologischen Anwendungen basieren auf genauen Strukturinformationen.

Autor

Dr. Karsten Schürrle

Dr. Karsten Schürrle ist Themensprecher Bioökonomie der DECHEMA e.V. Er koordiniert die Aktivitäten mehrerer Gremien der DECHEMA Fachgemeinschaft Biotechnologie, zum Beispiel Bioinformatik, synthetische Biologie und chemische Biologie.

Karsten.schuerrle[at]dechema.de 

https://dechema.de/biotechnologie.html

Newsletter

Immer informiert

Mit unserem Newsletter erhalten Sie aktuelle Informationen rund um die ACHEMA frei Haus. So verpassen Sie garantiert keine wichtigen Termine.

Jetzt abonnieren

Tickets
Kontakt