Forschungsbericht 2020 - Max-Planck-Institut für Biologie Tübingen
Die Vorhersage winziger Intronen und die aktuellen Grenzen des maschinellen Lernens
Maschinelles Lernen und Genomik
Aufgrund YouTubes einzigartiger User-Algorithmen und meines Faibles für Schachspiele, einschließlich der Spiele von DeepMinds maschinellem Lernprogramm für Schach, AlphaZero, schaute ich mir kürzlich den AlphaGo-Film über DeepMinds gleichnamiges maschinelles Lernprogramm für das Spiel Go an. In diesem Film wird die Unterwerfung der Humanität durch den glücklosen Champion Lee Sedol in positivstem Licht dargestellt. Dennoch bleibt das Gefühl des Wehmuts, dass auch dieses uralte Spiel geknackt wurde. Ich hoffe, dass dies die Entwicklung neuer Spiele nach dem Vorbild von Chess960 inspirieren wird, die die Startpositionen derart durcheinandermischt, um neue, komplexere Herausforderungen für Menschen sowie künstliche Intelligenz zu generieren.
In meiner Genomikforschung erwiesen sich maschinelle Lern-Algorithmen als kritisch für die Genvorhersage und für die Identifizierung der Komponenten (domains) derjenigen Proteine, die sie verschlüsseln. Die besten Algorithmen, die ich für beide dieser Aufgaben verwendete, sind Variationen des Hidden Markov Modells (HMM). Wie auch bei den Analysen von AlphaZero/AlphaGo-Spielen von Großmeisterinnen und Großmeistern, die den Vorgang dieser Software verstehen wollen, achte ich genau auf den Output dieser Algorithmen. Gelegentlich geht aber manchmal etwas schief.
Fälle der Genvorhersage
Seit Jahren verwendete ich ein hervorragendes Programm namens AUGUSTUS [1] für die Genvorhersage. Als wichtigstes Merkmal im Unterschied zu anderen vorhersagenden Programmen nimmt AUGUSTUS nicht einfach an, dass es einen einzelnen genetischen Code für die Umwandlung von Genen in Proteine gibt. Dies ist ein kritischer Punkt, da die Organismen, die im Fokus meiner Arbeit stehen, keinen klassischen genetischen Code haben. In der Regel kann AUGUSTUS Gene recht gut vorhersagen, wenn das Programm richtig vorbereitet und parametrisiert wird und es ergänzende Informationen aus Genortexperimenten zur Verfügung gestellt bekommt. Dennoch ist dies nicht fehlerfrei. Zum Beispiel erzeugt das Programm Fehler, sobald Gene Selenocystein, die 21. Aminosäure, kodieren. Diese Aminosäure stellt eine Ausnahme dar, die in einem exakten Kontext die Bedeutung eines „Stopps” überschreibt und die Proteinsynthese fortsetzt. AUGUSTUS könnte hier entweder das Gen bei dieser Stopp-Sequenz terminieren, es überspringen oder gar nicht vorhersagen. Zum Glück findet Selenocystein selten Verwendung und die Auswirkung des Fehlers ist dementsprechend eingeschränkt.
Weit störender als Selenocystein für die Genvorhersage sind kurze Introns, die aus weniger als 20 Nukleotiden bestehen. Zur Erinnerung: Vor der Proteinsynthese, aber erst nach der Transkription werden integrierte Nukleotidsequenzen, auch Introns genannt, aus den eukaryotischen mRNAs ausgeschnitten. Die Länge der Introns variiert sehr stark innerhalb der eukaryotischen Spezies - sie können extrem lang, mit Tausenden von Nukleotiden beispielsweise beim Menschen, oder extrem kurz sein, mit nur ein paar Dutzend von Nukleotiden, zum Beispiel in den eukaryotischen Mikroben, die wir untersuchen (Abb. 1). Somit ist es sehr schwierig, eine Wahrscheinlichkeitsverteilung der Intronenlänge ausreichend zu verallgemeinern, damit sie im HMM verwendet werden kann.
Leider konnten wir sehr kurze Introns mit AUGUSTUS nicht erfolgreich vorhersagen trotz der Verwendung eines Modells, das gezielt versucht, den Bereich der Intronlänge abzudecken. Im noch erfolgreichsten Durchlauf waren mehr als die Hälfte der von AUGUSTUS vorhergesagten Introns Artefakte: Hauptsächlich waren sie in Genomregionen vorhanden, die eindeutig für die Proteinkodierung vorgesehen sind und wo nachweislich keine Introns vorkommen.
Akkurate Vorhersage kleinster Intronen
Obwohl 2020 Pandemie bedingt ein schwieriges Jahr war, war mir die Zeit, die ich für das Programmieren benutzen konnte, ein kleiner Trost. Nach den Schwierigkeiten mit AUGUSTUS‘ Intronmodell habe ich entschieden, dass es eine bessere Strategie wäre, die reichlich vorhandenen mRNA-Sequenzierungsdaten zu verwenden, um die Introns direkt vorherzusagen. Aus diesen Daten können wir nämlich deutlich erkennen, dass die Mehrheit der Gene in unseren vorgezogenen Konditionen transkribiert werden und Beweise für oder gegen Introns mitbringen.
Glücklicherweise hatten die Schöpfer von AUGUSTUS die Umsicht, auch einen Modus ohne Introns für die Genvorhersage zu erstellen. Dies ist nützlich, da einige pathogenetische eukaryotische Mikroben, zum Beispiel Giardia, nur eine Handvoll Introns haben und die Genvorhersage genauer wird, wenn die Intronvorhersage deaktiviert ist. Entsprechend schrieb ich das Wicklerprogramm Intronarrator [2], das einen reichen mRNA-seq-Umfang verwendet, um alle Introns vorherzusagen (Abb. 2) und AUGUSTUS für die Hauptgenvorhersage verwendet. Die Grundidee ist, alle Introns, die aus mRNA-sequenzierten Daten vorhergesagt werden, aus dem Genom zu entfernen, bevor Gene mit AUGUSTUS mit ausgeschaltetem Intronenmodus vorhergesagt werden. Die Introns werden dann wieder in die Gene eingefügt zusammen mit den rückverfolgten Genorten. Diese Vorgehensweise behebt die häufig falsche Intronvorhersage im Standardmodus vom AUGUSTUS und nachfolgend wenden wir die akkurateren Genvorhersagen für unsere Forschung an.
Fazit
Obwohl ich optimistisch bezüglich der Rolle von maschinellem Lernen im Leben, bei Spielen und in der Forschung bin, sind mir seine Grenzen wohl bewusst. Diejenigen von uns, die nicht im Feld des maschinellen Lernens arbeiten, müssen sehr bewusst mit der angewendeten Software und mit den eingegebenen Daten umgehen. Es bleiben weiterhin mehrere „Ausnahmen“, die noch nie berücksichtigt oder von den Entwicklerinnen und Entwicklern dieser Algorithmen vorgesehen wurden. Würde ich einem Algorithmus zutrauen, der durch das maschinelle Lernen erzeugt wurde, um mein eBike automatisch zu lenken und auszubalancieren? Vielleicht sollte man mir die Frage in einigen Jahren erneut stellen.