Forschungsbericht 2003 - Max-Planck-Institut für Plasmaphysik (Garching)
Datenanalyse mithilfe der Bayes’schen Wahrscheinlichkeitstheorie
Data analysis via Bayesian probability theory
Astrophysikalische und Labor-Plasma-Studien (Prof. Dr. Günther Hasinger)
MPI für Plasmaphysik, Garching
In einem Brief an Papst Urban VIII. zur Widerlegung des kopernikanischen Weltbildes heißt es: "Tiere, die sich bewegen, verfügen über Gliedmaßen und Muskeln. Die Erde besitzt weder Gliedmaßen noch Muskeln; also bewegt sie sich nicht." Die Aussage erscheint uns heute natürlich grotesk. Zu ihrer Zeit war sie es jedoch nicht, sondern der inverse Schluss stellte ein ernsthaftes philosophisches Problem dar. Die Lösung stammt von dem englischen Geistlichen Thomas Bayes FRS, dessen Arbeit "An essay towards solving a problem in the doctrine of chances" 1763 posthum veröffentlicht wurde. Die Formulierung der Bayes’schen Theorie, wie sie heutigen Tages in den Naturwissenschaften verwendet wird, stammt allerdings von Pierre Simon de Laplace, der auch erste Anwendungen auf Probleme der Himmelsmechanik, der medizinischen Statistik und sogar auf rechtliche Probleme präsentierte. Der fast zweihundertjährige Dornröschenschlaf der Theorie liegt unter anderem in dem teilweise erheblichen numerischen Aufwand begründet, den ihre Anwendung erfordert. Mit der zunehmenden Verfügbarkeit nahezu unbegrenzter Rechenmöglichkeiten ist dies eigentlich sehr alte Gebiet der Wissenschaft jedoch unversehens wieder hochmodern geworden.
Zunächst scheint der Weg von der Philosophie der Aufklärung zur Analyse von Daten aus physikalischen Experimenten oder Beobachtungen nicht gerade direkt zu verlaufen. Und doch ist er es. Traditionell sieht man in der Physik den Grad an Übereinstimmung zwischen experimentell erhobenen Daten und einer aus dem Modell entwickelten Rechnung als Gütemaßstab für eine physikalische Modellvorstellung an. Je kleiner die Abweichung zwischen Experiment und Modellrechnung, umso wahrscheinlicher die Richtigkeit der Modellvorstellung.

Dass dieses einfache Prinzip zu grotesken Resultaten führen kann, erläutern wir anhand der Abbildung 1: Im linken Teil der Figur sind zwei hypothetische Spektralfunktionen - Modell I und II - dargestellt. Unverzerrt beobachtet werden könnten sie nur durch eine ideale Apparatur, die es natürlich nicht gibt. Jede reale Apparatur hat eine endliche Auflösung und führt daher zur Verschmierung der ursprünglichen Spektralfunktion. Wir repräsentieren die Auflösungsfunktion der Apparatur durch die rote Glockenkurve. Das Resultat einer Messung simuliert man dann, indem man die rote Kurve über die Spektralfunktion schiebt und die zu jeder Verschiebung gefundene Fläche des Produktes "Spektralfunktion mal Auflösungsfunktion" als zu der gewählten Verschiebung gehörigen Datenpunkt notiert. Das Ergebnis einer solchen Operation ist in beiden Fällen die grüne Kurve und zwar fast unabhängig davon, ob wir von der oberen oder unteren Spektralfunktion ausgehen. Die sich aus beiden Wegen ergebenden Unterschiede ließen sich nicht einmal mehr unter einem Mikroskop feststellen. Bedenkt man aber, dass die Ausgangsfunktionen sich dramatisch unterscheiden - die obere oszilliert zwischen ± 2 x 106, während die untere positiv bleibt und auf Werte kleiner als 1 x 106 beschränkt ist - so kann aus einer Messung, die ja der grünen Kurve folgen würde, nicht geschlossen werden, welche Spektralfunktion gemessen wurde. Natürlich würde man immer fordern müssen, dass die Simulation mit den gemessenen Daten übereinstimmt. Diese Bedingung ist notwendig, aber eben nicht hinreichend für den inversen Schluss. Erst die Zusatzforderung, dass aus prinzipiellen physikalischen Gründen nur eine Spektralfunktion in Frage kommt, die auf positive Werte beschränkt ist, macht den Schluss von der Betrachtung (rechts) auf eine der beiden Ursachen (links) eindeutig.
In der Praxis verläuft die Schlussweise von rechts nach links. Ausgangspunkt sind die gemessenen Daten (grün), aus denen man durch geeignete Rückrechnung der Wirkung der roten Auflösungsfunktion zum physikalischen Ergebnis (blau) kommt. Die Bayes’sche Theorie besagt, dass für diese Schlussfolge die Übereinstimmung von Simulation und Daten genauso wesentlich ist wie Expertenwissen. Letzteres kann den Raum der erreichbaren Lösungen unter Umständen, je nach der Verlässlichkeit dieses Vorwissens, erheblich einschränken. Drei Beispiele aus der aktuellen Forschung sollen nun die Leistungsfähigkeit der Bayes'schen Wahrscheinlichkeitstheorie illustrieren.
Bayes'sche Analyse in Fusionsforschung und Astronomie
Eine wichtige Messgröße in der Fusionsforschung mit Maschinen, die das Plasma durch ringförmige Magnetfelder einschließen, ist der im Plasma erreichbare Energieinhalt als Funktion von Plasmadichte, zugeführter Leistung, geometrischen Abmessungen und einschließendem Magnetfeld. Je besser der Energieeinschluss, umso heißer das Plasma und umso höher die Rate der Fusionsreaktionen. Leider gibt es für diese wichtige Kerngröße eines Fusionsplasmas keine fundamentale Theorie. Bekannt sind aber die Grundgleichungen, aus denen eine solche Theorie entstehen müsste. Ein empirischer Weg zur Beschreibung des Energieinhaltes besteht nun darin, diese Grundgleichungen einer Dimensionsanalyse zu unterwerfen und die gesuchte Funktion als einen Faktor von der Dimension einer Energie anzusetzen, in der Dichte, Magnetfeld und Geometrie vorkommen, und einer Funktion dimensionsloser Variabler, die aus den ursprünglichen Variablen Dichte, Magnetfeld, Geometrie und zugeführter Leistung gebildet werden [1]. Als allgemeine nichtlineare Funktion mehrerer Variabler eignet sich ein neuronales Netz. Die Aufgabe für die Bayes'sche Theorie besteht dann in der Bestimmung der Komplexität des Netzes, seiner Parameter und der Frage, ob die physikalischen Grundgleichungen vollständig berücksichtigt werden müssen oder ob eine der möglichen Näherungen für eine ausreichende Beschreibung der vorhandenen Daten reicht. Die letzte Frage ist von besonderer Bedeutung, da ihre Antwort signalisiert, ob eine fundamentale Theorie für ein gegebenes Experiment möglicherweise auf weniger als dem vollen Satz von physikalischen Grundgleichungen errichtet werden kann.
Abbildung 2 zeigt das Ergebnis einer solchen Untersuchung. Der verwendete Datensatz ist durch offene Kreise in einem Diagramm dargestellt, das den gemessenen Energieinhalt als Funktion der Plasmadichte zeigt. Zu jedem dieser Kreise gehören verschiedene Werte der übrigen drei Variablen Magnetfeld, Geometrie und deponierte Heizleistung. Die durchgezogene Kurve repräsentiert die aus dem Datensatz gewonnene Abhängigkeit des Energieinhalts als Funktion der Plasmadichte für festgegebene Werte von Magnetfeld, kleinem Plasmaradius und zugeführter Leistung. Solche Abhängigkeiten des Plasmaenergieinhalts von einer Variablen (hier der Dichte) sind experimentell schwer zu erhalten. Glücklicherweise gibt es sie im vorliegenden Fall. Sie sind gekennzeichnet durch volle schwarze Kreise und man sieht, dass diese Messungen hervorragend mit den aus der Bayes'schen Analyse erhaltenen Vorhersagen übereinstimmen. Als wahrscheinlichstes physikalisches Modell für den Energieinhalt ergibt sich, dass es genügt, ein stoßbehaftetes Plasma zu betrachten. Die diamagnetische Rückwirkung des Plasmas auf das äußere Magnetfeld kann hingegen vernachlässigt werden.

Experimentelle Daten werden selten unter ideal störfreien Bedingungen erhoben. Neben einem Signal aus einer erwünschten Quelle treten häufig Zusatzsignale aus Störquellen auf. Man bezeichnet diese unerwünschten Signalanteile auch als Untergrund. Für den Fall, dass der Untergrund als Funktion einer Steuergröße des Experiments eine andere, i. a. langsamere Variation zeigt als das gesuchte Signal, kann man versuchen, Signal und Untergrund voneinander zu separieren [2]. Das Problem tritt zum Beispiel bei der Röntgenspektroskopie auf, bei der charakteristische Linien, je nach Experiment, einem mehr oder minder starken Kontinuum überlagert sind. Ein anderes, allerdings zweidimensionales Beispiel für das Problem ist in Abbildung 3 dargestellt. Das linke Bild zeigt in Falschfarbendarstellung die vom Röntgensatelliten ROSAT in einem kleinen Beobachtungsfeld gemessene Röntgenstrahlung. Den Astronomen interessiert nun die Frage, ob die beobachtete Strahlung von lokalisierten Quellen oder von einem nicht (oder schwach) strukturierten diffusen Untergrund herrührt. Zur Simulation der Beobachtungsdaten benutzt die Bayes’sche Analyse dann ein Mischungsmodell. Es besteht aus zwei Termen, von denen der erste einen langsam variierenden Untergrund und der zweite lokalisierte Quellen beschreibt. Die beiden Terme werden mit einem Mischungsparameter zwischen null und eins linear kombiniert. Für jeden Punkt des linken Bildes in Abbildung 3 liefert die Analyse die Wahrscheinlichkeit Pu, dass er nur Untergrund enthält und die Wahrscheinlichkeit für die Alternative Pu+s, dass das Signal sich aus Untergrund und Beitrag einer lokalisierten Quelle zusammensetzt. Im rechten Bild sind diejenigen Punkte gezeigt, für die Pu+s > Pu ist und die damit mehr Quellen- als Untergrundcharakter haben.

Ein Beispiel aus der Klimaforschung
Die Leistungsfähigkeit der Bayes’schen Datenanalyse tritt immer dann überzeugend hervor, wenn es sich um Probleme mit Daten von bescheidener Genauigkeit und kleinem Umfang handelt. Neben dem soeben geschilderten Astronomiebeispiel trifft diese Limitierung ganz sicher auch für die Klimaforschung zu [3]. Man möchte zum Beispiel die Durchschnittstemperatur der Monate Februar bis April in Deutschland aus Temperaturmessungen als Funktion des Beobachtungsjahrs darstellen, um zu ermitteln, ob und in welchem Ausmaß Temperaturerhöhungen im Laufe der Zeit auftreten. In diesem Fall kämpft man mit einem in Größe und Genauigkeit so bescheidenen Datensatz (Abb. 4a), dass man sich zu Recht fragt, ob man überhaupt von einer Temperaturdrift im Laufe der Jahre sprechen kann.
In die Sprache der Wahrscheinlichkeitstheorie übersetzt, untersucht man die Alternativen "die Daten lassen sich durch eine konstante Temperatur beschreiben" und (im einfachsten Fall) "die Temperatur ändert sich linear mit dem Beobachtungsjahr". Die Rechnung zeigt, dass die lineare Variation um einen Faktor zwei wahrscheinlicher ist. Noch wahrscheinlicher ist allerdings die Modellierung der Daten mit einer Funktion, die aus zwei linearen Segmenten besteht. Sei E das Jahr, in dem die beiden Segmente stetig ineinander übergehen. Berechnet man nun die Wahrscheinlichkeit für den Wert von E, so zeigt sich, dass es kein Jahr E mit überwältigender Wahrscheinlichkeit gibt. Vielmehr gibt es eine Gruppe von Jahren, die vergleichbare Wahrscheinlichkeiten besitzen mit einem Maximum bei 8 Prozent (Abb. 4b). Die Vorgehensweise der Bayes’schen Theorie erfordert in einem solchen Fall, die Daten durch eine Überlagerung aller möglichen Zwei-Segment-Funktionen gewichtet mit ihrer jeweiligen Wahrscheinlichkeit (Abb. 4c) zu beschreiben.

Herausragendes Merkmal der Bayes’schen Theorie ist auch, dass die Unsicherheit einer solchen Voraussage exakt spezifiziert werden kann. Wir entnehmen der Abbildung 4c, dass die Durchschnittstemperatur von Februar bis April in Deutschland von 1935 bis 1980 schwach zurückgegangen ist, seit 1980 aber steil ansteigt. Noch deutlicher ist dieses Verhalten im Trend (Temperaturänderung °C/Jahr) zu sehen (Abb. 4d). Er beträgt gegenwärtig 0,15 °C/Jahr. Dieser Temperaturanstieg spiegelt sich wider in einschlägigen phänologischen Betrachtungen. Eine kombinierte Analyse Phänologie/Temperatur ergibt auch eine Wahrscheinlichkeit der kausalen Abhängigkeit, die doppelt so groß ist wie die für unabhängige Phänomene.
Diese drei Beispiele sollten zeigen, wie vorteilhaft die Bayes’sche Theorie zur Interpretation von fehlerhaften und unvollständigen Informationen herangezogen werden kann. Die Theorie vollbringt keine Wunder, sie bedeutet vielmehr eine Anwendung des gesunden Menschenverstands mithilfe geeigneter Rechenvorschriften [4]. Die physikalische Forschung in Deutschland beginnt gerade, dies zu entdecken.