Forschungsbericht 2020 - Max-Planck-Institut für biologische Kybernetik

Erst schauen, dann sehen

Autoren
Zhaoping, Li
Abteilungen
Abteilung "Sensory and Sensorimotor Systems"
Zusammenfassung
Trotz vieler Forschungsarbeiten zum Sehen wissen wir noch wenig zur Verarbeitung visueller Reize in höheren Gehirnarealen. Der Grund dafür ist, dass eine wichtige Forschungsfrage nicht auf die richtige Weise gestellt wurde: die Selektion von Informationen durch Aufmerksamkeit. Bestimmte Gehirnareale koordinieren, wohin wir unseren Blick richten; andere entscheiden über die Interpretation des ausgewählten Input und fragen nötigenfalls weitere Informationen ab. Unsere Hypothesen setzen einen neuen Rahmen für das zukünftige Verständnis davon, wie das Sehen in unserem Gehirn funktioniert.

Die Augen sind Fenster zum Gehirn, zumindest für uns Menschen und für viele andere Primatenarten, deren dominanter Sinn das Sehen ist. Bei Affen ist etwa die Hälfte des Gehirnbereiches, der sich evolutionär zuletzt entwickelte (der Neokortex), den visuellen Funktionen gewidmet, beim Menschen immerhin knapp ein Drittel. Dieser Anteil erstaunt um so mehr, als das Gehirn auch andere sensorische Informationen wie Geräusche und Gerüche verarbeiten und motorische Handlungen planen und steuern muss. Man kann also davon ausgehen, dass unser Verständnis des Sehens bedeutsame Erkenntnisse über die Funktionsweise des Gehirns liefern kann. Entsprechend ist die Forschung zum Sehen hinsichtlich der Anzahl der Forschenden und der methodischen Ausgereiftheit führend innerhalb der Neurowissenschaften.

Dennoch: Dass der Nobelpreis an Sehforscher, David Hubel und Torsten Wiesel, im Jahr 1981 vergeben wurde, ist fast 40 Jahre her. Die beiden Forscher wurden für ihre Arbeit am primären visuellen Kortex (oder V1) ausgezeichnet, der ersten Stufe im Neokortex, die direkte visuelle Eingangssignale empfängt. In den 1950er Jahren wurde erkannt, dass die Neuronen der Netzhaut von Bildmerkmalen wie kleinen hellen oder dunklen Punkten angeregt werden. Hubel und Wiesel zeigten dann in den 1960er-Jahren, dass einzelne V1-Neuronen auf etwas größere Balkensegmente reagieren.  Setzt man diesen Prozess von der Netzhaut über V1 bis hin zu den höheren visuellen Kortexarealen fort, dann könnte man erwarten, dass die Neuronen größere und komplexere visuelle Formen erkennen müssten, wie zum Beispiel Bögen oder sogar Gesichter. Mehrere Jahrzehnten später jedoch war der Fortschritt in der Sehforschung in den Augen von Hubel und Wiesel und der Wissenschaftsgemeinschaft bestürzend gering. Woran liegt das? Haben wir Forschenden vielleicht die falschen Fragen gestellt?

Die Sehforschung hat jahrelang das Offensichtliche ignoriert: Wir sind weitgehend blind für unsere Umgebung und nehmen nur wahr, worauf unsere Aufmerksamkeit gerichtet ist – normalerweise etwas im Zentrum des Blickfelds. Das ist unvermeidlich, weil unsere Gehirne begrenzt sind. Von den mehr als 1 Million Fotorezeptoren des Auges werden jede Sekunde etwa 20 Bilder aufgenommen, die unser Gehirn mit etwa 20 Megabyte Rohdaten oder 1 Megabyte komprimierten Daten füttern, was den gesamten Informationen eines großen Buchs entspricht. Das Nadelöhr unserer Aufmerksamkeit lässt jedoch nur 40 Bits pro Sekunde durch, was zwei kurzen Sätzen Text entspricht und uns für mehr als 99% der Eingangsinformationen blind macht. Die Illusion, wir würden alles deutlich sehen, hat uns irregeleitet. Wir wählen einen winzigen Bruchteil der eingehenden Informationen aus, indem wir unseren Blick lenken, um Informationen im Zentrum des Blicks für eine tiefere oder aufmerksame Verarbeitung zu priorisieren. Um die richtigen Fragen zu stellen, müssen wir erkennen, dass Sehen nicht einfach nur Sehen ist, sondern Schauen vor dem Sehen erfordert! 

Welche Hirnareale bestimmen, wohin wir schauen, bevor wir sehen? Ist vielleicht V1 der Ort, an dem das “Schauen” beginnt? Das würde erklären, warum Fortschritt auf dem Gebiet der Sehforschung jenseits von V1 plötzlich schwieriger wurde. Das Nadelöhr, durch das der visuelle Input mittels der Aufmerksamkeit gefiltert wird, begönne direkt am Ausgang von V1 zu höheren Kortexarealen entlang der Sehbahn; und somit führten Experimente, die auf die Beantwortung traditioneller Fragestellungen ausgelegt sind, nicht weiter.

Vor etwa 20 Jahren habe ich die sogenannte V1-Saliency-Hypothese (oder V1SH) formuliert, laut derer der primäre visuelle Kortex eine sogenannte Saliency-Map erstellt, um Blickwechsel für die Aufmerksamkeitsselektion zu steuern. Die V1SH-Hypothese ist seither durch Ergebnisse aus der Verhaltensbiologie und Physiologie untermauert worden: Bei Affen geht gesteigerte Aktivität in einem V1-Neuron schnelleren Blickwechseln in Richtung der Gesichtsfeldposition voraus, die dieses Neuron mit Eingangssignalen versorgt – wie von V1SH vorhergesagt. Am deutlichsten wird V1SH durch Folgendes bestätigt: Wenn z.B. dem linken Auge ein Apfel präsentiert wird, während gleichzeitig dem rechten Auge 100 Äpfel gezeigt werden, wird der Blick unwillkürlich in Richtung dieses Apfels abgelenkt, selbst wenn wir keinen Unterschied zwischen den Äpfeln erkennen können. Das ist die unmittelbare Bestätigung dafür, dass wir tatsächlich schauen, ohne zu sehen, oder genauer gesagt: bevor wir sehen.

Eine logische Frage lautet: Wie sehen höhere visuelle Areale jenseits von V1, wenn sie nur eine begrenzte Auswahl an Eingangsdaten erhalten? Hierfür entscheidend ist eine weitere Hypothese, die sogenannte zentral/peripher-Dichotomie: Durch Änderungen der Blickrichtung werden die für die Weiterverarbeitung ausgewählten visuelle Eingangssignale vom peripheren ins zentrale Gesichtsfeld verschoben. Die anfänglichen spärlichen Feedforward-Daten lassen zunächst oft mehrere alternative Interpretationen des Inputs zu, z.B. “das ist eine rote Rose” oder “das ist ein roter Apfel”.

Die höheren Areale des visuellen Kortex melden den niedrigeren Arealen wie V1 dann zurück, dass sie mehr Informationen brauchen, um besser zu sehen – aber nur (oder hauptsächlich) für das zentrale Gesichtsfeld. Genauer gesagt nutzen sie das Wissen des Gehirns, um fiktiven visuellen Input zu erzeugen, der zu den anfänglichen Interpretationen passt; etwa “eine Rose würde so aussehen”. Der von den höheren Arealen generierten fiktive Input und der tatsächliche Input werden verglichen, und die Interpretation mit der besten Übereinstimmung, hier z.B. “eine Rose”, ist das, was wir tatsächlich sehen.

Da dieser Abgleich mit dem Feedback aus den höheren Arealen für das periphere Blickfeld fehlt, ist es anfällig für Illusionen, also Fehlinterpretationen des visuellen Inputs. Und in der Tat treten viele bekannte optische Täuschungen nur im peripheren Gesichtsfeld auf. Das Verständnis dieser Prozesse ermöglicht uns darüber hinaus ermutigende erste Erfolge: Wir können neue, bislang unbekannte Illusionen vorhersagen!

Indem wir unseren theoretischen Rahmen erweitern und mehr Vorhersagen experimentell testen, können wir vermeiden, an falschen Fragestellungen hängenzubleiben. Viele weitere Fragen müssen in diesem neuen Rahmen noch gestellt werden. Eine dieser Fragen lautet beispielsweise: Wie interagiert die Steuerung der Auswahl visuellen Inputs durch V1 mit derjenigen durch interne Zielsetzungen, und wie wird die dynamische Interaktion zwischen Schauen und Sehen von den neuronalen Schaltkreisen umgesetzt?

Zur Redakteursansicht