Forschungsbericht 2016 - Max-Planck-Institut für Psycholinguistik
Der Sprecherwechsel bei der zwischenmenschlichen Kommunikation und seine Folgen für die Sprachverarbeitung
Sprecherwechsel (turn-taking) – ein Teil der universellen Infrastruktur von Sprache
Sprachen unterscheiden sich auf allen Ebenen, sei es auf der lautlichen, der syntaktischen oder auf der Bedeutungsebene. Aber es gibt eine auffällige Gemeinsamkeit in der Art und Weise, wie Sprechende ihre Sprache gebrauchen – nämlich in Form schneller Wechsel von meist kurzen Redebeiträgen, im Folgenden turns genannt [1]. Obwohl es auf den ersten Blick unspektakulär zu sein scheint: Das System des Sprecherwechsels (turn-taking) ermöglicht einen tiefen Einblick in die Sprachverarbeitung und hilft bei der Beantwortung der Frage, warum Sprache so charakteristisch aus kurzen Phrasen- oder Satz-ähnlichen Einheiten mit bestimmten Lautmelodien besteht. Im Gegensatz zur Diversität unterschiedlicher Sprachen besitzt dieses System einen universellen Charakter: ein frühes ontologisches Auftreten sowie ein Fortbestehen in anderen Kommunikationssystemen von Primaten. Beide Merkmale legen den Schluss nahe, dass wir es hier mit einem phylogenetisch interessanten Phänomen zu tun haben, bei dem ein vokalisches turn-taking der Sprachentwicklung vorausgeht und einen Rahmen für sie schafft. Obwohl dieses System in der Soziologie im Bereich der Konversationsanalyse intensiv untersucht wurde (und wird), spielte es in den Kognitionswissenschaften noch bis vor kurzem kaum eine Rolle.
Der menschliche Sprachgebrauch ist vorwiegend interaktiv und in Gespräche eingebunden; in diesem Kontext werden Sprachen auch erworben. Das turn-taking-System hat die folgenden grundlegenden Eigenschaften [2]: Redebeiträge (turns) haben keine vorgegebene Größe; sie sind meist kurz, im Durchschnitt etwa zwei Sekunden lang, aber es gibt auch – wenn nötig – längere turns, zum Beispiel beim Erzählen einer Geschichte. Das turn-taking-System fordert von den Sprechern das Vermeiden von Überlappungen; es ist äußerst flexibel im Hinblick auf die Anzahl der Sprecher. Und es ist hocheffizient: Weniger als 5% des Redeflusses beinhaltet simultanes Sprechen von zwei oder mehr Sprechern [die modalen Überlappungen dauern weniger als 100 Millisekunden (ms)], die modale Lücke zwischen zwei turns dauert nur 200 ms, und das System arbeitet genauso effizient, wenn die Sprecher keinen Blickkontakt miteinander haben [2].
Man geht davon aus, dass das System auf der Basis eines „Rechts auf minimale turns“ funktioniert, wobei dem ersten Angesprochenen dieses Recht erteilt wird und dieser nach dem Ende seines Redebeitrags wieder darauf verzichtet. Turns bestehen aus syntaktischen (sprachlichen) Einheiten, die sich prosodisch (also hinsichlich ihrer lautlichen Merkmale) unterscheiden. Dadurch können die Gesprächsteilnehmer das bevorstehende Ende eines Redebeitrags vorhersagen. Eine das turn-Ende signalisierende Komponente wurde in der Vergangenheit diskutiert, aber sie kommt zu spät für das Initiieren der Planung einer Antwort; allerdings kann sie dazu führen, einen schon vorbereiteten turn auszulösen [2, 3]. Unseres Wissens nach ist das System, das den Ablauf von Alltagsgesprächen bestimmt, in hohem Maß universell, mit nur minimal zeitlichen Varianten [1], und es unterscheidet sich deutlich von den eher kulturspezifischen Systemen des Sprecherwechsels, wie sie zum Beispiel im Klassenzimmer, im Gerichtssaal oder in Pressekonferenzen benutzt werden.
Die kognitive Herausforderung des turn-taking
Folgende Befunde verdeutlichen die kognitiven Konsequenzen des turn-taking-Systems: Ein turn dauert durchschnittlich zwei Sekunden [2]. Im Sprachvergleich zeigt sich, dass die modale Reaktionszeit (d.h. die Lücke zwischen den Redebeiträgen) etwa 200 ms beträgt [1, 2]; das entspricht der durchschnittlichen Länge einer Silbe. Das ist auch der Grenzbereich für unsere Reaktion auf ein einfaches Startsignal, wie es z. B. von einer Startpistole abgegeben wird. Reaktionszeiten werden mit wachsender Anzahl von möglichen Reaktionstypen zunehmend langsamer (Hicksches Gesetz). Man bedenke: Sprachen haben Lexika von mehr als 50.000 Wörtern. Darüber hinaus ist die Sprachproduktion notorisch langsam – die Vorbereitung der Äußerung eines schon experimentell angebahnten Wortes beträgt 600 ms [4], die eines nicht angebahnten Wortes etwa 1000 ms, und die eines kurzen Satzes etwa 1500 ms. Ein Großteil dieser Verzögerung hängt von der langsamen Enkodierung phonologischer Formen und artikulatorischer Gesten ab. Das heißt, dass die Reaktion auf einen Redebeitrag bereits etwa in dessen Mitte geplant werden muss.
Die Langsamkeit des Sprachproduktionssystems erfordert, dass sich im interaktiven Sprachgebrauch das Sprachverstehen und die Sprachproduktion überschneiden. Man muss seinen eigenen Redebeitrag bereits planen, während man dem Gesprächspartner zuhört, und dabei vorhersagen, was der Rest seines turns noch beinhalten wird. Betrachten wir dazu die Abbildungen 1-3. Hier hört die Person B einen von der Person A produzierten Redebeitrag.
Neben dem einfachen Verstehen des gehörten Signals müssen nun folgende Voraussetzungen für eine sinnvolle und zeitlich adäquate – d.h. etwa 200 ms nach dem turn-Ende zu gebende – Antwort der Person B erfüllt sein: Person B muss so schnell wie möglich versuchen, die Funktion des Redebeitrags von Person A vorherzusagen (B muss erkennen, ob A`s Äußerung eine Frage, ein Angebot, eine Forderung etc. ist), um darauf adäquat zu reagieren (Abb. 1). Anschließend muss Person B sofort mit der Formulierung einer Antwort beginnen, wobei diese alle Stadien der Sprachproduktion – Konzeptualisierung, Wortfindung, syntaktische Konstruktion, phonologische Enkodierung und Artikulation – durchlaufen muss (Abb. 2).
Unterdessen muss Person B auch die syntaktischen und semantischen Besonderheiten von Person A's turn dazu benutzen, um abzuschätzen, wie lange dieser sein wird und dabei auch auf prosodische (über die Sprache hinausgehende) Hinweise auf ein turn-Ende achten (Abb. 3). Sobald Person B solche Hinweise erkennt, muss er/sie die Antwort initiieren.
Erste Ergebnisse
Kürzlich konnten erste Erkenntnisse zu jedem dieser Stadien gewonnen werden; dabei haben EEG-Analysen eine gute zeitliche Auflösung der dabei involvierten Prozesse geliefert. Das Erkennen von Sprechakten ist nicht-trivial, weil es keine Eins-zu-Eins-Zuordnung von Form und Funktion gibt: “Ich habe ein Auto” kann die Antwort auf eine Frage, die Einleitung eines Angebots zum Mitfahren oder die Ablehnung eines solchen Angebots sein – je nach dem jeweiligem Kontext („Fährst Du mit dem Zug?“, „Ich habe gerade den letzten Zug verpasst.“, „Musst du irgendwohin fahren?“). Mithilfe von EEG-Analysen konnte gezeigt werden, dass das Erkennen der Funktion eines Redebeitrags in diesen einschränkenden Kontexten dennoch sehr schnell – innerhalb der ersten 400 ms nach turn-Beginn – erfolgt [5]. Sobald das Sprachverstehen die Funktion erkennt, kann mit der Vorbereitung der Reaktion auf ihn begonnen werden.
Ebenfalls mithilfe von EEG-Analysen wurde gezeigt, dass Produktionsprozesse bereits innerhalb von 500 ms anlaufen, nachdem ausreichende Informationen vorhanden sind; das Signal kann in Bereichen der Sprachenkodierung aufgezeichnet werden [6]. Zur zeitlichen Abschätzung und Vorhersage von Dauer und Ende eines Redebeitrags können lexikalische, semantische und syntaktische Strukturen genutzt werden – in günstigen Fällen führt das etwa in der Hälfte der turns zum Erfolg. Das schließt auch die Vorhersage von dabei noch zu realisierenden Wörtern ein. [7].
Experimente mit manipulierten Äußerungen zeigen, dass die semantische Komponente für diese Vorhersagefähigkeit eine große Rolle spielt. Prosodische, über die eigentliche Sprache hinausgehende Hinweise (wie z.B. verlängerte Silben) treten oft gegen Ende eines Redebeitrags auf; es konnte gezeigt werden, dass diese von den Hörern genutzt werden [3]; sie geben wohl das Startsignal für die Produktion der Antwort. Das würde die 200 ms lange modale Lücke erklären, die in etwa unserer minimalen Reaktionszeit entspricht. Vorbereitungen für das Auslösen von Sprache durch solche Hinweise können im Atem-Signal mithilfe eines Plethysmographen erkannt werden [8]; sie werden auch von zuschauenden Anwesenden an den Augenbewegungen erkannt. Die Rolle der Tonhöhe ist dabei noch umstritten; wenn sie ausgefiltert wird, werden die Reaktionszeiten nicht kürzer, aber andere Messungen zeigten, dass sie genutzt wird.
Das Multitasking-Problem
Unser turn-taking-System involviert ein Multitasking von Abläufen innerhalb der Komponenten unseres Sprachverstehens und unserer Sprachproduktion. Ein Multitasking innerhalb ein und derselben Modalität ist ausgesprochen schwierig – in diesem Fall kann gezeigt werden, dass dabei große Teile des gleichen neuronalen Substrats genutzt werden. Offenbar kann das nur durch die schnelle Beteiligung verschiedener kognitiver Ressourcen erreicht werden. Diese Überschneidungen von Prozessen des Sprachverstehens und des Sprachgebrauchs führen in der gegenwärtigen psycholinguistischen Theoriebildung zu einer Reihe von Problemen. Es gibt z.B. die Hypothese, dass das Sprachverstehen das System der Sprachproduktion intrinsisch dazu nutzt, um Vorhersagen über den weiteren Verlauf einer Äußerung zu machen. Wenn aber das Sprachproduktionssystem schon damit beschäftigt ist, eine Reaktion auf einen Redebeitrag zu planen, dann wäre es wohl nicht in der Lage, dem Sprachverstehen zu helfen – abgesehen von ganz frühen Stadien eines zu verarbeitenden turns.
Gesprächsteilnehmer werden in ihrer Sprachgeschwindigkeit dadurch angetrieben, dass langsame Reaktionen signifikante Kommunikationszeichen sind – typischerweise zeigen sie ein Widerstreben an, der erwarteten Antwort zu entsprechen [9]. Diese Schlussfolgerung kann am besten dadurch vermieden werden, dass man die normalen Zeitabläufe in der Sprecherfolge einhält. Das turn-taking-System im Rahmen einer Konversation ist kognitiv offenbar sehr anspruchsvoll: Indem es Vorhersagen und eine frühe Vorbereitung nutzt, reguliert es die Übernahme von Redebeiträgen in einem zeitlichen Bereich, der unserer minimalen Reaktionszeit auf einen Startschuss entspricht.
Literaturhinweise
Proceedings of the National Academy of Sciences of the United States of America 106, 10587-10592 (2009)
Frontiers in Psychology 6, 284 (2015)
Discourse Processes 52, 255-289 (2015)