Psycholinguistics: An International Handbook Handba1/4cher Zur Sprach- Und Kommunikationswissenschaft / H [Bilingual ed.] 3110114240, 9783110114249, 9783110194043, 311019404X [PDF]

This handbook focuses on theoretical challenges associated with process-orientated psycholinguistics. Speech acts are em

145 52 7MB

German Pages 947 [958] Year 2003

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Title......Page 2
Vorwort......Page 6
Preface......Page 8
Inhalt / Contents......Page 10
01. Klaus Rehkämper, Philosophische Aspekte der Psycholinguistik......Page 13
02. Clemens Knobloch, Geschichte der Psycholinguistik......Page 27
03. Uwe Jürgens, Phylogenese der sprachlichen Kommunikation......Page 45
04. Horst M. Müller, Neurobiologische Grundlagen der Sprachfähigkeit......Page 69
05. Ulrich Schade, Stefan Barattelli, Kognitionswissenschaftliche Beiträge zu Sprachproduktion und Sprachrezeption......Page 92
06. Sabine Kowal, Daniel C. O’Connell, Datenerhebung und Transkription......Page 104
07. Gunter Senft, Ethnographic Methods......Page 118
08. Lorenz Sichelschmidt, Elena Carbone, Experimentelle Methoden......Page 127
09. Arthur M. Jacobs, Simulative Methoden......Page 137
10. Markus Joos, Matthias Rötting, Boris M. Velichkovsky, Spezielle Verfahren I - Bewegungen des menschlichen Auges, Fakten, Methoden und innovative Anwendungen......Page 154
11. Judith Streb, Spezielle Verfahren II - Elektrophysiologische Methoden......Page 180
12. Martin Meyer, Spezielle Verfahren III - Bildgebende Verfahren......Page 193
13. Ingrid Scharlau, Ulrich Ansorge, Odmar Neumann, Spezielle Verfahren IV - Reaktionszeitmessung, Grundlagen und Anwendung......Page 202
14. Henning Reetz, Spezielle Verfahren V - Analyse und Synthese von Sprachlauten......Page 214
15. Theo Herrmann, Theorien und Modelle der Sprachproduktion......Page 225
16. Theo Herrmann, Kognitive Grundlagen der Sprachproduktion......Page 240
17. Ralf Rummer, Aufmerksamkeitssteuerung......Page 256
18. Herbert Schriefers, Jörg D. Jescheniak, Lexikalischer Zugriff und grammatische Kodierung......Page 264
19. Harald G. Wallbott, Gestik und Mimik beim Sprechen......Page 274
20. Gert Rickheit, Constanze Vorwerg, Situiertes Sprechen......Page 291
21. Ulrich Schade, Hans-Jürgen Eikmeyer, Produktion von Syntagmen......Page 306
22. Walther Kindt, Ellipsen und andere syntagmatische Aspekte......Page 318
23. Ulrich Schade, Thomas Berg, Uwe Laubenstein, Versprecher und ihre Reparaturen......Page 329
24. Kai Alter, Prosodie......Page 351
25. Antje S. Meyer, Die phonologische Realisierung......Page 358
26. Joachim Grabowski, Bedingungen und Prozesse der schriftlichen Sprachproduktion......Page 367
27. Roland Mangold, Sprechen über Objekte......Page 380
28. Constanze Vorwerg, Sprechen über Raum......Page 388
29. Linda M. Moxey, Anthony J. Sandford, The Interpretation of Quantified Statements......Page 411
30. Bernadette Schmitt, The Production of Anaphoric Pronouns......Page 421
31. Murray Singer, Processes of Question Answering......Page 434
32. Ralf Graf, Karin Schweizer, Auffordern......Page 444
33. Christiane v. Stutterheim, Ute Kohlmann, Erzählen und Berichten......Page 454
34. Werner Deutsch, Grit Sommer, Cornelia Pischel, Sprechen und Singen im Vergleich......Page 465
35. Martina Hielscher, Emotion und Sprachproduktion......Page 480
36. Elke Prestin, Theorien und Modelle der Sprachrezeption......Page 503
37. Stephanie Kelter, Mentale Modelle......Page 517
38. Hede Helfrich, Kategoriale Wahrnehmung von Lauten......Page 530
39. Hans Strohner, Parsing-Prozesse......Page 536
40. Reinhard Beyer, Verstehen von Diskursen......Page 544
41. Grzegorz Dogil, Understanding Prosody......Page 556
42. Gert Rickheit, Hans Strohner, Inferenzen......Page 578
43. Wolfgang Schnotz, Informationsintegration mit Sprache und Bild......Page 589
44. Martin Dobrick, Missverstehen......Page 600
45. Jochen Müsseler, Periphere und zentrale Prozesse beim Lesen......Page 612
46. Constanze Vorwerg, Verstehen von Objektbenennungen......Page 621
47. Mike Rinck, Verstehen von Raumbeschreibungen......Page 634
48. Elke van der Meer, Verstehen von Kausalitätszusammenhängen......Page 643
49. Margret Wintermantel, Verstehen von Personenbeschreibungen......Page 655
50. Norbert Groeben, Verstehen von Sprecherintentionen - Witz, Metapher, Ironie......Page 663
51. Bernadette M. Schmitt, The Comprehension of Anaphoric Pronouns......Page 676
52. Martina Hielscher, Sprachrezeption und emotionale Bewertung......Page 689
53. Helen Leuninger, Sprachproduktion im Vergleich - Deutsche Lautsprache und Deutsche Gebärdensprache......Page 719
54. Michael Brambring, Sprachentwicklung blinder Kinder......Page 742
55. Friedhart Klix, Phylo- und Ontogenese sprachlicher Kommunikation......Page 765
56. Bernd Reimann, Die Entwicklung der vokalen Kommunikation......Page 793
57. Sven Strömqvist, Language Acquisition in Early Childhood......Page 802
58. Rüdiger Weingarten, Schriftspracherwerb......Page 813
59. Reinhard Fiehler, Spracherwerb im Erwachsenenalter......Page 824
60. Peter Jordens, Constraints on the Shape of Second Language Learner Varieties......Page 831
61. Dieter Wolff, Gesteuerter Fremdsprachenerwerb......Page 845
62. Eva Maria Jakobs, Medien der Individualkommunikation - Email und Telekonferenz......Page 857
63. Roland Mangold, Massenmedien - Rundfunk und Fernsehen......Page 866
64. Helge Ritter, Huge Virtual Reality......Page 875
65. Ulrich Reimers, Kommunikation aus der Sicht der Nachrichtentechnik......Page 893
66. Georg Rehm, Henning Lobin, Multimedia in der Informationsgesellschaft - Von Open Source zu Open Information......Page 901
Namenregister - Name index......Page 912
Sachregister - Subject Index......Page 946
Papiere empfehlen

Psycholinguistics: An International Handbook Handba1/4cher Zur Sprach- Und Kommunikationswissenschaft / H [Bilingual ed.]
 3110114240, 9783110114249, 9783110194043, 311019404X [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Psycholinguistik / Psycholinguistics HSK 24



Handbücher zur Sprach- und Kommunikationswissenschaft Handbooks of Linguistics and Communication Science Manuels de linguistique et des sciences de communication Mitbegründet von Gerold Ungeheuer (†) Mitherausgegeben 1985⫺2001 von Hugo Steger

Herausgegeben von / Edited by / Edite´s par Herbert Ernst Wiegand Band 24

Walter de Gruyter · Berlin · New York 2003

Psycholinguistik Psycholinguistics Ein internationales Handbuch An International Handbook

Herausgegeben von / edited by Gert Rickheit · Theo Herrmann · Werner Deutsch

Walter de Gruyter · Berlin · New York 2003

앝 Printed on acid-free paper which falls within the guidelines 앪 of the ANSI to ensure permanence and durability. ISBN 3-11-011424-0 Bibliographic information published by Die Deutsche Bibliothek Die Deutsche Bibliothek lists this publication in the Deutsche Nationalbibliografie; detailed bibliographic data is available in the Internet at ⬍http://dnb.ddb.de⬎. 쑔 Copyright 2003 by Walter de Gruyter GmbH & Co. KG, 10785 Berlin, Germany. All rights reserved, including those of translation into foreign languages. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopy, recording, or any information storage or retrieval system, without permission in writing from the publisher. Printed in Germany Typesetting: Meta Systems, Wustermark Binding: Lüderitz & Bauer-GmbH, Berlin Coverdesign: Rudolf Hübler, Berlin

Vorwort „Jedem ihrer komplexen Gegenstände vermag die empirische Wissenschaft viele, man kann ruhig sogar sagen unbegrenzt viele „Seiten“ abgewinnen; auch der Sprache.“ Dieser Satz stammt aus Karl Bühlers Axiomatik der Sprachwissenschaft (Kant Studien, 38, 1933: 40). Bühler selbst hat „am Gegenstand Sprache“ zwei „Bestimmungsweisen“ unterschieden: auf der einen Seite das Sprachgebilde und auf der anderen Seite die Sprechhandlung. In diesem Handbuch stehen Sprechhandlungen im Mittelpunkt, also das Hervorbringen und das Verstehen von sprachlichen Äußerungen. Für Karl Bühler waren diese Sprechhandlungen vom Sprachgebilde abhängig, ähnlich wie für die strukturalistisch orientierte Psycholinguistik, die um 1960 herum aufblühte und die Untersuchung der „psychologischen Realität sprachlicher Strukturen“ auf ihre Fahnen geschrieben hat. Keine Psycholinguistik kommt ohne Strukturmodelle für sprachliche Systeme bzw. Teilsysteme aus, um den Aufbau von Einzelsprachen, typologischen Klassen von Einzelsprachen und der Gesamtheit möglichst aller natürlichen Sprachen zu beschreiben. Doch folgt daraus auch, dass Sprechhandlungen kein Problemfeld sui generis darstellen? In diesem Handbuch kehren wir der strukturalistischen Psycholinguistik den Rücken, indem wir die neuen theoretischen Herausforderungen betonen, die mit einer prozessorientierten Psycholinguistik verbunden sind. Wie sehen diese Herausforderungen aus, und wie kann eine prozessorientierte Psycholinguistik ihnen begegnen? 1. Sprachliche Äußerungen sind das Produkt menschlichen Handelns. Sie werden von Menschen hervorgebracht und von Menschen aufgenommen. Die Sprechhandlungen sind kein Selbstzweck, sondern sie verfolgen – oft in Verbindung mit anderen nicht-sprachlichen Handlungen – Ziele, wie eine Frage stellen, eine Antwort geben, einen Sachverhalt klären, eine Nachricht übermitteln, einen Eid leisten oder eine Lüge in die Welt setzen. Warum Personen sprechen, hat die strukturalistisch ausgerichtete Psycholinguistik bisher kaum beachtet. Ihr Interesse lag und liegt in der Analyse bestimmter Eigenschaften von sprachlichen Äußerungen, die Rückschlüsse auf sprachliches Wissen und seinen Gebrauch zulassen. Eine prozessorientierte Psycholinguistik geht darüber hinaus. Sie betrachtet auch die Prozesse, die Sprechhandlungen in Gang setzen, weiterführen oder abschließen. Nur durch den Bezug zu nicht-sprachspezifischen Handlungen und Wissensbeständen können die motivationalen und kognitiven Grundlagen des Sprachgebrauchs angemessen aufgeklärt werden. 2. Das Produzieren und Verstehen von sprachlichen Äußerungen spielt sich in der Zeit ab. Flüssiges Sprechen setzt voraus, dass inhaltliche Planung und die sprachliche Umsetzung aufeinander bezogen werden, damit eins nach dem anderen ausgedrückt und ohne quälende Pausen realisiert wird. Trotzdem stellt sich die Frage, wie variabel diese Prozesse innerhalb und zwischen Personen zeitlich sein können, ohne den Eindruck unflüssigen (gestörten) Sprechens zu erzeugen. Das gilt auch für das Verstehen von sprachlichen Äußerungen, obwohl die zeitlichen „constraints“ hier sicherlich zum Teil andere sind als die für das Sprechen gültigen. In deutlichem Gegensatz zur strukturalistischen Position wird in diesem Handbuch die jeweilige Eigenart unterschiedlicher Prozesse herausgestellt. Das gilt im Besonderen auch für den Faktor Zeit. Mit der Unterscheidung unterschiedlicher Arten des Sprachgebrauchs wird jedoch nicht impliziert, dass es sich hierbei um gänzlich unabhängige Prozesse handelt. Das Umschalten zwischen diesen Prozessen und ihre Integration gehören zu den zentralen Voraussetzungen, um den Anforderungen an die aufeinander bezogenen kommunikativen Rollen von Sprecher, Adressat und Mithörer in mündlicher Kommunikation – aber auch sonst – gerecht werden zu können. 3. Sprechhandlungen sind in Situationen eingebettet, die hinsichtlich einer Unzahl von Parametern variieren können. Wie können sie auch unter schwierigen Randbedingungen funktionieren? Das Produzieren und Verstehen von sprachlichen Äußerungen muss einerseits robust und andererseits flexibel sein. Unter Robustheit verstehen wir die Fähigkeit, Störungen in der Kommunikationssituation, wie z.B. irreguläre und fragmentarische Information, verarbeiten zu können.

VI

Vorwort

Flexibel bedeutet, dass Menschen, wenn sie sprechen, ihr Sprechtempo, ihre Artikulation, ihre Wortwahl, ihren Interaktionsstil variieren können und müssen, je nach Kontext, in den die Äußerungen eingebunden sind. Das gilt beispielsweise für den sprachlichen Kontakt zwischen Eltern und Kleinkindern, bei dem übertriebene Interaktionskonturen die Funktion von sprachlichen Äußerungen etwa im Sinne von Aufforderungen versus Feststellungen deutlicher als beim „normalen“ Sprechen markieren. Auf der anderen Seite ist es erstaunlich, wie viele sprachliche Äußerungen verstanden werden können, ohne dass ihre Form perfekt oder der Inhalt eindeutig ist. Es muss Mechanismen geben, die das Gelingen sprachlicher Verständigung gegenüber externen Störungen und internen Unzulänglichkeiten absichern. Die Kommunikation bricht nicht zusammen, wenn während eines Gesprächs ein Zug vorbeifährt, ein Sprecher ein Wort verschluckt oder die Aufmerksamkeit des Adressaten durch ein spannendes Fußballspiel im Fernsehen abgelenkt wird. Gesucht sind also Konzeptionen, die nicht ausschließlich an Idealen wie Grammatikalität und Kohärenz orientiert sind und gegenüber jeder dieser Abweichungen zusammenbrechen, sondern solche, die robust genug sind, um mit Abweichungen und Störungen in einem gewissen Rahmen fertig zu werden. 4. Nach strukturalistischer Auffassung lassen sich sprachliche Äußerungen in Segmente unterschiedlicher Größe wie Phonem, Silbe, Morphem, Wort, Phrase, Satz und Text gliedern. Bei einer prozessorientierten Betrachtung kommt einem dieser Segmente vor allen anderen eine zentrale Stellung zu. Das Wort ist sozusagen der Angelpunkt, von dem aus kleinere und größere Segmente spezifiziert bzw. gebildet werden. Das Wort ist auch die Schaltstelle, an der beim Produzieren und Verstehen sprachlicher Äußerungen auf den Inhalt und auf die Form ausgerichtete Teilprozesse zusammenlaufen. 5. Sprechhandlungen sind individuelles und soziales Verhalten gleichermaßen. Durch die Situationsgebundenheit sprachlicher Prozesse wird jeweils berücksichtigt, in welcher kommunikativen Rolle und in welcher Modalität diese Prozesse ablaufen. Ausgangspunkt ist dabei der mündliche Sprachgebrauch, weil andere Modalitäten wie die Schriftsprache sich nicht autonom, sondern aus mündlichen Kommunikationsformen entwickelt haben. Ein Sonderfall bildet aus heutiger Sicht die gebärdensprachliche Kommunikation, die von ihrer Entstehung her genau wie die Lautsprache als Erstsprache erworben werden kann und – auch in evolutionärer Betrachtung – eine echte Variante natürlichen Sprachgebrauchs zu sein scheint, die unter besonderen Rahmenbedingungen zum Zuge kommt. 6. Die Psycholinguistik muss offen gegenüber unterschiedlichen methodischen Zugängen für die Analyse bzw. Rekonstruktion verschiedener Varianten und Optionen des Sprachgebrauchs sein. Untersuchungen, in denen Spontansprache aufgezeichnet und transkribiert wird, sollten nicht besser oder schlechter bewertet werden als experimentell kontrollierte bzw. kontrollierbare Studien. Gleiches gilt für die Simulationstechniken, durch die in einem nur zum Teil bekannten Phänomenbereich Prozesse modelliert und hinsichtlich ihrer Effizienz evaluiert werden. So ist dieses Handbuch auch offen gegenüber unterschiedlichen theoretischen Ausgangspositionen. Es werden keine Mauern errichtet etwa zwischen Ansätzen, die sich bei der Modellierung von Sprechhandlungen auf Netzwerke oder regelbasierte Repräsentationen von Wissen und Operationen beziehen. 7. Durch die fortschreitende Technisierung der Gesellschaft sind Sprechhandlungen Veränderungen ausgesetzt, deren Folgen noch gar nicht abzusehen sind. Das Handbuch will diesen neuen Entwicklungen im Bereich der Kommunikations- und Medientechnologie Rechnung tragen, indem den technischen Aspekten im Sinne artifizieller Erzeugung und Synthese von sprachlichen Äußerungen auch im Hinblick auf noch nicht abschätzbare Folgen für die „natürliche“ Kommunikation genügend Raum gegeben wird. Wenn dieses Handbuch der Psycholinguistik die Diskussion um die Erforschung des Sprachgebrauchs stimuliert und zur weiteren Entwicklung der theoretischen Ansätze und der methodischen Verfahren anregt, hat es seine Funktion im Wissenschaftssystem erfüllt. Verbesserungsvorschläge und Kritik nehmen die Autoren und Herausgeber gern entgegen. Bielefeld, Mannheim, Braunschweig, im März 2003

Gert Rickheit Theo Herrmann Werner Deutsch

Preface

VII

Preface “Empirical science is able to see many, one may well say infinitely many aspects in each of its complex subjects; in language, too.” This sentence is quoted from Karl Bühler’s “Axiomatics of science of language” (Kant Studien, 38, 1933: 40). He differentiated between two ways of determinating the ‘subject of language’: on the one hand what he calls ‘Sprachgebilde’ (language form) and on the other hand ‘Sprechhandlung’ (speech act). This handbook focuses on speech acts, that is to say, the production and the reception of verbal utterances. In the view of Karl Bühler, speech acts are dependent on language form, a view similar to the one held by structural psycholinguistics. The latter began to flourish in the 1960s, taking up the course of “psychological reality of linguistic structures”. Certainly psycholinguistics cannot do without structural models of linguistic systems or partial systems. But does this imply speech acts are not sui generis subjects? This handbook wants to turn its back on structural psycholinguistics by putting emphasis on new theoretical challenges associated with a process oriented psycholinguistics. What are these challenges, and how can process oriented psycholinguistics meet them? 1. Verbal utterances are the product of human acts, they are made and accepted by persons. Verbal utterances are not an end in themselves, they are aimed at asking a question, giving an answer, clarifying a matter of fact, transmitting news, taking an oath or telling tall stories. Very often speech acts combine with non-linguistic acts. Psycholinguistics has hardly ever paid attention to the question of why people talk. Instead, its main subject was and is the analysis of certain characteristics of utterances in order to draw conclusions with respect to linguistic knowledge and its use. Process oriented psycholinguistics goes beyond this. It also takes into account the processes that initiate, continue or conclude speech acts. Only by relating them to nonlinguistic actions and knowledge is there a realistic chance to clarify the motivational, emotional and cognitive foundations of language use. 2. Producing and understanding verbal utterances are processes that occur in real time. Fluent speech requires a connection between content planning and physical realisation, for the sake of expressing ideas sequentially and without any delays. The question is, to what extent such processes may vary in time without leading to the impression of nonfluent, disrupted speech. The same holds for speech comprehension, although the time constraints here are partially different from those that apply for speaking. The handbook focuses on specific factors of speech production and reception, such as time. Another aspect is the interrelationship of the processes themselves. Their integration when switching from comprehension to production or vice versa is an important requirement with respect to communicative roles such as speaker, listener, and overhearer. 3. Speech acts are embedded in situations that may vary in a multitude of parameters. How do they function in spite of mostly non-ideal circumstances? Speech production and comprehension necessarily have to be both robust and flexible. Robustness means the ability to understand utterances in spite of disturbances in communication such as irregular and fragmentary information. Flexibility means that speakers may adjust their speed, articulation, choice of words, and interaction style to the requirements of specific context conditions. An example is the way parents talk to their infants. A marked interaction shape underlines functions of utterances such as commands or statements more effectively than in “normal” speech. On the other hand, it is amazing how well verbal utterances are understood regardless of an incorrect form or an ambigous content.There must be mechanisms to protect verbal communication against external interferences and internal insufficiencies. Communication does not break down if a tram passes by during a conversation, or the speaker slurs a word, or the attention of the listener is distracted by a

VIII

Preface

football match on television. Psycholinguistics requires theoretical approaches that do not exclusively stick to ideals such as grammaticality and coherence ⫺ which collapse when confronted with irregularities ⫺ but that are robust enough to deal with irregularities and disruptions. 4. From a structuralistic point of view, verbal utterances can be segmented into phonemes, syllables, morphemes, words, phrases, sentences or texts. In a process oriented approach, words are of central interest. In terms of functionality, the word is, so to speak, the key issue. When producing and understanding verbal utterances, it is the point where partial processes in the establishment of content and form meet. 5. Speech acts are to be viewed both as individual and social behaviour. Since speech acts are embedded in situations, communicative roles and modalities of the respective processes have to be considered. The starting point is spoken language, because other modalities such as written language are developed from oral communication. Sign language constitutes an exception since it is a natural language in its own right, acquired by many people as their primary language. 6. Psycholinguistics must be open to different methods of analysing or reconstructing variants and options of language use. This includes transcriptions of spontaneous speech as well as experimentally verified studies. The same holds for simulation techniques for modelling partial processes and for evaluating their efficiency. There are no restrictions with respect to theoretical starting points ⫺ modelling of speech acts by means of neural networks is to be found in the handbook as well as rule based knowledge representation. 7. Technical progress in society brings about changes in speech acts, the consequences of which cannot yet be foreseen. The handbook reflects new developments in the domain of communication technology and multimedia technology by showing the possible influence that the artificial generation of verbal utterances and the encounter with “controlled language” may exert on “natural” communication. If this handbook of psycholinguistics stimulates discussion with regard to the research on language use and to the further development of psycholinguistic theories and methods, it can be of service to our science system. The authors and the editors would be pleased to receive critical comments and suggestions for improvement. Bielefeld, Mannheim, Braunschweig, March 2003

Gert Rickheit Theo Herrmann Werner Deutsch

IX

Inhalt / Contents

Inhalt / Contents I. 1. 2. 3. 4. 5.

Grundlagen der Psycholinguistik / Foundations of Psycholinguistics Klaus Rehkämper, Philosophische Aspekte der Psycholinguistik . . . . . . . Clemens Knobloch, Geschichte der Psycholinguistik . . . . . . . . . . . . . . Uwe Jürgens, Phylogenese der sprachlichen Kommunikation . . . . . . . . . Horst M. Müller, Neurobiologische Grundlagen der Sprachfähigkeit . . . Ulrich Schade, Stefan Barattelli, Kognitionswissenschaftliche Beiträge zu Sprachproduktion und Sprachrezeption . . . . . . . . . . . . . . . . . . . . . .

II.

Methoden der Psycholinguistik / Methods of Psycholinguistics

6. 7. 8. 9. 10.

Sabine Kowal, Daniel C. O’Connell, Datenerhebung und Transkription . . Gunter Senft, Ethnographic Methods . . . . . . . . . . . . . . . . . . . . . . . Lorenz Sichelschmidt, Elena Carbone, Experimentelle Methoden . . . . . . Arthur M. Jacobs, Simulative Methoden . . . . . . . . . . . . . . . . . . . . . Markus Joos, Matthias Rötting, Boris M. Velichkovsky, Spezielle Verfahren I: Bewegungen des menschlichen Auges: Fakten, Methoden und innovative Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . Judith Streb, Spezielle Verfahren II: Elektrophysiologische Methoden . . . Martin Meyer, Spezielle Verfahren III: Bildgebende Verfahren . . . . . . . . Ingrid Scharlau, Ulrich Ansorge, Odmar Neumann, Spezielle Verfahren IV: Reaktionszeitmessung: Grundlagen und Anwendung . . . . . . . . . . . . . . Henning Reetz, Spezielle Verfahren V: Analyse und Synthese von Sprachlauten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11. 12. 13. 14.

III.

Sprachproduktion / Language Production

15. 16. 17. 18.

Theo Herrmann, Theorien und Modelle der Sprachproduktion . . . . Theo Herrmann, Kognitive Grundlagen der Sprachproduktion . . . . Ralf Rummer, Aufmerksamkeitssteuerung . . . . . . . . . . . . . . . . . . Herbert Schriefers, Jörg D. Jescheniak, Lexikalischer Zugriff und grammatische Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . Harald G. Wallbott, Gestik und Mimik beim Sprechen . . . . . . . . . Gert Rickheit, Constanze Vorwerg, Situiertes Sprechen . . . . . . . . . . Ulrich Schade, Hans-Jürgen Eikmeyer, Produktion von Syntagmen . . Walther Kindt, Ellipsen und andere syntagmatische Aspekte . . . . . . Ulrich Schade, Thomas Berg, Uwe Laubenstein, Versprecher und ihre Reparaturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kai Alter, Prosodie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Antje S. Meyer, Die phonologische Realisierung . . . . . . . . . . . . . . Joachim Grabowski, Bedingungen und Prozesse der schriftlichen Sprachproduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19. 20. 21. 22. 23. 24. 25. 26.

1 15 33 57 80

92 106 115 125

142 168 181 190 202

. . . 213 . . . 228 . . . 244 . . . . .

. . . . .

. . . . .

252 262 279 294 306

. . . 317 . . . 339 . . . 346 . . . 355

X

Inhalt / Contents

35.

Roland Mangold, Sprechen über Objekte . . . . . . . . . . . . . . . . . . . . . Constanze Vorwerg, Sprechen über Raum . . . . . . . . . . . . . . . . . . . . . Linda M. Moxey, Anthony J. Sandford, The Interpretation of Quantified Statements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bernadette Schmitt, The Production of Anaphoric Pronouns . . . . . . . . . Murray Singer, Processes of Question Answering . . . . . . . . . . . . . . . . Ralf Graf, Karin Schweizer, Auffordern . . . . . . . . . . . . . . . . . . . . . . Christiane v. Stutterheim, Ute Kohlmann, Erzählen und Berichten . . . . . . Werner Deutsch, Grit Sommer, Cornelia Pischel, Sprechen und Singen im Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Martina Hielscher, Emotion und Sprachproduktion . . . . . . . . . . . . . .

IV.

Sprachrezeption / Language Reception

36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50.

Elke Prestin, Theorien und Modelle der Sprachrezeption . . . . . . . . . . . Stephanie Kelter, Mentale Modelle . . . . . . . . . . . . . . . . . . . . . . . . . Hede Helfrich, Kategoriale Wahrnehmung von Lauten . . . . . . . . . . . . Hans Strohner, Parsing-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . Reinhard Beyer, Verstehen von Diskursen . . . . . . . . . . . . . . . . . . . . . Grzegorz Dogil, Understanding Prosody . . . . . . . . . . . . . . . . . . . . . . Gert Rickheit, Hans Strohner, Inferenzen . . . . . . . . . . . . . . . . . . . . . Wolfgang Schnotz, Informationsintegration mit Sprache und Bild . . . . . Martin Dobrick, Missverstehen . . . . . . . . . . . . . . . . . . . . . . . . . . . Jochen Müsseler, Periphere und zentrale Prozesse beim Lesen . . . . . . . . Constanze Vorwerg, Verstehen von Objektbenennungen . . . . . . . . . . . . Mike Rinck, Verstehen von Raumbeschreibungen . . . . . . . . . . . . . . . . Elke van der Meer, Verstehen von Kausalitätszusammenhängen . . . . . . . Margret Wintermantel, Verstehen von Personenbeschreibungen . . . . . . . Norbert Groeben, Verstehen von Sprecherintentionen: Witz, Metapher, Ironie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bernadette M. Schmitt, The Comprehension of Anaphoric Pronouns . . . Martina Hielscher, Sprachrezeption und emotionale Bewertung . . . . . . . Helen Leuninger, Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache . . . . . . . . . . . . . . . . . . . . . . . . . . .

27. 28. 29. 30. 31. 32. 33. 34.

51. 52. 53.

368 376 399 409 422 432 442 453 468

491 505 518 524 532 544 566 577 588 600 609 622 631 643 651 664 677 707

V.

Alternative Formen sprachlicher Kommunikation / Alternative Forms of Language Communication

54.

Michael Brambring, Sprachentwicklung blinder Kinder . . . . . . . . . . . . 730

VI.

Spracherwerb / Child Language Acquisition

55. 56. 57. 58. 59. 60.

Friedhart Klix, Phylo- und Ontogenese sprachlicher Kommunikation . Bernd Reimann, Die Entwicklung der vokalen Kommunikation . . . . . Sven Strömqvist, Language Acquisition in Early Childhood . . . . . . . Rüdiger Weingarten, Schriftspracherwerb . . . . . . . . . . . . . . . . . . . Reinhard Fiehler, Spracherwerb im Erwachsenenalter . . . . . . . . . . . Peter Jordens, Constraints on the Shape of Second Language Learner Varieties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dieter Wolff, Gesteuerter Fremdsprachenerwerb . . . . . . . . . . . . . .

61.

. . . . .

. . . . .

753 781 790 801 812

. . 819 . . 833

XI

Inhalt / Contents

VII. Medien / Media 62. 63. 64. 65.

Eva Maria Jakobs, Medien der Individualkommunikation: Email und Telekonferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Roland Mangold, Massenmedien: Rundfunk und Fernsehen . . . . . . . Helge Ritter, Huge Virtual Reality . . . . . . . . . . . . . . . . . . . . . . . Ulrich Reimers, Kommunikation aus der Sicht der Nachrichtentechnik

. . . .

. . . .

845 854 863 881

VIII. Perspektiven der Informationsgesellschaft / Perspectives of an Information Society 66.

Georg Rehm, Henning Lobin, Multimedia in der Informationsgesellschaft: Von Open Source zu Open Information . . . . . . . . . . . . . . . . . . . . . . 889

Namenregister / Name index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 901 Sachregister / Subject Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935

I. Grundlagen der Psycholinguistik/Foundations of Psycholinguistics 1. Philosophische Aspekte der Psycholinguistik Die Psycholinguistik oder Sprachpsychologie befasst sich – cum grano salis – mit drei Bereichen: (1) Sprachproduktion, (2) Sprachverstehen und (3) Spracherwerb. Sie wird heute als ein Teilbereich der kognitiven Psychologie verstanden, und daher „erbt“ sie auch ihre philosophischen Probleme. Das Verhältnis von Philosophie und kognitiver Psychologie ist nicht ganz so klar abgegrenzt, wie dies bei anderen Wissenschaften z. B. der Physik oder der Biologie der Fall ist. Während sich die Philosophie bei den letztgenannten Wissenschaften auf die Untersuchung der jeweiligen Grundbegriffe und Theorien beschränkt – sie also philosophisch begleitet –, versucht sie in die kognitive Psychologie auch einzugreifen, indem sie z. B. vorgibt, welche Fragen überhaupt sinnvoll untersucht werden können. Folgt man der Russell’schen Ansicht, dass „es sich bei vielen philosophischen Fragen um eigentlich wissenschaftliche Fragen [handelt], die die Wissenschaft noch nicht behandeln kann“ (Russell, 1959; 1988: 261), so könnte man zu der Ansicht gelangen, dass es sich bei der kognitiven Psychologie noch nicht um eine vollausgebildete Wissenschaft handelt und die Mitarbeit von Philosophen innerhalb der Disziplin unabdingbar ist. Jedoch wird diese Ansicht nicht von allen kognitiven Psychologen geteilt; im Gegenteil, Garnham (1994: 175) formuliert kurz und knapp: „In general, however, psychologists are happy to work without philosophers telling them about their ‘mistakes’.“ Wie kann nun aber die Philosophie im Bereich der kognitiven Psychologie konstruktiv Beiträge leisten, bzw. wo ist ihre Mitarbeit mehr als nur wünschenswert? Zentral ist sicherlich vor allen Dingen die Frage, welche Theorie des Geistes der kognitiven Psychologie und damit der Psycholinguistik zugrundeliegt. Hier wird auf das alte philosophische Leib-Seele-Problem – oder wie man heute sagt – „Körper-Geist-Prob-

lem“ zurückgegriffen. Stichworte, die die kognitive Psychologie mit der Philosophie, insbesondere mit der Philosophie des Geistes, verbinden, sind daher u. a.: Alltagspsychologie, Behaviorismus, repräsentationale Theorie des Geistes, Funktionalismus, computationale Theorie des Geistes, Sprache des Geistes, mentale Repräsentationen, Intentionalität, Verstehen, Konnektionismus. Die vorherrschende Theorie des Geistes der ersten Hälfte des 20. Jahrhunderts war sicherlich der Behaviorismus (wobei man hier vielleicht anmerken sollte, dass dies eben keine Theorie des Geistes war, da der Begriff „Geist“ als nicht-wissenschaftlich gebrandmarkt wurde). Der Behaviorismus soll im Folgenden in seiner Spielart des logischen Behaviorismus oder semantischen Physikalismus besprochen werden. In der Psychologie wurde der Behaviorismus im Jahre 1913 von J. B. Watson durch seine Arbeit Psychology as a behaviorist views it eingeführt (s. a. Watson, 1930). Er verstand sich als Gegenposition zur damaligen Orientierung der Psychologie am Bewusstsein und an der Introspektion – der sogenannten Erste-Personen-Autorität. (Nur eine Person selbst hat einen direkten und privilegierten Zugang zu ihren eigenen inneren, mentalen Zuständen.) Der Introspektion wird als wissenschaftliches Verfahren im Behaviorismus die naturwissenschaftliche, objektive Beobachtung von äusserem, sichtbarem Verhalten gegenübergestellt. Eine wissenschaftliche Beschreibung sollte sich allein auf die Zusammenhänge von messbaren Reizen und darauf folgenden beobachtbaren Reaktionen z. B. Verhaltensänderungen beschränken. Auf wie auch immer geartete interne, mentale Entitäten wurde nicht Bezug genommen. Der erste moderne philosophische Ansatz, das Körper-Geist-Problem zu lösen, ist der semantische Physikalismus, wie er im Wiener Kreis (insbesondere von Carnap, 1932 und

2 Hempel, 1935) entwickelt wurde. Seine Thesen lauteten, dass jedes mentale Prädikat sich mit Ausdrücken einer rein physikalischen Sprache definieren lässt bzw. dass jeder psychologische Satz in einen bedeutungsgleichen Satz einer physikalischen Sprache übersetzt werden kann (s. Beckermann, 1999: 65). Es sind also nicht die mentalen Phänomene selbst, die untersucht werden, sondern die Art und Weise, wie wir darüber sprechen. Ziel ist hierbei, die mentalistische Sprache in eine physikalische zu übersetzen, um so mentalistische Ausdrücke überflüssig zu machen. Verbunden ist diese Ansicht mit einer verifikationistischen Bedeutungstheorie, die davon ausgeht, dass sich der Gehalt empirischer Aussagen aus den Beobachtungssätzen ergibt, die sich aus ihnen ableiten lassen. Lassen sich aus zwei Sätzen dieselben Beobachtungssätze ableiten, sind sie bedeutungsgleich. Ein Satz besagt nicht mehr, als das, was an ihm nachprüfbar ist. Die Verifikationsbedingungen (manchmal wird allerdings auch von Wahrheitsbedingungen gesprochen) bestimmen die Bedeutung eines Satzes. Wittgenstein (1953) argumentierte überzeugend dafür, dass eine psychologische Sprache nicht über bestimmte interne Zustände berichten kann, die nur demjenigen zugänglich sind, der sich in diesem Zustand befindet. Im Falle einer rein privaten Empfindungssprache z. B. gäbe es per definitionem keine öffentlichen Kriterien dafür, ob ein Ausdruck korrekt oder nicht korrekt angewendet wird. Wenn es jedoch keine unabhängigen Kriterien/Regeln bei der Anwendung eines Begriffes gibt, dann gibt es überhaupt keine Kriterien/Regeln. Dann wiederum können diese scheinbar privaten Entitäten – die Frage, ob es sie nun tatsächlich gibt oder nicht, wird damit unerheblich – auch nicht die Bedeutung von Empfindungswörtern sein, denn die Bedeutung von sprachlichen Ausdrücken wird durch öffentlich zugängliche Regeln festgelegt. Die Bedeutung von mentalen Ausdrücken, die es ja augenscheinlich gibt, ist daher unlösbar mit öffentlichen Kriterien verbunden. Die Annahme eines begrifflichen Zusammenhangs von mentalen Zuständen und beobachtbaren, physikalischen Phänomenen wird durch dieses Argument unterstützt. Gilbert Ryle (1949) vertrat wie Wittgenstein die Ansicht, dass sich mentale Ausdrücke nicht auf irgendwelche inneren Zustände oder Vorgänge beziehen, sondern Verhaltensdispositionen ausdrücken. Mentale Erklärun-

I. Grundlagen der Psycholinguistik

gen sind keine Kausalerklärungen, sondern dispositionelle. Im semantischen Physikalismus geht es nicht zu allererst darum, bestimmte mentale Eigenschaften auf physische Eigenschaften zurückzuführen, sondern es wird nach der Bedeutungsgleichheit zweier wissenschaftlicher Ausdrücke gesucht. An der Durchführbarkeit dieses Programms darf mit Recht gezweifelt werden. Zuerst einmal hat die verifikationistische Bedeutungstheorie des Wiener Kreises die Zeit nicht überdauert; die Forderung nach einer Möglichkeit der Verifikation wurde durch die Forderung nach der Möglichkeit einer Falsifikation ersetzt; zweitens ist es mehr als fraglich, ob sich alle psychologischen Ausdrücke vollständig in einer rein physikalischen Sprache ausdrücken lassen. Da mentale Begriffe augenscheinlich Cluster-Begriffe sind (s. Beckermann, 1999: 86 ff.), lässt sich kein psychologischer Ausdruck Spsy so durch einen physikalischen Ausdruck Sphy definieren, dass (1) alle notwendigen (und zusammen hinreichenden) Bedingungen seiner Anwendung aufgeführt sind (die Liste kann unendlich sein); dass (2) im Definiens keine weiteren psychologischen Ausdrücke auftauchen, die nicht selbst wieder auf rein physikalische zurückgeführt werden müssten. Eine zirkelfreie Überführung mentaler Ausdrücke in physikalische scheint daher unmöglich. Auch in der Linguistik (z. B. Bloomfield, 1933) stellte der Behaviorismus bis Ende der 50er Jahre das vorherrschende Paradigma. Und auch hier war das methodologische Ziel, sprachliche Äusserungen zu beobachten und zu beschreiben, ohne dass auf irgendwelche mentalen Entitäten zurückgegriffen wurde. Ende der 50er Jahre begann jedoch in der Philosophie und in der Linguistik ein Umdenkungsprozess. Noam Chomsky leitete mit seiner Arbeit Syntactic Structures 1957 die kognitive Wende in der Linguistik ein, wobei sein Bruch mit dem Behaviorismus in seiner Rezension von Skinners Verbal Behavior (1959) unmissverständlich zutage tritt. Chomsky wählte anstelle des beschreibenden Vorgehens eine deduktive Vorgehensweise. Er glaubte, dass durch die ausschliessliche Untersuchung realer Äusserungen von Sprechern, die der Sprache zugrunde liegenden Regeln niemals erkannt werden könnten. Sein Ziel war die Formulierung eines formalen Systems von Regeln, das den generativen Charakter der Sprache, insbesondere der Syntax, zu erklä-

1. Philosophische Aspekte der Psycholinguistik

ren vermochte. Die Grundannahmen waren dabei, dass die Syntax unabhängig von anderen Aspekten der Sprache untersucht werden könne sowie dass die Linguistik unabhängig von anderen Kognitionswissenschaften sei. Zugleich betrachtete er jedoch die Linguistik auch als einen Teil der kognitiven Psychologie. Um die Notwendigkeit eines neuen Ansatzes zu demonstrieren, zeigte Chomsky, dass die damals existierenden Methoden und Grammatiktheorien nicht wirklich Erklärungsmodelle liefern konnten. Die FiniteState-Grammatik konnte keine rekursiven Konstruktionsmerkmale in der Sprache erfassen, d. h. sie konnte keine Sätze mit eingebetteten oder voneinander abhängigen Sätzen erzeugen und dabei Sätze ausschliessen, die diesen Abhängigkeiten widersprechen. Die Phrasenstrukturgrammatik wiederum war so umständlich und kompliziert, dass sie zur Beschreibung mentaler Vorgänge kaum geeignet zu sein schien. Alternativ entwickelte Chomsky die sogenannte generative Grammatik. Diese Grammatik basierte auf der Idee eines Automaten oder Computers, der bestimmte Transformationen – algorithmische Verfahren – durchführt. Durch diese Sichtweise und in dem Wunsch, Sprache in ihrer idealen Form zu untersuchen – also nicht in der manchmal fehlerhaften Form, wie sie uns im Alltagsleben begegnet –, unterscheidet Chomsky sich prinzipiell von seinen Vorgängern. Hörmann (1981) macht allerdings darauf aufmerksam, dass sich eine Linguistik Chomsky’scher Prägung und die moderne Psycholinguistik in ihren Zielsetzungen unterscheiden. Die generative Grammatik betrachtet in ihrer Analyse die Sprache als abgeschlossenes Regelsystem, während die Psycholinguistik sich mit der Funktion der Sprache, mit ihrer Verwendung beschäftigt. „Der linguistische Ansatz (Sprache als System) lässt eine Theorie entstehen, welche für den psychologischen Ansatz (Sprache als funktionierendes Werkzeug) nicht optimal ist“ (Hörmann, 1981; 1991: 4). Dennoch, so muss man hinzufügen, haben sich im Laufe der Zeit so viele konkurrierende linguistische Ansätze herausgebildet, dass eine Aufgabe der Psycholinguistik darin bestehen muss, die „psychologische Realität“ der in diesen Theorien postulierten theoretischen Entitäten zu untersuchen. Aber eben dieser ontologische Bereich ist ein Bereich, der für die Philosophie

3 interessant ist und in dem die Argumente der Philosophen relevant sind. Bemerkenswert an Chomskys Theorie ist aber auch, dass sie in einem alten philosophischen Streit Partei ergreift – dem Streit zwischen Rationalisten und Empiristen. Chomsky selbst bezieht sich auf Descartes, Platon und Kant – also auf Vertreter einer rationalistischen Erkenntnistheorie – und führt in seiner Theorie angeborene Ideen wieder als Erklärungen ein. Er begründet dies u. a. damit, dass die kurze Zeit, die Kinder für den Spracherwerb benötigen, nur mit Hilfe von angeborenen Regeln zu erklären ist. Die Tabula-rasa-Ansicht der Empiristen wird hierdurch klar zurückgewiesen. In der Philosophie brachte während dessen die Identitätstheorie die Diskussion wieder zurück zu den Dingen selbst. War der Behaviorismus als physikalistische Theorie angetreten, den cartesischen Substanzdualismus zugunsten einer rein materialistischen Theorie abzulösen, war er doch zu restriktiv, da er jegliches mentalistisches Vokabular in einer wissenschaflichen Sprache verbot und sich ausschliesslich auf eine Beobachtung von Reiz-Reaktions-Zusammenhänge und die Annahme von Dispositionen beschränkte. Auch waren bestimmte empirische Befunde, wie dies Chomsky zeigen konnte, nicht mittels einer behavioristischen Theorie zu erklären. Als vermittelnde Position bot sich daher die Identitätstheorie (Place, 1956; Smart, 1959) an, die davon ausgeht, dass jeder mentale Zustand de facto (a posteriori) mit einem physischen Zustand identisch ist. Jedes mentale Prädikat „M“ hat eine Entsprechung in einem physikalischen Prädikat „P“, die beide, obwohl sie nicht synonym sind, dieselbe Eigenschaft bezeichnen. Beispiele (aus anderen Gebieten) für eine solche Identität sind die Rückführung der Temperatur eines Gases auf seine mittlere kinetische Energie oder die Wahrheit des Satzes „Wasser ⫽ H2O“. Was aber soll genau eine solche unter einer solchen De-facto-Identität verstanden werden? Zunächst einmal müssen die beiden zur Diskussion stehenden Prädikate koextensional sein, d. h. die Mengen der unter sie fallenden Objekte müssen gleich sein. Diese Bedingung ist aber sicherlich zu schwach, denn auch die Mengen ‘Federloser Zweibeiner’ und ‘Mensch’ sind (gerupfte Hühner ausgenommen) koextensional, ohne dass man gewillt wäre, die jeweiligen Eigenschaften als identisch anzusehen. Auch eine Verschärfung in „nomologisch (naturgesetzlich) koextensi-

4 onal“ ist nicht ausreichend, wie Beckermann (1999: 104 ff.) zeigt. Die Eigenschaft, „ein Pendel mit der Länge l zu sein“, ist naturgesetzlich identisch mit der Eigenschaft „ein Pendel mit der Schwingungsdauer 2 p 兹l/g zu sein“, aber dennoch haben wir das Gefühl, hier von zwei unterschiedlichen Eigenschaften zu sprechen, denn in einer Erklärung dürften wir die eine Eigenschaft üblicherweise nicht einfach durch die andere ersetzen. Erst durch das Betrachten der kausalen Rollen von M und P scheinen wir der Sache näher zu kommen (Achinstein, 1974). Dass die beiden Eigenschaften M und P dieselbe kausale Rolle haben, bedeutet dann, dass alles, was durch das Haben von M verursacht wird, auch durch Haben von P verursacht wird (und umgekehrt); ausserdem alles, was MHaben verursacht, verursacht auch P-Haben (und umgekehrt). Sie können also in Erklärungszusammenhängen – bei einer kausalen Analyse – wechselseitig verwendet werden. Auf diese Weise kann die Identitätstheorie auf einer rein materialistischen Grundlage zeigen, dass es eine kausale Interaktion zwischen mentalen Phänomenen und Gehirnprozessen gibt. Man kann die Annahme, der Bereich des Physischen sei kausal geschlossen, aufrechterhalten und dennoch behaupten, dass das Mentale auf das Physische Einfluss nehmen kann, denn das Mentale ist letztendlich mit dem Physischen identisch. Die Identitätstheorie hat gegenüber dem Behaviorismus deutliche Vorteile. Obwohl sie eine materialistische Theorie ist, besteht die Möglichkeit, über mentale Phänomene zu sprechen. Die Restriktionen des Behaviorismus wurden aufgehoben, ohne seinen physikalistischen Anspruch aufzugeben. Dennoch konnte die Identitätstheorie die in sie gesetzten Erwartungen nicht erfüllen. Dies liegt hauptsächlich an zwei Einwänden: (1) das Problem der Typ-Identität, (2) das Problem der Multirealisierbarkeit. Was bedeutet es nun konkret, dass mentale Phänomene mit physischen identisch sind. Sind dann Typen von mentalen Zuständen mit Typen von Gehirnzuständen identisch? Dies erscheint sehr fraglich. Sind alle mentalen Zustände, die zum Typ „Wünschen“ gehören, mit einem einzigen Typ von Gehirnzuständen gleichzusetzen? Dies ist eine empirische Frage, und die Hinweise, die die Neurobiologie erbringt, sprechen gegen die Identitätstheorie. Dass bei verschiedenen Personen bei gleicher mentaler Aktivität immer dieselbe neuronale Aktivität auftritt, ist nach

I. Grundlagen der Psycholinguistik

heutigem Forschungsstand nicht belegbar, im Gegenteil. (Und was soll dann wiederum „dieselbe“ bedeuten? Es gibt sicherlich keine Eins-zu-Eins-Zuordnung zwischen den Neuronen zweier Gehirne.) Selbst bei einer einzelnen Person ist zu verschiedenen Zeiten bei gleicher mentaler Aktivität nicht genau dieselbe neuronale Aktivität nachweisbar. Drastisch deutlich wird dies bei Personen, die eine Hirnverletzung erlitten haben. Die Funktion des geschädigten Gewebes kann teilweise durch andere Teile des Gehirns übernommen werden. Daher können die Aktivitätsmuster nach der Genesung nicht dieselben sein, obwohl wir davon ausgehen, dass die mentalen Aktivitäten dieselben geblieben sind. Aber auch theoretische Gründe lassen sich vorbringen. Fodor hat in seiner Arbeit Special Sciences (1974) überzeugend dafür argumentiert, dass sich Spezialwissenschaften wie etwa die Psychologie grundsätzlich nicht auf eine generelle Wissenschaft wie die Physik reduzieren lassen. Es ist nicht zu erwarten, dass ein Artbegriff – ein Typ –, wie er sich in einer Einzelwissenschaft herausgebildet hat, gleichfalls in einer generellen Wissenschaft wiederfinden lässt. In anderen Einzelwissenschaften wie etwa der Wirtschaftswissenschaft wird dies auch gar nicht erwartet. Eine Handlung vom Typ „Bezahlen“ kann auf vielfältige Art und Weise physikalisch realisiert sein – Bargeld, Überweisung, Scheck, Kredit- oder EC-Karte, Naturalien etc. Es ist daher nicht zu erwarten, dass es für diesen wirtschaftswissenschaftlichen Typ einen genau entsprechenden physikalischen gibt. Das Einzige, was man erwarten darf, ist eine Token-Identität, d. h. einzelne mentale Phänome sind mit einzelnen physischen Phänomenen identisch. Das zweite Problem, das Problem der Multirealisierbarkeit, kündigte sich oben schon an. Wenn die Identitätstheorie eine so enge Bindung an das menschliche Gehirn postuliert, dann werden andere Lebewesen aus dem Bereich des Mentalen, so wie wir ihn kennen, ausgeschlossen. Tiere, Marsmenschen oder Computer können niemals dasselbe mentale Leben wie wir erfahren, denn ihre physische Basis ist zu verschieden von der unsrigen – eine zu anthropozentrische Sichtweise. Eine Theorie, die die Nachteile der Identitätstheorie und des Behaviorismus vermeidet, ohne ihre Vorteile zu verlieren, ist der Funktionalismus. Er hat einen nachhaltigen Eindruck nicht nur in der Philosophie des Geis-

1. Philosophische Aspekte der Psycholinguistik

tes, sondern auch in der kognitiven Psychologie und damit in der Psycholingustik hinterlassen. Die Grundlage des Funktionalismus wurde in den 60er und 70er Jahren vor allem von H. Putnam (1960, 1967a, 1967b, 1975) und J. Fodor (1975, 1981) entwickelt. Seine Grundthese lautet: Mentale Zustände sind funktionale Zustände. Funktionale Zustände eines Systems sind wiederum allein durch ihre kausale Rolle innerhalb des Systems definiert. Es handelt sich daher um einen im weiten Sinne holistischen Ansatz, der auf den Zustand des gesamten Systems Bezug nimmt. Fodor grenzt dies jedoch mit seiner Forderung nach Modularität wieder ein (Fodor, 1983). Ned Block (1978) verdeutlicht die Grundidee des Funktionalismus am Beispiel eines einfachen Getränkeautomaten. Eine Dose Maon light kostet 1 g, eventuell zuviel gezahltes Geld wird zurückgegeben. Der Automat akzeptiert nur Eineuro- oder Fünfzigcentmünzen. Diese bilden den Input. Wie lässt sich nun am besten beschreiben, wie der Automat funtioniert. Nun, es ist sofort klar, dass man diese Maschine am besten beschreiben kann, wenn man zwei interne Zustände des Systems postuliert, die folgendermassen aussehen: Zustand (I): Befindet sich der Automat in diesem Zustand, geschieht Folgendes: Wenn eine Eineuromünze eingeworfen wird, gibt der Automat eine Dose Maon light aus und verbleibt in Zustand (I); wird eine Fünfzigcentmünze eingeworfen, bleibt er äusserlich unverändert, geht intern aber in den Zustand (II) über. Zustand (II): Befindet sich der Automat hingegen in diesem Zustand, gibt es folgende Alternativen: Wenn eine Eineuromünze eingeworfen wird, gibt der Automat eine Dose Maon light plus einer Fünfzigcentmünze aus und geht in Zustand (I) über; wird eine Fünfzigcentmünze eingeworfen, gibt er eine Dose Maon light aus und geht in den Zustand (I) über. Entscheidend ist nun, dass das Verhalten des Automaten allein aufgrund der kausalen (funktionalen) Rollen der Zustände (I) und (II) und ihrer Beziehung zueinander vollständig beschrieben werden kann. Würde man den Automaten auseinanderschrauben, würde man diese beiden Zustände mechanisch (oder elektronisch) realisiert vorfinden. So wie das Verhalten eines einfachen Systems wie dieses Getränkeautomaten allein mittels Input, Output und den funktionalen

5 Rollen interner Zustände beschrieben werden kann, lässt sich das komplexe System Mensch beschreiben. Genauer gesagt, nicht nur das System Mensch, sondern jedes System, das Träger mentaler Zustände und Prozesse ist; der Funktionalismus ist ontologisch neutral gegenüber der Substanz, mittels derer diese internen Zustände realisiert werden, seien es nun Kohlenstoff, Silizium, Protoplasma oder ein völlig unbekannter Stoff. Der Funktionalismus vermeidet so eine entscheidende Schwäche der Identitätstheorie und lässt eine Multirealisierbarkeit zu. Allein für sich betrachtet, ist der Funktionalismus keine materialistische Theorie, er ist – wie oben schon erwähnt – ontologisch neutral. Zumeist tritt er jedoch in Verbindung mit der Computertheorie des Geistes auf und mit der Annahme, der menschliche Geist sei ein informationsverarbeitendes System. Die physical symbol system hypothesis von Newell und Simon (1976) geht davon aus, dass ein symbolverarbeitendes System „im Prinzip die notwendigen und hinreichenden Bedingungen für intelligentes Handeln“ habe. Information wird durch Symbole repräsentiert, die im menschlichen Gehirn auf neuronaler Ebene realisiert sind. Der Geist verhält sich zum Gehirn wie die Software zur Hardware. Denken als ein mentaler Prozess ist (nichts anderes als) Symbolmanipulation, mentale Prozesse sind Berechnungsprozesse und basieren auf internen Repräsentationen. Das Schlagwort lautet: „Cognition is computation“. Menschen sind – wie Pylyshyn (1984) und Miller (1983) dies nennen – Informatoren. Eng verknüpft mit der Computertheorie des Geistes ist die Annahme einer Sprache des Geistes (LoT) (Fodor, 1975). Diese Annahme bietet viele Vorteile. Sie trägt z. B. der Tatsache Rechnung, dass viele mentale Phänomene einen intentionalen Gehalt besitzen. Der Begriff der Intention wurde von Brentano (1924) eingeführt und bedeutet, dass sich mentale Zustände sehr häufig auf einen Gegenstand in der Welt beziehen. Z. B. ist Lukas überzeugt, dass es regnet; oder Peter hofft, dass Bayern München nicht Deutscher Fussballmeister wird. Wünsche, Hoffnungen, Überzeugungen, Wissen etc. beziehen sich auf etwas ausserhalb ihrer selbst. Da dieser Bezugsgegenstand normalerweise durch einen dass-Satz ausgedrückt wird, spricht man in diesen Fällen auch von propositionalen Einstellungen (propositional attitudes). Allerdings sind nicht alle mentalen Zustände in-

6 tentionale Zustände. Niedergeschlagenheit oder Kopfschmerzen sind mentale Zustände, ohne jedoch auf etwas Äusseres gerichtet zu sein Verbunden mit der LoT-Hypothese ist die Annahme von internen, mentalen Repräsentationen. Sich in einem intentionalen Zustand zu befinden, heisst dann, dass ein Subjekt sich in einer speziellen Relation zu einer mentalen Repräsentation befindet. Lukas befindet sich dann z. B. in der Beziehung des Überzeugtseins zu einer mentalen Repräsentation, deren Inhalt es ist, dass es regnet. Diese Repräsentation hat einen semantischen Gehalt. Sie ist ein Stellvertreter für einen äusseren Zustand und kann daher wahr oder falsch sein, je nachdem, wie die Welt zum Zeitpunkt von Lukas’ Überzeugung beschaffen ist. (Zu beachten ist aber, dass der Wahrheitswert des Satzes „Lukas ist überzeugt, dass es regnet.“ nicht vom Wahrheitswert des dass-Satzes abhängt. Propositionale Einstellungen erzeugen sogenannte nicht-extensionale, opake Kontexte. Lukas kann diese Überzeugung haben bzw. sie kann ihm wahrheitsgemäss zugeschrieben werden, ohne dass die im dass-Satz ausgedrückte Proposition zutrifft.) Die LoT-Hypothese geht davon aus, dass unsere Alltagspsychologie (folk psychology), die mit Begriffen wie Wünschen, Hoffen, Glauben, Überzeugtsein, Wissen etc. operiert, im Grossen und Ganzen zutreffend ist und in eine wissenschaftliche Psychologie überführt werden kann. Durch sie lassen sich unsere Alltagsannahmen wissenschaftlich erklären. Es wird ausserdem diskutiert, ob der semantische Gehalt natürlichsprachlicher Ausdrücke auf den semantischen Gehalt der mentalen Repräsentationen zurückgeführt werden kann (Grice, 1957; Fodor, 1978; Searle, 1983). Fodors Sprache des Geistes – die lingua mentalis – ist wie eine symbolische Sprache strukturiert. Ein klarer Vorteil dieser Theorie liegt darin, dass sie Eigenschaften erklärt, die in unserem alltäglichen (Sprach-) Verhalten immer wieder zu beobachten sind: (1) Intentionale Zustände haben einen propositionalen Gehalt. Diesen „erben“ sie vom propositionalen Gehalt der mentalen Repräsentationen. (2) Intentionale Zustände – wie z. B. Überzeugungen – erzeugen einen opaken Kontext; d. h. extensionsgleiche, aber sinnver-

I. Grundlagen der Psycholinguistik

schiedene Zustände sind unterschiedlich. Rahel weiss z. B., dass 2 ⫻ 2 ⫽ 4 ist, sie weiss aber nicht (sie ist erst 5 Jahre alt), dass 兹16 ⫽ 4 ist, obwohl „2 ⫻ 2“ und „ 兹16“ extensional gleich sind. Sinnverschiedene Sätze (oder mentale Repräsentationen) sind typverschieden. (3) Die Sprache des Geistes ist wie die natürliche Sprache produktiv und systematisch; d. h. aus einer endlichen Anzahl von Grundsymbolen können mittels rekursiver Regeln unendlich viele, komplexe Ausdrücke erzeugt werden. Zudem gilt, dass die Erzeugbarkeit bestimmter Repräsentationen intrinsisch mit der Erzeugbarkeit anderer Repräsentationen verknüpft ist. (4) Für die Sprache des Geistes gilt wie für die natürliche Sprache das Frege’sche Kompositionalitätsprinzip – die Bedeutung eines komplexen Ausdrucks setzt sich regelgeleitet aus den Bedeutungen der beteiligten einfachen Ausdrücke zusammen. (5) Die Annahme einer Sprache des Geistes erklärt, warum in psychologischen Gesetzen nicht auf den Inhalt spezieller intentionaler Zustände Bezug genommen wird, sondern allgemeine Zusammenhänge formuliert werden können. Betrachtet man mentale Repräsentationen als strukturierte Einheiten, dann kann schon die Annahme eines einzigen Gesetzes – z. B. des Gesetzes der existentiellen Generalisierung – eine Verallgemeinerung aufgrund vieler verschiedener Einzelfälle erklären. Bisher wurden allerdings mentale Repräsentationen sehr allgemein als Symbole verstanden, oder es wurde explizit auf ihre propositionale Struktur hingewiesen. Kognitive Psychologen und Psycholinguisten sind zumeist Realisten, was die Annahme mentaler Repräsentationen angeht (s. z. B. Engelkamp & Pechmann, 1993). Jedoch wurde und wird darüber diskutiert, ob mentale Repräsentationen wirklich ausschließlich eine propositionale Struktur besitzen. Die Dual-codingHypothese Paivios (1971, 1986) formulierte zum ersten Mal seit dem Aufkommen und Ableben des Behaviorismus die Annahme, dass mentale Repräsentationen verschiedene Formate aufweisen können, z. B. auch ein bildhaftes Format. Paivios Hypothese wurde seit den siebziger Jahren experimentell untersucht und theoretisch verfeinert. Es wurden

1. Philosophische Aspekte der Psycholinguistik

u. a. von Shepard und Metzler (1971) sowie von Kosslyn (1980) Befunde erhoben, die die Annahme eines nicht-propositionalen Repräsentationsformates nahelegten. Eines der bekanntesten Experimente wurde von den beiden Psychologen Shepard und Metzler durchgeführt (Shepard & Metzler, 1971). Sie legten Versuchspersonen jeweils zwei Zeichnungen von Objekten vor, die aus kleinen Würfeln zusammengesetzt waren. Die Vpn sollten nun anhand dieser beiden Bilder entscheiden, ob es sich um zwei Ansichten ein und desselben Objektes handelt oder ob auf diesen Bildern zwei verschiedene Objekte abgebildet waren (vgl. Abbildung 1.1, im Fall der Nichtübereinstimmung (c) handelte es sich um spiegelbildlich verdrehte Darstellungen). Die Ergebnisse dieser Untersuchungen waren verblüffend. Es zeigte sich, dass die Zeit zur Feststellung der (Nicht-) Übereinstimmung linear zum Rotationswinkel war, um den das Objekt gedreht werden musste, wollte man beide Ansichten zur Deckung bringen; die Rotationsgeschwindigkeit betrug hierbei konstant 60 ∞sec⫺1 (Abbildung 1.1d). Ohne Bedeutung war, ob das Objekt in der Ebene (Abbildung 1.1a) oder im Raum (Abbildung 1.1b) gedreht werden musste. Es lag nahe anzunehmen, dass die Vpn Modelle der ihnen gezeigten Gegenstände mental solange rotiert haben, bis sie deckungsgleich waren. In einer nachexperimentellen Befragung gaben die Vpn an, dass sie zur Lösung dieser Aufgabe eine bildhafte Vorstellung verwendet haben. Weitere Experimente unterstützen diese Hypothese (für ei-

7

nen Überblick s. Kosslyn, 1980; Finke, 1989). Diese wissenschaftlichen Untersuchungen lieferten mehr als nur introspektive Evidenz für die Existenz eines nicht-propositionalen Repräsentationsformates, denn z. B. die gerade beschriebenen Befunde von Shepard und Metzler sind im Rahmen einer rein propositional ausgerichteten Theorie nur sehr schwer zu erklären. Andererseits ist die Annahme eines zweiten bildhaften Repräsentationsformates, das unabhängig neben einem propositionalen Darstellungsmedium existiert, kein Allheilmittel. So hat Pylyshyn schon 1973 darauf hingewiesen, dass die Annahme zweier unabhängiger Repräsentationsformate Erklärungen fordert, wie diese Formate interagieren, insbesondere wie diese Interaktion ohne die Annahme eines dritten verbindenden Formates – einer Interlingua – stattfinden kann. Hierfür hat z. B. Kosslyn (1980) ein Modell entwickelt. Die Annahme der Dual-Coding-Hypothese ist jedoch nicht, dass im wörtlichen Sinne „Bilder im Kopf“ existieren, sondern nur, dass es mentale Repräsentationen gibt, die in einer Art und Weise repräsentieren, wie dies auch Bilder tun, z. B. dass diese Repräsentationen selbst räumliche Eigenschaften aufweisen (s. Shepard & Chipman, 1970; Block, 1980; Rehkämper, 1991). Es wird nicht beansprucht, wie dies in der klassischen philosophischen Diskussion der Fall war, dass mentale Repräsentationen ausschließlich bildhaft sind. (Diese Annahme wurde in der Philosophie allerdings von der Antike bis in die Zeit des britischen Empirismus hinein

8 stark diskutiert. Für einen kurzen Überblick über die alte und neue, von der kognitiven Psychologie beeinflusste Diskussion siehe Sachs-Hombach (1997).) Eingebettet ist diese Debatte um die Annahme eines nicht-propositionalen, bildhaften Repräsentaionsformates – die sogenannte imagery-debate – in eine allgemeinere Diskussion um die Annahme eines analogen Repräsentationsformates. Opwis und Lüer (1996: 350) warnen vor möglicher Verwirrung: „Die Charakterisierung eines Repräsentationssystems als ,analog‘ kann sich dabei auf zwei unterschiedliche Aspekte beziehen, was häufig Anlass zu einiger Verwirrung bietet: einerseits auf die Art des (mentalen) Modells … und andererseits auf die Art der Relation zwischen Modell und Original.“ Schon Goodman (1968) hatte betont, dass es nicht um die Frage geht, ob ein einzelnes Symbol, eine einzelne Repräsentation analog oder propositional (digital) ist, sondern ausschließlich darum, ob ein Repräsentationssystem dies ist (oder nicht). Erst dadurch, dass ein Symbol zu einem Symbolsystem gehört, wird es analog oder propositional, denn ein Symbol kann zu verschiedenen Symbolsystemen gehören. Die Buchstabenkombination „A R T“ bedeutet als Symbol der deutschen Sprache dasselbe wie „Gattung“, als Symbol der englischen Sprache bedeutete es jedoch Kunst. Symbole an sich sind weder deutsch noch englisch, propositional oder analog. Sie können jedoch – gleichzeitig – zu den entsprechenden Symbolsystemen gehören. Palmer (1978) folgend, wird eine analoge Repräsentation als das Ergebnis einer strukturerhaltenden Abbildung verstanden, die intrinsisch die inhärenten Strukturen des Originals erhält. So werden in einer analogen Repräsentation für die im Original vorhandenen Relationen keine expliziten Stellvertreter eingeführt. Steht ein Glas auf einem Tisch, kann man dies in einem Bild direkt sehen, in einer bildartigen, mentalen Repräsentation direkt auslesen. In einer propositionalen Repräsentation hingegen wird diese Relation nur extrinsisch ausgedrückt, indem ein Relationsausdruck z. B. „steht-auf (x, y)“ eingeführt wird. Analoge und propositionale Repräsentationen unterscheiden sich daher grundsätzlich (s. z. B. Rehkämper, 1995). Dies heisst jedoch nicht, dass es nicht auch Mischformen geben kann. So drücken die Sätze „Sie heirateten und bekamen ein Kind.“ sowie „Sie bekamen ein Kind und heirateten.“ in der na-

I. Grundlagen der Psycholinguistik

türlichen Sprache Unterschiedliches aus. Übersetzt man sie jedoch in eine aussagenlogische Form, erhält man „p & q“ bzw. „q & p“. Da die Konjunktion in der Aussagenlogik – im Gegensatz zum umgangssprachlichen „und“ – kommutativ ist, sind beide Ausdrücke bedeutungsgleich. Der Unterschied in der Bedeutung der natürlichsprachlichen Sätze ist verschwunden. Aber diese Sätze (und ihre mentalen Pendants) bilden auch analog ab. Die zeitliche Abfolge in der Realität wird in eine Abfolge der Erwähnung der Ereignisse übertragen. Es ist nicht notwendig, extrinsisch eine weitere Relation der Art „Vor (p, q)“ einzuführen, diese Beziehung ergibt sich „von selbst“. So sind für ein analoges Modell drei Dinge entscheidend: Man muss die Objekte und Beziehungen innerhalb des abzubildenden Bereichs kennen, man muss die Objekte und Eigenschaften innerhalb des abbildenden Modells kennen, und man muss die Eigenschaften der Abbildungsbeziehung (z. B. ob sie strukturerhaltend ist) kennen. So kann dann erklärt werden, warum analoge Repräsentationen sehr häufig mit Dichte oder Kontinuität in Verbindung gebracht werden. Ein analoges Symbolsystem ist normalerweise so angelegt, dass die Menge der Symbole dicht ist. D. h. zwischen zwei beliebigen Symbolen liegt wiederum ein Symbol. Das gilt für eine digitale oder propositionale Repräsentation nicht. So bildet ein klassisches Quecksilberthermometer analog ab, ein modernes mit numerischer vierstelliger Anzeige hingegen nicht. Kleine oder kontinuierliche Veränderungen im Original können daher im analogen Modell durch kleine oder kontinuierliche Veränderungen wiedergegeben werden. Desweiteren bleiben Formeigenschaften der Objekte oder ihre Beziehungen zueinander normalerweise erhalten. Johnson-Laird (1983) machte mit seinem Vorschlag, nicht nur die Existenz zweier unterschiedlicher Repräsentationsformen anzunehmen, sondern die Möglichkeit zuzulassen, dass in einem mentalen Modell beide Formen gemeinsam verwendet werden, einen konstruktiven Schritt vorwärts. So kann man Textverstehen z. B. erklären als den Aufbau eines mentalen Modells, in das die durch den Text angebotene Information plus weiterer Information (Konzeptwissen, Weltwissen) eingebettet wird. Mentale Modelle in diesem Sinne bauen zwar auf Propositionen auf, gehen aber über sie hinaus und sind von grundsätzlich anderer Qualität; explizite und infe-

1. Philosophische Aspekte der Psycholinguistik

rierte Information verschmelzen innerhalb eines Modells. Die Annahme von konzeptuellem Vorwissen beim Textverstehen, seien es nun Schemata (Bartlett, 1932; Rumelhart, 1980), Frames (Minsky, 1975), Scripts (Schank & Abelson, 1977), Szenarien (Sanford & Garrod, 1981) o. ä., wird heute schon fast als selbstverständlich angesehen (eine Übersicht geben Rickheit & Strohner, 1985; 1993). Aufgrund eines solchen Modells ist es dem Rezipienten eines Textes auch möglich, Erwartungen zu produzieren, die es ihm wiederum gestatten, nachfolgende Information in das Modell zu integrieren. Ist dies nicht möglich, muss u. U. das Modell modifiziert oder ein anderes ausgewählt werden. Mentale Modelle verbinden so Konstruktivität bzw. Funktionalität – das Verstehen als In-Beziehung-Setzen von Text und Welt – mit Äusserungstranszendenz – explizite und implizite Information fliessen zusammen – und Zielgerichtetheit – Verstehen als optimale Vereinbarkeit von Gesagtem und Gewusstem. Schnotz und Mitarbeiter (z. B. Schnotz & Bannert, 1999) untersuchen gezielt die Einflüsse verschiedener Visualisierungsformen – bildlich und sprachlich – auf die Konstruktion mentaler Modelle beim Text- und Bildverstehen. Sie gehen hierbei von zwei Verarbeitungssträngen aus – sprachlich/propositional und visuell/piktorial –, die im Aufbau eines gemischtformatigen mentalen Modells unter Einbeziehung von (konzeptuellem) Vorwissen kulminieren. Diese Theorie bietet jedoch nicht nur Grundlagen für die Erklärung von Text- und Bildverstehen, sondern wird auch interessant, wenn es um multimediales Lernen geht. Denn auch hier ist es von grossem Interesse zu erfahren, wie verschiedenformatig dargebotene Information (textsprachlich, verbalsprachlich, bildhaft, animiert bildhaft, auditiv, haptisch etc.) in einem Modell zusammengefasst wird. Diese und ähnliche Theorien des Textverstehens, aber auch Annahmen über eine angeborene, kognitive Grammatik, basieren jedoch auf der Voraussetzung, dass die Annahme der Existenz von Intentionen, mentalen Repräsentationen und angeborenen Regeln sinnvoll ist. Sollte die philosophische Diskussion allerdings ergeben, dass diese Annahme falsch ist, würde dies auch Probleme für die entsprechenden psychologischen Theorien mit sich bringen. Ein Schwerpunkt der Diskussion ist die Frage, ob die Alltagspsychologie, die ja die

9 Grundlage dieser Form der wissenschaftlichen Psychologie bilden soll, tatsächlich in der Lage ist, dies zu leisten. Ja, ob die Alltagspsychologie überhaupt eine sinnvolle Theorie ist. Ist sie z. B. konsistent? Dies kann man nicht immer von unseren Alltagsüberzeugungen erwarten, wie ja auch sich widersprechende Sprichwörter zeigen. („Gleich und Gleich gesellt sich gern.“ vs. „Gegensätze ziehen sich an.“) Eine vollständige Formalisierung unserer alltäglichen Psychologie ist bisher nicht gelungen. Die Gegenposition des eliminativen Materialismus (P. S. Churchland, 1986; P. M. Churchland, 1989; 1995) hingegen beruft sich auf die Erfolge des Konnektionismus (Rumelhart & McCelland, 1986; Smolensky, 1988). Diese gehen davon aus, dass es nicht notwendig ist, Intentionen und mentale Repräsentationen anzunehmen, um unser mentales Leben und unser Verhalten zu erklären. Solche Annahmen seien Fehlentwicklungen, wie es sie in der Geschichte der Wissenschaft schon häufig gegeben habe – Alchemie, PhlogistonTheorie, Äther-Theorie (P. M. Churchland, 1981). Diese Theorien verschwanden mit der Zeit bzw. wurden durch bessere ersetzt, und so wird es auch der Alltagspsychologie und der repräsentationalen Theorie des Geistes ergehen. In konnektionistischen Theorien wird sehr häufig darauf hingewisen, dass unser Gehirn nicht wie ein Computer seriell mit einem Hauptprozessor arbeitet, sondern massiv parallelverarbeitend ausgelegt ist. Konnektionistische Ansätze „leben“ von der scheinbaren Ähnlichkeit künstlicher neuronaler Netze mit dem Gehirn. Hier zeigt sich deutlich der Unterschied in der Zielsetzung zwischen Vertretern der computationalen Theorie des Geistes und denen des Konnektionismus. Erstere betrachten Rationalität und Systematizität in unserem Verhalten und die damit verbundenen Erklärungen der Alltagspsychologie (Intentionen, zielgerichtetes „logisches“ Handeln) als den zu modellierenden Bereich. Konnektionisten hingegen verweisen auf die Struktur des Gehirns und halten die Modellierung von Mustererkennung und Kategorisierungsprozessen für primär. Die Struktur unseres Gehirns besitzt jedoch nicht die Struktur eines Computers, sondern besteht aus einem Netz miteinander verbundener Neurone. Eine solche Architektur ist nicht besonders gut dazu geeignet, serielle Berechnungen durchzuführen. Ausserdem sind weder die gewichteten Verbindungen zwischen den Neu-

10 ronen noch die Neurone selbst Träger von semantischen Eigenschaften. Da diese Theorien normalerweise nicht davon ausgehen, dass es im Gehirn Neurone oder Ensemble von Neuronen gibt, die abgeschlossen, semantisch kompositional oder evaluierbar sind, werden sie auch als subsymbolisch bezeichnet. Im Gehirn sind Repräsentationen über weite Bereiche distribuiert und nicht lokal, es gibt keine atomaren semantischen Einheiten. Konnektionisten gehen weiterhin davon aus, dass künstliche neuronale Netze qua Strukturanalogie unserem kognitiven Verhalten deutlich mehr ähneln, als dies die althergebrachten repräsentationalen Modelle vermögen. Will man am Begriff der Repräsentation festhalten, muss man ihn unter der Perspektive des Konnektionismus neu fassen. Künstliche neuronale Netze zeigen, wenn sie trainiert werden, d. h. wenn die Gewichtungen zwischen den einzelnen Neuronen festgelegt werden, häufig dieselben Fehler wie Menschen. Auch dies wird als positives Indiz gewertet. Andererseits sprechen die Evidenzen, die Fodors Theorie unterstützen, gegen eine konnektionistische Ansicht. Gerade die Produktivität und Systematizität unseres mentalen Verhaltens lässt sich durch die LoTHypothese sehr gut erklären. Wenn jemand den Satz „Peter liebt Maria.“ versteht, dann versteht er auch den Satz „Maria liebt Peter.“ Hier ist der konnektionistische Ansatz im Nachteil. Der grundlegende Unterschied zwischen Repräsentationalisten und Konnektionisten ist nicht unbedingt, dass die Annahme von Repräsentationen befürwortet bzw. abgelehnt wird (Beckermann, 1999; Bechtel, 1994). Auch Konnektionisten können mit der Annahme von Intentionen und mentalen Repräsentationen leben (Fodor & Pylyshyn, 1988; Smolensky, 1990; 1991; 1994). Hierzu wäre aber die zusätzliche Annahme einer lokalen Verarbeitung notwendig, d. h. die Annahme einer vollständig distribuierten Verarbeitung müsste aufgegeben werden. Aber auch dann unterscheidet sich die konnektionistische Position noch grundlegend von der computationellen. Sie unterscheiden sich in der Frage, wie mentale Entitäten realisiert sind und wie sie verarbeitet werden. Auf der einen Seite steht die Computertheorie des Geistes, die algorithmische Prozesse annimmt, die mentale Repräsentationen kompositional und rekursiv verarbeiten; auf der anderen Seite der Glaube an massive Parallelverarbeitung ohne feste semantische Einheiten und ohne Regeln.

I. Grundlagen der Psycholinguistik

Letzterer zufolge benehmen wir uns nur so, als ob wir interne Symbole verarbeiten würden. Die Alltagspsychologie hat in einer konnektionistischen Modellierung keinen Raum mehr, denn die Grundeinheiten sind nicht mehr strukturierte Entitäten – Symbole –, sondern Ensemble von Neuronen, die nicht weiter in bedeutungstragende Einheiten (im Sinne der LoT) zerfallen (s. aber auch Hurford: erscheint). Selbst wenn der Konnektionismus mit der repräsentionalen Theorie des Geistes – nicht mit der computationalen – vereinbar wäre, präsentierte er doch ein gänzlich neues Modell der Kognition. Und dies bezieht sich natürlich direkt auf die Modellierung von Sprache. Bisher wird in der Psycholinguistik in der Tradition von Chomsky nach Regelhaftigkeiten gesucht, die mit quasi-logischen Prozessen und Einheiten modelliert werden. Auch wenn sich die Psycholinguistik über die Jahrzehnte von den Vorgaben einer reinen Grammatiktheorie gelöst hat und ihre Modelle aufgrund empirischer Befunde erstellt, ist die Suche nach grundlegenden Einheiten und Prozessen das bestimmende Paradigma geblieben. Allerdings gibt es die Möglichkeit, den Konnektionismus und die Annahme einer Sprache des Geistes zu verbinden, nämlich dann, wenn man den konnektionistischen Ansatz „nur“ als eine Möglichkeit der Implementation betrachtet. Nimmt man eine dreistufige Unterteilung im Sinne Marrs (Marr, 1982) oder Newells (1982) an, in eine computationale Ebene (Wissensebene bei Newell), algorithmische Ebene (symbolische Ebene einer höheren Programmiersprache bei Newell) und einer Implementationsebene (Ebene der Maschinensprache bei Newell), dann ist es möglich, konnektionistische Netzwerke nur auf der untersten Ebene anzunehmen. Nur die Implementation ist ein massiv parallelarbeitendes neuronales Netzwerk. Diese Annahme ist nicht unplausibel, denn (1) kann gezeigt werden, dass man mittels eines neuronalen Netzes jeden Algorithmus implementieren kann, (2) ergäbe sich die Erklärungskraft eines solchen Gesamtmodells aus der mittleren Ebene heraus. Denn es lässt sich bezweifeln, ob ein rein konnektionistisches Modell Erklärungen liefert, die in einem wissenschaftlichen Zusammenhang tatsächlich Erklärungen sind. Wenn ich ein Auto ohne Kenntnisse der physikalischen Gesetzmässigkeiten (oder nur mittels Kenntnissen auf molekularer Ebene) nachbaue, lerne ich dann et-

11

1. Philosophische Aspekte der Psycholinguistik

was darüber, warum das Auto fahren kann? Aber auch konnektionistische Modelle haben ihren Weg in die Psycholinguistik gefunden (z. B. Schnelle, 1990; Lamb, 1999; Bartsch, 2002). Beckermann (1999: 241 ff.) macht jedoch im Rückgriff auf Baker (1987: 130 ff.) auf folgende Konsequenzen aufmerksam, die man akzeptieren müsste, wenn der eliminative Materialismus als Theorie des Geistes wahr wäre: Wir müssten auf alle Erklärungen, die auf Intentionen (Überzeugungen, Wissen, Hoffnungen etc.) beruhen und auf Voraussagen aufgrund dieser Intentionen, verzichten. Unsere moralischen Beurteilungen wären nicht mehr haltbar. „Notwehr“, „niedrige Motive“, „Vorsatz“, „Lüge“, „unwissentliche Falschaussage“ wären bedeutungslose Ausdrücke. Unser Sprachverhalten würde in grossen Teilen völlig rätselhaft, da man ja keine Überzeugungen oder Wissen ausdrückt bzw. anderen zuschreiben kann. Begründungen von Handlungen wären sehr schwierig. Die meisten Bereiche der angewandten Psychologie und ihre Grundannahmen ständen auf sumpfigem Boden. Auch ihre Explananda gerieten in Gefahr, denn Handlungen und reine Körperbewegungen wären nicht mehr zu unterscheiden. Es reicht natürlich jetzt nicht zu entgegnen: Was nicht sein darf, kann auch nicht sein. Aber die Befürworter des eliminativen Materialismus müssen plausible Lösungen für die geschilderten Probleme aufzeigen, denn ihre Position bedeutet letztendlich, dass unser Selbstbild als psychologische Wesen eine der grössten Fehleinschätzungen der Geschichte darstellt. Und diese Position sollte man nur akzeptieren, wenn es gute Gründe und keine Alternativen gibt. Einen etwas anderen Standpunkt nimmt Daniel Dennett (z. B. 1971, 1987) ein. Auch er geht davon aus, dass die Annahme der Existenz von Intentionen, mentalen Repräsentationen und Prozessen überflüssig ist. Dennoch nehmen wir manchmal, wenn wir die Handlungsweise eines Systems beschreiben wollen, einen intentionalen Standpunkt ein. D. h. es erweist sich als vorteilhaft, ein System so zu beschreiben als ob es Intentionen und mentale Repräsentationen besässe, als ob es Informationen verarbeite und Ziele rational verfolge. Diese Position ist aber nicht mit der ontologischen Verpflichtung

verbunden, solche Entitäten tatsächlich anzunehmen. Daher wird sie auch als Instrumentalismus bezeichnet. Dennett zufolge können wir einem System gegenüber verschiedene Standpunkte einnehmen: (1) einen intentionalen, (2) einen funktionalen, (3) einen physikalischen. In (1) werden Beschreibungen gewählt, die der Rationalitäts- und Systematizitätsannahme entsprechen; in (2) zielen die Beschreibungen auf die Funktionen der Teile des Systems und ihr Zusammenspiel im gesamten System ab; in (3) stehen die physischen Komponenten, die Naturgesetze, die sie interagieren lassen, und das physische Verhalten des gesamten Systems im Vordergrund. Wenn man einem System unter einem intentionalen Standpunkt beschreibt, dann allerdings bezieht man sich auf das ganze System und sein Verhalten und postuliert nicht automatisch einzelne, interne Entitäten, die für dieses Verhalten verantwortlich sind. Es ist möglich (und sogar wahrscheinlich), dass es auf der physikalischen und der funktionalen Ebene keine Entsprechungen zu den Intentionen gibt, die wir dem System auf der intentionalen Ebene zuschreiben. Manchmal sind aber intentionale Beschreibungen unverzichtbar. Sollte es allerdings alternative Möglichkeiten geben, sollten nicht-intentionale Beschreibungen vorgezogen werden. Auch diese Position ist mit dem derzeit in der Psycholinguistik herrschenden Paradigma nicht so ohne weiteres vereinbar. Dennett eliminiert zwar in seiner Theorie nicht so radikal mentale Entitäten, wie dies Konnektionisten tun. Aber er widerspricht deutlich der Realismusannahme der repräsentationalen Theorie des Geistes oder einer Sprache des Geistes. Die Psycholinguistik geht jedoch von der Annahme aus, dass es auch auf der funktionalen Ebene identifizierbare Einheiten und Prozesse gibt, die nicht nur theoretisch angenommen werden, sondern kognitiv real sind.

Literatur Achinstein, P. (1974). The identity of properties. American Philosophical Quarterly, 11, 257⫺275. Baker, L. R. (1987). Saving belief. Princeton, NJ.: Princeton University Press. Bartlett, F. C. (1932). Remembering: A study in experimental and social psychology. Cambridge: Cambridge University Press. Bartsch, R. (2002). Consciousness emerging: the dynamics of perception, imagination, action,

12

I. Grundlagen der Psycholinguistik

memory, thought, and language. Amsterdam; Philadelphia, Pa: John Benjamins Pub. (Series) Ad-

bridge, MA.: MIT Press. Dennett, D. (1998). Brainchildren. Essays on desig-

vances in consciousness research; v. 39. Bechtel, W. (1994). Artikel „connectionism“. In S. Guttenplan (Ed.), A companion to the philosophy

ning minds. Cambridge, MA.: MIT Press. Engelkamp, J. & Pechmann, Th. (Hrsg.) (1993).

of mind (pp. 200⫺210). Oxford: Blackwell. Beckermann, A. (1985). Analytische Handlungstheorie. Vol. 2 Frankfurt/M.: Suhrkamp. Beckermann, A. (1999). Analytische Einführung in die Philosophie des Geistes. Berlin, New York: de Gruyter. Bieri, P. (Hrsg.) (1981), Analytische Philosophie des Geistes. Königstein/Ts.: Anton Hain Block, N. (1978). Troubles with functionalism. Minnesota Studies in the Philosophy of Science, IX, 261⫺325 (Wiederabgedruckt (1980) in N. Block, (Ed.), Readings in the philosophy of psychology. Vol. 1 & 2 (pp. 268⫺305). Cambridge, MA.: Harvard University Press. Block, N. (Ed.) (1980). Readings in the philosophy of psychology. Vol. 1&2. Cambridge, MA.: Harvard University Press. Block, N. (Ed.) (1981). Imagery. Cambridge, MA.: MIT-Press (2. Auflage 1982). Bloomfield, L. (1933). Language. New York: Holt. Borst, C. V. (Ed.) (1970). The mind-brain identity theory. London: Macmillan. Brentano, F. (1924). Psychologie von einem empiri-

Mentale Repräsentationen. Bern: Huber. Finke, R. A. (1989). Principles of mental imagery. Cambridge, MA.: MIT Press. Fodor, J. A. (1974). Special sciences. Synthese, 28, 77⫺115. (Wiederabgedruckt (1980) in N. Block (Ed.), Readings in the philosophy of psychology. Vol. 1&2 (pp. 120⫺133). Cambridge, MA.: Harvard University Press; und (1981) in J. A. Fodor (Ed.), Representations (pp. 127⫺145). Cambridge, MA.: MIT Press.) (dt. (1992) in D. Münch (Hrsg.), Kognitionswissenschaft (pp. 134⫺158). Frankfurt/M.: Suhrkamp.) Fodor, J. A. (1975). The language of thought. New York: Thomas Y. Cromwell. Fodor, J. A. (1978). Propositional attitudes. The Monist, 61, 501⫺523. Fodor, J. A. (1981). Representations. Cambridge, MA.: MIT Press. Fodor, J. A. (1983). The modularity of mind. Cambridge, MA.: MIT Press. Fodor, J. A. & Pylyshyn, Z. (1988). Connectionism and cognitive architecture: A critical analysis. Cog-

schen Standpunkt aus. Leipzig: Meiner Verlag. Carnap, R. (1932). Psychologie in physikalischer

nition, 28, 3⫺71. Garnham, A. (1994). Artikel „cognitive psychology“. In S. Guttenplan (Ed.), A companion to the philosophy of mind (pp. 167⫺176). Oxford: Black-

Sprache. Erkenntnis, 3, 107⫺142. Chomsky, N. (1957). Syntactic structures. The Ha-

well. Goodman, N. (1968). Languages of art. Indianapo-

gue: Mouton. Chomsky, N. (1959). A review of B. F. Skinner’s

lis: Hackett Publishing (2. erw. Fass. 1976). Grice, H. P. (1957). Meaning. Philosophical Review, 66, 377⫺388; (Wiederabgedruckt (1989) in ders.: Studies in the way of words (pp. 213⫺223). Cam-

Verbal Behavior. Language, 35, 26⫺58. Churchland, P. M. (1981). Eliminative materialism and the propositional attitudes. Journal of Philosophy, 78, 67⫺90. Churchland, P. M. (1989). A neurocomputational perspective. Cambridge, MA.: MIT Press. Churchland, P. M. (1995). The engine of reason, the seat of the soul. Cambridge, MA.: MIT Press. Churchland, P. S. (1986). Neurophilosophy. Cambridge, MA.: MIT Press. Dennett, D. (1971). Intentional systems. Journal of Philosophy, 68, 87⫺106. (Wiederabgedruckt (1978) in D. Dennett (Ed.), Brainstorms (pp. 90⫺108). Montgomery/Verm.: Harvester Press.; dt. (1981) in P. Bieri (Hrsg.), Analytische Philosophie des Geistes (pp. 162⫺183). Königstein/Ts.: Anton Hain.) Dennett, D. (1987). The intentional stance. Cam-

bridge, MA.: Harvard University Press). Guttenplan, S. (Ed.) (1994). A companion to the philosophy of mind. Oxford: Blackwell. Hempel, C. G. (1935). The logical analysis of psychology. In H. Feigl & W. Sellars (Eds.) (1949): Readings in philosophical analysis (pp. 373⫺384). New York: Appleton-Century-Crofts. (Wiederabgedruckt (1980) in N. Block (Ed.), Readings in the philosophy of psychology. Vol. 1&2 (pp. 14⫺23). Cambridge, MA.: Harvard University Press.) Hook, S. (Ed.) (1960). Dimensions of mind. New York: Collier Books. Hörmann, H. (1981). Einführung in die Psycholinguistik. Darmstadt: WB. Hurford, J. R. (erscheint). The neural basis of pre-

1. Philosophische Aspekte der Psycholinguistik dicate-argument-structure. BBS. Johnson-Laird, P. N. (1983). Mental models. Cambridge, MA.: Harvard University Press. Kosslyn, St. M. (1980). Image and mind. Cambridge, MA.: Harvard University Press. Lamb, S. M. (1999). Pathways of the brain: The neurocognitive basis of language. John Benjamins Publishing Co., Amsterdam and Philadelphia. Lycan, W. G. (Ed.) (1990). Mind and cognition. A reader. Oxford: Blackwell. Marr, D. (1982). Vision. San Francisco: Freeman. Miller, G. A. (1983). Informavores. In F. Machlup & U. Mansfield (Eds.), The study of information: Interdisciplinary messages (pp. 111⫺113). New York: Wiley. Minsky, M. (1975). A framework for representing knowledge. In P. H. Winston (Ed.), The psychology of computer vision (pp. 211⫺280). New York: MacGraw-Hill. Münch, D. (Hrsg.) (1992). Kognitionswissenschaft. Frankfurt/M.: Suhrkamp. Newell, A. (1982). The knowledge level. Artificial Intelligence, 18, 87⫺127. Newell, A. & Simon, H. A. (1976). Computer science as empirical inquiry: Symbols and search. Communications of the ACM, 19, 113⫺126. (Wiederabgedruckt (1981) in J. Haugeland (Ed.), Mind design (pp. 35⫺66). Cambridge, MA.: MIT Press.) Opwis, K. & Lüer, G. (1996). Modelle der Repräsentation von Wissen. In D. Albert & K.-H. Stapf (Hrsg.), Enzyklopädie der Psychologie. Gedächtnis (pp. 337⫺431), (Serie 2, Bd. 4). Göttingen: Hogrefe. Paivio, A. (1971). Imagery and verbal processes. New York: Holt, Rinehart & Winston. Paivio, A. (1986). Mental representations – A dual coding approach. New York: Oxford University Press; Oxford: Clarendon Press. Palmer, St. E. (1978). Fundamental aspects of cognitive representation. In E. Rosch & B. Lloyd (Eds.), Cognition and categorization (pp. 259⫺303). Hillsdale, N. J.: Erlbaum. Place, U. T. (1956). Is consciousness a brain process? British Journal of Psychology, 47, 44⫺50. (Wiederabgedruckt (1970) in C. V. Borst (Ed.), The mind-brain identity theory (pp. 42⫺51). London: Macmillan; (1990) in W. G. Lycan (Ed.), Mind and cognition. A reader (pp. 29⫺36). Oxford: Blackwell.) Putnam, H. (1960). Minds and machines. In S. Hook (Ed.), Dimensions of mind (pp. 138⫺164).

13 New York: Collier Books. (Wiederabgedruckt (1975) in H. Putnam (Ed.), Mind, language, and reality. Philosophical Papers Vol. 2 (pp. 362⫺385). Cambridge: Cambridge University Press; dt. (1985) in A. Beckermann (Hrsg.), Analytische Handlungstheorie. Vol. 2 (pp. 364⫺297). Frankfurt/M.: Suhrkamp. Putnam, H. (1967a). The mental life of some machines. In H.-N. Castan˜eda (Ed.), Intentionality, mind and perception (pp. 177⫺200). Detroit: Wayne State Univ. Press. (Wiederabgedruckt (1975) in H. Putnam Mind, language, and reality. Philosophical Papers Vol. 2 (pp. 408⫺428). Cambridge: Cambridge University Press.) Putnam, H. (1967b). Psychological predicates. In W. H. Capitan & D. D. Merrill (Eds.), Art, mind, and religion (pp. 37⫺48). Pittsburgh, PA.: University of Pittsburgh Press. (Wiederabgedruckt (1975) unter dem Titel „The nature of mental states.“ in H. Putnam (Ed.), Mind, language, and reality. Philosophical papers Vol. 2 (pp. 429⫺440). Cambridge: Cambridge University Press; und (1980) in N. Block (Ed.), Readings in the philosophy of psychology. Vol. 1&2 (pp. 223⫺231). Cambridge, MA.: Harvard University Press; dt. (1981) in P. Bieri (Hrsg.), Analytische Philosophie des Geistes (pp. 123⫺135). Königstein/Ts.: Anton Hain. Putnam, H. (1975). Mind, language, and reality. Philosophical papers Vol. 2 Cambridge: Cambridge University Press. Pylyshyn, Z. W. (1973). What the mind’s eye tells the mind’s brain. Psychological Bulletin, 80(1), 1⫺24. Pylyshyn, Z. W. (1984). Computation and cognition – Towards a foundation for cognitive science. Cambridge, MA.: MIT Press. Rehkämper, K. (1991). Sind mentale Bilder bildhaft? – Eine Frage zwischen Philosophie und Wissenschaft. Diss. Universität Hamburg. Rehkämper, K. (1995). Analoge Repräsentationen. In K. Sachs-Hombach (Hrsg.), Bilder im Geiste: Zur kognitiven und erkenntnistheoretischen Funktion piktorieller Repräsentationen (pp. 63⫺105). Amsterdam, Atlanta: Rodopi. Rickheit, G. & Strohner, H. (1985). Psycholinguistik der Texverarbeitung. Studium Linguistik, 17/18, 1⫺78. Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung. Tübingen: Francke. Rumelhart, D. E. (1980). Schemata: The building blocks of cognition. In B. Spiro, B. C. Bruce & W. F. Brewer (Eds.), Theoretical issues in reading comprehension (pp. 37⫺61). Hillsdale, NJ: Erl-

14 baum. Rumelhart, D. E. (1989). The architecture of the mind: A connectionist approach. In M. I. Posner (Ed.), Foundations of cognitive science (pp. 133⫺ 159). Cambridge, MA.: MIT Press. Rumelhart, D. E. & McCelland, J. L. (1986). Parallel distributed processing. Vol. I. Cambridge, MA.: MIT Press. Russell, B. (1959). My philosophical development. London: George Allen & Unwin Ltd. (dt.: Philosophie. Die Entwicklung meines Denkens. Frankfurt/ M.: Fischer 1988). Ryle, G. (1949). The concept of mind. London: Hutchinson (dt.: Der Begriff des Geistes. Stuttgart: Reclam 1969). Sachs-Hombach, K. (1997). Die Rehabilitierung des Bildes in der Philosophie. Die Debatte um den Stellenwert Mentaler Bilder, Information Philosophie, 5, 18⫺27. Sanford, A. J. & Garrod, S. C. (1981). Understanding written language. Chicester: John Wiley & Sons. Schank, R. C. & Abelson, R. P. (1977). Scripts, plans, goals, and understanding. Hillsdale, NY.: Erlbaum. Schnelle, H. (1990). Connectionism for cognitive linguistics. In G. Dorffner (Hrsg.), Konnektionismus in Artificial Intelligence und Kognitionsforschung (pp. 213⫺216). Berlin: Springer. Schnotz, W. & Bannert, M. (1999). Einflüsse der Visualisierung auf die Konstruktion mentaler Modelle beim Text- und Bildverstehen. Zeitschrift für Experimentelle Psychologie, 46, (3), 217⫺236. Searle, J. R. (1983). Intentionality. Cambridge:

I. Grundlagen der Psycholinguistik pes of states. Cognitive Psychology, 1, 1⫺17. Shepard, R. N. & Metzler, J. (1971). Mental rotation of three-dimensional objects. Science, 171, 701⫺703. Smart, J. J. C. (1959). Sensations and brain processes. Philosophical Review, 58, 141⫺156 (Wiederabgedruckt (1970) in C. V. Borst (Ed.), The mindbrain identity theory (pp. 52⫺66). London: Macmillan.) Smolensky, P. (1988). On the proper treatment of connectionism. Behavioral and Brain Sciences, 11, 1⫺74. Smolensky, P. (1990). Tensor product variable binding and the representation of symbolic structures in connectionist systems. Artificial Intelligence, 46, 159⫺216. Smolensky, P. (1991). Connectionism, constituency and the language of thought. In B. Loewer & G. Rey (Eds.), Meaning in mind: Fodor and his critics (pp. 201⫺227). Oxford: Blackwell. Smolensky, P. (1994). Artikel „computational models of the mind“. In S. Guttenplan (Ed.), A companion to the philosophy of mind (pp. 176⫺185). Oxford: Blackwell. Watson, J. B. (1913). Psychology as the behaviorist views it. Psychological Review, 20, 158⫺177 (dt. (1968) in J. B. Watson (Ed.), Behaviorismus (pp. 11⫺28). Köln, Berlin: Kiepenheuer & Witsch.) Watson, J. B. (1930). Behaviorism. New York: W. W. Norton & Company (dt.: (1968) Behaviorismus. Köln, Berlin: Kiepenheuer & Witsch). Wittgenstein, L. (1953). Philosophische Untersuchungen. Frankfurt/M.: Suhrkamp. (Werkausgabe

Bd. 1, 1984). Cambridge University Press. Shepard, R. N. & Chipman, S. (1970). Second-orKlaus Rehkämper, von Ossietzky Universität, Oldenburg Abb.isomorphism 1.1: Das Rotationsexperiment (Deutschland) von Shepard (1971). der of internal representations: Sha-und MetzlerCarl

2. Geschichte der Psycholinguistik

15

2. Geschichte der Psycholinguistik 1. 2. 3. 4. 5. 6.

1.

Methodologische Eingrenzung des Themas Literatur- und Forschungsbericht Der institutionelle „take off“ in den 50er Jahren Die Schulen und Richtungen in ihrer Entwicklung Zusammenfassung Literatur

Methodologische Eingrenzung des Themas

1.1. Begriffsgeschichte, Problemgeschichte, Institutionengeschichte, Forschungsgeschichte Wer eine Problemgeschichte der Psycholinguistik schreiben wollte, dessen Quellen (im doppelten Sinne des Wortes) begännen bereits in Platos Kratylos und in der Aristotelischen de anima – Tradition zu sprudeln. Wortgeschichte und Institutionengeschichte der Psycholinguistik umfassen dagegen gerade einmal 50 Jahre. Nähme man zum Ausgang statt dessen das Stichwort Psychologie der Sprache, so müsste man mit den psychologischen Journalen der Aufklärung beginnen, z. B. mit dem von Karl Philipp Moritz [1756⫺1793] besorgten Magazin zur Erfahrungsseelenkunde (1783⫺1793) und dessen sprachpsychologischen Beiträgen. Auf die Jahre um 1900 wäre dagegen verwiesen, wer nach den Anfängen eines „modernen“ Verständnisses von psychologischer Sprachbetrachtung Ausschau hielte (systematische Beobachtung, experimentelle Praxis, Datensammlung, Methodenreflexion). Die Vielzahl der Möglichkeiten zeigt, dass eine „Geschichte der Psycholinguistik“ nicht eben eine klare und eindeutige Aufgabe darstellt. Nimmt man hinzu, dass jede Epoche dazu tendiert, als Fachgeschichte nur das zu akzeptieren, was auf die eigenen Wissenschaftsstandards hinzuführen scheint, alles andere aber eher den curiosa zuzurechnen, dann kann man die Schwierigkeiten dieses Unterfangens ermessen. Immerhin hat die Psycholinguistik in den 50 Jahren ihrer begriffs- und institutionsgeschichtlichen Existenz bereits demonstriert, dass der Weg vom pathetischen Ernst zur Abteilung curiosa bisweilen sehr rasch durchmessen wird. Und dabei ist noch nicht einmal sicher, dass gegenwärtige curiosa

sich nicht noch einmal wieder zu handfesten Innovationsressourcen mausern werden. Die Psycholinguisten der 50er und 60er Jahre des 20. Jahrhunderts sind in ihrer Mehrzahl mit der Überzeugung angetreten, etwas ganz Neues zu beginnen. Die problemgeschichtlichen Traditionen, die in ihr Forschungsgebiet einschießen, waren (und sind) ihnen vielfach nicht bekannt, mit dem Ergebnis, dass die Forschung enthusiastisch in manche längst vermessene (und wieder verlassene) Sackgasse gestürmt ist. Wer umgekehrt über den verdeckten problemgeschichtlichen Kontinuitäten zur alten Sprachpsychologie die „neue Qualität“ der institutionalisierten, mit mächtigen gesellschaftlichen Interessen rückgekoppelten Psycholinguistik übersehen wollte, der wäre gleichfalls naiv. Die Schubkräfte, die der „neuen“ Psycholinguistik zum Start verholfen haben, stammen aus dem Zusammenwirken von Kybernetik, (mathematischer) Informationstheorie, KIForschung, Computertechnik und Generativer Grammatik. Weitere Einschränkung bringt der Umstand, dass die Institutionalisierung der psycholinguistischen Forschung (mit ihren typischen Begleiterscheinungen: Lehrbücher, Institute, Zeitschriften, Forschungsprogramme) praktisch noch Gegenwart und kein abgeschlossener Prozess ist. Die Archive sind noch nicht geöffnet, die Requisiten für eine genuine Fachgeschichte stehen (noch) nicht zur Verfügung, so dass man an die Elementarform der Doxographie, an die Geschichte der Schulen und Lehrmeinungen, gewiesen ist. 1.2. Thematische Klammer, Abgrenzungen Die thematische Klammer, welche die Psycholinguistik zusammenhält, besteht aus der Zurechnung sprachlicher Ordnung auf die Fähigkeit, Fertigkeit und Tätigkeit der sprechenden Individuen. Distinktive Kontur gewinnt diese Zurechnungsfigur nur im Kontrast mit anderen, gleichfalls möglichen: Sprache als soziale Institution, als autonomes Zeichensystem, als Medium der Kommunikation, als allgemein menschliche Fähigkeit. Dagegen verwischen die Grenzen, wenn die gesamte Linguistik den Anspruch erhebt, eine „kognitive“ Disziplin zu sein. Das Interesse der Psycholinguistik richtet sich auf die Gesetze der Organisation dessen, was man

16 früher den „individuellen Sprachbesitz“ genannt (und von der allgemein menschlichen Sprachfähigkeit und der Einzelsprache abgesetzt) hätte: auf die „Repräsentation“ von Sprache im Individuum. Unter den traditionellen Teilgebieten des Faches (Sprachproduktion, Sprachrezeption, Spracherwerb, Sprachstörungen) bleiben die Störungen in diesem Bericht ganz unberücksichtigt, weil in ihrer Behandlung die Grenze zu Neurologie und Medizin überschritten wird. Hier sei auf die einschlägigen Artikel dieses Bandes verwiesen. Es erscheint mir angemessen, den zeitlichen Rahmen der Darstellung mit dem Vormarsch der empirisch-experimentellen Psychologie im ersten Drittel des 20. Jahrhunderts beginnen zu lassen, mit einer Phase also, deren Exponenten heutigen Psycholinguisten noch als „ihresgleichen“ imponieren, was für die überwiegend philosophisch raisonnierende Sprachpsychologie des 19. Jahrhunderts nicht zutreffen dürfte. Aus überwiegend praktischen Gründen und zur besseren Verständigung gliedern wir die Geschichte der Psycholinguistik in folgende Phasen: a. Vorgeschichte bis ca. 1900, b. Phase der Krisenpolyphonie und der NeuAxiomatisierungen von 1900 bis 1935, c. Phase der „Neugründung“ und Institutionalisierung von 1950 bis 1960, d. Phase der „generativen“ Psycholinguistik 1960 bis 1970, e. Vom Ende der „generativen“ Psycholinguistik bis zur gegenwärtigen Konstellation. 1.3. Ziel der Darstellung und Selbsteinwände Wenn der Fachgeschichte innerhalb des Faches eine sinnvolle Aufgabe zukommt, dann die der „ausgleichenden Gerechtigkeit“ und der Bereitstellung intellektueller Innovationsressourcen. Als Verwalter der Ahnengalerie und Hüter des Gründungsmythos mag der Fachgeschichtler für die emotionale Einheit der Disziplin ebenfalls wichtig sein, namentlich vor deren institutioneller Befestigung, als säkularer Priester gewissermaßen. Doch dürfte derzeit die intellektuelle Vielfalt der Psycholinguistik bekömmlicher sein als die Einheit des Ritus. Ich gebe in dieser Darstellung vor allem den Schulen und Traditionen Raum, die im fachlichen Bewusstsein verschüttet sind, wiewohl sie m. E. über interessante „Anregungspotentiale“ verfügen. Eine solche Gewichtung ist nicht unbedingt histo-

I. Grundlagen der Psycholinguistik

risch angemessen, weil sie eingestandenermaßen von der Wahrnehmung eines aktuellen Mangels angetrieben ist. Diese Praxis macht jedoch bewusst und explizit, dass Fachgeschichte immer durch den aktuellen Problemhorizont des Historikers gebrochen wird. Berechtigte Einwände macht man besser selbst: Eine offenkundige Lücke des folgenden Berichts besteht darin, dass die französischen und englischen Schulen der Sprachpsychologie nicht angemessen berücksichtigt werden. Zwar etabliert sich in den 70er Jahren so etwas wie eine „europäische“ Psycholinguistik (vgl. Abschn. 4.3.), doch gibt es vor und neben dieser weiterhin nationale Theorie- und Forschungstraditionen, die ich in der zur Verfügung stehenden Zeit nicht aufarbeiten konnte. Weiterhin ist mir natürlich bewusst, dass insbesondere bei den neueren Entwicklungen die Auswahl des Dargestellten persönliche Interessen und Präferenzen des Autors spiegelt. Niemand kann alles kennen in der „Neuen Unübersichtlichkeit“ der sprachpsychologischen Szene.

2.

Literatur- und Forschungsbericht

2.1. Vorgeschichte im 19. Jahrhundert Die Herausbildung einer „psychologischen“ Sprachauffasung in der Mitte des 19. Jahrhunderts folgt einesteils dem massiven Ansehensverlust der idealistischen Philosophie und Logik, bis dato Leitwissenschaften der Sprachtheorie, anderenteils schießen die Anfänge der (auf Herder zurückgehenden) „völkerpsychologischen“ Richtung in sie ein, im Zeitalter der Nationen und des Nationalismus ein durchaus Resonanz versprechender Komplex. Das Ansehen der Psychologie als einer „empirischen“, den Naturwissenschaften nahestehenden Disziplin war im Wachsen begriffen, auch wenn sie akademisch-institutionell noch lange Teil der Philosphie bleiben sollte. Als Gründerfigur der Sprachpsychologie in dieser Zeit gilt Heyman Steinthal [1823⫺1899], der die Psychologisierung von Humboldts Sprachtheorie betrieb und zusammen mit Moritz Lazarus [1824⫺1903] die Zeitschrift für Völkerpsychologie und Sprachwissenschaft gründete, die von 1859/60 bis 1890 erschien. Sie ist das erste Periodikum der Zeit, in dem die genannten Strömungen zusammenflossen. Eine theorie- und problemgeschichtliche Rekonstruktion der Sprachpsychologie dieser Zeit bietet Knobloch (1988). Psychologisch getönte Begründungs-

2. Geschichte der Psycholinguistik

versuche in der historisch-vergleichenden Sprachwissenschaft der Zeit behandelt Jaritz (1990). Im letzten Drittel des 19. Jahrhunderts verstärken sich die Kontakte der bis dahin relativ isolierten psychologischen Richtung zur universitären Sprachforschung. Den Junggrammatikern wird die Psychologie zur unentbehrlichen Hilfswissenschaft, weil ihnen alle historischen Veränderungen der Sprachen entweder physiologisch oder psychologisch motiviert sind. Hermann Paul [1846⫺ 1921] nimmt in seinen einflussreichen Prinzipien der Sprachgeschichte (1. Aufl. 1880, 5. Aufl. 1920) von der psychologischen Diskussion auf, was ihm brauchbar erscheint für die Erklärung des Sprachwandels. Wilhelm Wundt [1832⫺1920], Begründer der experimentellen Psychologie und gewissermaßen Gegenspieler Pauls, reklamiert für den dualistischen Ansatz seiner Psychologie (sie besteht aus den Teilen: physiologische Psychologie ⫽ experimentell, „von unten“ vs. Völkerpesychologie ⫽ gebilde- und strukturdeutend, „von oben“; verbunden sind beide durch die semantische Brücke der „Ausdrucksbewegungen“) umgekehrt die von der Sprachforschung aufgehäuften Daten und Fakten als völkerpsychologisch zu deutendes Material (zu Wundt vgl. Knobloch, 1992). 2.2. Wundt und der Stand um 1900 Um 1900 entsteht eine intensive Debatte über die Bedeutung der Psychologie für die Sprachforschung und vice versa (vgl. Wundt, 1901; Delbrück, 1901). Gleichzeitig findet man die Anfänge einer experimentellen bzw. systematisch beobachtenden Sprachpsychologie: die Erforschung sprachlicher Assoziationen (Thumb & Marbe, 1901), die Versprecherforschung (Meringer & Mayer, 1895), die erste Blüte der Spracherwerbsforschung (Stern & Stern, 1907), frühe Untersuchungen zum Sprach- und Redeverstehen (Bühler, 1909). Zeitweise firmiert unter dem Etikett „Sprachpsychologie“ fast alles, was wir heute der Allgemeinen Sprachwissenschaft und der Sprachtheorie zurechnen würden. Obwohl sich die „moderne“ Psycholinguistik als Neugründung versteht, obwohl Faschismus und Krieg in Europa wichtige Traditionen von jedweder praktischen Wirksamkeit abgeschnitten haben, beginnt die Problemgeschichte auch der „neuen“ Psycholinguistik zu wesentlichen Teilen in den Axiomatisierungen und Aufspaltungen, die aus dem vielstimmigen Krisendiskurs in Sprachwissenschaft und Psychologie des ersten Jahr-

17 hundertdrittels herauszuführen versprachen. Instruktive Zeugnisse (und gleichzeitig kritische Literaturberichte) dieser Krisenpolyphonie sind Bühler (1927, 1934). Aus der radikalen Negation der Bewusstseins- und Erlebenspsychologie entsteht die namentlich in den USA erfolgreiche behavioristische Richtung der Sprachpsychologie, die sich leicht mit einer quantifizierenden experimentellen Praxis verbindet (Esper, 1973; Hehlmann, 1967: 263 ff.). Eine theoretische, nach wie vor lesenswerte Gesamtdarstellung der behavioristischen Sprachauffassung gibt de Laguna (1927). In der Sowjetunion entsteht, ebenfalls aus der kritischen Sichtung der diversen Strömungen des Jahrhundertbeginns, die Sprachpsychologie der „Kulturhistorischen Schule“ um Lew S. Wygotski. Diese Richtung wird bereits 1936 durch die PädologieDekrete in ihrer Verbreitung behindert und faktisch beinahe verboten, kehrt aber in den 50er und 60er Jahren auch auf die internationale Bühne zurück (in den USA vor allem durch die Vermittlung Jerome Bruners) und ist bis heute besonders in der Spracherwerbsforschung einflussreich (Wertsch, 1986). Aus der Radikalisierung (und Überwindung) der Erlebnispsychologie (namentlich durch die sog. Würzburger Schule Oswald Külpes) bilden sich die Anfänge einer modernen Sprachund Denkpsychologie (zum Werk von Otto Selz, der 1943 von den Nazis ermordet wurde, vgl. Me´traux & Herrmann, 1991), in der die Kognitionspsychologie der neueren Zeit ihren Bahnbrecher zu sehen vermochte (Scheerer, 1991, 1992). 2.3. Die Anfänge von systematischer Beobachtung und Experiment Einen Überblick über die Anfänge der Sammlung, Auswertung und Deutung von Versprecher-Korpora gibt Wiedemann (1992). Wie so oft stand auch bei Rudolf Meringer, dem Pionier der Versprecherforschung und späteren Gründer der „Wörter-und-Sachen“Schule, das junggrammatische Programm im Hintergrund, das theoretisch offen, in der Forschungspraxis aber sehr eng war. Zu dessen Zielen gehört es, die auch in der gegenwärtigen Sprechtätigkeit wirksamen Kräfte und Beweggründe des Sprachwandels dingfest zu machen. In diesen Kontext gehören die Anfänge der Versprecherforschung. Die Geschichte der frühen Spracherwerbsforschung rekonstruiert Knobloch (2001). Einen Überblick der „Arbeitsrichtungen und Verfahrensweisen“ der frühen Sprachpsycho-

18 logie (bis 1940) gibt Kainz im 1. Band seiner breit und referierend angelegten Psychologie der Sprache, deren nationale Obsessionen die Lektüre erschweren. Immerhin werden auch die experimentellen Ansätze vorgestellt (Kainz, 1940: 34⫺67). Diskutiert werden die Anfänge von Experiment und Beobachtung in der Sprachpsychologie auch in Knobloch (1988: 463⫺513). Einen knappen problemgeschichtlichen Abriss der Sprachpsychologie seit der Aufklärung gibt Röttgers (1995). Für die Geschichte der Schreib- und Lesepsychologie sind die einschlägigen Beiträge des HSK-Bandes 10 (Schrift und Schriftlichkeit) zu vergleichen. Während Spracherwerbs- und Versprecherforschung systematisch beobachtend verfahren, beginnt um 1900 eine genuin experimentelle Praxis auf den Gebieten: Analogie und Assoziation (Esper, 1973; Murray, 1978), Wort-, Satz- und Redeverstehen (Bühler, 1909; Knobloch, 1988: 493⫺505), sprachliche Denk- und Problemlösungsprozesse (Graumann, 1965). Experimentelle Komponenten bereichern alsbald auch die längsschnittlich beobachtende Spracherwerbsforschung. Genannt seien exemplarisch: die (in jeder Hinsicht bahnbrechende) Untersuchung von Narziß Ach (1921) über die sprachliche Begriffsbildung (Kühnert, 1983) sowie die frühen Arbeiten Jean Piagets über verbales Verstehen und Erklären unter Kindern (Piaget, 1975 [1923]). 2.4. Rückblicke aus der späteren Praxis Eine wichtige Quelle für die Fachgeschichte bilden State-of-the-art-Artikel, wie man sie vor allem an Halt- und Wendepunkten der Disziplin, in handbuchartigen Resümees und Programmschriften findet. Solche Einschnitte finden sich in den 70er Jahren nach der Zerrüttung der leidenschaftlichen Affäre von Linguistik und Psychologie. Relativ nüchterne Forschungsüberblicke von diesem Zeitpunkt aus geben Hörmann (1970, 1976) und Leont’ev (1975). Erste Ergebnisse der Wiederannäherung von Linguistik und Psychologie notieren Tanenhaus (1988) sowie die einschlägigen Beiträge in Ellis (1985⫺87). Der erste Wendepunkt liegt freilich schon zu Beginn der 60er Jahre und dokumentiert den Siegeszug der „generativen“ Grammatik im Fach (Diebold, 1965). Instruktiv ist auch der Blick eines kritischen Außenseiters wie O’Connell (1988). Einen nicht ganz unparteiischen Abriss der jüngeren Fachgeschichte gibt Knobloch (1994: 62⫺75).

I. Grundlagen der Psycholinguistik

2.5. Exil und Vertreibung (eine Notiz) Wenig beachtet wird der Umstand, dass die Cre`me der deutschen Sprachpsychologie des ersten Jahrhundertdrittels in den Jahren nach 1933 Opfer von Vertreibung und Exil geworden ist. Neben Karl Bühler, dessen sprachtheoretisches Werk in den 60er Jahren wieder bekannt geworden ist, sind zu nennen: Heinz Werner, dessen durch Cassirer beeinflusste Entwicklungspsychologie von einer Außenseiterposition aus die amerikanische Spracherwerbsforschung beeinflusst hat (Werner & Kaplan, 1963), Frieda Eisler (später: Goldman-Eisler), bekannt vor allem durch ihre Arbeiten zu Sprechpausen in der spontanen Rede, der – schon 1936 gestorbene – Adhe´mar Gelb, Kurt Goldstein, Emil Fröschels (alle drei einflussreich auf dem Feld der Sprachstörungen) und William Stern selbst, dessen personalistische Psychologie und dessen Arbeiten zur Kindersprache ebenfalls nach dem Krieg wieder in die Diskussion eingegangen sind (zu Exil und Verteibung vgl. Maas, 1996; zu William Stern vgl. Behrens & Deutsch, 1991; die Tagebücher und Spracherwerbsprotokolle der Sterns hat das MPI Nijmegen elektronisch veröffentlicht). 2.6. Fachgeschichte als Einrichtung der Ahnengalerie Sobald eine Disziplin sich halbwegs etabliert und ein anerkanntes Forschungsprogramm vorgelegt hat, beginnt die Suche nach würdigen, leider zumeist wehrlosen Ahnen, vor denen man sich verbeugen kann, die aber umgekehrt den warmen Glanz ihres Ruhmes freigiebig auf die junge Disziplin verteilen. Solche Anstrengungen sind verständlich und lehrreich, sofern man nicht vergisst, dass sie einiges über die prekäre Gegenwart (und ihre „imagined communities“), aber nichts über die tatsächliche Vergangenheit der Disziplin lehren. Für die generative Phase der Psycholinguistik hat dieses Geschäft Blumenthal (1970) übernommen, nachdem zuvor Esper (1968) noch einmal versucht hatte, die untergehende „antimentalistische“ Psycholinguistik, zu der er selbst gehört, mit einer stattlichen Ahnengalerie zu versehen. Die Suche nach illustren Vorläufern orientiert sich stark an wortgeschichtlichen Kontinuitäten, ignoriert aber die problemgeschichtlichen Zusammenhänge. So scheint Blumenthal (1970) davon auszugehen, dass „Nativismus“ und „Transformation“ in den sprachtheoretischen Debatten des 19. Jahrhunderts für die gleichen Problemhorizonte stehen wie in der ge-

2. Geschichte der Psycholinguistik

nerativen Grammatik. Das ist jedoch nicht der Fall (ausführliche Kritik bei Knobloch, 1984, 1988). 2.7. Fachgeschichte als Gründungsmythos Wenn die Lehr- und Handbücher der Psycholinguistik ein Kapitel zur Geschichte der Psycholinguistik enthalten, dann erzählt es gewöhnlich eine Art von Gründungsmythos. Danach wurde die Psycholinguistik durch eine Reihe von Konferenzen des Social Science Research Council zu Beginn der 50er Jahre aus der Taufe gehoben. Das Ergebnis dieser Konferenzen war der programmatische Forschungsbericht von Osgood und Sebeok (1954), an dem über die Herausgeber hinaus noch John Carrol, Joseph Greenberg, Floyd Lounsbury, James Jenkins und Joseph Casagrande mit geschrieben haben. Es ist sicher richtig, dass die Aktivitäten des Council den Anstoß zum instituionellen take off der „modernen“ Psycholinguistik gegeben haben. Es ist auch richtig, dass die programmatischen Passagen von Osgood und Sebeok (1954) in den Diskussionen der folgenden fünfzehn Jahre eine wichtige Rolle gespielt haben. Aber natürlich hat es theoretische und experimentelle Sprachpsychologie auch vorher und auch unabhängig vom Kreis der Gründerväter gegeben. Schon wenige Jahre nach der Gründung gerieten Theorie und Praxis der Psycholinguistik nachhaltig in den Sog der Generativen Grammatik, so dass man heute das Anliegen der „Gründerväter“ und die Konstellation, in der es gedeihen konnte, mühsam rekonstruieren muss (vgl. Abschn. 3). Bemerkenswerter als der Gründungsmythos selbst ist, dass die „Gründung“ in der Tat einer bewussten und geplanten interdisziplinären Anstrengung zu verdanken ist. Linguisten, Psychologen, Informations- und Kommunikationswissenschaftler sowie Anthropologen haben systematisch geprüft, ob aus der Kombination ihrer Sichtweisen auf Sprache eine Disziplin konstruiert werden kann, die individuelle Akte der Sprachverwendung zum Gegenstand hat.

3.

Der institutionelle „take off“ in den 50er Jahren

3.1. Kybernetik und Informationstheorie Wer heute das anerkannte „Gründungsdokument“ der neuen Psycholinguistik aufschlägt (Osgood & Sebeok, 1954), dem teilt sich die Aufbruchstimmung der Zeit durchaus noch mit. Beeindruckt (aber keineswegs benom-

19 men!) waren die Mitglieder der „Gründungsversammlung“ von den Aussichten der mathematischen Informationstheorie (Shannon & Weaver, 1949) und von ihrer sprachstatistischen Anwendung (Miller, 1951). Man täuschte sich jedoch keinen Augenblick darüber, dass Shannon und Weaver (1949) kein angemessenes Modell für die Analyse des Sprechens anboten. Die Wucht des Eindrucks wird erst recht verständlich, wenn man ein zweites „Gründungsdokument“ heranzieht: Jeffress (1951) und darin insbesondere die Beiträge von Lashley und von Neumann. Es schält sich heraus, dass die junge „Automatentheorie“ (von Neumann, 1951), der angegraute Behaviorismus (Lashley, 1951) und die mathematische Informationstheorie ein gemeinsames Problem haben: das der geordneten und vorhersehbaren Abfolge von Elementen und Zuständen, die nicht durch externe Stimuli gesteuert sind. Die Syntax natürlicher Sprachen ist, salopp gesprochen, die Mutter aller geordneten Folgen, weshalb sie in der Folge zum Hauptproblem und zum HauptModellspender avanciert. Schon Lashley (1951) lässt jedoch keinen Zweifel, dass alle Formen sequentiell geordneten Verhaltens zur Debatte stehen. Wie sehr auch der überzeugte Antibehaviorist Chomsky dem Glaubenssystem der Aufbruchsjahre verpflichtet ist, mag Lashleys Überzeugung verdeutlichen, „that the phenomena of behavior and of mind are ultimately describable in the concepts of the mathematical and physical sciences“ (Lashley, 1951: 112). Die Kalamität jedoch, auf welche die junge Psycholinguistik reagiert, besteht darin, dass Kybernetik und Automatentheorie bereits mit Maschinen spielen, die „können“, was das physikalistische Weltbild der S-R-Theorien nicht einmal dem Menschen zugesteht: intern geordnete und gesteuerte Verhaltensfolgen exekutieren. Lashley (1951) ist mit dem illusionslosen Sarkasmus desjenigen geschrieben, der über die Mängel seiner Psychologie durchaus Bescheid weiß. Die sequentiell-temporale Ordnung von Verhaltenselementen, so argumentiert er, inhäriert weder der „Vorstellung“ (idea), von welcher das Verhalten ausgeht, noch den einzelnen Elementen, aus denen es besteht. Sie ist vielmehr ein generalisiertes Muster, das beiden auferlegt wird. Es ist kein Zufall, dass Lashley in diesem Zusammenhang den (von Narziß Ach geprägten) Ausdruck „determinierende Tendenz“ gebraucht, und es besteht auch kein Zweifel, dass die Schubkraft der Psycholinguistik damit zu-

20 sammenhängt, dass sie sich einerseits mit den Problemen der Automatentheorie verband, andererseits in der Syntax der Schlüssel zu allen höher (und das heißt: sequentiell) organisierten cerebralen Mechanismen vermutet wurde. Lashley spricht ausdrücklich von der „syntax of action“ (1951: 134). Die Entwicklungen der folgenden fünfzehn Jahre, insbesondere der von Chomsky bewerkstelligte Übergang von (linearen) Finite-state-Modellen zu Modellen der Linearisierung hierarchisch integrierter Strukturen, sind, noch deutlicher als bei Lashley, bereits bei von Neumann (1951) zu erkennen: der Beschreibungsoptimismus (die Überzeugung, alles, was exhaustiv und eindeutig beschrieben werden kann, könne auch durch einen logischen Automaten modelliert werden), der Verweis auf das leider unentwickelte Terrain der mathematischen Kombinatorik, die Vorstellung eines Automaten, der Beschreibungen lesen und daraus das beschriebene Objekt „erzeugen“ kann. Auch von Neumann vergleicht die Fähigkeit der Turing-Maschine, aus Beschreibungen das Beschriebene zu erzeugen, mit der Organisation natürlicher Sprachen: „The ability to do this is no more mysterious than the ability to read a dictionary and a grammar and to follow their instructions about the uses and principles of combinations of words“ (von Neumann, 1951: 27). In dieser Konstellation wundert es nicht, dass viele vieles erwarteten von einem interdisziplinären Unternehmen mit Namen Psycholinguistik: die Verbesserung „syntaktischer“ Automaten ebenso wie die angemessenere Modellierung des Sprechens und Verstehens. 3.2. Das Problem der psycholinguistischen Einheiten Die in Osgood und Sebeok (1954) präsentierten lerntheoretischen Ansätze sind durchweg dem Behaviorismus noch verpflichtet, zeigen aber auch dessen Aufweichung und Selbstreformierung durch intervenierende Variablen, Erwartungsbildung, Mustergedanken (in welchem Maße der von Chomsky niedergemähte „Behaviorismus“ ein Pappkamerad war, zeigt Ickler, 1994). In der linguistischen Einführung (verfasst von Joseph Greenberg) findet man dagegen eine nüchterne, zur Anthropologie hin offene und keineswegs behavioristisch oder „Bloomfieldianisch“ verengte Perspektive. Der programmatische Vorschlag, die typologische Variationsbreite natürlicher Sprachen in psycholinguistische Erklärungen systematisch aufzunehmen, ist leider erst sehr

I. Grundlagen der Psycholinguistik

viel später (z. B. in Slobin, 1985 ff.; Seiler, 1992) aufgenommen worden. Ähnliches ist über das (von Floyd Lounsbury verfasste) Bedeutungskapitel zu sagen, das – gegen Bloomfield – für ein differenziert kontextualistisches Bedeutungskonzept plädiert, bei dem man sich ebenfalls wünscht, es wäre früher zum Zuge gekommen. Breiten Raum nimmt in Osgood und Sebeok (1954) das Problem der „psycholinguistischen Einheiten“ ein, bei dem die Fäden der kooperierenden Fächer in der Tat zusammenlaufen (man kann auch nicht behaupten, es sei in den Debatten der folgenden fünfzehn Jahre „gelöst“ worden; Leont’ev, 1975: 1⫺40): Zunächst geht man davon aus, dass als valide linguistische Einheiten Phonem, Morphem und Funktionsklasse in Betracht kommen. Die Einheiten phrase, clause, sentence werden erst später prominent, als die generative Grammatik den Gedanken einer Top-down-Erzeugung eingeführt hat. Die Psychologie hingegen hat es mit den Einheiten zu tun, die für Sprachbenutzer leicht auszugliedern und bewusst zu machen sind, also mit Silbe, Wort und Satz. Ganz und gar technisch-probabilistisch sind dagegen die informationstheoretischen Einheiten, die sich auf alles applizieren lassen, was diskret und zählbar ist. Insbesondere interessiert sich die Psycholinguistik dafür, welche Einheiten bei der Erzeugung und Verarbeitung von Sprache unmittelbar operativ sind, mit welchen also der unter Abschnitt 3.1. skizzierte Ordnungsmechanismus arbeitet. Miller, Galanter und Pribram (1960) identifizieren später die psychologischen Einheiten mit der „Image“-Ebene, die linguistischen mit der „Plan“-Ebene und postulieren als allgemein-psychologisches Format der Einheiten in geplanten Abfolgen die Rückkopplungsschleife (TOTE-Einheit). In Osgood und Sebeok (1954: 93 ff.) wird deutlich, wie sich gerade in der „sequentiellen Psycholinguistik“ – das einschlägige Kapitel stammt von Lounsbury – die kooperierenden Disziplinen treffen. Jeder Übergang von Einheit zu Einheit, auf welcher Ebene auch immer, lässt sich statistisch als Übergangswahrscheinlichkeit, lerntheoretisch als (mehr oder weniger starkes) habit, strukturell als möglich oder nicht möglich bestimmen und einem hierarchischen Rang zuordnen (dergestalt, dass etwa der Übergang zwischen Artikel und Nomen weniger „tief“ ist als der zwischen Nominalphrase und Verbalphrase). Die Korrelation von Übergangswahrscheinlichkeit und Übergangstiefe bestimmt in dieser Zeit das

2. Geschichte der Psycholinguistik

Modelldenken (Yngve, 1960, 1961). Sprachstatistische Befunde (allen voran John Kingsley Zipf über die umgekehrte Korrelation von Wortlänge und -häufigkeit, von Frequenz und Betonung, von Wortlänge und Polysemie-Neigung etc.) nährten zusätzlich die Hoffnung, die quantifizierende Informationswissenschaft könne eine Brücke bauen zwischen Verhalten und Struktur. Der Sieg der algorithmischen Syntax in den 60er Jahren entfremdet dann die Psycholinguistik weitgehend von sprachstatistischen und informationswissenschaftlichen Ansätzen. Angesichts der prinzipiell unbegrenzten Generativität natürlicher Sprachen wird beiden Modellgedanken „Wesenseinsicht“ nicht mehr zugetraut. Erst in jüngster Zeit ist eine Renaissance stochastischer und quantifizierender Modelle zu beobachten. Mit einem zeitlichen Abstand von über 40 Jahren lässt sich gefahrlos behaupten, dass es vielleicht ergiebiger gewesen wäre, auf dem Wege der Quantifizierung und der numerischen Korrelationen ein Stück weiterzugehen, ergiebiger jedenfalls als zehn Jahre lang die „psychologische Realität“ einer algorithmischen Grammatik zu überprüfen. Den Geist der quantitativen Psycholinguistik atmet z. B. Fischer (1963). Über die Entwicklung der quantifizierenden Spracherwerbsforschung berichtet Kegel (1974). 3.3. Der Themenkatalog von 1954 Folgenreich ist das Buch von Osgood und Sebeok (1954) auch insofern gewesen, als es eine Art von Themen- und Problemkanon etabliert, der für längere Zeit den Aufbau von Readern und Lehrbüchern prägt. Saporta (1961) reproduziert diesen Kanon ebenso wie Houston (1972). Auch der Aufbau von Diebold (1965) folgt strikt der gleichen Vorgabe. Sie besteht (nach Saporta, 1961) aus folgenden Abteilungen: (1) (2) (3) (4) (5) (6) (7) (8) (9)

The nature and function of language, Approaches to the study of language, Speech perception, The sequential organization of linguistic events, The semantic aspects of linguistic events, Language acquisition, bilingualism, and language change, Pathologies of linguistic behavior, Linguistic relativity and the relation of linguistic processes to perception and cognition, Mass communication, nonverbal communication, zoosemiotics.

21 Von der empirischen Sprachtypologie, die zur linguistischen Erneuerung der Zeit gehört und mit Joseph Greenberg im „Gründerkreis“ repräsentiert war, wissen wir, dass sie sich rasch von der Psycholinguistik fort und zum eigenen Fach entwickelt hat. Wenig bekannt ist heute, dass zum Programm von 1954 auch die detaillierte experimentelle Prüfung des sprachlichen Relativitätsprinzips gehörte, für dessen analytische Dekomposition in testbare Hypothesen durchaus praktikable Vorschläge entwickelt werden. Was Diebold (1965) über die Fortschritte der Psycholinguistik zwischen 1954 und 1964 hinsichtlich (2) berichtet, lässt sich mit wenigen Worten zusammenfassen: Sie heißen „Mathematisierung“ und „Chomsky“. Für notierenswert hält Diebold (1965: 221) außerdem noch die Neigung, angeborene spezialisierte biologische Prädispositionen der Sprache anzunehmen (Eric Lenneberg). Diebolds (1965: 223⫺ 228) Abriss zu (3) dokumentiert, dass in der ersten Phase vor allem Modelle der Phonemwahrnehmung entwickelt und getestet wurden. Zu (4), Sequenzialität und Syntax, ist zu vermerken, dass in den Jahren um 1960 die Allianz von Lern- und Wahrscheinlichkeitstheorie durch den „Nachweis“ erschüttert wird, dass stochastisch organisierte Sequenzen eo ipso von keiner Lerntheorie gemeistert werden können (Miller, Galanter & Pribram, 1960; Miller & Chomsky, 1963), was freilich dem heuristischen, auf die Entdeckung von Gesetzmäßigkeiten gerichteten Charakter der einschlägigen Forschungen nicht gerecht (und gleichzeitig als Bestätigung für die psychologische Wirksamkeit „generativer“ Regelapparate genommen) wird. Die Erforschung von Kontextrestriktionen und -generalisierungen im Sprachlernen kommt in der Folge weitgehend zum Erliegen, obwohl es aus heutiger Sicht wieder eine sehr interessante Frage ist, über welche partiell formelhaften Zwischenstufen die relativ hohe kombinatorische Freiheit des Sprechers (und die noch sehr viel höhere kombinatorische Freiheit des Schreibens!) aufgebaut wird. In Sachen Semantik fällt es dem heutigen Leser auf, wie wenig in den 60er Jahren Linguistik und Psycholinguistik zu unterscheiden waren. Die Bereitschaft, eine formal-logische Merkmalssemantik wie Katz und Fodor (1963) als angmessene Explikation der semantischen Kompetenz eines Sprechers zu akzeptieren, illustriert, wie wenig Chomskys wiederholte Hinweise gefruchtet haben, die Kompetenz-Linguistik erstrebe kein empiri-

22 sches Modell des Sprachbenutzers. Wirklich explodiert sind dagegen die Studien zum kindlichen Spracherwerb in den Jahren zwischen 1954 und 1964, und zwar durchaus nicht nur die generativ inspirierten: Berko (1958), Brown (1958), Lurija und Judowitsch (1959) sowie Leopolds (z. B. 1953/54) spätere Arbeiten zum Bilingualismus. Was schließlich das sprachliche „Relativitätsprinzip“ betrifft, so deutet Diebold bereits an, in welche Richtung die Reise gehen wird: in die des „kognitiven Determinismus“. Er hält es für wahrscheinlich, „that the striking universals in language structure, which are only now being fully appreciated, are dependent on cognitive schemata which are part of the human constitution“ (1965: 260). 3.4. Der Resonanzraum der Psycholinguistik Die Institutionalisierung eines „neuen“ Faches ist niemals allein Ergebnis intellektueller und innerwissenschaftlicher Entwicklungen. Obwohl sich das Bedürfnis nach psychologischer Sprachbetrachtung immer wieder Bahn gebrochen hat, gab es vor den 50er Jahren des vorigen Jahrhunderts keinen eigentlichen Forschungszusammenhang mit Zeitschriften, Lehrbüchern, konkurrierenden Schulen, Theorien, Instituten, kurz: kein eigentliches Fach. Wenn man die rasche Abfolge prominenter Theorien und Modellvorstellungen in der kurzen, aber bewegten Geschichte der Psycholinguistik Revue passieren lässt und sie auf konstante Motive, auf wiederkehrende Argumentationsfiguren, auf ihre der gesellschaftlichen Resonanz zugewandte Außenseite überprüft, dann müssten sich Vermutungen über das aufstellen lassen, was die Psycholinguistik als Fach zusammenhält: Was verspricht die Psycholinguistik „ihrer“ Gesellschaft, und was verspricht sich diese umgekehrt von ihr? George A. Miller hat die Phasen und Wendungen des Faches von den mathematisch-informationswissenschaftlichen Anfängen über die generative Euphorie bis hin zu den jüngeren Tendenzen des cognitive modelling nicht allein durchlebt, er ist auch häufig als Wortführer der herrschenden Richtungen aufgetreten und hat sie in der Außendarstellung repräsentiert. In einem häufig nachgedruckten Artikel aus den Jahren der höchsten Euphorie schreibt er: „Psychologists have long recognised that human minds feed on linguistic symbols. Linguists have always admitted that some kind of psycho-social motor must move the machinery

I. Grundlagen der Psycholinguistik

of grammar and lexicon. Sooner or later they were certain to examine their intersection self-consciously“ (Miller, 1964: 29). In der Tat ist für die Psychologie „Sprache“ zu allen Zeiten darum ein kritischer und paradigmatischer Gegenstand, ein Prüfstein für Theorien und Modelle gewesen, weil in den Aktivitäten des Sprechens und Verstehens alles „vorkommt“ und zusammenwirkt, was die Psychologie traditionell interessiert. Die Sprache ist gewissermaßen der Schlussstein der Psyche (und darum auch der gefürchtete Prüfstein für reduktionistische Modelle!). Die Linguistik fühlt sich umgekehrt zur Psychologie hingezogen, sobald ihr Blick von den schriftinduzierten Vergegenständlichungen der Grammatik und des Lexikons „zurück“fällt auf die primäre und originäre Realität des Sprechens. Das freilich verbürgt keine „schicksalhafte“ Fusion der beiden Fächer. Schaut man indessen, was Miller (1964) weiter mit dem neuen Fach an Erwartungen und Visionen verknüpft, dann gewinnt das „Schicksal“ etwas handfestere Konturen. Da ist die Rede von den Sprachstörungen, über die man wenig weiß, und therapeutischen Bemühungen, die weitgehend unwirksam bleiben. Da ist die Rede von der Verbesserung der Methoden des Lesen- und Schreibenlernens und schließlich auch von der Macht, die diese Ehe gestiftet und über alle frustrierenden Zwischenfälle hinweg zusammengehalten hat: „If psycholinguistic principles were made sufficiently explicit, they could be imparted to those technological miracles of the twentieth century, the computing machines, which would bring into view a whole spectrum of cybernetic possibilities“ (Miller, 1964: 30). Und obwohl die Erfolge der maschinellen Sprachverarbeitung keineswegs den Erwartungen der 60er Jahre entsprechen (und sicherlich zum geringsten Teil auf psycholinguistische Forschungsergebnisse zurückgehen), hat sich die Axiomatik der Disziplin, haben sich Modellbildung und Terminologie bis heute in enger Tuchfühlung mit der Welt der Datenverarbeitung entwickelt. Unter Resonanzgesichtspunkten bietet diese Allianz beiden Vorteile: Das Ansehen der Sprachforschung wächst durch ihre „Relevanz“ für die Datenverarbeitungstechnik, und das Ansehen der Computerbranche wächst durch die schrittweise Eroberung des „menschlichsten“ aller menschlichen Territorien, der Sprache. Diese Konstellation hat die Psycholinguistik immer wieder zeitgemäß reformuliert (und in Fördermittel verwandelt). Die Konstrukti-

2. Geschichte der Psycholinguistik

onsform des „Sprache lernenden Automaten“ (Miller, 1964: 35) war zuerst probabilistisch, dann algorithmisch und schließlich modular. Fast 30 Jahre nach dem o.g. Artikel träumt Miller (1993: 297 ff.) von einem Computer, der so programmiert werden kann, dass er ohne weitere menschliche Mithilfe mit den Problemen der Polysemie umgehen kann. Dabei schweben vielleicht schon internetartige Anwendungen vor, vielleicht intelligentere Suchmaschinen, die automatisch nur die gesuchte Lesart eines polysemen string identifizieren können.

4.

Die Schulen und Richtungen in ihrer Entwicklung

4.1. Flucht in den Kopf: Psycholinguistik auf generativ-grammatischer Grundlage Gründe für die hohe Attraktivität des generativ-grammatischen Programms in der Psycholinguistik sind oben bereits angeklungen: es war techniknah, mathematisierbar und antibehavioristisch, es versprach eine tragfähige Brücke zur Computersphäre und zur modernen Linguistik, deren öffentliches Ansehen vor 40 Jahren weit höher war als in der Gegenwart. Die Basis-Opposition von „Kompetenz“ (zugrundeliegende Fähigkeit) und „Performanz“ (empirisch-kontingenter Akt) schien als Folie für Begegnung und Arbeitsteilung zwischen Linguistik und Psychologie hinreichend plastisch und vielversprechend. Es fehlt freilich auch nicht an kritischen Darstellungen der „generativen“ Phase des Faches (Hörmann, 1976; Leont’ev, 1975; die Diskussion in den Beiträgen von Levelt & Flores d’Arcais, 1978). Zumal als der „point of diminishing returns“ erkennbar überschritten war, wurde vielfach nachgetreten. Es liegt eine offensichtliche Entgleisung darin, die perzeptive Realität (oder auch nur: Relevanz) einer Strukturbeschreibung zu postulieren, die selbst ganz ohne den Bezug auf Zeit- und Prozessparameter auskommt, zumal niemand eine klare Antwort auf die Frage wusste, was denn der Sprecher mit einer gegen die manifeste Äußerung abgesetzten grammatischen Strukturbeschreibung tun soll. Der tautologische Charakter des algorithmischen Verfahrens wird unübersehbar, sobald es mit der linear-prozessualen Realität der Sprachverarbeitung konfrontiert wird: um nicht nur ein Satzschema, sondern einen Satz zu „erzeugen“, muss die Maschine diesen fertigen Satz bereits „haben“. Natürlich

23 hat man immer darauf verwiesen, dass in der Sphäre der Performanz noch unzählige andere Kontingenzen am Werk sind, doch galt der empirischen Fraktion des Generativismus die Theorie der Kompetenz nur dann als legitimiert, wenn ihre Relevanz auf der Prozessebene nachgewiesen werden konnte. Es ist auch nicht zu bezweifeln, dass manche Sprecher über ein psychologisch reales, gegen den Vollzug abgesetztes, virtuelles und latentes Sprachwissen verfügen, das es ihnen erlaubt, zwischen grammatischen und ungrammatischen Sätzen zu unterscheiden. Aber dieses Wissen ist offenbar sekundär und gehört weniger zum operativen als vielmehr zum kontrollierenden Bereich des sprachlichen Handelns (monitoring). Garman resümiert: „The early (1960s) psycholinguists’ view was that competence, as displayed through linguists’ intuitions supplemented by formal linguisticanalytical procedures, was a ’given’; measures of psycholinguistic performance, in the experimental investigation of the time, were thought to be glimpses of this underlying concept.“ (Garman, 1994: 3401). Seither ist es auch um das Begriffspaar selbst stiller geworden in der Psycholinguistik. Gebraucht wird es bestenfalls noch, um die claims und Zuständigkeiten zwischen Linguistik und Psycholinguistik abzustecken. Statt jedoch längst vergangene Schlachten noch einmal nachzustellen, verweisen wir lieber auf ein „architektonisches“ Problem dieser Anfangskonstellation, das mit ihr nicht untergegangen ist. Die „Flucht in den Kopf“ (Feilke, 1994: 19) beschert der Psycholinguistik und mit ihr der ganzen kognitiven Richtung ein Dilemma. Es handelt sich um die „psychologistische“ Auflösung einer Ambivalenz, die im kanonischen Cours Saussures unaufgelöst stehenbleibt: die langue ist einmal eine „äußere“, sozial-institutionelle Realität, an die sich der Sprecher anpasst und annähert, also etwas „außer ihm“, und sie ist etwas „in ihm“, etwas Angeeignetes: der erworbene Vorrat an geteilten Mustern und Einheiten, mit denen geordnet operiert werden kann. Mit jeder fachlichen Axiomatik ist eine Entscheidung darüber verbunden, wie diese „Doppelexistenz“ des Sprachsystems prozessiert wird: Hat das Individuum die entscheidenden Parameter bereits im Kopf (Nativismus), muss es sie konstruieren (Konstruktivismus), eignet es sie an, indem es sich in die sprachliche Kommunikation einschaltet (kulturhistorisch)?

24 Bühler (1934), gewiss ein Kenner der Materie, legt den Langue-Gedanken darum mehrfach auseinander und berücksichtigt, dass die Produkte eines Sprechereignisses zwei Gesichter haben, ein „subjektbezogenes“ und ein „subjektentbundenes“ (Bühler, 1934: 48 ff.). Die Linguistik untersucht traditionell das „zweite“ Gesicht, die Psychologie das „erste“. Das grammatische Verfahren der Psycholinguistik besteht nun darin, die beiden Gesichter zu vereinigen und in toto dem Sprecher zu implantieren. Der wird dadurch heillos überfordert, weil ihm etwas zugerechnet wird, was als Ganzes nur die Sprachgemeinschaft besitzt. Und vor allem: etwas, dessen objektive Ordnungen er nicht so kennt und nicht so kennen muss, wie sie der Grammatiker kennt, um ihnen in seinem Sprachverhalten genügen zu können. Es ist dies gewissermaßen die konstitutive Paradoxie der Psycholinguistik (vgl. Ple´h, 1984, der auch als Wortführer der beachtlichen ungarischen Psycholinguistik hier zumindest erwähnt sei). Wenn man diesen Einwand ernst nimmt, hat er axiomatische Folgen: Die „Sprache“ ist dann nicht primär etwas, was sich „im Kopf“ befindet, vielmehr befindet sich umgekehrt der Kopf „in“ einem extern realisierten Medium „Sprache“, das er zu seiner Selbstprogrammierung einsetzt. Das Gesicht, das die Sprache dem Linguisten zuwendet, ist das „subjektentbundene“, zu ihm gehören die faszinierenden Feinheiten der multiplen Strukturiertheit natürlicher Sprachen. Wieviel davon die empirischen Sprecher „aneignen“ oder gar mental „repräsentieren“ müssen, ist eine empirische Frage, die nicht einfach mit Hilfe der terminologischen Opposition „tacit“ vs. „explicit“ knowledge beantwortet werden kann. Nicht ganz leicht ist die unvoreingenommene Darstellung der Entwicklung des Faches über die informationswissenschaftlichen Anfänge und die „generative“ Kindheit hinaus. Nach 1970 explodieren die (oft kurzlebigen) Schulen, Richtungen und Affiliationen in einem Maße, das jede gradlinige Entwicklungsgeschichte desavouiert. Sicher lässt sich eine Reihe von unstrittigen Tendenzen namhaft machen, etwa die zunehmende Distanz zwischen linguistischen Struktur- und psychologischen Prozessmodellen (Tanenhaus, 1988), das schrittweise Vorrücken realistischer On-line-Techniken im Experiment gegenüber den ausgetüftelten und oft kaum zu interpretierenden Settings des Off-line-Experiments (Garman, 1994: 3400), die zuneh-

I. Grundlagen der Psycholinguistik

mende Einsicht in den sinngesteuerten und konstruktiven Charakter semantischer Verarbeitungsprozesse (z. B. Johnson-Laird, 1983). Insbesondere haben die neuen experimentellen Techniken auch den massiven Unterschied zwischen strategischen und bewusstseinsnahen Prozessen auf der einen und „automatischen“ bzw. subkutanen Routinen auf der anderen Seite befestigt (Campbell, 1986). Noch unübersichtlicher werden die Dinge durch den in den 70er Jahren in den USA eingebürgerten Sammelnamen Cognitive Science (Scheerer, 1992), der Psycholinguisten, Computerwissenschaftlern, AI-Forschern eine neue semantische Heimat versprach, zusammengehalten zunächst durch die (von H. Simon & A. Newell in den 60er Jahren entwickelte) Axiomatik der formalen Manipulation kontextfreier Symbole. In diesen axiomatischen Zusammenhang ordnet sich auch die Psycholinguistik weitgehend ein: strukturell wohldefinierte sprachliche Minimalzeichen und Regeln zu ihrer Verknüpfung bilden den fachlichen Kosmos. Fodor (1983) und Pylyshin (1984) mit ihrer „modularen“ Kognitionstheorie stehen durchaus auf diesem Boden. Einigkeit dürfte auch darüber herzustellen sein, dass nichts die gemeinsame Geschäftsgrundlage von Psycholinguistik und Cognitive Science so nachhaltig erschüttert hat wie die spektakulären Erfolge des subsymbolischen Parallel- distributed-processing-Ansatzes, bekannt geworden unter dem Fahnenwort Konnektionismus, mit der „regellosen“ Simulation wichtiger flexionsmorphologischer Lernprozesse (Rumelhart & McClelland, 1986). Die Erkenntnis, dass „regelhafter“ Output von einer Maschine erzeugt und verarbeitet werden kann, die über keine Repräsentation dieser Regeln verfügt, erschüttert die Grundlagen der „Symbolverarbeitung“ (wenn auch natürlich strittig bleibt, wieviel Terrain wirklich geräumt werden muss). An die Stelle des „dualen Systems“ von Einheiten und auf sie angewandten Regeln treten sehr viel einfachere Formen der Anpassung eines Systems von „spreading activations“ an die impliziten Ordnungen seiner Operationsdomäne (Scheerer, 1992: 1502). In den 90er Jahren ist dann von Kennern beider Axiomatiken die Hypothese aufgestellt worden, das Paradigma der Symbolverarbeitung entspreche approximativ einem Zustand, den erst das allgemein durchgesetzte Medium der Schriftlichkeit in den Köpfen zu programmieren erlaube, während die „Grundausstattung“, mit deren

2. Geschichte der Psycholinguistik

Hilfe Individuen das Sprechen erlernen, eher konnektionistische Züge aufweise (Scheerer, 1993). Das würde erkären, warum die „Symbolverarbeitung“ gerade mit der Modellierung der einfachen, vorkompositionellen, pragmatischen und formelhaften Mündlichkeit die größten Schwierigkeiten hat. Ausgeprägte Indexikalität, unfeste Zeichen mit stark lokaler Semantik, hoch typisierte Situations- und Feldbindungen, all das sind Eigenschaften des einfachen Sprechens, die ein hoch entwickelter Daten-Regeln-Dualismus nicht zu fassen bekommt, wohl aber eine Maschine, die begrenzt variable Schließungsfiguren erzeugt. 4.2. Die Trennung von Grammatik und Psychologie Vielleicht prototypisch für den Ausklang der generativen Phase und den Übergang zur separaten Modellbildung in Linguistik und Psychologie ist der Versuch von Fodor, Bever und Garrett (1974), die grammatischen Ordnungsleistungen des Hörers mit Hilfe „perzeptiver Strategien“ zu erklären. Zwitterhaft an dieser Konstruktion ist, dass zwar die Formate der linguistischen Strukturanalyse als relevant beibehalten werden („clauses“), die Art und Weise ihrer perzeptiven Montage jedoch wird psychologisch flexibilisiert und vom grammatischen Regelapparat abgekoppelt. Das ist zweifellos ein Rückzugsgefecht gewesen. Geschleift wurde diese letzte Bastion der generativen Psycholinguistik u. a. durch eine Serie von kommunikationspsychologischen Experimenten der Gruppe um J. D. Bransford (vgl. Bransford & Johnson, 1973; Barclay, Bransford et al., 1974), die belegten, in welchem Ausmaß Hörer bei der Verarbeitung von Sätzen von Weltwissen, Sacherfahrung und Inferenz Gebrauch machen, während ihnen die grammatischen Formate dafür wenig Hilfen geben. Über Inferenz- und Konstruktionsprozesse beim Redeverstehen hätte man zwar auch in der älteren Sprachpsychologie (z. B. bei Philipp Wegener (1885), dem Pionier der Situations- und Handlungstheorie des Verstehens, oder auch bei Karl Bühler) schon manches lernen können, doch waren diese Autoren damals nicht bekannt. In die gleiche Richtung wirkten die ebenfalls durchschlagenden Innovationen, die in den 70er Jahren von der Gruppe um Marslen-Wilson in das Repertoire der experimentellen Techniken eingeführt wurden. Online-Experimente verzichten ganz auf strukturelle Prämissen, wie sie in den Fragestellun-

25 gen der generativen Psycholinguistik selbstverständlich präsent waren. Sie prüfen mit Hilfe von Realzeitverfahren (shadowing, monitoring) genau, über welche Informationen, Erwartungen und Routinen die Sprachverarbeitung an bestimmten Prozessstellen real verfügt. Die Shadowing-Technik verlangt von den Versuchspersonen, dass sie den vorgespielten Input mit möglichst geringer zeitlicher Distanz nachsprechen. Variiert wird dabei z. B. zwischen grammatisch und thematisch integrierten Texten, die eine weitgehend realistische Erwartungsbildung bei den Versuchspersonen zulassen, nur grammatisch korrekten Folgen unzusammenhängender Sätze, die eine begrenzte Erwartungsbildung ermöglichen, und „Wortsalat“, der gar keine Erwartungsbildung ermöglicht. Man kann dann prüfen, wie sich die mögliche Distanz unter thematischen, kontextuellen, grammatischen Restriktionen entwickelt, unter welchen Bedingungen „Fehler“ im Input spontan korrigiert oder nicht bemerkt werden, wie tief die semantische Verarbeitung geht etc. Dabei hat sich die Hypostasierung fester struktureller Verarbeitungseinheiten als wenig nützlich erwiesen. Die etwas vereinfachte Quintessenz könnte lauten: Sprachbenutzer prozessieren eher opportunistisch als strukturell, sie bilden den Input „Wort für Wort“ nach seinen Möglichkeiten ab, zu einer ständig weiter präzisierten diskursiven Sinnerwartung beizutragen. In einem Abschnitt, der treffend mit „Psycholinguistics without linguistics“ überschrieben ist, skizziert Tanenhaus (1988: 11) die doppelte Bewegung, welche die Psycholinguistik der 70er Jahre einerseits zu den „höheren“ Sinn- und Verstehensleistungen, andererseits zurück zu den (bisher eher verpönten) lexikalischen Formaten bewegt, weg jedenfalls in beiden Fällen von der bis dato übermächtigen autonomen Syntax. Was zu deren Domäne rechnete, wird jetzt wenigstens partiell auch den (thematisch angelegten und grammatisch überformten) semantischen Beziehbarkeiten zwischen Lexikoneinheiten zugeschrieben. Die Semantik, von Hörmann (1976: 60) noch ironisch zur „armen Verwandten“ der Syntax erklärt, erlebt einen Aufschwung. Zu den „neuen“ Themen, welche die psycholinguistische Bühne betreten, gehört auch das Verstehen von Geschichten und „Texten in Funktion“. Wirkliche Bewegung kam alsbald in die Erforschung der verschiedenen Aspekte des inneren oder mentalen Lexikons, von der Worterkennung und -addressierung

26 bis hin zu den höheren Prozessen der semantischen Verarbeitung. Hierzu gibt es diverse monographische Darstellungen, auf die wir einfach verweisen (Miller, 1993; Aitchison, 1987; Dunbar (1991) kann man in ihrer Verschiedenheit als Querschnitt durch die einschlägigen Modelle betrachten). 4.3. Autonomie, Interaktion, Modularisierung: die zweite Begegnung zwischen Linguistik und Psychologie Auf die Dauer wäre die wechselseitige Indifferenz von linguistischer und psychologischer Modellbildung insofern ein Ärgernis, als sie den Bindestrich im Namen der Bindestrichdisziplin alsbald in einen Trennstrich verwandeln würde. Die partielle Wiederannäherung der beiden entfremdeten Disziplinen vollzog sich – für Sprachwissenschaftler eigentlich ein Lehrstück – im Zeichen eines begrifflich höchst unklaren, aber rhetorisch höchst reizvollen und resonanzfähigen Fahnenwortes: Modularität. In expliziter (aber historiographisch nicht eben aufgeklärter) Anlehnung an die alte Vermögenspsychologie postuliert das Modul-Konzept spezialisierte und informationell geschlossene Arbeitseinheiten, deren Zusammenwirken die Kognition insgesamt ausmacht. Das Modell bezieht seine Anfangsplausibilität aus der Computerbranche: Hardware und software kommen in organisierten und spezialisierten Blöcken, die kombiniert werden können. Das Wort „Modul“ konserviert auch die Indifferenz gegenüber Struktur- und Prozessapplikationen, eine Erbkrankheit der Zunft. Bald werden dann auch die traditionellen Strukturebenen der Linguistik (Phonologie, Morphologie, Syntax, Semantik, Pragmatik) in „Module“ umgetauft. Das versetzt sie in die Prozessebene. Module arbeiten schnell, effizient und schließen ihren internen Prozess gegen On-line-Interaktionen ab. Empfänglich sind sie nur für strukturell bestimmt spezifizierten Input, alles Eigenschaften, die sie für die beste aller möglichen Linguistenwelten prädestinieren. Module gelten als periphere Inputsysteme, als neurologisch lokalisierbar und genetisch spezifiziert, sie werden den „zentralen“ Verarbeitungsprozessen gegenübergestellt, die dann offen, interaktiv und mit freiem Zugang zu allen Outputs vorgestellt werden. Die experimentelle Praxis vermag durchaus Teilprozesse in der Spachverarbeitung zu benennen, die modulähnlich (im oben spezifizierten Sinne) zu funktionieren scheinen, so z. B. die inputgetriebene Aktivierung von Wortkandidaten in der ersten Phase der Worterkennung

I. Grundlagen der Psycholinguistik

(für eine gründliche Diskussion vgl. Garfield, 1987). Unter starken Druck ist der Modulgedanke dann in den späten 80er Jahren von zwei Seiten geraten, einmal durch die Anfangserfolge des Konnektionismus, dann aber auch durch die zunehmende Erkenntnis, dass so hoch spezifizierte Subsysteme mit allen bekannten Prozessen des Sprachlernens, des Sprachwandels, der Sprachveränderung nur schwer zu vereinbaren sind. Wie verträgt sich der schrittweise Erwerb der Symbol- und Grammatikfähigkeit mit vorab spezifizierten Fähigkeitssystemen? Wie passen die Tatsachen der diachronen Grammatikalisierung, bei der Einheiten sukzessiv und graduell aus dem Lexikon in die Grammatik überwechseln, zu modularen Prämissen? Namentlich von Entwicklungspsychologen (vgl. Karmiloff-Smith, 1992), aber auch von Neurolinguisten (Friederici, 1996) wird die Meinung vertreten, man könne nicht von einer vorgegebenen „modularen“ Architektur des Sprachvermögens sprechen, sondern bestenfalls von einer Tendenz zur „Modularisierung“ bestimmter Funktionsbereiche. Der Eindruck spezialisierter und geschlossener Teilsysteme wäre demnach als Denkvoraussetzung trügerisch, weil er dazu verleitet, das „Ende“ der kognitiven Selbstprogrammierung als „Anfang“ zu setzen und zu verkennen (vgl. hierzu Velichkovsky & Rumbaugh, 1996). „The theory of language is simply that part of human psychology that is concerned with one particular ‘mental organ’, human language.“ (Chomsky, 1975: 36). Dieses Zitat ist inzwischen klassisch. Den Historiographen wundert es, dass es von einer Linguistengeneration enthusiastisch begrüßt wurde, deren Väter und Großväter gegen den Alleinvertretungsanspruch der Psychologie in sprachtheoretischen Angelegenheiten aufbegehrt und ihr ein soziosemiotisches Programm entgegengesetzt hatten: das der langue als eines genuin sprachwissenschaftlichen Gegenstandes. Als die Psychologen in den 70er Jahren begannen, den Beistand der linguistischen Strukturwissenschaft freundlich, aber bestimmt zurückzuweisen, sammelten sich die Sprachwissenschaftler, die gleichwohl entschlossen waren, an einer psychologischen Axiomatik festzuhalten, hinter dem Fahnenwort der „kognitiven“ Linguistik. Das Adjektiv wurde in den 80er und 90er Jahren zum Markennamen, konnotativ einleuchtend, aber ohne erkennbare begriffliche Kontur. Es signalisiert den Anspruch, an der Reputation der cognitive science teilzunehmen und Sachdienliches über die mentale Realität der Spra-

2. Geschichte der Psycholinguistik

che beizubringen. Skeptiker werden argwöhnen, dass das erste Ziel wesentlich leichter zu erreichen ist als das zweite. Dennoch: beibehalten wird auch hier der Anspruch, durch die formale Modellierung von Kenntnis- und Wissenssystemen gleichzeitig auch psychologisch Relevantes mitzuteilen (vgl. Bierwisch, 1987; Rickheit & Strohner, 1983; eine gebräuchliche Einführung ist Schwarz, 1992). In einer solchen Axiomatik ist für Linguisten nur dann ein attraktiver Platz freizuhalten, wenn Sprache ein autonomes, ein „modulares“ Kenntnissystem ist, das von anderen Sphären klar abgegrenzt werden kann. Insofern steht und fällt das Programm der Kognitiven Linguistik mit dem Nachweis, dass sprachliche „Strukturkomponenten“ (Bierwisch, 1979; das Buch ist gleichzeitig eine Art Gründungsdokument für die Psycholinguistik der DDR) entweder ein geschlossenes Gebiet der kognitiven Prozesse organisieren oder aber an deren Organisation insgesamt einen abgrenzbaren Anteil haben. Für die Kognitive Linguistik etabliert sich damit eine Art Subsidiaritätsverhältnis zur Psycholinguistik. Ihre Modelle gelten „im Prinzip“ für experimentell überprüfbar, wenn auch nicht mehr durch umweglose Implementierung in Prozessmodelle. Institutionell verarbeitet wurde die Kognitive Linguistik vor allem durch die Förderung der DFG in dem Schwerpunktprogramm „Kognitive Linguistik“ (vgl. Felix, Kanngießer & Rickheit, 1990; Habel und Rickheit, 1994; Habel, Kanngießer & Rickheit, 1996) und der Forschergruppe „Kohärenzprozesse (Rickheit, 1991). In diesen, der Kognitiven Linguistik verpflichteten Forschungsansätzen werden sowohl theoretische als auch empirische und simulative Ergebnisse zur Sprachverarbeitung in menschlichen und künstlichen Systemen erzielt. 4.4. Die Entstehung einer europäischen Psycholinguistik Da es einen institutionellen Neubeginn sprachpsychologischer Forschung in Europa nach 1945 nicht gab, ist die europäische Psycholinguistik problemgeschichtlich eine Importware. Natürlich waren in den 60er Jahren nicht alle Fäden abgerissen. Insbesondere betrieb die Genfer Schule Jean Piagets seit fast einem halben Jahrhundert „kognitive“ Entwicklungspsychologie avant la lettre, als der Ruf der „neuen“ Kognitionsforschung über den Atlantik schallte. In Wien gab es Friedrich Kainz, in dessen monumentalem Werk die Bühler-Tradition freilich eher verschüttet war als fortlebte. Die Zeit, in der sich eine

27 „europäische“ Psycholinguistik zu etablieren begann, war just die Zeit der wachsenden Skepsis gegenüber der Generativen Grammatik, die Zeit der Repsychologisierung und der Resemantisierung der Themen und Methoden (vgl. Abschn. 4.2.). Die erste „Generation“ deutschsprachiger Einführungen und Lehrbücher, z. T. übersetzt und z. T. kompiliert, erschien zu Beginn der 70er Jahre. Instruktiv für den kompletten Umbruch der Anschauungen ist der Vergleich zwischen Hörmanns Lehrbuch (Hörmann, 1970), das von Bühler über die Informationstheorie bis hin zu Chomsky führt, und seiner späteren psychologischen Semantik (Hörmann, 1976), die behutsam den Rückweg zu Bühler und zu einer „vortechnischen“ Spachpsychologie antritt. Die erste größere Psycholinguistik-Konferenz, die europäische und US-amerikanische Wortführer der Disziplin zusammenbringt, findet 1969 in Brixen, Bressanone, statt (Flores d’Arcais & Levelt, 1970). Das gleiche Jahr sieht auch das erste (von der Reimers Stiftung geförderte) psycholinguistische Symposium in der Bundesrepublik. Im Jahr 1977 beginnt die Projektgruppe Psycholinguistik der Max-Planck-Gesellschaft ihre Arbeit, die zur Gründung des MPI Nijmegen führt. Dessen Forschungsthemen und -thesen (leicht zugänglich in den Jahresberichten des Instituts) sind seither sicher „repräsentativ“ für die europäische Psycholinguistik und ihre Integration in die internationale Forschung. In den letzten Jahren ist dem MPI Nijmegen auf dem Gebiet des Spracherwerbs, der Linguogenese und der Primatenkommunikation ein „Konkurrent“ in Gestalt des Leipziger MPI für Evolutionäre Anthropologie erwachsen. Als fachgeschichtliches Kuriosum sei angemerkt, dass es in den 30er Jahren ebenfalls in Leipzig eine Deutsche Gesellschaft für Tier- und Ursprachenforschung gab, deren „Führer“, Georg Schwidetzky, sich mit mäßigem Erfolg um Förderung durch die NS-Behörden bemühte, deren Weltbild er auf allen Wegen entgegenzukommen suchte, u. a. dadurch, dass er von Mitgliedern seines Vereins „deutsches oder artverwandtes Blut“, „das Bekenntnis zur nationalsozialistischen Weltanschauung“ und den „Titel des Dr. habil.“ forderte (Schwidetzky, 1938: 7). Soweit die Genfer Piaget-Schule innerhalb ihres konstruktivistischen und kognitiven Programms explizit psycholinguistische Themen bearbeitet hat, sind diese überwiegend am Problem der Symbolgenese im kindlichen Verhalten orientiert (Piaget, 1969; Inhelder et

28 al., 1972). Der Übergang vom sensomotorischen zum symbolischen Verhalten gründet nach Ansicht der Genfer Orthodoxie auf der aufgeschobenen Nachahmung, welche ein beherrschtes Verhalten dadurch semiotisiert, dass es zu sich selbst in Beziehung tritt (z. B. im kindlichen Symbol- und Fiktionsspiel). Das trifft ohne Zweifel auch einen Aspekt der holophrastischen (bzw. monorhematischen) Äußerungen des Kindes, deren Interpretation immer den Vergleich mit den „vorigen“ Verwendungen desselben Ausdrucks involviert. Der Umstand jedoch, dass natürliche Sprachen mit ihren Struktur- und Formgesetzen für das Kind einen eigenständigen kognitiven Problemraum bilden, tritt in dieser Perspektive zurück gegenüber der indikativen Funktion des Sprechens für das Niveau der allgemeinen kognitiven Entwicklung. In den 70er Jahren beginnt dann eine fruchtbare Auseinandersetzung der Piaget-Tradition mit der „neuen“ Psycholinguistik (Karmiloff-Smith, 1979). Ebenfalls zentriert um das Problem der Genese symbolischen Verhaltens, aber von vornherein offener für die Strukturprobleme des kindlichen Spracherwerbs ist der „physiognomische“ Ansatz Heinz Werners (Werner & Kaplan, 1963), der durch Exil und Vertreibung in die USA gelangt und nach dem Krieg ohne breite Rezeption in Europa geblieben ist. 4.5. Die sowjetische Psycholinguistik Als das Werk Wygotskis in den 50er Jahren in der Sowjetunion wieder gedruckt werden konnte, begann in den USA gerade die neu gegründete Psycholinguistik von sich reden zu machen. Es war die Phase des „Tauwetters“ und der forcierten Systemkonkurrenz, und die Sowjetunion begann sehr rasch, auf die neue Disziplin zu reagieren. Bereits 1957 wurde eine (gekürzte) russische Übersetzung von Osgood und Sebeok (1954) publiziert. Trotz lebhafter Polemik gegen die „entmenschlichte“ strukturalistische Sprachwissenschaft häuften sich in den Jahren danach Konferenzen zu den Themen, die in der Psycholinguistik zusammenschießen: Maschinelle Übersetzung, mathematische Linguistik, Transformationsanalyse, semantische Formalisierung (Details bei Prucha, 1974: 48 ff.). In den 60er Jahren kommen dann direkt psycholinguistische Themen hinzu. Der Zwang, sich an Stalins „genialen“ Schriften zur Sprachwissenschaft zu bewähren, war von der linguistischen Szene abgefallen wie ein Alb, und die verschiedenen Zweige der

I. Grundlagen der Psycholinguistik

Sprachforschung blühten auf. Mit Alexander Lurija hatte die psychologische Richtung einen international anerkannten Wortführer, bekannt als Neurologe, Aphasiologe und Mitarbeiter Wygotskis. A. A. Leont’ev, Sohn des Begründers der (ebenfalls stark von Wygotski geprägten) „Tätigkeitstheorie“, wurde rasch zum zweiten, weit über die Grenzen der Sowjetunion hinaus bekannten Namen. Niveau und Vielstimmigkeit der sowjetischen Psycholinguistik in den 60er Jahren sind an den verfügbaren Übersetzungen ins Deutsche und Englische abzulesen (Besonders Leont’ev, 1971, 1975, Probleme der Psycholinguistik 1975, zahlreiche Arbeiten Lurijas; vgl. auch die Bibliographie in Prucha, 1974). Unter den Besonderheiten der sowjetischen Psycholinguistik sind hervorzuheben: die Öffnung hin zu sozial- und kommunikationspsychologischen Fragen, die Handlungsund Tätigkeitsorientierung, die zu einer „operationalen“ (und damit strukturell flexiblen) Reformulierung der „psycholinguistischen Einheiten“ führte (Leont’ev, 1975), die enge Verbindung mit bewegungsphysiologischen und kybernetischen Modellvorstellungen (z. B. N. A. Bernstein, Anochin, 1963). Die lange Vorherrschaft reflexologischer Denkweisen in der sowjetischen Psychologie hatte zu einer ähnlichen Konstellation geführt wie die Vorherrschaft des Behavorismus in den USA. Die Hegemonie, welche die Tätigkeitstheorie gegenüber den „alten“ Anschauungen in den 60er Jahren erreichte, war freilich weniger umfassend als die der „generativen“ Psycholinguistik im Westen. Die relativ große Bewegungsfreiheit der sowjetischen Psycholinguistik währte jedoch nach den vorliegenden Indizien (vgl. Prucha, 1974: 113 ff.) nicht wesentlich über das Jahr 1970 hinaus. Danach wurden die Fachvertreter verstärkt angehalten, Lösungen für die praktischen Probleme der Sprachlehre und des Sprachunterrichts, der Propaganda und der Massenkommunikation zu erarbeiten. Wie wenig die sowjetische Psycholinguistik im Westen angekommen ist, mag man daran sehen, dass Leont’ev (1975), bis dahin das reifste Werk über die Probleme der Redeerzeugung, im großen Forschungsbericht von Levelt (1989) nicht einmal erwähnt wird. 4.6. Rommetveit und die Osloer Schule Im anschwellenden Chor der Kritik an grammatikzentrierter Psycholinguistik um 1970 ist die Stimme des Osloer Sprach- und Kommunikationspsychologen Ragnar Rommetveit

29

2. Geschichte der Psycholinguistik

nicht zu überhören. Neben der zeittypischen Abkehr von linguistischer Formalisierung findet man bei ihm die (radikale, von M. Bakhtin inspirierte) Hinwendung zur dialogischen Matrix der Kommunikation, zu den Einheiten und Konstrukten der Sprecher selbst, zu den Problemen der Intersubjektivität, (Rommetveit, 1968; Carswell & Rommetveit, 1971). Leont’ev (1975: 15) erkennt in den Arbeiten der Osloer Schule nicht zufällig die Nähe zum eigenen kulturhistorisch getönten Anliegen. Die Osloer Forschergruppe versucht zu zeigen, dass die soziale Matrix der Nachricht ein zentrales Kraftfeld für die Ausrichtung und Präzisierung an sich vager und plastischer „Bedeutungspotentiale“ von Wörtern und Nachrichten bildet. Von stark experimentell-psychologischen Anfängen her bewegt sich die Gruppe hin zu einer sozialpsychologischen Hermeneutik der Kommunikation und der Intersubjektivität (Rommetveit & Blakar, 1979). Sie verliert damit freilich zusehends die Fühlung mit dem psycholinguistischen mainstream, die Verbindung zur Sphäre technischer Anwendungen, Simulationen und Formalisierungen. Vergleichbar ist sie in dieser Hinsicht am ehesten noch mit Serge Moscovicis Sozialpsychologie der Kommunikation. Die strukturell definierten und vermeintlich kontextfrei „bedeutenden“ linguistischen Einheiten (nebst ihrem Aufbau aus universalen „Merkmalen“) erklärt Rommetveit für schriftbasierte Konstruktionen der linguistischen Formalisierungspraxis ohne direkte Entsprechung im Feld der Kommunikation. Da nämlich haben wir es mit Einheiten wechselnder Korngröße ohne konsistente strukturelle Definition zu tun und mit den praktischen Problemen des Aufbaus einer zeitweilig geteilten und gemeinsamen Erfahrungssphäre durch vertraute und lokal bündige Formulierungen. Als faszinierend gilt hier der hohe Grad von Indetermination zwischen dem propositionalen Gehalt des „eternal sentence“ und dem Sinn der (immer „lokalen“ und „adressiven“) Äußerung. Die kommunikative Dynamik der Nachricht wird weitgehend von deren linguistischer Struktur abgekoppelt. Jedenfalls gilt sie nicht als deren Funktion. Vielmehr gelten die grammatischen Eigenschaften der Äußerung als unselbstständige Mittler und Indizes in deren sozial-kommunikativer Matrix. Die Osloer Schule bleibt insofern eine Art Paria auch in der europäischen Psycholinguistik, als letztere bei aller Skepsis gegenüber der Über-

nahme linguistischer Modelle doch den Kontakt zum Strukturproblem und zur technischen Realisierungssphäre zu halten versucht.

5.

Zusammenfassung

Wenn die Geschichte der Psycholinguistik etwas lehrt, dann dass Theorie- und Modelldispute weder experimentell noch argumentativ wirklich entschieden werden können. In der kurzen Fach-, noch mehr aber in der langen Problemgeschichte der Sprachpsychologie wimmelt es von vielversprechenden, aber abgebrochenen Forschungsprogrammen. Bedingt durch die rapide Entwicklung der Computertechnologie im Allgemeinen, der experimentellen Mess- und Prüftechniken im Besonderen, herrscht gleichzeitig jedoch in der Psycholinguistik die Gewissheit, beständig an der Spitze des Forschritts zu marschieren. Nichts sieht da so alt aus wie die Psycholinguistik von gestern. Der Berg der ungelösten Probleme und der ungeprüften Modelle, den das Fach hinter sich auftürmt, wächst zusehends. Und obwohl die Psycholinguistik in den letzten 50 Jahren den Sprung vom lose geknüpften Problemzusammenhang zur institutionalisierten disziplinären Forschung zweifellos geschafft hat, hat sie dadurch an „Autonomie“ nicht eigentlich gewonnen. Sie bleibt druckempfindlich und recht abhängig von „systemexternen“ Entwicklungen, weniger auf dem Feld der Linguistik als auf dem der elektronischen Datenverarbeitung. Zur Pflege disziplinärer Autonomie würde die Bearbeitung der psycholinguistischen Ausgangsparadoxie gehören. Und die besteht darin, dass „Sprache“ per definitionem nicht dem Individuum zugerechnet werden kann (und schon gar nicht dem „Gehirn“). Mit den (zur Zeit zweifellos verständlichen) Worten Rommetveits: Das Individuum ist nicht der „Besitzer“ der Sprache, es ist ihr „shareholder“ und hat bloß „Anteile“ an ihr erworben. Den Grundsatzstreit zwischen „Symbolverarbeitung“ und „Konnektionismus“ werden vermutlich die Maschinen und Apparate unter sich entscheiden – aber das ist Stoff für die künftige Fachgeschichte.

6.

Literatur

Ach, N. (1921). Über die Begriffsbildung. Eine experimentelle Untersuchung. Bamberg: C. C. Buchner. Aitchison, J. (1987). Words in the mind. An introduction to the mental lexicon [deutsch nach der 2.

30 Aufl. 1994 als: Wörter im Kopf. Tübingen 1997]. Tübingen: Niemeyer. Anochin, P. K. (1963). Physiologie und Kybernetik. In G. Schnauß (Bearb.), Kybernetik und Praxis. Neue Beiträge (pp. 148⫺188). Berlin: Dt. Verlag d. Wissens. Barclay, J. R., Bransford, J. D., Franks, J. J., McCarrell, N. & Nitsch, K. (1974). Comprehension and semantic flexibility. Journal of Verbal Learning and Verbal Behavior, 13, 471⫺481. Behrens, H. & Deutsch, W. (1991). Die Tagebücher von Clara und William Stern. In H. E. Lück & R. Miller (Hrsg.), Theorien und Methoden psychologiegeschichtlicher Forschung (pp. 66⫺76). Göttingen: Hogrefe. Berko, J. (1958). The child’s learning of English morphology. Word, 14, 150⫺177. Bierwisch, M. (Hrsg.) (1979). Psychologische Effekte sprachlicher Strukturkomponenten. Berlin/ DDR: Akademie. Bierwisch, M. (1987). Linguistik als kognitive Wissenschaft – Erläuterungen zu einem Forschungsprogramm. Zeitschrift für Germanistik, 6, 645⫺ 667. Blumenthal, A. L. (1970). Language and psychology. Historical aspects of psycholinguistics. New York, London: Wiley. Bransford, J. D. & Johnson, M. K. (1973). Considerations of some problems of comprehension. In C. W. G. Chase (Ed.), Visual information processing (pp. 383⫺438). New York: Academic Press. Brown, R. (1958). Words and things. Glencoe: Free Press. Bühler, K. (1909). Über das Sprachverständnis vom Standpunkt der Normalpsychologie aus. Bericht über den 3. Kongreß für experimentelle Psychologie vom 22.⫺25. 4. 1908 (pp. 94⫺130). Leipzig: Barth. Bühler, K. (1927). Die Krise der Psychologie. Jena: Fischer. Bühler, K. (1934). Sprachtheorie. Die Darstellungsfunktion der Sprache. Jena: Fischer. Campbell, R. M. (1986). Language acquisition and cognition. In P. Fletcher & M. Garman (Eds.), Language acquisition (pp. 30⫺48). Cambridge, MA.: Cambridge Univ. Press. Carswell, E. A. & Rommetveit, R. (Eds.) (1971). Social contexts of messages. London, New York: Academic Press. Chomsky, N. (1975). Reflexions on language. New York: Pantheon Books. De Laguna, G. A. (1927). Speech, its function and development. New Haven, CT.: Yale Univ. Press.

I. Grundlagen der Psycholinguistik Delbrück, B. (1901). Grundfragen der Sprachforschung, mit Rücksicht auf W. Wundts Sprachpsychologie erörtert. Strassburg: Trübner. Diebold, R. (1965). A survey of psycholinguistic research, 1954⫺1964. In C. E. Osgood & T. A. Sebeok (Eds.) Psycholinguistics. A survey of theory and research problems (pp. 205⫺291). Indiana: Indiana Univ. Press. Dunbar, G. (1991). The cognitive lexicon. Tübingen: Narr. Ellis, A. W. (Ed.). (1985⫺1987). Progress in the psychology of language. 3 vols. London: Erlbaum. Esper, E. A. (1968). Mentalism and objectivism in linguistics. The sources of Leonard Bloomfield’s psychology of language. New York: American Elsevier. Esper, E. A. (1973). Analogy and association in linguistics and psychology. Athens, GA.: Univ. of Georgia Press. Feilke, H. (1994). Common sense ⫺ Kompetenz. Überlegungen zu einer Theorie „sympathischen“ und „natürlichen“ Meinens und Verstehens. Frankfurt/ M.: Suhrkamp. Felix, S., Habel, Ch. & Rickheit, G. (Hrsg.) (1994). Kognitive Linguistik. Repräsentation und Prozesse. Opladen: Westdeutscher Verlag. Felix, S., Kanngießer, S. & Rickheit, G. (Hrsg.) (1990). Sprache und Wissen. Studien zur Kognitiven Linguistik. Opladen Westdeutscher Verlag. Fischer, H. (1963). Psychologisch-mathematische Aspekte des Sprachverhaltens. Psychologische Rundschau, 14, 191⫺202. Fletcher, P. & Garman, M. (Eds.) (1986). Language acquisition. Cambridge, MA.: Cambridge Univ. Press. Flores d’Arcais, G. B. & Levelt, W. J. M. (Eds.). (1970). Advances in psycholinguistics. Amsterdam: North-Holland Publ. Fodor, J. (1983). The modularity of mind. An essay on faculty psychology. Cambridge, MA.: MIT Press. Fodor, J., Bever, Th. G. & Garrett, M. F. (1974). The psychology of language: An introduction to psycholinguistics and generative grammar. New York: McGraw-Hill. Friederici, A. D. (1996). The temporal organization of language: Developmental and neuropsychological aspects. In B. M. Velichkovsky & D. M. Rumbaugh (Eds.), Communicating meaning. The evolution and development of language (pp. 173⫺186). Mahwah, N.J.: Erlbaum. Garfield, L. (Ed.) (1987). Modularity in knowledge representation and natural-language understanding. Cambridge, MA.: MIT Press.

2. Geschichte der Psycholinguistik Garman, M. A. (1994). Psycholinguistics: Overview. In R. E. Asher (Ed.), The encyclopedia of language and linguistics (pp. 3395⫺3404). Cambridge: Cambridge Univ. Press. Habel, Ch., Kanngießer, S. & Rickheit, G. (Hrsg.) (1996). Perspektiven der Kognitiven Linguistik. Opladen: Westdeutscher Verlag. Hörmann, H. (1970). Psychologie der Sprache. Berlin, Heidelberg: Springer. Hörmann, H. (1976). Meinen und Verstehen. Grundzüge einer psychologischen Semantik. Frankfurt/M.: Suhrkamp. Hockett, C. F. (1953). Review of Shannon & Weaver: The mathematical theory of communication. Language, 29, 69⫺93. Houston, S. H. (1972). A survey of psycholinguistics. The Hague: Mouton. Ickler, T. (1994). Skinner und Skinner. Sprache und Kognition, 13, 221⫺229. Inhelder, B. et al. (1972). Les de´buts de la fonction symbolique. Archives de Psychologie, 41, 187⫺243.

31 Knobloch, C. (1994). Sprache und Sprechtätigkeit. Sprachpsychologische Konzepte. Tübingen: Niemeyer. Knobloch, C. (1996). Historisch-systematischer Aufriß der psychologischen Schreibforschung. In H. Günther & O. Ludwig (Hrsg.), Schrift und Schriftlichkeit. Writing and its use (pp. 983⫺992). HSK-Bd. 10.2, Berlin: de Gruyter. Knobloch, C. (2001). Psychologische Ansätze bei der Erforschung des frühkindlichen Spracherwerbs. In K. Koerner & S. Auroux (Hrsg.), Geschichte der Sprachwissenschaften. Art. 197, (pp. 1705⫺1718). Berlin: de Gruyter. Kühnert, W. (1983). Die Aneignung sprachlicher Begriffe und das Erfassen der Wirklichkeit. Frankfurt/M., Bern: Lang. Lashley, K. S. (1951). The problem of serial order in behavior. In L. A. Jeffress (Ed.), Cerebral mechanisms in behavior (pp. 112⫺146). New York: Wiley. Leont’ev, A. A. (1971). Sprache ⫺ Sprechen ⫺ Sprechtätigkeit. Stuttgart: Kohlhammer.

Jaritz, P. (1990). Sprachwissenschaft und Psychologie. Oldenburg (⫽ OBST Beiheft 10).

Leont’ev, A. A. (1975). Psycholinguistische Einheiten und die Erzeugung sprachlicher Äußerungen. Berlin/DDR: Akademie.

Jeffress, L. A. (Ed.) (1951). Cerebral mechanisms in behavior. The Hixon Symposium. New York: Wiley.

Leopold, W. F. (1953/54). Patterning in children’s language learning. Language Learning, 5, 1⫺14.

Johnson-Laird, P. N. (1983). Mental models. Towards a cognitive science of language, inference, and consciousness. Cambridge, MA.: Harvard Univ. Press

Levelt, W. J. M. (1989). Speaking. From intention to articulation. Cambridge, MA.: MIT Press.

Kainz, F. (1967). Psychologie der Sprache. Grundlagen der allgemeinen Sprachpsychologie. Stuttgart: Enke. Karmiloff-Smith, A. (1979). A functional approach to child language. Cambridge, MA.: Cambridge Univ. Press. Karmiloff-Smith, A. (1992). Beyond modularity. A developmental perspective on cognitive science. Cambridge, MA.: MIT Press. Katz, J. J. & Fodor, J. A. (1963). The structure of a semantic theory. Language, 39, 170⫺210.

Levelt, W. J. M. (Ed.) (1996). Advanced psycholinguistics. A Bressanone retrospective for Giovanni B. Flores d’Arcais. Nijmegen: Max-Planck-Inst. Levelt, W. J. M. & Flores d’Arcais, G. B. (Eds.) (1978). Studies in the perception of language. Chichester, NY.: Wiley. Lurija, A. R. & Judowitsch, P. J. (1959). Speech and the development of mental processes in the child. London: Staples Press. Macwhinney, B. & Bates, E. (Eds.) (1989). The crosslinguistic study of sentence processing. Cambridge, MA.: Cambridge Univ. Press.

Kegel, G. (1974). Sprache und Sprechen des Kindes. Reinbek: Rowohlt.

Maas, U. (1996). Verfolgung und Auswanderung deutschspachiger Sprachforscher 1933⫺1945. Osnabrück: Secolo.

Knobloch, C. (1984). Sprachpsychologie. Ein Beitrag zur Problemgeschichte und Theoriebildung. Tübingen: Niemeyer.

Meringer, R. (1908). Aus dem Leben der Sprache: Versprechen, Kindersprache, Nachahmungstrieb. Berlin: B. Behrs Verlag.

Knobloch, C. (1988). Geschichte der psychologischen Sprachauffassung in Deutschland von 1850 bis 1920. Tübingen: Niemeyer.

Meringer, R. & Mayer, K. (1895). Versprechen und Verlesen. Eine psychologisch-linguistische Studie. Stuttgart: Göschen.

Knobloch, C. (1992). „Wilhelm Wundt“. In M. Dascal (Hrsg.), Sprachphilosophie (pp. 412⫺431). Berlin: de Gruyter.

Me´traux, A. & Herrmann, Th. (Hrsg.) (1991). Otto Selz. Wahrnehmungsaufbau und Denkprozeß. Bern, Stuttgart: Hans Huber.

32 Miller, G. A. (1951). Language and communication. New York: McGraw-Hill. Miller, G. A. (1964). The psycholinguists. Encounter, 32, 29⫺37. Miller, G. A. (1993). Wörter. Streifzüge durch die Psycholinguistik. Heidelberg, Spektrum der Wissenschaft. Miller, G. A. & Chomsky, N. (1963). Finitary models of language users. In R. D. Luce, R. R. Busch &. E. Galanter (Eds.), Handbook of mathematical psychology (pp. 419⫺491). New York: Wiley. Miller, G. A., Galanter, E. & Pribram, K. H. (1960). Plans and the structure of behavior. New York: Holt, Rinehart & Winston. Murray, D. J. (1978). Einleitung zur Neuausgabe von Thumb & Marbe (1901). Amsterdam, Philadelphia: Benjamins. Neumann, J. von (1951). The general and logical theory of automata. In L. A. Jeffress (Ed.), Cerebral mechanisms in behavior (pp 1⫺41). New York: Wiley. Newell, H. & Simon, H. (1972). Human problem solving. Englewood Cliffs, NJ.: Prentice-Hall. O’Connell, D. C. (1988). Critical essays on language use and psychology. New York, Berlin: Springer. Osgood, C. E. (1963). Psycholinguistics. In S. Koch (Ed.), Psychology. A study of a science (pp. 244⫺ 316). New York: McGraw-Hill. Osgood, C. E. & Sebeok, T. A. (Eds.) (1965). Psycholinguistics. A survey of theory and research problems. Indiana: Indiana Univ. Press. Paul, H. (1920). Prinzipien der Sprachgeschichte. Halle a.S.: Niemeyer. Piaget, J. (1975). Sprechen und Denken des Kindes. Düsseldorf: Schwann. Piaget, J. (1969). Nachahmung, Spiel und Traum. Die Entwicklung der Symbolfunktion beim Kinde. Stuttgart: Klett. Pillsbury, W. B. & Meader, C. L. (1928). The psychology of language. New York: Appleton. Ple´h, C. (1984). Die Sprachtheorie Karl Bühlers und die moderne Psycholinguistik. In A. Eschbach (Hrsg.), Bühler-Studien, (pp. 282⫺316). Frankfurt/ M.: Suhrkamp. Probleme der Psycholinguistik. (1975). Berlin/ DDR: Akademie. (übersetzte Beiträge aus der sowjetischen Psycholinguistik der frühen 70er Jahre). Prucha, J. (1974). Sowjetische Psycholinguistik. Düsseldorf: Schwann.

I. Grundlagen der Psycholinguistik Pylyshin, Z. (1984). Computation and cognition: Toward a foundation of cognitive science. Cambridge, MA.: MIT Press. Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung. Tübingen: Francke. Röttgers, A. (1995). Sprachpsychologie, Psycholinguistik. In G. Ritter & K. Gründer (Hrsg.). Historisches Wörterbuch der Philosophie (pp. 1527⫺ 1534). Basel: Schwabe. Rommetveit, R. (1968). Words, meanings, and messages. New York, London: Academic Press. Rommetveit, R. & Blakar, R. M. (Eds.) (1979). Studies of language, thought, and verbal communication. London: Academic Press. Rosenberg, S. (Ed.) (1965). Directions in psycholinguistics. New York: MacMillan. Rumelhart, D. E. & McClelland, J. L. 1986. Parallel distributed processing. Cambridge, MA.: MIT Press. Saporta, S. (Ed.). 1961. Psycholinguistics: A book of readings. New York: Holt, Rinehart & Winston. Scheerer, E. (1991). Konnektionsimus und Symbolverarbeitung: Einige Traditionslinien in der deutschen Psychologie. Zeitschrift für Psychologie, 11, 25⫺44. Scheerer, E. (1992). Cognitive science. In G. Ritter & K. Gründer (Hrsg.), Historisches Wörterbuch der Philosophie (pp. 1487⫺1504). Basel: Schwabe. Scheerer, E. (1993). Orality, literacy, and cognitive modelling. Berichte aus dem Institut für Kognitionsforschung der Univ. Oldenburg. Nr. 13. vom 11.5.1993. Schwarz, M. (1992). Einführung in die kognitive Linguistik. Tübingen: Narr. Schwidetzky, G. (1938). Das Haus der Sprache, Eine wissenschaftliche Führerschule. Leipzig: Verlag der deutschen Gesellschaft für Tier- und Ursprachforschung. Seiler, H. (1992). The functional model of UNITYP-dimensions. In H. H. Lieb (Ed.), Prospects for a new structuralism (pp. 99⫺126). Amsterdam, Philadelphia: Benjamins. Shannon, C. E. & Weaver, W. (1949). The mathematical theory of communication. Urbana, ILL. Univ. of Illinois Press. Slobin, D. I. (Ed.) (1985). The crosslinguistic study of language acquisition. Hillsdale, NJ.: Erlbaum. Stern, C. & Stern, W. (1928). Die Kindersprache. Leipzig: A. Barth.

33

3. Phylogenese der sprachlichen Kommunikation Tanenhaus, M. K. (1988). Psycholinguistics: An overview. In F. Newmeyer (Ed.), Linguistics: The Cambridge survey (pp. 1⫺37). Cambridge: Cambridge Univ. Press. Thumb, A. & Marbe, K. (1901). Experimentelle Untersuchungen über die psychologischen grundlagen der sprachlichen Analogiebildungen. Leipzig: Engelmann.

Wiedenmann, N. (1992). Versprecher und die Versuche zu ihrer Erklärung. Ein Literaturüberblick. Trier: Fokus. Wundt, W. (1901). Sprachgeschichte und Sprachpsychologie, mit Rücksicht auf B. Delbrücks ,Grundfragen der Sprachforschung‘. Leipzig: Engelmann. Wygotski, L. S. (1969). Denken und Sprechen. Frankfurt am Main: Fischer.

Velichkovsky, B. M. & Rumbaugh, D. M. (Eds.) (1996). Communicating meaning. The evolution and development of language. Mahwah, NJ.: Erlbaum

Yngve, V. H. (1960). A model and a hypothesis for language structure. Proceedings of the American Philosophical Society, 104, 444⫺466.

Wegener, P. (1885). Untersuchungen über die Grundfragen des Sprachlebens. Halle a.S.: Niemeyer.

Yngve, V. H. (1961). The depth hypothesis. Structure of language and its mathematical aspects. In R. Jakobson (Ed.), Proceesings of the Twelfth Symposium in Applied Matermatics, New York City, April 1⫺15, 1960 (pp. 130⫺138). Providence, RI: American Mathematical Society.

Werner, H. & Kaplan, B. (1963). Symbol formation. An organismic-developmental approach to the psychology of language. Hillsdale, NJ.: Erlbaum. Wertsch, J. V. (1985). Vygotsky and the social formation of mind. Cambridge, MA.: Harvard Univ. Press.

Clemens Knobloch Universität Siegen (Deutschland)

3. Phylogenese der sprachlichen Kommunikation 1. 2. 3. 4. 5.

Das Alter der Sprache Wurzeln der Sprache Modelle zur Rekonstruktion der Ursprache Synopsis Literatur

1.

Das Alter der Sprache

Sprache im engeren Sinn, d. h. ein erlerntes Kommunikationssystem, bestehend aus willkürlichen Zeichen, die für bestimmte Begriffe stehen und nach syntaktischen Regeln organisiert sind, gibt es nur beim Menschen. Da auch die dem Menschen verwandtschaftlich am nächsten stehenden Menschenaffen nichts Vergleichbares besitzen, müssen wir davon ausgehen, dass Sprache ein Vermögen ist, das sich stammesgeschichtlich erst nach der Abzweigung der Hominidenlinie von der Pongidenlinie entwickelt hat. Diese Abzweigung, genauer gesagt, die zwischen Mensch und Schimpanse, hat nach neueren molekular-genetischen Untersuchungen vor etwa 5 Millionen Jahren stattgefunden (Horai et al., 1995). Sprache ist also mit Sicherheit jünger als 5 Millionen Jahre. Weder die gesprochene noch die gestische Sprache hinterlassen unmittel-

bare Spuren. Erst mit der Schrift wird Sprache direkt fassbar. Da die ältesten Schriftzeugnisse, die der Sumerer, etwa 5000 Jahre alt sind (Haarmann, 1990), muss die Sprache also älter als 5000 Jahre sein. Diese beiden Eckdaten, 5000 und 5 Millionen Jahre, sind die einzigen sicheren Daten, die uns zur Zeit für eine Altersbestimmung zur Verfügung stehen. Will man den Entstehungszeitraum weiter eingrenzen, so ist man auf indirekte Hinweise – mit entsprechend unsicherer Aussagekraft – angewiesen. Solche indirekten Hinweise kommen a) von der archäologischen Untersuchung der kulturellen Entwicklung der Frühmenschen. Dabei wird jedoch eine Antwort auf die Frage, für welche kulturellen Leistungen Sprache Voraussetzung war und für welche nicht, immer in hohem Maße spekulativ bleiben müssen. b) Die Entwicklung des Gehirns als des Kontrollorgans der Sprache stellt eine zweite Informationsquelle dar. Da sich Hirne jedoch nicht fossil erhalten, muss sich die Forschung hier mit der Untersuchung von Abgüssen der Hirnschädelkavität zufriedengeben. c) Schließlich stellt der Bau der Sprechwerkzeuge – soweit aus entsprechenden Fossilresten rekonstruierbar – eine dritte wichtige Informationsquelle dar.

34 Im Folgenden soll das aus diesen Quellen stammende Befundmaterial näher dargestellt werden. 1.1. Archäologische Evidenz Die ältesten bisher bekannten Artefakte haben ein Alter von etwa 2,6 Millionen Jahren (Gowlett, 1992). Es handelt sich um einfache Steinwerkzeuge aus Quarz-, Basalt- oder Trachytgeröll, bei denen durch einseitiges Abschlagen kleiner Stücke eine Arbeitskante erzeugt wurde – wobei noch unklar ist, ob der Splitter, der Steinkern oder beides als Werkzeug benutzt wurde. Die Werkzeuge sind in ihrer Form nicht standardisiert. Werkzeuge dieses Typus werden nach einem Fundort in Tansania (Olduvai-Schlucht) Oldowan-Kultur genannt. Sie ließen sich bis zu 11 km entfernt von dem Ort, von dem sie ursprünglich stammten, auffinden. Dies spricht dafür, dass sie über größere Entfernungen mittransportiert wurden. Die ältesten Werkzeuge vom Oldowan-Typus wurden nicht im Zusammenhang mit Hominidenfossilien aufgefunden, so dass noch unklar ist, ob sie von Australopithecus oder Homo habilis/rudolfensis stammen (die ältesten bisher gefundenen Fossilien der Gattung Homo reichen allerdings nicht ganz an das Alter der ältesten Werkzeugfunde heran (Abbildung 3.1)). Erst vor etwa zwei Millionen Jahren treten Hominidenfossilien zusammen mit Steingerätschaften und Knochenresten von zerlegtem Wild in Olduvai und der Ostturkanaregion (Kenia) auf. Diese belegen, dass Homo habilis und rudolfensis Werkzeuge vom Oldowan-Typus verwendeten. Es ist in diesem Zusammenhang von Interesse, dass auch Schimpansen Steine als Werkzeuge gebrauchen. In Westafrika finden sich Schimpansengruppen, die hartschalige Nüsse so öffnen, dass sie die Nüsse auf einen Stein oder eine größere Baumwurzel (Amboss) legen und mit einem anderen Stein (Hammer) die Schale zertrümmern (Boesch & Boesch, 1984). Im Gegensatz zur Oldowan-Kultur werden die Werkzeugsteine der Schimpansen nicht bearbeitet, sondern so verwendet, wie sie vorgefunden werden; auch werden diese Steine nur über einige hundert Meter, nicht mehrere Kilometer mitgeführt. Eine einfache Form der Werkzeugbearbeitung findet sich bei Schimpansen allerdings bei der Herstellung von „Angelruten“ für das Herausfischen von Termiten aus deren Bau. In diesem Fall werden von Zweigen Blätter und Seitenästchen erst entfernt, bevor der

I. Grundlagen der Psycholinguistik

Zweig zum Angeln eingesetzt wird (Goodall, 1986). Auch die Herstellung von Schwämmen durch Zerkauen von Blättern zu einem fasrigen Brei, der dann zum Aufsaugen von Wasser aus Ritzen und schwer zugänglichen Hohlräumen verwendet wird, stellt Werkzeugherstellung dar. Schimpansen kennen sogar Werkzeugherstellung mit Hilfe von Werkzeugen. So berichtet Sugiyama (1997), dass die von ihm beobachteten Schimpansen in Guinea zum Aufbohren von Termitenbauten zunächst einen kräftigeren Stock verwenden. Da dieser jedoch zum Termitenangeln ungeeignet ist, weil sich die Termiten an dem massiven Vorderende nicht festbeißen können, wird nach dem Öffnen des Termitenbaus ein Stein geholt und mit diesem das Stockvorderende fasrig geklopft, so dass nun der Stecken auch als Termitenangel verwendet werden kann. Eine deutlich höhere Kulturstufe als die des Oldowans stellt die sich unter Homo ergaster, Homo erectus und Homo heidelbergensis entwickelnde Acheule´en-Kultur dar (Noble & Davidson, 1996). Typisch für die Acheule´en-Steingeräte sind zweiseitig bearbeitete tropfenförmige Faustkeile mit mehrfach überarbeiteten Kanten und einschneidige Spaltkeile. Die Geräte zeigen eine Standardisierung der Form und weisen Symmetrien auf. Mikroskopische Analysen der Nutzungsspuren an den Schneiden der Faustkeile zeigen, dass diese als Vielzweckwerkzeuge zum Schneiden, Schnitzen, Schaben, Zerteilen und Schlachten verwendet wurden, wobei als Material Knochen, Geweihstangen, Fleisch, Fell, Haut, Holz und Pflanzen bearbeitet wurden. Der Übergang von der Oldowan- zur Acheule´en-Kultur vollzog sich vor etwa 1,2⫺1,4 Millionen Jahren. Acheule´enFaustkeile wurden bis in die Zeit des archaischen Homo sapiens (Homo sapiens präsapiens) vor 250.000 Jahren verwendet. Weitere Meilensteine in der kulturellen Entwicklung der Homo ergaster/erectus/heidelbergensis-Gruppe sind die Erfindung des Speeres vor etwa 400.000 Jahren und vor allem die kontrollierte Verwendung des Feuers (Henke & Rothe, 1994). Die älteste gesicherte Feuerstelle (Zhoukoudien-Höhle, China) hat ein Alter von etwa 400.000 Jahren. In ihr fanden sich neben dicken Ascheschichten und angebrannten Knochen von Wild auch angebrannte Steinwerkzeuge (James, 1989). Neuere Funde deuten darauf hin, dass der Feuergebrauch möglicherweise noch sehr viel weiter zurückgeht. So berichtet Pope (1988) von

35

3. Phylogenese der sprachlichen Kommunikation

Zeit (Mio. Jahre)

Art

Hirnvolumen (in ml)

Besonderheiten

Fundorte (exemplarisch)

3,8 - 2,5

Australopithecus afarensis

400 - 500

aufrechter Gang

Hadar ( thiopien)

3,0 - 2,0

Australopithecus africanus

428 - 500

aufrechter Gang

Sterkfontein & Makapansgat (S dafrika)

2,5 - 1,0

Australopithecus robustus & A. boisei

410 - 530

aufrechter Gang; Steinwerkzeuggebrauch fraglich

Olduvai (Tansania), Koobi Fora (Kenia), Swartkrans (S dafrika)

2,3 - 1,6

Homo habilis

509 - 752

Steinwerkzeuge einfachster Art (OldowanKultur)

Olduvai (Tansania), Koobi Fora (Kenia)

1,8 - 0,3

Homo erectus

750 -1251

Verbesserte SteinwerkSangiran & Trinil (Java), zeuge (Acheul en-Kultur); Zhoukoudien (China), Speere; Feuergebrauch Olduvai (Tansania), Nariokotome (Kenia)

0,4 - 0,1

Homo sapiens pr sapiens

1100 -1430

Steinwerkzeuge vom Kabwe (Sambia), Acheul en- und Levallois- Swanscombe (England), Typus Steinheim (D)

Homo neanderthalensis

1200 -1750

Weiterentwickelte Steinwerkzeuge (Moust rienKultur); einfacher Schmuck; rituelle Bestattungen fraglich

0,15 - 0,03

0,13 - 0

Homo sapiens sapiens

Fossil 1200 -1700 Rezent beim Mann 1500 125, bei der Frau 1300 105

La Chapelle aux Saints (Frankreich), Shanidar (Irak), Neandertal (D)

Felsmalereien und Klein- Cro-Magnon (Frankreich), plastiken seit 30.000 J.; Skhul & Qafzeh (Israel), Ackerbau seit 12.000 J.; Hahn fersand (D) Rinderzucht seit 8.000 J.; T pferei seit 6.000 J.; Schrift seit 5.000 J.

Abb. 3.1: Übersichtstabelle zur Hominidenentwicklung.

einer 1 Millionen Jahre alten Feuerstelle in Südostasien mit einer kreisförmigen Anordnung von Basaltsteinen, die Hitzerisse aufwiesen; Sillen und Brain (1990) vermuten in einer größeren Ansammlung angebrannter

Antilopenknochen in der Swartkrans-Höhle, Südafrika, sogar eine 1⫺1,3 Millionen Jahre alte Feuerstelle. Die Verwendung von Feuer erscheint zumindest für Homo erectus gesichert. Unklar ist, ob Homo erectus bereits

36 selbst Feuer erzeugen konnte oder dieses aus natürlichen Bränden (z. B. Buschfeuer nach Blitzeinschlag) gewann. Eine weitere Leistung von Homo erectus bzw. der Vorgängerart Homo ergaster ist die Eroberung neuer Kontinente. Während Australopithecus, Homo habilis und rudolfensis wie auch die drei dem Menschen nächstverwandten rezenten Menschenaffen Schimpanse (Pan troglodytes), Bonobo oder Zwergschimpanse (Pan paniscus) und Gorilla (Gorilla gorilla) nie den afrikanischen Kontinent verlassen haben, kommt es vor 1,5⫺1,1 Millionen Jahren zu einer Auswanderungswelle, die Homo ergaster/erectus von Ostafrika über Vorderasien nach Südostasien einerseits und Europa andererseits führt. Nachdem es vor etwa 130.000 Jahren zum Entstehen des modernen Menschen (Homo sapiens sapiens) aus dem archaischen Menschen (Homo sapiens präsapiens) gekommen war, erfolgte vor etwa 100.000 Jahren eine zweite große Auswanderungswelle von Ostafrika über Vorderasien nach Südostasien und Europa (Cavalli-Sforza et al., 1993). Im Verlauf dieser Auswanderungswelle kam es um 50.000 vor unserer Zeit zu einer ersten Besiedelung Australiens. Australien bildete damals zusammen mit Neu-Guinea und Tasmanien eine Landmasse („Sahul“), die vom südostasiatischen Festland (im Gegensatz zu dem bereits von Homo erectus besiedelten Java) getrennt war. Die Besiedelung Australiens setzte also hochseetaugliche Schiffe voraus. Etwa um die gleiche Zeit (vor etwa 40.000⫺30.000 Jahren) expandiert der moderne Mensch von Kleinasien nach Europa und verdrängt dort den Neanderthaler vollständig. Gleichzeitig erfolgt die Besiedelung Amerikas von Sibirien aus über die Beringstrasse und Alaska (Cavalli-Sforza et al., 1988) – eine Unternehmung, die erhebliche Ansprüche an Wetterfestigkeit der Ausrüstung und vorausplanender Organisation stellte. In der Zeit vor 50.000 bis 30.000 Jahren macht auch die Steinwerkzeugherstellung große Fortschritte. Aus den im wesentlichen zwei Werkzeugtypen des Acheule´en sind im späten Mouste´rien etwa 60 unterschiedliche Werkzeugtypen geworden, die außerdem sehr viel feiner verarbeitet sind als im Acheule´en (Bradshaw & Rogers, 1993). Etwa 30.000 Jahre alt sind auch die ältesten nachgewiesenen Hütten bzw. Windschirme, die aus Mammutknochen und -unterkiefer konstruiert waren und in den südrussischen Ebenen gefun-

I. Grundlagen der Psycholinguistik

den wurden (Gamble, 1986). Aus der gleichen Zeit stammen die frühesten figuralen Darstellungen in Form von Höhlenmalereien und Kleinplastiken, wie etwa das aus Mammutelfenbein geschnitzte Mischwesen aus Löwenkopf und Menschenkörper aus HohlensteinStadel im Lonetal (Alter etwa 32.000 Jahre) oder die „Venus von Willendorf“ (Alter etwa 28.000 Jahre) (Lorblanchet, 1997; Marshack, 1976). Inwieweit es in der Zeit des ausgehenden Mouste´rien vor 50.000 bis 30.000 Jahren bereits rituelle Bestattungen gab, wird zur Zeit noch kontrovers diskutiert. Der ShanidarFund aus Israel z. B., bei dem ein Neanderthalerskelett in zusammengekauerter Körperstellung in einer Höhle gefunden wurde, überhäuft mit Steinen und umgeben von verdorrten Pflanzenteilen, wird von einigen Autoren als Grab mit Blumenbeigaben interpretiert (Belfer-Cohen & Hovers, 1992; Solecki, 1975). Andere weisen darauf hin, dass angewinkelte Extremitäten auch im Schlaf vorkommen, dass die Steine über dem Leichnam auch von einem Felssturz von der Höhlendecke her stammen könnten und die Pflanzenreste nicht von Grabbeigaben, sondern von durch Kleinsäuger in die Höhle transportiertem Nistmaterial stammen könnten (Gargett, 1989). Gesicherte Beerdigungen mit Opferbeigaben gibt es seit etwa 12.000 Jahren (Schepartz, 1993). In diese Zeit fallen auch die Anfänge des Getreideanbaus (Heun et al., 1997) – und damit der Übergang vom Jägerund Sammlerstadium zum sesshaften Bauern. 1.2. Paläontologische Evidenz 1.2.1. Das Gehirn Das Gehirn ist das Kontrollorgan der Sprache. Die modernen bildgebenden Verfahren der funktionellen Kernspintomographie und Positronenemissionstomographie, mit denen Änderungen der Hirndurchblutung in Abhängigkeit von lokalen Hirnaktivitätsänderungen erfasst werden können, haben gezeigt, dass die an der Sprachproduktion beteiligten Gebiete sehr ausgedehnt sind. Schon beim einfachen Nachsprechen eines vorgesprochenen Wortes findet sich im Positronenemissionstomogramm eine Aktivierung im primären Hörcortex (Brodmann-Area 41), auditorischen Assoziationscortex (Area 22), parietotemporalen Assoziationscortex (Area 39 und 40), motorischen und sensorischen Gesichtscortex (Area 6,4,3,2, und 1), Broca-Area (Area 44 und 45) sowie auf der medialen He-

37

3. Phylogenese der sprachlichen Kommunikation

8

10

9

46

45

47 11

7 4 3

6

44

10

6

8

46

7

5

9

9

4

6

44

6

1/2 40

6 8

39 1/2

19

41/42 21 21 21 20

9

18

22

22 38

6

19

37

18

17

4

8

10 47

6 1/2 45/44

19 37

20

22

18

11

5

6

8

46

4

38

7

1/2 3

40 41/42

21

39

18 19

17

1918

37 20

Abb. 3.2: Seitenansicht der linken Cortexhälfte von Mensch (links) und Schimpanse (rechts). Die Zahlen geben die zytoarchitektonisch differenzierbaren Areae nach Brodmann an.

misphärenseite in der motorischen Supplementärarea (Area 6) und im vorderen Gyrus cinguli (Area 24) (Petersen et al., 1988). Wenn zu dem gehörten Wort ein in semantischem Zusammenhang stehendes neues Wort generiert werden soll, findet sich zusätzlich eine Aktivierung in großen Teilen des Präfrontalcortex (Area 47, 46 und 9) (Herholz et al., 1996; Petersen et al., 1988). Wird Sprache auf dem visuellen Sinneskanal angeboten (Lesen), erfolgt außerdem eine Aktivierung von primärem Sehcortex (Area 17), sekundärem Sehcortex (Area 18) sowie visuellem Assoziationscortex (Area 19, 37 und 39) (Hirano et al., 1996). Da sich alle genannten Areae zytoarchitektonisch bereits beim Schimpansen nachweisen lassen (Bailey et al., 1950) und über die Unterschiede in den Verbindungen dieser Areae zwischen Schimpanse und Mensch nichts bekannt ist, existiert zur Zeit kein neuroanatomisches Kriterium, anhand dessen einem Gehirn angesehen werden könnte, ob es sprachfähig ist oder nicht. Augenfällig ist allerdings, dass das menschliche Gehirn sehr viel größer ist als das des Schimpansen und dass es ein etwas anderes Windungsmuster aufweist (Abbildung 3.2). Beide Merkmale stellen jedoch keine verlässlichen Indikatoren für das Vorhandensein oder Fehlen von Sprache dar. Es gibt Arten mit sehr viel größeren Gehirnen als dem des Menschen (z. B. Elefant, Wal), die kein sprachhomologes Kommunikationssystem entwickelt haben. Selbst wenn man statt des absoluten

Hirngewichts das auf das Körpergewicht bezogene relative Hirngewicht nimmt, gibt es Arten, die dem Menschen überlegen sind (z. B. Kapuzineraffe, Totenkopfaffe), ohne Sprache zu besitzen. Auf der anderen Seite gibt es microcephale Menschen mit einem Hirngewicht von unter 600 g, d. h. einem Gewicht, wie es unter heute lebenden Menschenaffen vorkommt (Gorillas können ein Hirngewicht bis zu 753 g haben), und dennoch sprechen können (Holloway, 1968). Vergleichbares gilt für das Windungsmuster. Der Windungsreichtum des Neocortex korreliert direkt mit der Hirngröße. Es nimmt deshalb nicht Wunder, dass das Schimpansenhirn weniger Windungen als das des Menschen hat – und dies nicht nur in den sprachrelevanten Regionen. Wie wenig geeignet die Furchen im Cortex als funktionelle Gebietsmarkierungen taugen, wird besonders deutlich, wenn man einander ferner stehende Arten, z. B. Schimpanse und Katze, vergleicht. Gebiete wie primärer motorischer Cortex oder primärer Hörcortex, die sich bei beiden Arten zytoarchitektonisch und funktionell eindeutig homologisieren lassen, weisen eine völlig unterschiedliche Lage in Bezug auf die ihnen nächstliegenden Hirnfurchen auf. Auch sei daran erinnert, dass selbst innerhalb des Menschen das Furchenmuster von Individuum zu Individuum erhebliche Variationen zeigt (Zilles et al., 1988). Wenn im Folgenden die Gehirne fossiler Hominiden verglichen werden, so geschieht dies also nicht in dem

38 Sinn, dass bestimmte Merkmale Sprachfähigkeit beweisen, sondern in dem Sinn, dass die Wahrscheinlichkeit für Sprachfähigkeit umso größer ist, je ähnlicher ein Hirn dem des rezenten Menschen ist. Der früheste im Skelett einigermaßen vollständig beschriebene Hominide, Australopithecus afarensis, hatte ein Hirnvolumen von 400⫺500 ml (Aiello & Dunbar, 1993) und liegt damit innerhalb der Variationsbreite heutiger Menschenaffen (durchschnittliches Hirnvolumen plus/minus zwei Standardabweichungen von Schimpanse: 400 ( 9 ml; Gorilla 469 ( 17 ml; Orang-Utan 397 ( 12 ml). Australopithecus afarensis lebte vor 3,8⫺2,5 Millionen Jahren. Er ging bereits aufrecht. Seine Körpergröße lag zwischen 151 cm für das männliche und 105 cm für das weibliche Geschlecht, d. h. die Art zeigte einen starken Sexualdimorphismus. Die Anatomie von Handgelenk, Ellbogen und Schultergelenk deutet auf eine gute Kletterfähigkeit. Von Australopithecus afarensis wurden keine Artefakte gefunden (Johanson & Edey, 1984). Aus Australopithecus afarensis entwickelte sich vor etwa drei Millionen Jahren Australopithecus africanus. Die Paläontologen sind sich noch nicht einig, ob Australopithecus africanus ein echtes Zwischenglied zum Menschen darstellt oder bereits eine Seitenlinie, die dann zu Australopithecus robustus und Australopithecus boisei führte (Henke & Rothe, 1994). Australopithecus africanus hatte ein Hirnvolumen von 428⫺500 ml und liegt damit ebenfalls noch in der Variationsbreite rezenter Menschenaffen. Auch das Windungsmuster weist, wie Abdrücke auf der Schädelinnenseite zeigen, einen eher pongiden Typus auf (Tobias, 1971). Australopithecus africanus ging aufrecht. Seine Größe lag bei 138⫺115 cm. Es liegen bis jetzt keine gesicherten Artefaktfunde für diese Art vor. Als früheste Vertreter der Gattung Homo werden gegenwärtig Homo habilis und Homo rudolfensis angesehen (Leakey & Lewin, 1993). Beide entwickelten sich vor gut zwei Millionen Jahren aus Australopithecus africanus oder Australopithecus afarensis. Ihr Hirnvolumen liegt mit 509⫺752 ml etwas über dem heutiger Menschenaffen. Gegenüber dem durchschnittlichen Australopithecus africanus-Hirn weist das durchschnittliche Homo habilis-Hirn jedoch eine Größenzunahme von 45 % auf. Diese Vergrößerung geht hauptsächlich auf das Konto einer Verbreiterung des Gehirns, in geringerem Maße

I. Grundlagen der Psycholinguistik

auch einer Zunahme der Hirnhöhe; die Anterior/Posterior-Länge bleibt gegenüber Australopithecus unverändert. Das Windungsmuster von Homo habilis unterscheidet sich im seitlichen Frontallappen deutlich von Australopithecus (Holloway, 1983; Tobias, 1987). In Übereinstimmung mit dem Gehirn des rezenten Menschen findet sich eine horizontal von anterior nach posterior verlaufende Furche, die den Frontallappen in eine zweite und dritte Stirnwindung unterteilt – und damit die Region der Broca-Area (Brodmann-Area 44 und 45) von dem darüber liegenden Frontalcortex (Areae 6, 8 und 9) abteilt. Homo habilis weist außerdem, wie der rezente Mensch, zwei von der Seitenfurche (Fissura Sylvii) in den Frontalcortex ziehende Furchen (Ramus anterior und Ramus ascendens) auf, die den vorderen Teil der BrocaArea (Pars triangularis ⫽ Area 45) von den benachbarten Gebieten abgrenzen. Der Bereich des Parietotemporalcortex, der beim rezenten Menschen das Wernicke’sche Sprachzentrum enthält, ist bei Homo habilis gut ausgeprägt und erlaubt eine Identifizierung von Gyrus supramarginalis (Area 40) und Gyrus angularis (Area 39) (Falk, 1983; Tobias, 1987). Homo habilis oder/und Homo rudolfensis entwickelten sich vor 1,8⫺1,6 Millionen Jahren zu Homo ergaster, Homo erectus und Homo heidelbergensis, aus denen vor etwa 400.000 Jahren Homo sapiens hervorging, zunächst in Form eines archaischen Typus (Homo sapiens präsapiens), dann, vor etwa 130.000 Jahren, in Form des modernen Menschen (Homo sapiens sapiens) (Henke & Rothe, 1994). Während der Homo-ergaster/erectus/heidelbergensis-Periode findet eine Hirnvolumenzunahme von 750 ml auf 1251 ml statt. In der gleichen Zeit bleibt die Körpergröße praktisch unverändert (Abbildung 3.3), so dass es zu einer starken Erhöhung des Encephalisationsquotienten kommt (Jerison, 1973). Gegenüber dem rezenten Menschen fällt jedoch die niedrige Stirn und flache vordere Schädelgrube auf, die auf einen schwach entwickelten Präfrontalcortex und damit auf ein eingeschränktes Planungsvermögen hindeuten. In der anschließenden Periode des archaischen Homo sapiens kommt es nochmals zu einer Hirnvolumenzunahme auf 1430 ml. Diese Zunahme ist im Wesentlichen durch eine Aufwölbung der Stirn – mit entsprechender Vergrößerung des Präfrontalcortex – und eine Abrundung des Hinterhaupts – und damit verbunden einer Vergrößerung des

39

3. Phylogenese der sprachlichen Kommunikation 1800

180

170 1500

150

1200

140 900

130

K rpergr §e [cm]

Hirnvolumen [ml]

160

120 600 110

300

0

0,5

1

1,5

2

2,5

3

3,5

100

Zeit in Mio. Jahren Hirnvolumen

K rpergr §e

Abb. 3.3: Entwicklung von Hirnvolumen und Körpergröße fossiler Hominiden in den letzten 3,5 Millionen Jahren.

temporalen Assoziationscortex – bedingt. Interessanterweise sind es gerade diese beiden Gebiete, die beim rezenten Menschen gegenüber den nicht-menschlichen Primaten den stärksten Zuwachs von allen Cortexregionen aufweisen (Deacon, 1997). Etwa 200.000 Jahre vor unserer Zeit, d. h. noch vor Auftreten des modernen Menschen, wird schließlich eine Hirngröße erreicht, die innerhalb von zwei Standardabweichungen des rezenten Hirnvolumens liegt (Mann: 1250⫺1750 ml, Frau: 1090⫺1510 ml) (Aiello & Dunbar, 1993). Bei etwa 65 % der rezenten menschlichen Hirne findet sich eine anatomische Hemisphärenasymmetrie in dem Sinne, dass die Sylvische Furche (die Schläfenlappen von Stirn- und Scheitellappen trennt) auf der rechten Seite weiter vorn aus der Horizontalen nach oben abbiegt als auf der linken Seite; dadurch kommt der Endpunkt der Sylvischen Furche rechts höher zu liegen als links (LeMay, 1976; Rubens et al., 1976). Die Folge ist eine relative Vergrößerung des Pla-

num temporale links gegenüber rechts. Das Planum temporale liegt in der Tiefe der Sylvischen Furche hinter dem primären Hörcortex und ist Teil des Wernicke’schen Sprachzentrums. Da auch die funktionelle Sprachrepräsentation eine Hemisphärenasymmetrie aufweist – bei der Mehrzahl der heutigen Menschen ist die Sprache linkshemisphärisch repräsentiert – liegt es nahe, die morphologische mit der funktionellen Hemisphärenasymmetrie in Verbindung zu bringen. LeMay (1975) geht sogar soweit, aus der höheren Position des Sylvischen Endpunkts rechts bei einem Neanderthalerschädel zu schließen, „that the Neanderthal man had the neurological development necessary for language.“ Hier scheint ein Wort der Vorsicht angebracht. Rund 95 % der heutigen Menschen weisen eine linksdominante Sprachrepräsentation auf, doch nur etwa 65 % haben links den tieferen Sylvischen Endpunkt (Springer & Deutsch, 1995). Verlauf der Sylvischen Furche und Lokalisation der Sprachrepräsentation sind also nicht hundertprozentig

40

I. Grundlagen der Psycholinguistik

miteinander korreliert. Ein linksseitig tieferer Sylvischer Endpunkt fand sich außerdem bei vier von neun untersuchten Schimpansengehirnen (bei einem Tier war der rechte Endpunkt tiefer, bei vier Tieren lagen linker und rechter Endpunkt auf gleicher Höhe); beim Orang-Utan wiesen sogar zehn von zwölf Gehirnen einen linksseitig tieferen Endpunkt auf (LeMay, 1976). Dies macht klar, dass eine Links/Rechts-Asymmetrie im Verlauf der Sylvischen Furche kein spezifisch hominides Merkmal ist – und damit als Sprachindikator ausscheidet. Neben dem Verlauf der Sylvischen Furche hat man versucht, Asymmetrien in der Blutversorgung als Hinweis für das Vorhandensein von Sprache zu verwerten (Saban, 1983). Bei einigen fossilen Schädeln hat sich der Abdruck von Hirnhautvenen im Bereich des Parietal-, Temporal- und hinteren Frontalcortex erhalten. Während bei Australopithecus keine deutlichen Unterschiede in der Verteilung der Blutgefäße zwischen links und rechts zu finden sind, treten solche bei Homo habilis zutage. Homo habilis weist auf der rechten Seite ein Verteilungsmuster ähnlich dem von Australopithecus auf; auf der linken Seite kommt es dagegen zu einer stärkeren Verzweigung

P

der Venen sowie zu Querverbindungen zwischen den drei venösen Hauptästen. Bei Homo erectus finden sich Schädel, bei denen die rechte, andere, bei denen die linke Hemisphäre stärker mit Blutgefäßen versorgt ist. Erst vor 8000 Jahren wird die Gefäßverteilung identisch mit der des rezenten Menschen. 1.2.2. Die Sprechwerkzeuge Sprechen besteht aus dem Zusammenspiel von Kehlkopfmuskeln, Atemmuskeln und den für die Artikulation zuständigen Muskeln des Mund-/Rachen-Raums. Für die Produktion bestimmter Phoneme sind bestimmte anatomische Gegebenheiten Voraussetzung. Da die Differenzierung der Phoneme, von wenigen Ausnahmen (Tonalunterscheidungen) abgesehen, im Mund-/Rachen-Raum geschieht, wollen wir uns im Folgenden auf diesen supralaryngealen Abschnitt des Vokaltraktes konzentrieren. Vergleicht man den Supralaryngealtrakt bei rezentem Mensch und Schimpanse, so fällt auf, dass der Kehlkopf beim Menschen sehr viel tiefer sitzt als beim Schimpansen (in Abbildung 3.4 zu erkennen am Abstand zwischen Glottis (G) und weichem Gaumen (V) (Lieberman,

N V Z

P

N V

E

H

E

Z H

T

G

T

G

Abb. 3.4: Anatomie des Vokaltraktes von Mensch (links) und Schimpanse (rechts). E Epiglottis, G Glottis, H Zungenbein (Hyoid), N Nasalraum, P harter Gaumen (Palatum), T Schildknorpel (Thyroid), V weicher Gaumen (Velum), Z Zunge. Modifiziert nach Liebermann, 1984.

41

3. Phylogenese der sprachlichen Kommunikation Hz

M(i)

3000

S

2000

F2

S

M(a)

800

1200 Hz

1000

S M(u)

0 0

400 F1

Abb. 3.5: Vokaldreiecke von Mensch (M) und Schimpanse (S). Vokaldreiecke geben die mit einem bestimmten Vokaltrakt erzeugbaren Extremwerte von 1. Formante (F1) und 2. Formante (F2) an. Die Fläche innerhalb eines Dreiecks stellt den Vokalumfang dar. Beim Menschen findet sich der höchste F1-Wert beim Vokal /a/, der niedrigste beim /u/, der höchste F2-Wert beim Vokal /i/, der niedrigste beim /u/.

1984)). Während beim Menschen der Ringknorpel des Kehlkopfs etwa auf Höhe des sechsten Halswirbels liegt, ist er beim Schimpansen auf Höhe des dritten Halswirbels zu finden. Eine Folge davon ist, dass die Zunge des Schimpansen praktisch vollständig auf die Mundhöhle beschränkt ist, wogegen sie beim Menschen tief in den Rachen hinunterreicht und dort eine Art bewegliche Vorderwand bildet. Bewegungen der Zunge führen je nach Art der Bewegung zu Verengungen und Erweiterungen des Supralaryngealtrakts in bestimmten Abschnitten desselben – und damit zu Veränderungen in den Resonanzfrequenzen des Traktes. Veränderungen in den Resonanzfrequenzen bewirken, dass unterschiedliche Frequenzbereiche des im Kehlkopf erzeugten Primärschalls verstärkt bzw. abgeschwächt werden. Frequenzbereiche erhöhter Intensität nennt man Formanten. Verschiedene Vokale unterscheiden sich durch die Lage ihrer Formanten. Trägt man, wie in Abbildung 3.5, die Frequenz der ersten Formante (F1) gegen die der zweiten Formante (F2) für die Vokale /a/, /i/ und /u/ auf und

verbindet die drei Punkte miteinander, so erhält man eine Fläche (Vokaldreieck) innerhalb derer die F1/F2-Werte sämtlicher vom Menschen produzierbarer Vokale liegen. Stellt man ein Modell des SchimpansenSupralaryngealtrakts her und errechnet die mit diesem Trakt erzeugbaren Resonanzfrequenzen (und damit F1/F2-Werte), so gelangt man zu einem Vokaldreieck, das sehr viel kleiner als das des Menschen ist (Abbildung 3.5; Lieberman et al., 1969). Mit anderen Worten, Schimpansen können schon aus anatomischen Gründen kein /i/, /e/ oder /a/ bilden. Ihr Vokaltrakt erlaubt nur die Produktion einer geringen Anzahl einander ähnlicher Vokale, die noch am ehesten mit den menschlichen Vokalen /o/, /c/ und /e/ verglichen werden können. Da beim Schimpansen außerdem das Velum von der Basis des Occipitalknochens so weit entfernt ist, dass es den Nasenraum nicht vollständig von Mund und Rachen abschließt, so kommt es zu einer Nasalierung sämtlicher Vokale, die die Unterscheidbarkeit derselben weiter einschränkt (Lieberman et al., 1972).

42 Doch nicht nur die Vokalbildung ist beim Schimpansen auf Grund seiner vom Menschen abweichenden Mund-/Rachen-Anatomie eingeschränkt. Gleiches gilt auch für die Konsonantenbildung. Da der Mundraum des Schimpansen länger ist als beim Menschen und das Zungenbein (Hyoid) höher sitzt, nehmen die äußeren Zungenmuskeln bei Mensch und Schimpanse einen unterschiedlichen Verlauf. Dies betrifft den Musculus genioglossus, der die Zunge vorschiebt und die Zungenspitze herunterdrückt, den Musculus palatoglossus, der den hinteren Zungenabschnitt anhebt und den Musculus mylohyoideus, der das Zungenbein anhebt, den Unterkiefer senkt und eine muskuläre Basis für die Zunge bildet. Als Folge dieser anatomischen Besonderheiten sind Schimpansen nicht in der Lage, Laute wie /k/, /g/, /n/, /l/ oder /r/ zu produzieren (Duchin, 1990). Da außerdem Schimpansen auf Grund ihrer übergroßen Eckzähne keine geschlossene obere Zahnreihe haben – zwischen zweitem Schneidezahn und Eckzahn besteht eine Lücke (Diastema) zur Aufnahme des unteren Eckzahns – ist auch die Produktion von Frikativlauten wie /s/, /z/, /s/, /z/, /θ/, /Î/, /o/, /dz/, /f/ und /v/ unmöglich. Versuche, Schimpansen einzelne Wörter nachsprechen zu lassen, waren dementsprechend erfolglos. Die einzigen Wörter, die Schimpansen zumindest annäherungsweise in der Lage waren nachzusprechen, waren „mama“, „papa“ und „cup“, wobei letzteres mehr wie „up“ als „cup“ klang (Hayes & Hayes, 1951). Dass trotz der prinzipiellen Möglichkeit, von der Anatomie des Supralaryngealtrakts her unterschiedliche Vokale zu produzieren, de facto nur ein einziger produziert wurde, hängt möglicherweise mit der Zungeninnervierung zusammen. Der Schimpanse hat gegenüber dem Menschen einen deutlich schwächeren Zungennerven (Nervus hypoglossus). Dies deutet auf eine weniger differenzierte Innervierung und damit Bewegungskontrolle der Zunge beim Schimpansen hin (Kay et al., 1998). Vergleicht man die Anatomie des MundRachen-Raums von Mensch und Schimpanse mit der fossiler Hominiden, so ergibt sich folgendes Bild. Eine geschlossene obere Zahnreihe finden wir bei sämtlichen Hominiden; lediglich bei Australopithecus afarensis ist noch ein, wenn auch gegenüber Schimpansen und anderen Pongiden stark reduziertes Diastema zu sehen. Der Verlauf der Schädelba-

I. Grundlagen der Psycholinguistik

sis ähnelt bei den Australopithecinen sehr viel mehr dem des Schimpansen als des rezenten Menschen (Abbildung 3.6). Nach Reidenberg und Laitman (1991) lässt sich aus dem Verlauf der Schädelbasis auf die Position des Kehlkopfes schließen: je stärker gewölbt die Schädelbasis zwischen Gaumen und Foramen magnum, desto tiefer kommt der Kehlkopf im Hals zu liegen. Je tiefer der Kehlkopf, desto ähnlicher das Artikulationsvermögen dem des rezenten Menschen. Das Artikulationsvermögen von Australopithecus entsprach demnach etwa dem von Schimpansen. Hierfür spricht auch, dass der Hypoglossuskanal, d. h. die Knochenöffnung, durch die der Zungennerv die Schädelbasis verlässt und deren Durchmesser ein Maß für den Durchmesser des Zungennerven ist, bei Australopithecus und Schimpanse etwa gleich groß ist (Kay et al., 1998). Eine Anatomie des Mund-/RachenRaums, die der des rezenten Menschen ähnelt, findet man erst beim archaischen Homo sapiens (Homo sapiens präsapiens), dessen älteste Vertreter etwa 400.000 Jahre alt sind. Hier weist die Schädelbasis eine ähnliche Abknickung wie beim rezenten Menschen auf (Laitman & Reidenberg, 1988). Es ist zu einer deutlichen Verkürzung des harten Gaumens gekommen, bedingt durch einen sukzessiven Rückgang der noch bei Australopithecus stark ausgebildeten Prognathie. Oberer und unterer Zahnbogen entsprechen dem des rezenten Menschen. Gleiches gilt für die Größe der Durchtrittsöffnung des Nervus hypoglossus (Kay et al., 1998). Homo erectus weist einen Zustand zwischen Australopithecus und archaischem Homo sapiens auf. Uneinigkeit besteht in der Literatur bezüglich des Artikulationsvermögens des Neanderthalers. Nach Liebermann (1984) weist die Schädelbasis des Neanderthalers einen Verlauf auf, der mehr dem von Australopithecus als Homo sapiens ähnelt. Dies würde für eine eingeschränkte Artikulationsfähigkeit des Neanderthalers sprechen. Houghton (1993) sieht dagegen keinen signifikanten Unterschied zwischen den Schädelbasen von Neanderthaler und rezentem Menschen. Nach Kay et al. (1998) weist außerdem der Hypoglossuskanal des Neanderthalers den gleichen Durchmesser wie beim rezenten Menschen auf. Schließlich führen Arensburg et al. (1990) an, dass das von ihnen in der Kebara 2-Höhle in Israel gefundene und dem Neanderthaler zugeschriebene Zungenbein mit

43

3. Phylogenese der sprachlichen Kommunikation

Schimpanse Pan troglodytes

Australopithecus africanus (Sterkfontein)

Homo neanderthalensis (La Chapelle)

Homo sapiens pr sapiens (Broken Hill)

Homo sapiens sapiens (Cro Magnon)

Homo sapiens sapiens (rezent)

A

BC D E

A

B

CD

E

Abb. 3.6: Verlauf der Schädelbasis beim Schimpansen (links) und verschiedenen Hominiden (rechts). Die Messpunkte sind: A Vorderende des harten Gaumens (Prosthion), B Hinterende des harten Gaumens (Staphylion), C Vorderende des Sphenoidknochens (Hormion), D Hinterende des Sphenoidknochens (Sphenobasion), E Vorderrand des Foramen magnum (Endobasion). Modifiziert nach Lieberman, 1984.

dem des rezenten Menschen identisch ist. Diese Befunde sprechen gegen eine eingeschränkte Artikulationsfähigkeit des Neanderthalers. Der Streit ist noch nicht entschieden. Er verliert jedoch etwas an Brisanz durch die jüngsten molekulargenetischen Untersuchungen (Krings et al., 1997). Diese machen klar, dass der Neanderthaler einen Endzweig des Astes darstellt, der sich bereits vor etwa 500.000 Jahren von dem Stamm getrennt hat, der zum rezenten Menschen führte. Der Neanderthaler ist somit nicht als unser Vorfahr anzusehen. Außerdem existierten zur Zeit des klassischen Neanderthalers längst Homo-sapiens-Formen, für die das Vorhandensein eines modernen Supralaryngealtrakts unbestritten ist (siehe oben).

2.

Wurzeln der Sprache

2.1. Vokale Kommunikation bei nichtmenschlichen Primaten Eine der Wurzeln, aus denen die menschliche Sprache hervorgegangen ist, besteht in den nicht-verbalen stimmlichen Lautäußerungen (im Folgenden Vokalisationen genannt) nicht-menschlicher Primaten. Diese haben mit der gesprochenen Sprache gemeinsam, dass es sich um akustische Kommunikationssignale handelt, deren Produktion mit dem gleichen Stimmapparat erfolgt, wie er dem Sprechvorgang zugrunde liegt. Vokalisationen unterscheiden sich von verbalen Äußerungen durch eine Reihe von Merkmalen, die im Folgenden kurz resümiert werden sollen:

44 (a) Vokalisationen sind in ihrer akustischen Struktur im Wesentlichen angeboren. Das heißt, sie müssen nicht wie Wörter durch Anhören und Imitieren von Artgenossen komplett erlernt werden. Kaspar-Hauser-Versuche an Totenkopfaffen haben gezeigt, dass Tiere, die von Geburt an in einer Umgebung großgezogen werden, in der sie keine anderen Affen hören können, dennoch sämtliche Grundtypen des artspezifischen Lautrepertoires äußern (Winter et al., 1973). Dies soll nicht heißen, dass Affen zu keinerlei vokalem Lernen fähig wären. Ihr Lernvermögen ist jedoch durch genetisch determinierte Grenzen extrem eingegrenzt. Makaken lassen sich z. B. darauf dressieren, beim Erscheinen eines optischen Signals zu vokalisieren, wenn sie für jede Vokalisation eine Futterbelohnung bekommen. Versucht man nun, die Dauer der Vokalisation zu erhöhen, indem die Tiere nur noch eine Belohnung erhalten, wenn die Vokalisation eine bestimmte Mindestlänge aufweist und erhöht diese Mindestlänge sukzessiv, so gelingt es nur bei einem einzigen Lauttyp („coo“), die Dauer zu erhöhen; andere Lauttypen („bark“, „grunt“) erweisen sich als unbeeinflussbar (Larson et al., 1973). Die bei den „coo“-Lauten durch Dressur maximal erreichbare Vokalisationsdauer (je nach Tier 485⫺770 ms) liegt noch innerhalb der gelegentlich auch spontan geäußerten „coo“Lautlängen. Durch die Dressur ist also nicht wirklich ein neuer Laut entstanden, sondern es hat eine Verschiebung innerhalb der angeborenermaßen vorhandenen „coo“-Varianten von den kürzeren zu den längeren stattgefunden. Entsprechendes gilt für die Lautstärke, die sich ebenfalls durch Dressur nur in engen Grenzen beeinflussen lässt. Von Schimpansen ist bekannt, dass ein bestimmter Lauttyp („Keuchheulen“, Abbildung 3.7), der häufig zwischen Männchen über größere Entfernungen hinweg ausgetauscht wird, in seiner akustischen Struktur dem Rufpartner angepasst wird (Mitani & Brandt, 1994). Das heißt, während das Keuchheulen ein und desselben Tieres sehr unterschiedlich klingen kann, je nachdem mit welchem Partner das betreffende Tier duettiert, ist das Keuchheulen unterschiedlicher Tiere beim gemeinsamen Rufen sehr ähnlich. Wie beim Makaken scheint auch hier ein bestimmter Lauttyp mit zugehöriger Variationsbreite genetisch vorgegeben. Die Willkürkontrolle beschränkt sich auf die Auswahl dieser vorgegebenen Varianten und den Zeitpunkt, zu dem der Laut erfolgt.

I. Grundlagen der Psycholinguistik

Während die Vokalisationsform also stark genetisch determiniert ist, wird die Bedeutungszuordnung zum größeren Teil erlernt. Das am besten untersuchte Beispiel hierfür sind die Alarmrufe Grüner Meerkatzen (Seyfarth & Cheney, 1980). Erwachsene Grüne Meerkatzen verwenden unterschiedliche Laute beim Warnen auf Luftfeinde (vorwiegend Raubadler), Schlangen und vierbeinige Räuber (vorwiegend Leoparden). Jeder der drei Warnlaute löst bei erwachsenen Tieren unterschiedliche Reaktionen aus. Der Luftfeindlaut löst Blick nach oben, der Bodenräuberlaut Flucht den nächsten Baum hoch, der Schlangenwarnlaut Aufstellen auf die Hinterbeine und Absuchen des Bodens aus. Auch Meerkatzenkinder reagieren auf Luftfeinde mit einem Luftfeindwarnlaut. Im Gegensatz zu Erwachsenen reagieren sie jedoch nicht nur auf Luftfeinde mit diesem Laut, sondern auch auf zahlreiche völlig harmlose Vögel (z. B. Reiher, Taube, Blauracke) und gelegentlich sogar auf ein herabfallendes Blatt. Sie reagieren jedoch nie auf Bodenfeinde (Leopard, Schlange) mit dem Luftfeindwarnlaut. Dies spricht dafür, dass Grüne Meerkatzen ein vages angeborenes Wissen über das Aussehen eines „Luftfeindes“ haben: dass nämlich ein „Luftfeind“ etwas ist, das sich vom Himmel dunkel abhebt und sich von oben auf einen zubewegt. Dass jedoch nur ein kleiner Teil von Objekten mit diesen Eigenschaften wirklich gefährlich ist, d. h. einen echten Luftfeind darstellt, muss von den Jungtieren erst erlernt werden. Was für die Auslösung von Alarmlauten gilt, gilt auch für deren Erkennung. Wenn ein Meerkatzenjunges einen Luftfeindlaut hört, so läuft es entweder zur Mutter oder, wenn diese nicht in Sicht ist, in Panik ziellos herum. Es blickt jedoch nicht wie die Erwachsenen zuerst nach oben und läuft dann gezielt in die nächste Deckung. Meerkatzen wissen also offensichtlich angeborenermaßen, dass ein von einem Artgenossen ausgestoßener Luftfeindruf Gefahr bedeutet. Um welche Gefahr genau es sich handelt und wie man ihr begegnet, muss von den Tieren erst erlernt werden. (b) Wörter kodieren Informationen kategorial, Vokalisationen graduell. Es gibt keinen fließenden Übergang zwischen den Wörtern „Angst“ und „Wut“; es gibt jedoch zahllose Varianten von Schimpansenkreischen-, -quieken, -bellen und -drohbellen mit fließenden Übergängen zwischen diesen Lauten (Mar-

3. Phylogenese der sprachlichen Kommunikation

ler & Tenaza, 1977). Vokalisationen sind nicht Symbole, die für bestimmte Begriffe stehen, sondern Ausdruck augenblicklicher spezifischer Handlungsbereitschaften (Motivationen). So fein abgestuft Handlungsbereitschaften sein können, so fein abgestuft präsentieren sich Vokalisationen. Selbst bei den auf den ersten Blick rein kategorial wirkenden Alarmrufen der Meerkatzen zeigt sich, dass diese eine erhebliche Variabilität in der Lautstärke und Frequenzverteilung aufweisen, in der sich die Intensität der Fluchtbereitschaft widerspiegelt. Ein anderes Beispiel sind die sogenannten Isolationspieplaute von Totenkopfaffen, mit deren Hilfe räumlich getrennte Tiere akustischen Kontakt miteinander aufnehmen. Motivational drückt dieser Laut das Bedürfnis zusammenzukommen aus. Misst man die Länge des Lautes, so stellt sich heraus, dass die Lautdauer innerhalb bestimmter Grenzen umso größer ist, je größer die Distanz zwischen den rufenden Tieren (Masataka & Symmes, 1986). Die Länge des Lautes bildet also kontinuierlich den räumlichen Abstand und damit die Motivation zusammenzukommen ab. Ähnliches gilt für das Isolationsfiepen des Weißbüscheläffchens (Callithrix jacchus) (Schrader & Todt, 1993). Wenn zwei Gruppenmitglieder im selben Käfig sitzen, äußern sie kein Isolationsfiepen. Wenn sie in getrennte Käfige gesetzt werden, so dass sie sich noch sehen und hören, nicht mehr jedoch berühren können, äußern sie Isolationsfiepen einer bestimmten Dauer, Grundfrequenz und Frequenzumfang (Differenz aus maximaler und minimaler Frequenz innerhalb eines Lautes). Wird zwischen die Tiere eine Blende geschoben, so dass sie sich nur noch hören, nicht mehr berühren und sehen können, nehmen sowohl die Lautdauer wie Grundfrequenz und Frequenzumfang zu. Wird ein Tier in einen anderen Raum gebracht, so dass sich die Tiere weder berühren, noch sehen, noch hören können, nehmen Lautdauer, Grundfrequenz und Frequenzumfang nochmals zu. Die Tatsache, dass Vokalisationen graduell kodiert sind, heißt jedoch nicht, dass der Empfänger nicht auch kategoriale Informationen aus den Lauten ziehen könnte. Von Totenkopfaffen ist zum Beispiel bekannt, dass sie sich individuell an ihren Isolationspieplauten erkennen (Symmes & Biben, 1985). Die Identifikation eines bestimmten Individuums über dessen Stimme ist ein kategorialer Prozess – auch wenn die Botschaft des Vokalisierenden (Bedürfnis nach sozialem Kontakt) graduell kodiert ist.

45 (c) Vokalisationen weisen im Gegensatz zu Sprache keine Syntax auf, d. h. es gibt bis jetzt keinerlei Beobachtungen, die darauf hindeuten, dass eine Veränderung in der Reihenfolge verschiedener Lauttypen in einer Lautsequenz zu einer Veränderung in deren Bedeutung führt. Berechnet man beim Totenkopfaffen die Häufigkeit, mit der unterschiedliche Lauttypen innerhalb einer Lautsequenz bei ein und demselben Tier aufeinander folgen, so stellt sich heraus, dass jeder Lauttyp mit der bei weitem größten Häufigkeit von sich selbst gefolgt wird. Mit anderen Worten, Totenkopfaffen“sätze“ bestehen im Wesentlichen aus Wiederholungen ein und desselben Lauttyps (Boinski, 1991; Jürgens, 1979). (d) Während unterschiedliche Wörter durch unterschiedliche artikulatorische, d. h. supralaryngeale Aktivitäten produziert werden, geschieht die Differenzierung von Vokalisationen praktisch ausschließlich auf respiratorisch-laryngealer Ebene. Das heißt, unterschiedliche Vokalisationstypen unterscheiden sich durch ihre Lautstärke, ihren Grundfrequenzverlauf, den Anteil geräuschhafter zu harmonischer Energie, die Amplitudenmodulation usw., d. h. alles Parameter, die in erster Linie durch das Verhalten der Stimmlippen und Ausatmungsmuskulatur bestimmt werden. Keine Hinweise gibt es bis jetzt, dass Affenlaute allein durch Änderung der Formantfrequenzen (d. h. rein artikulatorisch) neue Bedeutungen erhalten. Zwar sind zahlreiche Vokalisationen von Bewegungen des Kiefers (Öffnungs- oder Schließbewegungen) oder der Lippen (Lippenvorstülpen oder Mundwinkelzurückziehen) begleitet (Bauer, 1987; Hauser & Schön-Ybarra, 1994; Hauser et al., 1993), doch sind diese Bewegungen immer auch mit bestimmten laryngo-respiratorischen Aktivitäten korreliert. (e) Sprechkontrolle und Vokalisationskontrolle erfolgen durch unterschiedliche Hirnstrukturen. Eine Reihe von Hirnschädigungen, die beim Menschen zu Sprechstörungen führen, sind beim Affen ohne deutlichen Effekt auf die Lautbildung. So führt beim Makaken die beidseitige Zerstörung weder des dem Broca’schen Sprachzentrum homologen Gebiets, noch der Wernicke-Area zu einer Beeinträchtigung der Vokalisationsfähigkeit (Sutton et al., 1974). Beim Totenkopfaffen konnte gezeigt werden, dass auch eine beidseitige Zerstörung des sensomotorischen Gesichtscortex, die beim Menschen zu einem

46

I. Grundlagen der Psycholinguistik

Lautrepertoire von Schimpansen Vokalisation

Kontext

Sonagramm

Keuchheulen ( pant-hoot )

vorwiegend von erwachsenen M nnchen; Phonation bei Aus- und Einatmung; wird oft als Antwort auf Keuchheulen entfernter Gruppen ge u§ert, auch beim Fleischfressen nach erfolgreicher Jagd auf Beutetiere und beim Begr §en Bekannter nach l ngerer Trennung; Imponierlaut

Keuchgrunzen ( pant-grunt )

wird von subdominanten M nnchen und Weibchen (au§er Jungtieren) gegen ber sich ann hernden dominanten Tieren ge u§ert; Phonation bei Aus- und Einatmung; Submissionslaut

Kichern ( laughter )

vorwiegend bei Jungtieren w hrend des Spiels, besonders beim Kitzeln; Vokalisation teilweise rhythmisch, teilweise neben exhalatorischen auch inhalatorische Phonationen

Quieken ( squeak )

vorwiegend von Weibchen und adoleszenten M nnchen bei Ann herung eines h herrangigen Tieres oder nach erlittenem Angriff; oft in Kreischen bergehend

Kreischen ( scream )

kommt bei allen Altersklassen und beiden Geschlechtern vor, am seltensten bei dominanten M nnchen; wird bei heftigen aggressiven Auseinandersetzungen, teilweise auch von Weibchen w hrend der Kopulation ge u§ert

Wimmern ( whimper )

vorwiegend von m nnlichen Jungtieren beim Auftreten fremdartiger Ger usche, beim Betteln um Futter oder w hrend des Anklammerns an die Mutter bei Bedrohung

Bellen ( bark )

vorwiegend von adoleszenten Weibchen; dr ckt Protest aus

völligen Verlust der Willkürkontrolle über die Sprechwerkzeuge führt (Pseudobulbärparalyse), keinen Effekt auf die vokale Kommunikation dieser Tiere hat (Jürgens et al., 1982).

Grund für diese Diskrepanz ist die bereits erwähnte Tatsache, dass Vokalisationen im Wesentlichen angeborene, Wörter erlernte motorische Muster darstellen. Für die Produktion

47

3. Phylogenese der sprachlichen Kommunikation

Lautrepertoire von Schimpansen (Fortsetzung) Vokalisation

Kontext

Sonagramm

Drohbellen ( waa bark )

vorwiegend von adoleszenten M nnchen und Weibchen beim Drohen ber gr §ere Distanz; Drohbellsequenzen gehen oft in Bellen oder Kreischen ber

Brummen ( rough grunt )

vorwiegend von dominanten M nnchen bei Ann herung an und Fressen von bevorzugtem Futter

Keuchen ( pant )

kommt nur bei M nnchen und erwachsenen Weibchen vor; Phonation bei Aus- und Einatmung im 5 Hz-Rhythmus; tritt auf bei kopulierenden M nnchen, bei Begr §ung eines befreundeten Tieres nach l ngerer Trennung und bei sozialer Hautpflege

Grunzen ( grunt )

kommt bei erwachsenen und adoleszenten M nnchen und Weibchen, nicht jedoch bei Jungtieren vor; tritt beim Fressen und in leicht angespannten Situationen auf; Grunzsequenzen gehen h ufig in andere Lautsequenzen, wie Brummen, Bellen oder Keuchgrunzen, ber

R uspern ( cough )

vorwiegend von dominanten M nnchen und adoleszenten Weibchen als leichte Drohung gegen ber subdominanten Tieren

Br llen ( wraa )

seltener Laut; nur bei erwachsenen, besonders m nnlichen Tieren bei unerwarteter Begegnung mit Menschen, B ffeln oder toten Schimpansen; verbindet Alarmfunktion mit Drohen

Abb. 3.7: Übersicht über die Lautäußerungen von Schimpansen. Bei den Sonagrammen entspricht die Gesamtlänge der Ordinate 7 kHz, die Gesamtlänge der Abszisse 1 s. Modifiziert nach Marler und Tenaza, 1977.

komplexer, erlernter motorischer Muster ist allgemein eine Reihe von Hirngebieten nötig, wie z. B. der sensomotorische Cortex, der prämotorische Cortex (zu dem die BrocaArea zählt), das Kleinhirn, die Basalganglien und der ventrolaterale Thalamus, die für die Produktion angeborener motorischer Muster nicht erforderlich sind. Die motorische Koordination von Vokalisationen findet praktisch

ausschließlich im unteren Hirnstamm (zentrales Höhlengrau, kleinzellige Formatio reticularis) statt (Jürgens, 1998). 2.2. Sprachtraining beim Schimpansen Nachdem aus Verhaltensbeobachtungen an freilebenden Schimpansen klar geworden war, dass Schimpansen kein unserer Sprache vergleichbares Kommunikationssystem besit-

48 zen und auch die Aufzuchtversuche von Schimpansenkindern unter menschlicher Obhut gezeigt hatten, dass diese keinerlei Tendenz zur Nachahmung von Sprachlauten zeigen, begann man Ende der 60er Jahre mit Versuchen, auf nicht-vokalem Weg Schimpansen sprachartige Kommunikationssysteme anzudressieren. Die ersten detaillierten Untersuchungen dazu stammen von Premack (1970). Premacks Versuchstier Sarah lernte zunächst einmal, ein Plastikstück bestimmter Form und Farbe mit einer bestimmten Sorte Obst zu assoziieren, indem das Plastikzeichen neben das Obst gelegt wurde und Sarah erst dann das Obst erhielt, wenn sie das Plastikzeichen, das auf der Rückseite mit einem Magneten versehen war, an eine Metalltafel geheftet hatte. „Wortverständnis“ wurde so getestet, dass ein richtiges und ein falsches Zeichen neben ein Stück Obst gelegt wurde. Nur wenn Sarah das richtige Zeichen an die Tafel heftete, bekam sie das Obst. Der nächste Schritt war, dass Sarah außer dem Obstzeichen auch das Zeichen für den Obstgeber anheften musste, um das Obst zu bekommen, z. B. „Mary Apfel“. „Geschrieben“ wurde von oben nach unten. Die Reihenfolge „Apfel Mary“ wurde nicht akzeptiert. Dem „Zweiwort“-Stadium folgte ein „Dreiwort“Stadium, bei dem Sarah auch noch den Empfänger des Obstes angeben musste, z. B. „Mary Banane Sarah“. Das „Dreiwort“-Stadium wurde durch Hinzunahme eines „Tätigkeitswortes“ (z. B. geben oder legen) in ein „Vierwort“-Stadium überführt und schließlich durch Anfügen eines „Nebensatzes“ bis zum „Achtwortsatz“ erweitert. Neben dem Erlernen zunehmend längerer „Sätze“ gelang Sarah die Aneignung zunehmend abstrakterer Begriffe. Die erste Stufe in diesem Prozess war die Aneignung von Klassenbegriffen. Um z. B. den Begriff „Farbe“ zu erlernen, wurden verschiedene rote Objekte auf den Tisch gelegt. Sarah musste schreiben „Mary geben Sarah Rot“, worauf ihr von Mal zu Mal unterschiedliche rote Objekte ausgehändigt wurden. Das Gleiche wurde mit drei weiteren Farben durchgeführt. Dann wurde das Zeichen für „Farbe von“ zwischen das Zeichen „Rot“ und einem realen Apfel gelegt oder zwischen das Zeichen „Gelb“ und eine reale Banane. Wurde schließlich abgefragt, wie die „Farbe von Apfel“ ist, wobei statt einem realen Apfel, das Zeichen für Apfel (blaues Dreieck) verwendet wurde, antwortete Sarah auf diese Frage mit dem Zeichen „Rot“ ⫺ nicht „Blau“. Es war ihr also offen-

I. Grundlagen der Psycholinguistik

sichtlich sowohl die Bedeutung des Begriffes „Farbe von“ klar wie die Tatsache, dass sich die Frage nicht auf eine Eigenschaft des Zeichens, sondern des bezeichneten Objektes bezog. Eine noch höhere Abstraktionsstufe erreichte Sarah mit dem Erlernen der Begriffe „Name von“ und „nicht Name von“. Dazu wurde zunächst das Zeichen „Banane“ neben eine reale Banane gelegt und Sarah aufgefordert, das neue Zeichen „Name von“ dazwischen zu legen. Wenn das Zeichen für Apfel neben eine Banane gelegt worden war, sollte sie das Zeichen „nicht Name von“ dazwischen legen. Nach einiger Übung meisterte Sarah die Aufgabe, aus einer Gruppe angebotener Zeichen das richtige herauszusuchen, wenn neben ein Fragezeichen das Zeichen für „Name von“ und daneben ein reales Objekt gelegt wurde. Schließlich genügte es für das Erlernen neuer Zeichen, wenn neben das reale Objekt das Zeichen „Name von“ und dazu das neu zu erlernende Zeichen gelegt wurden. Die Anzahl der insgesamt von Sarah erlernten Zeichen belief sich auf etwa 130 (Premack & Premack, 1972). Sarah verwendete diese Zeichen nur auf Aufforderung und bei entsprechender Belohnung, nie um von sich aus eine Kommunikation in Gang zu bringen. Die Auswahlmöglichkeiten Sarahs an Zeichen, um einen Sachverhalt auszudrücken, waren in allen Testsituationen vom Experimentator stark eingeschränkt. Ein anderer Ansatz, Schimpansen ein nicht-vokales sprachähnliches Kommunikationssystem anzulernen, stammt vom Ehepaar Gardner (Gardner & Gardner, 1969, 1984). In diesem Fall dienten Handgesten aus der amerikanischen Taubstummensprache Ameslan als Zeichen. Die Zeichen wurden erlernt, indem die Hände des Versuchstiers (Washoe) durch die Experimentatoren in die entsprechende Form und Position gebracht bzw. mit ihnen die entsprechende Bewegung durchgeführt wurde. Bei richtiger Ausführung der Geste in adäquatem Kontext wurde Washoe mit Kitzeln belohnt. Tests auf „Sprach“beherrschung wurden in der Form vorgenommen, dass Washoe Photos verschiedener Objekte vorgelegt wurden, die sie mittels Ameslanzeichen bezeichnen sollte. Ein Beobachter, der nur Washoe, nicht jedoch das jeweilige Photo sehen konnte, musste die Objekte dann dem Versuchsleiter benennen. Da jedes Photo nur einmal gezeigt wurde, konnte Washoe nicht auf ein bestimmtes Bild, son-

49

3. Phylogenese der sprachlichen Kommunikation

dern nur auf die darin dargestellte Objektklasse reagieren. Washoe lernte über die Handgesten, etwa vergleichbar viel Zeichen zu beherrschen wie Sarah mit Hilfe der Plastikstückchen. Im Gegensatz zu letzterer wurde bei Washoe jedoch häufig spontaner Gebrauch der erlernten Zeichen beobachtet. Als Washoe z. B. einmal ein Spielzeug in ein Loch in der Innenwand ihres Wohnanhängers fiel, lenkte sie die Aufmerksamkeit von Mr. Gardner auf eine Stelle der Wand unterhalb des Loches und machte wiederholte Male das Zeichen für „öffnen“. Washoe führte vereinzelt auch „Selbstgespräche“. So wurde beobachtet, dass sie für sich das Zeichen „leise“ machte, als sie sich heimlich an einen verbotenen Ort schlich, und das Zeichen „eilig“, während sie zum Töpfchen lief. Die Gardners berichten sogar, dass Washoe einem kleinen Jungen, der spielerisch versuchte, einige der Handgesten nachzuahmen, dabei aktiv zu Hilfe kam, indem sie die Kinderhände mit ihren eigenen Händen in die richtige Form brachte, wie sie es selbst während des Sprachtrainings an sich erfahren hatte (Gardner & Gardner, 1989). Die Anzahl der von Washoe in einem „Satz“ verwendeten unterschiedlichen Handgesten ist in der Regel eins bis zwei. Wie Beobachtungen von Terrace und Mitarbeitern (1979) an einem anderen Ameslan praktizierenden Schimpansen (Nim) zeigen, besteht bei längeren Sätzen die Tendenz, einige wenige Zeichen in unregelmäßiger Weise zu wiederholen. Beispiele hierfür sind: „Ich essen ich essen“ oder „Ich Banane du Banane ich du geben“ oder „Du ich Banane ich Banane du“ oder „Banane ich ich ich essen“ oder „Geben Orange ich geben essen Orange ich essen Orange geben ich essen Orange geben ich du“. Diese Beispiele machen klar, dass die von Schimpansen produzierten Mehrwortsätze keine echte Syntax aufweisen, geschweige denn eine Grammatik im Sinne von Flektionen nach Aspekt und Kongruenz, wie sie für die menschliche Taubstummensprache charakteristisch sind. Jüngere Untersuchungen an Zwergschimpansen haben allerdings klar gemacht, dass ein erheblicher Leistungsunterschied zwischen Produktion und Verstehen von Sprache bestehen kann. Zwergschimpansen, wie gewöhnliche Schimpansen, sind unfähig, vorgesprochene Wörter auch nur annäherungsweise nachzusprechen. Sie haben jedoch kein Problem, vorgesprochenen Wörtern eine bestimmte Bedeutung zuzuordnen (SavageRumbaugh et al., 1986). Der Zwergschim-

panse Panbanisha lernte innerhalb von 3,5 Jahren, von 217 einzeln vorgesprochenen Wörtern 179 zu verstehen, so dass er in der Lage war, den genannten Gegenstand auf drei zur Auswahl präsentierten Photos zu identifizieren. Dabei waren die Namen der betreffenden Gegenstände anhand anderer Photos bzw. realer Objekte gelernt worden als den im Test verwendeten (Williams et al., 1997). Savage-Rumbaugh (1988) konnte zeigen, dass Zwergschimpansen nicht nur einzelne Wörter, sondern komplette Sätze, in denen ganze Handlungsabläufe beschrieben werden, verstehen können. Wurden z. B. dem Versuchstier Kanzi drei Photos vorgelegt, wobei das erste Photo Trainerin Karen zeigte, wie sie sich hinter einem Baum versteckt, das zweite Photo den Trainer Bill zeigte, wie er sich hinter einem Baum versteckt, das dritte Photo die Trainerin Karen zeigte, wie sie Wasser ins Feuer schüttet, und Kanzi in Englisch gefragt, auf welchem Photo Karen sich hinter einem Baum versteckt, so deutete Kanzi auf das richtige Bild. Dabei hatte Kanzi keines der drei Photos vorher gesehen und auch die Frage vor der Testsituation noch nicht gestellt bekommen. Ihr Verständnis resultierte allein daraus, dass die in der Frage vorkommenden Wörter bereits aus anderem Zusammenhang her bekannt waren. Da Kanzi anhand der Wortreihenfolge auch in der Lage ist, eine Subjekt/Objekt-Unterscheidung vorzunehmen, spricht dies für das Vorhandensein eines rudimentären Syntaxverständnisses im Bereich der Sprachperzeption.

3.

Modelle zur Rekonstruktion der Ursprache

3.1. Die Sprache des Kleinkindes Um eine Vorstellung darüber zu bekommen, wie eine Ursprache möglicherweise ausgesehen haben könnte bzw. über welche Zwischenstufen sich Sprache aus vorsprachlichen Kommunikationsformen im Laufe der Stammesgeschichte entwickelt haben könnte, bietet es sich an, sich die Sprachentwicklung von Kleinkindern einmal genauer anzusehen. Die früheste Form der vokalen Mitteilung beim Kleinkind ist das Schreien. Schreien stellt ein angeborenes Ausdrucksverhalten auf Unwohlsein dar; es ist somit den Vokalisationen nicht-menschlicher Primaten und anderer Säuger vergleichbar. Schreien tritt beim Kleinkind von Geburt an auf. Einige

50 Wochen nach der Geburt kommen weitere, ebenfalls genetisch determinierte Lautäußerungen hinzu, die nun auch nicht-aversive emotionale Zustände zu signalisieren vermögen (Morath, 1979). Der erste Schritt spezifischerer Art in Richtung Sprache vollzieht sich auf der perzeptorischen Seite. Lange bevor die ersten Phoneme produziert werden können, können sie diskriminiert werden – und zwar in kategorialer Weise. So gelingt die Unterscheidung von /ba/ und /pa/ mit der „voice onset time“ (zeitlicher Abstand zwischen Lösen des Verschlusses und Phonation) als Variabler bereits einen Monat alten Kindern mit einer Phonemunterscheidungsgrenze, die der Erwachsener entspricht (Eimas et al., 1971). Die Unterscheidung von /i/ und /u/, von /i/ und /a/ sowie von /pa/ und /pa˜/, d. h. nicht-nasalen von nasalen Lauten, ist ebenfalls bereits im Alter von ein bis vier Monaten möglich (Trehub, 1973). Im Alter von zwei bis drei Monaten sind Kinder in der Lage, /bæ/, /dæ/ und /gæ/ – und damit den Artikulationsort von Verschlusslauten – zu unterscheiden (Eimas, 1974). Nach Kuhl (1976) können sechs Monate alte Kinder auch /a/ und /i/ identifizieren, wenn diese von unterschiedlichen Sprechern und mit unterschiedlicher Intonation gesprochen werden. Die ersten vokalen Imitationen treten bei Kleinkindern in einem Alter von drei bis sechs Monaten auf (Masataka, 1992; Oller und Eilers, 1992). Sie beziehen sich jedoch nicht auf Phoneme, sondern auf Intonationskonturen, d. h. Tonhöhen- und Intensitätsverläufe gehörter Lautäußerungen. Im Alter von sieben bis acht Monaten kommt es zu einer Abnahme der glottalen und einer Zunahme der artikulatorischen Modulationen (Holmgren et al., 1986). Das Kind tritt in die Babbelphase ein. Charakteristisch für diese Phase ist, dass eine große Anzahl unterschiedlicher Lautbildungen durchgespielt wird. Die Anzahl ist sehr viel größer als die Anzahl der Phoneme der zu erlernenden Sprache(n) (Jakobson, 1968). Andererseits müssen nicht unbedingt alle Laute, die in der zu erlernenden Sprache vorkommen, bereits in der Babbelphase auftreten (Locke, 1983). Sinn der Babbelphase ist es, durch fortwährenden Vergleich der bei der Lautbildung ausgehenden motorischen Befehle mit den zurückkommenden auditorischen Meldungen des „Ergebnisses“ der motorischen Befehle eine Willkürkontrolle über die Sprechwerkzeuge zustande zu bringen.

I. Grundlagen der Psycholinguistik

Die Willkürkontrolle über die Sprechwerkzeuge schreitet nicht für alle Phoneme gleichmäßig voran. So scheinen unter den Verschlusslauten, die Labiallaute /b/ und /p/ generell früher aufzutreten als die Palatallaute /g/ und /k/ (Jakobson, 1968; Macken, 1980). Ursache hierfür ist vermutlich, dass zu Beginn der Babbelphase die Artikulationsbewegungen vorwiegend mit dem Kiefer, kaum mit der Zunge erzeugt werden (Davis & MacNeilage, 1995). Auch die Tatsache, dass die Vokale /a/, /e/ und /i/ im Allgemeinen früher auftreten als /u/ und /o/ dürfte auf die der Zungen- und Lippenkontrolle vorauseilende Kieferkontrolle zurückzuführen sein. Besonders spät werden die Frikativ- und Liquidlaute wie /s/, /s/, /z/, /θ/ und /l/ beherrscht, die besonders hohe Anforderungen an die motorische Feinkontrolle stellen (Ingram et al., 1980). Die in vielen Sprachen vorkommenden Tonallaute, d. h. Vokale unterschiedlichen Tonhöhenverlaufs, scheinen dagegen relativ früh beherrscht zu werden. Nach Clumeck (1980) werden die im Mandarin-Chinesisch vorkommenden vier Tonalverläufe (hoch, fallend, aufsteigend, fallend-steigend) bereits mit dreieinhalb Jahren beherrscht, einem Alter, in dem Affrikative, einige Frikative und der Liquid /l/ noch nicht voll ausgebildet sind. Nach Tuaycharoen (1977; zitiert in Clumeck, 1980) konnte ein von ihm untersuchtes thailändisches Kind mit 23 Monaten bereits alle Tonallaute meistern, hatte jedoch Probleme mit komplexen artikulatorischen Lauten wie Diphthongen, Triphthongen und initialen Konsonantengruppen. Zwar nimmt die sprachliche Umgebung schon früh Einfluss auf die Lautentwicklung. So weisen nach De Boysson-Bardies und Vihman (1991) englische, französische, schwedische und japanische Kinder charakteristische Unterschiede in der Phonemhäufigkeit bereits zu einem Zeitpunkt auf, bevor sie ihr erstes Wort produzieren. Doch deutet eine Untersuchung von Carr (1953) an taubgeborenen Kindern darauf hin, dass die Lautentwicklung nicht völlig vom auditorischen Input abhängt. Carr verglich die Phonemhäufigkeit bei 48 taubgeborenen Fünfjährigen ohne Sprachtraining mit denen von normalhörenden Einjährigen und stellte fest, dass die zwölf häufigsten Konsonanten der tauben Kinder mit Ausnahme von zwei identisch waren mit den zwölf häufigsten Konsonanten der hörenden Kinder. Die ersten Wörter erscheinen beim Kleinkind mit zehn bis dreizehn Monaten. Auf

3. Phylogenese der sprachlichen Kommunikation

Grund des noch begrenzten Artikulationsvermögens handelt es sich um mehr oder weniger gelungene Annäherungen an die gehörten akustischen Vorbilder. Frikativlaute werden oft durch Verschlusslaute ersetzt, Konsonantengruppen durch Einfachkonsonanten, stimmhafte Endkonsonanten werden in der Regel weggelassen, Konsonanten und Vokale werden so verändert, dass bevorzugt vorn gesprochene Konsonanten (/d/, /t/) mit vorn gesprochenen Vokalen (/i/, /e/), labiale Konsonanten (/m/, /b/, /p/) mit zentralen Vokalen (/a/, /Λ/, /e/) und rückwärts gebildete Konsonanten (/g/, /k/) mit rückwärts gebildeten Vokalen (/u/, /o/) kombiniert werden (Davis & MacNeilage, 1995; Oller et al., 1976). Besonders charakteristisch für die Frühphase der Wortbildung ist die Angleichung der Konsonanten oder/und Vokale aufeinander folgender Silben. So kommt es zu den für die Kindersprache so typischen Silbenreduplikationen wie Mama, Papa, Popo, Pipi, Ahah. Durch die Silbenreduplikation wird zum einen eine Artikulationsvereinfachung, zum anderen eine Erhöhung der Redundanz und damit bessere Verständlichkeit erreicht. In dieser Frühphase der Sprachentwicklung stehen die einzelnen Wörter noch nicht für spezifische Begriffe, sondern für komplexe Sachverhalte (Stern & Stern, 1975). Man spricht deshalb von Einwortsätzen. Bedingt durch die Kürze des „Satzes“, sind diese Äußerungen entsprechend mehrdeutig. Der Einwortsatz „Mütze“ kann bedeuten: „da liegt meine Mütze“; „ich möchte die Mütze haben“; „setz mir die Mütze auf“; „ich habe eine Mütze auf“; „das ist Papis Mütze“; „Papi zieht die Mütze auf“ usw. Einwortsätzen fehlt naturgemäß eine Syntax. Sie sind außerdem agrammatisch, da sie weder rein substantivisch noch rein verbal, noch rein interjektional sind. Die Einwortphase kann zwischen zwei und zwölf Monaten dauern und geht etwa um die Mitte des zweiten Lebensjahres in die Phase der Zweiwortsätze über. Beispiele hierfür sind: „Papa Hut“; „Mama nich“; „is weg“; „toße (⫽ großer) Wauwau“ usw. (Pinker, 1996). Durch die Hinzunahme eines zweiten Wortes wird die Aussage spezifischer. Es zeigen sich Ansätze einer Syntax in dem Sinn, dass die Reihenfolge der Wörter nicht beliebig ist. Es kommt zu einer starken Zunahme des Wortschatzes, wobei der passive dem aktiven Wortschatz vorauseilt. Im Alter von zwanzig Monaten ist der passive Wortschatz etwa fünf mal größer als der aktive (Benedict,

51 1979; Harris et al., 1995). Nicht alle Wörter des kindlichen Lexikons sind von Erwachsenen übernommen, d. h. Wortneuschöpfungen kommen durchaus vor. So berichtet Jespersen (1923), dass sein zwei Jahre, drei Monate alter Sohn Krähen als „vakvak“ bezeichnete, ohne diese Bezeichnung von Erwachsenen gehört zu haben. Ein anderer Junge (Alter zwei Jahre, ein Monat) benutzte für Sprudel die Bezeichnung „ft“. Ein Mädchen mit einem Jahr, fünf Monaten sagte ein geflüstertes „puh“ zu Streichhölzern, Zigarren und Pfeife sowie „gagag“ für Huhn. Ein anderes Mädchen im Alter von einem Jahr, acht Monaten sagte „bom“, als etwas zu Boden fiel, und benutzte dieses Wort anschließend für alles Zerbrochene und Defekte wie zerbrochene Teller, Loch in der Kleidung, abgerissenen Knopf usw. Wenn das Prinzip des Benennens also einmal erkannt ist, wird davon auch schöpferisch Gebrauch gemacht, wobei die Wortneuschöpfungen häufig onomatopoetischer Art sind. Im Laufe des dritten Lebensjahres kommt es dann zur Bildung von Mehrwortsätzen. Damit verbunden ist der Erwerb einer Grammatik. Dieser zeigt sich z. B. im Auftreten von regulär deklinierten unregelmäßigen Verben („biegte“ statt „bog“) oder Verwendung falscher Pluralformen („Schälter“ statt „Schalter“). Während in den ersten beiden Lebensjahren alle Begriffe noch sehr konkret aufgefasst werden, entwickelt sich im dritten Lebensjahr ein Verständnis für abstrakte Begriffe. Das Wort „Vater“ z. B. wird zunächst als Eigenname aufgefasst, und ein einjähriges Kind ist verwirrt, wenn ein anderer Mann als der eigene Vater als „Vater“ eines anderen Kindes bezeichnet wird. Das Kind löst das Problem zunächst auf die Weise, dass es den Begriff „Vater“ generalisiert und auf alle Männer anwendet. Erst im Laufe des dritten Lebensjahres erkennt es den Begriff als eine Verwandtschaftsbeziehung. Gleiches gilt für das Wort „ich“. Kleinkinder sprechen nicht von sich selbst mit „ich“, sondern benutzen den Eigennamen, da „ich“ ein abstraktes Konzept des Sprechenden darstellt, nicht eine konkrete Person. Erst am Ende des dritten Lebensjahres wird der Begriff „ich“ als Pronominalbezeichnung verstanden (Jespersen, 1923). Mit der Zunahme des Abstraktionsvermögens werden im vierten Lebensjahr schließlich auch Aussagen, die sich nicht auf Gegenwärtiges, sondern Vergangenes und Zukünftiges beziehen, verstanden (Locke, 1997).

52 3.2. „Primitivsprachen“ Eine weitere Möglichkeit, archaische Sprachmerkmale aufzuspüren, ist die Untersuchung von sogenannten Primitivsprachen. Als solche werden im Folgenden einerseits Sprachen von Völkern gezählt, die sich noch im Jägerund-Sammler-Stadium befinden, also eine sehr frühe Kulturstufe repräsentieren, auf der anderen Seite Pidgin-Sprachen, d. h. historisch sehr junge Sprachen, die durch Vermischung mehrerer nur unvollkommen beherrschter Sprachen entstanden. Als Beispiel für eine wahrscheinlich sehr alte „Primitivsprache“ soll die Buschmannsprache (Khoisan) dienen. Nach Stopa (1962) weist Khoisan folgende Merkmale auf: (a) Es handelt sich nicht um eine rein akustische Sprache: eine das Sprechen begleitende Gestikulation ist in vielen Fällen semantisch unentbehrlich. (b) Vokale werden nicht nur durch Artikulationsbewegungen, sondern auch durch Tonhöhenverschiebungen und unterschiedlichen Grad des Gepresstseins, also laryngeale Mechanismen semantisch differenziert. (c) Konsonanten werden nicht nur durch Obstruktion des exspiratorischen Luftstroms erzeugt, sondern auch auf inhalatorische Weise, z. B. in den labialen und lingualen Schnalzlauten. (d) Khoisan weist einen hohen Anteil an Silbenreduplikationen auf: 10 % des Grundwortschatzes und 20 % des Alltagswortgebrauchs bestehen aus reduplizierten Silben. Dabei wird die Reduplikation sowohl wortbildend wie formenbildend verwendet (letzteres beim Plural und Intensivum: tu ⫽ Mensch, tutu ⫽ Menschen). (e) Konkretismus: für Früchteessen, Fleischessen oder Markessen werden verschiedene Verben gebraucht. Es besteht ein Mangel an Gattungsnamen: so gibt es Wörter für spezielle Früchte, nicht jedoch für Früchte allgemein. (f) Vieldeutigkeit: das buschmännische „/ga´m“ bedeutet „Sonne“, „warm“, „durstig“; „/ne /ni“ bedeutet „Auge“, „sehen“, „dieser da.“ (g) Mangel an Zahlwörtern: Es wird nur bis drei gezählt, wobei „drei“ schon gleichbedeutend mit „viele“ ist. (h) Parataktische Aneinanderreihung von Sätzen ohne Unterscheidung in Hauptund Nebensätze.

I. Grundlagen der Psycholinguistik

Als Beispiel für eine junge „Primitivsprache“ soll das auf den Neuen Hebriden gesprochene Beach-la-Mer-Pidgin dienen. Nach Jespersen (1923) ist dieses charakterisiert durch ein fast vollständiges Fehlen von Konjugationen und Deklinationen. Der Plural wird nicht durch entsprechende Suffixe, sondern über Präfixe oder Zusatzwörter gebildet: statt „they say“ heißt es „all he say“; statt „we“ heißt es „me two fellow“ (falls zu zweit) bzw. „me plenty man“ (falls mehrere Personen gemeint sind). Der Genitiv wird über Hilfswörter konstruiert: statt „your wife“ heißt es „wife belong you“. Häufig fehlt eine Geschlechtsunterscheidung: statt „she is my sister“ heißt es „that woman he brother belong me“. Die Zukunft kann nur durch Umschreibung ausgedrückt werden: statt „he will grow“ heißt es „he small now, bymby he big“.

4.

Synopsis

Die Abschnitte „Vokale Kommunikation bei nicht-menschlichen Primaten“, „Die Sprache des Kleinkindes“ und „Primitivsprachen“ haben nicht nur gezeigt, dass es unterschiedliche Komplexheitsebenen gibt, auf denen vokale Kommunikation stattfinden kann, sondern sie legen auch eine bestimmte Abfolge stammesgeschichtlicher Sprachentwicklungsstadien nahe. Danach nahm die gesprochene Sprache ihren Ausgang von den nichtverbalen emotionalen stimmlichen Lautäußerungen nicht-menschlicher Primaten. Diese Lautäußerungen sind in ihrer akustischen Struktur weitgehend genetisch determiniert. Sie finden sich beim rezenten Menschen noch in Form von Lachen, Weinen, Jauchzen, Stöhnen und den die verbale Komponente modulierenden emotionalen Intonationen. Die Entwicklung zu den modernen Sprachen hat sich dann vermutlich über folgende Stufen vollzogen: (1) Phase der lautlichen Abbildung Bedingt durch eine teilweise Umorganisation zentralnervöser Verbindungen (z. B. der cortico-motoneuronalen Projektion; Jürgens, 1992) kommt es zu einer verbesserten Willkürkontrolle über die Sprechwerkzeuge. Dadurch werden vokale Imitationen innerhalb der vom Vokaltrakt vorgegebenen Grenzen möglich. Die ersten willkürlich produzierten neuen Laute mögen Imitationen von Tierstimmen zum Anlocken von Jagdwild oder Imitationen von Umweltgeräuschen, um

53

3. Phylogenese der sprachlichen Kommunikation

Gruppengenossen auf bestimmte Gegebenheiten hinzuweisen, gewesen sein. Auf Grund des onomatopoetischen Charakters der Lautäußerungen wurden diese spontan verstanden. Verständniserleichternd kam hinzu, dass die Lautäußerungen wahrscheinlich von mimischen und gestischen Verhaltensweisen pantomimischen Charakters oder in Form von Intentionsbewegungen begleitet wurden. (2) Phase der lautlichen Standardisierung Im Laufe der Zeit kommt es zu einer Anpassung der Lautäußerungen verschiedener Individuen einer Gruppe in dem Sinn, dass für einen bestimmten Sachverhalt der gleiche Laut verwendet wird. Jede Lautäußerung drückt einen komplexen Sachverhalt aus und entspricht damit dem Einwortsatz-Stadium des Kleinkindes. Die Lautäußerungen sind von erläuternder Gestik begleitet; möglicherweise ist auch letztere teilweise standardisiert. Die Äußerungen beziehen sich auf gegenwärtige Sachverhalte konkreter Natur. Die geäußerten Laute sind noch nicht phonematisiert, sondern werden als ganzheitliche Lautgestalten produziert. Das Lexikon ist noch sehr beschränkt. (3) Phase der asyntaktischen Mehrwortsätze Parallel mit einer langsamen Erweiterung des Lexikons setzt eine Tendenz ein, zwei bis drei unterschiedliche Lautäußerungen aneinanderzureihen und damit die Aussage zu spezifizieren. Die Aneinanderreihung geschieht zunächst nicht nach syntaktischen Regeln, sondern entsprechend dem zeitlichen Ablauf des Sachverhaltes, der mitgeteilt wird. Die Lautäußerungen sind von erläuternder Gestik begleitet und beziehen sich auf gegenwärtige Sachverhalte konkreter Natur. (4) Phase der syntaktischen Mehrwortsätze Durch Einführung syntaktischer Regeln wird die Mehrdeutigkeit asyntaktischer Mehrwortsätze reduziert. (5) Phase der Phonematisierung Die als „Wörter“ verwendeten ganzheitlichen Lautgestalten werden in standardisierte Untereinheiten (Phoneme) zergliedert. Die Phonematisierung erlaubt es, aus einer relativ geringen Anzahl von Untereinheiten eine große Zahl von Wörtern zu bilden – ohne Einbuße in der Dekodierbarkeit der Wörter. Dementsprechend kommt es in dieser Phase zu einer starken Zunahme des Wortschatzes. Ein Großteil der Wörter besteht aus reduplizier-

ten Silben. Die Vokaldifferenzierung erfolgt nicht nur über Zungen- und Lippenbewegungen, sondern auch laryngeal über Veränderungen der Tonhöhe und des Grades an Gepresstheit der Phonation. Bei der Konsonantenbildung kommen neben exspiratorisch erzeugten Lauten auch inspiratorische Klick-, Schnalz- und Schmatzlaute vor. (6) Phase der Grammatisierung Durch Einführung grammatischer Regeln wird die Spezifität der Aussage erhöht. Dies macht die sprechbegleitende Gestik weitgehend überflüssig. Die zunehmende Differenzierung der Ausdrucksmöglichkeiten führt zu einer Zunahme abstrakter Begriffe und einer Erweiterung der Aussagen über gegenwärtige Sachverhalte hinaus (Vergangenheit, Zukunft). Zur Datierung der verschiedenen Phasen lassen sich nur Vermutungen anstellen. Phase 1 (lautliche Abbildung) hat eine wesentliche Zunahme intracerebraler Verknüpfungen für das Zustandekommen einer erweiterten Willkürkontrolle über die Sprechwerkzeuge zur Voraussetzung. Eine deutliche Hirnvolumenzunahme (bezogen auf das Körpergewicht) gegenüber nicht-menschlichen Primaten findet man in der Hominidenentwicklung zum ersten Mal bei Homo habilis und Homo rudolfensis vor etwa 1,8 Millionen Jahren. Da beide Arten den heutigen Menschenaffen auch durch die Fähigkeit zur Steinwerkzeugbearbeitung überlegen waren, erscheint es plausibel, die ersten Anfänge der Sprachentwicklung vor knapp zwei Millionen Jahren zu vermuten. Phase 2 der Sprachentwicklung (lautliche Standardisierung) könnte mit dem zweiten großen kulturellen und cerebralen Entwicklungsschub zusammengefallen sein, nämlich der Standardisierung der Werkzeugformen (Acheule´en-Industrie) und Anwachsen des Hirnvolumens auf über 1000 ml vor etwa 1,2 Millionen Jahren. Demnach hätte bereits Homo erectus so etwas wie eine Protosprache besessen. Da der Schritt vom Einwortsatz zum Mehrwortsatz, wie die frühkindliche Sprachentwicklung zeigt, nicht sehr groß ist, und Homo erectus in der langen Zeit seiner Existenz (ca. ein Million Jahre) eine Hirnvolumenzunahme bis auf 1251 ml und als weitere kulturelle Errungenschaft den kontrollierten Feuergebrauch vorzuweisen hat, ist es nicht unwahrscheinlich, dass auch noch Phase 3 und 4 unserer Sprachentwicklungsskala von Homo erectus erreicht wurde.

54

I. Grundlagen der Psycholinguistik

Vor etwa 200.000 Jahren, zur Zeit des archaischen Homo sapiens präsapiens, erreichte das Hirnvolumen dann heutige Werte, und auch der Vokaltrakt hatte die heutige Form angenommen. Möglicherweise war dies der Zeitpunkt, zu dem der Prozess der Phonematisierung begann. Die rasante kulturelle Entwicklung, die dann vor knapp 50.000 Jahren einsetzt, deutet darauf hin, dass zu diesem Zeitpunkt bereits eine voll ausgebildete (grammatikalisierte) Sprachfähigkeit bestand.

5.

Literatur

evolution: Bringing together genetic, archaeological and linguistic data. Proceedings of the National Academy of Sciences, 85, 6002⫺6006. Clumeck, H. (1980). The acquisition of tone. In G. H. Yeni-Komshian, J. F. Kavanagh & C. A. Ferguson (Eds.), Child phonology. Vol. 1. Production (pp. 257⫺275). New York: Academic Press. Davis, B. L. & MacNeilage, P. F. (1995). The articulatory basis of babbling. Journal of Speech and Hearing Research, 38, 1199⫺1211. Deacon, T. W. (1997). The symbolic species. The coevolution of language and the brain. New York: Norton.

Aiello, L. & Dunbar, R. J. M. (1993). Neocortex size, group size, and the evolution of language. Current Anthropology, 34, 184⫺193.

De Boysson-Bardies, B. & Vihman, M. M. (1991). Adaption to language: Evidence from babbling and first words in four languages. Language, 67, 297⫺ 319.

Arensburg, B., Schepartz, L. A., Tillier, A. M., Vandermeersch, B. & Rak, Y. (1990). A reappraisal of the anatomical basis for speech in middle palaeolithic hominids. American Journal of Physical Anthropology, 83, 137⫺146.

Duchin, L. E. (1990). The evolution of articulate speech: Comparative anatomy of the oral cavity in Pan and Homo. Journal of Human Evolution, 19, 687⫺697.

Bailey, P., von Bonin, G. & McCulloch, W. S. (1950). The isocortex of the chimpanzee. Urbana, IL: The University of Illinois Press. Bauer, H. R. (1987). Frequency code: Orofacial correlates of fundamental frequency. Phonetica, 44, 173⫺191. Belfer-Cohen, A. & Hovers, E. (1992). In the eye of the beholder: Mousterian and Natufian burials in the Levant. Current Anthropology, 33, 463⫺471.

Eimas, P. D. (1974). Auditory and linguistic processing of cues for place of articulation by infants. Perception and Psychophysics, 16, 513⫺521. Eimas, P. D., Siqueland, E. R., Jusczyk, P. & Vigorito, J. (1971). Speech perception in infants. Science, 171, 303⫺306. Falk, D. (1983). Cerebral cortices of East African early hominids. Science, 221, 1072⫺1074. Gamble, C. (1986). The palaeolithic settlement of Europe. Cambridge: Cambridge University Press.

Benedict, H. (1979). Early lexical development: Comprehension and production. Journal of Child Language, 6, 183⫺200.

Gardner, R. A. & Gardner, B. T. (1969). Teaching sign language to a chimpanzee. Science, 165, 664⫺672.

Boesch, C. & Boesch, H. (1984). Mental map in wild chimpanzees: An analysis of hammer transports for nut cracking. Primates, 25, 160⫺170.

Gardner, R. A. & Gardner, B. T. (1984). A vocabulary test for chimpanzees (Pan troglodytes). Journal of Comparative Psychology, 98, 381⫺404.

Boinski, S. (1991). The coordination of spatial position: A field study of the vocal behaviour of adult female squirrel monkeys. Animal Behavior, 41, 89⫺102.

Gardner, R. A. & Gardner, B. T. (1989). Early signs of language in cross-fostered chimpanzees. Human Evolution, 4, 337⫺365.

Bradshaw, J. L. & Rogers, L. J. (1993). The evolution of lateral asymmetries, language, tool use, and intellect. Sydney: Academic Press. Carr, J. (1953). An investigation of spontaneous speech sounds of five-year old deaf-born children. Journal of Speech and Hearing Disorders, 18, 22⫺ 29. Cavalli-Sforza, L. L., Menozzi, P. & Piazza, A. (1993). Demic expansions and human evolution. Science, 259, 639⫺646. Cavalli-Sforza, L. L., Piazza, A., Menozzi, P. & Mountain, J. (1988). Reconstruction of human

Gargett, R. N. (1989). Grave shortcomings. Current Anthropology, 30, 157⫺190. Goodall, J. (1986). The chimpanzees of Gombe. Cambridge, MA.: Harvard University Press. Gowlett, J. A. J. (1992). Tools – The palaeolithic record. In S. Jones, R. Martin & D. Pilbeam (Eds.), The Cambridge encyclopaedia of human evolution (pp. 350⫺360). Cambridge: Cambridge University Press Haarmann, H. (1990). Universalgeschichte der Schrift. Frankfurt/Main: Campus. Harris, M., Yeeles, C., Chasin, J. & Oakley, Y. (1995). Symmetries and asymmetries in early lexi-

3. Phylogenese der sprachlichen Kommunikation cal comprehension and production. Journal of Child Language, 22, 1⫺18. Hauser, M. D. & Schön-Ybarra, M. (1994). The role of lip configuration in monkey vocalizations: Experiments using xylocaine as a nerve block. Brain and Language, 46, 232⫺244. Hauser, M. D., Evans, C. S. & Marler, P. (1993). The role of articulation in the production of rhesus monkey, Macaca mulatta, vocalizations. Animal Behavior, 45, 423⫺434. Hayes, K. J. & Hayes, C. (1951). The intellectual development of a home-raised chimpanzee. Proceedings of the Americal Philosophical Society, 95, 105⫺109. Henke, W. & Rothe, H. (1994). Paläoanthropologie. Berlin: Springer. Herholz, K., Thiel, A., Wienhard, K., Pietrzyk, U., von Stockhausen, H. M., Karbe, H., Kessler, J., Bruckbauer, T., Halber, M. & Heiss, W. D. (1996). Individual functional anatomy of verb generation. Neuroimage, 3, 185⫺194. Heun, M., Schäfer-Pregl, R., Klawan, D., Castagna, R., Accerbi, M., Borghi, B. & Salamini, F. (1997). Site of Einkorn wheat domestication identified by DNA fingerprinting. Science, 278, 1312⫺ 1314. Hirano, S., Kojima, H., Naito, Y., Honjo, I., Kamoto, Y., Okazawa, H., Ishizu, K., Yonekura, Y., Nagahama, Y., Fukuyama, H. & Konishi, J. (1996). Cortical speech processing mechanisms while vocalizing visually presented languages. Neuroreport, 8, 363⫺367. Holloway, R. L. (1968). The evolution of the primate brain: Some aspects of quantitative relations. Brain Research, 7, 121⫺172. Holloway, R. L. (1983). Human paleontological evidence relevant to language behavior. Human Neurobiology, 2, 105⫺114. Holmgren, K., Lindblom, B., Aurelius, G., Jalling, B. & Zetterström, R. (1986). On the phonetics of infant vocalization. In B. Lindblom & R. Zetterström (Eds.), Precursors of early speech (pp. 51⫺ 63). New York: Stockton. Horai, S., Hayasaka, K., Kondo, R., Tsugane, K. & Takahata, N. (1995). Recent African origin of modern humans revealed by complete sequences of hominoid mitochondrial DNAs. Proceedings of the National Acadamy of Sciences, 92, 532⫺536. Houghton, P. (1993). Neanderthal supralaryngeal vocal tract. American Journal of Physical Anthropology, 90, 139⫺146. Ingram, D., Christensen, L., Veach, S. & Webster, B. (1980). The acquisition of word-initial fricatives

55 and affricatives in English by children between 2 and 6 years. In G. H. Yeni-Komshian, J. F. Kavanagh & C. A. Ferguson (Eds.), Child phonology. Vol. 1. Production (pp. 169⫺192). New York: Academic Press. Jakobson, R. (1968). Child language, aphasia and phonological universals. Den Haag: Mouton. James, S. R. (1989). Hominid use of fire in the Lower and Middle Pleistocene. Current Anthropology, 30, 1⫺26. Jerison, H. J. (1973). Evolution of the brain and intelligence. New York: Academic Press. Jespersen, O. (1923). Language. Its nature, development and origin. London: Allen & Unwin. Johanson, D. & Edey, M. (1984). Lucy. Die Anfänge der Menschheit. München: Piper. Johanson, D. C. & White, T. D. (1980). On the status of Australopithecus afarensis. Science, 207, 1104⫺1105. Jürgens, U. (1979). Vocalization as an emotional indicator. A neuroethological study in the squirrel monkey. Behaviour, 69, 88⫺117. Jürgens, U. (1992). On the neurobiology of vocal communication. In H. Papousek, U. Jürgens & M. Papousek (Eds.), Nonverbal vocal communication: Comparative and developmental approaches (pp. 31⫺42). New York: Cambridge University Press. Jürgens, U. (1998). Neuronal control of mammalian vocalization, with special reference to the squirrel monkey. Naturwissenschaften, 85, 376⫺ 388. Jürgens, U., Kirzinger, A. & von Cramon, D. (1982). The effects of deep-reaching lesions in the cortical face area on phonation. A combined case report and experimental monkey study. Cortex, 18, 125⫺140. Kay, R. F., Cartmill, M. & Balow, M. (1998). The hypoglossal canal and the origin of human vocal behavior. Proceedings of the National Academy of Sciences, 95, 5417⫺5419. Krings, M., Stone, A., Schmitz, R. W., Krainitzki, H., Stoneking, M. & Pääbo, S. (1997). Neanderthal DNA sequences and the origin of modern humans. Cell, 90, 19⫺30. Kuhl, P. (1976). Speech perception in early infancy: Perceptual constancy for vowel categories. Journal of the Acoustical Society of America, 60, Suppl. 1: 90. Laitman, J. T. & Reidenberg, J. S. (1988). Advances in understanding the relationship between the skull base and larynx with comments on the origins of speech. Human Evolution, 3, 99⫺109.

56

I. Grundlagen der Psycholinguistik

Larson, C. R., Sutton, D., Taylor, E. M. & Lindeman, R. (1973). Sound spectral properties of conditioned vocalization in monkeys. Phonetica, 27, 100⫺110.

Mitani, J. C. & Brandt, K. L. (1994). Social factors influence the acoustic variability in the long-distance calls of male chimpanzees. Ethology, 96, 233⫺252.

Leakey, R. & Lewin, R. (1993). Der Urprung des Menschen. Auf der Suche nach den Spuren des Humanen. Frankfurt/M: S. Fischer.

Morath, M. (1979). Inborn vocalizations of the human baby and communicative value for the mother. Experimental Brain Research, Suppl., 2, 236⫺244.

LeMay, M. (1975). The language capability of Neanderthal man. American Journal of Physical Anthropology, 42, 9⫺14. LeMay, M. (1976). Morphological cerebral asymmetries of modern man, fossil man, and nonhuman primate. Annals of the New York Academy of Sciences, 280, 349⫺366. Lieberman, P. H. (1984). The biology and evolution of language. Cambridge, Mass: Harvard University Press. Lieberman, P. H., Crelin, E. S. & Klatt, D. H. (1972). Phonetic ability and related anatomy of the newborn and adult human, Neanderthal man, and the chimpanzee. American Anthropologist, 74, 287⫺307. Lieberman, P. H., Klatt, D. H. & Wilson, W. H. (1969). Vocal tract limitations on the vowel repertoires of rhesus monkey and other nonhuman primates. Science, 164, 1185⫺1187.

Noble, W. & Davidson, J. (1996). Human evolution, language and mind: A psychological and archaeological inquiry. Cambridge: Cambridge University Press. Oller, D. K. & Eilers, R. E. (1992). Development of vocal signaling in human infants: Toward a methodology for cross-species vocalization comparisons. In H. Papousek, U. Jürgens & M. Papousek (Eds.), Nonverbal vocal communication (pp. 174⫺ 191). Cambridge: Cambridge University Press. Oller, D. K., Wieman, L. A., Doyle, W. J. & Ross, C. (1976). Infant babbling and speech. Journal of Child Language, 3, 1⫺11. Petersen, S. E., Fox, P. T., Posner, M. I., Mintun, M. A. & Raichle, M. E. (1988). Positron emission tomographic studies of the cortical anatomy of single-word processing. Nature, 331, 585⫺589.

Locke, J. L. (1983). Phonological acquisition and change. New York: Academic Press.

Pinker, S. (1996). Der Sprachinstinkt. Wie der Geist die Sprache bildet. München: Kindler.

Locke, J. L. (1997). A theory of neurolinguistic development. Brain and Language, 58, 265⫺326.

Pope, G. G. (1988). Recent advances in far eastern palaeoanthropology. Annual Review of Anthropology, 17, 43⫺77.

Lorblanchet, M. (1997). Höhlenmalerei. Ein Handbuch. Sigmaringen: Thorbecke. Macken, M. A. (1980). Aspects of the acquisition of stop systems: a cross-linguistic perspective. In G. H. Yeni-Komshian, J. F. Kavanagh & C. A. Ferguson (Eds.), Child phonology. Vol. 1. Production (pp. 143⫺168). New York: Academic Press. Marler, P. & Tenaza, R. (1977). Signalling behavior of apes with special reference to vocalization. In T. A. Sebeok (Ed.), How animals communicate (pp. 965⫺1033). Bloomington: Indiana University Press. Marshack, A. (1976). Some implications of the palaeolithic symbolic evidence for the origin of language. In S. R. Harnad, H. D. Steklis & J. C. Lancaster (Eds.), Origins and evolution of language and speech. Annals of the New York Academy of Sciences, 280, 289⫺311. Masataka, N. (1992). Pitch characteristics of Japanese maternal speech to infants. Journal of Child Language, 19, 213⫺223. Masataka, N. & Symmes, D. (1986). Effect of separation distance on isolation call structure in squirrel monkeys (Saimiri sciureus). American Journal of Primatology, 10, 271⫺278.

Premack, D. (1970). A functional analysis of language. Journal of the Experimental Analysis of Behavior, 14, 107⫺125. Premack, A. J. & Premack, D. (1972). Teaching language to an ape. Scientific American, 227, 92⫺ 99. Reidenberg, J. S. & Laitman, J. T. (1991). Effect of basicranial flexion on larynx and hyoid position in rats – An experimental study of skull and soft tissue interactions. Anatomical Record, 230, 557⫺569. Rubens, A. B., Mahowald, M. W. & Hutton, J. T. (1976). Asymmetry of the lateral Sylvian fissures in man. Neurology, 26, 620⫺624. Saban, R. (1983). Asymmetry of the middle meningeal veins network in the fossil man and its possible significance. In E. De Grolier (Ed.), Glossogenetics. The origin and evolution of language (pp. 115⫺141). Chur: Harwood. Savage-Rumbaugh, S. (1988). A new look at ape language: Comprehension of vocal speech and syntax. In D. W. Leger (Ed.), Nebraska symposium on motivation 1987 (pp. 201⫺255). Lincoln: University of Nebraska Press.

57

4. Neurobiologische Grundlagen der Sprachfähigkeit Savage-Rumbaugh, S., McDonald, K., Sevcik, R. A., Hopkins, W. D. & Rubert, E. (1986). Spontaneous symbol acquisition and communicative use by pygmy chimpanzees (Pan paniscus). Journal of Experimental Psychology: General, 115, 211⫺235. Schepartz, L. A. (1993). Language and modern human origins. Yearbook of Physical Anthropology, 36, 91⫺126. Schrader, L. & Todt, D. (1993). Contact call parameters covary with social context in common marmosets, Callithrix j. jacchus. Animal Behavior, 46, 1026⫺1028. Seyfarth, R. & Cheney, D. L. (1980) The ontogeny of vervet monkey alarm calling behavior: A preliminary report. Zeitschrift für Tierpsychologie 54, 37⫺56. Sillen, A. & Brain, C. K. (1990). Old flame. Natural History, April: 6⫺10. Solecki, R. S. (1975). Shanidar IV, a Neanderthal flower burial in Northern Iraq. Science, 190, 880⫺881. Springer, S. P. & Deutsch, G. (1995). Linkes Gehirn, rechtes Gehirn. Heidelberg: Spektrum Akademischer Verlag. Stern, C. & Stern, W. (1975). Die Kindersprache. (Nachdruck der 4. Auflage von 1928) Darmstadt: Wissenschaftliche Buchgesellschaft. Stopa, R. (1962). Bushman as a language of primitive type. Folia Orientalia, 4, 187⫺207. Sugiyama, Y. (1997). Social tradition and the use of tool-composites by wild chimpanzees. Evolutionary Anthropology, 6, 23⫺27.

Sutton, D., Larson, C. & Lindeman, R. C. (1974). Neocortical and limbic lesion effects on primate phonation. Brain Research, 71, 61⫺75. Symmes, D. & Biben, M. (1985). Maternal recognition of individual infant squirrel monkeys from isolation call playbacks. American Journal of Primatology, 9, 39⫺46. Terrace, H. S., Petitto, L. A., Sanders, R. J. & Bever, T. G. (1979). Can an ape create a sentence? Science, 206, 891⫺902. Tobias, P. V. (1971). The brain in hominid evolution. New York: Columbia University Press. Tobias, P. V. (1987). The brain of Homo habilis: A new level of organization in cerebral evolution. Journal of Human Evolution, 16, 741⫺761. Trehub, S. E. (1973). Infants’ sensitivity to vowel and tonal contrasts. Developmental Psychology, 9, 91⫺96. Williams, S. L., Brakke, K. E. & Savage-Rumbaugh, E. S. (1997). Comprehension skills of language-competent and nonlanguage-competent apes. Language & Communication, 17, 301⫺318. Winter, P., Handley, P., Ploog, D. & Schott, D. (1973). Ontogeny of squirrel monkey calls under normal conditions and under acoustic isolation. Behaviour, 47, 230⫺239. Zilles, K., Armstrong, E. & Schleicher, A. (1988). The human pattern of gyrification in the cerebral cortex. Anatomy and Embryology, 179, 173⫺179.

Uwe Jürgens, Deutsches Primatenzentrum, Göttingen (Deutschland)

4. Neurobiologische Grundlagen der Sprachfähigkeit 1. 2. 3. 4. 5.

1.

Die Sprachfähigkeit als integrative Leistung des Gehirns Biologische Aspekte der Sprache Neurophysiologische Grundlagen der Sprache Zur Verarbeitung natürlichsprachlicher Äußerungen Literatur

Die Sprachfähigkeit als integrative Leistung des Gehirns

Wie bei allen kognitiven Leistungen handelt es sich auch bei der menschlichen Sprache um eine Fähigkeit, die letztlich auf Eigen-

schaften von spezialisierten Zellen (Nervenzellen) in einem Netzwerk (Nervensystem) zurückgeht. Da grundsätzlich alle psychischen Phänomene auf ein neuronales Substrat zurückgeführt werden können, hat auch die menschliche Sprachfähigkeit ihre Ursache in Prozessen, Funktionen und Eigenschaften des menschlichen Nervensystems. Das zentrale Nervensystem (ZNS) des Menschen umfasst vier Hauptkomponenten, die in anatomisch-funktioneller Hinsicht als Einheit gesehen werden müssen: 1. das Gehirn (Enzephalon oder Cerebrum) und 2. das Kleinhirn (Cerebellum), 3. der Hirnstamm (Truncus cerebri) und 4. das Rückenmark

58 (Medulla spinalis). Das Gehirn bildet den kranial-rostralen Teil des ZNS, während das Rückenmark vom 1. Halsnerven bis zum Conus medullaris in der Höhe des 1./2. Lendenwirbels reicht (Abbildung 4.1). Alle Komponenten des ZNS entstammen der gleichen embryonalen Anlage und sind zu ihrem Schutz in Knochen eingelagert (Hirnschädel, Neurocranium bzw. Wirbelkanal). Dem zentralen Nervensystem gegenübergestellt wird das periphere Nervensystem, welches das somatische und das autonome Nervensystem umfasst, auf das hier nicht weiter eingegangen werden soll.

Abb. 4.1: Darstellung des Zentralnervensystems (ZNS) des Menschen von hinten gesehen: G ⫽ Großhirn (Cerebrum), C ⫽ Kleinhirn (Cerebellum), R ⫽ Rückenmark (Medulla spinalis). Der Hirnstamm (Truncus cerebri) ist verdeckt (aus Rosenzweig, Leiman & Breedlove 1999: 37).

1.1. Grundlagen kognitiver Prozesse Das ZNS besteht aus etwa 100 Mrd. spezialisierten Zellen (zumeist Nervenzellen ⫽ Neuronen), die aufgrund einer starken Vernetzung ein gigantisches Netzwerk bilden. Die Signalübertragung geschieht zumeist über chemische und elektrische Kontaktstellen (Synapsen) bzw. auch durch Neuromodulation über bestimmte Hormone, so dass sich eine ganze Reihe unterschiedlicher Möglichkeiten neuronaler Kodierungen ergeben (Bul-

I. Grundlagen der Psycholinguistik

lock, 1993). Die Anzahl der synaptischen Verbindungen zwischen den Nervenzellen wird auf etwa 10 Billionen geschätzt. Für die im Großhirn verlaufenden Nervenfasern wird eine Gesamtlänge von 500.000 km angenommen. Aufgrund der enormen Komplexität des sich daraus ergebenden Netzwerks von signalverarbeitenden Zellen lässt sich die Komplexität des Gesamtsystems Gehirn nur schwer begreifen. Dennoch lässt sich sagen, dass die Funktion der spezialisierten Nervenzellen des Gehirns vor allem darin besteht, notwendige Kommunikations- und Koordinationsaufgaben für die verbleibenden etwa 500 Billionen Körperzellen bzw. für die Organe und das Individuum als solches zu leisten. Das ZNS leistet somit wesentliche Aufgaben sowohl für die innerorganismische Informationsverarbeitung als auch für die Interaktion des Individuums mit seiner Umwelt (Objekte, Lebewesen bzw. Artgenossen). Dabei erscheint der genetische Bauplan des Gehirns vergleichsweise einfach zu sein. Es wird angenommen, dass die ontogenetische Ausbildung des Gehirns von lediglich 3000 Genen bestimmt wird. Der größte Teil der späteren Komplexität ist somit auf selbstorganisierende Prozesse während der Hirnreifung und der lebenslangen Lernvorgänge zurückzuführen (Kirsch & Betz, 1998). Dabei ist die Entstehung neuer Nervenzellen (Neurogenese) im Gehirn und die Entstehung neuer Verbindungen zwischen ihnen ebenfalls ein lebenslanger Vorgang (Eriksson et al., 1998; Gould et al., 1999). Eine stark schematisierte Darstellung der Vorgänge im ZNS, die letztlich die Kognition des jeweiligen Organismus ausmachen, zeigt Abbildung 4.2. Ein einfaches, konkretes Beispiel für die ablaufenden Vorgänge stellt die Futtersuche dar: Beispielsweise hat ein Eichhörnchen ein angeborenes Interesse an rundlichen Objekten bestimmter Größe (phylogenetische Erfahrung), erlernt die Formen der tatsächlich im jeweiligen Lebensraum vorkommenden Nussarten (ontogenetische Erfahrung) und manipuliert die Nüsse mittels Vorderpfoten und Schnauze (Effektoren) anhand von Daten der eigenen Körpersituation (Enterozeption), der Erfahrung und der von außen kommenden Informationen (Sinnesorgane). Dieses Zusammenspiel der Komponenten ist ein Teil des kognitiven Apparats von Eichhörnchen, dessen Koordination im ZNS stattfindet. Vereinfacht lassen sich die im ZNS ablaufenden Teilvorgänge der Kognition aus fünf Stadien zusammensetzen:

4. Neurobiologische Grundlagen der Sprachfähigkeit

59 Ergebnis der Informationsverarbeitung erzielt werden kann. Dieses Ergebnis erlaubt dem Individuum eine Beurteilung der gegenwärtigen Situation und eine Abschätzung über die unmittelbare Zukunft des Zustands des eigenen Körpers und der Individuenumwelt, so dass weitere zielgerichtete Entscheidungen getroffen werden können. (4) Über abgehende, motorische Nervenfasern (Efferenzen) kann das ZNS entsprechende Effektoren (z. B. Gliedmaßen oder Beißwerkzeuge) veranlassen, in vorausberechneter Weise zielgerichtete Manipulationen an der Umwelt vorzunehmen.

Abb. 4.2: Schematische Darstellung der Aufnahme, Verarbeitung und Abgabe von Informationen im Rahmen der Individuum-Umwelt-Interaktion. Sowohl die Aufnahme von Umwelteigenschaften über die äußeren Sinnesorgane als auch die Einflussnahme auf die Umwelt über die Effektoren kann willentlich verstärkt, abgeschwächt oder unterlassen werden.

(1a) Körperwahrnehmung: Über spezialisierte periphere Nervenzellen (Enterozeptoren bzw. Propriozeptoren) werden Informationen des eigenen Körpers aufgenommen (z. B. Körperhaltung, Muskelspannung, Ernährungszustand). (1b) Umweltwahrnehmung: Über spezialisierte periphere Nervenzellen (Rezeptoren) werden bestimmte Informationen der Umwelt aufgenommen (z. B. für elektromagnetische Wellen oder Luftpartikelbewegungen über den Seh- bzw. den Hörsinn). (2) Die so detektierten Reize (1a und 1b) werden in Form elektrischer Signale über sensible Bahnen (afferente Nervenfasern) zum ZNS geleitet. (3) Die elektrischen Signale werden im ZNS zusammengefasst und verarbeitet. Die so eingehenden Informationsmengen beschränken sich nur auf wenige Reizparameter und sind durch die jeweiligen Sinnesorgane einer zusätzlichen Filterung unterzogen worden (Datenreduktion). Weiterhin liegen aufgrund der stammesgeschichtlichen (Phylogenese) und individuellen Erfahrung (Ontogenese) im ZNS bereits große Informationsmengen vor, mit denen die neu einkommenden Informationen abgeglichen und komplettiert werden. Neben der massiven Parallelität der Verarbeitung im ZNS ist dies eine wichtige Voraussetzung dafür, dass in so kurzer Zeit bereits ein

(5) Da sowohl diese Umweltmanipulationen als auch die sich dadurch ergebenden Zustände des eigenen Körpers wieder von den Sinnesorganen wahrgenommen werden, ergibt sich ein komplexer Regelkreis, der auch sehr komplexe Individuum-Umwelt-Interaktionen ermöglicht, wie z. B. mit hoher Geschwindigkeit Hindernissen auszuweichen, mittels Kommunikation Geschlechtspartner zu finden oder Beute zu jagen und zu zerlegen. Diese Fähigkeit, in der oben beschriebenen Weise Informationen über Umwelteigenschaften zu erlangen, um über eine Integration dieser Informationen mit der Umwelt interagieren zu können, kann als ein wesentlicher Aspekt von Kognition gesehen werden (vgl. Roth, 1996). Aus evolutionsbiologischer Sicht bewirkt eine komplexe Kognition für die jeweilige Art einen großen Entwicklungsvorteil. Wenn die unteren, einfacheren „Nischen“ eines Lebensraums bereits durch andere Arten besetzt sind, findet eine sich neu ausbreitende Art nur dann neue, unbesetzte Nischen, wenn sie sich in der so genannten Entwicklungsspirale der Evolution weiter nach oben bewegt. Nur eine Komplexitätszunahme ermöglicht den nötigen Freiraum zur Einnischung der neuen Art. Die Entwicklung komplexer Interaktionsfähigkeiten, wie etwa die Entwicklung der Kommunikation, ist ohne Zweifel eine dieser Höherentwicklungen. 1.2. Die Bedeutung der Kognition für die Kommunikation Eine sehr effiziente Form der Interaktion mit anderen Lebewesen und insbesondere mit Angehörigen der gleichen Art ergibt sich über die Möglichkeit zur wechselweisen Auseinandersetzung mit anderen Individuen: die Kommunikation (vgl. Müller, 1990, 1993b). Auch

60 hier handelt es sich lediglich um einen sehr spezialisierten und optimierten Regelkreis, wie in Abbildung 4.2 dargestellt. Der jeweilige Kommunikationskanal ist dabei durch den Effektor und die beteiligten äußeren Sinnesorgane bestimmt. Für die Kommunikation können grundsätzlich alle Sinneskanäle genutzt werden, beispielsweise der visuelle, der chemosensorische, der akustische, der elektrische oder der taktile Sinn. Die Möglichkeiten der Kommunikation sind somit nicht durch den Kommunikationskanal, sondern durch die allgemeinen Fähigkeiten der Kognition determiniert. Auch beim Menschen verläuft die zwischenmenschliche Kommunikation über mehrere Sinneskanäle, und so sind neben dem akustischen Kanal (Stimme) auch nonverbale Kanäle, vor allem der visuelle (Mimik und Gestik, s. z. B. Siegman & Feldstein, 1987) und auch der olfaktorische Sinn (z. B. Maiworm, 1993) von Bedeutung. Im Vergleich zu den nichtmenschlichen Primaten (z. B. Schimpansen, Gorilla) kam es im Verlauf der Evolution zum Menschen zu einer besonderen Komplexitätserhöhung der kognitiven Leistungen insgesamt. Die Informationsverarbeitungsprozesse des menschlichen ZNS erlebten ganz allgemein eine enorme Steigerung, was neuartige Wahrnehmungsund Erkenntnisfähigkeiten der Frühmenschen zur Folge hatte (vgl. Müller, 1990). Weiterhin bildete sich erstmalig ein echtes Ich-Bewusstsein aus, und es entstanden sehr komplexe mentale Konzepte, z. B. für das Phänomen „Zeit“ oder für abstrakte, fiktive Vorstellungswelten. Im Zuge dieser allgemeinen Leistungssteigerung der Kognition, die mit der Entwicklung der Sprachfähigkeit einhergegangen ist, ist dann die Sprache als neue Kommunikationsmöglichkeit gewissermaßen entdeckt worden (Müller, 1991). Der in stammesgeschichtlicher Hinsicht „alte“ akustische Kanal, der bis zu diesem Zeitpunkt ausschließlich für die primatentypische Vokalisation genutzt wurde, diente dann als Vehikel (Stimme) der neuen kognitiven Fähigkeiten (Sprachfähigkeit). Prinzipiell hätte sich diese neue Komplexitätsstufe der Kognition auch in einer anderen Modalität äußern können, wie gehörlose bzw. gehörlos-blind-geborene Menschen eindrucksvoll beweisen (Furth, 1972). 1.3. Der Zusammenhang von Kognition und Sprache Ohne Zweifel handelt es sich bei der menschlichen Sprachfähigkeit um die komplexeste Kognitionsleistung im Tierreich. Wie bereits

I. Grundlagen der Psycholinguistik

erwähnt, ist die Sprachfähigkeit dennoch nicht als eine separierbare, distinkte Einzelleistung innerhalb der Kognition zu sehen. Die menschliche Sprachfähigkeit basiert nicht ausschließlich auf sprachspezifischen Kognitionsmodulen und lässt sich somit auch nicht physiologisch eingrenzen oder kognitionswissenschaftlich eindeutig als Einzelleistung zu definieren. Die menschliche Sprache ist nicht auf ein distinktes Sprachorgan im Gehirn zurückzuführen, dessen Aufgabe lediglich darin besteht, Sprachsignale zu analysieren oder hervorzubringen. Ausgehend von den stammesgeschichtlich sehr alten Fähigkeiten der Interaktion und der nonverbalen Kommunikation, über die alle Lebewesen in unterschiedlichem Maße verfügen, stellt die Sprachfähigkeit lediglich eine neue Leistungsstufe kommunikativen Handelns dar, das in der allgemeinen menschentypischen Kognition verankert ist. Wenn im Rahmen einer psycholinguistischen Untersuchung bestimmte Aspekte der menschlichen Sprachfähigkeit experimentell untersucht werden, so ist es ein legitimes Mittel, das Phänomen Sprache unter Laborbedingungen beispielsweise auf Lautäußerungen oder auf schriftsprachliche Sätze zu reduzieren, um sie leichter untersuchen zu können (vgl. Rickheit & Strohner, 1993). Vor dem Hintergrund der evolutiven Entwicklung, der Funktion und der sozialen Bedeutung von Sprache zeigt sich jedoch ein ganz anderes Bild: Bei dieser Betrachtungsweise von Sprache wird deutlich, dass es sich bei dem Phänomen „sprachliche Artikulation“ in kognitiver Hinsicht nur um den von außen leicht wahrnehmbaren Teil des tatsächlich ablaufenden Geschehens handelt. Sprachliche Verständigung ist lediglich ein Aspekt kommunikativen Handelns, ist lediglich Kommunikation mit anderen, neuartigen Mitteln. Sprachliche Äußerungen wirken nicht separat für sich allein, sondern in einem natürlichen Handlungskontext mit starken Erwartungsvorgaben, unterstützt z. B. durch Mimik und Körperhaltung und beeinflusst durch die jeweiligen emotionalen Zustände (Eibl-Eibesfeldt, 1984; Siegman & Feldstein, 1987; Helversen & Scherer, 1988; Burling, 1993). Nur deshalb kann in einer konkreten Gesprächssituation Verhalten aufgrund von Kommunikation verändert werden. Allerdings ist es nicht so, dass während eines Gespräches definierbare Mengen von Information über verbale und nonverbale Kanäle zwischen den Gesprächspartnern wirklich transportiert werden, wie in frühe-

61

4. Neurobiologische Grundlagen der Sprachfähigkeit

ren, nachrichtentechnischen Kommunikationsmodellen vielfach angenommen wurde. Vielmehr werden durch sprachliche Kommunikationssignale Informationen im Gehirn des zuhörenden Gesprächspartners lediglich freigesetzt. Die sprachliche Mitteilung transportiert somit keine Bedeutung, sondern wirkt im Gehirn des Zuhörers lediglich als Auslöser für die Aktivierung von bereits vorhandenen Bedeutungselementen, wobei sich der Mitteilende nie klar darüber sein kann, welche exakten Bedeutungen er während des Gespräches beim Zuhörer freisetzt. Metaphorisch lässt sich sagen, dass es sich in kognitiver Hinsicht bei der sprachlichen Mitteilung lediglich um die Spitze eines Kognitions-„Eisberges“ handelt, da die Äußerung selbst nur als Trigger für bereits etablierte Einstellungen, Bedeutungen und Weltwissenskomponenten des Zuhörers funktioniert (z. B. Rickheit & Strohner, 1999). Vor diesem Hintergrund wird auch klar, warum die Sprachfähigkeit nicht losgelöst von der menschentypischen Kognition insgesamt betrachtet werden kann und warum z. B. Menschenaffen nicht über eine Sprachfähigkeit verfügen. Die Sprachfähigkeit existiert im Gehirn somit nicht als distinktes Sprachorgan, sondern Sprache basiert auf einem Netz von kognitiven Einzelleistungen, die nur zum Teil sprachspezifisch, größtenteils jedoch sprachunspezifisch sind und auch an vielen anderen kognitiven Vorgängen beteiligt sind. Weiterhin müssen diese Einzelkomponenten nicht an ein bestimmtes neuronales Substrat gekoppelt sein, sondern es handelt sich um Funktionen, die – je nach Bedarf – durchaus von wechselnden neuronalen Aggregaten bereitgestellt werden können. Auch wenn mittlerweile Teilkomponenten der Sprachfähigkeit bestimmten Genen zugeordnet werden können (z. B. Fisher et al., 1998), ergibt sich keine streng lokalistische Zuordnung von Einzelkomponenten der Sprachfähigkeit im Gehirn. Es ist vielmehr anzunehmen, dass neben distinkten Einzelleistungen mit festgelegten Hirnbereichen auch virtuelle Komponenten mit wechselndem neuronalem Substrat existieren (Müller, 1997). Vor diesem Hintergrund lässt sich die kognitive Gesamtheit der Sprachfähigkeit zwar als ein Quasi-Organ (virtuelles Sprachorgan) beschreiben, jedoch nicht eindeutig und ausschließlich umgrenzten Hirnregionen zuschreiben. Innerhalb der experimentellen Neurolinguistik (vgl. Müller & Rickheit, 2002) können die der Sprachverarbeitung zugrundeliegenden neurophysi-

ologischen Prozesse untersucht werden. Mit elektrophysiologischen Techniken können die Teilprozesse der Sprachverarbeitung direkt und unmittelbar anhand neuronaler Aktivität mit einer Auflösung im Millisekundenbereich untersucht und separiert werden (z. B. Kutas & Hillyard, 1980; Bechtereva, Abdullaev & Medvedev, 1991, 1992; Rösler & Hahne, 1992; Friederici, Pfeifer & Hahne, 1993; Steinschneider et al., 1994; Pulvermüller et al., 1996; Münte, Schiltz & Kutas, 1998; Brown, Hagoort & Kutas, 2000).

2.

Biologische Aspekte der Sprache

2.1. Vokalisation Anders als die Sprache brauchen die emotionalen Vokalisationen der nonverbalen Kommunikation (z. B. Aufschreien, Stöhnen) aufgrund ihrer genetischen Verankerung nicht erlernt zu werden. Auch bei nichtmenschlichen Primaten werden die jeweiligen Rufe nicht erlernt, sondern stehen als genetisch fixierte Fähigkeit zur Verfügung. Lediglich die an diese Vokalisationen gekoppelten Informationen und die spezielle Verwendung des Signals müssen von jungen Affen erlernt werden (Cheney & Seyfarth, 1990; Jürgens, 1990; Burling, 1993). Dabei sind keine Kopplungen oder Aneinanderkettungen von Rufen möglich, und es existieren art- und geschlechtsspezifische Varianten der Vokalisationen. Je nach Affenart werden etwa 20 bis 30 unterschiedliche Laute zur Kommunikation verwendet. Die Vokalisationen der Primaten sind jedoch keine Zeichen für Objekte der Umwelt, sondern Anzeichen für innere Zustände, die z. T. automatisch ausgelöst werden – entweder endogen durch Stimmungen oder aufgrund von Wahrnehmungen äußerer Merkmalskomplexe (z. B. ein herannahender Feind). Vereinfacht lässt sich sagen, ein Affe schreit somit in der Regel nicht, um willentlich vor einem Feind zu warnen, sondern weil er sich in einem Alarm- oder Angstzustand befindet (Marler, 1980). Im Gegensatz zur menschlichen Sprache haben die Vokalisationen sowohl des Menschen als auch der nichtmenschlichen Primaten ihren Ursprung nicht in kortikalen Hirnbereichen, wenngleich der motorische Kortex für die Ausführung notwendig ist. Nach Jürgens (1990, 1998) zeigen Ergebnisse aus Stimulationsexperimenten, dass die unterschiedlichen Rufe bei Affen in bestimmten, jedoch unterschiedlichen Hirngebieten durch elektri-

62

I. Grundlagen der Psycholinguistik

sche Reizung erzeugt werden können, und zwar vom Vorderhin bis zum Hirnstamm. Darüber hinaus stehen sie mit dem Limbischen System in Verbindung. An den unterschiedlichen Orten konnte durch elektrische Reizung zumeist nur jeweils ein bestimmter Ruf (z. B. ein Warnlaut für Bodenfeinde) ausgelöst werden. Diese Hirnbereiche waren nicht nur verantwortlich für den jeweiligen Ruf, sondern konnten auch mit dem dazugehörigen emotionalen Zustand in Verbindung gebracht werden (Abbildung 4.3) (Jürgens, 1990).

Abb. 4.3: Lauterzeugung durch elektrische Stimulation im Gehirn des Totenkopfäffchens. In den beiden Frontalschnitten durch das Gehirn sind linksseitig diejenigen Orte durch Symbole markiert, an denen eine Elektrostimulation über Elektroden zu einer Vokalisation führte. Auf der rechten Seite sind die jeweiligen Hirnbereiche benannt. Abkürzungen: ab ⫽ Nucleus basalis amygdalae, ac ⫽ Nucleus centralis amygdalae, al ⫽ Nucleus lateralis amygdalae, am ⫽ Nucleus medialis amygdalae, an ⫽ Nucleus anterior thalami, anl ⫽ Ansa lenticularis, ca ⫽ Nucleus caudatus, cc ⫽ Corpus callosum, ci ⫽ Capsula interna, cin ⫽ Cingulum, cl ⫽ Claustrum, f ⫽ Fornix, gp ⫽ Globus pallidus, h ⫽ Feld H, hip ⫽ Hippocampus, hyl ⫽ lateraler Hypothalamus, m ⫽ Corpus mammilaris, md ⫽ Nucleus medialis dorsalis thalami, p ⫽ Pedunculus cerebri, put ⫽ Putamen, sm ⫽ Stria medullaris, st ⫽ Stria terminalis, va ⫽ Nucleus ventralis anterior thalami, vpl ⫽ Nucleus ventralis posterior lateralis thalami, zi ⫽ Zona incerta, II ⫽ Nervus opticus, IIch ⫽ Chiasma opticum (aus Jürgens, 1990: 59).

2.2. Phonation Ganz anders verhält es sich mit der Erzeugung der menschlichen Sprache. Zwar vokalisieren Säuglinge in Abhängigkeit von emotionalen Zuständen ähnlich wie Menschenaffen, das für die jeweilige Sprache notwendige Phonem-Set wird jedoch bereits im Uterus vorbereitet (Sprache der Mutter) und während der ersten Lebensjahre erlernt. Obwohl die Hirnreifung erst am Ende des ersten Lebensjahres abgeschlossen ist, können bereits sechsmonatige Säuglinge z. B. Namen mit den jeweiligen Bezugspersonen in Verbindung bringen (Tincoff & Jusczyk, 1999) – lange bevor sie selbst sprechen können. Lediglich die Sprachfähigkeit ist aufgrund einer langen stammesgeschichtlichen Entwicklung im Gehirn verankert, nicht die Ausbildung einer konkreten Sprache. Daher zeigen schwer vernachlässigte bzw. durch Deprivation misshandelte Kinder (Wolfs- oder Kaspar-Hauser-Kinder) spontan auch keine wirkliche Sprache (vgl. Curtiss, 1977; Jones, 1995). Aus stammesgeschichtlicher Sicht ist die erstmalige Ausbildung einer Sprache der Frühmenschen eine vergleichsweise junge evolutive Neuheit. Daher liegen auch große Teile der für die Sprache wichtigen Hirnbereiche im Neokortex, dem stammesgeschichtlich jüngsten Teil des Gehirns. Beim Menschen können daher die emotionalen und allgemein-vokalisierenden Hirnbereiche von speziellen Hirnbereichen für die Sprachverarbeitung unterschieden werden. Werden z. B. die ausschließlich für die Stimmerzeugung und Stimmkontrolle verantwortlichen Bereiche des präzentralen motorischen Kortex elektrisch gereizt, führen sowohl links- als auch rechtshemisphärische Stimulationen zu einer Vokalisation (Ausrufen). Die entsprechenden Regionen beider Hemisphären sind in gleicher Weise für den Sprechvorgang verantwortlich, da eine nur einseitige Entfernung

4. Neurobiologische Grundlagen der Sprachfähigkeit

des präzentralen Rindenfeldes keine stärkere Artikulationsstörung bewirkt. Bei einem nur einseitigen Ausfall des präzentralen motorischen Kortex kann der Verlust somit vom verbliebenen Rindenfeld kompensiert werden. Läsionen der sprachrelevanten Kortexbereiche (z. B. Wernicke-Region) der dominanten Hemisphäre führen dagegen zumeist zu einer starken Beeinträchtigung der Sprachfähigkeit (Aphasie). Werden jedoch bei einem Affen diejenigen Hirnbereiche in beiden Hemisphären durch eine Läsion ausgeschaltet, die der Sprachregion entsprechen, so werden dessen Vokalisationen durch die Läsionen nicht beeinträchtigt (vgl. Jürgens, 1990).

3.

Neurophysiologische Grundlagen der Sprache

3.1. Die Erzeugung von Sprache Anders als bei der Vokalisation handelt es sich beim Sprechen zumeist um willentliche Handlungen, denen in einem Handlungsrahmen eingebettete Kommunikationsabsichten zugrundeliegen. Eine sprachliche Handlung hat somit vielfältige Ursachen in der Kognition allgemein. Betrachtet man jedoch lediglich die letzte Stufe der sprachlichen Artikulation, so lassen sich einige physiologische Mechanismen anhand anatomischer Voraussetzungen postulieren. Das unmittelbare Nachsprechen von gehörten Sätzen, das so genannte Shadowing, kann von trainierten Personen mit einer Latenz von lediglich etwa 220 ms durchgeführt werden (Marslen-Wilson, 1985). In dieser Zeit nehmen die Nachsprechenden die Äußerung als akustischen Reiz über das Sinnesepithel im Innenohr wahr, und die Signale werden über die Hörbahn zur primären und sekundären Hörrinde geleitet. Nach dieser bewussten Analyse finden in der WernickeRegion wesentliche Teile der eigentlichen sprachlichen Analyse statt, und die Signale werden zur Weiterverarbeitung zu zahlreichen kortikalen Assoziationsfeldern geleitet. Diese höheren Stationen leisten vergleichsweise zeitaufwendige interpretative Analysen des Gehörten, die sich bis über mehrere Sekunden erstrecken können und komplexe Bedeutungsextraktion leisten (Konnotationen, Kontextabhängigkteit, pragmatische Ebene). Bei der vergleichsweise einfachen Aufgabe des Nachsprechens werden Signale von der Wernicke-Region gleichzeitig über den Fasciculus arcuatus zur Broca-Region und von

63 dort über die Basalganglien und den Thalamus zum motorischen Kortex bzw. über den frontopontinen Trakt und die pontinen Kerne zum Kleinhirn (Cerebellum) geleitet. Die Basalganglien sorgen für die Modulation des Bewegungsimpulses. Letztlich gelangen die Signale zum motorischen Kortex (Gyrus precentralis), indem über kortikonukleäre Bahnen diejenigen Hirnstammkerne erregt werden, die die Kehlkopfmuskulatur (z. B. Muskeln der Stimmritze), die Gesichts-, Zungen- und Atemmuskulatur steuern, so dass sprachlich artikuliert und das kurz zuvor Gehörte nachgesprochen werden kann. Die so genannten pneumotaktischen Zentren im rostralen Bereich der Brücke (Pons) erhalten Signale von höheren Hirnabschnitten – vom Zwischenhirn (Diencephalon) bis zur Hirnrinde (Cortex) – über das pyramidale System. Nach Trincker (1974) sind diese pontinen Neuronengruppen mit den Hirnstammzentren der Phonation identisch (Abbildung 4.4). Eine komplette Beschreibung der funktionellen Anatomie der Vorgänge während des Nachsprechens ist bislang nicht zu leisten. Die in den kortikalen Bereichen konstruierten Äußerungsabsichten bedürfen zu ihrer motorischen Umsetzung (Artikulation) eine komplexe Steuerung des Ausatem-Luftstroms bestimmter Kehlkopfmuskeln und aller am Sprechvorgang beteiligten Bereiche des Mund- und Rachenraumes. Beeinflusst werden diese pneumotaktischen Interneuronen von thalamo-kortikalen Systemen, dem Diencephalon und dem limbischen System (Trincker, 1974). Daher können Ausfälle sowohl im Mittelhirn, im Zwischenhirn und vor allem im Kleinhirn zu Beeinträchtigungen des Artikulationsvorganges führen und aufgrund einer unzureichenden motorischen Feinabstimmung eine skandierende, holprige Sprechweise (Dysarthrie) verursachen. Ein anderer Teil der Fasern zieht von der BrocaRegion direkt zum Gyrus praecentralis (vgl. Trincker, 1974, 1977; Trepel, 1999) (Abbildung 4.5). Auf die Innervierung der Kehlkopfmuskeln und die Vorgänge der Schallerzeugung soll hier nicht eingegangen werden. Wie Penfield (1938) bzw. Penfield und Pernot (1963) zeigen, lassen sich Vokalisationen erzeugen, wenn die für die Gesichtsregion zuständigen Bereiche des motorischen Kortex über Elektroden elektrisch gereizt werden. Dabei artikulieren die Patienten, solange die Reizung andauert oder, bei längeren Reizen, holen sie nach dem vollständigen Ausatmen

64

I. Grundlagen der Psycholinguistik

kurz Luft und artikulieren dann weiter. Sie bemerken die Artikulation, können sie aber nicht unterdrücken (Lebrun & Leleux,1993). Da es sich um eine Reizung motorischer Rindenfelder handelt, kommt es nicht zur Artikulation sprachlicher Äußerungen. Anders verhält es sich bei subkortikalen Stimulationen: Werden z. B. links- oder rechtshemisphärische Bereiche des Thalamus über Tiefenelektroden mit vergleichsweise starken Strömen gereizt, so äußern manche Patienten Phrasen wie „Thank you“, „Now one goes home“ oder „Left is at my side“, oft begleitet von Augen und Extremitätenbewegungen (Schaltenbrand,1975). Bei wiederholter Reizung zeigen manche Patienten auch eine Wiederholung der gleichen Phrase. Andere wiederum artikulieren stets neue Phrasen oder zeigen Wiederholungen von Lauten oder Silben. Nach den Reizungen können sich die Patienten in der Regel nicht an die Äußerungen erinnern (Lebrun & Leleux,1993).

Abb. 4.4: A) Stark vereinfachte Darstellung der beim Nachsprechen beteiligten neuronalen Schaltkreise aufgrund anatomischer Daten: Vom Sinnesepithel (1) über den Hörnerv zum Hirnstamm (2) und über die Hörbahn (3⫺4) zur primären Hörrinde (4), zur sekundären Hörrinde (Wernicke-Region) (5), über den Fasciculus arcuatus (6) zur Broca-Region (7). Die weitere Verschaltung verläuft über das Kleinhirn (Cerebellum) (8) und den Thalamus (10) bzw. über die Basalganglien (9) und den Thalamus (10) zum motorischen Kortex (Gyrus praecentralis) (11). Der kleine Anteil, der von der Broca-Region (7) direkt zum motorischen Kortex (11) verläuft, ist nicht eingezeichnet. B) Lautes Lesen: Beim lauten Lesen gelangen die visuellen Informationen zunächst über die Sinneszellen des Auges (Retina) und die Sehbahn (1a) zur primären Sehrinde (2a). Die graphematische Analyse findet erst auf der Stufe der sekundären Sehrinde (3a) statt. Die Transformation der erkannten Schriftzeichen in Sprache findet im Gyrus angularis (4a) statt, von dem die Signale zur WernickeRegion (5) weitergeleitet werden. Alle weiteren Stationen sind dann mit denen des Nachsprechens identisch (aus Trepel, 1999: 222, verändert).

3.2. Die Wahrnehmung von Sprache Wie jedes andere akustische Ereignis wird auch Sprache zunächst von der Ohrmuschel aufgefangen und in den äußeren Gehörgang geleitet, wobei es zu einer passiven Filterung und Verstärkung des Signals kommt. Bei der anschließenden mechanischen Schallwandlung (Mittelohr) und der Übertragung in elektrische Signale (Innenohr) kommt es dann bereits zu einer aktiven Filterung und Bearbeitung des Sprachsignals. Auf die Vorgänge im äußeren Ohr, Mittelohr und Innenohr soll an dieser Stelle aus Platzgründen nicht eingegangen werden. Detailliertere Angaben zu Anatomie und Physiologie des Ohres finden sich in Dunker et al. (1972), Trincker (1977), Dallos (1984), Kandel, Schwartz und Jessell (1991), Zenner (1994, 1996, 2000), Moore (1995), Zemlin (1998) und Brown (1999), 3.2.1. Die auditorische Projektion Von jedem Ohr wird die Information über etwa 30.000 bis 50.000 etwa 3⫺10 µm dicke auditorische Fasern des 8. Hirnnervens (Nervus vestibulocochlearis) zur Medulla oblongata des Hirnstamms geleitet. Von dort aus wird die Information über mehrere Umschalt- und Verarbeitungsstationen (Kerngebiete) zur primären Hörrinde (auditorischer Kortex) verschaltet. Die Hörbahn verläuft über Stationen des Rautenhirns (Rhombenzephalon), des Mittelhirns (Mesencephalon)

4. Neurobiologische Grundlagen der Sprachfähigkeit

65

Abb. 4.5: A) Seitenansicht der linken Hemisphäre. Die nach dem Wernicke-Lichtheim-Schema am Hören und Sprechen beteiligten Rindenfelder sind grau unterlegt. Zur besseren Übersicht ist der Temporallappen nach unten verschoben, so dass auch die Insel-Region sichtbar wird. B) Horizontalschnitt der linken Hemisphäre mit der schematischen Darstellung von thalamo-kortikalen Verbindungen (vgl. Wernicke-Lichtheim Schema) (aus Trincker, 1974: 162 f., verändert).

und des Diencephalons (Zwischenhirn) zum auditorischen Kortex (primäre Hörrinde) des Telencephalons (Endhirn). Der überwiegende Teil der Fasern verläuft gekreuzt, d. h. sie verschalten auf die jeweils gegenüberliegende (kontralaterale) Hirnhälfte, nur ein kleiner Anteil verläuft ungekreuzt und verbleibt auf der Seite der Sinneszellen des jeweiligen Innenohres (ipsilateral). Die primäre Hörrinde, die nach ihrem Entdecker auch als HeschlQuerwindungen bezeichnet werden, umfasst die Gyri temporales transversi (BrodmannArea 41, vgl. Abbildung 4.5A) beider Hemisphären. Die Verschaltungen der auditorischen Nervenfasern bis zur primären Hörrinde werden auch als Hörbahn bzw. als akustische Projektion bezeichnet. Bei der Hörbahn handelt es sich um eine sehr komplexe Verschaltung, da es nicht nur an mehreren Stellen Umschaltungen zur jeweils anderen Hirnhälfte gibt, sondern bestimmte Faseranteile die nächsthöhere Verarbeitungsstufe überspringen oder auch in Form so genannter rückläufiger Fasern wieder zu tiefergelegenen Verarbeitungsstationen ziehen können. Auf die parallel dazu vorhandene absteigende Projektion (Efferenzen) und die akustischen Reflexbahnen soll hier nicht eingegangen werden. Zum bisherigen Kentnisstand der funktionellen Anatomie insgesamt ist jedoch festzustellen, dass die menschliche

Hörbahn noch nicht vollständig verstanden ist. Im Einzelnen gelangt die Information von den Haarsinneszellen des Corti-Organs im Innenohr zunächst auf bipolare Nervenzellen des Spiralganglions (Ganglion spirale) der Cochlea. Dabei erreicht jede Hörfaser (ein Bipolaren-Neurit) mit seinen Endverzweigungen zwischen 75 und 100 Neuronen den nachfolgenden Nucleus cochlearis, der aus etwa 88.000 Neuronen besteht (Dunker et al., 1972; Trincker, 1977). Die primären afferenten Fasern teilen sich nun zunächst in zwei Äste, die zu zwei kompliziert aufgebauten Kernen projizieren. Der eine Ast zieht in den Nucleus cochlearis ventralis, der andere zum Nucleus cochlearis dorsalis der Medulla oblongata (vgl. Abbildung 4.6). Vom Nucleus cochlearis ventralis ziehen Fasern zur gleichseitigen (ipsilateralen) und über den Trapezkörper zur gegenüberliegenden (kontralateralen) oberen Olive, die aus etwa 34.000 Neuronen besteht. Da beide Oliven jeweils sensorischen Input von beiden Ohren erhalten, finden bereits auf dieser Verschaltungsebene erste Verrechnungen zwischen den beiden Seiten statt. Vom Nucleus cochlearis dorsalis zieht eine Bahn zum Nucleus lemnisci lateralis der kontralateralen Seite, ebenso wie Fasern aus dem ipsilateralen Olivenkomplex. Gleichzeitig ziehen von dort Fasern zur kont-

66 ralateralen Seite, so dass hier die zweite Umschaltung auf die jeweils andere Seite erfolgt. Nach einer weiteren Umschaltung zum ipsilateralen und kontralateralen Colliculus inferior ist auf dieser Stufe bereits der dritte Ort einer kontralateralen Umschaltung. Von hier aus ziehen einige Fasern zum Colliculus superior, während der größte Teil zum Corpus geniculatum mediale im Metathalamus zieht. Hier wird für den für das Hören besonders wichtige Pars principalis eine Anzahl von etwa 360.000 Neuronen angenommen, der Pars magnocellularis besteht aus etwa 58.000 Neuronen. Vom Corpus geniculatum mediale ziehen dann weit verzweigte Fasern als so genannte Hörstrahlung in den primären auditorischen Kortex (primäre Hörrinde) (vgl. Dunker et al., 1972; Trincker, 1974, 1977). Zusammen bilden die Colliculi inferiores und superiores die Vierhügelplatte, die das Tectum des Mittelhirns ausmachen. Für den unteren Vierhügel (Colliculi inferior) werden etwa 360.000 Neuronen angenommen. Die Colliculi inferiores spielen dabei noch eine wichtige Rolle bei akustisch induzierten Orientierungsreaktionen: Bestimmte Afferenzen bewirken im Zusammenspiel mit Rückenmarksefferenzen eine Ausrichtungsreaktion des Kopfes in Richtung auf eine Geräuschquelle (Trepel, 1999). Neben dem oben beschriebenen Hauptleitungsweg der zur primären Hörrinde aufsteigenden Projektion existiert ein paralleles Projektionssystem zur Rinde des Kleinhirns (Cerebellum). Es handelt sich um eine Faserverbindung, die mit nur ein- bis zweimaliger synaptischer Umschaltung von den Cochleariskernen zum mittleren Teil des Kleinhirns (Vermis cerebelli) zieht (Trincker, 1977). In Verbindung mit den tecto-pontino-cerebellären Systemen liegt hier ein System zur Steuerung und Speicherung von Handlungen vor, die aufgrund akustischer Information moduliert werden sollen (z. B. Tanzen oder Klavierspiel). Der primäre auditorische Kortex. Der primäre auditorische Kortex liegt im Bereich der ersten Heschl-Querwindung auf der dorsalen Fläche des Gyrus temporalis superior und entspricht etwa Brodmann-Area 41. Die Anzahl der Neuronen der Hörrinde wird auf etwa 10,2 Mio geschätzt (Duncker, 1972). Da die erste synaptische Umschaltung der Hörbahn direkt an der Sinneszelle erfolgt, besteht der Verlauf der akustischen Projektion lediglich aus nur fünf bis sechs neuronalen Stufen. Allerdings wird die Projektion weitaus kom-

I. Grundlagen der Psycholinguistik

plexer durch Überkreuzungen, Divergenz und die Existenz rückläufiger Bahnen, über die Information auch wieder rückgeführt wird. Somit entstehen in der Verarbeitung auch längere, rückgekoppelte Ketten. Aufgrund der mehrfachen Überkreuzung, bei der auch vormals gekreuzte Anteile wieder zurückkreuzen, erhält die primäre Hörrinde jeder Hirnhälfte Informationen der Cochleae beider Ohren. Eine einseitige zentrale Schädigung führt somit nicht zu einem kompletten Ausfall eines Ohres, sondern nur zu einer mehr oder weniger starken Minderleistung. In Experimenten zum so genannten dichotischen Hören (s. z. B. Hugdahl, 1988), bei dem jedes Ohr getrennt per Kopfhörer mit gleichen oder unterschiedlichen Stimuli versorgt wird, konnten jedoch Seitenbevorzugungen festgestellt werden. Silben wie etwa ma bzw. pa werden gehört, erkannt und korrekt wiederholt, unabhängig davon, ob sie nur in das linke oder nur in das rechte Ohr gespielt werden. Aufgrund der anatomischen Kreuzung der Fasern gelangt die Information des rechten Ohres jedoch in stärkerem Maße direkt zur linken und damit zumeist sprachdominaten Hemisphäre. Wird die Silbe hingegen nur in das linke Ohr gespielt, so müssen die Informationen nach der primären akustischen Analyse über interhemisphärische Verbindungen (z. B. über den Balken) zur sprachdominanten Hemisphäre zurückkreuzen. Aufgrund dieser Gegebenheiten zeigt sich ein Verarbeitungsvorteil für bestimmte sprachliche Informationen, die mit dem rechten Ohr wahrgenommen werden (Kimura, 1967). Werden nämlich gleichzeitig die Silben ma und pa konkurrierend jeweils in nur ein Ohr gespielt, so wird nur die Silbe des rechten Ohres bewusst wahrgenommen. Es lässt sich jedoch zeigen, dass dieser „Rechts-Ohr-Vorteil“ nur für bestimmte Konsonanten (z. B. b, d, t) nicht jedoch für Vokale gilt (Schwartz & Tallal, 1980). Die bereits in der Hörschnecke angelegte Aufteilung in unterschiedliche Frequenzbereiche (Frequenzdispersion) wird in Form einer tonotopen Abbildung beibehalten, da jeweils unterschiedliche Bereiche der Umschaltstationen für bestimmte Tonhöhen verantwortlich sind. Auch in der primären Hörrinde lässt sich diese Tonotopie nachweisen, da die Verarbeitungsorte mit aufsteigender Frequenz von anterolateral nach posteromedial verlaufen. Von der primären Hörrinde werden die auditorischen Informationen zur angrenzenden

4. Neurobiologische Grundlagen der Sprachfähigkeit

sekundären Hörrinde geleitet, die etwa Brodmann-Area 42 und 22 entspricht. Die primäre Hörrinde ist der Ort der interpretationsfreien Bewusstwerdung der auditorischen Signale aus dem Innenohr (Trepel, 1999), wobei es zu keiner Spezialisierung der dominanten oder subdominanten Seite kommt. Die primäre Hörrinde beider Hemisphären dient zur Verarbeitung auditorischer Informationen. Wird sie z. B. während eines neurochirurgischen Eingriffs elektrisch bzw. mechanisch gereizt, so kommt es zur halluzinatorischen Wahrnehmung von Lauten, Tönen oder Geräuschen, nicht jedoch zur Wahrnehmung von Wörtern oder Sprache. Erst die sekundäre Hörrinde der dominanten Hemisphäre ist für die nächsthöhere Verarbeitung von Lauten und Wörtern im Sinne einer Identifikation von sprachlichen Einheiten und deren Interpretation verantwortlich. Im Unterschied zur primären Hörrinde können bei der elektrischen Stimulation der sekundären Hörrinde und benachbarter Assoziationsgebiete sehr wohl sprachliche Halluzinationen ausgelöst werden. Für die Ausbildung der primären und sekundären Hörrinden gilt, dass starke hemisphärenspezifische und auch individuenspezifische Unterschiede festgestellt werden können (Trincker, 1977). Aufgrund der unterschiedlichen Aufgaben in Bezug auf bestimmte höhere kognitive Funktionen (Hemisphären-Asymmetrie oder Lateralisierung) (z. B. Hellige, 1990; Aboitiz et al., 1995; Springer & Deutsch, 1998) sind die meisten sprachspezifischen Funktionen in der so genannten dominanten Hemisphäre angesiedelt. Bei etwa 95 % der normalen Rechtshänder (etwa 85 % der Population) und etwa 70 % normaler Linkshänder ist die linke Hemisphäre sprachdominant. In den anderen Fällen ist entweder die rechte Hemisphäre sprachdominant (z. B. bei etwa 15 % der normalen Linkshänder), oder die Sprache ist bilateral repräsentiert. In der präoperativen Diagnostik lässt sich die Lateralität der Sprache durch eine kurzfristige Betäubung jeweils nur einer Hemisphäre feststellen (Wada-Test) mit jeweils typischen Beeinträchtigungen der Sprache (z. B. McGlone, 1984; Loring et al., 1990; Jones-Gotman, Rouleau & Snyder, 1997). Die unterschiedliche Repräsentation höherer kognitiver Prozesse und der Sprache in den Hemisphären geht mit makroskopisch sichtbaren Unterschieden der Anatomie einher. So ist bei den meisten Rechtshändern ein für die Sprache wichtiger Bereich der Werni-

67 cke-Region (Planum temporale) linkshemisphärisch größer als rechtshemispärisch. Weiterhin zeigen sich Lateralisierungen hinsichtlich sprachlicher und musikalischer Aufgaben (z. B. Geschwind & Levitsky, 1968; Geschwind & Galaburda, 1984; Kertesz et al., 1992; Schlaug et al., 1995a, 1995b). Für professionelle Musiker konnte gezeigt werden, dass besonders ausgeprägte musikalische Fähigkeiten mit messbaren Unterschieden der kortikalen Repräsentation einhergehen (Schlaug et al., 1995a, 1995b). Für Unterschiede in der sprachlichen Kompetenz steht ein solcher Befund noch aus. Andererseits liegt der sprachlichen Fähigkeit auch kein engumgrenztes Rindenfeld zugrunde, wie es etwa beim so genannten absoluten Gehör oder den motorischen Fähigkeiten eines Violinvirtuosen der Fall ist. Lediglich Unterschiede in der Belastung des Arbeitsgedächtnisses von guten und schlechten Verstehern sind festzustellen (King & Kutas, 1995; Müller, King & Kutas, 1997). Übersichten über elektrische Stimulationsexperimente geben Penfield und Pernot (1963), Creutzfeld et al. (1989), Ojemann et al. (1989), Ojemann (1991, 1994), Lebrun und Leleux (1993) Lesser et al. (1994) sowie Lesser, Gordon und Uematsu (1994). Detailliertere Angaben zum Kenntnisstand der Hörbahn und der funktionellen Anatomie des auditorischen Kortex finden sich bei

Abb. 4.6: Schematische Darstellung des vereinfachten Verlaufes der Hörbahn des rechten Ohres von den Sinneszellen bis zum primären auditorischen Kortex der linken Hemisphäre. Die rückläufigen Bahnen sind nicht eigezeichnet (aus Schmidt und Thews, 1987: 308, verändert).

68 Dunker et al. (1972), Trincker (1977), Seldon (1981a, b), Aitkin, Irvine und Webster (1984), Green und Wier (1984), Kiang (1984), Brugge und Reale (1985), Nieuwenhuys, Voogd, und van Huijzen (1991), Aitkin (1990), Cazals, Horner und Demany (1992), Katz, Stecker und Henderson (1992), Webster (1992) und Ehret (1997). 3.2.2. Die zentralnervöse Dekodierung von Sprache Die akustische Mustererkennung (Feature Detection) wird bereits auf der Ebene der ersten neuronalen Umschaltungen durchgeführt. Die peripheren Neuronen des Hörnervs und z. T. auch die des Nucleus cochlearis ventralis folgen den Stimuli noch physikalisch exakt und bilden den Intensitäts- und Amplitudenverlauf des Reizes gut ab. Sie sind z. B. auch noch durch reine Sinustöne erregbar. Neuronen des Nucleus cochlearis dorsalis hingegen antworten auf Sinustöne bereits mit jeweils typischen Entladungsmustern. Vor allem Neuronen der höheren Verarbeitungsstationen reagieren jedoch nicht mehr auf einfache Sinustöne, sondern nur auf sehr komplexe, amplituden- und frequenzmodulierte Geräusche (z. B. Sprache). In der Hierarchie des Zentralnervensystems noch höher angeordnete Neuronen des akustischen Systems zeigen noch spezifischere Entladungsmuster (z. B. Bullock, 1977). Sie reagieren zumeist nur noch auf ganz bestimmte Merkmale akustischer Stimuli, die zudem häufig auch noch genau in einem bestimmten Intensitätsfenster liegen müssen. Solche Neuronen mit einem komplexen Antwortverhalten sind an der individuellen Identifikation von artspezifischen Lautmustern beteiligt und ermöglichen es z. B. kolonielebenden Vögeln, ihre Jungen anhand der Schreie auch in dem Stimmengewirr einer Kolonie zu erkennen. Solche akustischen Identifikationsleistungen, die an den so genannten Cocktail-Party-Effekt erinnern, sind bei vielen Tierarten anzutreffen. Bei den Neuronen des primären auditorischen Kortex handelt es sich bereits um komplexe und hyperkomplexe Neuronen, die bereits sehr spezifisch reagieren. Auch bei dem einfacheren und dem akustischen System verwandten Seitenliniensystem der Fische sind solche Musterdetektoren nachgewiesen (Müller, 1996). Somit zeigt das Acoustico-lateralis-System eine ähnliche neuronale Komplexität wie etwa das vergleichsweise gut untersuchte visuelle System. Im akustischen Sys-

I. Grundlagen der Psycholinguistik

tem verhalten sich bereits viele Neuronen der ersten Umschaltstufen wie komplexe Filter und „beachten“ lediglich bestimmte Merkmale eines Reizes. Ein Beispiel für Neuronen, die innerhalb gewisser Intensitäten lediglich den Anfang (ON-Neuron) oder das Ende (OFF-Neuron) eines Reizes beantworten, zeigt Abbildung 4.7. Andere Beispiele für ein komplexes Antwortverhalten von akustischen Neuronen im Nucleus cochlearis dorsalis der Katze zeigt Abbildung 4.8. In Verbindung mit der Frequenzdispersion und der damit verbundenen Tonotopie erlauben solche Neuronen komplexe Erkennungsleistungen, indem komplexe Geräusche (z. B. Stimmengewirr) in Einzelmerkmale zerlegt und mithilfe von Merkmalbündeln weiterverarbeitet werden. Bei den Neuronen zur akustischen Mustererkennung, die auch der Phonemanalyse zugrundeliegen, handelt es sich somit um eine in stammesgeschichtlicher Hinsicht alte Fähigkeit. Prinzipiell können neuronale Verarbeitungsmechanismen an niederen Wirbeltieren

Abb. 4.7: Darstellung von frequenzabhängigen Antworten eines akustischen Neurons (Wels, Mesencephalon) auf Sinustöne. Zu sehen sind vier (oben) bzw. acht (unten) Folgen von Aktionspotentialen und das dazugehörige Balkenhistogramm. Die untere Spur zeigt die Umhüllende des akustischen Reizes. Es ist deutlich zu sehen, dass ausschließlich entweder der Reizbeginn (ON-Antwort bei 2900 Hz) oder das Reizende (OFF-Antwort bei 2600 Hz) beantwortet werden (aus Müller, 1993a: 104).

4. Neurobiologische Grundlagen der Sprachfähigkeit

Abb. 4.8: Spezifische Entladungsmuster von vier Neuronen des Nucleus cochlearis dorsalis auf Töne unterschiedlicher Frequenz. Aufgetragen ist die Anzahl der Aktionspotentiale der Neuronen gegen die Zeit. Die Balken symbolisieren die Länge des jeweiligen Schallreizes (50 ms) (aus Adams, 1976: 101, verändert).

untersucht werden, spezielle Analyseschritte sind jedoch nur bei höheren Säugern in vergleichbarer Weise ausgebildet. Da alle Säugetiere ein prinzipiell ähnlich aufgebautes auditorisches System haben, werden viele Erkenntnisse zur Hörphysiologie an Nagetieren, Katzen und z. T. auch an Affen gewonnen. Subhumane Primaten wie Rhesusaffe (Makak) und Schimpanse zeigen aufgrund ihrer phylogenetisch größeren Verwandtschaft zum Menschen natürlich die größtmögliche Annäherung an die menschliche Anatomie und Physiologie. Aufgrund der weiter oben geschilderten Erkennungsleistungen des akustischen Systems ist verständlich, dass z. B. Chinchillas Silben wie da und ta im Zweifachwahlversuch unterscheiden können, wie in Verhaltensversuchen festgestellt werden konnte (Miller, 1977; Kuhl & Miller, 1978). Kortikale Vielzellenableitungen, die an verschiedenen Säugetierarten durchgeführt werden, ermöglichen ein erstes Verständnis der phonematischen Analyse von Sprachsignalen im menschlichen Kortex (z. B. Steinschneider, Arezzo & Vaughan, 1982; Steinschneider et al., 1994). Ein Beispiel für eine

69 Ableitung neuronaler Aktivität auf sprachliche Signale im Affenkortex zeigt Abbildung 4.9. Ein weiteres Beispiel von Neuronen, die als komplexe Mustererkenner auch für sprachliche Reize bei der Katze fungieren, zeigt Abbildung 4.10. Die Dekodierung sprachlicher Informationen setzt nach Keidel (1992) im Vierhügelgebiet (Colliculi inferiores und superiores) und im Corpus geniculatum mediale ein. Frühere Neuronen tragen hingegen vor allem zur Ortung der Schallquelle bei. In thalamischen Umschaltstationen wird die akustische Information der Schallsequenzen einer sprachlichen Äußerung durch Neuronen (Merkmalsdetektoren) gefiltert, und nur ganz bestimmte Merkmale des Sprachsignals werden über spezifische Entladungsmuster der jeweiligen Neuronen zur primären Hörrinde geleitet. Dieser Teil der akustischen Verarbeitung ist stammesgeschichtlich sehr alt und verläuft bei vielen Wirbeltieren ähnlich. Wie auch beim visuellen System ist die Lautanalyse z. B. bei allen Säugetieren bis zu diesem Punkt in etwa homolog. Aufgrund der Gegebenheiten der akustischen Vokalisation erscheinen die neuronalen Merkmalsdetektoren der Säugetiere als Präadaptation für die Sprachanalyse (Ehret, 1992). In den höheren, kognitiven Verarbeitungsstationen der Hörrinde und der sprachrelevanten Kortexbereiche des Menschen werden dann syntaktische und semantische Analysen durchgeführt und dort mit gespeicherten Lexikoneinträgen verglichen. Das Sprachsignal selbst ist somit zunächst ein sehr komplexes und informationsreiches Signal. Nachdem alle überflüssige Information während der thalamischen Vearbeitung jedoch „abgestreift“ wurde (Keidel, 1992), gelangt nur noch eine vergleichsweise geringe Menge akustischer Information in Form von Merkmalskomplexen zur weiteren Verarbeitung, was die Effizienz und Geschwindigkeit der Analyse erhöht (Datenreduktion). Da diese akustischen Merkmale, die nicht etwa mit phonematischen Merkmalen zu verwechseln sind, bereits parallel verarbeitet werden, verwundert die schnelle Verarbeitungszeit nicht. Jede der fünf bis sechs synaptischen Umschaltungen benötigt zumindest eine Millisekunde Zeit, hinzu kommen kortikale Umschaltprozesse. Jedoch zeigt der Verlauf der Hörbahn (vgl. Abbildung 4.6), dass es infolge der Aufzweigung bereits im Hirnstamm zu einer parallelen und somit zeitsparenden Verarbeitung von Information kommt. Zusätzlich

70

I. Grundlagen der Psycholinguistik

Abb. 4.9: Vielzellableitungen von Neuronen des posterioren primären auditorischen Kortex beim Affen. Gezeigt werden die Antworten auf einen Klick-Laut und die gesprochenen Silben da, ba, ta. Die Ableitungen sind simultan in unterschiedlichen Tiefen durchgeführt, wobei Ableitung A neuronale Aktivität in Lamina III und Ableitung D neuronale Aktivität im subkortikalen Bereich, der so genannten Weißen Substanz zeigt. Die unterste Spur zeigt die jeweiligen Stimuli. Während die Neuronen in Ableitung A annähernd identische Antworten auf alle drei Silben zeigen, ist in Ableitung C eine Phasenankopplung an den Stimulus zu sehen. Die Neuronen in Ableitung D hingegen reagieren nur auf die Silbe ba (aus Steinschneider et al., 1982: 361).

Abb. 4.10: Antwortbeispiele von vier Neuronen (P2S1, P2S2, P2S3, P2S4) im Geniculatum der Katze, die aufgrund ihrer Eigenschaften auf Merkmale reagieren, die z. B. auch Konsonanten bzw. Vokale besitzen. In der jeweils oberen Spur sind die Aktionspotentiale zu sehen, während die jeweils untere Spur den MikrophonMitschnitt der sprachlichen Stimuli wiedergibt. Neuron P2S2 antwortet nur auf akustische Merkmale, die z. B. im labiodentalen Frikativ enthalten sind (fein). Neuron P2S2 hingegen antwortet unspezifisch auf die in diesem Fall getesteten Merkmale. Neuron P2S3 antwortet ausschließlich auf Merkmale, die im Vokal a enthalten sind. Neuron P2S4 antwortet ausschließlich auf Merkmale, die in alveolare Plosiven enthalten sind (dein) (aus Keidel, 1992: 351).

zu den Prozessen der akustischen Primäranalyse kommen z. B. beim Nachsprechen noch vielfältige Prozesse in der Wernicke-Region, der Broca-Region und der supplementären

motorischen Area (SMA) hinzu. Dennoch ist es Versuchspersonen möglich, sprachliche Äußerungen wahrzunehmen, zu analysieren, zu verstehen und mit einer Latenz von ledig-

71

4. Neurobiologische Grundlagen der Sprachfähigkeit

lich 220 ms auch wieder zu produzieren (Marslen-Wilson, 1985). In einer Gating-Studie konnte gezeigt werden, dass bereits die ersten 120 ms gesprochener Eigennamen und Nomen ausreichen, um eine signifikant erhöhte Trefferquote bei der Unterscheidung von Eigennamen vs. Nomen zu erzielen (Müller & Kutas, 1996). Da, wie bereits weiter oben erwähnt, schon thalamische Neuronen zur Phonemanalyse beitragen, ist die genaue Funktion des auditorischen Kortex hinsichtlich der Sprachanalyse unklar. Das Gleiche gilt auch für die möglicherweise unterschiedliche Beteiligung der beiden Hemisphären. Die primäre akustische Analyse wird im auditorischen Kortex zweifelsfrei bilateral durchgeführt. Wie Steinschneider, Arezzo und Vaughan (1982) zeigen konnten, antworten die auditorischen Kortexbereiche beider Hemisphären auf akustische Reize, zeigen jedoch keinerlei phonemspezifische Antworten. Steinschneider et al. (1982) gehen somit davon aus, dass weder Zellen des rechtshemisphärischen noch des linkshemisphärischen auditorischen Kortex in der Lage sind, Phonemdiskrimination oder Unterscheidungen wie „Sprache vs. NichtSprache“ durchzuführen. Sehr wohl lassen sich aber neuronale Korrelate zu Kategorisierung anhand der Voice Onset Time (VOT) finden (Steinschneider et al., 1994, 1995). Nach Seldon (1985) zeigen die Neuronen des primären auditorischen Kortex am häufigsten eine der drei folgenden Antworttypen: 1) Neuronen mit einer starken ON-Antwort, die bis etwa 50 ms nach Stimulusbeginn anhält, 2) eine Phasenankopplung als integrierte Antwort über die gesamte Stimulusdauer oder 3) eine OFF-Antwort am Stimulusende. Falls im primären auditorischen Kortex die Phonemunterscheidung durchgeführt wird, so kann diese Leistung nur als systemische Leistung vieler Neuronen möglich sein. Sollte die Phonemunterscheidung jedoch auf einzelne Neuronen zurückgehen, dann kann sie nach Seldon (1985) frühestens im sekundären auditorischen Kortex stattfinden. Zusätzlich zu den in Abbildung 4.6 dargestellten Verbindungen der Hörbahn gibt es vom auditorischen Kortex auch rückläufige Bahnen zum Thalamus. So können die Ergebnisse der akustischen Primäranalyse schon zum Thalamus rückgemeldet werden, während der höhere, phonetische Analysevorgang im primären auditorischen Kortex noch nicht beendet ist. Da im Thalamus, der

stammesgeschichtlich zu den ältesten Gehirnbereichen zählt, zum Teil auch die Emotionen repräsentiert sind, kommt es an dieser Stelle zu einer emotionalen Kodierung oder Erregung des Gehörten (Keidel, 1992). Dies ist der Grund, warum z. B. bestimmte Tierlaute dem Menschen z. B. als „traurig“, „lustig“, „aggressiv“ oder „gepeinigt“ erscheinen. Beispielsweise mag eine bestimmte Tierstimme innerhalb der jeweiligen innerartlichen Kommunikation ausschließlich als definiertes Balzsignal oder territoriales Signal wirken. Für den Menschen kann dieses Signal z. B. eine „weinerliche“ oder „traurige“ Interpretation bewirken. Daher werden bestimmte Katzenvokalisationen als „Weh-Klagen“ empfunden, obwohl sie von Katzen emotional ganz anders interpretiert werden. Auch für die emotionale Analyse der menschlichen Sprache spielen diese thalamischen Verbindungen eine große Rolle. Sie zeigen, dass neben den kortikalen Strukturen auch die stammesgeschichtlich älteren, tieferliegenden Hirnbereiche für die Sprachverarbeitung wichtig sind. Detailliertere Angaben zur Physiologie und zur funktionellen Anatomie des Kortex in Bezug auf die phonetische Analyse von Sprachsignalen finden sich bei Bullock (1977), Seldon (1981a, b, 1985), Aitkin, Irvine und Webster (1984), Kiang (1984), Kent (1992), Schouten (1992), Moore (1995), Gummer und Zenner (1996), Zenner (1994, 1996) und Brown (1999). Übersichten zur Sprachverarbeitung im Bereich der Neurolinguistik bzw. der Cognitive Neuroscience finden sich z. B. bei Kutas (1997, 1998), Kutas und van Petten (1994), Müller (1997), Stemmer und Whitaker (1998), Brown und Hagoort (1998) und Gazzaniga (2000). Übersichten zur historischen Entwicklung der Neurolinguistik geben z. B. Finger (1994), Clarke und Dewhurst (1996), Müller (1997), Stemmer und Withaker (1998), Friederici und v. Cramon (1999).

4.

Zur Verarbeitung natürlichsprachlicher Äußerungen

Ergebnisse aus allen Bereichen der kognitiven Neurowissenschaften haben innerhalb der letzten Jahre gezeigt, dass die Sprachverarbeitung nicht ausschließlich in der dominanten – also bei fast allen Rechtshändern in der linken Hemisphäre – anzusiedeln ist (z. B. Just et al., 1996; Beauregard et al., 1997; Binder et al., 1997; St. George et al., 1999; Pul-

72 vermüller, 2000). Weiterhin ist das ursprünglich auf C. Wernicke (1848⫺1904) und L. Lichtheim (1845⫺1928) zurückgehende, später von Geschwind (s. Geschwind & Galaburda, 1984) präzisierte Wernicke-Geschwind Modell (vgl. Abbildungen 4.4 und 4.5) nicht mehr unumstritten, auch wenn es z. T. noch immer als Lehrbuchwissen gilt. Diesem Modell, in dem Broca- und Wernicke-Region als die wesentlichen Orte der Sprachfunktionen gelten, liegen im Wesentlichen klinische Befunde der Aphasiologie zugrunde. Dabei wurden die Prozesse der Sprachproduktion hauptsächlich der Broca-Region, die Prozesse der Sprachverarbeitung hauptsächlich der Wernicke-Region zugewiesen. Anhand von PET-Studien konnte jedoch auch beim Sprachverstehen eine Aktivität in der BrocaRegion nachgewiesen werden (Liotti, Gay & Fox, 1994; Price et al., 1996). Weiterhin wurde in früheren Arbeiten von einer starken funktionellen Lateralisation ausgegangen, wonach bei fast allen Rechtshändern und den meisten Linkshändern ausschließlich linkshemisphärische Regionen als Sprachzentren angesehen wurden. Jüngere Befunde zur Physiologie der Sprachverarbeitung stellen die ehemals so klare funktionelle Zuordnung des Wernicke-Geschwind-Modells jedoch in Frage. Experimentelle Arbeiten der letzten Dekade zeigen eine viel kompliziertere Situation mit einer Beteiligung weiterer Hirnregionen an den Sprachprozessen, z. B. das motorische Supplementärfeld („Supplementary Motor Area“, SMA) (Petersen et al., 1988), die links-frontale semantische Region (z. B. Petersen et al., 1988; McCarthy et al., 1993; Abdullaev & Bechtereva, 1993) oder der Temporallappen (Damasio et al., 1996). Auch elektrische Stimulationsexperimente zeigen z. B. die Beteiligung verteilter frontaler Kortexbereiche am Sprachprozess (Ojemann, 1994). Weiterhin zeigen Studien mit intrakranialen Elektroden Aktivitäten im inferioren Temporallappen bei der visuellen Darbietung von Sätzen (Nobre, Allison & McCarthy, 1994). Auch eine Beteiligung der rechten Hemisphäre an Sprachverarbeitungsprozessen ist nachgewiesen (z. B. Eulitz et al., 1996; Just et al., 1996; Weiss & Rappelsberger, 1996; St. George et al., 1999). Das für die Sprachverarbeitung wichtige Arbeitsgedächtnis ist ebenfalls nicht nur in frontalen Kortexregionen lokalisiert. Vielmehr zeigen sich bei Zugriffen auf das Arbeitsgedächtnis bilaterale, weitverteilte Kortexaktivitäten (Grasby et al., 1994; Fletcher, Dolan & Frith, 1995) und sogar Ak-

I. Grundlagen der Psycholinguistik

tivitäten im Cerebellum (Jenkins & Frackowiak, 1993; Andreasen et al., 1995). Insgesamt lässt sich feststellen, dass semantische Einträge eher linksfrontal und episodische Einträge eher rechtsfrontal repräsentiert sind (Tulving et al., 1994; Andreasen et al., 1995). Die nicht-sprachdominante Hemisphäre, also die rechte Hemisphäre nahezu aller Rechtshänder, ist am Sprachprozess beteiligt (Code, 1997) und scheint z. B. eine wichtige Rolle bei der Analyse von Metaphern (Bottini et al., 1994), aber auch bei der semantischen Integration (Diskursanalyse) zu spielen (St. George et al., 1999). Gerade für die Verarbeitung von unterschiedlich komplexen Relativsätzen des SS- und SO-Typs konnten Just et al. (1996) anhand einer fMRI-Studie eine beanspruchungsabhängige Mitwirkung auch der rechten Hemisphäre nachweisen. So führten die höheren Verarbeitungsansprüche von schwierigeren Relativsätzen auch zu einer stärkeren Aktivität der rechtshemisphärischen Sprachverarbeitungsregionen (Just et al., 1996). Auch für die Sprachverarbeitung muss somit die ausschließlich lokalistische Suche nach distinkten Regionen im Gehirn zugunsten der Annahme eines zusätzlichen, globalen Prozesses aufgegeben werden. Für die Realisierung solcher globalen Aktivitäten werden gegenwärtig oszillatorische Prozesse angenommen (Singer, 1994), die zur synchronisierten Zusammenarbeit verteilter Hirnareale beitragen. Eine Möglichkeit, natürlichsprachliche Sätze hinsichtlich der ihnen zugrundeliegenden Synchronisationsprozessen zwischen beteiligten Hirnregionen im Elektroenzephalogramm (EEG) zu untersuchen, bieten spektralanalytische Verfahren, wie die Berechnung der Kohärenzen zwischen EEGSignalen (Weiss & Rappelsberger, 1996, 1998, 2000; Weiss, Müller & Rappelsberger, 2000). Befunde aus mehreren Bereichen der kognitiven Neurowissenschaften legen nahe, dass die gängige Ansicht über die Orte kortikaler Sprachverarbeitung teilweise revidiert und mit Einschränkungen auch auf die entsprechenden Regionen der rechten Hemisphäre erweitert werden muss. Eine Zusammenfassung von bisher vorliegenden Ergebnissen zur Physiologie der Hörbahn und von Befunden zur Analyse akustischer und natürlichsprachlicher Stimuli zeigt Abbildung 4.11. Anhand der vertikalen Einteilung in Abbildung 4.11 (rechts) ist zu erkennen, dass die Sprachverarbeitung auf den anatomischen

4. Neurobiologische Grundlagen der Sprachfähigkeit

73

Abb. 4.11: Vereinfachtes Schema der Wahrnehmung und Verarbeitung von Vokalisation und Sprache anhand der Hörbahn. Dargestellt sind die wichtigsten Stationen im Hirnstamm (Medulla, Pons, Mittelhirn (Mesencephalon) und Zwischenhirn (Diencephalon)) und im Neokortex. Bis auf eine Ausnahme (Thalamus) sind keine der rückläufigen Bahnen eingezeichnet. Die Zeitangaben liefern nur Annäherungswerte, aufgrund der in der Abbildung nicht hervortretenden Parallelität von Analyseschritten. Auch wenn der Hörnerv aus nur etwa 30.000 Fasern besteht, so sind die tatsächlichen Verschaltungen der Hörbahn aufgrund rückläufiger Bahnen komplizierter als die des Sehsystems (etwa 1 Mio. Fasern). Andererseits besteht die Hörbahn bis zum primären auditorischen Kortex aus lediglich 5 oder 6 hintereinandergeschalteten Ebenen von Neuronen (aus Müller, 1997).

und physiologischen Gegebenheiten der stammesgeschichtlich älteren Vokalisation aufbaut. So werden auch bei der zentralnervösen Verarbeitung viele Stationen der Vokalisation von der Sprachverarbeitung genutzt. Nach der Fokussierung des Schallsignals und einer passiven Verstärkung im Hauptfre-

quenzbereich der Sprache wird das Signal zunächst im Mittelohr impedanz-gewandelt und aktiv verstärkt, dann über die Sinneszellen der Cochlea frequenzselektiv in elektrische Signale umgewandelt. Bereits in der Medulla geschieht die erste Analyse in Form einer einfachen Mustererkennung, indem Neu-

74 ronen auf bestimmte akustische Muster komplexer Stimuli mit jeweils typischem Antwortverhalten reagieren. Auf der Höhe des OlivenKomplexes beginnt die aus stammesgeschichtlicher Sicht sehr bedeutsame Richtungslokalisation einer Schallquelle. Dabei wird die genaue Position einer Schallquelle anhand der Laufzeitunterschiede ermittelt, die sich aus den unterschiedlich langen Entfernungen zwischen der Schallquelle und den beiden Ohrmuscheln ergeben. Die Neuronen der Olive, bei denen jeweils ein Dendrit zur linken und einer zur rechten Seite zieht, können Laufzeitunterschiede des Schallsignals im Bereich von wenigen millionstel Sekunden feststellen und so zur Positionsermittlung beitragen. Innerhalb der frühen Verarbeitung von Schallsignalen im Hirnstamm werden Teile der Information insgesamt mindestens dreimal auf die jeweils andere Seite verschaltet. Auf der Höhe des Colliculus inferior beginnt bereits die Erkennung komplexer akustischer Merkmale durch Neuronen, die als „Feature Detectors“ arbeiten. Diese Neuronen leisten einen wesentlichen Beitrag zur Erkennung von artspezifischen Lauten bei der Vokalisation und zur Erkennung von sprachlichen Einheiten auf einer sub-phonematischen Ebene. Diese Analyse wird auf der nächsthöheren Stufe, dem Corpus geniculatum mediale, weitergeführt. Es ist noch unklar, ob die Erkennung der Phoneme von Neuronen des Geniculatums oder des primären auditorischen Kortex durchgeführt wird. Spätestens auf der Stufe des primären auditorischen Kortex liegen jedoch die wesentlichen Informationen der Schallauswertung vor, um eine Phonemerkennung durchzuführen. Bereits vor Erreichen dieser Stufe hat jedoch über rückläufige Bahnen zum Thalamus die primäre emotionale Auswertung begonnen. Hier werden die wahrgenommenen Signale (Vokalisationslaute oder Sprache) nach emotionalen Empfindungen ausgewertet. Bis auf diese Bahn sind alle anderen rückläufigen Verbindungen, die erheblich zur Komplexität der Hörbahn beitragen, nicht eingezeichnet. Im Vergleich zur relativ gut erforschten Sehbahn hat die Hörbahn eine weitaus komplexere Verschaltung. Gleichzeitig liegen bislang nur unzureichende Erkenntnisse zur funktionellen Anatomie der Hörbahn vor. Fasst man die bisherigen Ergebnisse zur Neurophysiologie der Sprachverarbeitung zusammen, so lässt sich ein notgedrungen unvollständiges, erstes Bild der zentralen Prozesse im Kortex zeigen, das nur als sehr ver-

I. Grundlagen der Psycholinguistik

einfachtes Schema verstanden werden kann. Demnach erscheint es wahrscheinlich, dass im temporo-parietalen Kortex (Wernicke-Region) der dominanten Hemisphäre die phonematische Analyse durchgeführt wird, wobei es jedoch noch nicht klar ist, nach welchen Einheiten (z. B. Phonemen, Silben etc.) sich die Analyse richtet. Weiterhin kann davon ausgegangen werden, dass in diesem Bereich eine semantische Analyse durchgeführt wird, während zumindest Teile des Wortformen-Lexikons im Temporallappen repräsentiert zu sein scheinen. Hier lassen erste Ergebnisse eine nach Kategorien (z. B. „Werkzeuge“ oder „Früchte“) angeordnete Repräsentation der Lemmata vermuten (Damasio et al., 1996). Die syntaktische Analyse wird vermutlich im Frontallappen der dominanten Hemisphäre (Broca-Region) durchgeführt. Weiterhin ist hier die Repräsentation von morphologischen und phonologischen Informationen von Wörtern in einem Wortformen-Lexikon zu vermuten. Im anterioren Bereich des Frontallappens wird das semantische Gedächtnis und Teile des Arbeitsgedächtnisses angesiedelt (Petersen et al., 1988; Tulving, 1994; Andreasen et al., 1995). Im Vergleich zur dominanten Hemisphäre kommen der subdominanten Hemisphäre zwar wenige, jedoch ebenfalls wichtige Funktionen zu (Seldon, 1985). So findet im temporo-parietalen Bereich (Wernicke-Region) nur eine sehr eingeschränkte Sprachanalyse statt. Allerdings zeigen Ergebnisse einer fMRI-Studie, dass die Aktivität auch in dieser Hemisphäre geringfügig zunimmt, wenn sehr hohe Anforderungen an die Satzanalyse gestellt werden (Just et al., 1996). Im Frontallappen der subdominanten Hemisphäre wird vor allem die prosodische Analyse, die Analyse der Satzmelodie durchgeführt. Hier wird die sekundäre emotionale Interpretation der Sprachverarbeitung geleistet.Weiterhin kommt dem subdominanten Frontallappen eine Bedeutung bei der Analyse von Metaphern zu (Bottini et al., 1994). Auch in den frontalen Regionen der subdominanten Hemisphäre finden sich wesentliche Teile des Arbeitsgedächtnisses und des episodischen Gedächtnisses (Tulving et al., 1994; Andreasen et al., 1995). Bei den hier aufgeführten Belegen der verschiedenen Funktionen ist jedoch zu beachten, dass es sich um Ergebnisse mit unterschiedlichen Methoden und Aufgabenstellungen handelt. Das hier vorgestellte Verarbeitungsschema gesprochener Sprache ist ledig-

4. Neurobiologische Grundlagen der Sprachfähigkeit

lich als vereinfachter Ansatz zu verstehen, der einige der im Zentralnervensystem ablaufenden Prozesse während der Wahrnehmung und Analyse natürlichsprachlicher Äußerungen darstellen soll. Bislang liegen weder zur funktionellen Anatomie der Hörbahn noch zu den einzelnen Analyseschritten in der Sprachverarbeitung hinreichend detaillierte Befunde vor.

5.

Literatur

Abdullaev, Y. G. & Bechtereva, N. P. (1993). Neuronal correlate of the higher-order semantic code in human prefrontal cortex in language tasks. International Journal of Psychophysiology, 14, 167⫺ 177. Aboitiz, F., Ide, A., Navarrete, A., Pena, M., Rodriguez, E., Wolff, V. & Zaidel, E. (1995). The anatomical substrates for language and hemispheric specialization. Biological Research, 28, 45⫺50. Adams, J. C. (1976). Single unit studies on the dorsal and intermediate acoustic striae. Journal of Comparative Neurology, 170, 97⫺106. Aitkin, L. (1990). The auditory cortex: Structural and functional bases of auditory perception. London: Chapman & Hall. Aitkin, L. M., Irvine, D. R. F. & Webster, W. R. (1984). Central neural mechanisms of hearing. In I. Darian-Smith (Ed.), Handbook of Physiology: Section I, The Nervous System, Vol III, Sensory Processes, Part 2 (pp. 675⫺737). Bethesda: American Physiological Society. Andreasen, N. C., O’Leary, D. S., Arndt, S., Cizadlo, T., Hurtig, R., Rezai, K., Watkins, G. L., Ponto, L. L. & Hichwa, R. D. (1995). Short-term and long-term verbal memory: A positron emission tomography study. Proceedings of the National Academy of Sciences USA, 92, 5111⫺5115.

75 Bechtereva, N. P., Abdullaev, Y. G. & Medvedev, S. V. (1992). Properties of neuronal activity in cortex and subcortical nuclei of the human brain during single-word processing. Electroencephalography and Clinical Neurophysiology, 82, 296⫺301. Binder, J. R., Frost, J. A., Hammeke, T. A., Cox, R. W., Rao, S. M. & Prieto, T. (1997). Human brain language areas identified by functional magnetic resonance imaging. The Journal of Neuroscience, 17, 353⫺362. Binder, J. R., Frost, J. A., Hammeke, T. A., Rao, S. M. & Cox, R. W. (1996). Function of the left planum temporale in auditory and linguistic processing. Brain, 119, 1239⫺1247. Bottini, G., Corcoran, R., Sterzi, R., Paulesu, E., Schenone, P., Scarpa, P., Frackowiak, R. S. & Frith, C. D. (1994). The role of the right hemisphere in the interpretation of figurative aspects of language. A positron emission tomography activation study. Brain, 117, 1241⫺1253. Braitenberg, V. & Pulvermüller, F. (1992). Entwurf einer neurologischen Theorie der Sprache. Naturwissenschaften, 79, 103⫺117. Brown, C. M. & Hagoort, P. (Ed.) (1999). The neurocognition of language. Oxford: Oxford University Press. Brown, C. M., Hagoort, P. & Kutas, M. (2000). Postlexical integration processes in language comprehension: Evidence from brain imaging research. In M. S. Gazzaniga (Ed.), The new cognitive neurosciences (pp. 881⫺895). Cambridge: MIT Press. Brown, M. C. (1999). Audition. In M. J. Zigmond, F. E. Bloom, S. C. Landis, J. L. Roberts & L. R. Squire (Eds.), Fundamental neuroscience (pp.791⫺ 820). San Diego: Academic Press. Brugge, J. F. & Reale, R. A. (1985). Auditory cortex. In A. Peters & E. G. Jones (Eds.), Cerebral cortex. Vol. 4, Association and auditory cortices (pp. 229⫺271). New York: Plenum Press.

Bavelier, D., Corina, D., Jezzard, P., Padmanabhan, S., Clark, V. P., Karni, A., Prinster, A., Braun, A., Lalwani, A., Rauschecker, J. P., Turner, R. & Neville, H. (1997). Sentence reading: A functional MRI study at 4 Tesla. Journal of Cognitive Neuroscience, 9, 664⫺686.

Bullock, T. H. (Ed.) (1977). Recognition of complex acoustic signals. Berlin: Abakon Verlagsgesellschaft.

Beauregard, M., Chertkow, H., Bub, D., Murtha, S., Dixon, R. & Evans, A. (1997). The neural substrate for concrete, abstract, and emotional word lexica. A positron emission tomography study. Journal of Cognitive Neuroscience, 9, 441⫺461.

Burling, R. (1993). Primate calls, human language, and nonverbal communication. Current Anthropology, 34, 25⫺53.

Bechtereva, N. P., Abdullaev, Y. G. & Medvedev, S. V. (1991). Neuronal activity in frontal speech area 44 of the human cerebral cortex during word recognition. Neuroscience Letters, 124, 61⫺64.

Bullock, T. H. (1993). How do brains work? Boston: Birkhäuser.

Cazals, Y., Horner, K., Demany, L. (Eds.) (1992). Auditory physiology and perception. Oxford: Pergamon. Cheney, D. L. & Seyfarth, R. M. (1990). How monkeys see the world. Chicago: University of Chicago Press.

76 Clarke, E. & Dewhurst, K. (1996). An illustrated history of brain function: Imaging the brain from antiquity to the present. San Francisco: Norman.

I. Grundlagen der Psycholinguistik

Code, C. (1997). Can the right hemisphere speak? Brain and Language, 57, 38⫺59.

Friederici, A. D., Pfeifer, E. & Hahne, A. (1993). Event-related brain potentials during natural speech processing: Effects of semantic, morphological and syntactic violations. Cognitive Brain Research, 1, 183⫺192.

Creutzfeldt, O., Ojemann, G. A. & Lettich, E. (1989). Neuronal activity in the human lateral temporal lobe. I. Responses to speech. Experimental Brain Research, 77, 451⫺475.

Friederici, A. D. & von Cramon, D. Y. (1999). Neurobiologische Grundlagen des Sprachverstehens. In A. D. Friederici (Hrsg.), Sprachrezeption (pp. 307⫺349). Göttingen: Hogrefe,.

Curtiss, S. (1977) Genie: A psycholinguistic study of a modern-day „wild child“. New York: Academic Press.

Furth, H. G. (1972). Denkprozesse ohne Sprache. Düsseldorf: Schwann.

Dallos, P. (1984). Peripheral mechanisms of hearing. In I. Darian-Smith (Ed.), Handbook of physiology: Section I, The nervous system, Vol III, Sensory processes, Part 2 (pp. 595⫺637) Bethesda: American Physiological Society. Damasio, H., Grabowski, T. J., Tranel, D., Hichwa, R. D. & Damasio, A. R. (1996). A neural basis for lexical retrieval. Nature, 380, 499⫺505. Dunker, E., Groen, J., Klinke, R., Lullies, H. & Schaefer, K. P. (1972). Hören, Stimme, Gleichgewicht: Sinnesphysiologie II. München: Urban & Schwarzenberg. Ehret, G. (1992). Preadaptations in the auditory system of mammals for phoneme perception. In M. E. H. Schouten (Ed.), The auditory processing of speech: From sounds to words (pp. 99⫺112). Berlin: Mouton de Gruyter. Ehret, G. (1997). The auditory cortex. Journal of Comparative Physiology A, 181, 547⫺557. Eibl-Eibesfeldt, I. (1984). Die Biologie des menschlichen Verhaltens: Grundriß der Humanethologie. München: Piper.

Gazzaniga, M. S. (Ed.) (2000). The new cognitive neurosciences. Cambridge: MIT Press. Geschwind, N. & Galaburda, A. M. (Eds.) (1984). Cerebral dominance: The biological foundations. Harvard: University Press. Geschwind, N. & Levitsky, W. (1968). Human brain: Left-right asymmetries in temporal speech region. Science, 161, 186⫺187. Gould, E., Reeves, A. J., Graziano, M. S. A. & Gross, C. G. (1999). Neurogenesis in the neocortex of adult primates. Science, 286, 548⫺552. Grasby, P. M., Frith, C. D., Friston, K. J., Simpson, J., Fletcher, P. C., Frackowiak, R. S. & Dolan, R. J. (1994). A graded task approach to the functional mapping of brain areas implicated in auditory-verbal memory. Brain, 117, 1271⫺1282. Green, D. M. & Wier, G. C. (1984). Auditory perception. In I. Darian-Smith (Ed.), Handbook of physiology: Section I, The nervous system, Vol III, Sensory processes, Part 2. (pp. 557⫺594). Bethesda: American Physiological Society. Gummer, A. W. & Zenner, H.-P. (1996). Central processing of auditory information. In R. Greger & U. Windhorst (Eds.), Comprehensive human physiology, Vol. 1. (pp. 729⫺756). Berlin: Springer.

Eriksson, P. S., Perfilieva, E., Bjork-Eriksson, T., Alborn, A.-M., Nordborg, C., Peterson, D. A. & Gage, F. H. (1998). Neurogenesis in the adult human hippocampus. Nature Medicine, 4, 1313⫺ 1317.

Hellige, J. B. (1990). Hemispheric asymmetry. Annual Review of Psychology, 41, 55⫺80.

Eulitz, C., Maess, B., Pantev, C., Friederici, A. D., Feige, B. & Elbert, T. (1996). Oscillatory neuromagnetic activity induced by language and nonlanguage stimuli. Cognitive Brain Research, 4, 121⫺132.

von Helversen, O. & Scherer, K. R. (1988). Nonverbale Kommunikation. In K. Immelmann, K. R. Scherer, C. Vogel & P. Schmoock (Eds.), Psychobiologie: Grundlagen des Verhaltens (pp. 609⫺647). Stuttgart: Fischer.

Finger, S. (1994). Origins of neuroscience: A history of explorations into brain function. New York: Oxford University Press.

Hugdahl, K. (Ed.) (1988). Handbook of dichotic listening: Theory, methods, and research. Chichester: Wiley.

Fisher, S. F., Vargha-Khadem, F., Watkins, K. E., Monaco, A. P. & Pembrey, M. E. (1998). Localisation of a gene implicated in a severe speech and language disorder. Nature Genetics, 18, 168⫺170.

Jones, P. E. (1995). Contradictions and unanswered questions in the Genie case: A fresh look at the linguistic evidence. Language and Communication, 15, 261⫺280.

Fletcher, P. C., Dolan, R. J. & Frith, C. D. (1995). The functional anatomy of memory. Experientia, 51, 1197⫺1207.

Jones-Gotman, M., Rouleau, I. & Snyder, P. (1997, Eds.), Clinical and research contributions of the intracarotid amobaritol procedure to neuropsycho-

4. Neurobiologische Grundlagen der Sprachfähigkeit logy. Brain and Cognition (Special Issue), 33, 1⫺ 132. Jürgens, U. (1990). Vocal communication in primates. In R. P. Kesner & D. S. Olton (Eds.), Neurobiology of comparative cognition (pp. 51⫺76). Hillsdale: Erlbaum. Jürgens, U. (1998). Neuronal control of mammalian vocalization, with special reference to the squirrel monkey. Naturwissenschaften, 85, 376⫺ 388. Just, M. A., Carpenter, P. A., Keller, T. A. & Eddy, W. F. (1996). Brain activation modulated by sentence comprehension. Science, 274, 114⫺116.

77 Kutas, M. (1998). Current thinking on language structures. Cahiers de Psychologie Cognitive, 17, 951⫺969. Kutas, M. & Hillyard, S. A. (1980). Reading senseless sentences: Brain potentials reflect semantic incongruity. Science, 207, 203⫺205. Kutas, M. & Van Petten, C. (1994). Psycholinguistics electrified: Event-related brain potential investigations. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 83⫺143). San Diego: Academic Press.

Kandel, E. R., Schwartz, J. H. & Jessell, T. M. (1991). Principles of neural science. New York: Elsevier.

Lebrun, Y. & Leleux, C. (1993). The effects of electrostimulation and of resective and stereotactic surgery on language and speech. Acta Neurochirurgica Suppl., 56, 40⫺51.

Katz, J., Stecker, N. A. & Henderson, D. (1992, Eds.), Central auditory processing: A transdisciplinary view. St. Louis: Mosby.

Lesser, R., Gordon, B. & Uematsu, S. (1994). Electrical stimulation and language. Journal of Clinical Neurophysiology, 11, 191⫺204.

Keidel, W. D. (1992a). Das Phänomen des Hörens: Ein interdisziplinärer Diskurs, Teil I. Naturwissenschaften, 79, 300⫺310.

Lesser, R. P., Arroyo, S., Hart, J. & Gordon, B. (1994). Use of subdural electrodes for the study of language functions. In A. Kertesz (Ed.), Localization and neuroimaging in neuropsychology (pp. 57⫺ 72). San Diego: Academic Press.

Keidel, W. D. (1992b). Das Phänomen des Hörens: Ein interdisziplinärer Diskurs, Teil II. Naturwissenschaften, 79, 347⫺357. Kent, R. D. (1992). Auditory processing of speech. In J. Katz, N. A. Stecker & D. Henderson (Eds.), Central auditory processing: A transdisciplinary view (pp. 93⫺105). St. Louis: Mosby. Kertesz, A., Polk, M., Black, S. E. & Howell, J. (1992). Anatomical asymmetries and functional laterality. Brain, 115, 589⫺605. Kiang, N. Y. S. (1984). Peripheral neural processing of auditory information. In I. Darian-Smith (Ed.), Handbook of physiology: Section I, The nervous system, Vol III, Sensory processes, Part 2 (pp. 639⫺674). Bethesda: American Physiological Society. Kimura, D. (1967). Functional asymmetry of the brain in dichotic listening. Cortex, 3, 163⫺178. King, J. W. & Kutas, M. (1995). Who did what and when? Using word- and clause-related ERPs to monitor working memory usage in reading. Journal of Cognitive Neuroscience, 7, 378⫺397. Kirsch, J. & Betz, H. (1998). Glycine-receptor activation is required for receptor clustering in spinal neurons. Nature, 392, 717⫺720. Kuhl, P. K. & Miller, J. D. (1978). Speech perception by the chinchilla: Identification functions for synthetic VOT stimuli. Journal of the Acoustical Society of America, 63, 905⫺917. Kutas, M. (1997). Views on how the electrical activity that the brain generates reflects the functions of different language structures. Psychophysiology, 34, 383⫺398.

Liotti, M., Gay, C. T. & Fox, P. T. (1994). Functional imaging and language: Evidence from positron emission tomography. Journal of Clinical Neurophysiology, 11, 175⫺190. Loring, D. W., Meador, K. J., Lee, G. P., Murro, A. M., Smith, J. R., Flanigin, H. F., Gallagher, B. B. & King, D. W. (1990). Cerebral language lateralization: Evidence from intracarotid amobarbital testing. Neuropsychologia, 28, 831⫺838. Maiworm, R.E. (1993). Menschliche Geruchskommunikation: Einflüsse körpereigener Duftstoffe auf die gegengeschlechtliche Attraktivitätswahrnehmung. Münster: Waxmann. Marler, P. (1980). Primate vocalization: Affective or symbolic? In T. A. Sebeok & J. Umiker-Sebeok (Eds.), Speaking of apes: A critical anthology of two-way communication with man (pp. 221⫺229). New York: Plenum Press. Marslen-Wilson, W. D. (1985). Speech shadowing and speech comprehension. Speech Communication, 4, 55⫺73. McCarthy, G., Blamire, A. M., Rothman, D. L., Gruetter, R. & Shulman, R. G. (1993). Echo-planar magnetic resonance imaging studies of frontal cortex activation during word generation in humans. Proceedings of the National Academy of Sciences USA, 90, 4952⫺4956. McGlone, J. (1984). Speech comprehension after unilateral injection of sodium amytal. Brain and Language, 22, 150⫺157.

78 Miller, J. D. (1977). Perception of speech sounds in animals: Evidence for speech processing by mammalian auditory mechanisms. In T. H. Bullock (Ed.), Recognition of complex acoustic signals (pp. 49⫺58). Berlin: Abakon Verlagsgesellschaft. Moore, B. C. J. (Ed.) (1995). Hearing. San Diego: Academic Press. Müller, H. M. (1990). Sprache und Evolution: Grundlagen der Evolution und Ansätze einer evolutionstheoretischen Sprachwissenschaft. Berlin: de Gruyter. Müller, H. M. (1991). Die Phylogenese kognitiver Prozesse und die Entstehung der menschlichen Sprachfähigkeit. Sprache & Kognition, 10, 73⫺84. Müller, H. M. (1993a). Neuronale Verarbeitung von Seitenlinieninformationen im Mittelhirn eines Welses. Münster: Waxmann. Müller, H. M. (1993b). Die Entwicklung von Interaktion, Semiose und Sprache. Zeitschrift für Semiotik, 15, 81⫺106.

I. Grundlagen der Psycholinguistik dominant hemisphere: An electrical stimulation mapping investigation in 117 patients. Journal of Neurosurgery, 71, 316⫺326. Ojemann, G. A. (1991). Cortical organization of language. The Journal of Neuroscience, 11, 2281⫺ 2287. Ojemann, G. A. (1994). Cortical stimulation and recording in language. In A. Kertesz (Ed.), Localization and neuroimaging in neuropsychology (pp. 35⫺55). San Diego: Academic Press. Pandya, D. N. & Yeterian, E. H. (1985). Architecture and connections of cortical association areas. In A. Peters & E. G. Jones (Eds.), Cerebral cortex. Vol. 4, Association and auditory cortices (pp. 3⫺61). New York: Plenum Press. Penfield, W. (1938). The cerebral cortex in man. I. The cerebral cortex and consciousness. Archives of Neurology and Psychiatry, 40, 417⫺442. Penfield, W. & Pernot, P. (1963). The brain’s record of auditory and visual experience: A final summary and discussion. Brain, 86, 595⫺696.

Müller, H. M. (1996). Indications for feature detection with the lateral line organ in fish. Comparative Biochemistry and Physiology, 114, 257⫺263.

Penfield, W. & Roberts, L. (1959). Speech and brain mechanisms. Princeton: Princeton University Press.

Müller, H. M. (1997). Neurolinguistische und kognitive Aspekte der Sprachverarbeitung. Habilitationsschrift, Universität Bielefeld (erscheint 2003 als „Neurobiologie der Sprache“, Paderborn: UTB).

Petersen, S. P., Fox, P. T., Posner, M. I., Mintun, M. & Raichle, M. E. (1988). Positron emission tomographic studies of the cortical anatomy of single-word processing. Nature, 331, 585⫺589.

Müller, H. M., King, J. W. & Kutas, M. (1997). Event related potentials elicited by spoken relative clauses. Cognitive Brain Research, 5, 193⫺203.

Pulvermüller, F., Preissl, H., Lutzenberger, W. & Birbaumer, N. (1996). Brain rhythms of language: Nouns versus verbs. European Journal of Neuroscience, 8, 937⫺941.

Müller, H. M. & Kutas, M. (1996). What’s in a name? Electrophysiological differences between spoken nouns, proper names, and one’s own name. NeuroReport, 8, 221⫺225. Müller, H. M. & Rickheit, G. (2002). Experimentelle Neurolinguistik: Neurobiologische Untersuchung von Sprachverarbeitungsprozessen. In P. Rapp (Hrsg.), Sprachwissenschaft auf dem Weg in das dritte Jahrtausend (pp. 93⫺101) Frankfurt: Lang. Münte, T. F., Schiltz, K. & Kutas, M. (1998). When temporal terms belie conceptual order. Nature, 395, 71⫺73. Nieuwenhuys, R., Voogd, J. & van Huijzen, C. (1991). Das Zentralnervensystem des Menschen: Ein Atlas mit Begleittext. Berlin: Springer.

Pulvermüller, F. (2000). Words in the brain’s language. Behavioral and Brain Sciences, 22, 253. Price, C. J., Wise, R. J. S., Warburton, E. A., Moore, C. J., Howard, D., Patterson, K., Frackowiak, R. S. J. & Friston, K. J. (1996). Hearing and saying: The functional neuro-anatomy of auditory word processing. Brain, 119, 919⫺931. Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung: Modelle, Methoden, Ergebnisse. Tübingen: Francke. Rickheit, G. & Strohner, H. (1999). Textverarbeitung: Von der Proposition zur Situation. In A. D. Friederici (Hrsg.), Sprachrezeption (pp. 271⫺306). Göttingen: Hogrefe.

Nobre, A. C., Allison, T. & McCarthy, G. (1994). Word recognition in the human inferior temporal lobe. Nature, 372, 260⫺263.

Rosenzweig, M. R., Leiman, A. L. & Breedlove, S. M. (1999). Biological psychology: An introduction to behavioral, cognitive, and clinical neuroscience. Sunderland: Sinauer.

Ojemann, G., Ojemann, J., Lettich, E. & Berger, M. (1989). Cortical language localization in left,

Rösler, F. & Hahne, A. (1992). Hirnelektrische Korrelate des Sprachverstehens: Zur psycholin-

4. Neurobiologische Grundlagen der Sprachfähigkeit

79

guistischen Bedeutung der N400-Komponente im EEG. Sprache & Kognition, 11, 149⫺161.

radiations and cortex of the awake monkey. Brain Research, 252, 353⫺366.

Roth, G. (1996). Das Gehirn und seine Wirklichkeit: Kognitive Neurobiologie und ihre philosophischen Konsequenzen. Frankfurt: Suhrkamp.

Steinschneider, M., Schröder, C. E., Arezzo, J. C. & Vaughan, H. G. Jr. (1994). Speech-evoked activity in primary auditory cortex: Effects of voice onset time. Electroencephalogy and Clinical Neurophysiology, 92, 30⫺43.

Schaltenbrand, G. (1975). The effects of stereotactic electrical stimulation in the depth of the brain. Brain and Language, 88, 835⫺840. Schlaug, G., Jancke, L., Huang, Y. & Steinmetz, H. (1995a). In vivo evidence of structural brain asymmetry in musicians. Science, 267, 699⫺701. Schlaug, G., Jancke, L., Huang, Y., Staiger, J. F. & Steinmetz, H. (1995b). Increased corpus callosum size in musicians. Neuropsychologia, 33, 1047⫺ 1055. Schmidt, R. F. & Thews, G. (Hrsg.) (1987). Physiologie des Menschen. Berlin: Springer.

Steinschneider, M., Schröder, C. E., Arezzo, J. & Vaughan, H. G. Jr. (1995). Physiologic correlates of the voice onset time boundary in primary auditory cortex (A1) of the awake monkey: Temporal response patterns. Brain and Language, 48, 326⫺ 340. Stemmer, B. & Whitaker, H. A. (Eds.) (1998). Handbook of neurolinguistics. San Diego: Academic Press. Tincoff, R. & Jusczyk, P. W. (1999). Some beginnings of word comprehension in 6-month-olds. Psychological Science, 10, 172⫺175.

Schouten, M. E. H. (Ed.) (1992). The auditory processing of speech: From sounds to words. Berlin: Mouton de Gruyter.

Trepel, M. (1999). Neuroanatomie: Struktur und Funktion. München: Urban & Fischer.

Schwartz, J. & Tallal, P. (1980). Rate of acoustic change may underlie hemispheric specialization for speech perception. Science, 207, 1380⫺1381.

Trincker, D. (1974). Taschenbuch der Physiologie, Bd. III/1: Animalische Physiologie III, Zentralnervensysteme I, Sensomotorik. Stuttgart: Fischer.

Seldon, H. L. (1981a). Structure of human auditory cortex: I. Cytoarchitectonics and dendritic distributions. Brain Research, 229, 277⫺294. Seldon, H. L. (1981b). Structure of human auditory cortex: II. Axon distribution and morphological correlates of speech perception. Brain Research, 229, 295⫺310. Seldon, H. L. (1985). The anatomy of speech perception: Human auditory cortex. In A. Peters & E. G. Jones (Eds.), Cerebral cortex. Vol. 4: Association and auditory cortices (pp. 273⫺327). New York: Plenum Press. Siegman, A. W. & Feldstein, S. (Eds.) (1987). Nonverbal behavior and communication. Hillsdale: Erlbaum. Singer, W. (1994). Coherence as an organizing principle of cortical functions. International Review of Neurobiology, 37, 153⫺183. Springer, S. P. & Deutsch, G. (1998). Linkes – rechtes Gehirn. Heidelberg: Spektrum. St. George, M., Kutas, M., Martinez, A. & Sereno, M. I. (1999). Semantic integration in reading: Engagement of the right hemisphere during discourse processing. Brain, 122, 1317⫺1325. Steinschneider, M., Arezzo, J. & Vaughan, H. G. Jr. (1982). Speech evoked activity in the auditory

Trincker, D. (1977). Taschenbuch der Physiologie, Bd. III/2: Animalische Physiologie III, Zentralnervensysteme II und Sinnesorgane. Stuttgart: Fischer. Tulving, E., Kapur, S., Craik, F. I., Moscovitch, M. & Houle, S. (1994). Hemispheric encoding/retrieval asymmetry in episodic memory: Positron emission tomography findings. Proceedings of the National Academy of Sciences USA, 91, 2016⫺ 2020. Waldeyer, A. & Mayet, A. (1993). Anatomie des Menschen, Bd. 2: Kopf und Hals, Auge, Ohr, Gehirn, Arm, Brust. Berlin: de Gruyter. Webster, D. B. (1992). An overview of mammalian auditory pathways with an emphasis on humans. In D. B. Webster, A. N. Popper & R. R. Fay (Eds.), The mammalian auditory pathway: Neuroanatomy (pp. 1⫺22). New York: Springer. Weiss, S., Müller, H. M. & Rappelsberger, P. (2000). Theta synchronization predicts efficient memory encoding of concrete and abstract nouns. NeuroReport, 11, 2357⫺2361. Weiss, S. & Rappelsberger, P. (1998). Left frontal EEG coherence reflects modality independent language processes. Brain Topography, 11, 33⫺42. Weiss, S. & Rappelsberger, P. (2000). Long-range EEG synchronization during word encoding correlates with successful memory performance. Cognitive Brain Research, 9, 299⫺312.

80

I. Grundlagen der Psycholinguistik

Zemlin, W. R. (1998). Speech and hearing science: Anatomy and physiology. Boston: Allyn and Bacon. Zenner, H.-P. (1994). Hören: Physiologie, Biochemie, Zell- und Neurobiologie. Stuttgart: Thieme.

Zenner, H.-P. (2000). Die Kommunikation des Menschen: Hören und Sprechen. In R. F. Schmidt, G. Thews & F. Lang (Hrsg.), Physiologie des Menschen (pp. 259⫺315). Berlin: Springer.

Zenner, H.-P. (1996). Hearing. In R. Greger & U. Windhorst (Eds.), Comprehensive human physiology, Vol. 1 (pp. 711⫺727). Berlin: Springer.

Horst M. Müller, Universität Bielefeld (Deutschland)

5. Kognitionswissenschaftliche Beiträge zu Sprachproduktion und Sprachrezeption 1. 2. 3. 4. 5. 6.

Sprachverarbeitung als Informationsverarbeitung Sprachproduktion Sprachrezeption Der Zusammenhang zwischen Sprachrezeption und Sprachproduktion Abschließende Anmerkung Literatur

Mit dem vorliegenden Artikel werden die Ausführungen zu den Grundlagen der Psycholinguistik abgeschlossen. Psycholinguistik (bzw. Sprachpsychologie) ist der Teil der Kognitionswissenschaft, der sich mit der kognitiven Sprachverarbeitung beschäftigt, worunter die kognitiven Prozesse des Sprachverstehens, der Sprachproduktion und des Spracherwerbs verstanden werden. Insofern sind psycholinguistische Arbeiten auch stets kognitionswisssenschaftliche Beiträge. Entsprechend bildet dieser Artikel eine Art motivierende Vorausschau auf die spezialisierteren Ausführungen der folgenden Artikel. Kognitionswissenschaft untersucht die Informationsverarbeitung in kognitiven Prozessen. Diese Sichtweise wird im Folgenden erläutert (Abschnitt 1) und dann in Hinblick auf die Prozesse der Sprachproduktion (Abschnitt 2) und der Sprachrezeption (Abschnitt 3) an den Beispielen wichtiger Arbeiten illustriert. Für Leser, die sich speziell für die Sprachproduktion oder die Sprachrezeption interessieren, bildet also dieser Artikel und insbesondere der jeweils betreffende Abschnitt eine ergänzende Einleitung zu den Überblicksartikel „Theorien und Modelle der Sprachproduktion“ (Artikel 15) bzw. „Theorien und Modelle der Sprachrezeption“ (Artikel 42). Der Prozess des Spracherwerbs wird in den Artikeln 65 bis 73 ausführlich behandelt.

1.

Sprachverarbeitung als Informationsverarbeitung

Die Fähigkeiten zur Sprachverarbeitung, also in erster Linie die Fähigkeiten zur Sprachrezeption und die Fähigkeiten zur Sprachproduktion, sind unter der kognitionswissenschaftlichen Perspektive Fähigkeiten in der Informationsverarbeitung. Bei der Sprachrezeption wird der Umgebung Information entnommen, beispielsweise in der Form akustischer Signale. Diese Information wird ausgewertet und umgeformt, mit anderer Information, etwa Gedächtnisinhalten, in Beziehung gesetzt und eventuell abgespeichert. Die Verarbeitung der Information kann darüber hinaus eine Handlung, etwa in der Form einer Sprachproduktion, auslösen. Bei der Sprachproduktion wird eine Intention zunächst in sprachliche Strukturen umgesetzt. Dies geschieht in mehreren Schritten unter Ausnutzung der abgespeicherten Informationen über Sprache, wie sie etwa im Lexikon vorliegen. Die sprachlichen Strukturen dienen dann letztlich der Ansteuerung der bei der Artikulation (bzw. beim Schreiben) genutzten Muskulatur, wodurch ein externes Signal ausgebildet wird. Um die Bedeutung dieser Sichtweise besser zu verstehen, kann sie mit der Sichtweise kontrastiert werden, die im vorangegangenen Artikel dargestellt wurde. Bei einer Betrachtung der neurobiologischen Grundlagen von Sprache steht das Gehirn als physikalisches Objekt im Vordergrund, bei einer kognitionswissenschaftlichen Betrachtung von Sprachverarbeitung interessieren die ablaufenden, informationsverarbeitenden Prozesse, wobei von deren physikalischer Implementation weitgehend abstrahiert wird. Noch deutlicher wird dieser Unterschied, wenn man ihn in

5. Kognitionswissenschaftliche Beiträge zu Sprachproduktion und Sprachrezeption

Analogien formuliert. Eine naheliegende Analogie ist dabei die zu Computern. Die Informationsverarbeitung in Computern wird durch Programme bestimmt; die physikalische Realisierung dagegen setzt auf der Ebene von Elektronenkonzentrationen an. Ob über die Fermi-Grenze oder den Aufbau von Bauteilen gesprochen wird, die Beziehung zwischen den Zuständen des physikalischen Systems und einem auf diesem System ablaufenden, informationsverarbeitenden Prozess ist ungleich schwieriger darzustellen als die Beziehung zwischen dem Prozess und dem ihn steuernden Programm. Die Beschreibung des Verhaltens eines Computers als Informationsverarbeitung ist einfacher als die Beschreibung seines Verhaltens durch die Angabe von Änderungen von Elektronenkonzentrationen in diversen Bauteilen. Auch die Erklärung dieses Verhaltens ist auf der Ebene der Informationsverarbeitung einfacher als die Erklärung unter Bezug auf die physikalische Ebene. Entsprechendes gilt für die Beschreibung und die Erklärung kognitiver Prozesse, für die ein Bezug auf die neuronalen Grundlagen allenfalls in einer sehr groben Projektion möglich ist (vgl. Artikel 4). Unter einer kognitionswissenschaftlichen Perspektive werden also für die kognitiven Prozesse aufgrund der jeweils vorliegenden Daten informationsverarbeitende Modelle postuliert, aus deren Analyse sich empirische Vorhersagen ableiten lassen, die experimentell überprüft werden. Die Bestätigung der Vorhersagen im Experiment bedeutet einen Erkenntniszuwachs in Bezug auf den untersuchten kognitiven Prozess, wohingegen die Widerlegung der Vorhersagen das postulierte Modell falsifiziert. In diesem Fall ist ein verbesserter Modellvorschlag zu entwickeln. Eine ausführliche Diskussion dieses methodologischen Herangehens findet sich in Artikel 9. Im Zentrum kognitionswissenschaftlicher Beiträge stehen also informationsverarbeitende Modelle von kognitiven Prozessen. Unter dieser Perspektive ist die Kenntnis der neuronalen Grundlagen vor allem dann nützlich, wenn daraus Verarbeitungsprinzipien (vgl. Artikel 9) oder Abfolgen von Verarbeitungsschritten (vgl. Artikel 4 sowie als vorbildhaftes Beispiel van Turennout, Hagoort & Brown, 1997) ableitbar sind, die sich innerhalb eines Informationsverarbeitungsansatzes interpretieren lassen. Darüber hinaus ist aber zu bedenken, dass die in kognitionswissenschaftlichen Modellen zur Repräsentation verwen-

81

deten Grundeinheiten wenigstens in ihren Leistungs- und Manipulationsmöglichkeiten mit neuronalen Einheiten vergleichbar sein sollten, damit eine schrittweise Überführbarkeit der in den Modellen verwendeten Grundeinheiten in neuronale Einheiten durch immer detailliertere Ausformulierungen der Modelle im Prinzip möglich bleibt (vgl. dazu Kochendörfer, 1997).

2.

Sprachproduktion

Die Untersuchung der Sprachproduktion ist aus psychologischer Sicht zunächst einmal problematischer als die Untersuchung der Sprachrezeption. Bei Experimenten zur Rezeption ist die sprachliche Eingabe kontrollierbar, indem sie im Experiment vorgegeben wird. Bei einem Produktionsexperiment ist lediglich das kontrollierbar, was die Produktion auslösen soll. Die eigentliche Ausgangsinformation des Produktionsprozesses, die Intention, ist dagegen nicht mit Sicherheit kontrollierbar. Darüber hinaus ist auch die Ausgabe, das Resultat des Produktionsprozesses, nur unter Umständen einschränkbar und damit zu kontrollieren. Je stärker Versuchspersonen auf bestimmte Antwortäußerungen festgelegt werden, desto weniger aussagekräftig ist das Ergebnis eines Experiments in Hinblick auf Sprachproduktion unter nicht-experimentellen Bedingungen. Aufgrund dieser Problematik, valide experimentelle Daten zum Prozess der Sprachproduktion zu erzeugen, waren zunächst Untersuchungen zu gestörter Sprache, etwa bei aphasischen Patienten, und später Analysen von Versprecherkorpora (vgl. Artikel 26) die wichtigste Inspirations- und Evaluationsquelle bei der Entwicklung von Modellen zur Produktion. Frühe Modelle der Sprachproduktion, die aufgrund von Untersuchungen zur aphasischen Sprache entwickelt wurden, finden sich bei Lordat (vgl. Lecours, Nespoulous & Pioger, 1987) und bei Pick (1913). Diese Modelle unterscheiden sich in ihrer Architektur nur wenig von dem „klassischen“ Stufenmodell von Fromkin (1971) und Garrett (1975). So unterteilt Pick, ausgehend von seinem Wissen über grammatische Störungen (Agrammatismus und Paragrammatismus), die Sprachproduktion in vorsprachliche und sprachliche Prozesse. Die vorsprachlichen Prozesse lassen aus einer „Bewusstseinslage“ ein „Bewusstsein“ entstehen, wobei dieses Bewusstsein als „kondensiertes Denken“ mit

82 der präverbalen Botschaft des Levelt-Modells (Levelt, 1989) vergleichbar ist. Durch die sprachlichen Prozesse entsteht aus diesem Bewusstsein zunächst ein Satzschema, in welches dann in einem zweiten Schritt Inhaltswörter eingefügt werden. In einem dritten Schritt kommen die Funktionswörter hinzu, was gleichzeitig auch die Flektion der Inhaltswörter bewirkt. Diese Trennung der lexikalischen Zugriffe von den syntaktisch-morphologischen Operationen ergibt sich dabei unmittelbar aus der Beobachtung der agrammatischen bzw. der paragrammatischen Sprache. Ausgangspunkt für die psycholinguistische Untersuchung und Modellierung des Sprachproduktionsprozesses ist allerdings nicht der Modellvorschlag von Pick, sondern das Modell von Fromkin (1971) und Garrett (1975). Dieses Modell beschreibt den Prozess der Sprachproduktion entsprechend der kognitionswissenschaftlichen Herangehensweise als Informationsverarbeitung, die in mehreren Stufen erfolgt. In einem ersten Schritt wird die zu verbalisierende Botschaft („message“), also das, was dem Hörer übermittelt werden soll, in eine Ansammlung semantisch spezifizierter lexikalischer Einheiten umgeformt, denen jeweils eine syntaktische Rolle zugeordnet ist. Aus dieser sogenannten „funktionalen“ Repräsentation wird in einem nächsten Schritt unter Verwendung von syntaktischer Information eine Phrasenstruktur erzeugt. Damit sind die in der Äußerung zu verwendenden Wörter sowie deren Abfolge festgelegt. Die erzeugte Phrasenstruktur ist also eine „positionale“ Repräsentation. In einem weiteren Schritt werden dann die Wörter in der festgelegten Reihenfolge in Ketten von Phonemen umgewandelt, so dass eine Phonemrepräsentation entsteht. Diese dient schließlich als Eingabe für den Artikulator, der das akustische Sprachsignal erzeugt. Die Unterschiede im Aufbau der jeweiligen Produktionsmodelle von Pick einerseits sowie von Fromkin und Garrett andererseits sind gering. Der hohe Wert des Ansatzes von Fromkin und Garrett liegt in der Verknüpfung der Modelldetails mit den Analysen von Versprecherkorpora (vgl. Artikel 26). So bringt etwa Fromkin (1971, S. 49 ff.) die in den Korpora zu findenden Wortsubstitutionen in Zusammenhang mit dem Prozess des lexikalischen Zugriffs. Aufgrund der semantischen Merkmale eines zu benennenden Objekts oder einer zu benenennden Relation etc. wird zunächst lediglich die Adresse eines passenden Wortes ermittelt. Geschieht dabei ein

I. Grundlagen der Psycholinguistik

Fehler, ergibt sich eine Wortsubstitution, bei der Zielwort und Fehler einander semantisch ähnlich sind. Fromkin gibt als Beispiel die Ersetzung von „like“ durch „hate“ an (ebd., S. 50). Wird die Adresse korrekt ermittelt, kann noch bei ihrer Auswertung ein Fehler erfolgen, wobei in diesem Fall Fehler und Zielwort phonologische Ähnlichkeit aufweisen. Fromkin (ebd., S. 50 f.) nennt hier die Ersetzung von „pressure“ durch „present“. Die Analyse von Versprechern, hier die der Wortsubstitutionen (s. auch Fay & Cutler, 1977), diente also als Ausgangspunkt für Vorschläge zur Modellierung des Sprachproduktionsprozesses. Die abgeleiteten Modellierungsannahmen, wie die des aus den Wortsubstitutionen abgeleiteten zweistufigen lexikalischen Zugriffs, sind dann allerdings stets zu hinterfragen und gegebenenfalls durch experimentell erhobene Daten zu widerlegen bzw. zu bekräftigen. Der zweistufige Lexikonzugriff etwa wurde vielfach diskutiert (vgl. Artikel 19), wobei insbesondere sein genauer Zeitverlauf experimentell untersucht wurde (Schriefers, Meyer & Levelt, 1990). Das Beispiel der Wortsubstitutionen ist in diesem Zusammenhang insofern nicht zufällig angeführt, weil zu den Wortsubstitutionen die sogenannten „mixed errors“ (vgl. auch Artikel 26) zu zählen sind, deren Vorkommen als Argument gegen die Annahme eines zweistufigen lexikalischen Zugriffs genutzt wurde (vgl. Artikel 19). In den 80er Jahren wurde das Modell von Fromkin und Garrett in verschiedener Hinsicht überarbeitet. So verließ Bock (1982) die Vorgabe einer strikt stufenweisen Verarbeitung und argumentierte dafür, dass, ausgehend von der vorsprachlichen Botschaft, lexikalische und syntaktische Prozesse parallel die Erstellung der Phrasenstrukturrepräsentation betreiben. Wie Fromkin und Garrett geht aber auch Bock (1982) davon aus, dass die lexikalische Verarbeitung in zwei Teilprozesse aufzuteilen ist: Während der lexikalischsemantischen Verarbeitung wird zu den in der präverbalen Botschaft enthaltenen Konzeptrepräsentationen jeweils ein Lexikoneintrag ausgewählt, und während der lexikalischphonologischen Verarbeitung werden die ausgewählten Lexikoneinträge phonologisch enkodiert. Diese Aufteilung des lexikalischen Zugriffs wird in Kempen und Huijbers (1983) nochmals begründet. Die jeweiligen Zwischenresultate heißen dabei zunächst noch „L1“ und „L2“, wobei aber die in Kempen und Hoenkamp (1987) und Levelt (1989) be-

5. Kognitionswissenschaftliche Beiträge zu Sprachproduktion und Sprachrezeption

nutzten Bezeichungen „Lemma“ und „Lexem“ bereits angekündigt werden (Kempen & Huijbers, 1983, S. 197). Die Arbeiten von Gerard Kempen und seiner Arbeitsgruppe sind vor allem deshalb ein wichtiger Beitrag zu der kognitionswissenschaftlichen Untersuchung des Sprachproduktionsprozesses, weil in ihnen der Teilprozess der syntaktischen Enkodierung mit Computersimulationen nachgebildet wurde. Kempens Modell gibt nicht nur die Verarbeitungsstufen an, die für den Teilprozess zu durchlaufen sind, sondern zeigt auch auf, wie die Information von einer Stufe zur nächsten umgeformt wird. Dieses Modell, das zum Teil für die Repräsentationsformen auf Formate der sogenannten „Lexical Functional Grammar“ (Kaplan & Bresnan, 1982) zurückgreift, ist also ein Prozessmodell. Die Ausarbeitung des Teilprozesses der grammatischen Enkodierung innerhalb eines Prozessmodells ist allerdings nur dann sinnnvoll möglich, wenn man von einer inkrementellen Verarbeitung (Kempen & Hoenkamp, 1987) ausgeht, wie sie schon von Fry (1969) und Garrett (1976) angedacht wurde. Inkrementelle Verarbeitung bedeutet, dass die Umformung innerhalb einer Verarbeitungsstufe beginnt, sobald die ersten Teile der Ausgabe der vorangehenden Stufe vorliegen (vgl. Artikel 23 und Artikel 24). Auf diese Weise können alle Komponenten des Verarbeitungssystems parallel arbeiten, wobei jedoch die unterschiedlichen Komponenten jeweils unterschiedliche Teile der zu produzierenden Äußerung erstellen. Unter Berücksichtigung der Modellansätze von Fromkin, Garrett, Bock und Kempen sowie einer Vielzahl experimentell gewonnener Daten zum Produktionsprozess entwickelte Levelt (1989) ein Modell, das den gesamten Prozess der Sprachproduktion („from intention to articulation“) abdeckt. Dieses Modell dient seither als Bezugsmodell jeglicher Forschung zur Sprachproduktion. Levelt unterteilt wie seine Vorgänger den Prozess der Sprachproduktion in drei Hauptabschnitte: Zunächst wird aufgrund der Intention unter Mithilfe von Wissen eine vorsprachliche Botschaft erzeugt (im sog. Konzeptualisator). Diese wird dann lexikongetrieben in eine syntaktische Struktur umgesetzt (durch den Teilprozess der syntaktischen Enkodierung im Formulator). Auf der so entstandenen Oberflächenstruktur setzt die phonologische Enkodierung (immer noch im Formulator) an, die eine Phonemsequenz (innere Sprache) als Resultat hat. Diese wird schließlich durch

83

den Artikulator in hörbare Sprache umgeformt. Ausgehend von diesem in Levelt (1989) beschriebenen Modell, entwickelte Roelofs mit WEAVER⫹⫹ ein Modell des lexikalischen Zugriffs (s. etwa Roelofs, 1997), welches für Einwortproduktionen, wie sie etwa bei Bildbenennungen auftreten, den gesamten Produktionsprozess umfasst und welches implementiert vorliegt, so dass es über Simulationen gestestet werden kann. WEAVER⫹⫹ operiert mit „spreading activation“ (McClelland & Rumelhart, 1981) auf einem Netzwerk, wobei die Aktivierungsausbreitung im Netz aber durch ein Produktionssystem beeinflusst und gesteuert wird. In WEAVER⫹⫹ läuft der eigentliche Lexikonzugriff in zwei zeitlich getrennten Schritten ab, was den bereits erwähnten Ausführungen von Fromkin (1971) entspricht. (Die WEAVER⫹⫹ zugrundeliegende Theorie ist ausführlich dargestellt in Levelt, Roelofs & Meyer, 1999; vgl. auch Artikel 19.) Mit der Einführung des lokal-konnektionistischen Modells zur Buchstabenerkennung von McClelland und Rumelhart (1981) entstanden entsprechende Modelle auch für Teilprozesse der Sprachproduktion, wobei insbesondere die Modellversion von Dell (1986) zu erwähnen ist. Dell gelang es, eine Reihe von Besonderheiten in Versprecherkorpora zu erklären und aufgrund von Vorhersagen seines Modells weitere Besonderheiten in diesen Daten zu entdecken (vgl. Artikel 26). Dells Modell ist darüber hinaus interaktiv. Das bedeutet, dass in Dells Modell der lexikalische Zugriff nicht in zwei Stufen stattfindet. Insbesondere erfolgt in diesem Modell beim lexikalischen Zugriff die phonologische Enkodierung nicht nur für genau ein Lemma, nämlich das ausgewählte Lemma. Statt dessen wird für alle möglichen Lemmata schon vor der Selektion mit der phonologischen Enkodierung begonnen. Dies kann zudem auch Auswirkungen auf die Lemmaselektion selbst haben. Damit sagen interaktive Modelle, wie das von Dell, voraus, dass ein relativ hoher Anteil an Wortsubstitutionsfehlern sowohl semantische als auch phonologische Ähnlichkeiten aufzeigen und damit sogenannte „mixed errors“ sein sollten. Die Konkurrenz der genannten Modellvorschläge führte letztlich zu einem deutlichen Erkenntnisgewinn in Bezug auf den Prozess des lexikalischen Zugriffs, wie in Artikel 19 ausführlich dargestellt wird. Auch Herrmann und Grabowski (1994) gehen von einem interaktiven Aktivationsfluss

84

I. Grundlagen der Psycholinguistik

im Sinne von Dell (1986) aus und setzen dieses Verarbeitungsprinzip in Beziehung zu der Funktion eines Regelkreises. Die eigentliche Bedeutung dieses Werkes liegt aber darin, dass die Autoren ausführlich diejenigen Aspekte des Produktionsprozesses diskutieren, die im Levelt-Modell vergleichsweise knapp behandelt werden (siehe aber Levelt, 1989: Kapitel 2). Wie schon der Untertitel des Werkes („Psychologie der Sprachproduktion“) aussagt, betrachten Herrmann und Grabowski den Produktionprozess schwerpunktmäßig aus der psychologischen Perspektive. Entsprechend diskutieren die Autoren umfassend die Leistungen des Konzeptualisators beim Aufbau der präverbalen Botschaft. Den in diesem Bereich gewonnenen Erkenntnissen und den ihnen zugrundeliegenden Fragestellungen, etwa beim Sprechen über Objekte, über Raum oder über Zeit, sind im vorliegenden Buch eigene Artikel gewidmet (Artikel 22, Artikel 30 bis 35 sowie Artikel 37 bis 39).

3.

Sprachrezeption

Aus einer sehr oberflächigen Sicht heraus könnte man den Prozess der Sprachrezeption als eine Art Umkehrung des Produktionsprozesses begreifen. Das bedeutet natürlich zunächst einmal nur, dass man für die Rezeption ähnliche Verarbeitungsstufen wie für die Produktion postuliert: Als Entsprechung zur phonologischen Enkodierung der Produktion kann beispielsweise für die Rezeption eine Verarbeitungsstufe angenommen werden, die als Eingabeinformation eine Sequenz von erkannten Phonemen erhält und die aufgrund dieser Information einen passenden lexikalischen Eintrag ermittelt. Eine solche Sichtweise stößt allerdings auf ihre Grenzen, sobald man die Prozesse, die für die Informationsverarbeitungen angenommen werden müssen, selbst genauer betrachtet. Bevor dies geschieht, soll aber daran erinnert werden, dass es aus sprachpsychologischer Sicht einfacher zu sein scheint, den Prozess der Sprachrezeption zu untersuchen als den Prozess der Sprachproduktion. Insbesondere lässt sich das sprachliche Stimulusmaterial, welches bei der Rezeption die Eingabeinformation des Prozesses ausmacht, eindeutig festlegen. Dagegen ist der Ausgangspunkt der Produktion eine Intention, die nur indirekt vorgegeben werden kann. Entsprechend ist die Basis der experimentell gewonnenen Daten und Erkenntnisse für die

Rezeption deutlich umfangreicher. Mit der größeren Menge an Wissen über den Rezeptionsprozess geht jedoch einher, dass sich die Untersuchungen stets nur auf einen Ausschnitt des Gesamtprozesses beziehen. Auch die Modellierungen beziehen sich nur auf Teilprozesse; ein die Forschung leitendes Gesamtmodell, wie es das Levelt-Modell für den Prozess der Sprachproduktion darstellt, ist nicht vorhanden. Entsprechend sind die Ausführungen zum Prozess des Sprachverstehens gegliedert nach Ausführungen zu den Teilprozessen, aus denen sich das Sprachverstehen zusammensetzt. 3.1. Prälexikalische Analyse Bevor beim Sprachverstehen ein Wort erkannt wird, erfolgt eine Analyse der Eingabeinformation. Diese ist beim Hören akustischer Art und beim Lesen optischer Natur. Die akustische Information, die in einer Gesprächssituation zu verarbeiten ist, ist gewöhnlich nicht von hoher Qualität, da sie etwa durch andere Geräusche überlagert und beeinträchtigt werden kann. Doch auch im Fall einer ungestörten Präsentation eines akustischen Reizes kann dieser ohne Kontext nicht unbedingt erkannt werden. In jedem Fall ist aber die Unterscheidung zwischen zwei unterschiedlichen Phonemen, z. B. /t/ und /d/, einfacher als die Unterscheidung zwischen zwei Varianten eines einzelnen Phonems, etwa zwei Varianten von /t/, selbst wenn der Unterschied im physikalischen Signal zwischen den Lauten beider Paare gleich groß ist. Man kann also sagen, dass die Lauterkennung mit Kategorien, nämlich denen der Phoneme, operiert (Lisker & Abramson, 1970; s. auch Artikel 44). Dieses Charkteristikum, categorial perception, ist schon für Kinder im Alter von vier Monaten nachweisbar (Eimas, Siqueland, Juszyk & Vigorito, 1971) und kann als generelles Prinzip der Perzeption angesehen werden (Harnad, 1987). Ein besonders einflussreiches Modell ist das lokal-konnektionistische „spreading activation“-Modell zur Buchstabenerkennung von McClelland und Rumelhart (1981). Dieses Modell besteht aus drei Schichten, einer Merkmalschicht, der Buchstabenschicht und einer Schicht für Wörter. Das Interessante an diesem Modell ist, dass von der Schicht der Wörter Information (in Form von Aktivierung) an die Schicht der Buchstaben zurückgegeben wird. Durch diese „top down“-Information können Buchstaben, die als Teil eines Wortes präsentiert werden, schneller er-

5. Kognitionswissenschaftliche Beiträge zu Sprachproduktion und Sprachrezeption

kannt werden als Buchstaben, die in einer Buchstabenfolge auftreten, die kein Wort bildet. Darüber hinaus ergab sich aus der Modellierung die Vorhersage, dass das Erkennen von Buchstaben, etwa M, in sogenannten „Pseudowörtern“ – Buchstabenketten, die in der Zielsprache ein Wort sein könnten (im Deutschen etwa MAND im Gegensatz zu MQFD) – zwar länger dauert als das Erkennen von Buchstaben in Wörtern (MOND), aber schneller abläuft als das Erkennen von Buchstaben in Nichtwörten wie etwa in MQFD. Diese Vorhersage konnte experimentell bestätigt werden. Da das Modell von McClelland und Rumelhart über eine Wortschicht verfügt, wird es oft als Modell des lexikalischen Zugriffs verstanden. Um diesem Anspruch gerecht zu werden, müsste das Modell über eine geeignetere Sequenzrepräsentation verfügen. Um den Einfluss aufzuzeigen, den eine übergeordnete Schicht durch „feedback“ auf die Erkennung haben kann, ist dieser Modellierungsaspekt dagegen von geringerer Bedeutung. 3.2. Der Zugriff auf lexikalische Elemente Wenn beim Hören dem akustischen Signal eine Abfolge von Phonemen zugeordnet ist bzw. wenn beim Lesen aus dem optischen Signal eine Abfolge von Graphemen abgeleitet wurde, kann die Information zur Worterkennung genutzt werden. Morton (1969) beschreibt diesen Prozess des lexikalischen Zugriffs dadurch, dass er für jedes Wort eine Einheit, das sogenannte „Logogen“, postuliert, in welcher Evidenz für das Vorliegen des repräsentierten Wortes angesammelt wird. Dabei gilt ein Wort als erkannt, wenn die Evidenz eine gewisse Schwelle überschreitet. Mortons Logogen-Modell ist damit modalitätsunabhängig, da die Logogene sowohl über einen Kanal zur Analyse akustischer wie auch über einen Kanal zur Analyse optischer Signale mit Evidenz versorgt werden können. Darüber hinaus kann auch sogenannte „top down“-Information, wie etwa sie durch syntaktische bzw. semantische Kontexte vorgegeben werden kann, Evidenz beisteuern. So wird die Phonemfolge /*ant/, bei der * für einen nicht eindeutig erkannten Laut steht, im Kontext von „Ich liege faul im …“ als „Sand“ und im Kontext von „Er läuft mal wieder vor die …“ als „Wand“ erkannt. Mortons Logogen-Modell hatte einen nachhaltigen Einfluss im Bereich der Diagnose von Sprachstörungen, insbesondere bei

85

der Klassifikation von Beeinträchtigungen des lauten Lesens, der Dyslexien. Diese werden nach den Störungen der möglichen Verarbeitungsrouten eingeteilt, wobei die Routen einer neueren Version des Logogen-Modells (Morton & Patterson, 1980) entnommen sind. Für die psycholinguistische Betrachtung der Sprachrezeption stehen die Fragen danach im Mittelpunkt, wie der lexikalische Zugriff abläuft, was ihn verzögert bzw. beschleunigt und zu welchem Zeitpunkt welche anderen Wörter aktive Konkurrenten des Zielwortes sind, denn genau diese Aspekte können empirisch mit Reaktionszeit- bzw. Priming-Experimenten untersucht werden. Ein Modell, welches den Teilprozess des lexikalischen Zugriffs nachbildet und Vorhersagen für die empirisch untersuchbaren Aspekte liefert, ist das Kohorten-Modell (Marslen-Wilson & Welsh, 1978; vgl. auch MarslenWilson, 1987, bzw. Marslen-Wilson & Tyler, 1980). Das Kohorten-Modell beschreibt den lexikalischen Zugriff als Abfolge zweier Prozessschritte. Zunächst wird aufgrund der Information über den Anfang der zu bearbeitenden Phonemfolge die Anfangskohorte erstellt. Diese umfasst alle lexikalischen Einträge, die mit dem betrachteten Anfang kompatibel sind. Beginnt etwa die zu bearbeitende Phonemfolge mit einem /n/, so sind in der Anfangskohorte alle Wörter, die mit /n/ beginnen. In einem zweiten Schritt wird die Kohorte dann nach und nach verkleinert, bis möglichst nur noch ein einziger Worteintrag in der Kohorte enthalten ist, welcher dann das erkannte Wort darstellt. Die Verkleinerung erfolgt durch die segmentweise Hinzunahme der in der Phonemsequenz folgenden Laute, wobei diejenigen Wörter aus der Kohorte gestrichen werden, die nicht mehr mit der jeweils aktuellen Sequenz kompatibel sind. Die Vorhersage dazu, wann welche Wörter (noch) Konkurrenten des jeweiligen Zielwortes darstellen, ergibt sich im Kohorten-Modell aus dem jeweiligen Aussehen der Kohorte, wobei die Zeit, in der ein Wort erkannt wird, damit korreliert, wie schnell die Kohorte auf ein Element reduziert wird. Problematisch ist dabei die außerordentliche Robustheit des kognitiven Prozesses der Spracherkennung. Menschen sind in der Lage, Wörter auch dann zu erkennen, wenn diese leicht verfälscht präsentiert werden. Dies gilt auch dann, wenn die Verfälschung den Wortanfang betrifft: Wird beispielsweise die Phonemsequenz [maturtalent] präsentiert, so

86 wird ein Mensch üblicherweise glauben, das Wort Naturtalent wahrgenommen zu haben, wohingegen das Kohorten-Modell in seiner ursprünglichen Ausführung schon allein deshalb nicht zu dieser Antwort gelangen kann, weil es „Naturtalent“ nicht in die Anfangskohorte aufnimmt. In späteren Versionen (Marlsen-Wilson, 1987, 1990) stimmt das Modell gerade auch in Hinblick auf das genannte Problem besser mit den empirischen Daten überein, indem etwa auch solche Wörter in die Anfangskohorte mit aufgenommen werden, deren Anfang bis zu einem gewissen Grad von der vorgegebenen Phonemsequenz abweicht. Aufgrund dieser Anpassungen ging allerdings die Möglichkeit zum Teil verloren, aus dem Modell Vorhersagen abzuleiten (vgl. dazu Frauenfelder & Peeters, 1998). Eine Alternative zum Kohorten-Modell bildet das sogenannte „TRACE-Modell“ (McClelland & Elman, 1986). Es kann als eine Weiterentwicklung des „interactive activation“-Modells zur Buchstabenerkennung (McClelland & Rummelhart, 1981) angesehen werden und hat wie dieses drei Repräsentationsebenen: eine Ebene für phonologische Merkmale, eine Ebene für Phoneme und eine Ebene für Wörter. Zwischen den Ebenen existieren exzitatorische Verbindungen sowohl bottom-up als auch top-down. Des weiteren sind die Einheiten in jeder der Ebenen untereinander inhibitorisch verbunden. Im Gegensatz zu dem Modell zur Buchstabenerkennung gibt es zwischen den Ebenen keine inhibitorischen Verbindungen. TRACE unterscheidet sich vom Kohorten-Modell in zwei wesentlichen Punkten: Zum einen ist jeder Lexikoneintrag zu jeder Zeit ein möglicher Konkurrent zum Zielwort, wobei jedoch nur solche Einträge einen (beispielsweise verlangsamenden) Einfluss auf den lexikalischen Zugriff haben, die dem Zielwort (sehr) ähnlich sind. Dieses liegt an dem zweiten Unterschied zum Kohorten-Modell. Aufgrund der inhibierenden Verbindungen innerhalb der Wortebene kann das Zielwort seine Konkurrenten hemmen und damit deren Einfluss minimieren. Dies gelingt am wenigsten bei den Wörtern, die dem Zielwort ähnlich sind, da diese von der Phonemebene aus von den Phonemen exzitatorisch aktiviert werden, die sie mit dem Zielwort gemeinsam haben. Da auch umgekehrt die Konkurrenten das Zielwort hemmen, wirkt sich aber deren Einfluss direkt auf die Aktivierung des Zielwortes aus. Auch bei TRACE ist die Repräsentation der Sequenzinformation nicht unproblema-

I. Grundlagen der Psycholinguistik

tisch: Für jedes Zeitintervall, das unterschieden wird, muss ein separates Netzwerk erstellt werden. Attraktiv sind TRACE und die daraus entwickelten moderneren Versionen von interaktiven Modellen (s. etwa Jacobs & Grainger, 1994, für einen frühen, methodologisch interessanten Überblick, Norris, 1994, oder Frauenfelder & Peeters, 1998) in jedem Fall deshalb, weil in ihnen die Interaktion zwischen der perzeptiven „bottom up“-Information und der vorhersagenden und kontextgegebenen „top down“-Information formalisiert ist. Der Einfluss von „top down“-Information ist auch ein zentrales Thema der Ansätze, die die Verarbeitung von größeren Einheiten wie Sätze oder Texte thematisieren. 3.3. Satzverarbeitung Auf das Erkennen von Wörtern bzw. deren Selektion im Teilprozess des lexikalischen Zugriffs folgen Prozesse, die letztlich zur Interpretation von ganzen Äußerungen führen sollen. Als wichtiges Zwischenziel gilt dabei das Erkennen von Propositionen (s. etwa Kintsch & van Dijk, 1978). In einem ersten Schritt werden dazu die erkannten Wörter zu Phrasen (Konstituenten) verknüpft. Für die Annahme, dass das Ermitteln von Konstituenten ein wichtiger Teilprozess im kognitiven Prozess der Sprachproduktion darstellt, spricht nach Graf und Torrey (1966), dass es Versuchspersonen sehr viel leichter fällt, Sätze zu lesen, sofern Zeilenumbrüche mit Konstituentengrenzen zusammenfallen. Clark und Clark (1977) gehen davon aus, dass Konstituenten schon deshalb bedeutsam sind, weil sie des Öfteren eine Proposition enthalten. In dem Satz „Der tapfere Löwe fürchtet das Einhorn nicht“ beispielsweise enthält die Konstituente „der tapfere Löwe“ eine Proposition. Nach Clark und Clark nehmen Hörer bzw. Leser oft an, dass eine Proposition vorliegt, sobald sie eine Konstituente identifiziert haben. Konstituenten können sowohl über syntaktische als auch über semantische Strategien ermittelt werden, wobei die Art der erfolgversprechenden syntaktischen Strategien stark von der jeweiligen Sprache abhängt. Für das Deutsche kann etwa angenommen werden, dass das Auftreten eines Artikels oder eines Quantors den Beginn einer Nominalphrase anzeigen. Nach Just und Carpenter (1980) wird darüber hinaus jedes Wort unmittelbar auch inhaltlich (semantisch) so weit wie möglich interpretiert und auf das Vorausgehende bezogen. Die Annahme eines Phra-

5. Kognitionswissenschaftliche Beiträge zu Sprachproduktion und Sprachrezeption

senendes bedeutet allerdings auch dann noch einen zusätzlichen kognitiven Aufwand, der, falls sich aus der Phrase eine Proposition ergibt, etwa zur Integration dieser Proposition benötigt wird. Ähnlich wie Konstituenten aus Wörtern zusammengesetzt werden, erfolgt auch die Interpretation von satzwertigen Ausdrücken. Mittels syntaktischer und semantischer Strategien werden hierbei die erkannten Konstituenten zu Sätzen zusammengefügt. Es stellt sich die Frage, ob einer semantischen Interpretation, sei es von Wörtern, von Phrasen oder von satzwertigen Äußerungen, stets eine syntaktische Interpretation vorausgeht, etwa die Bestimmung der Wortart bei der Interpretation von Wörtern. Dieser modularen Sicht (Fodor, 1983; Frazier & Fodor, 1978) steht eine Sichtweise gegenüber, nach der syntaktische und semantische Prozesse parallel ablaufen und sich im Idealfall gegenseitig unterstützen. Im Extremfall lassen sich dabei syntaktische und semantische Teilprozesse nicht mehr von einander unterscheiden. Einen solchen Ansatz, der die Verarbeitung von Sätzen zum Inhalt hat, stellen St. John und McClelland (1991) vor. Die Autoren verwenden einen distribuiert-konnektionistischen Parser, der trainiert wird, Sätze in semantische Repräsentationen zu überführen. Als Eingabeinformation erhält der Parser nacheinander die Konstituenten des zu bearbeitenden Satzes. Der Satz „The teacher ate the soup“ wird also in drei zeitlich getrennten Verarbeitungsschritten eingegeben: Zunächst wird in der Eingabeschicht „the teacher“, dann „ate“ und schließlich „the soup“ repräsentiert. Über sogenannte „hidden layer“, in denen syntaktische und semantische Verarbeitung ineinandergreifen, wird aufgrund der Eingabe sowohl eine „sentence gestalt“ als auch eine Interpretation aufgebaut, wobei die Interpretation aus Paaren von thematischen Rollen und zugeordneten Füllerrepräsentationen besteht. Der Ansatz von St. John und McClelland ist von Bedeutung, weil hier der zeitliche Aspekt der Verarbeitung eine entscheidende Rolle spielt. Dies gelingt dadurch, dass die Aktivierungsverteilungen der „hidden layer“ aus dem vorangegangenen Verarbeitungsschritt für den aktuellen Verarbeitungsschritt als zusätzliche Information genutzt werden, wobei die Relevanz dieser Information ebenfalls dem Training unterworfen ist (vgl. Elman, 1990, für eine detaillierte Beschreibung dieser Technik). Nach Abschluss der Trai-

87

ningsphase zeigt der Parser dann folgende Leistungen: Lexikalische Ambiguitäten wie in „The pitcher hit the bat with a bat“ werden aufgelöst, vage Wörter werden näher bestimmt („The container held the cola“ vs. „The container held two apples“), die Zuordnung thematischer Rollen gelingt („The teacher ate the spaghetti with the busdriver“ vs. „The teacher ate spaghetti with the red sauce“), und nicht explizit genannte Rollen werden defaultmäßig belegt („The teacher ate the soup“ J instrument ⫽ spoon). 3.4. Textrezeption Die Interpretation von Sätzen und insbesondere von mehreren Sätzen umfassenden „Texten“ geht über die Erkennung und die Interpretation einzelner Propositionen hinaus. Zu klären ist die Verknüpfung der ermittelten Propositionen bzw. deren Integration innerhalb eines umfassenderen Rahmens. Johnson-Laird (1983) definiert dafür den Begriff des „mentalen Modells“ und zeigt auf, wie die Interpretationen der erkannten Propositionen zu einem solchen mentalen Modell verknüpft werden können. Für den Aufbau eines mentalen Modells wird das (Welt-)Wissen, über das ein Hörer verfügt, herangezogen, so dass sich das entstehende Modell qualitativ deutlich von der propositionalen Struktur des Textes unterscheidet. Mit Hilfe der Theorie der Mentalen Modelle gelingt es JohnsonLaird, experimentelle Daten, insbesondere über das Ziehen von Inferenzen, zu erklären. Eine detailliertere Betrachtung der Theorie der Mentalen Modelle liefert Artikel 43. Einen alternativen umfassenden Rahmen bilden sogenannte „Semantische Netzwerke“, wie sie durch Quillian (1968) eingeführt wurden. Einen sehr detailliert ausgearbeiteten Netzwerkansatz vertritt etwa Anderson (1976, 1983) mit ACT bzw. ACT *. Einen aus kognitionswissenschaftlicher Sicht interessanten Ansatz bietet auch das sogenannte „constructionintegration model“ von Kintsch (1988), das auf früheren Arbeiten des Autors, etwa Kintsch und van Dijk (1978) aufbaut. In diesem Modell wird aufgrund einer zu interpretierenden und neu in die Repräsentation des bisher vorliegenden Textausschnitts zu integrierenden Proposition sowie eben aus der bereits vorliegenden Repräsentation ein Assoziationsnetzwerk aufgebaut. Dieses enthält die Konzepte und die Relationen zwischen ihnen, wie sie sich aus der linguistischen Eingabe ergeben. Dieses Assoziationsnetz wird erweitert um diejenigen Konzepte, die aufgrund des se-

88 mantischen Netzwerkes, welches das allgemeine Wissen des Hörers repräsentiert, eng mit den Konzepten des Assoziationsnetzes verknüpft sind. Hinzu kommen einige weitere zu inferierende Konzepte und Verbindungen. Vereinfachend kann man sich an der Stelle dieses Konstruktionsprozesses vorstellen, dass auf diejenigen Einheiten des semantischen Netzwerkes, welche mit der linguistischen Eingabe bzw. der bisherigen Teilrepräsentation korrespondieren, Aktivierung gelegt wird, die sich dann für einige Zeit im gesamten semantischen Netzwerk ausbreitet. Eine entsprechende Aktivierungsausbreitung nimmt auch Kintsch für sein Assoziationsnetzwerk an. Nachdem sich die Aktivierung ausgebreitet hat, wird sie mit Hilfe eines Inhibitionsprozesses zum Teil wieder unterdrückt, so dass letztlich (entweder im Assoziationsnetz oder vereinfacht im semantischen Netzwerk) nur noch einige Knoten aktiviert zurückbleiben. Dies sind natürlich die Knoten, die aufgrund einer hohen Verknüpfung mit anderen aktivierten Knoten besonders durch die Aktivierungsausbreitung profitiert hatten und über entsprechend hohe Aktivierungswerte verfügen. Das Teilnetz der noch aktivierten Knoten gilt als Interpretation der aktuell bearbeiteten Proposition und kann entsprechend in die bisherige Gesamtinterpretation des Textes integriert werden. Das Modell von Kintsch transformiert also propositionale Information in Netzwerkinformation, die als Interpretation der linguistischen Eingabe verstanden wird. Interessant ist dabei der zyklische Prozess, bei dem zunächst über eine Aktivationsausbreitung Assoziationen und Inferenzen modelliert werden, bei dem dann aber mittels Inhibition die Gesamtaktivierung im Netz wieder zurückgestuft wird, was zu einer gewöhnlich eindeutigen Interpretation führt. Kintsch selbst führt eine Vielzahl experimenteller Studien an, die eine solche Sichtweise belegen, wobei unter anderem auf die Auflösung von Ambiguitäten eingegangen wird. Diese ergibt sich im Modell dadurch, dass mögliche, aber nicht gemeinte Lesarten weniger Aktivierung ansammeln können als die korrekten Lesarten, da letztere durch den Kontext, der sich aus der Einbeziehung des bereits Interpretierten und des allgemeinen Wissens ergibt, besser mit anderen ebenfalls aktivierten Knoten verknüpft sind. Bedenkt man mögliche Störungen dieses für das Modell von Kintsch zentralen Prozesses, so ergeben sich Parallelen mit anderen Ansätzen. Eine starke Beein-

I. Grundlagen der Psycholinguistik

trächtigung der Inhibition etwa würde zu einem Verhalten führen, wie sie schizophrene Patienten bei Assoziationsaufgaben bzw. Ambiguitätsauflösungen zeigen (vgl. Maier & Spitzer, 1999). Die Annahmen von Spitzer und Mitarbeitern, die für die Modellierung schizophren geprägter Sprachverarbeitung von der pathologischen Reduktion eines Inhibitionsprozesses ausgehen, lassen sich entsprechend gut in das Modell von Kintsch integrieren, was letztlich den Wert dieses Ansatzes unterstreicht.

4.

Der Zusammenhang zwischen Sprachrezeption und Sprachproduktion

Vergleichsweise selten sind Arbeiten, in denen der Zusammenhang zwischen Rezeption und Produktion thematisiert wird. Motiviert sind diese Arbeiten einerseits von der Frage, inwieweit Produktion und Rezeption auf dieselben Wissensbestände bzw. auf dieselben Verarbeitungsressourcen zurückgreifen. Andererseits sind Zusammenhang und Zusammenwirken der beiden sprachverarbeitenden Prozesse relevant für die Beschreibung, die Diagnose und die Therapie aphasischer Sprache, insbesondere bei gestörtem Nachsprechen und gestörtem Lesen. Die Frage, inwieweit Produktion und Rezeption dieselben Ressourcen nutzen, steht in engem Zusammenhang mit der Frage, wie die beiden Prozesse aufeinander einwirken können. Monsell (1987) diskutiert dazu vergleichend sechs Modellansätze, die die unterschiedlichen Möglichkeiten, auf diese Fragen zu antworten, abdecken. Das von Monsell favorisierte Modell beinhaltet bis zur Ebene der Wortformen keine gemeinsam genutzten Ressourcen, geht aber von informationsaustauschenden bidirektionalen Verbindungen zwischen allen sich entsprechenden Verarbeitungseinheiten der beiden Verarbeitungsprozesse aus. Monsells Annahmen bilden die Grundlage für experimentelle Untersuchungen, in denen beide Prozesse genutzt werden. Solche Untersuchungen finden sich etwa im Paradigma der Bild-Wort-Interferenz-Experimente, bei denen ein Benennprozess durch einen Rezeptionsprozess beeinflusst wird. Ein Beispiel dafür ist das bereits erwähnte Experiment zur Bestimmung der zeitlichen Parameter beim lexikalischen Zugriff von Schriefers, Meyer und Levelt (1990). Für die Konstruktion von Modellen, die das Zusammenwirken von Produktion und

5. Kognitionswissenschaftliche Beiträge zu Sprachproduktion und Sprachrezeption

Rezeption beschreiben, werden vielfach Daten von aphasischen Patienten herangezogen. Schon Lichtheim (1985) ergänzte das Sprachverarbeitungsschema von Wernicke (1874) aufgrund von Patientendaten durch eine Verarbeitungsroute, die direkt von den Klangbildern der Wörter des Lexikons zu deren „motorischen“ Äquivalenten der Produktion führt, so dass eine Route für das Nachsprechen postuliert wurde, die die kognitive Verarbeitung (in Wernickes Terminologie den Bereich der „Begriffe“) nicht berührt. Betrachtet man nur die durch ein Modell vorgegebenen Verarbeitungsrouten, so ist das bereits erwähnte Modell von Morton und Patterson (1980) eine erweiterte Form des Wernicke-Lichtheim-Schemas, das die möglichen Verarbeitungswege für Leistungen zeigt, die sowohl einen rezeptiven als auch einen produktiven Anteil haben (Nachsprechen, lautes Lesen, Schreiben nach Diktat, Abschreiben). Nach Morton und Patterson gibt es jeweils drei Verarbeitungswege: den Weg über das kognitive System, einen lexikalischen Weg, bei dem aufgrund des rezeptiven Lexikonzugriffs direkt ein Lexikonzugriff für die Produktion erfolgt, und eine sublexikalsche Route, die ohne Lexikonzugriff auskommt. Die Verarbeitungsprozesse selbst werden aber nicht näher spezifiziert. Dies leisten Coltheart, Curtis, Atkins und Haller (1993) für den Prozess, der beim lauten Lesen die sublexikalische Route nutzt, wobei die graphemische Information von unbekannten Wörtern bzw. von Nichtwörtern in eine phonemische Information (Graphem-Phonem-Konversion) umgewandelt wird, die dann zur Artikulation weitergeleitet werden kann. Coltheart et al. konkurrieren mit ihrem Ansatz mit dem distribuiert-konnektionistischen Modellvorschlag von Seidenberg und McClelland (1989), der die lexikalische Route und die Route der Graphem-Phonem-Konversion zu einer einzigen Route zusammenfasst. In einem solchen Modell erfolgt das Lesen von Nichtwörtern in Analogie zu im Lexikon abgelegten Wörtern, wobei Ähnlichkeiten zwischen der gegebenen Graphemfolge des zu lesenden Nichtwortes und der genutzten lexikalisierten Graphemfolgen ausgenutzt werden. Bei der Implementation dieses Modells wurde zunächst nur diese „doppelte“ Route realisiert, die Route über das kognitive System dagegen nicht. Die Produktionen der entsprechenden Simulationen wichen jedoch, wie Coltheart et al. (1993) aufzeigen konnten, in mehreren Punkten von den Leseleistungen

89

solcher Patienten ab, die unterschiedliche Lesestörungen (Dyslexien) aufweisen und für die gewöhnlich angenommen wird, dass bei ihnen die Routen unterschiedlich beeinträchtigt sind. Wenigstens ein Teil der Probleme im Vergleich zwischen den Produktionen des Modells mit den Produktionsdaten entsprechender Patienten ist allerdings auf die in Seidenberg und McClelland (1989) gewählte Repräsentation von Input und Output zurückzuführen. Die Eingabe, in diesem Fall die orthographische Form des zu lesenden Wortes bzw. Nichtwortes, wird nämlich als räumliche Anordnung der Grapheme repräsentiert. Die zeitliche Komponente der Informationsverarbeitung bleibt unberücksichtigt. Auch aufgrund der durch Coltheart et al. geübten Kritik erfuhr das distribuierte Lesemodell eine Überarbeitung (s. etwa Plaut, 1996). Nicht nur die Route über das kognitive System wurde hinzugefügt, auch die Repräsentationen von Input und Output wurden vereinfacht und berücksichtigen nunmehr die zeitliche Dimension der Eingabe- und der Ausgabeprozesse, was die Übereinstimmung mit den Patientendaten deutlich verbessert. Die Relevanz des distribuierten Modells liegt vor allem darin begründet, dass es die Simulation von Rehabilitation ermöglicht. Man kann ein trainiertes Netz an unterschiedlichen Stellen schädigen, die dadurch hervorgerufenen Minderungen in der Leistung ermitteln und klassifizieren, um anschließend durch Trainieren mit unterschiedlichen Sets zu versuchen, die Minderleistungen wieder auszugleichen. Sind dabei die Erfolge von den Eigenschaften der verwendeten Sets abhängig, so ergeben sich Vorhersagen darüber, mit welchem Material bei entsprechenden Patienten am ehesten Therapieerfolge erzielt werden können. Das distribuiertkonnektionistische Modell erfüllt damit für die Störungen des Lesens die Funktion, die aus sprachtherapeutischer Sicht den Kern von Modellierung ausmachen sollte (s. Hillis, 1993).

5.

Abschließende Anmerkung

Insgesamt lässt sich sagen, dass die für die kognitiven Prozesse der Sprachproduktion und der Sprachrezeption in der Literatur diskutierten Modelle und Theorien überwiegend aus einer kognitionswissenschaftlichen Perspektive heraus entwickelt wurden. Insofern wurde in diesem Artikel eine Reihe von An-

90

I. Grundlagen der Psycholinguistik

sätzen angesprochen, die in den folgenden Artikeln des Bandes sehr viel ausführlicher diskutiert werden. Da die hier vorgenommene Auswahl an Beiträgen nur einige der wichtigen Arbeiten umfassen konnte, sei darauf verwiesen, dass beiden Prozessen detailliertere Überblickskapitel gewidmet sind: Für den Prozess der Sprachproduktion ist dies der Artikel 15; und für den Prozess der Sprachrezeption ist dies Artikel 42.

Fry, D. (1969). The linguistic evidence of speech errors. BRNO Studies of English, 8, 69⫺74.

6.

Graf, R. & Torrey, J. W. (1966). Perception of phrase structure in written language. American Psychology Association Proceedings, 1, 83⫺84.

Literatur

Anderson, J. R. (1976). Language, memory, and thought. Hillsdale, NJ: Lawrence Erlbaum Associates. Anderson, J. R. (1983). The architecture of cognition. Cambridge, MA: Harvard University Press. Bock, J. K. (1982). Towards a cognitive psychology of syntax: Information processing contributions to sentence formulation. Psychological Review, 89, 1⫺47. Clark, H. H. & Clark, E. V. (1977). Psychology and language. New York: Harcourt Brace Jovanovich. Coltheart, M., Curtis, B., Atkins, P. & Haller, M. (1993). Models of reading aloud: Dual-route and parallel-distributed-processing approaches. Psychological Review, 100, 589⫺608. Dell, G. S. (1986). A spreading activation theory of retrieval in sentence production. Psychological Review, 93, 283⫺321. Eimas, P., Siqueland, E., Jusczyk, P. & Vigorito, J. (1971). Speech perception in infants. Science, 171, 303⫺318. Elman, J. L. (1990). Finding structure in time. Cognitive Science, 14, 213⫺252. Fay, D. A. & Cutler, A. (1977). Malapropisms and the structure of the mental lexicon. Linguistic Inquiry, 8, 505⫺520. Fodor, J. A. (1983). The modularity of mind: An essay on faculty psychology. Cambridge, MA: MIT Press. Frauenfelder, U. H. & Peeters, G. (1998). Simulating the time course of spoken word recognition: An analysis of lexical competition in TRACE. In J. Grainger & A. Jacobs (Eds.), Localist connectionist approaches to human cognition (pp. 101⫺146). Mahwah, NJ: Lawrence Erlbaum Associates. Frazier, L. & Fodor, J. D. (1978). The sausage machine: A new two-stage parsing model. Cognition, 6, 291⫺325. Fromkin, V. A. (1971). The non-anomalous nature of anomalous utterances. Language, 47, 27⫺52.

Garrett, M.F. (1975). The analysis of sentence production. In G. Bower (Ed.), Psychology of learning and motivation (pp. 133⫺177). New York: Academic Press. Garrett, M. F. (1976). Syntactic processes in sentence production. In R. J. Wales & E. Walker (Eds.), New approaches to language mechanisms (pp. 231⫺256). Amsterdam: New Holland.

Harnad, S. (1987). Categorial perception: The groundwork of cognition. New York: Cambridge University Press. Herrmann, T. & Grabowski, J. (1994). Sprechen: Psychologie der Sprachproduktion. Heidelberg: Spektrum Akademischer Verlag. Hillis, A. (1993). The role of models of language processing in rehabilitation of language impairments. Aphasiology, 7, 5⫺26. Jacobs, A. & Grainger, J. (1994). Models of visual word recognition: Sampling the state of the art. Journal of Experimental Psychology: Human Perception and Performance, 20, 1311⫺1334. Johnson-Laird, P. N. (1983). Mental models. Cambridge: Harvard University Press. Just, M. A. & Carpenter, P. A. (1980). A theory of reading: From eye fixation to comprehension. Psychological Review, 87, 329⫺354. Kaplan, R. M. & Bresnan, J. (1982). Lexical functional grammar: A formal system for grammatical representation. In J. Bresnan (Ed.), The mental representation of grammatical relations (pp. 173⫺ 281). Cambridge, MA: MIT Press. Kempen, G. & Huijbers, P. (1983). The lexicalization process in sentence produrction and naming: Indirect election of words. Cognition, 14, 185⫺209. Kempen, G. & Hoenkamp, E. (1987). An incremental procedural grammar for sentence formulation. Cognitive Science, 11, 201⫺258. Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction-integration model. Psychological Review, 95, 163⫺182. Kintsch, W. & van Dijk, T. A. (1978). Towards a model of text comprehension and production. Psychological Review, 85, 363⫺394. Kochendörfer, G. (1997). Neuronale Modelle des Sprachverstehens (⫽ Cognitio, 2). Freiburg: Hochschulverlag.

5. Kognitionswissenschaftliche Beiträge zu Sprachproduktion und Sprachrezeption Lecours, A. R., Nespoulous, J.-L. & Pioger, D. (1987). Jacques Lordat or the birth of cognitive neuropsychology. In E. Keller & M. Gopnik (Eds.), Motor and sensory processes of language (pp. 1⫺16). Hillsdale, NJ: Lawrence Erlbaum Associates. Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge, MA: MIT Press. Levelt, W. J. M., Roelofs, A. & Meyer, A. S. (1999). A theory of lexical access in speech production. Behavioral and Brain Sciences, 22, 1⫺75. Lichtheim, L. (1885). On aphasia. Brain, 7, 433⫺ 484.

91

ing, reading, and writing (pp. 273⫺311). London: Academic Press. Morton, J. (1969). Interaction of information in word recognition. Psychological Review, 76, 165⫺ 178. Morton, J. & Patterson, K. E. (1980). A new attempt at an interpretation or an attempt at a new interpretation. In M. Coltheart, K. E. Patterson & J. C. Marshall (Eds.), Deep dyslexia (pp. 99⫺118). London: Routledge and Kegan Paul. Norris, D. (1995). SHORTLIST: A connectionist model of continuous speech recognition. Cognition, 52, 189⫺234.

Lisker, L. & Abramson, A. S. (1970). The voicing dimension: Some experiments in comparative phonetics. Proceedings of the Sixth International Congress of Phonetic Sciences, Prague 1967 (pp. 563⫺ 567). Prag: Academia.

Pick, A. (1913). Die agrammatische Sprachstörung. Berlin: Springer.

Maier, S. & Spitzer, M. (1999). Network models and formal thought disorders. In R. Klabunde & C. von Stutterheim (Eds.), Representations and processes in language production (pp. 259⫺279). Opladen: Deutscher Universitätsverlag.

Quillian, M. R. (1968). Semantic memory. In M. L. Minsky (Ed.), Semantic information processing (pp. 227⫺259). Cambridge, MA: MIT Press.

Marslen-Wilson, W. D. (1987). Functional parallelism in spoken word-recognition. Cognition, 25, 71⫺102. Marslen-Wilson, W. D. (1990). Activation, competition, and frequency in lexical access. In G. T. M. Altman (Ed.), Cognitive models of speech processing: Psycholinguistic and computational perspectives (pp. 148⫺172). Cambridge, MA: MIT Press. Marslen-Wilson, W. D. & Tyler, L. K. (1980). The temporal structure of spoken language understanding. Cognition, 8, 1⫺71. Marslen-Wilson, W. D. & Welsh, A. (1978). Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology, 10, 29⫺63. McClelland, J. L. & Elman, J. L. (1986). The TRACE model of speech perception. Cognitive Psychology, 18, 1⫺86. McClelland, J. L. & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception: Part 1: An account of basic findings. Psychological Review, 88, 375⫺407. Monsell, S. (1987). On the relation between lexical input and output pathways for speech. In A. Allport, D. G. MacKay, W. Prinz & E. Scheerer (Eds.), Language perception and production: Speak-

Plaut, D. C. (1996). Relearning after damage in connectionist networks: Toward a theory of rehabilitation. Brain and Language, 52, 25⫺82.

Roelofs, A. (1997). The WEAVER model of wordform encoding in speech production. Cognition, 64, 249⫺284. Schriefers, H., Meyer, A. S. & Levelt, W. J. M. (1990). Exploring the time course of lexical access in language production. Journal of Memory and Language, 29, 86⫺102. Seidenberg, M. F. & McClelland, J. L. (1989). A distributed, developmental model of word recognition and naming. Psychological Review, 96, 523⫺ 568. St.John, M. F. & McClelland, J. L. (1991). Learning and applying contextual constraints in sentence comprehension. In G. E. Hinton (Ed.), Connectionist symbol processing (pp. 217⫺257). Cambridge, MA: MIT Press. Van Tourennout, M., Hagoort, P. & Brown, C. M. (1997). Electrophysiological evidence on the time course of semantic and phonological processes in speech production. Journal of Experimental Psychology: Learning, Memory, and Cognition, 23, 787⫺806. Wernicke, C. (1874). Der aphasische Symptomenkomplex. Breslau: Cohn & Weigart.

Ulrich Schade, FGAN, Wachtberg-Werthhoven, Stefan Barattelli, Universität Bielefeld (Deutschland)

II. Methoden der Psycholinguistik/Methods of Psycholinguistics 6. Datenerhebung und Transkription 1. 2. 3. 4. 5. 6.

Einleitung Transkription in der Psycholinguistik Datenerhebung Transkription Schlussbemerkungen Literatur A word is dead When it is said, Some say. I say it just Begins to live That day. Emily Dickinson

1.

Einleitung

In dem folgenden Beitrag diskutieren wir Fragen der Erhebung und Transkription von mündlichen Äußerungen. Bei den Äußerungen kann es sich um monologische oder dialogische Rede handeln, und die Äußerungen können unter natürlichen Bedingungen oder im Labor hervorgebracht worden sein. Wir stellen die Transkription in den Mittelpunkt unserer Diskussion, da Einzelheiten der Datenerhebung, wie sie etwa für die Planung und Durchführung von Experimenten benötigt werden, in Kapitel 8 dieses Handbuchs behandelt werden. Die Frage, wie man mündliche Äußerungen angemessen zu Papier bringt oder elektronisch speichert, um sie im Rahmen wissenschaftlicher Untersuchungen zu analysieren, beschäftigt verschiedene Disziplinen. Dazu gehören die Anthropologie (z. B. Duranti, 1997: 122⫺161), die Linguistik (z. B. Ehlich & Switalla, 1976; Edwards, 2001; Dittmar, 2002) und die Soziologie (z. B. Richter, 1988). Der vorliegende Artikel richtet sich in erster Linie an Psychologen, dürfte jedoch auch für andere Disziplinen von Interesse sein. Prinzipiell wenden wir uns damit sowohl an Leser, die erstmalig mündliche Äußerun-

gen zu analysieren beabsichtigen, wie auch an diejenigen, die bereits über Erfahrungen mit der Herstellung und Analyse von Trankripten verfügen. Wir haben zu diesem Thema in den vergangenen Jahren mehrere Aufsätze veröffentlicht, in denen wir uns weitgehend auf die Darstellung englischsprachiger Transkriptionssysteme beschränkt haben, wie sie in der Gesprächsanalyse verwendet werden (O’Connell & Kowal, 1994, 1995a, 1995b; O’Connell & Kowal, 1999), bzw. speziell auf die Transkription der zeitlichen Organisation von mündlichen Äußerungen (O’Connell & Kowal, 1990a, 1990b; Kowal & O’Connell, 1995). In diesem Beitrag werden wir vor allem auf deutschsprachige Transkriptionssysteme eingehen und auf einige englischsprachige Systeme nur vergleichend zurückgreifen. Darüber hinaus ist unser Blick auf Transkription im Folgenden von einer psycholinguistischen Perspektive bestimmt mit dem Ziel, Wissenschaftlern und Studierenden den kritischen Umgang mit dieser Methode zu vermitteln, zugleich aber auch die psycholinguistische Forschung über das Herstellen und das Lesen von Transkripten als speziellen Arten des Sprachgebrauchs anzuregen.

2.

Transkription in der Psycholinguistik

In der modernen Gesprächsforschung ist die Verschriftung ausgewählter Aspekte von Gesprächen zu einem unerlässlichen Hilfsmittel bei der Beschreibung und Analyse sprachlicher Interaktionen geworden. Diese Tatsache sollte jedoch nicht vergessen lassen, dass die schriftliche Aufzeichnung von mündlichen Äußerungen eine weit längere Geschichte in der Linguistik (vgl. etwa Duranti, 1997: 122 f.; Ehlich & Switalla, 1976) und in der Psychologie hat. So betont Bloom (1993: 149), dass bereits vor mehr als 100 Jahren

6. Datenerhebung und Transkription

mündliche Äußerungen von Kindern aufgezeichnet wurden. Diese Aufzeichnungen haben sich allerdings weitgehend auf die Notierung der geäußerten Worte beschränkt. Die Fortschritte der Computer-Technologie und ein zunehmendes Interesse am weltweiten Datenaustausch haben seit den 90er Jahren in der Linguistik, Soziolinguistik und der mit der Sprachentwicklung befassten Psycholinguistik zur Ausarbeitung von Transkriptionssystemen verschiedener Forschungsgruppen geführt (Edwards & Lampert, 1993; Leech, Myers & Thomas, 1995; MacWhinney, 1995). Im wissenschaftlichen Diskurs der Mainstream-Psycholinguistik, die sich mit normalen einsprachigen Erwachsenen (Garman, 1990: xv) befasst, spielen dagegen Methoden der Transkription mündlicher Äußerungen bisher selbst in neueren Veröffentlichungen kaum eine Rolle. So findet man etwa im Index des Handbook of Psycholinguistics (Gernsbacher, 1994) ebenso wenig Hinweise darauf wie in dem Lehrbuch zur Sprachpsychologie von Langenmayr (1997: 23⫺32), das immerhin 37 Methoden der Sprachpsychologie aufführt; und Bock (1996) geht in ihrem Aufsatz über Methoden der Sprachproduktionsforschung zwar auf transkribierte Korpora ein, ohne jedoch die Methoden der Transkription zu thematisieren. Auch in neueren Einführungen in die Psycholinguistik (vgl. etwa Altmann, 1997; Forrester, 1996; Harley, 2001; Scovel, 1998; Whitney, 1998) fehlen Hinweise auf Transkriptionsmethoden. Garman (1990: 47) stellt nach einer kritischen Diskussion der phonetischen Transkription fest, dass es keine Möglichkeit gibt, gesprochene Sprache auf dem Papier genau und vollständig abzubilden. In anderem Zusammenhang weist er darauf hin, dass es zu den besonderen Herausforderungen von Transkribierenden gehört, ungrammatische Rede lautgetreu zu verschriften (134). In den wenigen Fällen, in denen die psycholinguistische Forschung sich auf Gespräche stützt, finden sich dagegen Hinweise auf Transkription. So widmet etwa Deese (1984: 20), der live-Diskussionen in verschiedenen öffentlichen Settings untersucht, der Transkription ein eigenes Kapitel, weil für seine Analysen der Genauigkeitsgrad der Transkripte sehr wichtig ist. Und Clark (1996: x) betont in der Vorrede zu seinem Buch Using language, dass er sich so weit wie möglich auf Beispiele spontaner Sprache gestützt hat. Die meisten dieser Beispiele entnimmt er nach eigenen Angaben dem London-Lund-Corpus

93 (Svartvik: 1990; Svartvik & Quirk, 1980), dessen wesentliche Transkriptionskonventionen er in der Vorrede erläutert. Herrmann und Grabowski (1994: 32⫺34) gehen in ihrem Buch Sprechen: Psychologie der Sprachproduktion in einem längeren Exkurs auf die Transkription gesprochener Sprache ein. Wir machen diesen Exkurs zur Grundlage für die vergleichende Darstellung von deutsch- und englischsprachigen Transkriptionssystemen (vgl. 4.5.). Für die Vernachlässigung der Transkription in der Psycholinguistik lassen sich verschiedene Gründe aufführen. Die Produktion mündlicher Äußerungen ist im Vergleich zum Verstehen mündlicher Äußerungen über viele Jahre stiefmütterlich behandelt worden (vgl. etwa Harley, 2001: 243; Levelt, 1989: xiii; MacNeilage & Ladefoged, 1976: 75 f.). Nach Garnham (1994: 1137) hat sich das bis heute nicht grundsätzlich geändert. In dem Versuch, Zukunftsperspektiven für die psycholinguistische Forschung aufzuzeigen, stellt er fest, dass die umfangreichen Untersuchungen über die Sprachproduktion in der Pragmatik, Soziolinguistik und Ethnomethodologie nur wenige psycholinguistische Untersuchungen ausgelöst haben. Nach Bock (1996: 395) ist die mangelnde Beschäftigung mit der Sprachproduktion auf die schwierige Aufgabe der neueren Psycholinguistik zurückzuführen. Ihrer Ansicht nach soll die Psycholinguistik nämlich aus verschiedenen Disziplinen (etwa der Rhetorik, artikulatorischen Phonetik und Soziolinguistik) Hinweise auf die Sprachproduktion aufnehmen und daraus empirisch überprüfbare Hypothesen über die Umwandlung von Gedanken in Äußerungen ableiten. Ein weiterer Grund für die Vernachlässigung der Transkription ist die experimentelle Orientierung der Psycholinguistik der Sprachproduktion. Mündliche Äußerungen in Sprachproduktionsexperimenten sind häufig kurz, dekontextualisiert und simuliert, ihre Form wird durch Versuchsleiter beeinflusst, und sie werden selektiv analysiert (z. B. Bock, 1987). Außerdem gibt es Experimente, in denen die Versuchspersonen gar nicht sprachlich reagieren (z. B. Reaktion durch Tastendruck in Schriefers, Meyer & Levelt, 1990). Aber selbst dort, wo sich die psycholinguistische Forschung mit der Analyse des spontanen Sprechens beschäftigt hat, sind Transkriptionsmethoden selten problematisiert worden. Dies ist umso bemerkenswerter, als nach Bock (1996: 401) bis vor kurzem fast die gesamte Forschung zur Sprachproduk-

94 tion auf die Beobachtung alltäglichen Sprechens beschränkt war. Betrachtet man einige klassische psycholinguistische Studien unter dem Aspekt der Transkription, so kommt man zu einem unbefriedigenden Ergebnis. Zu den frühesten Untersuchungen über spontan gesprochene Sprache gehört die von Maclay und Osgood (1959: 23). Ihre Tonbandaufnahmen von einer wissenschaftlichen Konferenz wurden von Sekretärinnen in normaler englischer Orthographie transkribiert. Diese wurden instruiert, ein möglichst wortgetreues Transkript herzustellen, d. h. jede Bereinigung des Textes zu vermeiden und alles Gesagte zu notieren, unabhängig davon, ob sie selbst es für grammatisch richtig hielten oder nicht. Bei näherer Betrachtung zeigen sich in diesen Instruktionen Widersprüche, die sich in einem nicht bekannten Maß auf die Transkripte ausgewirkt haben können. Da Maclay und Osgood mit Verzögerungsphänomenen gerade solche Äußerungselemente analysiert haben, die schwer wahrzunehmen und schwer ohne spezielles Training in normaler englischer Orthographie zu verschriften sind, müssen die Ergebnisse ihrer Untersuchung in Zweifel gezogen werden. Auch Goldman-Eisler (1968: 167) ist bei der Transkription ihrer Cartoonerzählungen unsystematisch vorgegangen. Ohne weitere Begründung tilgte sie in ihren Transkripten Laute wie beispielsweise unmotivierte Wiederholungen eines Wortes, da sie diese für irrelevant hielt. Ihr häufig als allgemeine Gesetzmäßigkeit des spontanen Sprechens zitierter Befund, dass nämlich 40⫺50 % der Redezeit durch Pausen angefüllt ist, könnte (auch) ein Artefakt dieses Transkriptionsverfahrens sein. Ein methodisches Datenerhebungs- und Transkriptionsproblem zeigt sich auch bei verschiedenen Korpora, die die Grundlage für psycholinguistische Versprecheranalysen gebildet haben. Sowohl Fromkin (1971) als auch Garrett (1975) haben sich auf Versprecherdaten gestützt, die sie selbst bzw. Kollegen oder Freunde als Gesprächsteilnehmer gehört und anschließend aufgezeichnet haben, ohne dass ihnen Tonbandaufnahmen für die Überprüfung ihrer Wahrnehmungen und Aufzeichnungen zur Verfügung standen. Wie Ferber (1991) unter Verwendung von Tonbandaufnahmen gezeigt hat, nehmen aber selbst trainierte Hörer die meisten Versprecher gar nicht wahr, zeichnen die Versprecher, die sie hören, in fast der Hälfte aller

II. Methoden der Psycholinguistik

Fälle falsch auf und notieren zudem häufig nicht dieselben Versprecher. Die Gründe für die unbefriedigenden Transkriptionsmethoden in den erwähnten Untersuchungen sind unterschiedlich: Maclay und Osgood (1959: 19) haben ihre Arbeit selbst explizit als explorativ bezeichnet. Bei Goldman-Eisler (1968) steht die Analyse der zeitlichen Organisation mündlicher Äußerungen so stark im Vordergrund, dass die Anfertigung der Transkripte an keiner Stelle des Buches erwähnt wird. Die Versprechersammlungen von Fromkin (1971) und Garrett (1975) stützen sich auf ein Redephänomen, das selten und unvorhersehbar auftritt. Offenbar haben die Autoren aus praktischen Gründen auf Tonbandaufnahmen verzichtet, obwohl z. B. Garrett selbst in einer Fußnote (139: Fußnote 5) darauf hinweist, dass die Wahrnehmbarkeit verschiedener Versprecher personenabhängig variiert. Häufiger als in der allgemeinen Psycholinguistik werden Datenerhebung und Transkription in der Sprachentwicklungspsychologie angesprochen. So hat Ochs (1979) ihren inzwischen klassischen Aufsatz über die Theoriegeladenheit von Trankription in diesem Zusammenhang geschrieben. Ausführlich geht auch Bloom (1993) auf Fragen der Transkription und Kodierung im Rahmen der Sprachentwicklungsforschung ein. Mißler (1993: 99 ff.) diskutiert die Erhebung und Transkription von mündlichen Äußerungen nicht im Abschnitt über ‘Erwachsenensprache’, sondern nur in dem folgenden Abschnitt über ‘Kindersprache’. Auf zwei weitere Autoren aus der Sprachentwicklungspsychologie (Klann-Delius, 1990; MacWhinney, 1995) werden wir weiter unten ausführlicher eingehen (4.2 und 4.5).

3.

Datenerhebung

Der Prozess der Sprachdatenerhebung lässt sich in zwei Phasen gliedern: die Planung und die Durchführung. In der Planungsphase geht es um die Festlegung der zu untersuchenden Äußerungsstichproben. Dabei sind nach Schlobinski (1996: 19 ff.) drei Aspekte zu berücksichtigen: (a) Wie bringt man Menschen dazu, sich sprachlich zu äußern? Damit ist die Auswahl von Elizitierungstechniken angesprochen. (b) Welche Untersuchungsmethode ist für eine gegebene Fragestellung angemessen (z. B. teilnehmende Beobachtung, Experiment oder Fragebogen)? (c) Nach welchen

95

6. Datenerhebung und Transkription

Kriterien werden Art und Umfang der Stichprobe festgelegt, welche Sprecher werden ausgewählt, und wieviele werden benötigt? In der Durchführungsphase werden die Sprachdaten auf der Grundlage der Planung erhoben und elektronisch aufgezeichnet. Die Durchführung der Datenerhebung bildet die Grundlage für die Transkription. In Abbildung 6.1 haben wir die verschiedenen Schritte bei der empirischen Untersuchung mündlicher Äußerungen in Anlehnung an Schlobinski (1996: 20 f.) zusammengefasst. Diese Schritte sind sowohl konzeptuell als auch sequentiell zu verstehen. Im ersten Schritt wird festgelegt, warum die Untersuchung durchgeführt wird. Diese Zielsetzung bestimmt alle folgenden Schritte, insbesondere die Datenanalysen, die durchzuführen sind. Die Datenerhebung bestimmt die Datenaufbereitung. In Anlehnung an Brinker und Sager (1996: 35) unterscheiden wir bei der Datenerhebung die Primärdaten von den Sekundärdaten. Die Datenaufbereitung erfolgt in Transkripten, den Tertiärdaten. Die Sekundärdaten werden simultan zur Produktion der Primärdaten erhoben. Die Tertiärdaten können jederzeit, normalerweise zeitlich versetzt, auf der Grundlage der Sekundärdaten erhoben werden. Die Herstellung der Tertiärdaten benötigt ein Vielfaches der Zeitdauer der ursprünglichen Äußerungen (Redder & Ehlich, 1994: 4). Sekundärdaten und Tertiärdaten sind für Analysen permanent verfügbar, aber in verschiedenen Medien – die Sekundärdaten im phonischen, die Tertiärdaten im graphischen Medium. Bei Videoaufnahmen sind die Sekundärdaten auch visuell verfügbar. Als Primärdaten gelten die einmaligen Äußerungen und außersprachlichen Gesprächshandlungen von Sprechern in Echtzeit, die nur während der kurzen Zeit ihrer Produktion existieren und der Beobachtung zugänglich sind. Daraus ergibt sich die paradoxe Forschungssituation, dass die Analysen zwar eigentlich den Primärdaten gelten, dass diese jedoch für detaillierte Analysen gar nicht (mehr) verfügbar sind: Verba volant. Analy-

Zielsetzung

J

Datenerhebung

J

sen von mündlichen Äußerungen werden also an Daten vorgenommen, die im Vergleich zu den Primärdaten bereits verändert und interpretiert sind, da zu ihrer permanenten Aufzeichnung technische Hilfsmittel sowie ein Wechsel vom phonischen ins graphische Medium nötig sind. Es ist deshalb irreführend, Tonbandaufnahmen als ‘Originaldaten’ von Gesprächen (Psathas & Anderson; 1990: 77) zu bezeichnen. Dies gilt völlig unabhängig von den Besonderheiten der Sprecher (z. B. Erwachsene vs. Kinder), des Settings (z. B. private Alltagsgespräche vs. öffentliche Diskussionen) oder des Vorbereitungsgrades der Äußerungen (z. B. spontane Äußerung vs. Vortrag einer im Voraus geplanten oder bereits schriftlich vorliegenden Rede). Eine Ausnahme bilden solche Untersuchungen, in denen während eines Gespräches Daten online ohne Verwendung eines Tonbandgerätes erhoben werden. So ließen etwa Schachter, Christenfeld, Ravina und Bilous (1991: 363) während der Vorlesungen in verschiedenen akademischen Disziplinen StudentInnen die Häufigkeit von gefüllten Pausen (um, er, uh und ah) zählen, um anschließend Vergleiche zwischen den Disziplinen im Hinblick auf dieses Maß vorzunehmen. Sekundärdaten werden verwendet, um die zeitlich begrenzte Verfügbarkeit mündlicher Äußerungen zu überwinden. Die Tonbandaufnahme eines Gesprächs erlaubt es aufgrund ihrer permanenten Verfügbarkeit, die einzelnen Gesprächsbeiträge beliebig oft abzuspielen, die Analyse des Gesprächs an jeder beliebigen Stelle vorzunehmen und bei wiederholtem Abhören unterschiedliche Merkmale der Äußerungen zu berücksichtigen. Diese Möglichkeit der selektiven und wiederholten Verarbeitung der Sekundärdaten entfernen den Forschenden jedoch zugleich von den Bedingungen, unter denen das Originalgespräch geführt wurde. Es ist deshalb grundsätzlich für die Forschenden nicht möglich, die Daten aus genau derselben Perspektive wie die am Originalgespräch Teilnehmenden zu verstehen und zu analysieren. Dies

Datenaufbereitung

J

Datenanalyse

Primärdaten und Sekundärdaten Tertiärdaten (Original(Tonband- oder (Transkripte) äußerungen) Videoaufzeichnungen) Abb. 6.1: Schritte in der empirischen Untersuchung mündlicher Äußerungen in Anlehnung an Brinker und Sager (1996: 35) und Schlobinski (1996: 20 f.)

96 steht im Widerspruch zu der Zielsetzung der Konversationsanalyse, die Erfahrung der Gesprächsteilnehmer auf der Grundlage von Tonbandaufnahmen und Transkripten genau zu rekonstruieren (Psathas & Anderson, 1990: 87). Elektronische Aufzeichnungen von mündlichen Äußerungen unterscheiden sich von den Primärdaten auch durch ihre Selektivität. So entscheiden bei Tonbandaufnahmen die Anzahl und die Qualität der Mikrophone über die Wahrnehmbarkeit der Gesprächsbeiträge. Nicht alle Frequenzen und nicht alle Äußerungsabfolgen, die während eines Gesprächs von den Beteiligten wahrgenommen werden können, werden in einer Tonbandaufnahme so gespeichert, dass sie auch von den Forschenden wahrgenommen werden können. Beispiele dafür sind geflüsterte Äußerungen, Hörerrückmeldungen und simultane Gesprächsbeiträge. In ähnlicher Weise werden durch die Kameraführung und die Anzahl der verfügbaren Kameras visuelle Daten ausgewählt. So können beispielsweise die Lippenbewegungen und redebegleitende Gesten verschiedener Sprecher in einem Gespräch auf dem Bildschirm nicht vollständig sichtbar gemacht werden. Ein Beispiel für die Selektivität der Sekundärdaten ist in unseren eigenen Analysen von Fernsehinterviews zu finden. In der deutschen Fernsehserie Zur Person, in der Günter Gaus Persönlichkeiten des öffentlichen Lebens befragt, bleibt er als Interviewer während des gesamten Interviews unsichtbar (off camera), und die Interviewten werden aus ständig wechselnder Kameraperspektive gezeigt (O’Connell & Kowal, 1998). Besondere Datenerhebungsprobleme ergeben sich bei der verdeckten im Gegensatz zur offenen Aufnahme von Gesprächen (Brinker & Sager, 1996: 31 ff.). Verdeckte Aufnahmen geschehen ohne das Wissen der Sprechenden, d. h. sie werden erst anschließend, wenn überhaupt, um ihre Zustimmung für die Aufnahmen gebeten. Dadurch ergeben sich ethische und juristische Probleme. Zugleich entstehen methodische Probleme, wenn die verdeckten Aufnahmen in Alltagssituationen erfolgen. Die Aufnahmequalität kann dabei wegen versteckter Mikrophone oder Kameras entscheidend reduziert werden, und zudem können Nebengeräusche die Äußerungen unverständlich machen. Andererseits können offene Aufnahmen, besonders mit aufwendiger Technologie, dazu führen, dass die am Gespräch Beteiligten dadurch ihr Verhalten ändern (vgl. Redder &

II. Methoden der Psycholinguistik

Ehlich 1994: 3). Deshalb enthält das LondonLund-Corpus in jedem Einzelfall Angaben darüber, ob für die betreffenden Sprecher offene oder verdeckte Aufnahmen vorliegen (Svartvik & Quirk, 1980: 26). Generell ist festzuhalten, dass die Brauchbarkeit von Tonbandaufnahmen für Forschungs- oder Lehrzwecke häufig durch die akustische Qualität der Aufnahmen eingeschränkt wird. Ein Beispiel dafür sind einige CD-Aufnahmen, die der Transkriptsammlung von Redder und Ehlich (1994) beigefügt sind (vgl. die Kritik von Kucharczik, 1996: 442).

4.

Transkription

4.1. Zum Begriff ‘Transkription’ Unter ‘Transkription’ versteht man die graphische Repräsentation von ausgewählten Aspekten des Verhaltens einer Person (Monolog) oder von mehreren Personen, die an einem Gespräch beteiligt sind (Dialog). Im Mittelpunkt stehen typischerweise die mündlichen Äußerungen, aber auch redebegleitendes außersprachliches Verhalten kann Teil der Transkription sein. Die Verschriftung in Form von Transkripten hat die Funktion, ausgewählte Besonderheiten des Redeverhaltens eindeutig, d. h. strukturgleich, abzubilden, um die Analysearbeit von Wissenschaftlern zu erleichtern. Ein Transkript setzt immer eine Performanz voraus und wird normalerweise nicht als Vorlage für weitere Performanzen, wie etwa ein Drehbuch oder Libretto, verwendet. In Anlehnung an Koch und Oesterreicher (1994: 587) ist der Begriff ‘Verschriftung’, der die Umsetzung vom phonischen ins graphische Medium bezeichnet, vom Begriff ‘Verschriftlichung’ zu unterscheiden, der die konzeptionelle Verschiebung sprachlicher Äußerungen (mündlicher oder schriftlicher) in Richtung auf mehr Schriftlichkeit bezeichnet. Die Verschriftung hat den Vorteil, dass der zeitliche Ablauf der mündlichen Äußerungen auf dem Papier zum Stillstand gebracht wird und damit buchstäblich in Ruhe analysiert werden kann. Sie macht außerdem verschiedene Teile der Äußerungen in beliebiger Reihenfolge und wiederholt zugänglich. Ein Transkript wird in aller Regel als Ergänzung zu den elektronischen Aufzeichnungen betrachtet (z. B. Pomerantz & Fehr, 1997: 70 f.), gelegentlich jedoch auch als Ersatz für diese Aufzeichnungen (z. B. Henne & Rehbock, 1995: 72 f.).

6. Datenerhebung und Transkription

Die Transkription ist zu unterscheiden von der Deskription. So kann man das Lachen in Lachsilben transkribieren (hahaha) oder als (LACHEN) beschreiben. Die Beschreibung lässt die phonologische Gestalt, die Sequentialität der einzelnen Lachsilben sowie ihre Anzahl unberücksichtigt. Von der Transkription ist weiterhin die Kodierung zu unterscheiden. Unter dem Begriff ‘Kodierung’ versteht man allgemein die Klassifikation natürlicher Ereignisse in diskrete Kategorien und die Bezeichnung dieser Kategorien. Lampert und Ervin-Tripp (1993: 170) geben das folgende Beispiel für eine Kodierung von zwei Gesprächsbeiträgen: Wife: Katie left her coat. Husband: Uh oh.

I R

Hier werden die beiden Beiträge danach klassifiziert, ob es sich um eine Initiierung (I) oder um eine Reaktion (R) handelt. 4.2. Kurze Darstellung ausgewählter Transkriptionssysteme In den rund 30 Jahren der Gesprächsforschung sind die unterschiedlichsten Konventionen für die Transkription mündlicher Äußerungen entwickelt worden. Im Folgenden geben wir eine kurze Darstellung derjenigen Transkriptionssysteme, die wir weiter unten (vgl. 4.5.) genauer analysieren. Die Nummerierung der verschiedenen Systeme stimmt mit der Nummerierung in Abbildung 6.2 überein. (1) Die Transkriptionsvereinbarungen von Gutfleisch-Rieck, Klein und Speck u. a. (1989) entstanden im Rahmen des psychologischen Sonderforschungsbereichs „Sprechen und Sprachverstehen im sozialen Kontext“ an den Universitäten Heidelberg und Mannheim. (2) Eines der ältesten und umfangreichsten deutschen Transkriptionssysteme, die Halbinterpretativen Arbeitstranskriptionen (HIAT) der Linguisten Ehlich und Rehbein, wurde für die Analyse von sprachlichen Interaktionen mit mehr als zwei Sprechern in Institutionen, wie z. B. Schulen, Gerichten und am Arbeitsplatz, entwickelt. Die Veröffentlichung von HIAT erfolgte in drei Schritten: die grundlegenden Merkmale des Transkriptionssystems (Ehlich & Rehbein, 1976), die Transkription der Intonation (Ehlich & Rehbein, 1979) und die Notierung von nonverbaler Kommunikation (Ehlich & Rehbein, 1981). Außerdem liegt eine leicht veränderte

97 englischsprachige Fassung von HIAT vor (Ehlich, 1993). (3) Das Manual zur Transkription von KlannDelius (1990) ist im Rahmen des Projektes „Dialogentwicklung und Interaktion“ an der Freien Universität Berlin entstanden. Im Mittelpunkt des Forschungsinteresses steht hier die Mutter-Kind-Interaktion. (4) Das Transkriptionssystem von Kallmeyer (1996: 419), das am Institut für Deutsche Sprache in Mannheim entwickelt wurde, umfasst relativ wenige Notationszeichen, geht aber ausführlich auf die Verschriftung des Mannheimer Dialekts ein. Im Vergleich zu dem vor 20 Jahren verwendeten Transkriptionssystem von Kallmeyer und Schütze (1976: 6 f.) haben sich die Notationszeichen weitgehend geändert, im Vergleich zu Kallmeyer (1997) stimmen sie weitgehend überein. (5) Das neueste von allen deutschsprachigen Systemen ist das Gesprächsanalytische Transkriptionssystem (GAT), ein gemeinsames Projekt von insgesamt 10 deutschen Linguisten (Selting, Auer & Barden u. a., 1998). Es wurde entwickelt, um die Transkriptionskonventionen zu vereinheitlichen und ist so konzipiert, dass Linguisten unterschiedlicher theoretischer Zugehörigkeit es verwenden können. (6) Die konversationsanalytische Transcript Notation von Gail Jefferson ist das älteste englischsprachige Transkriptionssystem für die Analyse von Gesprächen aus soziologischer und ethnomethodologischer Sicht und ist schrittweise in langjähriger Forschungspraxis erweitert worden, um es jeweils neuen Forschungsfragen anzupassen (Atkinson & Heritage, 1984: ix). (7) Den Ausgangspunkt für die Entwicklung der Discourse Transcription (DT) des Linguisten Du Bois (1991, 97; vgl. auch Du Bois, Schuetze-Coburn & Cumming u. a., 1993) bilden fünf explizit formulierte Prinzipien, die dazu führen sollen, sich dem Ideal der Diskurstranskription anzunähern, nämlich den Gesprächsverlauf so zu verschriften, dass er für die analysierenden Wissenschaftler genauso verfügbar ist wie für die Gesprächsteilnehmer selbst. (8) MacWhinney’s (1995) Transkriptionssystem Codes for the Human Analysis of Transcripts (CHAT) ist Teil des Child Language Data Exchange System (CHILDES) Project, das die Einrichtung weltweit vernetzter Datenbanken für die Sprachentwicklungspsy-

98 chologie zum Ziel hat. CHAT ist so konzipiert, dass die Transkriptionskonventionen vereinheitlicht werden können und computerkompatibel sind. Alle acht Transkriptionssysteme sind für die Analyse von Gesprächen entwickelt worden. Nur das Manual zur Transkription von Klann-Delius (1990) und das CHAT-System von MacWhinney (1995) werden speziell für die Verschriftung von Sprachentwicklungsdaten, alle anderen Systeme für die Verschriftung der Äußerungen von erwachsenen Sprechern verwendet. 4.3. Verschiedene Kategorien sprachbezogenen Verhaltens Um das Verhalten von Menschen, die an einem Gespräch beteiligt sind, zu beschreiben bzw. zu transkribieren, können in Anlehnung an Posner (1986: 272 f.) vier Arten des sprachbezogenen Verhaltens unterschieden werden: das verbale Verhalten (d. h. die geäußerten Wortformen, die vollständig oder unvollständig realisiert sein können, sowie ihre grammatische Struktur); das prosodische Verhalten (Tonhöhenverlauf, Dauer und Lautstärke von Segmenten sowie die zeitliche Organisation des Sprecherwechsels); das parasprachliche Verhalten (nichtsprachliche vokale Äußerungen wie Atmen, Lachen oder Husten) und das außersprachliche Verhalten (z. B. Gesten oder Blickzuwendung). Die vier Arten des sprachbezogenen Verhaltens werden in unterschiedlichem Maße in verschiedenen Transkriptionssystemen berücksichtigt. Ein Beispiel für ein Transkriptionssystem, das sich selbst als orthographisch bezeichnet und prosodische Informationen kaum berücksichtigt, ist das von Crowdy (1995) beschriebene System zur Herstellung des British National Corpus. Ein Transkriptionssystem, das in seiner erweiterten Form sehr detaillierte prosodische Information notiert, ist GAT (Selting, Auer und Barden u. a., 1998). Das außersprachliche Verhalten wird in allen aufgeführten Transkriptionssystemen berücksichtigt außer bei Gutfleisch-Rieck, Klein und Speck u. a. (1989), Kallmeyer (1996) und Du Bois (1991). 4.4. Prinzipien für die Entwicklung von Transkriptionssystemen Wer ein Transkriptionssystem entwickelt, muss dabei mindestens drei Gesichtspunkte berücksichtigen: Er muss entscheiden, welche Transkriptionskategorien in das System aufgenommen werden sollen, welche Zeichen zur

II. Methoden der Psycholinguistik

Notation der verschiedenen Transkriptionskategorien geeignet sind und wer die Transkripte herstellen soll. Die erste Entscheidung setzt die Festlegung der Zielsetzung (vgl. Abbildung 6.1) voraus, da für die Auswahl gesprächsrelevanter Verhaltensmerkmale prinzipiell unendlich viele Kategorien sprachlichen bzw. außersprachlichen Verhaltens gebildet werden können (Cook, 1990). Die zweite Entscheidung setzt Annahmen über die Lesbarkeit und Analysierbarkeit von Transkripten voraus und ist darüber hinaus ganz praktisch von verfügbaren Zeicheninventaren abhängig. Die dritte Entscheidung wirft die Frage auf, ob Transkripte von Laien nach kurzem Training anzufertigen sein sollten oder ob für ihre Herstellung linguistische Spezialkenntnisse vorausgesetzt werden müssten. Die theoretischen Grundlagen für die verschiedenen Entscheidungen werden in ausgearbeiteten Transkriptionssystemen in einigen Prinzipien explizit zusammengefasst. Im Folgenden gehen wir auf einige dieser Prinzipien ein und stützen uns dabei vor allem auf Du Bois (1991) sowie auf Edwards (1993). 1. Prinzip: Relevanz der Transkriptionskategorien. Dieses Prinzip weist auf die Tatsache hin, dass die Auswahl von Kategorien nur in Abhängigkeit von spezifischen Zielsetzungen möglich ist. Allerdings scheinen viele Transkriptionssysteme davon auszugehen, dass es eine bestimmte Menge von Kategorien gibt, die für jede Gesprächsanalyse, unabhängig von der Zielsetzung, notwendig ist. So unterscheiden Gutfleisch-Rieck, Klein und Speck u. a. (1989: 9 ff.) zwischen Variante 1 (Minimalanforderungen), Variante 2 und Sonderzeichen. Selting, Auer und Barden u. a. (1998: 92 und 102) legen in GAT ‘Mindeststandards für Transkriptionen gesprochener Sprache’ fest, die die Kategorien für das sog. ‘Basistranskript’ im Unterschied zum ‘Feintranskript’ bestimmen. Und Du Bois, SchuetzeCoburn und Cumming u. a. (1993: 45 f.) unterscheiden in DT zwischen einer weiten Transkription, die die grundlegendste Information enthält, und einer detaillierteren engen Transkription. 2. Prinzip: Adaptierbarkeit des Systems an neue Fragestellungen. Dieses Prinzip enthält die Forderung, dass ein Transkriptionssystem ohne grundlegende Revision die Möglichkeit offenhalten sollte, neue Kategorien aufzunehmen und bereits vorhandene Kategorien auszubauen oder zu verfeinern. Selting, Auer und Barden u. a. (1998: 92) sprechen in die-

6. Datenerhebung und Transkription

sem Zusammenhang vom sog. ‘Zwiebelprinzip’. 3. Prinzip: Lesbarkeit der Transkripte. Grundsatz für die Auswahl von Notationszeichen sowie für deren räumliche Anordnung auf der Transkriptfläche ist in den meisten Transkriptionssystemen die Lesbarkeit der Transkripte. Als potentielle Leserschaft kommen die analysierenden Wissenschaftler selbst, die (geschulten oder ungeschulten) Leser von Transkriptbeispielen in Publikationen sowie Computer in Frage. Die Lesbarkeit von Transkripten für menschliche Benutzer ist größer, so wird angenommen, wenn die Zuordnung von Notationszeichen zu Kategorien eindeutig ist, wenn Notationszeichen eine ikonische Beziehung zu ihrem Notat haben, wenn zeitlich zusammengehörige Ereignisse in räumlicher Nähe notiert werden und wenn qualitativ verschiedene Arten von Information (z. B. transkribierte Äußerungen und Kommentare) visuell gut unterscheidbar sind. Das Prinzip der Lesbarkeit umfasst aber auch die Forderung, dass ein Transkript seiner Leserschaft nicht bestimmte Interpretationen suggerieren sollte; das Transkript sollte also möglichst theorieneutral sein bzw. beabsichtigte Wirkungen explizit machen (vgl. Ochs, 1979). Die eindeutigste Anwendung des Prinzips der Lesbarkeit zeigt sich darin, dass für Gesprächsanalysen in aller Regel die Verschriftung der verbalen Komponente unter Verwendung des Internationalen Phonetischen Alphabets (IPA) abgelehnt wird. 4. Prinzip: Einfachheit in der Handhabung. Mit diesem Prinzip ist die Frage angesprochen, ob das Transkriptionssystem von den Transkribierenden spezielle Fähigkeiten und Fertigkeiten fordert oder ob darin nur solche Kategorien aufgenommen werden, die auch Laien nach kurzer Einführung reliabel und valide transkribieren können. Hinsichtlich dieses Prinzips scheint es zwischen verschiedenen Forschungsgruppen große Unterschiede zu geben, soweit sie darauf überhaupt explizit eingehen. Nach Ehlich (1993: 125) wird beim Transkribieren mit HIAT nur ein Mindestmaß an Training vorausgesetzt. Ähnlich fordert Du Bois (1991: 81 ff.) für DT mit seiner ‘Maxime der Zugänglichkeit’, dass bekannte bzw. leicht zu erlernende Notationszeichen verwendet werden. Dagegen setzt GAT (Selting, Auer und Barden u. a., 1998) spezielle linguistische Kenntnisse und Fertigkeiten voraus, insbesondere bei der Herstellung von Feintranskripten.

99 4.5. Vergleich einiger Transkriptionssysteme: Zur Standardisierung von Transkription Ausgangspunkt für unseren Vergleich der verschiedenen Transkriptionssysteme ist Herrmann und Grabowskis (1994: 32 ff.) ‘Exkurs 1.3: Zur Transkription gesprochener Sprache’. Herrmann und Grabowski unterscheiden drei „Gruppen von Transkriptionsvereinbarungen“: (a) die phonetische Transkription, (b) die Transkription „verbaler, nonverbaler und äußerungsbegleitender Komponenten“ und (c) die gesprächsanalytische Transkription. Sie stellen im Hinblick auf (b) fest, dass es trotz aller Variation der Transkriptionsregeln zwischen einzelnen Arbeitsgruppen eine Reihe von „häufig“ getroffenen Notationsvereinbarungen gibt. In Abbildung 6.2 haben wir in der linken Spalte die nach Herrmann und Grabowski häufig gebrauchten Konventionen für die Notation von insgesamt 11 Kategorien zusammengefasst. Die Konventionen für die Partiturschreibweise (die 12. Kategorie, in den letzten drei Zeilen der Abbildung 6.2) sind der gesprächsanalytischen Transkription entnommen. Insgesamt vier der 12 Kategorien sind weiter unterteilt in zwei (Intonation und Lautstärke), drei (Sprechpausen) bzw. vier (Sprecherwechsel) Unterkategorien, so dass für vergleichende Analysen insgesamt 19 Kategorien zur Verfügung stehen. Davon betreffen 15 Kategorien Aspekte des Gesprächsverhaltens (davon 13 prosodische), und vier Kategorien gehören zu den Transkriptionshilfen (Kleinschreibung, unverständliche Passage, vermutete Passage und Simultanfläche). Im Vergleich zu den Ergebnissen von Kowal und O’Connell (1995: Tabelle 1, 117) sind in Herrmann und Grabowskis Auswahl prosodische Merkmale leicht überrepräsentiert (68 > 60 %), während außersprachliche Merkmale überhaupt nicht berücksichtigt werden (0 < 10 %). Die linke Spalte enthält außer der Kategorienbezeichnung die speziellen Zeichen, die nach Herrmann und Grabowski häufig verwendet werden, um diese Kategorie zu notieren, zum Beispiel Majuskeln für auffallende Betonung (UNheimlich). Die Kategorie ‘Partiturschreibweise’ bedarf einiger Erläuterungen. Dieses Transkriptionsformat charakterisiert HIAT (Ehlich & Rehbein, 1976) und ist durch die Absicht bestimmt, die Sukzessivität bzw. die Simultaneität von Gesprächsbeiträgen mehrerer Sprecher auf dem Papier ikonisch abzubilden, vergleichbar einer Orchester-

Verschiedene Transkriptionssysteme Deutsch

Englisch

„Häufige“ Notationskonventionen

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

Sprecheräußerungen: Kleinschreibung



Herr

Hose





Well

Yeah

Mother

Deskriptive Kommentare: (LACHEND)



((niest))

(lacht)

LACHT ((lacht))

((edgily))

((BLOWS WHISTLE)) [⫽! laughs]

Unverständliche Passage: ( )





(…)





X going out

I want xxx

Vermutete Passage: (immer)











frog [?]

Sprechpausen: Mikropause: also * ich ** Pause > 1 Sek: *2,5*

⫹ ⫹

⫹ ⫹

(.) (-)(--)(---)

(.) (-)(-)(---)

.. ...

# ##, ###



· 쐌 ·· 쐌0.5쐌 ((5 Sek)) ………. 쐌1.2쐌



(1.2) (1.25)

(1.2)

.... (.7)

#1_5

Verschleifung: stört⫽s⫽n



sa’ick

machn ’s





Wortabbruch: au⫺

gat

Jo/

nei⫽

ewe/

Auffallende Betonung: UNheimlich



sehr

Hose

ja“

Intonation: Steigend:/ Fallend:\

⫹ ⫹

+ 7

⫹ ⫹

Vokaldehnung: :





Laut:



Leise: >…


hier

(p) da

> ja



∞But uh∞



⫹ ⫹



[so [das

冋 册

[so] [and]

Lautstärke

Sprecherwechsel: Partiturschreibweise1: Simultanfläche ⫹

S1 S2 S3 Horizontale Vertikale Simultane Äußerungen: er es

⫹ ⫹

⫹ ⫹

⫹ er es

[]

ja nein

so and

[>] oder [bitte< \

danke

schön7 ((lachend))

hie:r ( ) wo isn der Zu⫽ äh 쐌 das Salz/

bitte7 danke

schön\ ] (lachend) [ (p) bitte\

danke

schön B LACHEND >bitte B

hier wo is⫽n der zu/ äh * das Salz” A

hie:r ( … )

schön\ (LACHEND) >bitte [ phys.

nerv. Merkmale

] sensor. Merkmale Ereignisse

Abb. 55.3: Objekt- vs. Ereignisbegriffe. Objektbegriffe (oben) sind durch Merkmalssätze bestimmt, die mit Aktivitäten (z.B. Handlungen) assoziiert und mit Ereigniserfahrungen verbunden sind. Operationen über den Merkmalssätzen bewirken z.B. beim Fokussieren der Aufmerksamkeit Inhibitionen von Merkmalen oder Entfaltungen bei Suchprozessen durch Aktivierungen. Erstere umgrenzen einen Oberbegriffsbereich, letztere entfalten Unterbegriffe. Ereignisbegriffe (unten) sind bestimmt durch einen semantischen Kern (zumeist ein Verb, hier Treffen), von dem aus Objektbegriffe über semantische Relationen gebunden sind. Ihre sprachliche Enkodierung ermöglicht die grammatischen Formenbildungen für Akteure, Rezipienten, Instrument, Orts-, Zeit-, Raum- und Motivbeziehungen (Erläuterungen dazu im Text). Verbindungen zwischen Ereignisbegriffen werden durch kausale, finale, konditionale oder durch einfache Zeitrelationen ausgedrückt.

758

VI. Spracherwerb

griffsbildungen und den möglichen Beziehungen zwischen ihnen (wie u. a. bei Ober-, Unterbegriff) keine Rolle: ein Dackel gehört immer zur Klasse der Hunde, ein Setter steht zu ihm in Nebenordnung und heiss bleibt immer in gegensätzlicher Merkmalsausprägung zu kalt wie laut zu leise, rennen steigert laufen, schreien das Rufen. Merkmalseigenschaften der Begriffe regeln diese Beziehungen, sie sind zeitinvariante Objekteigenschaften. Anders bei den von uns so benannten Ereignisbegriffen (Abbildung 55.3). Sie haben eine Binnenstruktur, die häufig Zeitbeziehungen einschließt. Sie verweisen zumeist auf ein Vorher und auf ein Nachher. Eine völlig andere Klassifizierung ist möglich, wenn man transformative Merkmalseigenschaften an oder mit Objekten als Klassifizierungskriterium wählt: Verdunsten, Verbrennen oder Zerbrechen sind Kriterien, die sich auf Merkmalsänderungen beziehen. Überholen bezieht sich auf Orts- und Zeitrelationen; auch Begriffsbildungen nicht sichtbarer Objekte, wie z. B. Vergessen, das sich auf die Finalität beziehen kann, enthalten einen Zeitbezug. Beziehungen zwischen den Ereignisbegriffen werden durch spezifische Partikel der Grammatik ausgedrückt (s. u.): Kurz gesagt: Eine Klassifizierung der menschlichen Begriffsbildung kann nach verschiedenen Kriterien durchgeführt werden, die jeweils als Klassenbildner fungieren.

3.

Ereignisbegriffe – die lokalen Zentren des menschlichen Wissens

Die klassifizierenden Merkmale der Ereignisbegriffe sind hier nicht mehr einfache Objekteigenschaften. Sie betreffen Beziehungen zwischen einem semantischen Kern (Sk) und Objektbegriffen mit den soeben besprochenen Merkmalseigenschaften. Wir können uns das vorstellen am Beispiel eines ordinären Alltagsbegriffs wie Einpacken (Abbildung 55.4). Einpacken ist begrifflich einigermaßen vollständig durch sechs semantische Relationen mit den zugehörigen Objektbegriffen bestimmt. Das Ereignis drückt ein Geschehen aus. In ihm spielt die zeitliche Dimension eine wesentliche Rolle. Was die semantischen Besetzungen des Ereignisbegriffs mit Relationen betrifft, so sind diese die wesentlichen Invarianten des Ereignisbegriffs, während die Objektbegriffe, zwar in Grenzen, aber doch vielfältig aus-

Abb. 55.4: Begriffsvernetzung beim ordinären Ereignisbegriff Einpacken. Ein Handlungsträger (z.B. Kunde), ein Objekt (z.B. Ware), ein Instrument (z.B. Papier), ein Ort (z.B. Verkaufstisch), eine Motivation (z.B. Verschenken) und als Vorbedingung (Conditional) die Aktion Bezahlen sowie als Konsequenz oder Verursachung die Motivation des Erfreuens. Geschehenstypen dieser Art kommen alltäglich in ungezählten Varianten vor, und es gibt Evidenz dafür anzunehmen, dass Strukturtypen dieser Art Aufbauelemente des menschlichen Wissensbesitzes bilden (vgl. Hallpike, 1990).

tauschbar sind: Ware kann ersetzt werden durch Kamera, F¸ller, Taschenrechner und was sonst noch als Ware einpackbar ist. (Das ist der zweite einschränkende Ankerpunkt, der mit der Begriffswahl erfolgt (Klix, 1999). Als Instrument können dienen: Papier, Folie, Stoff?). Als Ort können dienen Tisch, Kaufhaus, u. a. Ht sind beliebige Menschen im Besitz von Geld, Tauschobjekten oder anderen Zahlungsmitteln, Rez sind wiederum Menschen von einem bestimmten Alter an. Die Finalität kann Erfreuen sein, Ärgern, Ausstatten u. a. Cond betrifft die Absicht der Übergabe. Sie kann mit der Finalität übereinstimmen oder auch nicht. (Nicht alles, was zum Erfreuen gedacht ist, erfreut auch wirklich.) Mit diesen semantischen Relationen sowie der vorangegangenen Bedingung und der Wirkung ist der Ereignisbegriff eindeutig im Kontext eines Geschehens beschrieben. Die für uns zentrale Frage ist nun, wie man von diesen begrifflichen Kernen des menschlichen Wissensbesitzes zu einer sprachlichen Mitteilung von Ereignissen kommen kann. Damit dies und noch komplexere Begriffsbildungen eindeutig geschehen können, dazu ist im menschlichen Gedächtnis vor allem für kommunikative Zwecke in Jahrzehntausenden ein System von Umsetzungsregeln ausgebildet worden. Die historischen Abschnitte dieser Entstehungsgeschichte liegen noch weitgehend im Dunkel. Wir wollen dennoch versuchen, auf einer zwar hypothetischen, aber doch begründbaren Vermutung einige erste Schritte in dieser Richtung zu gehen.

55. Phylo- und Ontogenese sprachlicher Kommunikation

4.

Evolutionäre Stufen in kommunikativen Prozessen

Wir nehmen Abbildung 55.5 als Basis. Die Kommunikationsmöglichkeiten der Lebewesen steigern sich mit der Speicherkapazität und der Architektur der Nervensysteme. Die wiederum werden durch Evolutionsschübe gesteigert und differenziert. Biotope fordern Verhaltensflexibilität unter stark wechselnden Lebensumständen heraus. (1) Früheste Kommunikation findet auf elementarem, molekularem Niveau statt, wie z. B. schon der molekulare Aufbau von Schleimpilzen bezeugt, der vom Nährboden angeregt wird. Schmetterlinge, Krebstiere (Limulus), Tintenfische (Octopus) erkennen bereits durch konturarme Schemata. (2) Bereits frühe Wirbeltiere wie Fische oder Vögel nehmen ihre Umwelt klassifizierend, nach den verhaltensrelevanten Merkmalen der Dinge oder Vorgänge in ihrem Lebensbereich wahr, z. B. die Schlangenkontur für die Kröte zur Fluchtauslösung, die Schwärzung vor hellem Hintergrund zur Fluchtauslösung für den Frosch (Storchengefahr!). (3) Es entstehen Assoziationen zwischen Objektklassen und Lautbildungen, z. B. die Bindung von informationstragenden Urlauten zur Signalisierung von Feindbildern (z. B. Schlange, Leopard oder Kampfadler bei Meerkatzen (Cheney & Seyfahrt, 1990; Bühler, 1930)). Das ist eine Vorstufe symbolischer Benennungen. (4) Mit der Kombinatorik von Lautmustern zu begriffsanalogen Klassifikaten entsteht eine frühe Protosprache. In ihr können Lautbildungen wie standardisierte Bedeutungen fungieren. Verkettete Phonemkombinationen schaffen aus einem Grundinventar an Lauten ein erstes Lexikon in individuellem Gedächtnisbesitz. Durch die Rollenbenennung für Begriffe oder Begriffskombinationen entsteht eine Benennungsmöglichkeit für Szenen und die Gestaltung sozial bezogener Aussagen über Aktionen (von H. erectus zu H. präsapiens). (5) Die Spezifizierung semantischer Relationen schafft die Basis für grammatische Formbildungen in flektierenden Hochsprachen. Sie werden zumeist in Partikeln, insbesondere durch Präpositionen, ausgedrückt. (6) Das Ereignis in der Mitteilung: Lautlich kodierte semantische Relationen gestatten,

759

szenische Aussagen über Raum- und Zeitbeziehungen, über das Gewesene oder das Künftige bei Erhalt der Bedeutungen zu variieren. (Adjektiva sind auch in ihren Merkmalseigenschaften variabel. Verben können mit Adverbien gebunden werden oder in Aktiv bzw. Passiv, Indikativ oder Konjunktiv geführt sein.) (7) Markierung der Überführung eines ereignisbegrifflichen Hintergrundes in eine grammatisch flektierte Aussage. Das ist aus Raumgründen nicht lückenlos ausgeführt. Ein Kenner linguistischer Details wird fehlende Übergänge ausfüllen können. Wir betrachten Abbildung 55.5 unten, die Abschnitte 5, 6 und 7. Hier sind die begrifflich-semantischen Übergänge zu den lexikalisch-verbalen Elementen des Gedächtnisses beschrieben, wie sie bei der Konstruktion einer sprachlichen Aussage eine Rolle spielen könnten. Von der semantischen Wurzel (HTSk-O) werden über die Relationen des Ereignisbegriffs (Sem-Relat) die zugehörigen Präpositionen (Instr, Objekt, Location und Finalität) aktiviert. Sie werden durch Partikel wie Konjunktion (u. a. die Konsekution im Semantischen) kodiert. Die verweisen auf zeitliche Abschnitte im Gesamtgeschehen. In der Satzbeschreibung selbst sind die begrifflichen mit den semantischen Entitäten in Beziehung gebracht. Die oberste Stufe, Sehen genannt, bezeichnet einfache visuelle Erkennungsvorgänge. In sehr frühen Evolutionsphasen sind visuelle Erkennungsvorgänge zumeist mit anderen Sinnesempfindungen assoziiert; bei Insekten, wie z. B. Grillen u. a., mit Flügeltrillern, Duftreizen oder Schnarrlauten. Sehr elementare Sehleistungen wurden von Tinbergen (1952) am Beispiel des Paarungsverhaltens beim Samtfalter untersucht. Diese Falter orten ihr Weibchen zumeist gegen den hellen Sommerhimmel. Dabei kommt es auf zwei Reizeigenschaften an: Auf die Größe und auf eine Art Trudelbewegung. So fliegen die Männchen zuweilen auch ein fallendes Blatt an. Musterungen auf der Oberfläche spielen allem Anschein nach keine Rolle. Eine deutlich höhere, weil differenziertere Stufe visuellen Erkennens, ist mit den angeborenen auslösenden Mechanismen (AAM) von Wirbeltieren gegeben. Die AAM sind angeborene Strukturbildungen. Sie werden eingesetzt bei der Arterkennung und sind in die Instinktkreise der Jungenaufzucht, der Paar-

760

Abb. 55.5: Kommunikationsmöglichkeiten der Lebewesen

VI. Spracherwerb

55. Phylo- und Ontogenese sprachlicher Kommunikation

bildung oder der Partnersuche eingebunden (Tinbergen, 1952). Während es sich bei den AAM um eine Vorstufe der Gestalterkennung vor allem bei Nestflüchtern handelt, so sind höhere Formen perzeptiver Strukturen mit Sicherheit schon niederen Primaten eigen. Eingehend untersucht wurden sie von Lethmate (1977) am Orang. Die Tiere lernten in mehreren Sitzungen mit Hilfe von verschiedenen Schlüsseln eine Serie von Kästen zu öffnen. Erst im letzten lag der belohnende Leckerbissen. Im Innern jedes einsehbaren Kastens befand sich ein Schlüssel, der den nächsten zu öffnen erlaubte. Wenn wir jetzt vom seriellen Lernen absehen, so ist in jedem Schritt ein Vergleichsprozess zwischen dem ‘Bart’ eines einliegenden Schlüssels und dem Schloss des nächsten Kastens gefordert. Es ist ein Vergleichsprozess zwischen zwei verschiedenen Arten von Strukturbildungen: einer ‘positiven’ Konfiguration und einer komplementären, einer Art Negativ. Schlüssel und Schloss sind jeweils eine Kombination von Merkmalen (z. B. hervorstehende Zacken, rechte Winkel u. ä.). Der Erwerb solcher Merkmalssätze entspricht im Ergebnis dem Erwerb einer begrifflichen Struktur durch Lernen. Scheinbar nur um eine simple assoziative Bindung ergänzt, finden wir auf einer höheren gegenüber der früheren Primatenstufe eine Zuordnung von Lautbildungen zu begriffsähnlichen, klassifizierenden Merkmalssätzen. Und doch ist das, was Cheney und Seyfarth (1990) gezeigt haben, mehr. Wir sehen es als eine Vorstufe der Assoziation von Symbolen an, hier von symbolischen Lautbildungen zu arttypischen begriffsähnlichen Klassifizierungen. Premack (1976) hat gezeigt, dass sich das durch Lerntraining weiterführen lässt. Er hat Objektklassen wie Äpfel oder Bananen mit Plastikplättchen assoziiert und gefunden, dass über sie eine symbolische Kommunikation schon bei vormenschlichen Primaten möglich ist. Dies besagt, dass Assoziationen zwischen begriffsähnlichen Merkmalssätzen und in gewissem Sinne von Zeichen möglich sind. Aber sie werden nie spontan, nie aus eigenem Antrieb gebildet. Und man weiß auch nicht, warum dieses kommunikative Defizit über die ganze Evolutionsgeschichte bis zum Menschen hin als Barriere erhalten geblieben ist. In ihrem Hirnaufbau in der Nähe des Innenohres ist (vor allem linksseitig) das Planum temporale ausgebildet. Aber es bleibt bei allen vormenschlichen Primaten bei Reizung stumm.

761

Erst beim Menschen ist in dieser Region Aktivität während des Sprachverstehens nachweisbar. Das Planum temporale wird schließlich zum Epizentrum der Wortspeicherung und des elementaren sensorischen Wortverstehens. Es müsste auf chemo- oder elektrophysiologischem Wege geprüft werden, ob während des lautlichen Worttrainings auch beim Schimpansen neuronale Spurenbildungen in diesem Bereich nachweisbar sind. Es gibt verschiedene Gründe anzunehmen, dass erkennende neuronale Netze für das Verstehen von Lautbedeutungen mit den frühen Hominiden, vielleicht sogar in der Spätzeit der Australopithecinen entstanden sind (vgl. auch Jürgens in diesem Band). Homo habilis jedenfalls dürfte über die ersten Formen lautlicher Verständigung und damit über die Anfänge einer Protosprache verfügt haben. Ein Stimulus in dieser Richtung war wohl der Zwang zu weiträumigeren Zügen und damit zur Kommunikation über Ziele bei zu koordinierenden Unternehmungen. Wir haben an anderer Stelle begründet, dass der Zwang zu weiträumigen Zügen stark durch Nährstoffmangel in den Dürreperioden der Eiszeiten bedingt war (Klix, 1999). Savannengras und dürre Buschbestände sind energiearm. Es entsteht ein Teufelskreis: Energiearmut zwingt zu weiträumigerem Suchen nach Nahrung. Fernere Ziele und Heimfinden zur Lagerstatt erfordern Lernleistungen aufwendiger Art, insbesondere die Koordinierung des Verhaltens. Das sind alles energiekonsumierende Vorgänge, die vom Gehirn aus gesteuert werden. Das Hirnvolumen nimmt während der Eiszeiten um mehr als das Dreifache zu. Das Gehirn ist der stärkste Energiekonsument des menschlichen Körpers. Sein Wachstum verstärkt den Bedarf, sprich: den Hunger nach Energieträgern. Phosphor wird zur Sättigung gebraucht. Phosphor baut den Energiespeicher auf und bildet den Energielieferanten für den gesamten Körper. Der Schlüssel ist das ATP, das Adenosintriphosphat. Und das befindet sich bevorzugt im Knochenmark und im Hirn von Wirbeltieren und speziell von größeren Säugern. Der Zugang zu einem Gazellenoder Zebraknochen, die Öffnung eines Wisent- oder Flusspferdschädels, dafür ist die Muskelkraft der frühen Hominiden zu gering. Es entsteht dringender Bedarf nach einer Kraftverstärkung der Hand. Sei es durch Zufall gefunden oder durch Probieren, die Wirkungsverstärkung der Hand wird erreicht

762 durch den kraftvollen Zuschlag mit einem Stein. Je nach dem Aussehen und wohl auch nach dem Wirkungsgrad werden im Laufe von Jahrhunderttausenden verschiedene Kulturen unterschieden. Abbildungen 55.6 a, b und c zeigen Verfeinerungen dieser frühen Gerätschaften; a nach dem Olduwan, b nach dem Acheule´en benannt und c als Mouste´rien bezeichnet.

Abb. 55.6: Vier Werkzeugkulturen, die unterschiedliche Entwicklungsstufen anzeigen. a) Charakteristische Oldowan-Werkzeuge. Schlagsteine dieser Art dienten vor allem der Wirkungsverstärkung der menschlichen Hand beim Öffnen von Knochen oder Schädelkapseln, vielleicht auch beim Schaben und Schürfen. Diese Zuschlagtechnik weist auf eine mehr zufällige Abfolge der Schläge hin. b) Diskusform der Acheule´en-Technik. Der Zubereitung des Steines hat gewiss eine Zielstellung für Aussehen und Eignung des Endprodukts zugrunde gelegen. c) Abschlagtechnik des Mouste´rien: Von einem Flintkern wird ein Stück Stein abgeschlagen, dessen Kanten und Oberflächen danach bearbeitet, speziell retuschiert werden. d) Konstruktive Technik im Neolithikum. Heterogene Handlungsprogramme realisieren Teilziele, deren Kombination zu einem Funktionsganzen ein neues Konstruktionsprinzip erkennen lässt. Ein hierarchisch gegliederter Handlungsaufbau zeigt strukturelle Verwandtschaft mit der generativen Struktur einfacher Sätze einer natürlichen Sprache (s. Abbildung 55.5, Nr. 7).

VI. Spracherwerb

In diesem Zeitraum zwischen etwa vor 1,8 Mio Jahren und vor 700 000 dominierten in den weiträumig und eher ab und an besetzten Arealen die Homo-erectus-Formen. H. erectus war der große Wanderer. Sein Typ überbrückte wiederum über die Jahrzehntausende die Distanzen zwischen dem Südosten Afrikas und dem heutigen Georgien, dem Osten Chinas und der Kaschmirregion im Norden Indiens und am Himalaya. In diesem Zeitraum wurde zwar das Werkzeug verbessert, aber was die technologischen Fortschritte der Herstellung betrifft, so waren sie vergleichsweise gering. Da ergibt sich die Frage, wobei denn die verstärkte Leistungsfähigkeit des größeren Gehirns eigentlich wirksam geworden ist. Parallel zu Bickerton (1996), aber unabhängig von ihm, haben wir schon vor längerem die Hypothese begründet, dass es bedeutsame Verbesserungen in der Organisation sozialen Verhaltens gegeben haben muss. Das betrifft die Orientierung, das Zielefinden, den Bau größerer Fallen, insbesondere aber die zwischenmenschliche Koordination von Aktivitäten während einer Großwildjagd. Besonders diese letzte Leistung ist ohne vorbereitende Organisation und zugehörige Verhaltensabstimmung nicht möglich. Keine Jagdsituation auf Großwild ist wie die andere: das Gelände, das Verhalten der Beutetiere (auch die lernen, geschickter zu fliehen oder anzugreifen und zu kämpfen), und kein Jagdkumpan ist wie der andere; man muss sich variabel auch aufeinander einstellen. Hier sich flexibel vorzubereiten, das fordert gewiss auch ein gerüttelt Maß an Intelligenz heraus. In dem Maße, wie man darüber verfügt, handelt man Gruppenvorteile ein. Die intelligentere Strategie sichert Nahrungs- und schließlich auch Überlebensvorteile. Letztlich gehört dazu auch eine flexible, eine den Situationen anpassbare Gefügigkeit der Kommunikationsmittel. Dafür hat sich die Nutzung lautlicher Formbildungen angeboten, und zwar über die Modulation der Atemluft. Mit ihr konnten Gesten unterstützt, Zeigeformen der Hände lautlich begleitet, Mimik oder Pantomimik verweisend gebildet und in den Dienst eines Unternehmens gestellt werden. Die schier unendliche Vielfalt der menschlichen Stimmgebung ließ einen entsprechenden Variantenreichtum des Mitteilbaren zu. Keine andere Kundgabeform ermöglicht dieses Volumen an übertragbarer Information. Schließlich ist ja auch die spätere Wahl der alphabetischen Schrift eine Art eingefrorener Lautbildung. Abbildung 55.7

55. Phylo- und Ontogenese sprachlicher Kommunikation

zeigt, dass in den zu betrachtenden Zeiträumen auch in der grafischen Gestaltung analoge, tiefgreifende Veränderungen zu beobachten sind (vgl. die Legende zu Abbildung 55.7)

Abb. 55.7: Evolutionsstufen zeigen sich auch in grafischen Gestaltungen. a) Zeichnungsresultate eines Schimpansen (Bonobo noch ganz ohne Symmetrien), b) eine Grafik aus Bilzingsleben (ca. 300000 Jahre alt); man beachte hier die frühe Form von symmetrischer Gestaltung. Sie ist eine wesentliche Basis ästhetischer Wirkungen, und zwar nicht nur in der zeichnerischen Gestaltung, sondern ebenso in der Musik oder beim Tanz, in der Rhythmik wie in der Melodieführung, und zwar bis auf den heutigen Tag. c) Grafik aus einer der altsteinzeitlichen Kulturen, der Vogelherdkultur aus Südwestdeutschland. d) Zwei neolithische Szenen voller dynamisch ästhetischer Gestaltungskraft. Man beachte, dass von Grafik b an die Gestaltung auf der Kombination von Teilstrukturen beruht. Die hierarchische Ordnung steht auch hier im gedanklichen Hintergrund. (d: Tänzer im Tierfell, Les Trois Fre`res, Frankreich).

Woher kam nun die Erzeugung und Nutzung dieses ungeheuren Variationsreichtums? Bloß von den Möglichkeiten der Lautvariationen her? Wohl kaum. Die Wahrnehmnung hatte seit altersher die erkennungsrelevanten Invarianzeigenschaften der Gegenstände, statische oder dynamische vermittelt. Ihre Assoziation mit Lautbildungen wurde zum Signal für Zusammengehörigkeit bei Gefahr, für Nahrung, für Beute,

763

für Kommen oder Gehen. Die Möglichkeit, solche Assoziationen zu bilden, war längst gegeben. Aber sie wurde jetzt, auf den weiträumigen Zügen nach Nahrung, von kommunikativen Zwängen und Zwecken angefordert. Die Lautbildung wurde in soziale Zielbildungen eingebettet, und sie ging von da an eigene Wege. Das lässt sich von allgemeinen Lerngesetzen her rekonstruieren. Die Verfeinerungen von Klassenbildungen entstehen durch die Differenzierung von Objektmerkmalen bzw., was dasselbe ist, durch die Bildung von Unterbegriffen. Der Ruf eines sehr jungen oder eines sehr starken Beutetieres unterscheiden sich ebenso wie die Furcht vor Feinden oder vor einem Unwetter. Solche Unterschiede der Lautbildung einzuverleiben, das liegt noch im Leistungsbereich einfacher, modifizierender Lautierungen (Markl, 1996). Die Variation von Lautgestalten wird dabei implizit zur Benennung spezifizierter Merkmalssätze für Begriffe genutzt. Es war dies wahrscheinlich eine der frühesten Formen produktiver Wortbildungen für einen erweiterten Begriffsschatz. Er findet seinen Niederschlag in gruppenspezischen Gedächtnisinhalten – der frühesten Basis gruppenspezifischer Dialekte. Vom Anatomischen her dürfte dies einer Verfeinerung erkennender Nervennetze im Bereich des Planum temporale entsprochen haben. Eine zumeist zugehörige Verhaltenseinstellung müsste in das Gebiet des Sulcus präcentralis weitergeleitet worden sein. Für beide Regionen waren die anatomischen Vorstrukturierungen vorhanden. Sie werden mit diesen Lernvorgängen aus ihrer unspezifischen Funktionslosigkeit herausgehoben. Was die Begriffe betrifft, so hatten wir zwei veschiedene Klassen unterschieden. Eine Klasse, die durch einfache Merkmalssätze beschrieben wird, und eine zweite, Ereignisbegriffe genannt, die ein Geschehen klassifiziert, wie etwa werfen – Treffen oder treffen – Speer oder treffen – tot. Was wir begründen möchten ist, dass eine Verkettung einfacher Benennungen bereits bei Tripeln von Wortbegriffen einen Geschehenshergang auszudrücken gestattet. Wir vermuten, dass auf diese Weise die früheste Struktur einer Protosprache entstand. Es war, so die später noch wahrscheinlich zu machende Vermutung, eine Art S-V-O-Sprache, bestehend aus Handlungsträger (als späterem Subjekt), aus einem semantischen Kern (dem späteren Verb) und einem Rezipienten oder (begrifflichen) Objekt als (grammatischem) Objekt.

764 Homo erectus, der große Wanderer über tausende von Kilometern (natürlich zumeist nicht in der gleichen Generation), kam auf seinen Zügen zum organisierten Gruppenhandeln. Bei Jagden war festzulegen: wer tut was; Feuer legen zum Einkesseln starker Wildtiere, zum Töten, Zerlegen, Zu- oder Aufteilen – alles Aufgaben, die nicht mit der Organisation eines Mückenschwarms zu erfüllen sind. Ohne koordinierende Verständigung ist solche unerlässliche Arbeitsteilung nicht möglich. Die Verkettung von Benennungen für verschiedene Rollen oder Funktionen, seien es Akteur, Objekt oder Rezipient oder der Vorgang selbst, scheint für die frühen Verständigungsformen ausgereicht zu haben. Es gibt eine Parallele dazu, und zwar im Werkzeug. Das späte Oldowan bis hin zu Acheule´en und Mouste´rien beruht auf einer weitgehend identischen Fabrikationsart. Sie beruht auf der Verkettung von Zuschlägen. Wir haben sie linear rekursive Aktionsfolgen genannt und damit sagen wollen, dass der jeweils folgende Schlag am Resultat des vorhergehenden angreift, und zwar gezielt. Wie wir an anderer Stelle (Klix & Lanius, 1999) eingehend dargelegt haben, ändert sich diese Produktionsweise mit der Eem-Warmzeit grundlegend. Zeugnisse dafür sind die zahlreichen Mikrolithe, die an Ufern versandeter Seen oder Flussbetten im Süden Algeriens, im Südwesten Ägyptens und in Gebieten der heutigen Sahara gefunden wurden und werden. Diese Mikrolithe sind Zeugnisse einer kombinatorischen Konstruktionstechnik. Sie unterscheidet sich qualitativ von der linear-rekursiven Zuschlag- oder Abschlagtechnik, wie wir sie vom Acheule´en bis zur Neandertaltechnik im Mouste´rien gefunden haben. Abbildung 55.6d zeigt eine Art Grabeaxt mit Stiel, eingelegtem Geweihstück und verkeiltem Mikrolith als Zuschlag- oder Grabespitze. Es gibt auch Exemplare, bei denen die Steinspitze durch Hanf mit einem Stiel verbunden und mit Harz verklebt ist. Was ist nun anders als das, was wir in Abbildung 55.6c als besonderes Ergebnis des Mouste´rien betrachteten? Nun, jedes Teilstück konnte für sich mit linear-rekursiver Technik hergestellt werden. Neu ist die Kombinatorik der Ergebnisse der Teilprogramme und der hierarchische Aufbau in der Abfolge der Teilschritte; d. h. die Abwicklung von Unterprogrammen, die wiederum Unterschritte in sich einschließen können, und das möglicherweise in mehreren Stufen. Solche kombinatorisch konstruierte Gerätschaft wurde nach dem Ende

VI. Spracherwerb

der Eem-Warmzeit und während einer neuen Warmzeit mit den Zügen der dort entstandenen Neumenschen mit nach Norden gebracht, nach Süd- und Südwesteuropa, wo sich die berühmten Höhlen des Neolithikums befinden. Sie sind zum Teil noch heute in Süd- und Nordspanien zu besichtigen, in Portugal, Südfrankreich im Rhoˆne- und im südlichen Rheingebiet. Eine ganz analoge Kombinatorik von Unterprogrammen in der Handlungsausführung findet man auch in der grafischen Gestaltung. Abbildung 55.6d zeigt charakteristische Züge neolithischer Grafiken. Auch hier finden wir eine Kombination von Unterprogrammen, deren Zusammenfügung zu einem für sich neuen ästhetischen Gesamtbild führt. Es ist jetzt für unsere Darstellung wichtig, zeigen zu können, dass auch der Aufbau eines neuen Typs sprachlicher Strukturbildungen homolog, das meint: aus dem gleichen Denktyp, resultierender Strukturbildungen folgt. Abbildung 55.5 (7) unten zeigt danach das Schema einer neuzeitlichen sprachlichen Aussage. Eine mögliche Szene aus den Zeiten des Neolithikums ist als Beispiel genommen: Ein Mann trifft einen Bären mit dem Speer. Der ereignisbegriffliche Hintergrund (Abbildung 55.5 oben) soll in eine sprachlich eindeutige Aussage überführt werden. Man sieht an dieser, der Chomsky-Darstellung nachempfundenen Schreibweise deutlich, dass die Begriffs-Satzbrücke in der Chomsky-Theorie nicht geschlossen worden ist. Die von Chomsky herausgearbeiteten Regeln der Wortbindungen beruhen nicht auf der begrifflichen Führung des bedeutungshaltigen Hintergrundes einer Mitteilung, sondern auf grammatisch zulässigen Wortverbindungen. Um Bedeutungen zu vermitteln, brauchte man Vorstellungen über Begriffsstrukturen und deren Vernetzungen mit Worten zu Bedeutungen im menschlichen Gedächtnis. Aus welchen Gründen auch immer, es ist versäumt worden, eine solche Theorie zu entwickeln (vgl. Chomsky, 1988; Pinker, 1996). Der uns einzig bekannte, aber viel zu statische Versuch in dieser Richtung stammt von Jackendoff (1992: 23). Wir versuchen nun, die bisher entwickelten Vorstellungen unter evolutionpsychologischen Gesichtspunkten anzuwenden.

5.

Eine Hypothese

Wir gehen davon aus, dass die Studien an Primaten keinen strikten Nachweis darüber erbracht haben, dass vormenschliche Prima-

55. Phylo- und Ontogenese sprachlicher Kommunikation

ten in der Lage waren, die Kerne einer natürlichen Sprache zu entwickeln. Sie können Zuordnungen zwischen Symbolen und Wortbedeutungen sowie Verkettungen dazwischen auf assoziativem Wege erlernen. Das beruht auf elementaren Nervenzellfunktionen. Aber weder bilden sie solche Assoziationen spontan noch kombinieren sie von sich aus bedeutungshaltige Verknüpfungen im Sinne von Permutationen der Elemente. Und was das Wichtigste ist: Es gibt keinen bezeugten Versuch dahin, dass vormenschliche Primaten von sich aus versucht hätten, einen Dialog zu beginnen oder auch nur eine echte Frage an ihren ‘Trainer’ zu stellen. Da solche Leistungen nach so langer Evolutionszeit nicht entstanden sind, können wir wohl davon ausgehen, dass dies auch in vormenschlichen Evolutionsperioden nicht geschah. Unsere Vermutung geht dahin, dass dialogische Kommunikation mit dem Wissen um Objektbedeutungen und der zugehörigen Verwendung lautlicher Symbole entstanden ist. Das muss spätestens zur Zeit der frühen Habilinen eingetreten sein. Sie mussten aus ernährungsphysiologischen Gründen wandern, jagen, und sie waren auf kooperative Aktivitäten angewiesen. Das erzwingt Kommunikation. Zunächst über einfache Objekteigenschaften. Der große Wanderer, wie wir sagten, Homo erectus, muss aus Gründen seiner Jagdtechniken eine Art Protosprache besessen haben. Das waren sehr wahrscheinlich elementare Wortverkettungen, analog den rekursiv-linearen Zuschlag- und Abschlagtechniken bei der Werkzeugherstellung. Die Natur und ihre Erscheinungsbilder waren damals beschaffen wie heute. Und die Großwildjagd, die H. erectus praktizierte, erforderte Verständigung. Die Frage ist, worüber? Wir glauben, wenigstens über dies: Wer macht oder tut was mit wem. Handlungsträger, Rezipient und ebenso auch das Was (tut was?). Das sind die Wurzeln einer späteren Hochsprache: Der Handlungsträger wird zum Subjekt, das TUN zum Verb und der Rezipient zum Objekt. Pinker (1996) u. a. nennen das eine S-V-O-Sprache. Wir mischen uns hier aber nicht in die Diskussion um die SV-O-Sprachen ein, sondern stellen (wiederum nach Pinker u. a.) fest, unter den vielen untersuchten Sprachen ist keine gefunden worden, in der diese Komponenten nicht ausdrückbar wären. Das ist auch kein Wunder, denn die Welt um uns als Bilderfügungen wie als Gegenstand aktiven menschlichen Handelns ist so aufgebaut, dass irgend etwas geschieht

765

oder dass irgend wer mit etwas anderem etwas tut. Wir gehen im Weiteren davon aus, dass Homo erectus diese Art von S-V-O-Kombinationen beherrschte, sie vielleicht da und dort durch eine schlichte Objektverfeinerung, durch benannte Merkmale attribut- oder adjektivähnlich, ergänzte, aber zumeist doch einfach verkettete Objektbenennungen benutzte. Einige Gründe für diese Annahme werden wir sogleich beibringen. Der qualitative Wandel im Werkzeugdenken, wie er im Laufe der Eem-Warmzeit in einem Zeitraum von 50–60 000 Jahren stattfand, lässt auf eine kombinatorische Gestaltung von Teilprogrammen in Denkvollzügen schließen. Strukturiertes Kombinieren führt zu hierarchisch aufgebauten Denkhandlungen. Dieses denkende Handeln erschließt die Rolle der in Abbildungen 65.4 und 65.5 dargestellten semantischen Relationen; mit ihnen das Zuerst und das Danach, das Damit und das Wof¸r, das Wo und das Wohin, das Wozu und das Warum. Die Eigenschaften der Objektbegriffe liegen seit langem benennbar fest. Die Verknüpfung ihrer Eigenschaften zu einem wohlbestimmten Zweck hin mitteilbar verfügbar zu haben, das führt zu einer flektierenden Hochsprache; allmählich sich verfeinernd, sicher, aber darauf kommen wir noch zurück. Mit dieser Denkausstattung dürften die frühen Cro-Magnon-Menschen mit der vor ca. 110 000 Jahren einsetzenden neuen Kaltzeit nach Südeuropa gekommen sein. Es sind danach in der Evolutionsgeschichte der Hominiden zwei große Zeitrahmen entstanden, in denen sich Sprachevolution ereignet hat. Sowohl zur Begründung unserer Vermutung als auch zur Differenzierung dieser noch sehr groben Vorstellung wollen wir die so vorgelegte Hypothese etwas entfalten und durch einige Fakten etwas überzeugender gestalten. Wir tun dies unter fünf Aspekten: Einem pseudogenetischen Aspekt, einem ontogenetischen, einem evolutionsbiologischen, einem psycholinguistischen und einem phonemisch-linguistischen; wobei die Grenzlinien nicht scharf zu ziehen sind. 5.1. Über genetische Drift Zunächst zum genetischen Hintergrund. Forschergruppen untersuchen derzeit Unterschiede in den Nukleotidketten der DNS bei Angehörigen verschiedener Völkerschaften. Man geht davon aus, dass genetische Isolierungen zu Einschränkungen im Genaus-

766 tausch führen. Eine Arbeitsrichtung untersucht nicht die DNS der Zellkerne, sondern die DNS in den Mitochondrien der Zelle. Sie besitzen ein eigenes Genom, das nur 37 Gene umfasst und das wahrscheinlich aus der Endosymbiose mit einem Prokarioten hervorgegangen ist. Der hat dabei die eigene Vermehrungsfähigkeit eingebüßt (Margulis & Sagan, 1997). Es liegt ein weiterer Sonderfall vor: Bei der Befruchtung bleiben die Mitochondrien der männlichen Samenzelle außerhalb der weiblichen Eizelle. Sie spielen daher bei der weiteren Entwicklung des Embryos keine Rolle. Alle Mitochondrien und somit auch alle in ihnen befindlichen Gene stammen aus einem mütterlichen Erbgang. Mikromutationen, die phänotypisch kaum bemerkbar sind, unterliegen auch nicht oder kaum einem effektiven Selektionsdruck der Umwelt. Da diese Mutationen weitgehend Ergebnis von autonomen Zufallsprozessen sind und sich ja jeweils nur innerhalb einer im Genaustausch befindlichen Population vererben, ist die genetische Verschiedenheit zweier Populationen ein ungefähres Maß für die Zeitspanne, über die hinweg sich ihre Mitglieder getrennt fortgepflanzt haben. Hat man Zeitabschätzungen für bestimmte Mutationsraten, so lässt sich gedanklich so etwas wie eine molekulare Uhr konstruieren. Im Sinne einer Nulleinstellung für die Zeiteichung bietet sich die Differenz des Genoms zwischen Schimpanse und Mensch an. Die bestehenden Unterschiede wurden in einer zeitlichen Distanz von etwa 5 bis 6 Millionen Jahren bewirkt. Danach kann man die Differenz in Intervalle aufspalten. Allgemein besteht Übereinstimmung darin, dass in Süd- und Südostafrika die älteste mitochondriale DNA anzutreffen ist. Generell scheint es auch dahin Übereinstimmung zu geben: Die genetischen Wurzeln der Menschheit zeigen nach Afrika. In guter Übereinstimmung mit anthropologischen Daten finden wir die höchste Vielfalt der Genausstattung in Bewohnern des heutigen Zaires, Äthiopiens und Kenias; kurz, also dort, wo auch die frühesten anthropologischen Funde gemacht wurden. Uns interessierende Zeitschätzungen führen zu dem Ergebnis, dass vor 120 000 Jahren eine bedeutsame Populationstrennung stattgefunden haben muss. Die vorgelegten Untersuchungen weisen darauf hin, dass Homo sapiens sapiens vor 150⫺100 000 Jahren einen gemeinsamen Ursprung in Afrika hatte. (Der Streit um diese These dauert allerdings noch an, wenngleich zunehmend mehr Paläo-

VI. Spracherwerb

anthropologen diesen Standpunkt einnehmen. Eine Diskussion dazu findet man bei Wilson & Cann, 1992; Thorne, 1992.)

6.

Das Genom und die Sprachen

Wenn sich größere Menschengruppen von Stammverbänden lösen, im allgemeinen Sinne also abwandern, so tun sie das natürlich auch mit ihrer Sprache. Der Zwang zur gegenseitigen Verständigung innerhalb der Gruppen bleibt, er nimmt in unbekannter Umgebung womöglich noch zu, aber er schwindet zwischen den Gruppen. In Analogie zur genetischen Aufspaltung kann man so vermuten, dass mit zunehmender Zeit auch die Lautbildungen gegenüber der Ursprungsund Ausgangssprache verändert werden, dass beide Sprechweisen auseinanderdriften. Mit Hilfe einer hierarchischen Clusterung kann man einen Trennungsgrafen konstruieren, der die zeitlichen Distanzen des Auseinanderdriftens bei langdistanten Wanderungen erkennen lässt. Alle vier Ebenen, die lautlich-phonetische, die bildliche oder die begrifflich-semantische wie die grammatisch-kombinatorische sind unterschiedlich widerstandsfähig gegenüber der Zeit. Am empfindlichsten und am raschesten Änderungen unterworfen ist die lautlich-benennende Ebene. Räumliche Trennungen führen rasch zu Dialekteinschlägen. Begegnungen mit Menschengruppen anderer Sprache führen zu Eingemeindungen fremder Ausdrücke, zur Übernahme von Lautgebungen, zu Angleichungen im Sprachmelos. Da in den langen Zeiträumen der Evolution immer wieder Trennungen von Stämmen oder Völkergruppen eingetreten sind, kann man hoffen, aus der Fremdheit von Sprachen etwas über die (relative) Dauer der Trennung von einer ursprünglich gemeinsamen Muttersprache zu erfahren. Dies lässt sich nun auch mit der soeben betrachteten genetischen Drift in Beziehung bringen (Renfrew, 1995). Dabei erscheint prüfenswert, ob sich die geschätzten Trennungszeiträume mit sprachlichen Verschiedenheiten zwischen wohlbestimmten Regionen in Beziehung bringen lassen. In einer davon unabhängigen Untersuchung hat Cavalli-Sforza (1992) einen zeitlichen Trennungsgrafen dargestellt (Abbildung 55.8). Man sieht, wie vor ca. 150 000 bis 100 000 Jahren der Weg des frühen Homo sapiens sapiens über die Suez-Enge nach Norden gewählt oder besser: erzwungen

55. Phylo- und Ontogenese sprachlicher Kommunikation

wurde. Der üppige Pflanzenwuchs schwand, die jagbaren Tiere zogen mit ihren Weidegründen und die Menschen mussten ihnen folgen.

Abb. 55.8: Nach Genomunterschieden berechnete Zeiträume von Wanderungsbewegungen frühmenschlicher Bevölkerungsgruppen. Danach liegt die Quelle einer universellen Ursprungspopulation bei der Neumenschenbildung vor ca. 120 000 Jahren. Die genetischen Distanzen in der Zusammensetzung der Genome rezenter Gruppen werden auf zeitliche Distanzen projiziert.

Wir haben eine relativ hohe Bevölkerungsdichte während dieser üppig-fruchtbaren Warmzeit an den Seen und Flussufern im mittleren und nordöstlichen Afrika mit der Ausbildung sprachgebundenen Denkens in Beziehung gebracht. Das war allem Anschein nach mit einem sozial-organisatorischen und technologischen Schub verbunden. Er wirkte sich als Überlegenheit aus, wo immer die Einwanderer auf Einheimische stießen. Zwischen 30 000 und 18 000 etwa sind Spanien, die Pyrenäen, Südfrankreich, England und die südlichen skandinavischen Regionen von Homo sapiens „eingenommen“ worden. Wie kann man sich nun die entstehende Parallelität zwischen genetischer und lautsprachlicher Verschiedenheit vorstellen? Kann man danach vermuten, dass die Lautstruktur einer Sprache genetisch determiniert ist? Wohl kaum. Die Korrelation zwischen den so verschiedenen Phänomenen rührt wahrscheinlich daher, dass es sich um die Weitergabe von Information über die Generationen hinweg han-

767

delt und dass diese Weitergabe mit Veränderungen behaftet ist, die sich über die Zeit summieren, aber nicht auslöschen (vgl. Abbildung 55.8). Und noch eins ist beiden Phänomenbereichen gemeinsam: Die weiterzugebende Information verändert sich zunehmend, wenn der Kontakt zwischen den Generationen bleibend unterbrochen wird. Das kann im Besonderen durch geografische Trennung geschehen. Dabei muss man nicht an große Hindernisse wie Gebirgsmassive mit abgeschiedenen Tälern denken (wie bei den ‘zerklüfteten’ kaukasischen Sprachen oder an Trennungen von Populationen durch Inseleruptionen wie in Ozeanien. Jeder zunehmende räumliche Abstand vermindert parallel zur Sprache auch die Austauschhäufigkeit des ursprünglichen Genbestandes. Er erhöht damit die Wahrscheinlichkeit des „Wegdriftens“ zwischen beiden ‘Informationspools’. Diese Tendenz wirkt wahrscheinlich (und im Mittel) ziemlich gleichmäßig mit der räumlichen Distanz, vor allem aber mit der Zeit. Die entstehenden Differenzen erlauben es so, die Zeiträume der Trennungen abzuschätzen. Dennoch fällt auf, dass diese Schätzungen doch sehr unterschiedlich, um nicht zu sagen: ungenau sind. Das kann nicht verwundern, denn der Gleichlauf von Änderungen bei Genbestand und Sprechkultur ist von zahlreichen Störfaktoren beeinflusst. Darin zeigt sich auch der essentielle Unterschied zwischen beiden Phänomenbereichen: Sie sind unahängig voneinander störbar. So z. B. oft in der Geschichte, wenn eine ethnisch verbundene Sprachgemeinschaft von fremden Stämmen überwunden wird. Sie können als Eroberer den Einheimischen eine neue Sprache aufzwingen. Oder sie können, weil nicht selten auch sozial überlegen, nachgeahmt werden. Beides berührt die Weitergabe der genetischen Ausstattung der ursprünglichen Bevölkerungsgruppe nicht. Oder doch wesentlich schwächer, wenn man an einen Verpaarungsvorteil der Überlegenen denkt. Einen solchen Überdachungsfall haben wir vermutlich im Ungarischen. Dort spricht man seit den Einfällen und Eroberungen finnougrischer Reitervölker im 9. Jahrhundert magyarisch. Genetisch sind die Ungarn Europäer. Dennoch ist es bis heute möglich, auch in ihrem Erbgut noch magyarische Reste nachzuweisen. Oder: Die Sprache der nordskandinavischen Lappen gehört zu den uralischen Sprachen. Doch genetisch sind die Lappen stark von den indoeuropäischen Be-

768 wohnern Skandinaviens und von noch älteren sibirisch-mongolischen Einflüssen geprägt. Diese Mixtur zeigt sich übrigens auch in den Haut- sowie Haarpigmentierungen der Lappen noch heute. Die einen wirken mehr mongolisch mit schwarzem Haar, gelblicher Hauttönung und mandelförmigen Augen, andere sind blond, blauäugig und mit relativ weißer Haut ausgestattet. Aus der Geschichte wissen wir um die Einflüsse elitärer Sprachkulturen. So z. B. wenn eine Oberschicht eine alte, ausgestorbene Sprache zur sozialen Abschottung bevorzugt. Das Altsumerische blieb im babylonischen Kulturkreis Gelehrtensprache, als es die Rolle als Umgangssprache nach Eroberungen der Akkader längst eingebüßt hatte. Sumerisch wurde auch im sakralen Bereich gepflegt, und heilige Texte wurden noch viele Jahrhunderte in Keilschrift verfasst. Alte Alltagsformen dringen in solchen Zeiten als vornehme Fremdworte in die Umgangssprache ein. Auch das Lateinische hatte im ausgehenden Mittelalter eine ähnliche Rolle. Und so gibt es weitere Beispiele als Belege dafür, dass sozial-kulturelle Einflüsse zu Trennungen zwischen autonom sich vererbender genetischer Ausstattung und den tradierten Sprachformen führen. Und man denke an das Französische an den europäschen Fürstenhöfen im 18. und 19. Jahrhundert sowie an alle Nachahmer in niedereren Schichten. Das relativ unabhängige Nebeneinander von Änderungen in der Lautsprache und in der Erbausstattung ist dennoch nicht ohne gegenseitige Einflussnahme. Veränderungen in den sprachlichen Mitteilungsformen können Verständigung behindern. Dadurch können auch um die Kulturen Barrieren entstehen, die Verpaarungswahrscheinlichkeiten senken und das Wegdriften von Genausstattungen verstärken. Kurzum: Die schwache Parallelität zwischen Gendrift und Sprachentrennung wird auch durch sozio-kulturelle Faktoren beeinflusst. Vielleicht ging die anzunehmende genetische Trennung zwischen den Menschen vom Primitivsprachler des Neandertaltyps und dem grammatisch feineren Homo sapiens sapiens auch mit sprachlicher Ausdrucksfremdheit einher. Das würde unserer Vermutung über die bei H. neanderthalensis noch fehlende Brücke zwischen dem (intakten) Wernicke-Zentrum des Wortverstehens und dem Steuerungszentrum für die grammatischen Transformationen in Sprachstrukturen entsprechen.

VI. Spracherwerb

7.

Zur Ontogenese der Sprachentwicklung

Noch immer nötigen einem die Klassiker der ontogenetischen Sprachentwicklungsforschung, allen voran W. Stern (1952) und K. Bühler (1930), Respekt ab angesichts der Fülle tiefgründiger Ideen, die sie ins Licht der Sprachpsychologie gerückt haben. Dabei zeigt sich auch hier eine durchgehende Gesetzmäßigkeit, deren innere Begründung erst heutzutage mit dem Blick auf die kognitive Psychologie der Gegenwart gelingt. Die erzielte Übereinstimmung besteht darin, dass eine wohldefinierte Leistungsdimension um so später erreicht wird, je komplexer der kognitive Aufwand bei der Spracherzeugung ist. Darauf kommen wir zurück. Sprache beginnt, so W. Stern (1952: 131), wenn Laute im Bewusstsein ihrer Bedeutung und mit der Absicht der Mitteilung geäußert werden. Und, so Bühler (1930: 221) dazu, wenn die Nennfunktion der Worte mit dem Wissen darum erfasst ist, dass jedes Ding einen Namen hat. Die Anfänge des möglichen Spracherwerbs liegen jedoch wesentlich früher. Sie beginnen mit der Beachtung von Regularitäten in der Lautbildung (Bruner, 1974) und mit der Unterscheidung von Phonemsequenzen – oder genauer: von charakteristischen phonologischen Ketten. Bei diesen und anderen Hinweisen aus der Literatur beziehen wir uns auf einen aspektreichen Literaturbericht von H. Grimm (1995). Mittlerweile kann, wie erwähnt, als ausgemacht gelten, dass auch die hochentwickelten Schimpansen trotz aller beeindruckenden Trainingseffekte keine Vorsprache zur menschlichen Hochsprache entwickeln können. Hineininterpretationen und Selbsttäuschungen sind mittlerweile ausgiebig diskutiert worden (Pinker, 1996). Die humane Hochsprache ist ein sehr komplexes, komponentenreiches Gebilde, das man nicht auf die schmale Schnur einer Basiskomponente reduzieren kann. Alle Bewunderung für einen schnellen Spracherwerb beim Kinde lässt doch außer Acht, dass das komplizierteste Organ des Menschen, sein Gehirn, doch mehr als sieben Jahre braucht, um alle Dimensionen der menschlichen Vollsprache im Griff kommunikativer Gedankenführung zu haben. Als Komponenten können unterschieden werden: die Laut- (Phonem-), Wort- und Satzverkettungen, der Worterwerb in Verbindung mit dem Begriffserwerb und der Be-

55. Phylo- und Ontogenese sprachlicher Kommunikation

griffsverwendung in Lautbildung und Zeichengebung, die Konversation und die Diskursgestaltung (vgl, dazu insbesondere Herrmann & Grabowski, 1994). Für den Spracherwerb beim Menschen scheint es biologische Vorprägungen, eine Art Empfangsbereitschaft für den Wort-Begriffserwerb zu geben. Nach dem 18. Lebensmonat wird in kurzer Zeit ein erheblicher Wortschatz erworben. Man spricht von einer ‘Benennungsexplosion’, nachdem die magische Grenze eines 50 Wörter-Wortschatzes erreicht ist. In wenig mehr als 3 Monaten erweitert sich dieser Wortschatz häufig auf über 200 Wörter. Zur kommunikativen Quelle wird das erste Fragealter. Es ist charakterisiert durch den Fragetyp ‘isn das?’. Die Regelmäßigkeit dieses Vorgangs weist auf eine genetische Vorstrukturierung hin und bezeugt, dass bis dahin brach gelegene und nun durch Reifung funktionsfähige Nervenzellgruppen nach Worten als Wissenselementen verlangen wie der hungrig gewordene Magen nach Nahrung. Es kommen die ersten Verbfunktionen hinzu: ‘Mamam Atta; Atta (⫽ Weglaufen) TuTu.’ Das frühe nominale Substanz- wird vom verbähnlichen ‘Aktionsstadium’ (Stern) ergänzt. Das geschieht oft vom Eigennamen aus: ‘Ati (Beate) Mamam’, ‘Ati Tuhl’ (Beate will auf den Stuhl) oder von der Mutter her: ‘Mama Mamam, Mama Tuhl’. Merkmale werden ergänzend hinzugezogen: ‘Opa g(r)oß, Mimi(Küken)tlein(klein)’. Adjektive werden zunächst ohne Beugungen im Positiv verwendet. Mit solchen Adjunktionen entsteht die erste Begriffstaxonomie. Über Hinzufügungen von Merkmalen in Form von Affixen werden unterbegriffsähnliche Ausgliederungen wie ‘Ata-Schuhe’ (Ausgehschuhe) oder ‘Ata-Tür’ (Hausausgangstür) gebildet. Sehr frühe Wortbildungen haben einen sehr hohen Allgemeinheitsgrad (‘Ei-Ei’ für alles Weiche, dann für alle Felltiere und schließlich nur für die Hauskatze). Im Wechselspiel von Anheftungen und Weglassungen von Merkmalen spielen sich die merkmalsgebundenen Objektklassifizierungen ein. Wahrscheinlich liegen ihnen nervale Hemmungs- und aktive Assoziationsprozesse zugrunde (vgl. Abbildung 55.3). Auch Wortneuschöpfungen werden nach Art von Ähnlichkeiten mit Bekanntem in analogem Zusammenhang gebildet: ‘güter’ ⫽ besser’, ‘vieler’ ⫽ mehr, ‘hocher’ ⫽ höher u. ä. Schwache Formen werden bevorzugt. Die Vergangenheit tritt auf ähnliche Weise als erste Zeitform auf: geesst, gegebt, gegangt. Auch

769

die vieldiskutierten Neuschöpfungen werden nach einer Art Analogieprinzip gebildet: ‘Gesichtsrotmeise’ für Gartenrotschwanz, ‘HoppeReh’ für Känguruh. Die Verkettung von Worten zu Wortfolgen verläuft zuerst nach dem Reihungsprinzip: Die Worte werden einfach aneinander geheftet: ‘Tatta dehen Ssuhle dleich’; ‘Mama Suppe Ofen’. Erst um das vierte und fünfte Lebensjahr herum beginnt die aktive Auseinandersetzung mit den semantischen Relationen und den zuständigen Flexionen. Mit den ersten grammatischen Formbildungen lassen Kinder in allen untersuchten Sprachen bestimmte operative Sprachelemente aus: Artikel, Hilfsverben oder Flexionsmorpheme werden, obwohl gehört und verstanden, nicht oder sehr wenig aktiv genutzt. Zuletzt beginnt der Kampf mit den grammatischen Partikeln, den Konjunktionen und schließlich mit den Präpositionen. Man hat von Agrammatismus infantilis gesprochen, einem kindlichen Agrammatismus, der vorzugsweise auf fehlenden oder falsch verwendeten Präpositionen beruht. (Wir kommen auf das Präpositionenproblem noch zurück.) Um das siebte Lebensjahr gewinnt die Vergegenständlichung von Sprachformen, das Spiel mit der Sprache seinen eigenen kognitiven Reiz. Mit ihm bildet sich, ob ursächlich bedingt oder nicht, die Manipulation mit logischen Strukturen, mit der Einhaltung oder gezielten Variation von Zeitbeziehungen sowie Ursache-Wirkungszusammenhängen. Im letzten Stadium des Spracherwerbs werden die parataktischen Wortverkettungen durch hypotaktische, d. h. hierarchisch geordnete, Teilsätze zu Satzgefügen kombiniert. Relativsätze mit Pronomina, Temporalsätze, kausale Verbindungen und zugehörige Partikel werden verwendet. Das frühe Wissen um Kausalität wird schon um das vierte Lebensjahr während des sog. zweiten Fragealters wissenswirksam (‘warumdn das?’), die zugehörigen Sprachformatierungen jedoch werden erst vom fünften Lebensjahr an systematisch durchgestaltet. Das gilt auch für die Anwendung konjunktivischer Formbindungen bzw. von unterschiedlichen Varianten, gleiche Zeitbezüge auf verschiedene Weise auszudrücken. Im gleichen Alter beginnt wie ein Spiel das Durchprobieren möglicher, äquivalenter Ausdrucksformen für Indikativ oder Konjunktiv. Wir waren hier zurückhaltend mit zeitlichen Angaben bei Phasen des Spracherwerbs.

770 Das hat einen wohlbedachten Grund: zwischen den Angaben über die Bildung, Nachbildung (um nicht zu sagen Nachahmung) komplizierterer Formen der Sprachbenutzung gehen die Angaben der Forscher weit auseinander. Das hat sehr verschiedene Gründe: Einmal sind die Kinderspracherforscher zumeist hochgebildete Eltern, die ihr Kind geistig disziplinieren und belehrend beobachten. Viele Untersuchungen belegen, dass auch der ökonomische Status des Elternhauses von erheblichem Einfluss nicht nur auf die Geschwindigkeit des Spracherwerbs ist, sondern auch in den Feinheiten der gedanklichen Äußerungen von Sprachformen zum Ausdruck kommt. Im gleichen Rahmen dürfte auch die Dialogbereitschaft erzieherischer Einflussnahmen erziehlich bewusster Elternteile zu sehen sein. Andererseits sind Deutungen komplexer Sprachbildungen oft unterschiedlich klassifizierbar; will sagen, ob eine Partikel ‘weil’ oder wie ‘deswegen’ als Kausalität erfasst oder als bloße Folge zwischen Ereignissen ausgedrückt wird, ist nicht immer leicht feststellbar. Wie auch immer, was hier gemeint wurde, ist dies: Je komplexer die kognitiven Hintergründe in der Sprachverwendung sind, um so später werden sie in der Ontogenese beobachtet. Wir glauben, im Weiteren guten Grund zu haben, das gleiche Prinzip auch in der Evolutionsgeschichte des Spracherwerbs zugrunde legen zu dürfen. Und noch etwas ist dazu erwähnenswert: Immer wieder zeigen Untersuchungen, dass es der aktive sprachlich-kommunikative Umgang ist, der die Entwicklung der Verfügbarkeit von Sprachbildungen fördert. Die Tatsache, dass Zwillinge in der Sprachentwicklung gegenüber Altersgleichen zumeist zurückbleiben, spricht nicht notwendig dagegen. Zwillingsdialoge haben nur den Verständigungszweck auf gleichem Niveau, der Dialog mit dem Erwachsenen ist darüber hinaus auch sprach- und sprecherzieherisch wirksam. Das macht beim Spracherwerb einen wesentlichen Unterschied. Wir betrachten nun damit verwandte Aspekte von Kommunikation, Denken und Sprache in der Evolution. Natürlich unterstellen wir nicht, dass ontogenetische und evolutionsgeschichtliche Sprachentwicklung einander schrittweise zugeordnet werden können. Die möglichen Verwandtschaften und Ähnlichkeiten beider Verläufe, so sie denn begründbar sind, liegen wesentlich tiefer. Sie liegen nach unserer Auffassung darin begründet, dass jeder organismi-

VI. Spracherwerb

sche evolutionäre Prozess in seinen Stufen oder Abschnitten am erreichten Niveau ansetzen muss und es nicht überspringen kann. Das gilt, so unsere Auffassung, für den anatomischen Bereich wie für den funktionellen. Ein paar Beispiele dazu: Bevor sich in der Fötalentwicklung die Augenlinse zu formen beginnen kann, muss der Augenbecher determiniert sein, und bevor der sich ausbilden kann, müssen die Basiskoordinaten für den Kopfbereich festliegen; bevor die Fingerbeeren zu ihrer Entwicklung stimuliert werden können, müssen das Thoraxgebiet umrissen, der Armund der Handbereich in seinen Konturen fixiert sein. Und so auf allen Stufen. Die Evolution zu differenzierteren Strukturen hin beruht auf der schrittweisen Ausformung der einfacheren und zugleich geschichtlich früheren Basisstufen. Das gilt auch für die funktionellen Stufen in der Arbeitsweise des Nervensystems. Bevor reflektorische Reaktionen entstehen können, müssen die schließbaren sensorischen und motorischen Nervenbögen funktionsfähig sein; bevor Sehvermögen entstehen kann, müssen sich lichtsensible Moleküle gebildet haben, und bevor Farbensehen ausgebildet wird, müssen die Moleküle für verschiedene Wellenlängen des Lichts unterschiedlich sensibel geworden sein. Das ist immer ein zeitliches Nacheinander. Bevor Sprachverstehen sich bilden kann, müssen Nervennetze evolutionär vorgeformt, in synaptischen Netzen derart ‘vorgestrickt’ sein, dass sie auf Schallmuster unterschiedlicher Frequenzanteile und ihren Verknüpfungen unterschiedlich ansprechen. Erst danach können spezifische Reaktionen auf Lautmuster mit unterschiedlichen Bedeutungen entstehen. Und von ihnen her müssen nervale Brücken zwischen der akustischen Einstrahlungsregion im Nervensystem, dem Bedeutungsverstehen und jenen Regionen entstehen, die die motorische Beantwortung einer Reizrepräsentation steuern.

8.

Über kommunikative Evolutionsstufen

Elementare Voraussetzung für Erkennungsvorgänge, die jeder Kommunikation zugrundeliegen, ist die molekulare Sensibilität von Zellen. Kommunikation beginnt mit der Wechselwirkung sensibler Zellen. Eine nächste Stufe dieser Wechselwirkung beruht auf einem sensorischen und einem motorischen Anteil. Dabei greift Lernfähigkeit in

55. Phylo- und Ontogenese sprachlicher Kommunikation

die Entscheidungsbildung ein. Zudem konvergieren zwei andere Dispositionen: Zum Ersten: die homöostatische Registrierung von Mangelzuständen und damit die Befähigung eines Organismus entscheiden zu können, was er momentan am dringendsten braucht, sowie, damit in Verbindung, die Bewertung verschiedener, sensorisch zugänglicher Informationen. Und sodann: die Reduktion von Informationszugängen auf ein entscheidungsrelevantes Maß. Letzteres geschieht im Wahrnehmungsbereich durch Ordnungsbildung im Sinne der Ausbildung von Strukturen, sprich: im Sinne der Gestaltpsychologie von Gestalten. Emotionalität und kognitive Strukturbildungen sind zwei wichtige Voraussetzungen effektiver organismischer Kommunikation. Kommunikation ist eine Form der Wechselwirkung zwischen Organismen, eine Form, deren Inhalte auf Informationsaustausch beruhen. Dabei scheint es eine Optimierungstendenz in der Evolution zu geben, die zur Minimierung des Energieaufwandes hin tendiert. Die Befunde von Cheney und Seyfarth (1990) belehren darüber, dass z. B. bei Makaken verschiedene Arten von Feindtieren auf unterschiedliche Weise signalisiert werden können. Dennoch war dies nicht der Weg, der zur hominiden Lautbildung geführt hat. Warum eigentlich nicht? Wir glauben deshalb, weil diese Lautbildung auf einer strengen Einpassung in ein Biotop beruht, in dem feststeht, auf welche Arten von Feindtieren ein Organismus eingestellt sein muss, um überleben zu können. Insbesondere wenn sich die Lebensräume rasch verändern, muss eine große und nicht immer feststehende Variabilität von Feindtieren in Rechnung gestellt werden. Dann ist Kommunikation nur erfolgreich, wenn die Signalgebung dem Gefahrentyp anpassbar gemacht werden kann. Dazu eignet sich im Bereich der akustischen Signalements ein Prinzip besonders: die Kombinatorik von Lautbildungen zu immer neuen Mustern. Das ist nicht nur rationell, sondern auf eine extrem effiziente Weise auch adaptiv. In Verbindung mit Lernvorgängen wird der vom Gehirn her gesteuerte Lautbildungsapparat zu einem für Informationen adaptiven Mitteilungsinstrument. Je vielseitiger die Hirnfunktionen Bewährungsformen auch mit der Lautbildung erkennen und speichern, um so größer der Selektionsvorteil, aber auch: um so größer sind die Anforderungen an leistungsfähige Hirnfunktionen. Was erreicht wird mit den variablen Benen-

771

nungen von Wahrnehmungsgebilden, das entspricht jenen Funktionen, die in Verbindung mit der Ontogenese der Kommunikaton als Nennfunktion bezeichnet wurden, also die Gewissheit, dass jedes wahrnehmbare Gebilde eine Benennung haben kann. Wir vermuten, dass dieses Stadium mit Beginn der Eiszeiten vor ca. 3,5 Mio Jahren von den seinerzeitigen Habilinen eingeleitet wurde.

9.

Über Eiszeiten und Hirnfunktionen

Die Kältewellen der Eiszeitepochen erzwangen weiträumige Wanderungen. Routenlernen war die große Herausforderung für die Ausgestaltung des Gedächtnisses, wie wir glauben. Ziele zu finden, die Rückwege zu rekonstruieren und dies nicht als Einzelwesen, sondern im Trupp, das ist ohne Kommunikation schwerlich möglich. Schon die Homo-erectus-Leute mussten der nach Norden hin schwindenden, üppigen Flora und im Gefolge davon auch ihren Beutetieren nachziehen. So wurde H. erectus zum weiträumigen Wandern gezwungen (s. Abs. 4). Die Homo-erectus-Leute begannen auf ihren Wanderungen mit der Großwildjagd. Knochenfunde von erlegten Tieren belegen das. Natürliche Fallen wie Sumpfgelände oder Treiberfaktoren wie gelenktes Feuer machte Tiere wie Nashorn, Büffel und gar Elefanten zu attraktiver, weil energiereicher und daher begehrter Beute. Vor 500 000 Jahren war das sicher der Fall. Was musste man sich in Vorbereitung solcher Jagdunternehmen mitteilen? Vermutlich und – wie erwähnt – wenigstens dreierlei: Was soll geschehen? Fliehen oder Jagen, Töten oder Aufteilen? Und: Wer soll was tun? und mit Wem soll es geschehen? Handlungsträger, Handlung und Objekt der Handlung sind – wie begründet – die Grundelemente jeder Ereignisdarstellung. Ohne diese drei begrifflichen Elemente wäre Verständigung bei der Vorbereitung und Durchführung einer Jagd auf Großwild nicht möglich gewesen. Aber diese Benennungen genügen auch, um eine elementare Rollenverteilung zu bewerkstelligen. Vorbedingungen für diese Leistungen waren längst bei den vormenschlichen Primaten durch das angelegte Planum temporale gegeben. Wir vermuten, dass während der Homoerectus-Zeit diese Region schrittweise vernetzt wurde für das Verstehen von gewählten Benennungen, sei es durch Zufall erfunden oder sei es durch lautliche Nachbildung des

772

VI. Spracherwerb

Abb. 55.9: Linksseitige Oberfläche der menschlichen Hirnrinde. Im Hinterhaupt (s. Abbildung 55.2) liegen die nervalen Kodierungsnetze für Form, Bewegungs- und Farbwahrnehmung. Der primäre auditorische Kortex vermittelt Ton- und Schalleindrücke zum Wernicke-Areal. Dort werden aus den dekodierten Schallmustern jene Lautkonfigurationen ausgefiltert, die gespeicherten Worten entsprechen. Über den Fasc. Arcuatus werden sensomotorische Aktivierungen im Vorderhirn in Gang gebracht. Sie überführen eine erzeugte grammatische Struktur in die Innervationen der lautbildenden Kehlkopfmuskulatur (sog. Vokalisationsbereich des motorischen Zentrums).

Gemeinten bzw. durch szenische oder gestische Nachbildung mit Lautbegleitung entstanden. Und noch eine feine ‘Verkabelung’ müsste in dieser Zeit stattgefunden haben, nämlich die der Benennungsnetze zum Handlungszentrum im Gyrus präfrontalis (Abbildung 55.9). Das könnte die Voraussetzung dafür gewesen sein, dass zur Art der Handlung, zum Vormachen, zum begleitenden Gestus für das WAS des Tuns eine bedeutungshaltige Motorik ausgebildet wurde, mit dem Zeigen dahin, wer was tun soll, vielleicht sogar womit. Da hätten wir unsere semantischen Relationen für die Repräsentation von Ereignisbegriffen in nuce fast beisammen. Die Mitteilungen könnten zunächst ganz der Gegenwart verhaftet und noch ganz ohne Grammatik im modernen Sinne verstehbar gewesen sein. Der mit neuerer Linguistik vertraute Leser wird vielleicht mit Abstand vermerken, dass wir hier in die umstrittene Subjekt-Verb-Objekt oder kurz: S-V-O- Debatte als universeller Protosprache eingreifen wollen. S-V-O, so der Einwand, sei keine Universalsprache und dass es ja Sprachen gäbe, wie das Chinesische, das diese Unterscheidung überhaupt nicht kenne (Holz, 1994). Dazu ein klärendes Wort: S,V,O sind als Subjekt, Verb und Objekt grammatische Kategorien, die durch re-

flektierenden Umgang mit der Systematik sprachlicher Einheiten für eine große Klasse von Sprachen definiert wurden. Wir haben von Handlungsträger, Handlungsart und Objekt der Handlung als von klassifizierenden Elementen eines beobachtbaren oder vorstellbaren Ereignisses, also von begrifflichen Entitäten gesprochen. Dass in weit späteren Zeiträumen diese begrifflichen Benennungen nochmals einer eigenen Klassifizierung unterzogen wurden und das in verschiedenen Sprachen auf verschiedene Weise, das ist eine andere Frage. Handlungsträger, Handlungsart und Objekt der Handlung sind begriffliche Universalien. Für die Kennzeichnung gesehener Ereignisse oder für gemeinsame, sozial organisierte Handlungsabstimmungen reicht das allemal. Die weiträumig ziehenden Erectusleute waren die ersten Lebewesen, die ihre natürlichen Feinde weitgehend abgeschüttelt hatten und kaum Grenzen für ihre Ausbreitung zur Kenntnis nehmen mussten. Und alle Sprachen, die auf dieser Erde derzeit gesprochen werden, können diese begrifflichen Elemente ausdrücken. Die HT-Sk-O-Sprachen sind parataktisch, sie haben keine hierarchische Taxonomie. Diese einfachen Wortverkettungen erinnern natürlich auch an die Art der Steinwerkzeuge: Linear rekursiv haben wir die Werkzeugher-

55. Phylo- und Ontogenese sprachlicher Kommunikation

stellung genannt. Und linear rekursiv waren auch diese HT-Sk-O-Sprachen. Es gibt hier eine merkwürdige Duplizität von Ereignissen. Als die Werkzeugherstellung zu hierarchischen Konstruktionen überging, scheint auch das sprachlich gebundene Denken zu hypotaktischen Formen gelangt zu sein. Das versuchen wir zu belegen.

10. Der Weg zu hypotaktischen Handlungsprogrammen und Sprachstrukturen Vor 180 000 Jahren setzte in Wellen die bekannte Wärmeperiode ein, die ca 60 000 Jahre anhielt. Die Erwärmung des Klimas führte u. a. dazu, dass in heutigen Sahararäumen bis Ägypten hin eine fruchtbare Landschaft entstand. Stabile Nahrungsgrundlagen im Vergleich zu früheren Zeiten führen zu einem Bevölkerungsüberschuss: Die Vermehrungsrate steigt, die Kindersterblichkeit nimmt ebenso ab wie die Infektionsanfälligkeit. Calvin (1998) spricht in diesem Zusammenhang von einer Bevölkerungsexplosion. In historischen Abläufen lässt sich zeigen, dass starke Bevölkerungszunahmen zu Veränderungen in den Organisationsformen des menschlichen Zusammenlebens in der betreffenden Region führen. Wahrscheinlich hat in dieser Zeit der Übergang vom Leben in ziehenden, jagenden und nur zeitweilig lagernden Menschengruppen zum Leben in Stämmen mit Lagerstätten, Beerdigungs-, Ritual- und Geburtsorten, mit der Erkennung von Verwandtschaften, Ge- und Verboten für Nahrung und Ehen sowie ritualen Formen und Festen eines Stammeslebens stattgefunden. Belege dafür haben wir an anderer Stelle erbracht (Premack, 1976; Klix & Lanius, 1999). Was hier interessiert, sind zwei Ereignisse. Etwa vor 112 000 Jahren setzte vom Süden her eine neue Kaltzeit ein. Die Flora versteppte, die Tiere mussten – wie erwähnt – dem Pflanzenwuchs nachziehen, und die Menschen mussten folgen. Frühe Funde liegen in Jordanien und in Israel. Die Knochenreste sind 92⫺98 000 Jahre alt. Die Schädelreste zeigen an, dass ein neuer Menschentyp entstanden war, die später so genannten Homo-sapiens-sapiens-Formen vom CroMagnon-Typ. Sie siedelten nach langen Wanderungen in Asien, in Südeuropa, in Ungarn, im Rhoˆnetal, in Südfrankreich, Nordspanien, Andalusien und in Nordportugal. Was sie mitbrachten, war eine neue Klasse von Werk-

773

zeugen. Äußerlich gesehen, ist es nur eine Art neuer Verbundtechnik. Kognitiv gesehen, steht aber mehr dahinter. Mit der Aufspaltung von Handlungsfolgen in Teilprogramme mit Teilzielen entsteht eine Organisation von Denkstrukturen, die in hierarchisch aufgebauten Handlungsabschnitten umgesetzt wird: Erst den Schaft für …, dann den kleinen Stein zum …, dann den Hanf dort … und dann das Harz (zum Verkleben der Spitze oder einen Spalt zum Einklemmen des Mikrolithen). Unsere semantischen Relationen sind hier Denkelemente, aber noch nicht notwendig benannt. Sie binden Teilziele, die aber immer im Hinblick auf das Gesamtresultat realisiert und schließlich in Form von Folgen zusammengeschlossen werden. Was wir erkannt zu haben glauben, das ist eine suggestive Analogie zu dem, was sich schließlich in der Entwicklung zu den modernen Hochsprachen abgespielt haben könnte. Dazu müssen wir aber noch einmal bedenken, was an Denkprozeduren im Detail vorausgesetzt werden muss, damit grammatisch korrekte Sätze gebildet werden können. Hierarchische Denkstrukturen beim Konstruieren heißt, dass es nicht nur ein Ziel gibt, das ‘straightforward’ oder ‘par force’ angestrebt wird, sondern dass mit den Teilzielen eine Ordnung darüber existiert, in welcher Reihenfolge welches Teilziel angestrebt wird, was die Bedingung für den nächsten Schritt ist, welches Material sich für verschiedene Teilschritte am besten eignet, welche Funktionsproben nach welchem Teilschritt am besten vorgenommen werden sollen. Kurzum: Konstruktives Denken beruht auf gegliederter Ordnungsbildung mit Merkmalen und zugehörigen Wenn-Dann-Beziehungen. Darin geht lange Erfahrung ein und – sehr wahrscheinlich – die Übergabe solcher Erfahrung durch Belehrung. Es ist wenig wahrscheinlich, dass solche Konstruktionsprinzipien, wie sie nach Abbildung 55.6d im Hintergrund gestanden haben müssen, immer von neuem entwickelt wurden und dann auch noch auf Anhieb ‘passen’. Dazu gehört schon aus lernpsychologischen Gründen auch eine Ordnung in einer Form von Belehrung, die Sprache einschließt: Zeigen, Vormachen und Erklären waren am Anfang sicher eins. Aber das schrittweise Was, soweit es die Lautmarkierungen, die Wortmarken betrifft, da fehlten dem Erectus-Vokabular anscheinend wesentliche Elemente. Es sind insbesondere jene, die wir in Zusammenhang mit der Erörterung von Ereignisbegriffen als semantische Rela-

774 tionen definiert haben und deren urtümliche Funktion sich derzeit nur als Vermutung rekonstruieren lässt.

11. Benennungen für Begriffsklassen und ihre Funktionen in der Kommunikation Alle drei Komponenten von Ereignisbegriffen: Handlungsträger – semantischer Kern – Rezipient (oder Objekt oder Instrument) können zu beschreibbaren Ereignisbeschreibungen hinreichend sein. Dennoch: Die Dominanz eines Handlungsträgers, also der Name für den Akteur oder ein Symbol für ihn, ein Pro-Nomen späterhin, dominieren den Beginn. Man könnte meinen, das sei doch kongruent mit der Chomsky’schen Notierung, wo auch das Nomen den Satz zu dirigieren beginnt. Aber dabei bleibt außer Acht, dass ja auch das zweite Objekt zumeist ein Nomen ist und dass man das eben nicht an den Anfang stellen sollte, so man psychologische Relevanz bewahren will. Man brauchte dann eine zusätzliche Notierung für die semantische Rolle und kann nicht Grammatik ⫽ Semantik setzen, was (nach Bayer, 1987) Chomsky tut. Wir wollen nun einige sprachliche Repräsentationsformen für begriffliche Merkmale zu bedenken geben. 11.1. Begriffsmerkmale in sprachlichen Mitteilungsformen Die Merkmale der Begriffe finden auf sehr verschiedene Weise in sprachlichen Ausdrucksformen Verwendung. Eine große Rolle spielt dabei die Aufmerksamkeitsverteilung bei der Beobachtung eines Objekts im Rahmen eines Vorgangs. Fokussieren nennt man das häufig. Gemeint ist, dass zwischen Wahrnehmung und Objekteigenschaften Filterprozesse liegen, die die Profilierung der Merkmalseigenschaften beeinflussen, die einmal die einen, ein andermal andere Merkmale hervortreten lassen. Externe Kontexteinflüsse wie interne motivationale Zustände spielen dabei eine bedeutsame Rolle. Die im Allgemeinen charakteristischen Merkmale der Objektbegriffe werden durch Adjektive bezeichnet. Ihre übliche Taxonomie erfolgt nach dominierenden Wahrnehmungsdimensionen wie Größe, Gewicht, Farbe oder nach komplexeren Strukturen wie Schönheit, Klugheit u. a. Naturgemäß dürfte eine Art Adjektivbenutzung zur Kennzeichnung von Merkmalen

VI. Spracherwerb

anfänglich sehr grob gewesen sein: groß vs. klein, stark oder überstark vs. schwach. Was die Wahl von adjektivischen sprachlichen Eigenschaften betrifft, so hängen die schrittweisen Differenzierungen nicht nur von den Verfeinerungen des Wissensbestandes über Objekteigenschften, sondern auch von den Einstellungen gegenüber der wahrgenommenen Realität ab. Mit ihr gehen schließlich im Laufe der Menschheitsentwicklung sogar von Weltbildern abhängige Bezeichnungsweisen ein (Klix & Lanius, 1999). Wir wollten hier nur darauf hinweisen, dass die Klasse der Adjektive jene begrifflichen Einheiten enthält, die vorzugsweise für die Merkmalscharakteristik von Objektbegriffen ausgebildet wurden. Merkmale der semantischen Kerne werden im hierzulande gültigen Klassifizierungssystem zumeist als Adverbien bezeichnet. Es geht dabei vorwiegend um Merkmale von Vorgängen, die unmittelbar an den semantischen Kern gebunden sind und die nicht direkt die semantischen Relationen betreffen. Die ursprünglichen Ausdrucksformen dürften in starkem Maße gestisch gebunden gewesen sein, und sie dürften auch eine Altersstaffelung gehabt haben. Markierungen für derart semantische Notierungen könnten gewesen sein: vorher (kam (temporal)) oder: bald (kommt); modale Formen wie gern (bleibt), sicher (geht). Beispiele für lokale Adverbien sind: dort(kommen), da(steht). Schließlich sind noch die kausalen Adverbien zu bedenken wie deshalb(kam). 11.2. Bevorzugte Wortbindungen für semantische Relationen in Ereignisbegriffen Ereignisbegriffe sind nicht nur durch die Eigenschaften semantischer Kerne bestimmt, sondern auch durch die Eigenschaften der in ihnen implementierten semantischen Relationen. Sie werden im lexikalischen Gedächtnis vor allem durch Präpositionen kodiert. Die besondere semantische Funktion der Präpositionen besteht nicht nur darin, dass sie Objektbegriffe an semantische Kerne binden, sondern auch, dass sie in den Merkmalssätzen der Objektbegriffe wohlbestimmte Merkmale akzentuieren. Spielen – Fussball aktiviert einen Szenentyp, Spielen – Skat einen völlig anderen und Spielen – M¸cken wieder etwas anderes. Das lässt sich sehr vielfältig fortführen. Die Beispiele belegen: semantische Relationen verbinden nicht nur Begriffe, sie modellieren, wie erwähnt, auch de-

55. Phylo- und Ontogenese sprachlicher Kommunikation

ren aktuellen Merkmalssatz. Dessen Profil wechselt von Ereignis zu Ereignistyp. Jenseits von dieser Art semantischer Akzentuierungen von Bedeutungsgehalten gibt es eine Kollektion von Worttransformationen, die die Spezifik eines Ereignisbildes modifizieren. Sie waren gewiss nicht zur Zeit der Entstehtung von Hochsprachen verfügbar. Erst im Laufe der Sozialgeschichte menschlicher Gesellschaften haben sie sich schrittweise herausgebildet. Wenn man wiederum davon ausgeht, dass die Worttransformationen um so später auftreten, je komplizierter der damit kodierte kognitive Hintergrund ist, so können wir einige relative Angaben versuchen. Sie beruhen auf Analysen der Erkennungszeiten beim rezenten Menschen. Danach wären am frühesten Merkmalsworte für Objektbegriffe, vor allem bei Handlungsträger und Rezipienten zu erwarten. Dort verschmelzen charakteristische Merkmale mit den Benennungen für die Begriffe (bei manchen Naturvölkern hat ein Boot auf Kriegsfahrt einen anderen Namen als beim Transport von Erntegut wie Mais, im alten Sumer hingen die Zahlworte von der Art des Gezählten ab). Ähnlich können Genus und Numerus zuerst über Benennungen und dann erst über Artikel und Affixe spezifiziert werden (‘Die Sammlerinnen’). Mehrzahlbildungen werden in frühen Sprachen einzelner Naturvölker durch Wortwiederholungen ausgedrückt (‘Mann und Mann kommen’ ⫽ ‘Männer kommen’). Der Rezipient wird durch aktive direkte, aber sicher erst in einer sehr späten Entwicklungsphase durch indirekte Wortmarkierungen bestimmt, etwa durch die einfache Passivbildung (J‰ger jagt, J‰ger sein gejagt). Langwierig werden temporale Formen mit austauschbaren Raum-Zeitbezügen, ähnlich wie in Sprachen von Naturvölkern (Hallpike, 1990) gebildet worden sein (,gleich abend’, ‘Sonne unter Berg’, ‘Stellen auf Vorngesicht’, ‘auf haben gegessen’, ‘in Falle drin’). Die Protoformen der Modalpräpositionen gestatten nicht immer zwischen der Kausal- und der Instrumentalrelation zu unterscheiden. Das wirkt noch in unserer Gegenwartssprache nach: wegen eines …, durch einen …, infolge eines … sind Beispiele dafür, dass sowohl Zeitbezüge als auch Kausalrelationen gemeint sein können. Reine Instrumentalformen verschmelzen oft mit Objektinformation (Hacken: Name 1 (auf) Name 2). Auch die Lokationsrelation ist nicht immer eindeutig. Die Finalität, obwohl im Ereignis eingebunden, kann eine Se-

775

rie von Szenen überstreichen, z. B. über die Konstruktionsabschnitte eines Werkzeugs wie bei der (gedanklichen) Realisierung eines Planes oder einer Strategie. Dabei können Ereignis auf Ereignis folgen, aber die Finalität bleibt dieselbe, z. B. Funktionsfähigkeit oder Brauchbarkeit zu erreichen (z.B: Bauen Falle & Tˆten B‰r). So werden auch Symbole oder gar Worte für die Benennung von Folgen zwischen Ereignissen gebraucht, anfangs wohl vor allem mittels Wiederholungen von verbal unterstrichenen Gesten. Merkmalsänderungen bei dynamischen Begriffsstrukturen, wie z. B. bei ‘verbrennen’, ‘spalten’ und ähnlichen, verweisen auf zu erwartende Merkmalseigenschaften eines Objekts durch ursprünglich wahrscheinlich auch gestisch unterstrichene Aktivitäten (‘Totmachen B‰r’, ‘Bauen Falle’). Wir haben in diesem Zusammenhang einmal von transformativen Begriffen (Klix, 1992) gesprochen. Klassifizierungskriterien sind hier Änderungen oder Übergänge charakteristischer Merkmale, wie sie als Folge äußerer Einwirkungen entstehen und die gleichfalls als Gedächtniseintragungen nachweisbar sind. Zu bemerken ist, dass mit den Merkmalsänderungen ein Zeitfaktor ins Spiel menschlicher Wissensinhalte kommt (Wolf, 1984; van der Meer, 1991). Offensichtlich spielen die Präpositionen auch eine besondere Rolle im erfahrungsabhängigen Denken bei der sprachlichen Umsetzung von bildlichen Erinnerungen. Dass die Präpositionen dabei für sich genommen oft nicht eindeutig sind, verweist auf ihre späte sprachgeschichtliche Herkunft. Denn die Sprachevolution tendiert zur Eindeutigkeit hin (Klix, 1999). Bedeutsam ist in diesem Zusammenhang, dass präpositionale Fügungen lexikalische Gruppen eröffnen und deren Bedeutungskopf bilden. Es sind die neuerdings vieldiskutierten ‘headers’, die Bedeutungsfiguren einleiten: ‘Vor dem Vollmond ist gegangen’, ‘… Hinter dem Berge Sonne sein …’ Warum gerade Präpositionen solche Teilbildgruppen einleiten und binden, scheint sowohl auf ordnende Prozeduren unseres Wahrnehmungssystems als auch auf Eigenschaften des Berichtsinhalts und der Bedeutungseinbettung seiner Elemente rückführbar zu sein. Orts-, Zeit- oder Personenbeziehungen in Aktionen bilden häufig eine optisch oder szenisch abgehobene Subgruppe des betrachteten Geschehenstyps. Jedenfalls erinnert auch das stark an die Teilziele und Teilprogramme im konstruierenden Denken.

776

VI. Spracherwerb

Auch dort spielen die Anfänge von Teilprogrammen eine akzentuierte Rolle. Nach gedächtnispsychologischen Untersuchungen haben sie auch eine herausgehobene Einprägungschance, und sie sind auch besondere Starthilfen bei Reproduktionen. Beides dürfte sie auch für Belehrungsstrategien prädestinieren.

12. Nervale Epizentren der Sprachbenutzung und Störungen ihrer Funktionsweise Es ist mittlerweile unbestritten, dass es sich bei der Repräsentation von Sprache im Nervenystem um weit vernetzte Areale handelt, und man kann fast sagen, dass das ganze Nervensystem in Prozessen wirkt, die in die Sprachrepräsentation wie -nutzung einbezogen sind. Dennoch gibt es zentrale Areale für bestimmte Leistungen, Epizentren gewissermaßen, ohne deren Wirken bestimmte Teilfunktionen ausfallen, während Ausfälle in anderen Regionen dadurch ersetzt werden, dass andere Areale neu gebildet oder ‘umgeschult’ werden. Sicher ist, dass die innere Organisation der Hirnrinde nach Zelltyp, Schichtung, Vernetzungsgrad und Ansprechbarkeit der Zellen eine sehr differenzierte, nichthomogene Architektur aufweist. Brodmann hat die erste langzeitig gültige Kartierung durchgeführt, und sie liegt im Wesentlichen auch der Abbildung 55.1 zugrunde. Die einzelnen Rindenfelder von Area 17 bis 19, zusammen mit der Einbeziehung tiefliegender Hippocampusgebiete und Thalamusregionen sind allem Anschein nach in unterschiedlichen Evolutionsepochen durch Langzeiteinflüsse und selektive Auswahlprozesse funktionsfähig geworden; funktionsfähig so, dass sie die stationär gebliebenen Umweltkomponenten entsprechend dem Gedächtnisbild erkennen und darauf reagieren können. Und es gibt nervale Verbindungsstränge zwischen diesen Feldern. Dabei werden zwei verschiedene Systeme unterschieden: ein Nahverbindungssystem, das zwischen benachbarten Arealen vermittelt, und ein zweites System, das unter den Arealen gewissermaßen ‘durchtaucht’ und entferntere Felder verbindet. Gerade bei diesem zweiten System wird besonders gerätselt, welche Funktionen es im Einzelnen erfüllt (s. Abbildung 55.10). Wie bei allen Umweltkorrespondenzen des Nervensystems haben wir auch bei der Sprache drei Basiskomponenten zu unterscheiden:

Abb. 55.10: Zwei hypothetische Systeme der Hirnrinde (nach Pulvermüller & Schumann, 1994). Ein weiträumig verbundenes A-System verbindet transkortikale ‘Zellgruppen’. Ein B-System ist stärker durch Nahverbindungen bestimmt. In ihm werden Transformationen elementarer Worteigenschaften synthetisiert. Das A-System regelt weiträumigere Wortkombinationen, beispielsweise wie solche aus unseren Ereignisbegriffen (vgl. auch Abbildung 55.1).

ein Erkennungssystem auf der sensorischen Seite, ein motorisches Steuerungssystem für die Lautbildung auf der motorischen Seite und ein begrifflich-sprachliches Repräsentationssystem intern; dies letztere noch einmal getrennt in eine lexikalische und eine transformierende Komponente, zu der auch die grammatischen (also die morphologischen und die syntaktischen) Flexionsformen für die lexikalischen Einheiten gehören. Dass das keine einheitlichen Systemkomponenten sind, sondern dass hier zahlreiche heterogene Teilleistungen verankert sind, die ursprünglich miteinander nichts oder wenig zu tun hatten, wird sich implizit aus dem Weiteren ergeben.

13. Die zwei bedeutsamen Zentren Abbildungen 55.1 und 55.9 geben ein Bild von funktionellen Systemen der Großhirnrinde des Menschen. Ihre Störung, je nachdem, wo das Zentrum liegt, führt zu verschiedenen Klassen sprachlicher Defizite. Dabei gibt es abtrennbare und weniger klare Differenzierbarkeiten; kein Wunder, wenn man an die inneren Vernetzungen weiter Areale denkt und was noch an begleitenden Nebenstörungen das zentrale Krankheitsbild beeinflussen kann. Unter Aphasie, ursprünglich mit ‘Sprachunfähigkeit’ zu übersetzen, fasst man mittlerweile eine Vielzahl unterschiedlicher Phänomene bei Sprachstörungen zusammen: Amnestische Aphasie, Wernicke-Aphasie, BrocaAphasie, Globale Aphasie, Leitungsaphasie, transkortikal-sensorische Aphasie, transkor-

55. Phylo- und Ontogenese sprachlicher Kommunikation

tikal-motorische Aphasie, Störungen der akustischen Analyse, der Phonemsynthese, Störungen im akustischen Lexikon, in der Verfügbarkeit graphemischer Zeichenfindung und so über zehn weitere Störungsformen. Anzunehmen ist, dass es sich bei dieser Vielzahl von oft ähnlichen Störungen, die allesamt von Unterschieden im Erscheinungsbild abgeleitet sind, um Anzeichen von gestörten nervalen Vernetzungen handelt, die man noch nicht genauer lokalisieren kann, weder im EEG noch mit Hilfe von PET oder MRT. Aber – vielleicht – könnte es die psychologische Detailanalyse von kognitiven Komponenten erlauben, Fragestellungen oder Hypothesen abzuleiten, die Hinweise enthalten zu nervalen Hintergründen. Unser Augenmerk gilt den beiden charakteristischen Formen der Aphasie, für die auch die zentral-nervalen Repräsentationsgebiete einigermaßen genau bekannt sind: die Wernicke- und die Broca-Aphasie. Unser Problem ist, ob sich von unseren Daten über die Wissensrepräsentation im menschlichen Gedächtnis Gründe dafür angeben lassen, welche kognitiv elementaren Komponenten in der Wissensarchitektur des menschlichen Gedächtnisses gestört sind. Es gibt Erkrankungen, bei denen die Arbeit wohlbestimmter nervaler Regionen gestört ist. In den erwähnten zwei Regionen zeigen sich deutliche Korrespondenzen zu unseren Begriffsklassen und ihren Eigenschaften. Das Worterkennungszentrum (Abbildung 55.9) ist das nach Wernicke benannte Areal. Bei der einschlägigen Störung ist die Verbindung zwischen der Merkmalscharakteristik eines Begriffs und den zugehörigen Worten unterschiedlich stark gestört. Die Patienten sehen ein Glas Bier, sollen es benennen und sagen: ‘zum Trinken’; sie suchen ein Wort für Palme und sagen ‘ein Schmuckpflanze in Zimmer’; ein Wort für ‘im K¸hlschrank’ und sagen ‘im Ofen’. Es wird nach unseren Vorstellungen (Abbildung 55.3) eine partielle Oberbegriffskodierung angeregt. Die Benennung für die allgemeinen Teilmerkmale des gesuchten Begriffs ist verfügbar. Andere Beispiele beziehen sich auf die Nebenordnung. Sie suchen ein Wort für ‘Hecht’ und sagen ‘Karpfen’, ein Wort für ‘Dackel’ und sagen ‘Setter’. Wieder sind die Merkmale für die Oberbegriffe (‘Fisch’, ‘Hund’) verfügbar, das also, was ‘Hecht’ und ‘Karpfen’, ‘Dackel’ und ‘Setter’ in einer merkmalsreduzierten Region gemeinsam haben (Abbildung 55.3). Die jeweils spezifizierenden Merkmale schei-

777

nen gehemmt, die generellen tragen bevorzugt die Benennung. Die Umkehr von ‘Heiss’ und ‘Kalt’ betrifft die gleiche Merkmalsdimension. Hier ist die Ausprägungsrichtung des gemeinsamen Merkmals vertauscht. Bei erfolgloser Suche kommen Neukonstruktionen vor. Für Kerze sagt ein Patient: ‘Tropfen’, ‘die kaputtgehen’. Bei der anderen aphasischen Erkrankung, sie ist nach Broca benannt, bilden die Patienten „ganz einfache“ (i. e. fast grammatikfreie Sätze (Höhle, 1995). Ein Patient beschreibt ein Bild mit einem bettelnden Mann so: ‘Der … Mann … Bettler’; ein Bild mit zwei streitenden Männern so: ‘Der Mann … und … der Mann … schreit an’. Ein anderes Bild so: ‘Zwei M‰nner quatschen … quatschen … haben ganz laut sprechen’.. „Es sind bevorzugt HT-Sk-O-Sätze, also Komplexe aus unseren semantischen Wurzeln. Es besteht bei Patienten oft Unsicherheit, die modifizierenden semantischen Relationen im Sprachlichen auszudrücken. Diese Relationen sind, wie erwähnt, wesentliche begriffliche Basis für Flexionen in Wortverbindungen, seien sie syntaktischer oder morphologischer Art. Es werden nicht-lineare Kombinationen von Wortgruppen erzeugt, die durch präpositionale Terme gebunden werden. Dabei ist gleichgültig, ob es für die Relationen spezifische Wortgruppen gibt (wie im Deutschen) oder ob sie mit den Wortstämmen verschmelzen (wie u. a. in uralischen Sprachen, etwa im Estnischen). So zeigt sich im Ganzen: „… die Broca-Aphasie ist geprägt durch die Störung der syntaktischen Verarbeitung bei erhaltenem Lexikon, die Wernicke-Aphasie durch erhaltene Syntax bei gestörtem Lexikon“ (Höhle, 1995: 12). Man vergleiche dazu auch die phänomenologisch mustergültigen Beschreibungen von Kleist (1916: 118⫺199). Wir behandeln hier die zentralen Grundphänomene der beiden Syndromgruppen. Da die Areale keine geschlossenen Hirngebiete sind, ist der Variantenreichtum der Phänomene besonders groß. Davon zeugen schon die zahlreichen Teilklassen der Aphasien (s. S. 39). Auch bedarf eine kognitive Analyse der Störungen wesentlich feinerer Unterscheidungen als ich sie hier vorlegen kann. In unserer Sicht: Die Wernicke-Aphasie betrifft die Interaktionen zwischen den Merkmalssätzen der Objektbegriffe und den zugehörigen Wortmarken mit den merkmalsbestimmten Begriffsbeziehungen, die Broca-Aphasie betrifft die gestörte Umsetzbarkeit der semantischen Relationen

778 von Ereignisbegriffen in die zugehörigen sog. Funktionsworte. Sie bestimmen in starkem Maße die grammatischen Konnexionen in einem Satzaufbau. Beide, Wernicke- und Broca-Areal, sind durch den Fasciculus arcuatus (s. Abbildung 55.9) verbunden, eine angeborene Konnexion, die vermutlich durch Endosymbiose zur Grammatikalität der flektierenden Hochsprachen geführt hat und die im vormenschlichen Primatenhirn noch nicht aktiv ist. Wohl aber findet man – wie erwähnt –, dass das Planum temporale beim Schimpansen angelegt ist. Das weist auf die freie Assoziabilität von Lautbedeutungen mit Bildeindrücken in einer vormenschlichen Evolutionsperiode hin. Bleiben die Zeitrelationen für die Motivation (Fin) und für die Konsequenzen (Cond oder Caus). Dazu gibt es neue Daten aus der Psycholinguistik (Rickheit, 1991) und der Neurologie. Von Cramon (1997) hat Befunde zusammengestellt, nach denen Zeitrelationen in Strukturen des Frontalhirns registriert werden. (U.a. sind sog. präfrontale Pausenneurone am Sulcus principalis gefunden worden.) Es würde danach nicht verwundern, wenn die re-aktivierbaren Spuren für Zeit und Zeitbeziehungen auch im Frontalbereich lägen. Die signifikanten Zeitverzögerungen bei der Erkennung von Finalitätsrelationen könnten das anzeigen. Übrigens spielt dieser Bereich bei sozial motivierten Vorgängen und bei ICH-zentrierten Entscheidungen eine Rolle, u. a. auch bei schizophrenen Erkrankungen.

14. Hauptphasen der Sprachevolution im Überblick Chomsky (1998) hat sich zu dieser Frage kaum dezidiert geäußert. Er schreibt: „Was Systeme wie die Sprache betrifft, … ist es schon schwierig, sich überhaupt einen Selektionsverlauf vorzustellen, der zu ihrer Entstehung geführt haben könnte.“ Dieser Standpunkt wird verständlich, wenn Bayer (1987) Recht hat, der schreibt: „Chomsky meint Grammatik, wenn er Sprache sagt.“ In der Tat, eine isolierte Selektion grammatischer Strukturen ist, soweit erkennbar, nicht zu begründen. Zudem, so ein Makroschritt zur Hochsprache ist aus einer einfachen Mutation schlechtweg kaum ableitbar. Unser Ansatz ist darum ein Versuch zu erklären, wie aus vormenschlichen nervalen Teilsystemen, ausgebildet für unterschiedliche Funktionen,

VI. Spracherwerb

durch deren selektiv erzwungenes Zusammenwirken ein neuer Phänomenkomplex, eben die Sprachstruktur mit ihren vielfältigen Inhalten entstehen konnte – und das nicht mit einem Schlage. Dabei können wir hier nur auf die großen Einschnitte in diesem verzweigten Prozessgeschehen hinweisen. Es ist ein wesentlicher Unterschied, ob ein erkennendes Nervennetz mit seinen Funktionen vererbt ist oder ob die Nervenzellgruppen durch Lernen vernetzt wurden und neu verschaltet werden können. Das Letztere erst macht die Lautbildung für kommunikative Zwecke adaptiv. Sicher scheint, dass die Vernetzung zwischen Bildern oder Vorstellungen und der Steuerung des Benennens über den zur Affenzeit noch inaktiven Fasciculus arcuatus erfolgt ist. Bereits die früheste assoziative Lautbindung an klassifizierte Objektmengen führt zu einem Wortschatz in Begriffen. (Man braucht keinen großen Umfang anzunehmen. Ein australischer Stamm, die Damin, verfügt über 200 Worte und bestreitet damit alle Anforderungen an eine konventionalisierte Umgangssprache.) Die assoziative Anbindung differenzierender, benannter Merkmale an die Wortstämme führt wie durch Affixe zu ihren Unterbegriffen, die Inhibition zu Oberbegriffen (s. Abbildung 55.3). So beginnen mentale Operationen im begrifflichen Wissensbesitz zu arbeiten und mit ihnen das Wechselspiel von Sprechen, Sprache und Denken. Es gibt, wie sogleich deutlich wird, Gründe anzunehmen, dass die Homo-erectus-Sprache fast grammatikfrei, d. h. eine nicht flektierende, agglutinierende S-V-O-Sprache im Sinne von Pinker (1996) und Bickerton (1996) und im Sinne der Protosprache von Herrmann und Grabowski (1994) gewesen sein muss. Die frühesten Grammatikelemente dürften mit den Wortstämmen verschmolzen sein und Information über Numerus, Genus und markante Attribute (die späteren Adjektive) enthalten haben. Eine der vermutlich ältesten und noch lebenden, eine Pygmäensprache, hat solche Bildungen. Das Altkoptische und das frühe Sumerische haben diese Modifikatoren im Schriftsprachlichen. Eine frühe flektierende Hochsprache wurde, wie erwähnt, aller Wahrscheinlichkeit nach während der Eem-Warmzeit von den Neumenschen des Cro-Magnontyps ausgebildet. Die Quellen ihrer Grammatik waren vermutlich schrittweise die semantischen Relationen der Ereignisbegriffe. Deren Assoziation mit Laut- (⫽ Wort-)marken eröffnet die

55. Phylo- und Ontogenese sprachlicher Kommunikation

Möglichkeit, über Vergangenes, über das Übermorgen, über Motive, über das Verursachte mitzuteilen. Konstruktives Denkhandeln am Gerät beinhaltet Gleichartiges, das Wissen um das Wenn-Dann und das Warum, – und darüber, was ICH kann. (Dieses ICH wäre ein Kapitel für sich.) Nun die Gründe: (1) Sämtliche bekannten Sprachen haben die Ausdrucksfähigkeit zumeist in Form einer HT-Sk-O-Kombination (Wer tut Was mit Wem). Es ist dies eine sprachliche Einkleidung der semantisch kombinierbaren Wurzeln der Ereignisbegriffe. Sie sind auch die Universalien in der die Menschheit umgebenden Welt. Es gibt einen Zusammenhang zwischen den Wanderungsbewegungen von Frühmenschengruppen und ihrer genetischen Ausstattung. Spontane Mutationen in der DNS der Mitochondrien gestatten zu ermitteln, in welchen zeitlichen Perioden sich Populationen getrennt haben (Cavalli Sforza, 1991). Mit diesen Trennungen gingen Gemeinsamkeiten der genetischen Ausstattung verloren – und auch die Ähnlichkeiten in den lautlichen Benennungen für äquivalente Begriffe in den verschiedenen Sprachen. Die Unterschiede wurden um so größer, je länger die zeitliche Distanz der Trennung wurde. Nach gut übereinstimmenden, genetischen und phonologischen Analysen hat diese Trennung im Zeitraum vor 150⫺120 Tj. stattgefunden, d. h. während der Eem-Warmzeit, der Zeit der frühen Neumenschen (Abbildung 55.8). (2) Die Konstruktionspläne für das Werkzeug der Cro-Magnon-Leute, das sind hierarchische, durch Teilziele gegliederte Kombinationen aus Teilprogrammen des Handelns. Das ist ähnlich den Kombinationen aus den „on-line“-Klammerungen in einem hierarchisch gegliederten Satzaufbau (s. Abbildung 55.5 (6 & 7), Beyer, 1991). Eine komplizierte Handlungsstruktur wird, so u. a. Bühler (1930), in aller Regel sprachlich begleitet. Das hat wohl auch mit der Nähe zwischen Broca-Zentrum und der Mund- und Kehlkopfmuskulatur zu tun. Kombinierendes Konstruieren im Denkhandeln verbindet begriffliches Wissen über Ereignisse und Ereignisfolgen, die in den semantischen Relationen der ‘behandelten’ Begriffe wurzeln. Sie werden zumeist in Form von Präpositionen ausgedrückt, und sie bilden nicht selten den ‘Kopf’ einer Phrase, die eine semantische Konfiguration bindet. Das ist auch die spä-

779

teste Errungenschaft in der kindlichen Sprachentwicklung, wie zuerst W. Stern (1952) erkannte. Zwischen dem 13. und 15. Lebensjahr ist diese Entwicklung abgeschlossen. (3) Die Ausbildung vokalisch modulierender Sprechweise beginnt mit 1;6, ziemlich gleichzeitig auch der aktive Begriffserwerb und mit ihm die Erkennung der ‘Nennfunktion’ der Sprache (Bühler, 1930). Um diese Zeit beginnt die Senkung des Kehlkopfes beim Kinde. Mit ihr entsteht die Gestaltbarkeit der Vokale (vgl. auch Jürgens in diesem Band). Diese Senkung ist am Ende der Pubertät abgeschlossen. Mit ihr liegt das charakteristische Timbre der individuellen Lautmodulierung beim Sprechen fest. Das Melos der Muttersprache ist für den Rest des Lebens nicht mehr zu verleugnen. In der gleichen Zeit liegt die Schlussphase der Zahnbildung. Mit ihr wird die Gebissform des Homo sapiens sapiens erreicht. Die charakteristischen Formen dieser Gebisse wurden bei Neumenschen vom Cro-Magnon-Typ gefunden. So kommen wir zu dem Schluss, dass die Evolution der menschlichen Sprache mit den Lautbildungen für die semantischen Wurzeln beobachtbarer Ereignisse begonnen hat. Die Erectus-Leute (vielleicht bis hin zum Neandertaler) sprachen ähnlich wie Broca-Aphasiker, wenn die Störung einigermaßen „rein“ und nicht stark von neusprachlich gebundenen Nebenphänomenen beeinflusst ist. Die kognitive Grundlegung der flektierenden Hochsprache war danach mit den konstruierenden Denkhandlungen der Neumenschen vom Cro-Magnon-Typ verbunden. Es gibt Evolutionsstränge für den Aufbau kognitiver Strategien für Problemlösen in verschiedenen Kontexten, für mathematische, musikalische und – sehr wahrscheinlich auch – für die Sprachgestaltung in selektiv wirksamen, biologisch kreativen Zeiträumen. Die Anfänge liegen in den assoziativen Vernetzungen zwischen Wahrnehmungsdingen großer Ähnlichkeit und benennenden Lautbildungen. Die Kombination von Lautbildungen und ihre freie Verkettung zu Worten ermöglicht die Genese eines frühen Lexikons für Objektbegriffe. Verkettungen von Ereignisbegriffen mit ihren semantischen Wurzeln führen zu Teilabschnitten von Wortbindungen im Satzaufbau (Pulvermüller & Schumann, 1994). Semantische Relationen werden oft durch spezifische Partikel, oft sog. Funktionsworte, kodiert. Sie werden so die am

780 meisten flexiblen Modifikatoren der Bedeutungsbildung in Sätzen. Mit ihrer Aneignung schließt der evolutionär gesteuerte Spracherwerb ab. Die durch soziale Beziehungsgeflechte bedingte Ausgestaltung der Sprachbenutzung ist ein Kapitel eigener Art, das neue Überlegungen erfordert.

15. Literatur Bayer, J. (1987). Form und Funktion von Kasus bei Agrammatismus. In Linguistische Berichte, Grammatik und Kognition (pp. 81⫺118). Opladen: Westdeutscher Verlag. Beyer, R. (1991). Untersuchungen zum Verstehen und zur Gestaltung von Texten. In F. Klix, E. Roth & E. van der Meer (Hrsg.), Kognitive Prozesse und geistigeLeistung. Berlin: Deutscher Verlag der Wissenschaften. Bickerton, D. (1996). Language and human behavior. Seattle: Washington Univ. Press. Bruner, H, (1974). From communication to language. A psychological perspective. Cognition, 3, 255⫺287.

VI. Spracherwerb Höhle, B. (1995). Aphasie und Sprachproduktion. Opladen: Westdeutscher Verlag. Holz, H. H. (1994). China im Kulturvergleich (Dialectica minora; Bd. 9), Köln: Dinter Verlag. Jackendoff, R. S. (1992). Languages of the mind. Cambridge, Mass.: MIT Press. Kleist, K. (1916). Über Leitungsaphasie und grammatische Störungen. Monatsschrift für Psychiatrie und Neurologie, 40, 118⫺199. Klix, F. (1992). Die Natur des Verstandes. Göttingen: Hogrefe. Klix, F. (1999). Begriffliches in der Sprachbenutzung. Manuskript, noch unveröffentlicht. Klix, F. (1999). Evolutionsschübe prägten Lernleistungen, Denken und Sprache. Bericht über den 41. Kongreß der Deutschen Gesellschaft für Psychologie. Lengerich: Pabst Science Publishers. Klix, F. & Lanius, K. (1999). Wege und Irrwege der Menschenartigen. Stuttgart: Kohlhammer. Lethmate, J. (1977). Problemlöseverhalten von Orang Utans. Hamburg: Parey Verlag. Lindauer, M. (1990). Botschaft ohne Worte. München: Piper Verlag.

Bühler, K. (1930). Die geistige Entwicklung des Kindes. Jena: G. Fischer.

Margulis, L. & Sagan, D. (1997). Leben. Heidelberg: Spektrum Verlag.

Calvin, W. H. (1998). Wie das Gehirn denkt. Die Evolution der Intelligenz. Heidelberg: Spektrum Akademischer Verlag.

Markl, H. (1996). Language and the evolution of human mind. Erasmus lecture. Academia Europaea, Barcelona.

Cavalli Sforza L. L. (1991). Genes, peoples and languages. Scientific American, 11, 72⫺79.

Mayr, E. (1997). Das ist Biologie. Heidelberg: Spektrum Akademischer Verlag.

Cheney D. L. & Seyfarth R. M. (1990). How monkeys see the world: Inside the mind of another species. Chicago: Univ. of Chicago Press. Chomsky, N. (1988). Language and problems of knowledge. Cambridge, Mass.: MIT Press. Cramon, Y. von (1997). Die Bedeutung der präfrontalen Hirnrinde für das Arbeitsgedäctnis von Primaten. Nova Acta Leopoldina, Bd. 76, No. 303, 265⫺284. Foppa, K. (1999). Das vergessene Gedächtnis: Über rezeptives Erinnern. Zeitschrift für Psychologie (in Vorbereitung).

Müller, H. M. (1990). Sprache und Evolution: Grundlagen der Evolution und Ansätze einer evolutionstheoretischen Sprachwissenschaft. Berlin: de Gruyter. Pinker, D. (1996). Der Sprachinstinkt. München: Kindler. Premack, D. (1976). Intelligence in ape and man. Hillsdale, NJ: Lawrence Erlbaum. Pulvermüller, F. & Schumann J. H. (1994). Neurobiological mechanisms of language acquisition. (Review Article). Language Learning, 44, 681⫺734.

Grimm, H. (1995). Sprachentwicklung ⫺ allgemeintheoretisch und differentiell betrachtet. In R. Oerter & L. Montada (Hrsg.), Entwicklungspsychologie (pp. 705⫺751). Weinheim: Beltz.

Renfrew, C. (1995). Die Sprachenvielfalt der Welt. Spektrum der Wissenschaft, 7, 72⫺78.

Hallpike, Chr. R. (1990). Die Grundlagen primitiven Denkens. Dtv/Klett-Cotta.

Rosch, E. H. (1975). Cognitive representations of semantic categories. Journal of Experimental Psychology: General, 104, 192⫺233.

Herrmann,Th. & Grabowski, J (1994). Sprechen. Heidelberg, Berlin, Oxford: Spektrum Akademischer Verlag.

Rickheit, G. (1991). Kohärenzprozesse. Opladen: Westdeutscher Verlag.

Stern, W. (1952). Psychologie der frühen Kindheit. Heidelberg: Quelle & Meyer.

56. Die Entwicklung der vokalen Kommunikation

781

Thorne, A. R. (1992). Multiregionaler Ursprung der modernen Menschen. Spektrum der Wissenschaft, 6, 80⫺88.

biologie: Grundlagen des Verhaltens. Stuttgart: Gustav Fischer Verlag.

Tinbergen, N. (1952). Instinktlehre. Hamburg: Parey Verlag. van der Meer, E. (1991). Zur Dynamik von Ereigniswissen. In F. Klix, E. Roth & E. van der Meer (Hrsg.), Kognitive Prozesse und geistige Leistungen (pp. 41⫺63). Berlin: Deutscher Verlag der Wissenschaften GmbH.

Wilson, A. S. & Cann, R. L. (1992). Afrikanischer Ursprung des modernen Menschen. Spektrum der Wissenschaft, 6, 72⫺80. Wilson, E. 0. (1998). Die Einheit des Wissens. Berlin: Siedler Verlag. Wolf, M. (1984). Prozedurale Erkennungsmechanismen von Begriffsbeziehungen. Diplomarbeit, Humboldt-Universität. Unveröffentlicht.

Vogel, Chr. (1989). Vom Töten zum Mord. München, Wien: Hanser Verlag.

Friedhart Klix, Humboldt Universität Berlin (Deutschland)

Vogel, Chr. & Eckensberger, L. (1988). Arten und Kulturen ⫺ Der vergleichende Ansatz. In Psycho-

56. Die Entwicklung der vokalen Kommunikation 0. 1.

4.

Einleitung Attraktivität vokalischer Strukturen und IDS Reziprozität und Intentionalität: Grundlagen der Konversation Der Übergang zum sprachlich geführten Dialog Literatur

0.

Einleitung

2. 3.

Im Zeitraum von der Geburt bis etwa zum 12. bis 16. Lebensmonat baut das Kind grundlegende Strukturen seiner Sprache für ihre phonetisch-phonologische, grammatische, lexikalische, semantische und pragmatische Repräsentation auf. Man spricht von vokaler Kommunikation, weil die eigentliche lexikalisch-grammatische „Transportschicht“ der Sprache vom Kind noch nicht genutzt werden kann. Das Kind erfährt in diesem frühen Lebensabschnitt, dass Sprechen ein natürlicher und notwendiger Bestandteil des gemeinsamen Miteinanders ist. Es beginnt mit dem Erlernen seiner Umgebungssprache, indem es zunächst von den gehörten Sprachstrukturen seiner engsten Bezugspersonen die klanglichen Qualitäten in ihrer situativen Pragmatik unter Einbeziehung anderer Sinnesreize zu dekodieren lernt. Denn von Geburt an werden Säuglinge mit einem „kommunikativen Angebot“ konfrontiert, das die auditive, visuelle und taktile Wahrnehmung mit anspricht. Die stimmlichen Komponenten der mütterlichen kommunikativen Zu-

wendung (zu etwa 95 % sind Mütter die primären Bezugspersonen) haben dabei eine zentrale Funktion: sie kanalisieren die kindliche Aufmerksamkeit im kommunikativen Austauschprozess auf klanglich-vokalische und schließlich auf die typischen phonematischen Strukturen ihrer Sprache. Mütter wissen dies intuitiv. Sie stimmen ihr Lernangebot fein auf die kindlichen Kommunikationsfähigkeiten und -bedürfnisse ab. Nachfolgend werden die in diesem Alterszeitraum sich vollziehenden grundlegenden Entwicklungen dargestellt, die man auch als einen kanonischen Rahmen für den Erwerb der Sprache ansehen kann. Im ersten Abschnitt geht es um eine Herausarbeitung der Bedeutung der vokalischen Strukturen, die das Kind in der kommunikativen Interaktion täglich von der Mutter hört. In den folgenden Abschnitten werden die Voraussetzungen für die Teilnahme an der dialogischen Interaktion beschrieben. Weiterhin wird aufgezeigt, wie das Kind beginnt, regelgeleitet und verbal am dialogischen Austauschprozess teilzunehmen. Als vokalische Äußerungen werden in diesem Beitrag solche Strukturen verstanden, die noch nicht als konventionell-sprachliche Äußerungen identifiziert werden können (z. B. Äußerungen, die aus einem langen Vokal, einer einsilbigen Lautverbindung oder aus Silbenwiederholungen bestehen). Verbale Äußerungen sind hingegen konventionelle Wortstrukturen, die jedoch noch lautliche Abweichungen aufweisen können (z. B. „Dall“ für „Ball“ oder „Ada“ für „Auto“).

782

1.

VI. Spracherwerb

Attraktivität vokalischer Strukturen und IDS

Untersuchungen zur auditiven Wahrnehmung des Säuglings, insbesondere zu seinen Reaktionsweisen auf die gehörte Sprache der Mutter, haben in den letzten Jahren gezeigt, dass die „Entwicklungslinie der Sprache“ bereits beim ungeborenen Säugling beginnt. Im ersten Lebensjahr findet dann ein sog. Einhören auf die jeweilige Muttersprache des Kindes statt. Die permanente Einbindung des Sprechens (also hörbarer vokalischer Strukturen neben visuell und taktil wahrnehmbaren Komponenten) in die auf kindliche Bedürfnisbefriedigung ausgerichtete MutterKind-Interaktion legt die Grundlage für die Erfahrung, dass Sprechen Bestandteil der alltäglichen Kommunikation ist. Für die an das Kind gerichtete Sprache werden in der Literatur die Begriffe IDS (Infant Directed Speech) und auch CDS (Child Directed Speech) verwendet. Als grundlegend können die Untersuchungen von Werker, Pegg und Jusczyk (Jusczyk, 1997) angesehen werden. Sie zeigten auf, dass Säuglinge von Geburt an darauf vorbereitet sind, irgendeine sprachspezifische Auswahl aus dem möglichen Vorrat an phonetischen Kontrasten zu treffen. Nachfolgend sollen die wichtigsten Ergebnisse aus diesen Untersuchungen dargelegt werden. Fötale Kinder haben bereits Erfahrung mit der mütterlichen Stimme, die nach Ruben (1992) als eine Art rudimentäres Hintergrundwissen nach der Geburt zur Verfügung steht. Neugeborene (jünger als 24 Stunden) verändern nach DeCaspar und Fifer et al. (bei Wegener, 1996) ihr Saugverhalten an einem Schnuller, um die mütterliche Stimme anstatt einer fremden zu hören. Sie antworten mit einer Verlangsamung der Herzschlagfrequenz auf das Hören der mütterlichen Stimme. Die nach der Geburt einsetzende MutterKind-Interaktion ist somit kein Neubeginn, sondern die Fortsetzung eines Austauschprozesses. Die mütterlichen kommunikativen Angebote sind genau auf die kindlichen Voraussetzungen zugeschnitten, denn der Säugling braucht eine soziale Umwelt, die seine Signale lesen und darauf angepasst reagieren kann. Die mütterliche Zusprache erfüllt diese Anfordeungen in hervorragender Weise, denn sie enthält typische Kategorien melodischer Konturen, z. B.:

steigend ⫽ „Nah?“ fallend ⫽ „Nnn, „Oooh“, „Is jaaaa guuut“ steigend-fallend ⫽ „Guck!“, „Oh“ fallend-steigend ⫽ „Ja was denn?“, „Ooooh“ flach ⫽ „Nnnn“ komplex ⫽ „Nnnnn“ (Beispiele nach Wegener, 1996). Während der ersten 40 Minuten nach der Geburt sprachen Mütter in einer höheren durchschnittlichen Sprechhöhe, einer mittleren maximalen Tonhöhe, einer mittleren niedrigeren Tonhöhe und mit kürzeren Äußerungen. Wegener (1996) bestätigte die u. a. von Stern (1992) und Papousek (1996) dargestellten charakteristischen Merkmale der Babysprache: ⫺ Sprechen mit einer höheren durchschnittlichen Sprechhöhe, ⫺ Ausweitung der mittleren Stimmlage und dadurch mit ⫺ einer größeren Spannweite des Tonhöhenbereiches, ⫺ Verkürzung der Äußerungen, ⫺ verlangsamtes Artikulationstempo, ⫺ Entwicklung von prototypischen Melodien, ⫺ Vereinfachung der Syntax und der lexikalischen Komplexität. Nach Kuhl und Meltzoff (1997) ist die Babysprache in hohem Maße vokaldurchdrungen („vowel-drenched“). Die vokalischen Komponenten erscheinen als vordergründige perzeptive Momente, da sie wegen des verlangsamten Sprechtempos länger präsent sind. Hinsichtlich der Wahrnehmungswirkung der an das Kind gerichteten Babysprache sind insbesondere folgende Ergebnisse von hoher Bedeutung. Pegg et al. (1992) untersuchten 20 Säuglinge im Alter von durchschnittlich 7 Wochen in Bezug auf ihre Bevorzugung von IDS (Infant-Directed-Speech) gegenüber ADS (Adult-Directed -Speech). Sie fanden, dass bereits 7 Wochen alte Säuglinge zwischen der IDS und ADS unterscheiden und sich aufmerksamer der IDS zuwenden. Sie fanden weiter, dass sie gegenüber der ADS die IDS bevorzugen, die von einer männlichen Person gesprochen wird. Alle Kinder bevorzugten jedoch innerhalb der IDS diejenige, die von einer Frau gesprochen wurde. Die Autoren führen dies auf einen größeren affektiven Gehalt der mütterlichen Sprache und die längere Erfahrung mit einer Frauenstimme von Geburt an zurück.

56. Die Entwicklung der vokalen Kommunikation

783

Die eingangs genannten Untersuchungen erbrachten speziell auf der phonetisch-phonologischen Analyseebene den Nachweis, dass Säuglinge eine Kapazität zur Diskrimination von Sprachlauten auf der Basis verschiedener phonetischer Dimensionen wie Stimmhaftigkeit, Artikulationsort und Artikulationsart haben. Damit verfügen sie über perzeptive Fähigkeiten zur Unterscheidung phonetischer Kontraste aus irgendeiner Sprache. Weiterhin scheinen Säuglinge fähig zu sein, akustische Variabilitäten zu tolerieren, die z. B. beim Wechsel der Sprechgeschwindigkeit auftreten oder bei verschiedenen Sprecherstimmen eine Rolle spielen. Sie haben offensichtlich – analog zu perzeptiven Fähigkeiten im visuellen Bereich – eine perzeptive Konstanz für Sprachlaute sehr früh entwickelt. Damit wären die fundamentalsten Voraussetzungen gegeben, eine Sprache zu lernen. Denn sie zu lernen bedeutet zu erfassen, welche Arten von Unterscheidungen bei bestimmten Äußerungen für die erfolgreiche Kommuniaktion von Bedeutung sind und welche nicht. Ein wichtiges Orientierungsmerkmal für die Erfassung der Gliederung des Sprechens in kommunikative Sinneinheiten ist beispielsweise die prosodische Struktur. Brousseau et al. (1996) untersuchten Beziehungen zwischen prosodischen Merkmalen der mütterlichen Sprache (Pausenstruktuierung und Variationen in der Grundfrequenz) und dem Verhalten bei 14 Säuglingen im Alter von 4 Monaten in der sog. „Faceto-face“-Interaktion. Das kindliche Verhalten wurde in folgenden Kategorien analysiert: Blick zur Mutter mit „neutralem“ Ausdruck, Blick mit Lächeln und/oder Vokalisationen (positiver Ausdruck), gemeinsame Ausrichtung der Aufmerksamkeit auf ein Objekt und Wegblicken. Das mütterliche Verhalten wurde in Bezug auf folgende Merkmale analysiert: Anzahl der Äußerungen mit Wörtern konventioneller Bedeutung, Äußerungen ohne konventionelle Bedeutungen (u. a. Onomatopoetika, Nachahmungen der kindlichen Laute), Lautgeräusche ohne konventionelle Bedeutung (Zungengeräusch, Kussgeräusch), Flüstern, Lachen, Pausen ohne Vokalisationen. Sie fanden, dass das mütterliche Verhalten für das Kind vorhersagbar gestaltet wird. Die Mütter produzierten länger Lautgeräusche ohne konventionelle Bedeutung, wenn das Kind lächelte und/oder positiv vokalisierte. In Situationen gemeinsamer Aufmerksamkeit produzierten Mütter mehr Äußerungen mit einer konventionellen Bedeutung. Und wenn

die Säuglinge nicht aufmerksam waren, machten die Mütter längere Pausen und flüsterten. Nelson et al. (1989) gehen aufgrund ihrer Ergebnisse davon aus, dass die Babysprache (motherese) einen fundamentalen Beitrag zum Erlernen der Syntax liefert. Sie untersuchten 32 Säuglinge im mittleren Alter von 8 Monaten in Bezug auf die Wahrnehmung der Babysprache und der Sprache, die Erwachsene untereinander an sich richten. Diese wurde wiederum in zwei Varianten gesprochen: einmal in der sog. ‘Coincident’Variante und ein andermal in der ‘Non-coincident’-Variante. In der ersten Version begann und endete die Zusprache an normalen Satzgrenzen. Sie wurde aber dahingehend verändert, dass eine 1-Sekunden-Pause bei allen dazwischen liegenden Satzgrenzen erschien. In der zweiten Version begann und endete die Zusprache in der Mitte eines Satzes, und es wurde die gleiche Anzahl von 1Sekunden-Pausen innerhalb von Sätzen eingefügt. Beispiel für die erste Version: Cinderella lived in a great big house / but it was sort of dark / because she had this mean, mean, mean stepmother. / And … Beispiel für die zweite Version: … in a great big house but it was / sort of dark because she had / this mean, mean, mean stepmother. And … Es konnte ermittelt werden, dass Säuglinge sich häufiger in die Richtung wenden, aus der die Sprache mit den Satzgrenzen-Pausen wahrzunehmen war. Sie wendeten sich ihr auch länger zu. Der gleiche Effekt, jedoch geringer ausgeprägt, war bei der Zusprache mit Erwachsenensprache zu beobachten. Die Autoren folgern, dass die Babysprache dazu beiträgt, die Sprache in perzeptive Einheiten zu gliedern, die mit der syntaktischen Gliederung von Sätzen übereinstimmt. Diese Sensitivität für Satzeinheiten kann als grundlegend für den Spracherwerb angesehen werden. Der Sprach-Input wird mit den Mitteln der Prosodie von der Mutter in linguistisch relevante Einheiten gegliedert. Dies erleichtert das Erlernen der Sprache. Die Autoren vermuten, dass prosodische Merkmale beim älteren Säugling dazu beitragen, Hinweise zur Unterscheidung von neuer und gegebener Information zu liefern. All diese Untersuchungen zeigen, dass der Säugling bereits am Ende des ersten Lebensjahres die von Geburt an gehörten vokalischen

784 Strukturen als typische auditive „Transportformen“ der Kommunikation erkennen kann. Wenn bereits zu dieser Zeit ein Wort als zur Muttersprache zugehörig erkannt werden kann, beruht dies nämlich auf folgenden Leistungen: ⫺ Einem „Erkennen“, dass die Lautstruktur des Wortes nur Laute aufweist, die für die Muttersprache typisch sind. Für den englischsprachig aufwachsenden Säugling gehören z. B. die Umlaute nicht zum Lautbestand („spät“, „über“ usw. würden als fremd klassifiziert). ⫺ Einem „Erkennen“, dass die Lautanordnung innerhalb des Wortes der Phonotaktik der Muttersprache entspricht. Für den englischsprachig aufwachsenden Säugling ist z. B. ein Wortanfang mit zwei Verschlusslauten wie im Russischen das Fragewort „Kto“ fremd. ⫺ Einem „Erkennen“, dass die prosodische Struktur ebenfalls Konturen der Muttersprache aufweist. Wiederum für den englischsprachig aufwachsenden Säugling ist z. B. der Wechsel des Betonungsmusters, das aus einer Abfolge von einer stark und einer schwach betonten Silbe besteht, typisch. Vihman et al. (1998) analysierten frühe Wörter und Lalläußerungen bei 9 englisch- und 5 französischlernenden Kindern im Alter von 13⫺20 Monaten in Bezug auf die Frage, ob sich eine universelle Neigung zu einem trochäischen Betonungsmuster (stark/schwach) gegenüber dem in der englischen Sprache nur selten auftretenden jambischen Betonungsmuster (schwach/stark) in der frühen Wortproduktion nachweisen lässt. Sie fanden, dass weder die englischsprachigen noch die französischsprachigen Säuglinge ausschließlich trochäische Vokalisationen zeigten. Dies lag daran, dass im Input der amerikanischen Kinder auch jambische Phrasen vorhanden waren. Auch die Unterschiede zwischen englischen und französischen Kindern ließen sich auf den unterschiedlichen Input zurückführen. Diese Ergebnisse zeigten, dass die Erwachsenensprache die prosodische Struktur liefert, die die Lernbasis für das Kind darstellt. Jedes Kind bildet auf Basis der gehörten Erwachsenensprache eine „Schablone“ (template) für die Bildung seiner ersten Wortproduktionen. Diese Schablone ist eine Art Artikulationsfilter. Sie haben eine individuelle Struktur, da sie sich auf der Basis einer spezifischen Sensitivität und Neigung (proclivity)

VI. Spracherwerb

bilden. Solch eine Schablone reflektiert die Aufmerksamkeit auf einzelne zweisilbige Wörter im Input und liefert dem Kind ein gebrauchsfähiges Muster für die Wahrnehmung zusätzlicher Wörter. Das, was das Kind hört, wird durch die Schablone „gefiltert“. Die Untersuchungen zeigten, dass Mütter nach der Geburt ihres Kindes mit ihrer fein auf die Wahrnehmungsvoraussetzungen abgestimmten Babysprache das Ziel einer Sprachspezifizierung vorgeben. Spätestens bis zum 9. Monat „weiß“ das Kind, welche Lautkontraste in seiner Umgebungssprache typisch sind. Sie absorbieren sozusagen Informationen aus den Lautstrukturen der Sprache ihrer primären Bezugsperson(en). Dies beruht immer auf einem Wechselspiel zwischen Input und perzeptiven Analysekapazitäten. Sie entdecken in einer sehr kurzen Periode, welche kritischen Merkmale diejenigen sind, die in ihrer Muttersprache typisch sind. Somit kann es eine Fremdsprache von der Muttersprache unterscheiden. Untersuchungen haben weiterhin ergeben, dass Säuglinge schon sehr früh (etwa im 5. Monat) die Erfahrung gesammelt haben, dass gesehenes und gehörtes Sprechen zusammengehören. Sie „wissen“ z. B., dass der hörbare Vokal [a] zu einem Mundbild mit weit geöffneten Lippen gehört (nach Kuhl & Meltzoff bei Dornes, 1993). Im 9. Monat haben sie auch schon gelernt, dass ein bestimmter Wort-Rhythmus typisch für die Muttersprache ist, z. B. dass die häufig in der frühen Angebotssprache erscheinenden Zweisilber (im Deutschen z. B. „Ente“, „Puppe“, „Eimer“, „Tasse“ usw.) die wortinterne Betonungsstruktur „HebungSenkung“ aufweisen (Jusczyk, 1997). Auch auf der produktiven Seite lassen sich bereits vor Vollendung des 1. Lebensjahres verschiedene Kategorien von Intentionen anhand stimmlicher Äußerungen nachweisen. D’Odorico (bei Locke, 1995) konnte bei Säuglingen im Alter von 4⫺8 Monaten drei Lautkategorien nachweisen: Laute des Unzufriedenseins (discomfort sounds), Ruflaute (call sounds) und Laute des Forderns (request sounds). Die Forderungs-Laute wiesen bei allen Säuglingen eine interne Konsistenz hinsichtlich der akustischen Merkmale Grundfrequenz, melodische Kontur und Dauer auf.

2.

Reziprozität und Intentionalität: Grundlagen der Konversation

Eine grundlegende Voraussetzung für die regelgeleitete dialogische Interaktion sind die Prinzipien der Wechselseitigkeit und Ab-

56. Die Entwicklung der vokalen Kommunikation

785

sichtsbezogenheit. Um seine kommunikativen Ziele zu verwirklichen, muss dem anderen Partner wechselseitig eine Rolle im Gespräch zugewiesen werden, und derjenige, der die Kommunikation eröffnet, muss irgendein Ziel in Bezug auf das kommunikative Geschehen haben. Der Säugling lernt im Laufe der ersten Monate, dass man Ziele haben kann (Lernen, was man außerhalb der elementaren Bedürfnisse wollen kann), dass diese über einen Kommunikationspartner mit kommunikativen Mitteln realisierbar sind und dass dieser kommunikative Akt bestimmten Regeln folgt. Harris (1992: 58) analysierte die MutterKind-Interaktion bei 8 Kindern im Alter von 7, 9 und 16 Monaten. Sie fand, dass in allen Altersbereichen das Verhältnis von mutterinitiierten und kindinitiierten Episoden nahezu konstant blieb. Zwei Drittel aller Interaktionen (sprachlich oder nichtsprachlich eingeleitet) wurden vom Kind initiiert. Mit 9 Monaten beginnt eine typische kindinitiierte Episode, indem die Mutter das Tun des Kindes kommentiert und gleichzeitig dazu etwas ausführt, was sich auf das Geäußerte bezieht. Mit 16 Monaten werden nur noch zu etwa 50 % der kindlichen Initiativen zusätzliche Aktionen angeboten. Das Kind versteht dabei nicht, was die Mutter sagt, aber die Aktion, die sie beschreibt, war vom Kontext her vorhersagbar. Im Rahmen dieses vorhersagbaren Kontextes ist es der Mutter auch möglich, zukünftige Aktionen zu kommentieren, die in Kürze mit einem Objekt ausgeführt werden, auf das das Kind seine Aufmerksamkeit richtet. Mit 16 Monaten beziehen sich fast 80 % der mütterlichen Äußerungen auf ein Objekt, auf das das Kind seine Aufmerksamkeit im Moment der Äußerung ausrichtet. Diese Ergebnisse fand auch Masur (bei Harris), nach denen die Mutter zwischen 73 % und 96 % ihrer Äußerungen auf das Spielzeug bezieht, mit dem das Kind gerade spielt. Diese Situationsbezogenheit erfordert ein ausgeprägtes „Monitoring“ („Überwachen“) der Aktionen des Kindes, aber auch einen „Eintritt“ in die kindliche Welt. Bruner (1987: 102) nimmt ein sog. Spracherwerbs-Hilfssystem (LASS, Language Acquisition Support System) an, das nicht nur sprachlicher Natur ist. Es ist ein Hilfssystem, das die Interaktion so formt, dass es dem Kind möglich wird, die Verwendung der Sprache zu lernen. Dieses System bereitet den Spracherwerb funktional vor, indem standar-

disierte Interaktionsmuster mit Rollenzuweisungen (sog. Formate) zwischen Erwachsenem und Kind ablaufen. In diesen Formaten hat die Mutter zwei Ziele: (1) Ein sprachliches Ziel. Sie zeigt dem Kind, dass die sprachliche Äußerung für etwas steht. (2) Ein pragmatisches Ziel. Sie zeigt, dass der Gebrauch der Sprache bestimmten Zwecken dient. Genau diese Formate geben die Basis für die Spechakte ab. D’Odorico et al. (1997) verweisen auf Untersuchungen, die nachwiesen, dass 10monatige Säuglinge bereits eine Bevorzugung für einen bestimmten Typ zeitlicher Beziehung zwischen Blickkontaktsuche (gaze) und Vokalisation zeigen: eine Koordination in Form eines gleichzeitigen Beginns von Blickkontakt und Vokalisation oder in Form eines der Vokalisation vorausgehenden Blickkontaktes. Diese Technik ermöglicht dem Kind, die Aufmerksamkeit der Mutter auf sich zu ziehen, bevor die eigentliche Botschaft gesendet wird. Weiterhin wird signalisiert, dass die nachfolgende Vokalisation für die Mutter bestimmt ist. In ihren eigenen Untersuchungen analysierten sie das Blickverhalten von Kindern im Alter von 1;0 und 1;8 Jahren in Spielsituationen mit der Mutter, wenn sie sich mit Vokalisationen und später verbal an die Mutter wandten. Sie fanden, dass Kinder im Alter von 1;0 überwiegend zu Beginn ihrer vokalen Zuwendung zur Mutter blicken, während Kinder im Alter von 1;8 überwiegend am Ende ihres vokalen Turns zur Mutter blickten. Sie konnten weiterhin eine Beziehung zum Umfang der Sprachproduktion im Alter von 1;8 und der Häufigkeit des Anblickens der Mutter vor dem vokalen Turn im Alter von 1;0 ermitteln. Im Alter von 1;0 (während der Objekterkundung) produziert das Kind zahlreiche Vokalisationen, die nicht partnergerichtet sind. Für das Kind ist es nun wichtig, durch das Ansehen des Partners diese nichtpartnergerichteten Vokalisationen von den partnergerichteten zu unterscheiden, um sicher zu gehen, dass man eine Reaktion erhält. Nachdem das Kind das Prinzip der Wechselseitigkeit in der verbalen Interaktion erfasst hat, blickt es am Ende des Turns zur Mutter, um den Kanal für einen Fortgang offen zu halten.

786

VI. Spracherwerb

Im Alter von etwa 9 Monaten, der Zeitraum, in dem die Objekte im Wahrnehmungsfeld als konstante Einheiten wahrgenommen werden, ändert sich auch die Rolle der Mutter für das Kind. Sie wird als ein Partner angesehen, mit dessen Hilfe eigene Absichten erfüllt werden können. Die Mutter ist nicht mehr nur eine Quelle der eigenen Bedürfnisbefriedigung, bei der das Kind im Mittelpunkt steht, sie wird nun auch als ein Mittel angesehen, um bestimmte Ziele zu erreichen. Das Kind erkennt die Rolle der Mutter als einen Empfänger, den man steuern kann (Trevarthen, 1980)

3.

Der Übergang zum sprachlich geführten Dialog

Rochat et al. (1999) untersuchten das Interaktionsverhalten von 30 2-, 4- und 6-monatigen Säuglingen, während sie mit einem fremden Erwachsenen ein strukturiertes und unstrukturiertes „Peekaboo“-Spiel ausführten. „Peekaboo“ ist ein beliebtes Spiel für Säuglinge und Kleinkinder (eine Person versteckt ihr Gesicht, zeigt es plötzlich und ruft dabei „peekaboo“, entspricht etwa „hier bin ich“). Ziel der Untersuchung war zu ermitteln, inwieweit junge Säuglinge sensitiv für die zeitliche Struktur dieser organisierten und nichtorganisierten Protokonversation sind. Unter der fest strukturierten Bedingung wurde das Spiel in einem zeitlichen Rhythmus über 60 Sekunden wiederholt: [1] Gesicht vorzeigen und „Schau, Schau, Schau“ äußern, [2] „Peekaboo“ rufen (zusätzlich Hände nach oben, dann runter), [3] „Ja“ äußern. Unter der nichtorganisierten Bedingung wurden die drei Einheiten innerhalb der 60 Sekunden wahllos kombiniert. Es zeigte sich, dass 2-monatige Kinder ein undifferenziertes Anlächeln und erstauntes Anstarren (gazing) unter beiden Bedingungen aufwiesen. 2-monatige zeigten eine soziale Aufgeschlossenheit gegenüber einem Fremden, aber noch nicht gegenüber der Struktur der Konversation. 4-monatige zeigten unter der unstrukturierten Bedingung ein geringeres Lächeln und mehr Anstarren. Dies könnte als ein erster Ausdruck einer Unterscheidung zwischen einer mehr oder weniger bedeutungsvollen dyadischen Struktur interpretiert werden. Viermonatige werden sensibel für die Qualität des sozialen Austausches, speziell, ob er mehr oder weniger vorhersagbar, d. h. folglich mehr oder weniger bedeutungsvoll ist.

Sie werden sensitiv für den „narrativen Rahmen“, der vom Partner in Form einer organisierten Ablaufstruktur von kombinierter auditiver und visueller Stimulation geliefert wird. Sie zeigten eine Sensitivität für intermodale Invarianten (zeitlicher Ablauf), die eine Konversation spezifizieren. Sie zeigten damit auch, dass sie die Grundstruktur für die Erzeugung sozialer Erwartungen entwickelt haben, innerhalb derer soziale Partner unterschieden werden können. Der narrative Rahmen enthält ein spezielles Muster einer Spannung oder Vitalitätskontur. Sie zeichnet sich durch einen Anfang (Anstieg), eine Mitte (Spannungsgipfel) und ein Ende (Spannungsabfall) aus. Das organisierte (strukturierte) „Peekaboo“-Spiel entspricht exakt diesem Muster. Es hat sich wiederholende Gesten, spezielle Vokalisationen und übertriebene Gesichtsmimik. Dieses Spiel wird zeitlich gut proportionert und enthält deutliche Pausen oder einen kontrastreichen Wechsel zwischen den Wiederholungen. Golinkoff und Gordon (1988) analysierten die Kommunikation zwischen Mutter und Kind während der Mahlzeiten bei 3 Kindern in der Phase des Übergangs zur verbalsprachlichen Kommunikation im Alter von 1;0 bis 1;7 Jahren in jeweils drei Erhebungen. Die Frage war, wie das Kind vorgeht, um seine Intentionen zu vermitteln, und wie die Mutter auf diese Formen reagiert. Sie analysierten die kindlichen und die mütterlichen Anschluss-Äußerungen in zwei Formen des kommunikativen Ablaufes: in Dialogen, in denen die initiative kindliche Äußerung von der Mutter sofort verstanden wurde („immediate success“ – episodes) und in Dialogen, in denen eine Klärung („negotiation“) der initiativen kindlichen Äußerung folgte, weil sie nicht verstanden wurde. Sie fanden, dass in Dialogen, in denen die Mutter die kindliche Äußerung verstand, die mütterlichen Folgebeiträge zu 74 % einen zusätzlichen verbalen Kommentar enthielten. Davon entfielen auf Reformulierungen 19 % (die Mutter formuliert die kindliche Absicht in sprachliche Äußerungen um, z. B. wenn das Kind plötzlich auf eine Uhr zeigt, Laute äußert und dann zur Mutter blickt und sie mit „Das ist eine Uhr“ reagiert), Expansionen und Wiederholungen 25 % und sog. Continuations of topic 29 %. 26 % waren nichtsprachliche Reaktionen. Wenn die Mutter die Intentionen ihres Kindes verstanden hat, „wählt“ sie zwischen 3 Formen:

56. Die Entwicklung der vokalen Kommunikation

787

(1) Sie reagiert nonverbal. (2) Sie setzt das Thema fort (z. B. bietet sie das geforderte Objekt an, dankt dem Kind, nachdem es etwas übergeben hat, oder sie rechtfertigt eine Weigerung des Kindes, bei etwas einzuwilligen); dies zeigt dem Kind implizit, dass seine Intention erfolgreich übermittelt wurde. (3) Sie bietet Äußerungen aus den sog. „didaktischen“ Kategorien an: Reformulierungen, Expansionen und Wiederholungen.

reichen: einmal das Herstellen der Aufmerksamkeit und ein andermal das Lenken der Aufmerksamkeit auf einen gemeinsamen Fokus. Das Kind beginnt mit einer „pragmatischen Verwendung der Sprache“, indem es zwei Aspekte der Sprachverwendung unterscheiden kann: die Teilnehmer-Seite (für verschiedene interaktive Formate, in der Regel vom Erwachsenen realisiert) und die Notwendigkeit, gegenseitig die Aufmerksamkeit zu regulieren, um sicherzustellen, dass die fundamentale Bedingung für Intersubjektivität gewährleistet wird. Für die mütterlichen Aktivitäten in diesem Austauschprozess gebraucht Bruner (1985) den Begriff „scaffolding activities“. Er besagt, dass das Kind in der alltäglichen Interaktion spontan so viel tun kann, wie es bereits in der Lage ist. Was es jedoch noch nicht tun kann, wird von der Mutter hinzugefügt oder in sog. „Stütz- oder Gerüstformen“ bereit gehalten. Wenn das Kind beispielsweise noch nicht auf eine Frage nach dem Namen eines Objektes mit einer Benennung reagieren kann, akzeptiert sie das, was das Kind tut (irgendein Lautgebilde produzieren), liefert aber im Anschluss das richtige Lautklanggebilde als Modell. Murray et al. (1990) beschreiben die Veränderungen des mütterlichen „Vorgehens“ am Beispiel der Äußerungslänge. Sie untersuchten 14 Mutter-Kind-Paare im Alter von 3, 6 und 9 Monaten in Bezug auf die Frage, ob sie ihre Äußerungslänge (gemessen in MLU, auf der Basis Morpheme pro Äußerung) im Sinne einer Anpassung an die sich im 2. Halbjahr des ersten Lebensjahres vollziehende Entwicklung in den kommunikativen Fähigkeiten des Kindes verändern (fein abstimmmen). Ausgehend davon, dass in der zweiten Hälfte des 1. Jahres Kinder beginnen, einzelne Wörter zu verstehen und Gesten intentional zu verwenden, ist anzunehmen, dass sich auch Mütter diesem Entwicklungsschritt in ihrer „Sprachjustierung“ anpassen. Sie fanden, dass sich die Zusprache im Laufe des 1. Jahres ändert. Während die Zusprache in den ersten Lebensmonaten als „gross-tuning“ (grobe Abstimmung) an die soziale und affektive Responsivität zu kennzeichnen ist (ähnliche Verhaltensweisen findet man auch beim Sprechen von Erwachsenen zu Haustieren), kann man im zweiten Halbjahr des 1. Jahres von „fine-tuning“ sprechen. Mütter reagierten, als ob das Kind Wörter gesprochen hat, und sie reduzierten die mittlere Äu-

In Dialogen, in denen sie das Kind nicht verstanden hat, folgen fast ausschließlich Reformulierungen in Frageform (z. B. „Du willst den Käse?“). Solche Situationen entstanden überwiegend dann, wenn das Kind ein Objekt haben wollte, aber die Mutter im unmittelbaren Umfeld nicht ausmachen konnte, welches Objekt es haben wollte. Ninio und Snow (1996) schreiben den schon wortähnlichen Äußerungen im Alter von 10 bis 12 Monaten mehr eine soziale als eine pragmatische Funktion zu. Äußerungen in diesem Alter werden hauptsächlich verwendet, um zwei fundamentale Ziele zu erreichen: (1) um gleichberechtigt an einigen sozialen Aktivitäten teilzunehmen. Dies wird mit sog. kontextabhängigen Äußerungen erreicht. Ihre Bedeutung hängt von der aktuellen Handlung im interaktiven Kontext ab. Sie sind nur in der konkreten Interaktion mit einem Partner sinnhaltig. Z. B. ermöglichen sog. Spiel-Laute, an interaktiven Routinen teilzunehmen (einige Kinder steigen ein mit Reaktionen auf Fragen wie „Wie macht der Hund?“, andere imitieren ein Hahngeräusch). Ihre spezifische Identität ist unbedeutend. Sie haben keine Probleme, diese sprachlich bedeutungslosen Laute zu lernen, weil ihre soziale Bedeutung im Kontext klar ist. Deshalb sollten die frühen Objekt-Namen-Reaktionen (z. B. auf „Wie macht der Hahn?“) als Signale der Teilnahme klassifiziert werden, da ihr Status als reale Benennung fragwürdig ist. (2) um die Intersubjektivität mit anderen zu sichern bzw. einen Zustand gegenseitiger Aufmerksamkeitszuwendung zu erreichen. Dieses Ziel kann als pragmatisches Ziel angesehen werden. Das Kind verwendet einen kleinen Bestand spezifischer kommunikativer Akte, um gegenseitige Aufmerksamkeit zu er-

788 ßerungslänge (nicht die Anzahl der Äußerungen), um ein gut antizipierbares Wort-Modell bereitzustellen. Sie ermittelten weiter, dass sich die mütterliche Feinabstimmung im zweiten Halbjahr des 1. Jahres gut eignet, um rezeptive Sprachfähigkeiten im Alter von 1;6 des Kindes vorherzusagen. Pine et al. (1997) fanden einen Zusammenhang zwischen dem mütterlichen Sprachgebrauch und dem Zeitpunkt, zu dem der kindliche Gebrauchswortschatz 10 Wörter umfasste (1;2) und dem Zeitpunkt, als der kindliche Gebrauchswortschatz 50 Wörter umfasste (1;5). Sie verweisen auf Ergebnisse aus der Literatur, nach denen Kinder, deren Mütter die Sprache mehr beschreibend als direktiv verwenden, einen höheren Anteil von Substantiven in ihrem frühen Vokabular aufweisen. Dies liegt daran, dass sie dadurch eine bestimmte „Sicht“ auf die Sprache, eine Betrachtung als ein Werkzeug zur Beschreibung und Kategorisierung und weniger als ein Mittel zur Beeinflussung ihrer Umgebung, von ihrer Mutter erworben haben. Ein derartiger Gebrauchsstil befördert das kindliche Erlernen von Substantiven, da Mütter in die Beschreibungen Substantive einbeziehen und diese so modellieren, dass sie eine gute Erkennung einer Übereinstimmung zwischen Wort und den durch das Wort abgebildetem Objekt ermöglichen. In ihren Untersuchungen analysierten sie den mütterlichen und kindlichen Sprachgebrauch nach dem Anteil von Wörtern aus den Kategorien ‘common nouns’ (Substantive, die ein Objekt einer Kategorie bezeichen, wie z. B. Auto, Puppe, Tier, Baum, Turm), Onomatopoetika, ‘proper nouns’ (Bezeichnungen für spezifische Einmaligkeiten z. B. Amerika, Peter, Main Street), feste Phrasen (z. B. „Here you are.“, „What’s that?“, „I get it.“) und interaktive Wörter sowie nach dem Merkmal Segmentabilität. Danach wurden mütterliche Äußerungen als „isolierte“ Äußerungen kategorisiert, wenn sie eine Einwortäußerung war oder wenn sie einen Teil der kindlichen Äußerung wiederholte, in der das betreffende Wort an derselben Stelle, aber im anderen Kontext stand. 3 Formen wurden unterschieden: (1) Einwortäußerung: z. B. „Hund“, (2) kindliche Äußerungen: Das ist ein Hund“, J mütterliche Äußerung: „Guck da der Hund!“, (3) kindliche Äußerung: „Das ist eine Katze“, J mütterliche Äußerung: „Das ist ein Hund“.

VI. Spracherwerb

Die Ergebnisse zeigten, dass Mütter, deren Sprache dem Kind Informationen darüber liefert, wo ein Wort endet und wo ein neues beginnt, Kinder haben, die relativ wenig unanalysierte Phrasen in ihrem frühen Vokabular haben. Erzählende (beschreibende) Mütter (talkative mothers) tendieren dazu, einen höheren Anteil von ‘common nouns’ und einen höheren Anteil von Äußerungen, die Wortgrenzen markieren, zu gebrauchen. Die Ursache liegt offensichtlich darin, dass ihre Äußerungen eine größere „räumliche Breite“ als die Äußerungen von Müttern mit direktiver (lenkender) Sprache aufweisen. Sie schlussfolgern deshalb, dass das Erlernen von Phrasen in der frühen Wortschatzentwicklung eine bedeutende Strategie für Kinder sein könnte, die keinen fein abgestimmten Sprachinput erhalten. Hirsh-Pasek (1996) stellt ein Drei-PhasenModell der Entwicklung des Sprachverstehens – das sog. Koalitions-Modell – vor. Sie unterscheidet drei Entwicklungsetappen, in denen für das Kind jeweils entwicklungsabhängig bestimmte Verarbeitungsformen der gehörten Sprache typisch sind. Diese sind: Phase 1: Internalisation: Extraktion und akustische Bündelung oder Einheitenbildung („packaging“) von nichtsprachlichen Ereignissen im Alter von etwa 0 bis 9 Monaten. Phase 2: Segmentation und sprachliches „Mapping“ (Aufzeichnen oder Erfassen) im Alter von etwa 9 bis 24 Monaten. Phase 3: Komplexe syntaktische Analyse ab einem Alter von etwa 24 Monaten. In der Phase 1 lernt das Kind, den Ereignisfluss entsprechend, die gehörten sprachlichen Sequenzen zu segmentieren. Die vom Kind gehörte Sprache oder – besser – das aus der kindlichen Perspektive der Sprache entsprechende akustische Äquivalent ermöglicht, Grenzen von Ereignissen in der Umgebung zu erkennen. Das akustische Bündeln (oder Strukturbilden) hilft, komplexe außersprachliche Ereignisse in Einheiten zu gliedern, die in der nächsten Entwicklungsphase linguistisch relevant sind. Das Kind speichert „nur“ akustische Korrelate von lingustischen Strukturen (z. B. Betonungsstrukturen von Aufforderungen). Dies setzt folgende Bedingungen voraus: (1) Das Kind muss elementare Vorstellungsschemen von Ereignissen bilden können, d. h. es muss Ereignisse in seiner Umgebung analysierend zerlegen (to parse), z. B. in Form

56. Die Entwicklung der vokalen Kommunikation

789

von den Vorstellungsschemen „Weg zu etwas“, „verbunden mit“ und „enthalten in“. Diese Schemen sind die Grundlage für die Entwicklung von späteren Kategorien, z. B. der Belebtheit, Verursachung und Handlungsausführender.

(3) Mütter passen sich in ihrer Sprache in der dialogischen Interaktion nicht nur in der sog. vorsprachlichen Zeit in Form einer Babysprache dem kindlichen Wahrnehmungs- und Verarbeitungsvermögen an, sondern sie strukturieren auch in der Folgezeit sprachliche Angebote je nach Entwicklungsstand des kindlichen Sprachsystems.

(2) Das Kind muss akustische Korrelate von sprachlichen Einheiten (Satzeinheiten, Phrasen) aus dem „Sprechstrom“ extrahieren können. Die pausengegliederte Sprache der Babysprache hilft dem Kind bei dieser Segmentbildung. (3) Die an das Kind gerichtete Sprache muss ablaufende Ereignisse im Hier und Jetzt beschreiben. In der Phase 2 findet ein Orientierungswechsel in der Sprache statt: von einer „Stützung“ auf prosodische hin zu semantischen Merkmalen. Es „unterzieht“ seine herausgegliederten akustischen Einheiten einer feineren linguistischen Analyse. Am Ende dieser Phase (von 16 bis 24 Monaten) führt dieses sprachliche Mapping zu Beziehungsbildungen zwischen Äußerungen, z. B. auf der Basis der erkannten unterschiedlichen Funktionen von Inhalts- und Funktionswörtern. In der Phase 3 kann das Kind verschiedene sprachliche Einheiten isolieren und komplexe Satzbeziehungen mit den Ereignissen in Verbindung bringen, die es nicht gesehen hat. Hirsh-Pasek (1996) hebt hervor, dass in diesem Modell verschiedene Faktoren für die Entwicklung des Sprachverstehens eine Rolle spielen, sich das Kind aber in bestimmten Altersabschnitten, entsprechend seiner perzeptiv-kognitiven Entwicklung, vordergründig an anderen „Quellen“ orientiert, in Phase 1 an der Prosodie, in Phase 2 an der Semantik und in Phase 3 an der Syntax. Weitere Einflussfaktoren sind der soziale Kontext und Umgebungsmerkmale (Handlungen, Objekte). Die hier vorgestellten Untersuchungen zur Entwicklung der vokalischen Kommunikationsfähigkeit des Kindes lassen Schlussfolgerungen in folgende Richtung zu:

4.

Literatur

Brousseau, L., Malcuit, G., Pomerleau, A. & Feider, H. (1996). Relations between lexical-temporal features in mothers’ speech and infants’ interactive behaviours. First Language, 16, 41⫺59. Bruner, J. S. (1985). Vygotsky: A historical and conceptual perspective. In J. V. Wertsch (Ed.), Culture, communication, and cognition: Vygotskian perspectives (pp. 21⫺34). Cambridge: Cambridge University Press. Bruner, J. (1987). Wie das Kind sprechen lernt. Bern, Stuttgart, Toronto: Verlag Hans Huber. D’Odorico, L., Cassibba, R. & N. Salerni (1997). Temporal relationships between gaze and vocal behavior in prelinguistic and linguistic communication. Journal of Psycholinguistic Research, 5, 539⫺556. Dornes, M. (1993). Der kompetente Säugling. Die präverbale Entwicklung des Menschen. Frankfurt am Main: Fischer. Fletcher, P. & McWhinney, B. (Eds.) (1995). The handbook of child language. Cambridge: Basil Blackwell. Golinkoff, R. M. & Gordon, L. (1988). What makes communication run? Characteristics of immediate successes. First Language, 8, 103⫺124. Harris, M. (1992). Language experience and early language development: From input to uptake. Hillsdale: Lawrence Erlbaum. Hirsh-Pasek, K. (1996). The origins of grammar: Evidence from early language comprehension. Cambridge, MA.: MIT Press. Jusczyk, P. W. (1997). The discovery of spoken language. Cambridge: MIT Press.

(1) Die primären Bezugspersonen vermitteln implizit Wissen über die Sprache und den Sprachgebrauch innerhalb der für die Entwicklung des Kindes relevanten Bedürfnisund Handlungsfelder.

Keller, H., Loewer, M. & Runde, B. (1990). Analyse spontaner Sprache von Eltern in Interaktionssituationen mit ihren Säuglingen und Kleinkindern. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 22, 341⫺353.

(2) Die Art und Weise mütterlichen Sprachgebrauchs in Bezug auf Sprachinhalte, formen und Sprechhandlungsstrukturen hat für das im Spracherwerbsprozess befindliche Kind eine Art Modellcharakter.

Kuhl, P. K. & Meltzoff, A. N. (1997). Evolution, nativism and learning in the development of language and speech. In M. Gopnik (Ed.), The inheritance and innateness of grammars (pp. 7⫺44). New York, Oxford: Oxford University Press.

790

VI. Spracherwerb

Locke, J. L. (1995). Development of the capacity for spoken language. In P. Fletcher & B. McWhinney (Eds.), The handbook of child language (pp. 278⫺302). Cambridge: Basil Blackwell. Murray, A. D., Johnson, J. & Peters, J. (1990). Fine-tuning of utterance length to preverbal infants: Effects on later development. Journal of Child Language, 17, 511⫺525. Nelson, D. G. K., Hirsh-Pasek, K., Jusczyk, P. W. & Cassidy, K. W. (1989). How the prosodic cues in motherese might assist language learning. Journal of Child Language, 16, 55⫺68. Ninio, A. & Snow, C. E. (1996). Pragmatic development. Boulder, CO.: Westview Press. Papousek, M. (1996). Die intuitive elterliche Kompetenz in der vorsprachlichen Kommunikation als Ansatz zur Diagnostik von präverbalen Kommunikations- und Beziehungsstörungen. Kindheit und Entwicklung, 4, 140⫺146. Pegg, J. E., Werker, J. F. & McLeod, P. J. (1992). Preference for infant-directed over adult-directed speech: Evidence from 7-week-old infants. Infant Behavior and Development, 15, 325⫺345. Pine, J. M., Lieven, E. V. M. & Rowland, C. F. (1997). Stylistic variation at the „single-word“ stage: Relations between maternal speech characteristics and children’s vocabulary composition and usage. Child Development, 5, 807⫺819. Reimann, B. (1993). Im Dialog von Anfang an: Die Entwicklung der Kommunikations- und Sprachfähigkeit in den ersten drei Lebensjahren. Neuwied, Kriftel, Berlin: Luchterhand Verlag.

Reimann, B. (1998). Maternal question-responses in early child-mother-dialogue. In A. Aksu Koc, E. E. Taylan, A. S. Özsoy & A. Küntay (Eds.), Perspectives on language acquisition. Selected papers from the VIIth International Congress for the Study of Child Language 1998, Bogazici (pp. 108⫺123). Istanbul: University Printhouse. Reimann, B. (2002). Der frühe Spracherwerb des Kindes. URL: http://www.einwortsatz.de. Rochat, P., Querido, J. G. & Striano, T. (1999). Emerging sensitivity to the timing and structure of protoconversation in early infancy. Developmental Psychology, 4, 950⫺957. Ruben, R. J. (1992). The ontogeny of human hearing. Acta Otolaryngologica (Stockholm), 112, 192⫺196. Stern, D. (1992). Die Lebenserfahrung des Säuglings. Stuttgart: Klett-Cotta. Trevarthen, C. (1980). The foundations of intersubjectivity: Development of interpersonal and cooperative understanding in infants. In D. R. Olson (Ed.), The social foundations of language and thought (pp. 316⫺342). New York: W. W. Norton & Company. Vihman, M. M., De Paolis, R. A. & Davis, B. L. (1998). Is there a „trochaic bias“ in early word learning? Evidence from infant production in English and French. Child Development, 4, 935⫺949. Wegener, U. (1996). Das erste Gespräch. Kommunikationsformen zwischen Mutter und Kind unmittelbar nach der Geburt. Münster, New York: Waxmann.

Bernd Reimann Humboldt-Universität Berlin (Deutschland)

Reimann, B. (1996). Die frühe Kindersprache. Neuwied, Kriftel, Berlin: Luchterhand Verlag.

57. Language Acquisition in Early Childhood 0. 1.

5.

Introduction Towards a theory of child language acquisition The beginnings of language in infancy Vocabulary development and grammar in early childhood Discourse skills and development beyond childhood References

0.

Introduction

2. 3. 4.

Language acquisition is the process by which individual children develop a language – whether spoken, signed, or written – in in-

teraction with their environment. Children’s language acquisition is situated in a cognitive and a sociocultural context, and the structure of development is shaped by biologically given information processing capacities and constraints in interaction with the structure of the particular input to the child. All normally developing children are known to follow a similar overall structure of development with lexical and grammatical spurts typically occurring between roughly one and a half and three years of age. At the same time, the child’s sensitivity to his linguistic environment leads to certain language partic-

57. Language Acquisition in Early Childhood

ular marks on his developmental profile from very early on. Language acquisition is an adaptive process. The child organizes percepts and information from communicative interactions, and reorganizes this information in response to new experiences; the child is adapting to his linguistic environment. But the child’s social environment is also adapting to the developing child. And, further, acquiring a language means acquiring an instrument which can be used for changing the environment. The study of language acquisition, therefore, is a study of linguistic life in a truly dynamic context. Some aspects of language, such as pronunciation skills or a basic grammar, are to a large extent acquired already at a relatively early stage of development. Other aspects of what you know when you know a language continue to develop beyond childhood. For example, there is a continuing growth of lexical knowledge and of rhetorical (e. g., narrative, expository etc) abilities in adolescent and adult language users. Indeed, language acquisition is an open-ended process and there is neither any perfectly steady state nor any state of completeness in the linguistic career of a normal human being (Levelt, 1989). The present article focusses on early stages of language development in children acquiring a first language.

1.

Towards a theory of child language acquisition

The definition of language acquisition as “the process by which a learner develops a language in interaction with his environment” yields five broad concepts or theoretical terms: learner, environment, interaction, language, and development. A comprehensive theory of child language acquisition should integrate and provide a deeper understanding of these terms. Or put somewhat differently, a theory of child language acquisition presupposes theories of what a learner is (e. g., modelling the learner as a system of perceptual, motor, and cognitive abilities), the nature of the interaction between the learner and his environment, what it takes for something to be a language or constitute knowledge of language, and how the structure of knowledge and skills acquired as well as the acquisition process itself change over time (development).

791 Although there is consensus in the scientific community that a number of factors associated with the above five concepts interact to shape language development in the child, there is no consensus about the exact nature or the relative weight of these factors. Some researchers, typically representing the socalled “nativist” position (Pinker, 1996), assume that syntax is the most central aspect of language and that the learner is biologically endowed with crosslinguistically valid knowledge of language (“universal grammar”). The innate knowledge is assumed to be there in the form of, for example, a set of parameters (whose values are typically binary) representing dimensions along the which the languages of the world are known to vary in their basic syntactic architecture. When a child is exposed to a particular language, the parameter values are set and the innate knowledge of language is neatly customized to the ambient language (Hyams, 1986). According to this theoretical position, the child’s input plays a passive role, in that it merely triggers the assumedly innate brain program to work out the central syntactic constraints of the linguistic environment. The acquisition process is assumed to be fast (“instant acquisition”) and effortless. Further, the input to the child is seen as poor in linguistically relevant information; indeed, it is typically seen as containing a lot of noise, possibly distracting the child from discovering the underlying constraints and regularities of language. Because of this “poverty of the stimulus”, the argument goes, the child has to be genetically endowed with sufficient knowledge of language in order to be able to acquire language all the same. Further, a consequence of this position is that those aspects of language which are considered to be most important can be said to be fully acquired well before the end of the preschool period. Other researchers hold that the central thing about language is the communication of meaning, a position which foregrounds semantic and pragmatic aspects of language, and that language acquisition is not merely the felicitous acquisition of phonological and syntactic forms, but the mapping of these forms onto meanings and communicative functions. And meaningful situations and communicative intentions are typically seen as essential components of the puzzle of language acquisition and development (Ninio & Snow, 1996; Berman & Slobin, 1994). According to this view, important parts of lan-

792 guage acquisition can be modelled in terms of reorganizations of the relation between linguistic forms and functions/content in development. These reorganizational processes are shaped both by principles of human information processing (such as principles of clarity, economy and speed; see, e. g., Slobin, 1977) and by external factors (the input and the learner’s adaptation to language usage in new sociocultural contexts), and they characterize the language user not only in childhood but also in adolescence and adulthood. These ideas are at the core of a position in developmental theory called “functionalism”. Further, the nature of the biologically given propensity for language learning need not be in the form of inborn knowledge or information. According to the so-called connectionist view (Elman et al., 1997), the information processing capacities emerging from the neural architecture of the brain provide the prime explanation for the child’s ability to build language on the basis of his linguistic input. The connectionist approach is part and parcel of the rapid development in the brain sciences in general and in cognitive neuroscience in particular (see also the so called “competition model”, MacWhinney & Bates, 1989). The interaction between the learner and his environment is at the core of this approach. The input is assumed to play an active, formatting role in the child’s acquisition process. The variability and contextual distribution of bits and pieces of language in the input to the child tend to be seen not as noise but as a rich source of information which the child can use for discovering these bits and pieces and how they are used for communication. In this context, the force of neo-darwinian thought (Dennett, 1995) is particularly tangible. Concepts contributing to the revitalization of evolutionary theory and its applications to developmental theory, such as, for example, principles of “self organization” and “emergent properties”, are abundant, as is the commitment to avoid the “teleological” mistake of trying to explain developmental patterns with reference to typical normative target states not yet attained by the learner. It is seen as imperative to take an “ascending” and not a “descending” approach (Deutsch & Budwig, 1983) in the analysis of child language acquisition. The former approach focusses on the child’s developmental history and the forces in his present environment as the factors determining or pushing the child to

VI. Spracherwerb

continue in a certain direction rather than in another. The latter approach, in contrast, would merely allow us to model the child’s development in terms of his deviance from the adult target at any given point in development. Further, from a darwinian perspective, the child is not initially endowed with an idea about what to search for in his (linguistic) environment and does not yet have an idea of which things pay off to store in memory. Therefore, the child does better to store everything, including situational and circumstantial information which might look irrelevant to an already versatile language user. Importantly, however, this circumstantial information will have a developmental role to play in that it will lead the child to extract cross-situationally valid information and, eventually, to form prototypes based on the varying exemplars he has been hitherto exposed to. In short, variability is seen as an essential property of the input, and a precondition to learning. An application of this idea to the domain of early phonological development is presented by Lacerda and Lindblom (1998). The ascending approach to language acquisition further emphasizes that each new step taken by an individual in his development puts him in a new position/situation, redefining his premises to further development. An elucidating approach to the role of the input is the crosslinguistic study of language acquisition (Slobin, 1985⫺1997). Comparisons of child language development across languages which display similarities and differences has helped articulate ways in which diversity of input can effect diversity of acquisition structure. The modern crosslinguistic study of language acquisition, taking off in the 1960s, first concentrated on similarities in acquisition structure across languages. The greater the similarities in acquisition structure despite differences in typological or cultural traits, the more an underlying, cognitive explanation would be called for. The bet at the time was much in favour of a nativist claim about a specific “Language Acquisition Device” (LAD; see, e. g., Chomsky, 1968). Later crosslinguistic work has shifted the attention to differences in acquisition structure related to differences between languages. One method is the “intratypological” approach (Slobin, 1998). On the assumption that two typologically minimally different languages differ on only a few dimensions, whereas all other dimensions are, as it were, kept constant, the influence of these few dimensions

57. Language Acquisition in Early Childhood

can be investigated with more experimental methods (for an example, see Strömqvist et al., 1995). A trend, much inspired by a revitalization of the issue of linguistic relativity (i. e., to what extent and in what ways language influences thought; see, e. g., Lee, 1996; Gumperz & Levinson, 1996), is to focus on semantic differences between children’s emerging language across different linguistic communities and different cultures (Slobin, 1996). Crosslinguistic differences in lexicalization and grammaticalization patterns can lead to differences in what children tend to elaborate on semantically already before 2 years of age (Bowerman, 1996). The rapidly growing use of computer technologies in the international research community for sharing and analysing child language data has greatly facilitated the crosslinguistic study of language acquisition (MacWhinney, 1991).

2.

The beginnings of language in infancy

Perception experiments using so called habituation techniques (e. g., sucking rate; the head turning paradigm) show that infants begin to tune in to their ambient linguistic soundscape already during their first half year of life. Shortly after birth, human beings are able to discriminate between a very large range of speech sounds, including contrasts which are not present in their input language (Jusczyk, 1985). This ability, however, changes in character during the infant’s first half year. The infant’s ability to discriminate between sounds which do not belong to his input language deteriorates, while his ability to discriminate between sound contrasts in his particular input improves (Werker, 1989; Werker & Polka, 1993). Further, it seems that infants perform even better at these discriminatory tasks when they are simultaneously presented with the visual information (lip movements) that accompanies the production of the speech sounds (Kuhl & Meltzoff, 1982), something which suggests that the language learning child works with information from several sensory modalities at the same time. Important aspects of these processes are captured in Lindblom and Lacerda’s model of “emergent phonology” where invariant acoustic representations emerge through a selforganizing process under the constraints of input factors and memory

793 limitations (Lacerda & Lindblom, 1998). The model does not presuppose that the child is initially predisposed towards speech sounds; rather the acquisition of speech is seen as a consequence of the child’s interaction with his global sensory input, containing speech as one of its many components. Around the beginning of the second half of their first year, infants typically begin to show signs of having formed mental representations of objects, – representations they can to some extent retrieve at will. For example, contingent upon having dropped an object so that it is temporarily out of sight, they can start searching for it. This landmark of cognitive development, known as “object permanence”, is a precondition to the learning of words. And words typically begin to emerge in children’s communicative development around one year of age, at roughly the same time as most children start to walk (Lenneberg, 1967). Object permanence is also a precondition to “peek-a-boo” (suddenly hiding e.g. a hand doll and then suddenly making it reappear), a game which is played with small children across many different cultures of the world (Bruner & Sherwood, 1976). The learning of words and other meaningful units involves ferreting out units of the input speech stream (the “segmentation task”) and mapping these units/forms onto concepts/functions (the “mapping task”) (Clark & Clark, 1977). The child’s job of solving these tasks is determined by a number of different, interacting factors. In spoken language certain parts of an utterance tend to be prosodically foregrounded (by means of stress, pitch and/or duration) and others backgrounded. In child-directed adult speech, these differentiations are often exaggerated as compared to adult-directed adult speech (Fernald et al., 1989). The exaggerated contour increases the perceptual salience of the foregrounded items even more and thereby serves as a spotlight guiding the child to direct his attentional resources to selected parts of the speech stream. This kind of spotlight hits first and foremost content words, to a limited extent function words, and to no or almost no extent affixes (Peters & Strömqvist, 1996). A segmentation strategy based on prosodic spotlight would thus yield a predominance of content words in the child’s earliest vocabulary, a prediction which turns out to be correct. The child’s early encounters with language take place in face-to-face interaction, a set-

794 ting which provides the interactants with a shared perceptual space and the possibility of on line feedback and mutual adaptation. In this kind of setting, content words (car, teddy, fall (down) etc) and deictic words (there! that one, this etc) are relatively easy to grasp for the early word learner not only because of their perceptual salience but also because their meaning can be demonstrated or exemplified by reference to objects, relations and events in the shared perceptual space. Gestures, importantly pointing, and gaze accompanying speech further tends to facilitate the child’s mapping task in that they help securing joint attention to the object or event referred to or commented upon. In his so-called “sensori-motor” development (Piaget & Inhelder, 1969), the prelinguistic infant manipulates objects in his physical environment, making something fall, putting an object into or taking it out of a container, using force to remove something which is stuck, etc. In this way the child is gathering experiences from manipulative motion scenarios in which he himself often is the causal agent. The child thereby comes to shape concepts of various types of objects, spatial relations (e. g., containment, support, tightness of fit, direction (up, down, in, out)), of causality and of different types of motion events. Since many of these concepts are precocious in the sense that they develop before the child starts to acquire words, they might facilitate the child’s mapping task insofar that they present themselves as candidates for concepts that can be encoded into a linguistic form. Precocious interactional activities may provide a frame of understanding for novel words and constructions. For example, extending the peek-a-boo game with speech acts such as Where did he go? ⫺ Where is he? There he is again! make these speech acts easier for the child to understand than if they were encountered in an equally novel activity type (Ratner & Bruner, 1978). Both the child’s prelinguistic conceptual development and his familiarity with joint/interactional activities thus furnish the child with a background relevant to the mapping task. Indeed, several studies suggest that children who have not yet mastered a given language pattern make use of language independent concepts and world knowledge to interpret the meaning of linguistic utterances (see Johnston, 1985, for a review).

VI. Spracherwerb

3.

Vocabulary development and grammar in early childhood

3.1. The vocabulary spurt, analysis, and inflectional morphemes The child’s build-up of his first 25⫺50 words proceeds slowly, but then there is typically a steep increase in lexical growth rate, the socalled “vocabulary spurt”. On average, the vocabulary spurt starts towards the end of the child’s second year of life. On the basis of parental reports (The MacArthur Communicative Development Inventory) Bates et al. (1994) found a wide variation in the timing of the onset of the vocabulary spurt in Englishspeaking children. Exceptionally early word learners start their spurt at the beginning of their second year, and slow ones towards the end of their third year. Bates et al. further found early vocabulary development typically to proceed in three waves. In the first wave, extending to the point where around 100 words have been accumulated, there is a proportional increase in common nouns. Then, in a second wave, there is a slow increase in verbs and other predicative structures, with the greatest gains between 100 and 400 words. The third wave, finally, consists in a sharp increase in closed class items (function words) between 400 and 700 words. These results have been replicated for Swedish-speaking children by Berglund and Eriksson on the basis of their Swedish version of the Communicative Development Inventory (Berglund, 1999). As already observed, there are several factors contributing to the fact that children start to acquire content words (especially nouns and verbs: c.f. the first and second “wave” above) before function words (such as, e. g., prepositions, the copula, modal auxiliaries etc: third wave). The former tend to be prosodically prominent and have a referential content, whereas the latter are prosodically backgrounded and the child is more dependent on the linguistic context in a narrow sense to tease out their functions (Strömqvist et al., 2001). However, the acquisition of content words is, in its turn, a factor facilitating the acquisition of function words. By virtue of recognizing a larger number of content words in his input speech, the child can shift more of his attention to the items hiding in the prosodic shadow of these words. As to their sound shape, the early word forms in children’s language development can

57. Language Acquisition in Early Childhood

have many different relations to the adult target forms. Occasionally, children can hit the target in a strikingly accurate fashion, something which might suggest a holistic imitation strategy on the part of the child. Often, however, children’s productions are simplified in comparison to the adult targets, suggesting that the child has performed some sort of analysis of his input. For example, given the target word crocodile, some children would focus on and expend their analysis effort on its multisyllabic quality, whereas others would focus on the stressed syllable only. The former focus of analysis would typically be at the expense of the details internal to the syllables, resulting in, for example, a form like [kokoko]. The latter focus would typically allow for a greater resolution of segmental details, resulting in, for example, [dajl] (see also Peters, 1995). The study of phases of analysis and reorganizational processes is at the core of child language research. Already diary studies contain ample evidence and examplification of this phenomenon. Consider the following four developmental sequences for the sake of illustration. The first sequence (a much cited example from the diary study by Leopold, 1939⫺49) is indicative of reorganizational processes in the child’s phonological representations of the word pretty: (1) [preti] J (2) [bidi] J (3) [preti]. Because of the initial (1) and final (3) similarity with the target form and the medial (2) dip (phase of deviance), this developmental pattern is often described as “U-shaped” (see, e. g., Strauss, 1982). The dip is revealing of some kind of generalization and top-down processing, resulting in an observable linguistic product which deviates from the target standard. And the developmental move from (2) (deviation) to (3) (target form) represents a reanalysis or adjustment to conform with the adult target. In the developmental sequence just quoted the child can be hypothesized first to have learned the form [preti] as an unanalyzed whole (“rote-learning”), whereas in the second phase he has reorganized his representation of the word in terms of its internal segmental structure. If the child’s task was to learn in total, say, only 100 words, it might not be economical to expend cognitive efforts on analysis; rote-learning would suffice. Conversely, the rapidly growing number of words following the start of the vocabulary spurt pushes the child to reorganize the principles

795 for encoding, storing and retrieving word forms. The second and third illustrations concern children’s development of inflectional morphology. The second developmental sequence describes a U-shape with respect to past tense formation of the verb go: (1) went J (2) goed J (3) went. The third sequence is taken from the development of the formation of plural of the noun bok ‘book’ in a Swedish child (the adult target plural is böck-er with both change of stem vowel o J ö and the addition of an inflectional suffix -er) (Plunkett & Strömqvist, 1992). This sequence is more complex in that it contains several phases of analysis: (1) bok ‘book’ vs bok-ar ‘book-PLUR’ J (2) bok vs böck-er ‘bookPLUR J (3) bok, böck vs böck J (4) bok vs böck-er. The child first erroneously generalizes -ar, the perhaps most productive plural suffix on nouns in Swedish, to the unmodified stem bok. Then (phase 2) the child modifies the plural to conform with the adult target. In the third phase, however, he reanalyses the stem as böck, a form which is found in the target plural böck-er only (more precisely, in the third phase there is a variation between bok and böck as the unmarked form). And only still later (phase 4), the child, again, modifies the plural to conform with the adult target. The fourth illustration concerns the naming of parts of a mushroom and it provides an example of U-shaped semantic development: (1) stem, cap J (2) body, head J (3) stem, cap. In this case the reorganization in phase (2) suggests that the child has gotten consciously aware of the metaphorical nature of the mushroom terms, rejecting the less transparent pair of metaphors stem, cap in favour of a more transparent pair of his own choice: body, head. The story of U-shaped development ends with an important moral: the child is not necessarily done with his acquisition process simply because he has attained an adult-like linguistic behaviour. Further, the reorganizations examplified suggest that language acquisition is neither particularly fast, nor effortless. In fact, phases of (re-)analysis in language acquisition are often associated with signs of extra effort on the part of the learner, such as hesitations, repeats, extra prosodic prominence, self-corrections, or metalinguistic comments (Strömqvist, 1988). For children growing up with languages with inflectional suffixes, there follows close

796 on the heels of the vocabulary spurt a grammatical spurt involving a rapidly increasing use of the first few inflectional morphemes. Investigations employing different methodologies – parental reports (Bates et al., 1988), longitudinal case studies (Slobin, 1985⫺97), and connectionistic modelling experiments (Plunkett & Marchman, 1991) – converge on the finding that the vocabulary spurt is a precondition to (or, at least, greatly facilitates) the analysis of the internal morphological structure of words and the acquisition of inflectional morphemes. Through the vocabulary spurt the child acquires more and more words, and many of these words share the same inflectional paradigm. Through similarity abstraction (different stems, but same ending) the child can now arrive at a representation of the internal morphological structure of word forms into stems and endings. Provided that this kind of analysis has taken place, an inflectional morpheme can then be generalized in the sense that it can be applied to novel stems. Mostly, these generalizations result in correct target forms, but sometimes they result in deviant forms like go-ed. 3.2. Early utterance structure Towards the end of his second year, the child starts to combine words within a single utterance, to begin with mostly two words. During this so-called two-word stage, the majority of the utterances produced by the child still consist of just one word. The words entering the child’s one- or two-word utterances at this early stage are typically non-inflected. They are drawn from the child’s budding vocabulary of mostly nouns (daddy, ball etc), but also verbs (fall, eat etc), some deictic words (that, there), adverbs (no, more, up) adjectives (wet, pretty), and feedback words (yeah, no). See further Tomasello (1992), Meng and Strömqvist (1999). Crosslinguistically attested semantic roles and relations between the terms found in children’s early two-word utterances include LOCATION of an ENTITY, ACTION or EVENT as in there book or play garden; the relation between any two of an AGENT, PATIENT or ACTION as in Eve play or eat food; the relation between POSSESSOR and POSSESSED as in mama dress (‘mama’s dress’) or my shoe; the predication or attribution of a PROPERTY to an entity as in John sad or pretty dress; and quantification (including negation) as in no wet, allgone milk or more milk. At the two-word stage, children

VI. Spracherwerb

typically also use one or two question words to construct questions such as where ball?. For more details, see, for example, Brown (1973). Children’s one- or two-word utterances are situated in a larger context of connected discourse and there is often more structure between utterances than within utterances at this early stage. For example, before children can put together a two word utterance such as there book, they can often produce there and book as two consecutive one-word-utterances, the first an act of reference to a given object and the second a predication or naming of the object just referred to. Typically, children at this stage are also in command of a couple of feedback words (like no and yeah or mm), words which contribute to the cohesion of the communicative interaction in that they signal contact (between the communicating parties), perception (of what the conversational partner just said or is saying) and some sort of attitudinal reaction (e. g., protest or agreement) (Strömqvist & Richthoff, 1999). Further, adults typically respond to children’s one or two-word utterances (e. g., more milk or where ball) by expanding their structure, for example do you want more milk? or yes, where is the ball?, etc. These expansions serve as an important model for the child to expand his own utterance structure, not the least in terms of providing the required grammatical morphemes (is, the etc). See further Snow and Ferguson (1977). Analyses of the distribution of pairs and triples (etc) of word forms in children’s early utterances suggest that children to a considerable extent first may learn frequent phrases by rote (i. e., as if they were single words), and that the child only later revisits these rote-learned phrases and reanalyse them into their component words (Pine & Lieven, 1993). 3.3. Terms for spatial relations The cognitive development during the sensori-motor stage provides a precocious conceptual basis for the acquisition of words and morphemes encoding spatial relations. The languages of the world, however, differ not only with respect to how they encode spatial relational concepts (by lexical means, or by grammatical means such as prepositions, case endings, verb particles) but also with respect to which spatial distinctions are placed more at the centre and which ones more at the pe-

57. Language Acquisition in Early Childhood

riphery of the language system. In effect, the same spatial distinction (e. g., IN vs ON) can be more easily available for linguistic usage in one language than in an other. The first few spatial terms that emerge in children’s early language reflect this diversity of their input. Thus, children growing up with a Germanic language (e. g., English, German, Icelandic, Swedish) will experience a frequent usage of the morphemes in vs on across many different situations, where a common conceptual denominator between the two spatially related objects is CONTAINMENT for in vs SUPPORT for on. And already towards the end of their second year these children tend to use in vs on in linguistic communication to classify the spatial relation between two objects. In contrast, children growing up with Korean, will experience a language where the distinction between IN and ON receive much less attention in linguistic communication. Instead, the primary distinction is between TIGHT vs LOOSE FIT between two spatially related objects, and this is the distinction Korean children begin to render a linguistic expression towards the end of their second year of life (Choi & Bowerman, 1991). The availability of the spatial morphemes to the language learning child is also determined by the prosodic prominence and the input frequency of the morphemes. Many languages of the world, including the Germanic languages, frequently distribute information about spatial relations on “satellites” to the verb, for example fall DOWN FROM OFF, or go IN or UP or DOWN etc. In contrast, other languages, including those of the Romance family, tend to encode this kind of information directly into the verb, c.f. sp. bajar ‘go down’, subir ‘go up’ etc. As satellites (e. g., as verb particles), morphemes like in etc often receive stress, something which adds to their salience in the input to the child. And, typically, children growing up with satellite framed languages often produce a small set of these spatial morphemes already at the oneword stage (Ragnarsdo´ttir & Strömqvist, 1997.) Through early language learning the child thus comes to upgrade certain conceptual distinctions in that they are supported by frequently used linguistic means, and to downgrade others which get encoded more marginally. For more details see, for example, Slobin (1985⫺97); Berman and Slobin (1994); Bowerman and Levinson (1998).

797 3.4. Personal pronouns Another linguistic domain which emerges very early in children’s language development are terms for reference to person. The face-to-face setting of communication provides the domain of referents onto which the child can map proper names, common nouns and personal pronouns. The first, minimal system of contrasting personal terms to emerge in the child’s development is typically that between a name referring to the child himself and a name referring to the other (e. g., mama). And when the first usages of personal pronouns emerge (1st and 2nd person sing. I and you), they typically take over the functions of reference to SELF and OTHER respectively, illustrating the developmental scenario that new forms often first appear in old functions. Following a developmental course of decentration, the child later picks up 3rd person pronouns (he, she, they) as he extends his sphere of attention to talk about persons beyond the face-to-face setting and the here and now (see also Clark, 1978). A developmental course of decentration can also be seen in the acquisition of nouns for reference to person. Typically, a form like mama is first used by the child to refer to his mother in a way that resembles a proper name rather than a common noun (mama only applies to the child’s own mother). Later, the child comes to generalize the term to other mothers (so that it becomes a common noun), realizing that other children also have mothers and, still later, that mothers, in their turn, have mothers whose children they are etc. (Ragnarsdo´ttir, 1990). Some children initially fail to realize that the pronoun you is deictically shifted (you refers either to the child or the other depending on who is speaking) and for a period of time they are stuck with having mapped the form you directly onto themselves (the child is referring to himself as you on a par with his proper name) (Clark, 1978; Strömqvist, 1988). For example, wanting to claim an object from the adult, the child might say you, whereupon the adult answers Do you want it? Here you are!. The example further illustrates that adult speech directed to the child need not always help the child get the mapping relation right. In this particular case, the adult response only serves to reinforce the child’s idea that you applies to the child only. In order to get the mapping relation right, the child needs to attend to communicative exchanges where you is used to refer to some-

798

VI. Spracherwerb

one else than the child himself. Or he needs to get responses to his erroneous usage of you which are incompatible with his own usage. For example, an older sibling, competing with the child for the possession of toys, would be more likely to respond to the child’s you by claiming the object for himself than to say Do you want it? Here you are!. And, indeed, the erroneous mapping of you has been found to be much more common in first-born children than in children growing up as a younger sibling (Deutsch et al., 1998).

4.

Discourse skills and development beyond childhood

Around three years of age most children have acquired a basic vocabulary and a basic grammar. And on a discourse level, the threeyear-old has acquired basic skills for engaging in conversations, including initiating topics, making comments, giving feedback, asking and responding to questions, making and complying with requests, etc. Many genres or linguistic activity types, however, such as narrative and argumentative discourse, are still to develop considerably before they can be said to have reached a more mature level. And some genres, such as a letter or a composition, are associated with the written medium and typically enter the agenda for language learning only after the preschool years. (Berman & Venhoeven, 2002; Strömqvist et al., 2003). Similarly, the function of language to reflect and construct social identity and social roles (child versus adolescent versus adult, boy versus girl, etc) is a dimension which is largely discovered and explored beyond early childhood. For example, “discourse markers” such as English well and uh, French alors (‘then’) and euh and Spanish bueno (‘good’) and eh participate in effecting a social role profile to the speaker (for example, in the case of well, a more adult and formal character). Studies based on English, French, and Spanish speaking children’s role-play speech indicate that by four or five years of age there is a beginning understanding of how such forms can be used both to reflect and manipulate the relative social status of a speaker (see Andersen et al., 1999; also Andersen, 1990). Already at the two-word stage, children can describe simple, conspicuous events, like block fall. In picture story tasks, a much

practised technique in investigations of narrative development, children around three to four years of age can produce rich descriptions of individual pictures/scenes. These descriptions, however, tend to be largely driven by details which the child finds interesting and there is so far little or no global discourse cohesion or narrative structure. The following line of analysis, presented by Karmiloff-Smith (1981) and Karmiloff-Smith (1983) provides an illustration. For example, in relation to the first two pictures of a picture story a 3year-old might say (1) The rabbit is riding a bicycle. (2) The cats are playing tennis. In contrast, children between five and seven apply top-down control processes in the story telling task to effect a strong cohesion, typically at the expense of describing details in the individual pictures, for example There’s a rabbit on a bicycle. And then he sees two cats. Here, the rabbit is constructed as the theme of the story through an act of introduction (there’s a rabbit) and subsequent pronominalization (he). Further, the child puts the rabbit into subject position (the “thematic subject” strategy) and marks the temporal sequencing of the component events by and then (Strömqvist & Day, 1993). And the sentences the child produces all describe events which move the story line forward. All these linguistic strategies interact to effect a salient story line and a main theme/character, who is doing things and to whom things happen. Still later in development, children typically manage to combine a clear story line with the description of details and events which are off the story line in the sense that they do not contribute to moving the story forward. An example of a narrative sequence by a child in the age range 8⫺10 years is There’s a rabbit going for a ride on a bicycle. And then he sees two cats, who are playing tennis. Here, the offstory-line quality of the scene with the cats is linguistically reflected by its placement in a relative clause, whereas events moving the story forward are placed in main clauses. See also Karmiloff-Smith (1979). The presence of the relative clause in the last example is not per se an indication of an advanced stage of language acquisition. Relative clauses tend to be part of the basic grammar children have acquired by three years of age. In order to assess the advanced character of the stage of acquisition illustrated in the example, it is crucial to take into consideration the discourse function of the relative clause (to encode an off-story-line scene).

57. Language Acquisition in Early Childhood

As the child begins to conquer partly new genres in the course of his language acquisition career, old constructions are put to partly new usages. Again, language acquisition and reorganizations of form-function relationships continue beyond childhood and are part and parcel of the linguistic life also of adolescent and adult language users.

5.

References

Andersen, E. (1990). Speaking with style: The sociolinguistic skills of children. London: Routledge and Kegan Paul. Andersen, E., Du Puy, C. & Gonnerman, A. (1999). The acquisition of discourse markers as a social skill. Journal of Pragmatics, 31, 1339⫺1351. Bates, E., Bretherton, I. & Snyder, L. (1988). From first words to grammar: Individual differences and dissociable mechanisms. Cambridge: Cambridge University Press. Bates, E., Marchman, V., Thal, D., Fenson, L., Dale, P., Reznick, J., Reilly, J. & Hartung, J. (1994). Developmental and stylistic variation in the composition of early vocabulary. Journal of Child Language, 21, 85⫺123. Berglund, E. (1999). Ph.d.diss. University of Stockholm: Department of Psychology. Berman R. A. and Verhoeven, L. (Eds.) (2002) Written Language and Literacy, Vol. 5, Parts 1 and 2. Special issue on developing text production in speech and writing. Berman, R. A. & Slobin, D. I. (1994). Relating events in narrative. A crosslinguistic developmental study. Hillsdale, New Jersey: Lawrence Erlbaum.

799 influence of language-specific lexicalization patterns. Cognition, 41, 83⫺121. Chomsky, N. (1968). Language and mind. New York: Harcourt Brace Jovanovich. Clark, E. (1978). From gesture to word: On the natural history of deixis in language acquisition. In J. Bruner & A. Garton (Eds.), Human growth and development: Wolfson College Lectures 1976 (pp. 85⫺120). Oxford: Oxford University Press. Clark, H. & Clark, E. (1977). Psychology and language. New York: Harcourt Brace Jovanovich. Dennett, D. C. (1995). Darwin’s dangerous idea. New York: Penguin. Deutsch, W. & Budwig, N. (1983). Form and function in the development of possessives. Stanford Papers and Reports on Child Language Development, 22, 36⫺42. Deutsch, W., Wagner, A., Burchardt, R., Schulz, N. & Nakath, J. (1998). Person in the language of singletons, siblings and twins. In S. Levinson & M. Bowerman (Eds.), Language acquisition and conceptual development. Cambridge: Cambridge University Press. Elman, J., Bates, E., Karmiloff-Smith, A., Parisi, D. & Plunkett, K. (1997). Rethinking innateness. Cambridge, Massachusetts: MIT Press. Fernald, A., Taeschner, T., Dunn, J., Papousek, M., Boysson-Bardies, B. & Fukui, I. (1989). A cross-language study of prosodic modifications in mothers’ and fathers’ speech to preverbal infants. Journal of Child Language, 16, 477⫺501. Gumperz, J. & Levinson, S. (Eds.) (1996). Rethinking linguistic relativity. Studies in the social and cultural foundations of language, Vol. 17. Cambridge: Cambridge University Press.

Bowerman, M. (1996). The origin of children’s spatial semantic categories: Cognitive versus linguistic determinants. In J. Gumperz & S. Levinson (Eds.), Rethinking linguistic relativity. Studies in the social and cultural foundations of language, Vol. 17 (pp. 145⫺176). Cambridge: Cambridge University Press.

Hyams, N. (Ed.) (1986). Language acquisition and the theory of parameters. Dordrecht: Reidel.

Bowerman, M. & Levinson, S. (Eds.) (1998). Language acquisition and conceptual development. Cambridge: Cambridge University Press. Brown, R. (1973). A first language: The early stages. London: Allen and Unwin.

Jusczyk, P. (1985). On characterizing the development of speech perception. In J. Mehler & R. Fox (Eds.), Neonate cognition: Beyond the blooming, buzzing confusion (pp. 199⫺229). Hillsdale, NJ.: Lawrence Erlbaum.

Bruner, J. & Sherwood, V. (1976). Peekaboo and the learning of rule structures. In J. Bruner, A. Jolla & K. Sylva (Eds.), Play. New York: Penguin.

Karmiloff-Smith, A. (1979). A functional approach to child language: A study of determiners and reference. Cambridge: Cambridge University Press.

Choi, S. & Bowerman, M. (1991). Learning to express motion events in English and Korean: The

Karmiloff-Smith, A. (1981). The grammatical marking of thematic structure in the development

Johnston, J. (1985). Cognitive prerequisites: the evidence from children learning English. In D. I. Slobin (Ed.), The crosslinguistic study of language acquisition, Vol. 2 (pp. 961⫺1004). Hillsdale, NJ.: Lawrence Erlbaum.

800 of language production. In W. Deutsch (Ed.), The child’s construction of language (pp. 121⫺147). London: Academic Press. Karmiloff-Smith, A. (1983). Language development as a problem-solving process. Stanford Papers and Reports on Child Language Development, 22, 1⫺22. Kuhl, P. & Meltzoff, A. (1982). The bimodal perception of speech in infancy. Science, 218, 1138⫺1141. Lacerda, F. & Lindblom, B. (1998). Modelling the early stages of language acquisition. In A. Olofsson & S. Strömqvist (Eds.), Cross-linguistic studies of dyslexia and early language development (pp. 14⫺33). Brussels: The European Commission DG XII Science, COST A8. Lee, P. (Ed.) (1996). The Whorf theory complex. A critical reconstruction. Amsterdam Studies in the Theory and History of Linguistic Science. Amsterdam: John Benjamins. Lenneberg, E. (1967). Biological foundations of language. New York: John Wiley. Leopold, W. F. (Ed.) (1939⫺1949). Speech development of a bilingual child: A linguist’s record. Evanston: Northwestern University Press. Levelt, W. (1989). Speaking. Cambridge, Mass.: M.I.T. Press. MacWhinney, B. (1991). The CHILDES Project – Tools for analyzing talk. Hillsdale New Jersey: Erlbaum. MacWhinney, B. & Bates, E. (Eds.) (1989). The crosslinguistic study of sentence processing. Cambridge: Cambridge University Press. Meng, K. & Strömqvist, S. (Eds.) (1999). Discourse markers in language acquisition. Journal of Pragmatics, 31: Special issue. Elsevier: North Holland. Ninio, A. & Snow, C. (1996). Pragmatic development. New York: Westview Press Inc. Peters, A. (1995). Language typology, prosody and the acquisition of grammatical morphemes. In D. I. Slobin (Ed.), The crosslinguistic study of language acquisition, Vol. 5 (pp. 136⫺197). Hillsdale, NJ.: Lawrence Erlbaum. Peters, A. & Strömqvist, S. (1996). The role of prosody in the acquisition of grammatical morphemes. In J. L. Morgan & K. Demuth (Eds.), Signal to syntax: Bootstrapping from speech to grammar in early acquisition (pp. 215⫺232). Hillsdale, NJ.: Lawrence Erlbaum.

VI. Spracherwerb sition to multi-word speech. Journal of Child Language, 20, 551⫺571. Pinker, S. (1996). The language instinct. New York: Penguin. Plunkett, K. & Marchman, V. (1991). U-shaped learning and frequency effects in a multi-layered perceptron: Implications for child language acquisition. Cognition, 38, 43⫺102. Plunkett, K. & Strömqvist, S. (1992). The acquisition of Scandinavian languages. In D. I. Slobin (Ed), The crosslinguistic study of language acquisition, Vol. 3 (pp. 457⫺556). Hillsdale, NJ.: Lawrence Erlbaum. Ragnarsdo´ttir, H. (1990). Syste`me patronymique et construction des relations de parente´ chez les enfants islandais. Aix-en-Provence: Universite´ de Provence Aix-Marseille I. Ragnarsdo´ttir, H. & Strömqvist, S. (1997). The linguistic encoding of spatial relations in Scandinavian child language development. In E. Clark (Ed.), The Proceedings of the Twenty-eighth Annual Child language Research Forum (pp. 271⫺282). Stanford: CSLI, Stanford. Ratner, N. & Bruner, J. (1978). Games, social exchange and the acquisition of language. Journal of Child Language, 5, 391⫺401. Slobin, D. I. (1996). From “thought and language” to “thinking for speaking”. In J. Gumperz & S. Levinson (Eds.), Rethinking linguistic relativity. Studies in the social and cultural foundations of languag, Vol. 17 (pp. 70⫺96). Cambridge: Cambridge University Press. Slobin, D. I. (1998). A typological perspective on learning to talk about space. In H. Ragnarsdo´ttir & S. Strömqvist (Eds.), Learning to talk about time and space. Proceedings of the 3rd Northern European Language Acquisition Seminar. Gothenburg Papers in Theoretical Linguistics, Vol. 80 (pp. 1⫺ 29). Reykjavı´k and Göteborg: University College of Education, Reykjavı´k, and Department of Linguistics, University of Göteborg. Slobin, D. I. (1977). Language change in childhood and in history. In J. Macnamara (Ed.), Language learning and thought. Perspectives in neurolinguistics and psycholinguistics (pp. 185⫺214). New York: Academic Press. Slobin, D. I. (Ed.) (1985⫺1997). The crosslinguistic study of language acquisition, Vol. 1⫺5. Hillsdale, N. J: Lawrence Erlbaum.

Piaget, J. & Inhelder, B. (1969). The psychology of the child. London: Routledge and Kegan Paul.

Snow, C. & Ferguson, C. (Eds) (1977). Talking to children. Language input and acquisition. Cambridge: Cambridge University Press.

Pine, J. & Lieven, E. (1993). Reanalysing rotelearned phrases: Individual differences in the tran-

Strauss, S. (Ed) (1982). U-shaped growth. New York: Academic Press.

behavioral

58. Schriftspracherwerb Strömqvist, S. (1988). Svenska i ett ontogenetiskt perspektiv. In P. Linell, V. Adelsvärd & L. Gustavsson, (Eds.), Svenskans beskrivning 16, (pp. 457⫺474). University of Linköping: Department of Communication Studies. Strömqvist, S. & Day, D. (1993). On the development of narrative structure in child Ll and adult L2 acquisition. Journal of Applied Psycholinguistics, 14, 135⫺158. Strömqvist, S. & Richthoff, U. (1999). Linguistic feedback, input and analysis in early language development. Journal of Pragmatics, 31, 1245⫺1262. Strömqvist, S., Ragnarsdo´ttir, H. & Richthoff, U. (2001). Input and production in the acquisition of function words. In B. Höhle & J. Weissenborn (Eds.), Approaches to bootstrapping: Phonological, syntactic and neurophysiological aspects of early language acquisition. Language acquisition and lan-

801 guage disorders, Vol. 2 (pp. 157⫺177). Amsterdam: John Benjamins. Strömqvist, S., Ragnarsdo´ttir, H., Engstrand, O., Jo´nsdo´ttir, H., Lanza, E., Leiwo, M., Nordqvist, ˚ ., Peters, A., Plunkett, K., Richthoff, U., SiA monsen, H. G., Toivainen, J. & Toivainen, K. (1995). The inter-Nordic study of language acquisition. Nordic Journal of linguistics, 18, 3⫺29. Tomasello, M. (1992). First verbs: A case study of early grammatical development. Cambridge: Cambridge University Press. Werker, J. (1989). Becoming a native speaker. American Scientist, 77, 54⫺59. Werker, J. & Polka, L. (1993). Developmental changes in speech perception: new challenges and new directions. Journal of Phonetics, 21, 83⫺101.

Sven Strömqvist Lund University (Sweden)

58. Schriftspracherwerb 1. 2. 3. 4. 5.

Einleitung und Übersicht Konzeptualisierung, schriftliche Kommunikation und Textproduktion Sprachproduktion Graphomotorik Literatur

1.

Einleitung und Übersicht

Unter Schriftspracherwerb kann man den Erwerb der Lese- und der Schreibfähigkeit verstehen. In dem vorliegenden Kapitel wird nur Letzterer behandelt. Der gestörte Schriftspracherwerb kann hier ebenfalls nur am Rande thematisiert werden (vgl. Mannhaupt, 1994; Klicpera & Gasteiger-Klicpera, 1995). Allerdings werden viele Erkenntnisse zum normalen Schriftspracherwerb aus Untersuchungen gestörten Schreibens gewonnen. Auch die verschiedenen Modelle der Schreibdidaktik können hier nicht dargestellt werden, wenngleich in diesem Zusammenhang die Frage zu diskutieren ist, ob der Schriftspracherwerb eher extern – durch Lehrprozesse – gesteuert wird oder ob er stärker nach Prinzipien des Lerners, also selbstgesteuert verläuft. Schriftspracherwerb in dem hier verstandenen Sinn umfasst den Erwerb der spezifi-

schen schriftsprachlichen Textsorten und Kommunikationsformen, der Orthographie sowie der Schreibmotorik (Graphomotorik). Diese Dreiteilung folgt der Überlegung, dass Schreiben, Sprechen und Gebärden verschiedene Formen der Sprachproduktion sind. Sinnvollerweise sollten sie daher in einem einheitlichen theoretischen Rahmen behandelt werden; darauf aufbauend, lassen sich dann Unterschiede ermitteln. Das derzeit wichtigste Sprachproduktionsmodell wurde von der Arbeitsgruppe um Willem Levelt entwickelt (vgl. Levelt et al., 1999). Es modelliert zwar zunächst die mündliche Sprachproduktion, man kann seine Grundstruktur bis auf Weiteres jedoch auch für ein allgemeines Sprachproduktionsmodell verwenden. In diesem Modell werden auf der Wortebene drei streng sequenziell ablaufende Komponenten angenommen: eine konzeptuelle Komponente, eine sprachliche i. e. S. und eine motorische. Nach dieser Einteilung ist auch die folgende Darstellung strukturiert. Dabei wird die konzeptuelle Komponente mit dem Teilbereich der Schreibforschung in Beziehung gesetzt, der üblicherweise mit dem Begriff „Textproduktion“ (composition) arbeitet. Der Schriftspracherwerb wird nicht in einer einzelnen wissenschaftlichen Disziplin untersucht. Relevante Beiträge werden von

802

VI. Spracherwerb

der Sprachwissenschaft, verschiedenen Teildisziplinen der Psychologie, der Pädagogik und der Medizin geleistet. Eine wichtige Aufgabe künftiger Forschung wird darin bestehen, in diesem interdisziplinären Bereich einheitliche theoretische und methodische Standards zu entwickeln. Relevante Dimensionen eines solchen Modells werden das Schriftsystem und die schriftliche Kommunikation sein müssen, die schriftliche Sprachproduktion und die Erwerbsperspektive. In jedem der Abschnitte wird zunächst der jeweilige Gegenstand eingeführt, anschließend die Produktionsseite erörtert und schließlich drittens die Erwerbsfrage

2.

Konzeptualisierung, schriftliche Kommunikation und Textproduktion

Die schriftliche Kommunikationssituation unterscheidet sich in zahlreichen Aspekten von der mündlichen. In Bühler’scher Terminologie lässt sie sich erstens durch das Fehlen eines gemeinsamen Zeigfeldes der Kommunikationspartner kennzeichnen (vgl. Weingarten, 1989: 45 ff.). Dies bedeutet, dass alle zum Verständnis einer Mitteilung erforderlichen Informationen versprachlicht werden müssen, da sie sich für den Rezipienten nicht aus dem Zeigfeld erschließen lassen. Es ist also eine größere sprachliche Explizitheit erforderlich. Weiterhin handelt es sich um eine zeitlich „zerdehnte“ Kommunikationssituation (vgl. Ehlich, 1994) (dies gilt nur bedingt für die modernen Formen der schriftlichen Online-Kommunikation). Dadurch, dass die sprachlichen Handlungen des Produzenten einer Mitteilung und die des Rezipienten nicht unmittelbar aufeinander folgen, sind die Möglichkeiten der Rückfrage stark eingeschränkt, weswegen die schriftliche Mitteilung Wissensvoraussetzungen und sprachliche Voraussetzungen des Kommunikationspartners stärker antizipieren muss. Mit dem Eintritt in den Schriftspracherwerb müssen Kinder lernen, diese besonderen Kommunikationsbedingungen zu berücksichtigen und dementsprechend ihre schriftlichen Mitteilungen zu gestalten. Geht man davon aus, dass der Spracherwerb insgesamt mit einem „pragmatic mode“ (Givo´n, 1979), also einer auf Kontexthilfen angewiesenen Kommunikationsweise beginnt, so erfordert die Schriftsprache einen ausgebauten „syntactic mode“. Daraus ergibt sich notwendigerweise, dass

der Schriftspracherwerb im Rahmen des Spracherwerbs insgesamt nur auf einer bereits fortgeschritteneren Stufe erfolgen kann. Zur schriftsprachlichen Kompetenz gehört die Beherrschung der Textsorten, die spezifisch für die schriftliche Kommunikation sind und die sich von mündlichen Formen grundlegend unterscheiden. Ein Aspekt dieser Textsorten sind konventionelle Verfahren, mit denen die Besonderheiten der schriftlichen Kommunikation berücksichtigt werden (z. B. Nennung von Autor und Adressat, elaborierte Textstrukturen, Verminderung kontextabhängiger Informationen). Mit der klassischen Typologie der Aufsatzdidaktik – Erzählung, Bericht, Schilderung, Beschreibung, Erörterung – wurde versucht, den schriftlichen Textsorten Rechnung zu tragen. Auch war hier eine Entwicklungsabfolge vorgesehen, die unter heutiger Perspektive jedoch als unzureichend erscheint. Einerseits ist die Vielfalt der Textsorten durch diese einfache Typologie zu wenig berücksichtigt; andererseits fehlt dieser Entwicklungsfolge (von subjektiveren Schreibformen hin zu objektivierenden) eine empirische und theoretische Grundlage. Einen wichtigen Bezugsrahmen für Untersuchungen in diesem Bereich bildet die Textproduktionsforschung (für einen Überblick s. Antos, 1996). Sie untersucht auf der Textebene die Konzeptualisierung schriftlicher (und mündlicher) Texte. Für viele Untersuchungen in diesem Bereich bildete das Modell von Hayes und Flower (1980) eine Grundlage. Hier werden als Komponenten des kognitiven Schreibprozesses die Planung, die Übersetzung des Plans und die Überarbeitung unterschieden. Diese Komponenten stehen in einer Interaktion mit der Aufgabenumgebung einerseits und dem Langzeitgedächtnis des Schreibers andererseits. Insgesamt wird das Schreiben hier als kognitiver Problemlöseprozess aufgefasst. In einer neueren Version (Hayes, 1996) wird das Modell um motivationale und affektive Komponenten erweitert. Die Entwicklung von ontogenetischen Modellen der schriftlichen Textproduktion wurde insbesondere durch die Arbeiten von Bereiter und Scardamalia (z. B. 1987) angestoßen. Wichtige Arbeiten aus dem deutschen Sprachraum sind z. B. Augst und Faigel (1986) mit einer Untersuchung argumentativer Texte bei 13⫺23-Jährigen und BeckerMrotzek (1997; Schreiben von Bedienungsanleitungen von der Grundschulzeit bis zum Er-

803

58. Schriftspracherwerb

wachsenenalter). Mittlerweile gibt es aus diesen Arbeiten zahlreiche Vorschläge für Stadien der Entwicklung der Textproduktionsfähigkeit (für einen Überblick s. Feilke, 1996), die in ihren Grundaussagen weitgehend übereinstimmen. Am Beginn der schriftlichen Textproduktion weisen die Texte von Kindern einen geringen Grad der syntaktischen Integration auf. Dieser liegt häufig unterhalb der syntaktischen Komplexität, die sie in ihrer mündlichen Kommunikation zeigen. Möglicherweise hängt dies damit zusammen, dass der besonders am Anfang extrem langsame schriftliche Produktionsprozess besondere Anforderungen an das sprachliche Arbeitsgedächtnis (zum verbal working memory s. Caplan & Waters, 1999) stellt. Vom Beginn der schriftlichen Produktion eines Satzes bis zu seinem Ende vergeht ein Vielfaches an Zeit im Vergleich zur mündlichen Sprachproduktion. Als Kompensation wird dann möglicherweise die syntaktische Integration reduziert. Erst mit steigender Schreibgeschwindigkeit und der Fähigkeit, den bereits geschriebenen Text als externen Speicher zu nutzen, kann dann die syntaktische Integration steigen und sogar diejenige der mündlichen Sprachproduktion übertreffen. So konnten Jones und Christensen (1999) zeigen, dass bei Schreibanfängern die Schreibgeschwindigkeit 53 % der Varianz der Textqualität (written expression) erklärt. In einer Trainingsstudie im Rahmen derselben Untersuchung erbrachte ein Training der Schreibgeschwindigkeit eine signifikante Verbesserung der Textqualität. Der Zusammenhang wird dadurch erklärt, dass bei mangelnder Automatisierung der Handschrift zu wenig Aufmerksamkeit auf die konzeptuellen und schriftsprachlichen Dimensionen der Sprachproduktion gelegt werden könne. Unter inhaltlicher Perspektive sind die Texte dieser ersten Phase des Schriftspracherwerbs von einer assoziativen oder subjektiv geprägten Anordnung der thematischen Sachverhalte geprägt. Die Berücksichtigung sachlogischer Aspekte führt dann über dieses Schreibstadium hinaus. Offensichtlich müssen erst kognitive Ressourcen freiwerden, um neben motorischen und orthographischen Anforderungen auch konzeptuelle zu berücksichtigen. In einem weiteren Stadium werden zunehmend sprachlich-formale Merkmale der Textgestaltung beachtet. Dabei kann es durchaus zu formalistischen Übergeneralisierungen kom-

men. Mit der stärkeren Berücksichtigung des Adressaten einer Mitteilung, seinen Interessen und Kommunikationsvoraussetzungen wird eine neue Entwicklungsphase eingeleitet, die insgesamt durch eine situationsadäquate Verwendung der Schriftsprache zu kennzeichnen ist. In einigen Entwicklungsmodellen wird hieran anschließend noch eine Stufe des epistemischen Schreibens angenommen, auch der der Schreiber durch das Schreiben zu einem Erkenntnisfortschritt gelangen kann. Diese hier summarisch dargestellten Ergebnisse zu Stadien der Textproduktionsfähigkeit lassen sich nicht unmittelbar auf Altersgruppen beziehen; im konkreten Verlauf hängt der Schriftspracherwerb zu sehr von der einzelnen Schreibbiographie ab. Dennoch fällt auf, dass sich diese Ergebnisse durchaus auch zu allgemeinen Modellen der kognitiven Entwicklung in Beziehung setzen lassen. Gerade unter der Erwerbsperspektive bildet die Untersuchung der Entwicklung mündlicher Formen der Textproduktion und Kommunikation eine wichtige Forschungsgrundlage (z. B. Boueke et al., 1995; Hausendorf & Quasthoff, 1996). Nur vor diesem Hintergrund kann festgestellt werden, auf welchen sprachlichen Fähigkeiten der Schriftspracherwerb aufbaut und welche gänzlich neu zu entwickeln sind. In kontrastiven Untersuchungen muss auch festgestellt werden, welche wechselseitigen Einflüsse zwischen schriftlicher und mündlicher Sprachentwicklung es gibt.

3.

Sprachproduktion

In diesem Abschnitt werden drei Aspekte des Schriftspracherwerbs behandelt: 1. die Besonderheiten des Schriftsystems gegenüber dem System der gesprochenen Sprache; dies schließt auch eine Klärung des Verhältnisses von Orthographie und Schriftsystem ein. 2. die Besonderheiten der schriftlichen gegenüber der mündlichen Sprachproduktion und 3. der Erwerb der Schriftsprache. 3.1. Sprachsystem, Schriftsystem und Orthographie Ein graphisches Zeichensystem soll Schriftsprache genannt werden, wenn es einen konventionalisierten Zusammenhang mit Aspekten des Systems einer Einzelsprache aufweist. Diese können auf der lautlichen, grammatischen oder lexikalischen Ebene liegen. In die-

804 sem Sinne ist die Lautsprache phylo- und ontogenetisch älter als die Schriftsprache. Es gibt zwar graphische Zeichensysteme, die bis in die Altsteinzeit zurückreichen, ein konventionalisierter Bezug zu einer Lautsprache ist jedoch nicht erwiesen. Vor diesem Hintergrund wurde in der älteren Sprachwissenschaft eine Auseinandersetzung darüber geführt, ob das Schriftsystem von dem Sprachsystem abhängig oder ihm gegenüber autonom sei (vgl. Glück, 1987: 57 ff.). Die moderne Schriftlinguistik verfolgt gegenüber dieser einfachen Dichotomie das Ziel herauszufinden, in welchen Aspekten das Schriftsystem Strukturmerkmale des Sprachsystems repräsentiert und inwiefern es eigene Strukturen herausgebildet hat (vgl. Günther, 1988; Eisenberg, 1998: 286 ff.). Grundlegend ist dabei die Auffassung, dass ein Schriftsystem wie ein Sprachsystem Prinzipien einer eigenen Systembildung folgt. Das Schriftsystem entwickelt sich dabei aus dem „Schreibusus“ (Eisenberg, 1998), der Praxis der Schreibenden. Eine ideale Orthographie expliziert und normiert die Prinzipien eines Schriftsystems, also den Schreibusus. In der Praxis wird es jedoch aus mehreren Gründen nie eine völlige Deckungsgleichheit zwischen Schriftsystem und Orthographie geben; drei der Gründe seien hier genannt: 1. Die Orthographie ist zumeist in einer idealisierten Hochlautung fundiert, die von den Varietäten der Umgangssprache einen unterschiedlich großen Abstand aufweisen kann. 2. Die Orthographie normiert ein Schriftsystem bis auf Weiteres, bis zu einem späteren Zeitpunkt eine Orthographiereform stattfindet. Eine Orthographie „hinkt“ damit immer hinter Veränderungen des Schriftsystems hinterher. 3. Bei der Ausformulierung einer Orthographie können schließlich Kriterien eine Rolle spielen, die sich aus Prinzipien des Schriftsystems nicht herleiten lassen (z. B. bildungspolitische Erwägungen). Der Unterschied zwischen Schriftsystem und Orthographie hat auch Konsequenzen für den Schriftspracherwerb. Vermutlich folgt die schriftliche Sprachproduktion weitgehend stärker unbewussten Prinzipien als der bewussten Kenntnis orthographischer Regeln. Ebenso dürfte der Schriftspracherwerb eher als unbewusste Entdeckung dieser Prinzipien ablaufen und weniger als bewusstes Erlernen der orthographischen Regeln. Wichtige Hinweise auf diese Diskrepanz liefert die Fehlerforschung (Dehn, 1985, 1991; Eichler, 1991, Eichler & Küttel, 1993).

VI. Spracherwerb

Das deutsche Schriftsystem, das erst relativ spät in seiner Geschichte eine bewusste Normierung erfuhr, lässt sich in seinem Kernbereich durch seine lautliche und seine grammatische Fundierung im System der deutschen Sprache charakterisieren: (1) Lautliche Fundierung ⫺ Phonemischer Bezug: Phonem-GraphemKorrespondenzen; ⫺ Silbischer Bezug: Dehnung und Schärfung, S-Graphie, silbentrennendes h, Silbentrennung; (2) Grammatische Fundierung ⫺ Morphologischer Bezug: Konstantschreibung; ⫺ Auszeichnung des Satzanfangs und der Wortart Nomen: Groß-/Kleinschreibung; ⫺ Unterscheidung zwischen Wort und Wortgruppe: Getrennt-/Zusammenschreibung; ⫺ Satzgrammatischer Bezug: Interpunktion. Ich werde diese verschiedenen Bezüge im Zusammenhang mit der Erwerbsperspektive erläutern. Zuvor soll ein Modell der schriftlichen Sprachproduktion dargestellt werden. 3.2. Schriftliche Sprachproduktion Ein Modell der schriftlichen Sprachproduktion muss insbesondere eine Antwort auf die Frage geben, auf welche Weise die Graphemfolge gebildet wird. Eine naheliegende Überlegung ist, dass sie unmittelbar vom Lexikon zur Verfügung gestellt wird. Dies könnte die Schnelligkeit, mit der diese komplexe Struktur normalerweise gebildet wird, erklären. Dann bleibt allerdings noch offen, wie kompetente Schreiber auch ihnen unbekannte Wörter oder Pseudowörter schreiben können: Die Information hierfür kann ja nicht aus dem Lexikon kommen. Aus diesem Grund gehen alle Modelle der schriftlichen Sprachproduktion, von dem auf Morton (1979) zurückgehenden Logogenmodell bis zu dessen aktuellen Weiterentwicklungen (vgl. z. B. Marini & Blanken, 1996; Be´land et al., 1999; Miceli et al., 1999), davon aus, dass es zwei Wege zur Schreibung geben muss: einen lexikalischen und einen nicht-lexikalischen. Insbesondere der kognitiven Neuropsychologie ist es zu verdanken, dass dieses Modell ständig verfeinert wurde. Auf dem lexikalischen Weg gelangt die semantische Information in das Graphemische Output-Lexikon. Die hier erzeugte graphemi-

58. Schriftspracherwerb

sche Information wird dann im Graphemischen Output-Buffer zwischengespeichert, bevor der Allographische Konversionsmechanismus die Grapheme in Buchstabenformen übersetzt. Aus neuropsychologischen Untersuchungen mit aphasischen Patienten wird die Annahme abgeleitet, dass die orthographische Form aus dem Lexikon unabhängig von (unterstützenden) phonologischen Prozessen abgerufen werden kann (Miceli et al., 1997; Rapp et al., 1997). Daraus wird die Annahme einer „Autonomie der lexikalisch-orthographischen Information“ abgeleitet. Allerdings zeigen diese Untersuchungen nur, dass bei bestimmten Patienten die schriftliche Sprachproduktion auf dem lexikalischen Weg ohne phonologische Prozesse möglich ist, und keineswegs, dass im Normalfall die Phonologie hier keine Rolle spielt. Im nächsten Abschnitt werden einige Befunde aufgeführt, die diese Frage erneut aufwerfen. Auf dem nicht-lexikalischen Weg steht ein Graphemisches Output-Lexikon nicht zur Verfügung, d. h. der Schreiber kann die Graphemfolge nicht einfach abrufen. Vielmehr gelangt hier ein phonologisches Wort in ein Phonem-Graphem-Konversionssystem, in dem zunächst eine phonologische Segmentierung erfolgt und dieser anschließend eine Graphemfolge zugewiesen wird. Diese gelangt dann wiederum in den Graphemischen Output-Buffer. 3.3. Erwerb des Schriftsystems Als Vorphase des Schriftspracherwerbs wird angesehen, wenn Kinder etwas kritzeln und dies selbst als geschriebenen Text bezeichnen. Dabei experimentieren sie mit dem Konzept eines graphischen Kommunikationssystems, ohne dass ihnen dessen genaue Funktionsweise bekannt wäre. Dennoch ist diese Vorphase des eigentlich Schriftspracherwerbs sicherlich nicht ohne Bedeutung. Nach den gängigen, insbesondere auf die Arbeiten von Uta Frith (1985) zurückgehenden sog. „Stufenmodellen des Schriftspracherwerbs“, beginnt dieser im eigentlichen Sinne normalerweise mit einer logographischen Phase. Hier können die Kinder einige wenige ganze Wörter schreiben, häufig z. B. ihren Namen, ohne dass sie diese Schreibung, z. B. phonographisch, begründen können. Insbesondere handelt es sich dabei nicht um ein produktives System: Sie können daraus nicht die Schreibung von neuen Wörtern ableiten. Im weiteren Verlauf des Schriftspracherwerbs verliert sich dieses logographische

805 Schreiben keineswegs vollständig. Auch kompetente Schreiber rufen einen großen Teil der Wortschreibungen vollständigen aus dem Lexikon ab (s. o.). 3.3.1. Lautliche Fundierung Nach der logographischen Phase besteht der nächste Schritt im Schriftspracherwerb darin, dass die graphischen Einheiten der Schrift mit lautlichen verknüpft werden. Dies wird üblicherweise als Eintritt in die alphabetische Phase bezeichnet. Dem entspricht, dass das deutsche Schriftsystem in seinem Kern alphabetisch strukturiert ist: Auf der segmentalen Ebene gibt es einen konventionalisierten Zusammenhang zwischen dem Lautsystem und dem Schriftsystem. Daneben bezieht sich das Schriftsystem auf eine suprasegmentale Lauteinheit: die Silbe. Üblicherweise sieht man als segmentale Bezugsgrößen Phoneme einerseits und Grapheme andererseits an. Der Zusammenhang zwischen beiden Systemen wird in PhonemGraphem-Korrespondenzen bzw. GraphemPhonem-Korrespondenzen (vgl. Eisenberg, 1998: 290 ff.) ausgedrückt. Für den Schreiblerner liegt in dieser phonemischen Fundierung ein zentrales Problem, das er eigentlich nicht haben dürfte. Traditionell geht man davon aus, dass Phoneme im Sinne der strukturalistischen Phonologie dem System der (Laut-)Sprache inhärent seien. Kognitiv wird dies mit dem Prinzip der kategorialen Wahrnehmung begründet: Wahrgenommene Laute (Phone) werden sofort den Lautklassen der Einzelsprache (Phonemen) zugeordnet. Aus der Phonemfolge entsteht das „phonologische Wort“. Nach diesem Modell müssten Kinder, bevor sie in das alphabetische Stadium eintreten, im Prinzip das phonologische Wort kennen. Sie sollten zumindest implizit wissen, dass der Lautfolge [‘fa6tB] das phonologische Wort /fater/ entspricht. Dass dies nicht so ist, sieht man an Fehlschreibungen wie ⬍Fata⬎ oder ⬍Vata⬎. Daher wird in der Schriftspracherwerbsforschung mittlerweile die Vermutung geäußert, „dass Kinder Phoneme erst in ihrer Korrespondenz zu Graphemen richtig begreifen können.“ (Scheerer-Neumann, 1998: 41). Ebenso wird in der Sprachwissenschaft zunehmend der Verdacht geäußert, dass der strukturalistische Phonembegriff schriftbasiert sei (z. B. Eisenberg, 1998: 295). Der Schreiblerner steht damit vor dem Problem, dass er die wichtigste Voraussetzung für das alphabetische Prinzip – das

806 phonologische Wort – zumindest z. T. im Schriftspracherwerb noch lernen muss. Auch Hilfskonstruktionen wie „Explizitlautung“ oder „Rechtschreibsprache“ als phonographische Bezugsdimensionen weisen darauf hin, dass der Schreiblerner nicht nur auf der schriftlichen, sondern auch auf der lautlichen Seite vor einer Lernaufgabe steht. Vieles spricht dafür, dass der primäre Zugang von Kindern zur Schrift ein phonetischer und nicht ein phonologischer ist. So zeigen Untersuchungen zur Entwicklung phonologischer Bewusstheit, dass die lautliche Einheit, die Kinder am frühesten identifizieren können, die Silbe ist (einschließlich der Binnenstruktur von Silben wie Onset und Reim). Die metaphonologische Fähigkeit zur Identifizierung von Phonemen entwickelt sich hingegen erst später in Zusammenhang mit dem Schriftspracherwerb (vgl. Gombert, 1992: 21; Underwood & Batt, 1996: 96 ff.). Genaue Analysen zum Verlauf des alphabetischen Stadiums, also des segmental-phonographischen Schreibens, zeigen, wie Kinder allmählich die Lautstruktur von Wörtern analysieren. Häufig werden zunächst Anfangslaute erkannt und verschriftet, danach Konsonanten, was zur sog. konsonantischen Skelettschreibung führt, wenn ein Wort wie ⬍Ball⬎ als ⬍bl⬎ verschriftet wird. Es gibt aber auch den umgekehrten Fall der vokalischen Skelettschreibung. Dieses phonographische Schreiben wird zumeist von einer lauten Artikulation des zu schreibenden Wortes begleitet. Aufgrund der Langsamkeit des Schreibens erfolgt die Artikulation dabei in einer Lentoform. In diesem Kontext entwickelt sich vermutlich die spezifische Rechtschreibsprache (Scheerer-Neumann, 1986), aus der phonologische Wörter und anschließend Graphem-Phonem-Korrespondenzen aufgebaut werden. Der überwiegende Teil der Forschung, speziell auch der angelsächsischen, konzentriert sich auf die segmental-phonographische Seite des Schriftspracherwerbs und geht dabei weitgehend unreflektiert von dem GPK-Modell aus. Die an vielen Stellen geäußerten Zweifel an einem von der Schriftsprache und dem Schriftspracherwerb unabhängigen Phonembegriff haben noch nicht zu den entsprechenden Konsequenzen in der Theorie und der Begrifflichkeit geführt. Hier ist weitere theoretische und empirische Arbeit erforderlich. Möglicherweise wird dabei einer phonetischen Bezugsdimension eine größere Bedeutung zukommen als einer phonologischen.

VI. Spracherwerb

Wie oben dargelegt, gehen auch die Modelle der schriftlichen Sprachproduktion von dem Phonembegriff und der Annahme einer Phonem-Graphem-Konversion auf der nichtlexikalischen Route aus. Neben den bereits genannten Einwänden sei hier ein weiteres Phänomen genannt: In Pseudowortschreibungen wenden kompetente Schreiber erheblich differenziertere orthographische Regeln (z. B. Dehnung, Schärfung, S-Graphie, Konstantschreibung etc.) an als nur eine PhonemGraphem-Konversion (vgl. Günther, 1999; Weingarten, 2001). Es muss daher einen komplexen orthographischen Prozessor geben, der auf ein regelbasiertes System zurückgreift bzw. in Teilen zu komplexen orthographischen Analogiebildungen in der Lage ist. Neben einem segmentalen Bezug weist das deutsche Schriftsystem einen suprasegmentalen Bezug zur Silbe auf. Im Schriftsystem zeigt sich dies daran, dass verschiedene Teilbereiche wie Dehnung und Schärfung, SGraphie, silbentrennendes ⬍h⬎ und Silbentrennung an der Silbe orientiert sind. Weiterhin fällt auf, dass das GPK-Modell in Abhängigkeit von der Silbenstruktur unterschiedlich gut funktioniert: am Anfangsrand der Silbe besser als am Endrand, in der betonten Silbe besser als in der Reduktionssilbe. Diese Eigenschaft des Schriftsystems korreliert interessanterweise mit der lautlichen Wahrnehmungsfähigkeit von Kindern: Zumindest Vorschulkinder und Kinder im ersten Schuljahr können silbeninitiale Konsonanten besser identifizieren als silbenfinale und irren sich dabei weniger in betonten als in unbetonten Silben (Treiman et al., 1993). Diese syllabographischen Anteile des Schriftsystems werden häufig einer späteren Stufe des Schriftspracherwerbs zugeordnet – der orthographischen Stufe. Das ist nur dann korrekt, wenn dabei deutlich bleibt, dass es auch hier um eine lautliche Fundierung des Schriftsystems geht und dass diese in ihrem Kernbereich regelhaft ist. Obwohl die Bedeutung der Silbe für den Schriftspracherwerb an vielen Stellen erwähnt ist, hat sie bei weitem nicht die Aufmerksamkeit erfahren wie die lautlich-segmentale Ebene. In einer Trainungsstudie konnten Wentink et al. (1997) zeigen, dass im Holländischen ein Silbentraining die Leseleistung verbessern konnte. Zu ähnlichen Ergebnissen in Einzelfallstudien kommen Rigol (1998), bezogen auf das Schreiben, und Röber-Siekmeyer und Pfisterer (1998), bezogen auf das Lesen (für einen Überblick s. auch Klicpera & Gastei-

58. Schriftspracherwerb

ger-Klicpera, 1995). Insgesamt muss man feststellen, dass in dem syllabographischen Bereich noch ein größerer Forschungsbedarf besteht. In Zusammenhang mit der Silbenstruktur ergibt sich ein weiteres Problem mit dem klassischen Modell der schriftlichen Sprachproduktion. Im Zeitverlauf des Schreibens (Beschleunigungen und Verlangsamungen) zeigt sich ein äußerst stabiles Muster, das Silben und Grundmorpheme als sublexikalische dynamische Einheiten ausweist (vgl. Will et al., 2002). Da dieses Phänomen auch bei unterdrückter subvokaler Artikulation auftritt, kann es sich nicht um eine periphere Interaktion etwa zwischen lautlichen und graphemischen Prozessen handeln. Dies bedeutet erstens, dass es zwischen der Wortebene und der Phonem-/Graphemebene in der schriftlichen Sprachproduktion intermediäre Einheiten geben muss. Es kann zweitens nicht ausgeschlossen werden, dass es auch auf dem lexikalischen Weg engere Interaktionen zwischen lautlichen und graphemischen Prozessen gibt als in den oben erwähnten Modellen der schriftlichen Sprachproduktion angenommen. Möglicherweise liegen diese zwischen dem Semantischen System und dem Graphemischen Output-Buffer. Die genannten Einwände sollten hinreichend Anlass zu einer gründlichen Revision des Logogen-Modells und seiner Nachfolger geben. 3.3.2. Grammatische Fundierung Neben der Syllabographie wird auch der Erwerb der grammatischen Fundierung des Schriftsystems zumeist der orthographischen Stufe zugewiesen. Auch darf nicht übersehen werden, dass es sich in seinem Kernbereich um ein reguläres System handelt. In den schreibdidaktischen Curricula werden die grammatischen Bereiche – Konstantschreibung, Groß-/Kleinschreibung, Getrennt-/Zusammenschreibung und Interpunktion – üblicherweise nach dem phonographischen Zugang behandelt. Es ist daher zunächst unklar, ob die dann festgestellte Erwerbsreihenfolge nur ein Ergebnis der Schreibdidaktik ist oder ob sie davon unabhängig ist. Wenn man jedoch bedenkt, dass zunächst Einheiten vorhanden sein müssen, auf die die grammatischen Prinzipien des Schriftsystems angewandt werden können, so scheint es in der Logik des Schriftsystems zu liegen, dass sie in der Erwerbsfolge nach der Phonographie kommen. Dennoch konnte gezeigt werden, dass die „grammatical awareness“ (z. B. bei

807 der Korrektur grammatisch falscher Sätze) bei Vorschulkindern teilweise unabhängig von ihrer „phonological awareness“ in gewissem Umfang die Entwicklung ihrer Lesefähigkeit vorhersagen kann (Blackmore & Pratt, 1997). Man kann also davon ausgehen, dass grammatisches Wissen in Teilen dem Schriftspracherwerb vorangeht und dann von ihm nutzbar gemacht wird (zu ähnlichen Befunden kommen auch Muter & Snowling, 1997). Das interessanteste Phänomen bei dem Erwerb der grammatischen Fundierung des Schriftsystems kann darin gesehen werden, dass sie, wenn überhaupt, dann nur unzureichend oder gar falsch gelehrt und trotzdem im Regelfall problemlos gelernt wird (dies gilt auch für die Dehnung und Schärfung). So wird z. B. die satzinterne Großschreibung in der Regel so gelehrt: Nomen werden großgeschrieben. Nomen wiederum werden entweder durch semantische Merkmale (Belebtheit, Konkretheit o. ä.) eingeführt oder durch die sog. Artikelprobe. Die tatsächlichen grammatischen Kriterien dafür, dass ein Wort im Satz als Nomen verwendet wird, (idealiter attributive Erweiterbarkeit, Plural-, Kasus- und Genusfähigkeit) werden hingegen nicht gelehrt. In einer Untersuchung, in der Kinder vorliegende Schreibungen beurteilen sollten, zeigte sich, dass sie zwar die in der Schule gelernten Regeln als Versatzstücke in ihren Begründungen benutzten, ihre tatsächlichen Schreibungen davon jedoch z. T. unabhängig waren (vgl. Weingarten, 2001). So argumentierten Kinder des zweiten Schuljahres, dass das Wort „Flugreise“ kleingeschrieben werden müsse, da man „dies ja tue“. Unmittelbar anschließend schrieben sie das Wort jedoch groß. Noch ausgeprägter ist dieses Phänomen bei der Getrennt-/Zusammenschreibung. Die grammatischen Kriterien dafür, ob ein vorliegender Ausdruck ein Wort oder eine Wortgruppe ist und demgemäß zusammen oder getrennt zu schreiben ist, sind relativ komplex. Davon wird praktisch nichts in der Schule gelehrt. Dieses System erschließen sich die Kinder im Schriftspracherwerb völlig autonom. Die Interpunktion hat insbesondere die Funktion, die grammatische Struktur eines Textes für den Leser transparent zu machen. Sie dient der Ausgrenzung von Ganzsätzen, der Anzeige einer Koordination von Wörtern, Wortgruppen oder Teilsätzen sowie der Anzeige der Subordination von satzwertigen

808

VI. Spracherwerb

Konstituenten und von Herausstellungen. Weiterhin hat sie in Teilbereichen pragmatische Funktionen. In erster Linie setzt die Beherrschung der Interpunktion aber grammatische Kenntnis voraus. Eine umfangreiche Untersuchung dieses Prozesses bis zum 17. Lebensjahr wurde von Afflerbach (1997) vorgelegt. Dabei konnte gezeigt werden, dass die Interpunktion mit der Elaborierung der syntaktischen Strukturen der geschriebenen Texte einhergeht. Weiterhin wurde hier ein Erwerbsmodell vorgeschlagen, nachdem sich die Lerner zunächst eigenaktiv mit dem System auseinandersetzen. In einer zweiten Phase wenden sie das gelernte System bewusst an, bevor in einer dritten Phase die bewusste Interpunktion wieder zurückgeht und Routineprozessen weicht, die nur noch bedingt der Reflexion zugänglich sind. Der Erwerb der grammatischen Fundierung des Schriftsystems ist insgesamt noch vergleichsweise wenig untersucht. Das interessanteste Phänomen in diesem Bereich ist seine weitgehende Unabhängigkeit von Lehrprozessen.

4.

Graphomotorik

Während die Artikulation die letzte Phase in der Produktion gesprochener Sprache bildet, führt die schriftliche Sprachproduktion zur Graphomotorik. Hier sind die beiden unter motorischer Perspektive völlig unterschiedlichen Formen der Handschrift und der Tastaturschrift zu unterscheiden, wobei für den Beginn des Schriftspracherwerbs in seiner gegenwärtigen Form insbesondere die Handschrift wichtig ist. Nur sie wird in diesem Ab-

Abb. 58.1: Schriftzüge auf einem Graphiktablett

schnitt behandelt. Bei einer Untersuchung der Graphomotorik stellen sich die folgenden Fragen: Was ist der Input des graphomotorischen Moduls? Auf welche Ressourcen greift es zurück? Wie ist sein Output beschaffen? Im Logogen-Modell erhält der Motorische Output-Buffer seinen Input aus dem Graphemischen Output-Buffer. Dabei werden die Grapheme in Allographen, für die ein allographischer Speicher angenommen wird, umgewandelt (vgl. Thomassen, 1996). Dieser Speicher enthält abstrakte Informationen über die Buchstabenform mit räumlichen und motorischen Merkmalen. Anschließend werden die Allographen in motorische Muster übersetzt, die dann durch die entsprechenden Muskelgruppen realisiert werden. Die Vielzahl der beteiligten Muskeln der Hand und des Armes erfordert eine äußerst komplexe Bewegungskoordination. Im folgenden Beispiel soll die graphomotorische Entwicklung verdeutlicht werden. In Abbildung 58.1 sind die mit einem Graphiktablett erhobenen Schriftzüge bei der Schreibung des Buchstabens ⬍K⬎ durch ein Kind aus dem 2.Schuljahr und eine Erwachsene zu sehen. Zunächste sind die Unterschiede in der Form zu erkennen: Das Kind verwendet die Lateinische Ausgangsschrift, die Erwachsene eine individuelle Form, die im Vergleich zu dem Buchstaben des Kindes stark vereinfacht ist (der Buchstabe ist ähnlich einem ⬍K⬎ der Vereinfachten Ausgangsschrift.). Die unterschiedliche Dichte der Messpunkte auf den Schriftzügen macht deutlich, dass die Erwachsene erheblich schneller schrieb als das Kind. Tabelle 1 zeigt, dass die einzelnen motorischen Einheiten sowie des

809

58. Schriftspracherwerb

Tabelle 58.1: Dauer der einzelnen motorischen Einheiten. Beide Buchstaben waren aus je zwei Schriftzügen (Zeitraum zwischen Aufsetzen und nächstem Abheben des Stiftes) und einem Luftsprung (Zeitraum zwischen Abheben und nächstem Aufsetzen des Stiftes) gebildet:

Kind 2. Schj. Erwachsene

Schriftzug 1

Luftsprung

Schriftzug 2

Gesamtschreibzeit

1230 ms 160 ms

620 ms 136 ms

1400 ms 230 ms

3250 ms 520 ms

Abb. 58.2: Geschwindigkeitsverlauf bei der Schreibung der Buchstaben aus Abb. 58.1 Die y-Achse gibt die zurückgelegte Strecke an, die x-Achse die Messzeiten in Schritten von 10 ms. D. h., je höher der Wert auf der y-Achse, desto höher war die Schreibgeschwindigkeit. Lücken zwischen den Kurven entstehen durch Luftsprünge mit dem Stift.

gesamten Buchstabens bei dem Kind etwa sechsmal länger dauerten als bei der Erwachsenen. Neben der Veränderung bzw. Vereinfachung der Buchstabenform, der Verkürzung der Schreibzeit, ist die dritte und wichtigste graphomotorische Veränderung im Rahmen des Schriftspracherwerbs die Veränderung des Geschwindigkeitsprofils. Dies zeigt Abbildung 58.2. Im Geschwindigkeitsverlauf des Kindes lassen sich motorische Gruppen zwar erkennen, sie haben jedoch einen sehr irregulären Verlauf: Der erste Schriftzug, etwa bis zum Messpunkt 123 (also nach 1230 ms), weist ein Geschwindigkeitsminimum auf, das durch den Richtungswechsel des Schriftzuges oben in der Mitte des ⬍K⬎ bedingt ist. Ebenso weist der zweite Schriftzug ein Minimum auf, das aus dem Richtungswechsel in der Mitte des ⬍K⬎ resultiert. Insofern ist zwar eine motorische Grobstruktur zu erkennen, innerhalb dieser Einheiten ist der Geschwindigkeitsverlauf jedoch völlig irregulär. Er weist die typischen Merkmale nicht-automatisierter, sondern kontrollierter Bewegungen auf (vgl. Mai & Marquardt, 1998). Der Geschwindigkeitsverlauf der Erwachsenen ist hingegen erheblich klarer und kommt der idealtypischen Form automatisierter Bewegungen mit einem eingipfligen Geschwindigkeitsprofil relativ nahe.

Das unstrukturierte Geschwindigkeitsprofil in den Schriftzügen von Schreibanfängern hängt übrigens nicht mit einem generellen motorischen Problem zusammen – andere Zeichenaufgaben können durchaus ein eingipfliges Profil aufweisen. Dieses Profil ist vielmehr schreibspezifisch und geht darauf zurück, dass die motorischen Programme für die Buchstabenschreibungen noch nicht automatisiert sind. Individualisierung und damit häufig motorische Ökonomisierung der Buchstabenform, höhere Schreibgeschwindigkeit und automatisierter Bewegungsablauf sind auf der Buchstabenebene die wichtigsten graphomotorischen Entwicklungsdimensionen. Auf der Wortebene gibt es noch eine weitere Form der Strukturierung der Schreibdynamik. Je länger der Stift ohne Unterbrechung auf der Schreibfläche bewegt wird, desto höher wird der Schreibdruck bzw. der Muskeltonus des Schreibarms. Daher wird von routinierten Schreibern insbesondere bei längeren Wörtern der Stift mehrfach abgehoben, was in Luftsprüngen und damit Lücken zwischen den Buchstaben resultiert. Diese Unterbrechungen erfolgen nun nicht nach einem starren Zeitschema, sondern liegen mit fortschreitendem Schriftspracherwerb zunehmend dort, wo innerhalb eines Wortes Silben- und Morphemgrenzen zusammenfallen (Weingarten, 1998). Dies deutet darauf hin,

810

VI. Spracherwerb

dass aus dem graphemischen Output-Buffer nicht das voll spezifizierte Wort an das motorische Modul weitergegeben wird, sondern sprachstrukturell bedingte Subeinheiten. Dieses Phänomen zeigt sich allerdings weniger bei Schreibanfängern, sondern es bildet sich erst im Laufe des Schriftspracherwerbs heraus. Aus diesen Ergebnissen wie auch aus der oben erwähnten Studie von Jones und Christensen (1999) geht eine Interaktion zwischen den einzelnen Phasen der schriftlichen Sprachproduktion hervor, deren Entwicklung im Schriftspracherwerb aufeinander abgestimmt werden muss.

5.

Literatur

Afflerbach, S. (1997). Zur Ontogenese der Kommasetzung vom 7. bis zum 17. Lebensjahr. Frankfurt: Peter Lang. Antos, G. (1996). Die Produktion schriftlicher Texte. In H. Günther & O. Ludwig (Hrsg.), Handbuch Schrift und Schriftlichkeit (pp. 1527⫺1535). Berlin: de Gruyter. Augst, G. & Faigel, P. (1986). Von der Reihung zur Gestaltung. Untersuchungen zur Ontogenese der schriftsprachlichen Fähigkeiten von 13⫺23 Jahren. Frankfurt am Main: Lang. Becker-Mrotzek, M. (1997). Schreibentwicklung und Textproduktion. Opladen: Westdeutscher Verlag. Be´land. R., Bois, M., Seron, X. & Damien, B. (1999). Phonological spelling in a DAT patient: The role of the segmentation subsystem in the phoneme-grapheme-conversion. Cognitive Neuropsychology, 16, 115⫺155. Bereiter, C. & Scardamalia, M. (1987). The psychology of written composition. Hillsdale, N.J.: Erlbaum. Blackmore, A. M. & Pratt, Ch. (1997). Grammatical awareness and reading in grade 1 children. Merrill-Palmer Quarterly, 43, 567⫺590. Boueke, D., Schülein, F., Büscher, H.,Terhorst, E. & Wolf, D. (1995). Wie Kinder erzählen. Untersuchungen zur Erzähltheorie und zur Entwicklung narrativer Fähigkeiten. München: Fink. Caplan, D. & Waters, G. S. (1999). Verbal working memory and sentence comprehension. Behavioral and Brain Sciences, 22, 77⫺126.

und Rechtschreiben. Diskussion Deutsch, 22, 13⫺ 33. Ehlich, K. (1994). Funktion und Struktur schriftlicher Kommunikation. In H. Günther & O. Ludwig (Hrsg.), Handbuch Schrift und Schriftlichkeit (pp. 18⫺41). Berlin: de Gruyter. Eichler, W. (1991). Nachdenken über das richtige Schreiben. Innere Regelbildung und Regelfehlbildung im Orthographieerwerb. Diskussion Deutsch, 22, 34⫺44. Eichler, W. & Küttel, H. (1993). Eigenaktivität, Nachdenken und Experiment – zur inneren Regelbildung im Erwerb der Zeichensetzung. Diskussion Deutsch, 29, 35⫺44. Eisenberg, P. (1998). Grundriss der deutschen Grammatik. Bd.1: Das Wort. Stuttgart: Metzler. Feilke, H. (1996). Die Entwicklung der Schreibfähigkeiten. In H. Günther & O. Ludwig (Hrsg.), Handbuch Schrift und Schriftlichkeit (pp. 1178⫺ 1191). Berlin: de Gruyter. Frith, U. 1985. Beneath the surface of developmental dyslexia. In K. E. Patterson, J. C. Marshall & M. Coltheart (Eds.), Surface dyslexia: Neuropsychological and cognitive studies of phonological reading (pp. 301⫺330). London: Erlbaum. Givo´n, T. (1979). On understanding grammar. New York: Academic Press. Glück, H. (1987). Schrift und Schriftlichkeit. Eine sprach- und kulturwissenschaftliche Studie. Stuttgart: Metzler. Gombert, J. E. (1992). Metalinguistic development. University of Chicago Press. Günther, H. (1988). Schriftliche Sprache. Strukturen geschriebener Wörter und ihre Verarbeitung beim Lesen. Tübingen: Niemeyer. Günther, H., Gantioler, I. & Linnemann, M. (1999). Was Rechtschreiber können und nicht wissen – Experimentelle Studien zum sog. Dehnungs-h. Ms. Köln. Hayes, J. R. (1996). A new framework for understanding cognition and affect in writing. In C. M. Levy & S. Ransdell (Eds.), The science of writing (pp. 1⫺27). Mahwah, N.J.: Erlbaum. Hayes, J. R. & Flower, L. S. (1980). Identifying the organization of writing processes. In L. W. Gregg & E. R. Sternberg (Eds.), Cognitive processes in writing (pp. 3⫺30). Hillsdale, N.J.: Erlbaum.

Dehn, M. (1985). Über die sprachanalytische Tätigkeit des Kindes beim Schreiben. Diskussion Deutsch, 16, 25⫺51.

Hausendorf, H. & Quasthoff, U. (1996). Interaktion und Entwicklung. Eine Studie zum Erwerb von Diskursfähigkeit bei Kindern. Opladen: Westdeutscher Verlag.

Dehn, M. (1991). Entdeckend lernen – mit Einsicht üben. Lehr-Lern-Prozesse beim Schreiben

Jones, D. & Christensen, C. A. (1999). Relationship between automaticity in handwriting and stu-

58. Schriftspracherwerb dents’ ability to generate written text. Journal of Educational Psychology, 91, 44⫺49. Klicpera, Ch. & Gasteiger-Klicpera, B. (1995). Psychologie der Lese- und Schreibschwierigkeiten. Entwicklung, Ursachen, Förderung. Beltz: Psychologie VerlagsUnion. Levelt, W. J. M., Roelofs, A. & Meyer, A. S. (1999). A theory of lexical access in speech production. Behavioral and Brain Sciences, 22, 1⫺75. Mai, N. & Marquardt, Ch. (1998). Registrierung und Analyse von Schreibbewegungen: Fragen an den Schreibunterricht. In L. Huber, G. Kegel & A. Speck-Hamdan (Hrsg.), Einblicke in den Schriftspracherwerb (pp. 83⫺99). Braunschweig: Westermann. Mannhaupt, G. (1994). Deutschsprachige Studien zu Intervention bei Lese-Rechtschreibschwierigkeiten. Ein Überblick zu neueren Forschungstrends. Zeitschrift für Pädagogische Psychologie, 8, 123⫺ 138. Marini, V. & Blanken, G. (1996). Orthographie ohne Phonologie. Ein Fall von Tiefenagraphie bei neologistischer Jargon-Aphasie. Neurolinguistik, 10, 83⫺107. Miceli, G., Benvegnu`, B., Capasso, R. & Caramazza, A. (1997). The independece of phonological and orthographic lexical forms: Evidence from aphasia. Cognitive Neuropsychology, 14, 35⫺69. Miceli, G., Capasso, R. & Caramazza, A. (1999). Sublexical conversion procedures and the interaction of phonological and orthographic lexical forms. Cognitive Neuropsychology, 16, 557⫺572. Morton, J. (1979). Word recognition. In J. Morton & J.C. Marshall (Eds.), Psycholinguistic Series vol. 2: Structures and Processes (pp. 107⫺156). London: Elek. Muter, V. & Snowling, M. (1997). Grammar and phonology predict spelling in middle childhood. Reading and Writing: An Interdisciplinary Journal, 9, 407⫺425. Rapp, B., Benzing, L. & Caramazza, A. (1997). The autonomy of lexical orthography. Cognitive Neuropsychology, 14, 71⫺104. Rigol, R. (1998). Alphabet und Silbe. Erfahrungen mit dem Anfang der Schriftlichkeit. In R. Weingarten & H. Günther (Hrsg.), Schriftspracherwerb (pp. 19⫺35). Baltmansweiler: Schneider. Röber-Siekmeyer, Ch. & Pfisterer, K. (1998). Silbenorientiertes Arbeiten mit einem leseschwachen

811 Zweitklässler. Begründung und Beschreibung einer nicht buchstabenorientierten Unterrichtsfolge zum Lesenlernen. In R. Weingarten & H. Günther (Hrsg.), Schriftspracherwerb (pp. 36⫺61). Baltmansweiler: Schneider. Scheerer-Neumann, G. (1986). Sprechen, Denken und Rechtschreiben. Schreibe wie du sprichst – Rechtschreibhilfe? – falsche Strategie – oder unvermeidlich? Grundschule, 6, 20⫺24. Scheerer-Neumann, G. (1998). Schriftspracherwerb: „The state of the art“ aus psychologischer Sicht. In L. Huber, G. Kegel & A. Speck-Hamdan (Hrsg.), Einblicke in den Schriftspracherwerb (pp. 31⫺46). Braunschweig: Westermann. Thomassen, A., J. W. M. (1996). Writing by hand. In H. Günther & O. Ludwig (Hrsg.), Handbuch Schrift und Schriftlichkeit (pp. 1027⫺1035). Berlin: de Gruyter. Treimann, R., Berch, D. & Weatherston, S. (1993). Children’s use of phoneme-grapheme correspondence in spelling: Roles of position and stress. Journal of Educational Psychology, 85, 466⫺477. Underwood, G. & Batt, V. (1996). Reading and understanding. Oxford: Blackwell Publishers. Weingarten, R. (1989). Die Verkabelung der Sprache. Frankfurt/M.: Fischer. Weingarten, R. (1998). Schreibprozesse und Schriftspracherwerb. In R. Weingarten & H. Günther (Hrsg.), Schriftspracherwerb (pp. 62⫺81). Baltmansweiler: Schneider. Weingarten, R. (2001). Orthographisch-grammatisches Wissen. In S. Wichter & G. Antos (Hrsg.), Wissenstransfer zwischen Experten und Laien (pp. 209⫺226). Frankfurt/Main: Peter Lang. Weingarten, R. & Günther, H. (1998). (Hrsg.). Schriftspracherwerb. Baltmansweiler: Schneider. Wentink, H. W. M. J., van Bon, W. H. J. & Schreuder, R. (1997). Training of poor readers’ phonological decoding skills: Evidence of syllable-bound processing. Reading and Writing: An Interdisciplinary Journal, 9, 163⫺192. Will, U., Weingarten, R. Nottbusch, G. & Albes, Ch. (2002). Linguistische Rahmen und segmentale Informationen bei der Einzelwortschreibung. Evidenzen aus Zeitstrukturen und Fehlerverteilungen. Erscheint in: Ch. Habel & Th. Pechmann (Hrsg.), Sprachproduktion. Opladen: Westdeutscher Verlag.

Rüdiger Weingarten Universität Osnabrück (Deutschland)

812

VI. Spracherwerb

59. Spracherwerb im Erwachsenenalter 1. 2. 3. 4. 5. 6.

1.

Modelle des Spracherwerbs und der Entwicklung von Kommunikationsfähigkeiten Ursachen der Veränderung sprachlichkommunikativer Fähigkeiten Erwerbsprozesse als Folge gesellschaftlichen Wandels Erwerbsprozesse in der Lebensspanne Zusammenfassung Literatur

Modelle des Spracherwerbs und der Entwicklung von Kommunikationsfähigkeiten

Dass Menschen die Fähigkeit, miteinander zu kommunizieren und zu sprechen, in einem langwierigen Prozess erst erwerben, ist evident. Linguistische Versuche, diesen Spracherwerb im Kindesalter zu beschreiben und zu erklären, füllen Bibliotheken. Weniger evident ist die Antwort auf die Frage, ob dieser Spracherwerb einen End- bzw. Sättigungspunkt – die Beherrschung der Sprache – erreicht oder ob es sich dabei eher um einen kontinuierlichen Prozess des Erwerbs und der Veränderung handelt, der zu keinem Abschluss kommt. Diese unterschiedlichen Auffassungen lassen sich als Plateaumodell oder als Permanenzmodell des Spracherwerbs charakterisieren. Für das Plateaumodell ist die Annahme charakteristisch, „that language development „crystalizes“ sometime during adolescence and […] remains uniform across the life-span“ (Kemper et al., 1989: 49). Das Permanenzmodell hingegen geht von einer lebenslangen Veränderung sprachlich-kommunikativer Fähigkeiten aus. Welches dieser Modelle man favorisiert, hängt ganz wesentlich von dem zugrunde gelegten Verständnis von Sprache und Kommunikation ab. Versteht man im Rahmen einer Langue- oder Kompetenz-Konzeption unter Sprache ein Lexikon und ein System von grammatischen Regeln, die angeben, wie diese Wörter aufeinander zu beziehen und miteinander zu verknüpfen sind, wird man zwar nicht unbedingt für das Lexikon, aber auf jeden Fall für das System der grammatischen Regeln zu der Auffassung kommen, dass der Spracherwerb weitgehend zu einem Abschluss kommt. Versteht man unter Sprachbeherrschung hingegen die Gesamtheit der Konventionen und Regeln, die not-

wendig sind, um partner- und situationsgerecht kommunizieren zu können (vgl. Fiehler, 1995, für eine genauere Differenzierung der Regeln, die Sprachbeherrschung ausmachen), wird man eher zu der Auffassung neigen, dass der Spracherwerb ein lebenslanger, zu keinem Zeitpunkt abgeschlossener Prozess ist. Nun ist die erstgenannte Sprachauffassung unbestreitbar die linguistisch vorherrschende, was u. a. zur Folge hatte und hat, dass man Entwicklungsprozessen der sprachlichen und kommunikativen Fähigkeiten im Erwachsenenalter – und entsprechend auch im Alter – kaum Beachtung geschenkt bzw. sie als Performanzphänomene marginalisiert hat: „Some areas of language and variation development are better documented than others. Much more is known about fine age differences in the early years than in the later years, and in fact, less is known about agerelated patterns of variation the further we move along in the life course.“ (Eckert, 1997: 158⫺159) Auf der Basis der zweiten Sprachauffassung soll hier hingegen Spracherwerb und -entwicklung als ein permanenter Prozess verstanden werden. Sprachliche und kommunikative Fähigkeiten entwickeln und verändern sich über die gesamte Lebensspanne: „language development is a life-long process of change in response to changing cognitive abilities and social motivations“ (Kemper et al., 1989: 64⫺65). Der Ausbau dieser Fähigkeiten besitzt in der sprachlich-kommunikativen Sozialisation des Kleinkindes, in der Schule und in der beruflichen Sozialisation und Praxis eine besondere Dynamik, Veränderungen erfolgen aber auch in allen anderen Lebensphasen – insbesondere auch im Alter. Im Erwachsenenalter handelt es sich nicht um Spracherwerb im engeren Sinne (es sei denn beim Fremdsprachenerwerb), sondern um Veränderungen der sprachlich-kommunikativen Fähigkeiten. Die Veränderungen können in einer Erweiterung, einer Reduktion oder in der Umstrukturierung dieser Fähigkeiten bestehen: „In some sense the language development of early childhood and even late childhood is different from that of adulthood since there is probably a core language all children learn, whereas the special language registers and skills of adolescence and adulthood are relatively optional – only

813

59. Spracherwerb im Erwachsenenalter

people who need them and find themselves exposed to them have a chance to acquire them.“ (Obler, 1993: 422)

lich-globale (Abschn.3) und eine personenbezogen-biographische Perspektive (Abschn. 4) zu unterscheiden.

2.

3.

Ursachen der Veränderung sprachlich-kommunikativer Fähigkeiten

Fragt man nach den Ursachen, die Veränderungen der sprachlich-kommunikativen Fähigkeiten im Erwachsenenalter bewirken, so sind zwei große Komplexe zu unterscheiden: zum einen biologisch basierte Ursachen und zum anderen sozial fundierte Ursachen. Biologische Erklärungen für Veränderungen der sprachlich-kommunikativen Fähigkeiten rekurrieren auf die menschliche Physis. Die physischen Veränderungen werden dabei in normale und außergewöhnliche differenziert. Die normalen Veränderungen sind häufig auf ein Stadienmodell (Entfaltung, Reife, Abbau) bezogen. Geht man davon aus, dass die Physis nach Abschluss der Pubertät über einen längeren Zeitraum relatv stabil ist, sind hier keine wesentlichen Anstöße für Veränderungen zu erwarten. Biologisch bedingte Veränderungen treten verstärkt erst wieder mit zunehmendem Alter auf. Sie werden vor allem mit physischen Abbauprozessen in Verbindung gebracht und bestehen in einer Umstrukturierung und einer Reduktion, seltener in einer Erweiterung sprachlich-kommunikativer Fähigkeiten. Außergewöhnliche Veränderungen können durch (psychische) Krankheiten, krankhaft beschleunigte Abbauprozesse (z. B. Alzheimer-Demenz), Verletzungen (z. B. Hirnschädigungen) etc. verursacht sein. Die wesentlichen physischen Bereiche, die zur Erklärung sprachlich-kommunikativer Veränderungen im Alter herangezogen werden, sind die Organe der Stimmerzeugung (z. B. zittrige, brüchige Stimme) und das Gehör (Schwerhörigkeit mit ihren kommunikativen Folgen) sowie vor allem das Gehirn mit seinen kognitiven und affektiven Funktionen, wobei insbesondere Veränderungen der Gedächtnisleistungen (vgl. Kemper et al., 1989) und Veränderungen in den Prozessen der Sprachproduktion und -rezeption (z. B. Wortfindungsstörungen) eine wichtige Rolle spielen. Betrachtet man auf der anderen Seite die sozial basierten Ursachen für die Entwicklung sprachlich-kommunikativer Fähigkeiten im Erwachsenenalter, so sind eine gesellschaft-

Erwerbsprozesse als Folge gesellschaftlichen Wandels

In globaler Perspektive ist es vor allem der gesellschaftliche Wandel, der sprachlich-kommunikative Erwerbsprozesse als Anpassung an die sozialen Veränderungen induziert. Um nur drei wichtige Beispiele zu nennen: ⫺ Prozesse der Technisierung (wie die Einführung des Computers und der neuen Kommunikationstechnologien) machen die Beherrschung neuer kommunikativer Praktiken erforderlich (wie z. B. das Besprechen von Anrufbeantwortern oder die Durchführung von Videokonferenzen), was auch den Erwerb einer entsprechenden Terminologie einschließt (Runkehl, Schlobinski & Siever, 1998; Kallmeyer, 2000). ⫺ Die wirtschaftliche Globalisierung erfordert und trägt in einem erheblichen Maß zum Erwerb von Fremdsprachen und zur Ausbildung interkultureller Gesprächskompetenz bei (Müller, 1993). ⫺ Gesellschaftliche Umbrüche (wie z. B. die Wiedervereinigung von BRD und DDR) verlangen den Betroffenen große sprachlich-kommunikative Anpassungsleistungen ab (Auer & Hausendorf, 2000). Solche Prozesse globalen gesellschaftlichen Wandels betreffen jeweils unterschiedlich viele Individuen, und sie unterliegen ihnen unterschiedlich stark wie auch zu verschiedenen Zeitpunkten und in verschiedenen Phasen ihrer Biographie.

4.

Erwerbsprozesse in der Lebensspanne

Bei der personenbezogen-biographischen Perspektive der Life-span-Forschung geht es darum, bestimmte sprachlich-kommunikative Veränderungen mit biologischen Veränderungen einerseits (s. o.) und Veränderungen der sozialen Lebenssituation andererseits in Zusammenhang zu bringen und sie aus ihnen herzuleiten. Im Folgenden werde ich mich vor allem mit den sozialen Ursachen für die Veränderung sprachlichen Verhaltens befassen. Betrachtet man die Entwicklung sprach-

814 lich-kommunikativer Fähigkeiten über die Lebenspanne, so erfolgen die wesentlichen Entwicklungen im Erwachsenenalter zum einen im Kontext der beruflichen Sozialisation und Praxis und zum anderen im Zusammenhang mit den Prozessen des Alterns. 4.1. Erwerb sprachlich-kommunikativer Fähigkeiten im Kontext beruflicher Tätigkeit In der Berufsausbildung werden nicht nur das für die jeweilige berufliche Tätigkeit erforderliche (Fach-)Wissen und entsprechende praktische Fertigkeiten, sondern zu einem erheblichen Anteil auch sprachlich-kommunikative Fähigkeiten erworben (Brünner, 1987). Diese Erwerbsprozesse setzen sich in der beruflichen Praxis fort. Sie bestehen zum einen in der Entwicklung und Ausdifferenzierung der allgemeinen Kommunikationsfähigkeit durch die Vielzahl der kommunikativen Anforderungen, die die berufliche Tätigkeit mit sich bringt. Dies gilt insbesondere für kommunikationsintensive Berufe oder Berufe, deren Kern in der Ausführung bestimmter mündlicher oder schriftlicher kommunikativer Aktivitäten besteht (Lehrer, Richter, Anwälte, Journalisten, Reporter, Wissenschaftler, Schriftsteller, Therapeuten, Call-CenterMitarbeiter etc.). Erworben werden aber auch speziellere Fähigkeiten wie die Beherrschung berufsspezifischer Gesprächsformen (Vortrag, Präsentation, Interview, Besprechung, Beratung, Verhör, Reportage, Moderation etc.) und berufsspezifischer Fachsprachen. Letzteres schließt den Erwerb einer entsprechenden Terminologie ein. Entwickelt wird auch die Fähigkeit, im Rahmen von Experten-Laien-Interaktionen professionelles Wissen extern zu vermitteln. Im beruflichen Kontext wird ferner häufig die Beherrschung technisierter Kommunikationsformen (E-mail, Telefon-/Videokonferenzen, Arbeit mit Mehrplatzsystemen etc.) erlernt. Neben der Entwicklung muttersprachlicher Fähigkeiten erfordert die berufliche Tätigkeit zunehmend auch den – gesteuerten oder ungesteuerten – Erwerb von Fremdsprachen und die Ausbildung interkultureller Gesprächskompetenz. Welche dieser kommunikativen Fähigkeiten erworben bzw. ausdifferenziert werden, ist natürlich in einem hohen Maß berufs- bzw. arbeitsplatzspezifisch. Der Erwerb von sprachlich-kommunikativen Fähigkeiten kann dabei auf unterschiedliche Art erfolgen: einerseits als ‘learning on the job’ in der Kommunikationspraxis selbst

VI. Spracherwerb

(ungesteuert), andererseits durch systematisches Lehren und Lernen entsprechender Fähigkeiten (gesteuert). Beim ungesteuerten Erwerb, der einen erheblichen Anteil ausmachen dürfte („Much of adult language acquisition is not formally learned but is acquired in context.“ Obler, 1993: 425), wird die eigene Kommunikationspraxis im Hinblick auf Defizite oder Probleme reflektiert, und es werden kommunikative Alternativen entwickelt und erprobt. Auch das beobachtete Kommunikationsverhalten anderer kann dabei zur Alternativenfindung dienen. Der gesteuerte Erwerb erfolgt in der Berufsausbildung (als Unterricht) wie auch in Form von (Kommunikations-)Trainings, die die Berufspraxis begleiten. Kommunikationstrainings stellen den Versuch dar, sprachlich-kommunikative Fähigkeiten explizit und systematisch in Form von Unterricht und Übungen zu entwickeln und zu verändern (vgl. Fiehler, 2001). Angesichts der Vielfalt der Entwicklungsprozesse im beruflichen Kontext ist es unverständlich, warum ihnen – als spezifische Form von Erwerbsprozessen – von wissenschaftlicher Seite bisher nicht höhere Aufmerksamkeit geschenkt wurde: „Thus, linguists know there exists the potential for long-term acquisition of language, but we do not usually treat all these postchildhood language skills within the developmental framework.“ (Obler, 1993: 422) 4.2. Veränderung sprachlichkommunikativer Fähigkeiten im Kontext des Alterns Auf die sprachlich-kommunikativen Veränderungen im Alter soll – weil üblicherweise vernachlässigt – an dieser Stelle ausführlicher eingegangen werden. Versucht man die Entwicklung der sprachlich-kommunikativen Fähigkeiten im Alter – wie es hier geschieht – als Folge von Veränderungen der Lebenssituation und alterstypischen Erfahrungen zu verstehen, betritt man damit einem Minderheitenweg, sind doch die sprachlich-kommunikativen Veränderungen bisher ganz überwiegend als Resultat biologischer Ursachen betrachtet worden. Mit dem Altern (verstanden als Anwachsen des numerischen Lebensalters) gehen in jeder Kultur für das Individuum bestimmte typische soziale Veränderungen und Erfahrungen einher (Fiehler, 1998b). Diese Veränderungen und Erfahrungen lassen sich als Anforderungen verstehen, auf die die Betroffenen kommunikativ reagieren. Sie haben

59. Spracherwerb im Erwachsenenalter

kommunikative Folgen und führen vermittelt darüber zur Veränderung der sprachlichkommunikativen Fähigkeiten. Versucht man zu explizieren, was in dieser Kultur mit dem Prozess des Alterns verbunden ist, kann man eine Reihe von sozialen Veränderungen und Erfahrungen anführen, die im Folgenden kursorisch zusammengestellt werden sollen: Typische Veränderungen der sozialen Situation entstehen z. B. durch das Ende der Berufstätigkeit. Dies erfordert eine Umstellung auf das ‘Rentnerdasein’, ermöglicht andererseits aber auch die Erschließung alternativer Tätigkeitsfelder. Mit dem Ende der Berufstätigkeit ist eine Veränderung der ökonomischen Situation verbunden, die sich in der Regel verschlechtert. Dies kann bis zur Armut und zum sozialen Abstieg reichen. Auf der anderen Seite ist aber auch ein Alter im Wohlstand möglich. Eine weitere Veränderung ist der Übergang aus der Eltern- in die Großelternrolle und damit der Übergang aus der Gestalter- in eine Unterstützungsrolle. Diese Generationsablösung bedeutet zugleich einen Dominanzwechsel. Der Übergang in die Großelternrolle und das Ende der Berufstätigkeit bringen auf der anderen Seite aber auch eine Zunahme an Freiheit mit sich, weil zentrale Verpflichtungen entfallen. Die Zunahme an Freizeit eröffnet im Prinzip vielfältige Entwicklungsmöglichkeiten. Typische Veränderungen in den sozialen Beziehungen ergeben sich aus dem Tod von Ehegatten, Verwandten und Bekannten. Zusammen mit einer abnehmenden Mobilität kann dies generell zu einer Verringerung der sozialen Kontakte (und der Kontaktfähigkeit) führen. Umgekehrt können aufgrund der Zunahme an Freiheit aber auch neue Kontakte geknüpft werden. Zu nennen sind hier auch Veränderungen im Stellenwert der Sexualität. Typische Erfahrungen in der (intergenerationellen) Interaktion sind z. B., dass die Jüngeren ⫺ absichtlich oder unabsichtlich ⫺ durch ihr Verhalten den Älteren zu verstehen geben, dass sie alt sind. D. h. es entsteht die Notwendigkeit des Umgangs mit Altersattributierungen und mit der ganzen Palette der herangetragenen Altersstereotype. Zu diesen Erfahrungen gehört häufig auch, nicht mehr für voll genommen zu werden. Typische Erfahrungen mit sich selbst bestehen in der Regel darin, dass physische, mentale und psychische Beeinträchtigungen bzw.

815 Krankheiten zunehmen, bis hin zu dem Punkt, dass man sich selbst nicht mehr versorgen kann und von anderen abhängig wird. Damit einher geht eine Verringerung der unmittelbaren Welterfahrung. Umgekehrt kann das Bewusstsein großer eigener sozialer Erfahrung bestehen (die u. U. aber nicht gefragt ist). Weiter wird häufig die Erfahrung gemacht, dass Fähigkeiten nachlassen, so z. B., dass die Lernfähigkeit (und Lernbereitschaft) abnimmt oder dass relevante Kulturtechniken zunehmend nicht oder nicht mehr beherrscht werden (Auto fahren, Automaten-/ Computerbedienung etc.). Dies kumuliert häufig in der Erfahrung, dass Entwicklungen über einen hinweggehen. Ein relevanter Teil der alten Menschen muss auch erfahren, dass Spontaneität und Flexibilität nachlassen und Verhaltensroutinen einen immer größeren Platz einnehmen. Dies kann einhergehen mit wachsender Intoleranz, während umgekehrt auch eine mit dem Alter zunehmende Toleranz möglich ist. Eine gravierende Erfahrung ist ferner, sich mit dem eigenen Tod zu beschäftigen. Diese kurze Zusammenstellung der Veränderungen und Erfahrungen im Alter umreißt ein typisches Szenario des Alterns in unserer Kultur. Dabei ist wichtig, im Auge zu behalten, dass diese Veränderungen und Erfahrungen nicht alle alten Personen gleichermaßen betreffen, sondern dass dies individuell – sowohl im Hinblick auf die Auswahl, den Zeitpunkt und die persönliche Bedeutsamkeit – sehr variabel sein kann. Deutlich geworden ist auch, dass in Bezug auf einzelne Punkte völlig gegensätzliche Erfahrungen gemacht werden können. Zudem können die Betroffenen, selbst wenn sie die ‘gleichen’ Veränderungen erleben und Erfahrungen machen, sie unterschiedlich gewichten und auch auf höchst unterschiedliche Weise – akzeptierend oder opponierend, dramatisierend oder bagatellisierend, aufarbeitend oder verdrängend etc. – damit umgehen. Trotz all dieser individuellen Varianz kann man aber dennoch davon ausgehen, dass es eine grundlegende Gleichförmigkeit der Veränderungen und Erfahrungen gibt, die jeweils relevante Anteile der Gruppe der alten Menschen betrifft. Die Verarbeitung dieser Veränderungen und Erfahrungen erfolgt nun nicht nur mental, sondern ganz wesentlich auch kommunikativ: Die Veränderungen und Erfahrungen und die Prozesse ihrer kommunikativen Be-

816 und Verarbeitung strukturieren das sprachlich-kommunikative Verhalten vor und prägen es. Damit stellt sich die Frage, wie und in welcher spezifischen Weise sich die einzelnen Veränderungen und Erfahrungen auf das Kommunikationsverhalten auswirken. Um dies an zwei Beispielen anzudeuten: Wird – z. B. als Folge zunehmender Immobilität oder eines wachsenden Desinteresses – die unmittelbare Welterfahrung geringer, so bedeutet dies kommunikativ, dass zunehmend auf vergangene Erfahrungen zurückgegriffen werden muss, weil neue nicht zur Verfügung stehen. D. h. der Anteil autobiographischer Erzählungen wird zunehmen. Sind aktuelle Fragen und Themen Gegenstand des Gesprächs, so kann darauf – je nach Verarbeitungsstrategie – unterschiedlich reagiert werden: Bei Interesse z. B. mit intensivem Nachfragen, um diese Erfahrungen ‘nachzuholen’, wobei das Gespräch Züge der Wissensvermittlung oder des Belehrens annehmen kann. Besteht hingegen kein Interesse, so kann dies bedeuten, dass der alte Mensch sich aus dem Gespräch ausblendet, oder aber, dass er versucht, das Thema in seinem Sinne zu beeinflussen (wie das z. B. ‘zu seiner Zeit’ war). Die zentrale Kompensationsstrategie für den Verlust unmittelbarer, aktueller Welterfahrung besteht in der Medienrezeption, so dass Berichte und Erzählungen über Mediensendungen zu einem relevanten Bestandteil des Kommunikationsaufkommens werden. Auch der mit der Generationsablösung verbundene Macht- und Dominanzverlust wirkt sich in spezifischer Weise auf das sprachlichkommunikative Verhalten aus. Wichtig ist hier zunächst, ob der Dominanzverlust akzeptiert und hingenommen wird oder ob gegen ihn opponiert wird. Die unterschiedlichen Verarbeitungsstrategien bringen natürlich unterschiedliche kommunikative Folgen mit sich. Für den Fall des Opponierens wurden in einer ersten empirischen Analyse drei Gesprächsstrategien festgestellt: das Nutzen von Erfahrungen und Erinnerungen als Ressource zur Reaktualisierung der eigenen Dominanz, die kommunikative Emigration in die Vergangenheit (als Zeit der eigenen Überlegenheit) und das Abgeben und Schenken (bis hin zum Aufdrängen) von Gegenständen, wodurch demonstriert wird, dass der alte Mensch noch etwas zu geben hat, um so den Dominanzverlust zumindest symbolisch zu kompensieren (vgl. Fiehler, 1998a: 309⫺315). Auch hier lassen sich sicherlich weitere typi-

VI. Spracherwerb

sche kommunikative Auswirkungen und Folgen empirisch herausarbeiten. Diese kurzen Skizzen sollen verdeutlichen, dass die oben aufgelisteten typischen Veränderungen und Erfahrungen jeweils mit spezifischen Veränderungen des Kommunikationsverhaltens verbunden sind. Diese Veränderungen gilt es, auf empirischer Basis im Detail zu erfassen und zu beschreiben. Dabei ist klar, dass alterstypische Sprache und Kommunikation nicht Folge der Veränderung eines Faktors sind. Alle erlebten Veränderungen und Erfahrungen wirken, wenn sie eintreten, zusammen, und ihre jeweiligen kommunikativen Folgen interferieren. Auf der Ursachenseite sind also in der Regel Bündel von Faktoren anzusetzen, wobei diese Faktoren bei der einzelnen Person bzw. bei Personengruppen in je individuellen Konstellationen auftreten und zusammenwirken und zudem jeweils unterschiedliches Gewicht besitzen können. Die beschriebenen kommunikativen Auswirkungen sind natürlich nicht auf das Alter beschränkt, d. h. sie sind nicht altersexklusiv. Auch bei jüngeren Menschen finden sich autobiographische Erzählungen, Klatsch und das Hinzufügen einer Vergangenheitsperspektive, aber in anderer Frequenz und z. T. auch anderer Qualität. Das Alter zeichnet sich dadurch aus, dass diese kommunikativen Folgen aufgrund der Bündelung der Veränderungen und Erfahrungen kumulieren. Insgesamt kann man davon ausgehen, dass die typischen Veränderungen und Erfahrungen, die mit dem Alter einhergehen, den kommunikativen Haushalt (Luckmann, 1988) der alternden Menschen in quantitativer wie qualitativer Hinsicht umstrukturieren. Quantitative Veränderungen können in der Zunahme (Verbosität, vgl. Ryan & Kwong See, 1998: 59⫺61), aber auch in der Abnahme des Kommunikationsaufkommens bestehen. Die qualitativen Veränderungen liegen zum einen auf der thematischen Ebene in dem Sinn, dass die typischen sozialen Veränderungen und Erfahrungen häufig Gegenstand von Gesprächen sind. Sie betreffen aber auch Vorkommen und Quantität bestimmter Gesprächsformen (z. B. (autobiographisches) Erzählen, Klatsch), bestimmter kommunikativer Muster (z. B. emphatische Realisierungen des Musters der Bewertungsteilung (vgl. Fiehler, 1990: 221⫺ 225)) und kommunikativer Strategien (z. B. Stilisierung als ‘alt’, Einbringen einer Vergangenheitsperspektive). Sie berühren ferner äußerungsstrukturelle und gesprächsorganisa-

817

59. Spracherwerb im Erwachsenenalter

torische Aspekte wie den Partnerzuschnitt von Äußerungen, die Bezugnahme auf Vorgängeräußerungen oder die Gestaltung thematischer Kohärenz (z. B. assoziative Anschlüsse). Die Betroffenen gehen aber nicht nur mit den genannten sozialen Veränderungen und Erfahrungen um und verarbeiten sie kommunikativ, sie sind – im Kontext von Alterszuschreibungen, aber auch unabhängig davon – mit der Kategorie ‘Alter’ konfrontiert und müssen sich dazu verhalten. Auch hier sind verschiedene Formen des Umgangs möglich, die von der (punktuellen oder dauerhaften) Akzeptanz von Alter bis zur Distanzierung bzw. Verdrängung von Alter reichen. Kommunikativ kann sich die Akzeptanz in häufigen Thematisierungen äußern, eine ambivalente Haltung zum Alter in Strategien wie dem Kokettieren mit dem Alter und eine Distanzierung darin, dass Alter nur anderen zugeschrieben wird, oder darin, dass versucht wird, ‘Alter’ in der konkreten Interaktion nicht relevant werden zu lassen (zu verschiedenen Formen der interaktiven Relevantsetzung von Alter vgl. Fiehler, 1998a: 305⫺308). Die beschriebenen Prozesse der Umstrukturierung des kommunikativen Haushalts im Alter bleiben nicht ohne Auswirkungen auf die Ebene der sprachlichen Mittel, die benutzt werden. Die Veränderungen betreffen in unterschiedlichem Umfang alle sprachsystematischen Ebenen (Kemper, 1987, 1992; Light, 1993; Coupland, Coupland & Giles, 1991). Die typischen Veränderungen und Erfahrungen im Alter definieren in ihren kommunikativen Auswirkungen und Folgen eine Spannbreite, die den Stil des Alters ausmacht. Er entsteht als Reaktion auf die soziostrukturellen Bedingungen des Alterns und umfasst die vielfältigen Formen der kommunikativen Auseinandersetzung mit diesen Bedingungen. Es handelt sich um ein umfängliches Konglomerat sprachlich-kommunikativer Erscheinungsformen, an dem einzelne Personen oder Gruppen nur partiell teilhaben. Dennoch ist er als Ganzes konturiert und erkennbar, insbesondere im Kontrast zum kommunikativen Stil des berufstätigen Erwachsenenalters. Gleichwohl können einzelne Elemente dieses Stils auch schon früher auftreten, sofern auch die betreffenden Veränderungen früher eintreten und entsprechende Erfahrungen früher gemacht werden. Der Stil des Alters ist also weder exklusiv auf einen Personenkreis ab einem bestimmten numerischen Alter beschränkt, noch ist er homogen, sondern er

umfasst durchaus gegensätzliche Erscheinungsformen. Seine Grenzen können wegen der Vielfalt der Veränderungen, Erfahrungen und Verarbeitungsweisen nicht anders als unscharf sein, wenngleich es auch prototypische Erscheinungsformen gibt. Der Stil des Alters ist keinesfalls nur ein Defizienzstil. In dem Maße, in dem ein positiver Umgang mit den sozialen Veränderungen und Erfahrungen und eine konstruktive Verarbeitung von Alter gelingt, ist er Ausdruck einer eigenständigen, andersartigen Lebensphase, die Bedingungen eigener Art unterliegt. Zu unterscheiden vom Stil des Alters sind Stile des Alters, wie sie für einzelne Personen, Gruppen oder Milieus charakteristisch sind. Sie sind das Resultat je konkreter erlebter Veränderungen und Erfahrungen und eines je konkreten Umgangs mit ihnen. Die oben aufgelisteten typischen Veränderungen und Erfahrungen im Alter werden – wie gesagt – nicht von allen Personen gleichermaßen gemacht. Diese Unterschiede konstituieren zusammenhängende oder disperse Gruppen im Gesamtbereich der älteren Menschen, deren Kommunikationsverhalten aufgrund der gleichen Veränderungen, Erfahrungen und Verarbeitungsformen eine gewisse Homogenität besitzt. Im Gegensatz zum abstrakten Stil des Alters handelt es sich bei diesen Gruppenstilen um konkrete Sprech- und Schreibstile, die sich aus einem ähnlichen gemeinsamen ‘Hintergrund’ ergeben. Sie sind ein Aspekt der internen Differenzierung der Alterskommunikation. Die Doppelung von abstraktem Stil des Alters auf der einen Seite und von konkreten Gruppenstilen auf der anderen Seite ermöglicht es, zu erfassen und theoretisch zu modellieren, dass Alterskommunikation zwar in gewisser Weise einheitlich erscheint, zugleich aber auch eine sehr große interne Bandbreite aufweist.

5.

Zusammenfassung

In der Auseinandersetzung mit einem Plateau- und einem Permanzenzmodell des Spracherwerbs wurde dafür plädiert, dass Sprachentwicklung ein Prozess ist, der zu keinem Abschluss kommt, sondern dass von einer lebenslangen Entwicklung und Veränderung der sprachlich-kommunikativen Fähigkeiten ausgegangen werden muss. Die Sprachentwickung im Erwachsenenalter wird zum einen durch biologische, zum anderen durch soziale Ursachen induziert. Im Bereich der

818

VI. Spracherwerb

sozialen Ursachen wurden eine global-gesellschaftliche und eine auf die Lebensspanne bezogene Perspektive der sprachlich-kommunikativen Entwicklung unterschieden. Die wesentlichen sprachlich-kommunikativen Entwicklungen im Erwachsenenalter erfolgen im Rahmen der beruflichen Sozialisation und Tätigkeit einerseits und im Zusammenhang mit Prozessen des Alterns andererseits. Die altersbedingten Veränderungen des Kommunikationsverhaltens und der sprachlich-kommunikativen Fähigkeiten wurden, weil sie in der Literatur bisher wenig Beachtung fanden, ausführlicher dargestellt.

6.

Literatur

Auer, P. & Hausendorf, H. (Hrsg.) (2000). Kommunikation in gesellschaftlichen Umbruchsituationen. Mikroanalytische Aspekte des sprachlichen und gesellschaftlichen Wandels in den Neuen Bundesländern. Tübingen: Niemeyer. Brünner, G. (1987). Kommunikation in institutionellen Lehr-Lern-Prozessen. Diskursanalytische Untersuchungen zu Instruktionen in der betrieblichen Ausbildung. Tübingen: Narr. Coupland, N., Coupland, J. & Giles, H. (1991). Language, society and the elderly. Discourse, identity and ageing. Oxford, Cambridge: Blackwell. Eckert, P. (1997). Age as a sociolinguistic variable. In F. Coulmas (Ed.), The handbook of sociolinguistics (pp. 151⫺167). Oxford: Blackwell. Fiehler, R. (1995). Weichenstellungen der Sprachwissenschaft und ihre Folgen oder: Zum Verhältnis von Grammatik und Pragmatik. In A. Kerte´sz (Hrsg.), Sprache als Kognition – Sprache als Interaktion. Studien zum Grammatik-Pragmatik-Verhältnis (pp. 19⫺58). Frankfurt a.M.: Lang. Fiehler, R. (1998a). Kommunikation im Alter. Drei Zugänge zur Analyse altersspezifischen Kommunikationsverhaltens. In R. Reiher & U. Kramer (Hrsg.), Sprache als Mittel von Identifikation und Distanzierung (pp. 299⫺317). Frankfurt a.M.: Lang. Fiehler, R. (1998b). Modelle zur Beschreibung und Erklärung altersspezifischer Sprache und Kommunikation. In R. Fiehler & C. Thimm (Hrsg.), Sprache und Kommunikation im Alter (pp. 38⫺56). Opladen: Westdeutscher Verlag. Fiehler, R. (2001): Gesprächsanalyse und Kommunikationstraining. In G. Antos, K. Brinker, W. Heinemann & S. F. Sager (Hrsg.), Text- und Gesprächslinguistik – Linguistics of Text and Conversation. Ein internationales Handbuch zeitgenössischer Forschung. 2. Halbband: Gesprächslinguistik.

(⫽ Handbücher zur Sprach- und Kommunikationswissenschaft) (pp. 1697⫺1710). Berlin/New York: de Gruyter. Fiehler, R. & Thimm, C. (Hrsg.) (1998). Sprache und Kommunikation im Alter. Opladen: Westdeutscher Verlag. Harwood, J. & Giles, H. (1993). Creating intergenerational distance: Language, communication and middle-ages. Language Sciences 15/1, 15⫺38. Kallmeyer, W. (Hrsg.) (2000): Sprache und neue Medien: Jahrbuch 1999 Institut für Deutsche Sprache. Berlin/New York: de Gruyter. Kemper, S. (1987). Life-span changes in syntactic complexity. Journal of Gerontology, 42(3), 323⫺ 328. Kemper, S. (1992): Language and aging. In F. I. M. Craik & T. A. Salthouse (Eds.), Handbook of aging and cognition (pp. 213⫺270). Hillsdale, NJ: Erlbaum. Kemper, S., Kynette, D. & Norman, S. (1992). Age differences in spoken language. In R. West & J. Sinnott (Eds.), Everyday memory and aging: Current research and methodology (pp. 138⫺152). New York: Springer. Kemper, S., Kynette, D., Rash, S., O’Brien, K. & Sprott, R. (1989). Life-span changes of adults’ language: Effects of memory and genre. Applied Psycholinguistics 10, 49⫺66. Light, L. L. (1988). Language and aging. Competence versus performance. In J. E. Birren & V. L. Bengtson (Eds.), Emergent theories of aging (pp. 177⫺213). New York: Springer. Light, L. L. (1993). Language changes in old age. In G. Blanken, J. Dittmann, H. Grimm, J. C. Marshall & C. W. Wallesch. (Eds.), Linguistic disorders and pathologies. An international handbook (pp. 900⫺918). Berlin/New York: de Gruyter. Luckmann, T. (1988). Kommunikative Gattungen im kommunikativen ‘Haushalt’ einer Gesellschaft. In G. Smolka-Koerdt, P. M. Spangenberg & D. Tillmann-Bartylla (Hrsg.), Der Ursprung der Literatur (pp. 279⫺288). München: Fink. Müller, B.-D. (Hrsg.) (1993). Interkulturelle Wirtschaftskommunikation. (2. erw. und überarb. Aufl.). München: Iudicium. Obler, L. K. (1993). Language beyond childhood. In J. Berko Gleason (Ed.), The development of language (pp. 421⫺449). New York: Macmillan Publishing Company. Runkehl, J., Schlobinski, P. & Siever, T. (1998). Sprache und Kommunikation im Internet. Opladen: Westdeutscher Verlag.

60. Constraints on the Shape of Second Language Learner Varieties Ryan, E. B. & Kwong See, S. T. (1998). Sprache, Kommunikation und Altern. In R. Fiehler & C. Thimm (Hrsg.), Sprache und Kommunikation im Alter (pp. 57⫺71). Opladen: Westdeutscher Verlag. Thimm, C. (1998). Alter-Sprache-Interaktion. Theoretische, methodische und empirische Ansätze zu ei-

819

ner Linguistik des höheren Lebensalters. Heidelberg: Habilitationsschrift.

Reinhard Fiehler, Institut für deutsche Sprache Mannheim (Deutschland)

60. Constraints on the Shape of Second Language Learner Varieties 1. 2. 3.

6. 7.

Introduction The L2 initial state Mechanisms driving L2 development (‘driving forces’) The L2 final state Children vs. adults: differences in input processing Summary References

1.

Introduction

4. 5.

The approach of looking at learner varieties as systems in their own right is common practice in second language (L2) research. It belongs to a research tradition which has coined notions such as ‘approximative systems’ (Nemser, 1971), ‘interlanguage’ (Selinker, 1972) and ‘creative construction’ (Dulay & Burt, 1974). Within this tradition of L2 research it is assumed that L2 learners process L2 data on the basis of language learning mechanisms which are part of the human language learning faculty. The outcome of this process of L2 acquisition is a mental system which is the origin of the learner’s knowledge of L2 grammar. This L2 knowledge system has been called ‘interlanguage’ because it is usually an approximation of the L2 target. The idea that utterances of L2 learners are to be seen as a manifestation of a mental grammar arose from what has been referred to as the ‘cognitive revolution’. This new approach to the study of language and language use had a dramatic impact on the study of L2 learning. With the abolition of behaviourism the role of the mother tongue (L1) in L2 learning was seriously called into question. The belief in the blind transfer of L1 habits was no longer tenable. For some researchers such as Dulay, Burt and Krashen (1982), who strongly believed in L2 learning as a process of creative construction, use of L1 was just a matter of performance. As they saw it, only in case of lack of L2 knowledge could L2

learners ‘fall back’ on their L1. Behaviour of L2 learners which showed L1 influence should therefore be compared to the process of code switching in bilingual children. Corder (1978) had used the term ‘borrowing’ in a similar vein. For him, the use of L1 was a communication strategy which learners resorted to when there was a lack of L2 competence. Within the same mentalist framework, however, there were also researchers such as Selinker (1972), Schachter and Rutherford (1979) and Zobl (1980a, 1980b), who attributed the L1 a more positive role. For them L1 knowledge could be used to become an integral part of a developing interlanguage grammar. In the wake of a growing interest in language universals, interlanguage research became focussed more on the role of universal properties of L2 acquisition than on L1 influence. The universal properties that were assumed to play a role came from research on L1 acquisition, linguistic typology and theoretical linguistics. Although universal language learning strategies such as Slobin’s (1973, 1985) Operating Principles were originally formulated for L1 acquisition, Andersen (1984) demonstrated their relevance for L2 acquisition. Implicational relations between structural properties of language such as Keenan and Comrie’s (1977) Accessability Hierarchy were taken from research on linguistic typology. Gass (1980) and Eckman (1985) showed these implicational relations played a role in L2 acquisition too. Generative linguistics provided the theoretical constructs of Principles and Parameters such as subjacency, pro-drop or headedness. Their role in L2 acquisition has been investigated by White (1988), Schachter (1989), Newport (1994), Liceras (1989) and Flynn (1989). The reason for L2 researchers to turn to L1 acquisition, linguistic typology and theoretical linguistics was their attempt to demonstrate that L2 learning is also constrained by

820

VI. Spracherwerb

universal principles of language learning and linguistic structure. As a consequence, the role of the L1 was not considered a prominent one. Only within the framework of parameter setting as a mechanism of acquisition was the role of the L1 still acknowledged (Schwartz, 1996). The role of the L1 became prominent again when research was focussed on what has been referred to as ‘the L2 initial state’ (Schwartz & Sprouse, 1996). Here, it was seen a matter of investigation as to how grammatical knowledge of the L1 interacts with grammatical knowledge available through Universal Grammar (UG). Recently, competing views have been put forward on the issues just mentioned. They provide an account for the way in which L1 knowledge interacts either with linguistic knowledge which is assumed to be innate or with universal constraints on the process of language learning. With respect to the interaction between L1 knowledge and access to UG, two positions have been put forward. They are referred to as ‘Full Transfer/Full Access’ (Schwartz & Sprouse, 1996) and ‘Minimal Trees’ (Vainikka & Young-Scholten, 1996). The interaction between L1 knowledge and general cognitive principles of language learning has been studied within the framework of the ‘Basic Variety’ (Klein & Perdue, 1997). In the following I will discuss these different theoretical approaches with respect to their claims on (1) L1 knowledge which serves as the basis for L2 acquisition (section 2: The L2 initial state), (2) mechanisms driving L2 development (section 3: Driving forces), (3) constraints on the ultimate attainment of the L2 system (section 4: The L2 final state).

2.

The L2 initial state

2.1. The Full Transfer/Full Access model Schwartz and Sprouse (1996) claim that learners can make use of knowledge of their L1 system at all stages of L2 acquisition: “… all the principles and parameter values as instantiated in the L1 grammar immediately carry over as the initial state of a new grammatical system on first exposure to input from the target language” (41). Hence, “the entirety of the L1 grammar (excluding the phonetic matrices of lexical/morphological items) is the L2 initial state” (41). In order to illustrate their position, Schwartz and Sprouse point out particular

properties in the spontaneous production data of C ¸ evdet, an adult native speaker of Turkish learning L2 German. The observations are relevant with respect to the placement of the finite verb in matrix clauses. C ¸ evdet’s type of learner language is illustrated with examples from three stages of development as represented in (1), (2) and (3). (1)

jetzt er hat Gesicht [ das is falsches now he has face that is wrong Wagen ] car ‘now he makes a face (that) that is the wrong car’

(2) a. in der Türkei der Lehrer kann den in the Turkey the teacher can the Schüler schlagen pupil beat ‘in Turkey the teacher can hit the pupil’ b. dann trinken wir bis neun Uhr then drink we until nine o’clock ‘then we will drink until nine o’clock’ (3) a. später der Charlie wollte zum later the Charlie wanted to-the Gefängnishaus prison ‘later Charlie wanted to go to the prison’ b. das hat eine andere Frau gesehen that has an other woman seen ‘another woman saw that’ Schwartz and Sprouse account for the grammatical properties as evidenced in (1), (2) and (3) in the following way. At Stage 1, fronting of the finite verb hat (‘has’) in sentences of type (1) is accounted for by the assumption that C ¸ evdet has verb movement to C. In order to be able “[t]o do so he will have exploited the requisite landing site(s) made available by UG” (46). Furthermore, the position of the subject er (‘he’) preceding the finite verb is explained as “a carry-over from L1 Turkish”. In Turkish “the only way nominative case can be assigned to the subject is under the Spec-Head agreement relation”. Given the fact that the verb is in C, “the subject must move to [Spec, CP]” (46). Finally, an adverbial such as jetzt (‘now’) can optionally precede the subject. This is explained as due to “optional adjunction to CP (…) perhaps being a carry-over from the L1 or perhaps being a standard mechanism for creating structure in the process of acquiring language” (46 f.).

60. Constraints on the Shape of Second Language Learner Varieties

At Stage 2, C ¸ evdet places pronominal subjects such as wir (‘we’) in (2b) systematically after the verb. In this position nominal subjects “are virtually absent” (47). Schwartz and Sprouse claim that this is due to “the incorporation option as a mechanism to satisfy the Case Filter” (48). This mechanism explains why at the relevant stage only pronominal subjects can occur in postverbal position. It is at Stage 3 that nominal subjects such as eine andere Frau (‘an other woman’) in (3b) can occur postverbally. According to Schwartz and Sprouse, C ¸ evdet has now added “another mechanism for assigning case to subjects”. “Here it is the government option; the verb in C governs IP, and hence the specifier of IP” (48). Therefore, “(nonpronominal) subjects need not move to [Spec, CP] in order to get nominative case” (49). In summary, in Schwartz and Sprouse (1996) the properties of C ¸ evdet’s learner language are laid out in order to illustrate the Full Transfer/Full Access hypothesis. It is Schwartz and Sprouse’s aim to show that properties which are seen as characteristic of L2 grammar can be accounted for in terms of either L1 properties or options in UG. Hence, they argue that L2 grammars are like any other natural grammar. However, no explanation is given for the developmental pattern as such. That is, Schwartz and Sprouse have nothing to say about why it is that these phenomena are acquired in this particular order. Furthermore, the term Full Transfer/Full Access rightly captures the fact that Schwartz and Sprouse do not aim to formulate specific constraints on either L1 transfer or on the selection of options provided by UG. Hence, Full Transfer/Full Access does not allow predictions to be made with respect to properties of an interlanguage grammar in a particular L2 setting, and therefore use of the term ‘hypothesis’ does not seem appropriate. In sum, the kind of analysis provided within the Full Transfer/ Full Access framework reminds one of the approach of Error Analysis in the 70s when interlanguage data were accounted for by associating these data with either L1 or L2 properties. In fact, Schwartz and Sprouse’s approach comes down to an exercise in the association of interlanguage data with descriptions of mechanisms found anywhere in the literature on generative linguistics.

821

2.2. Minimal Trees Vainikka and Young-Scholten’s (1996) proposal concerning the development of phrase structure in L2 learner languages is referred to as ‘Minimal Trees’ (see Schwartz & Sprouse, 1996: 49). In research on child language acquisition this type of hypothesis entails that “children begin syntactic acquisition with lexical projections such as bare VP projection” (Vainikka and Young-Scholten 1996: 8). Later on “… functional projections develop one by one as a result of successive applications of X⬘-Theory” (Vainikka & Young-Scholten, 1996: 9). Unlike Schwartz and Sprouse, the analysis of L2 learner data in terms of this hypothesis allows predictions about the L2 initial stage as well as about the “gradual development of phrase structure”. Furthermore, it is Vainikka and YoungScholten’s hypothesis that “[t]he initial state in L2 acquisition is […] not equivalent to the learner’s entire knowledge of the L1” (Vainikka & Young-Scholten, 1996: 13). With respect to the L2 initial stage they claim that “learners project only a bare VP without any functional projections” (16). Furthermore, Vainikka and Young-Scholten hypothesize that transfer is constrained to the L1 headedness of the structure of VP. If the L2 headedness of VP does not correspond to that of the learner’s L1, there will be a point in acquisition at which headedness will be switched. Since it is Vainikka and Young-Scholten’s claim that functional projections are not transferred, there is no transfer of functional elements of the IP or CP level, “(n)either initially (n)or subsequently” (15). Therefore, Vainikka and Young-Scholten predict that at the L2 initial stage there will be no evidence of verb raising (i. e. the verb usually follows temporal adverbs and negation), no use of auxiliaries and modals, no agreement paradigm (i. e. only infinitive-like forms or a default suffix), no complementizers and no whmovement. Evidence of the transfer of headedness in bare VPs is given in (4a). Since bare VPs do not have verb raising, the verb usually follows temporal adverbs and negation. Examples are given in (4b). (4) a. Oya Zigarette trinken Oya cigarette drink-inf (Aysel/L1 Turkish) ‘Oya smokes cigarettes’ Ja alles hier kaufen yes everything here buy-inf

822

VI. Spracherwerb

(Memduh/L1 Turkish) ‘Yes (I) buy everything here’ Hier Jacke ausmachen here jacket off-make (Changsu/L1 Korean) ‘(She) is taking (her) jacket off’ Ich sprechen die meine Firma I speak-inf the my firm (Salvatore/L1 Italian) ‘I speak (to/at) my firm’ Vielleicht Schule essen maybe school eat-inf (Salvatore/L1 Italian) ‘Maybe (he/she) eats at school’ (4) b. Für mei Junge immer vo mir for my boy always from me schimpfe scold-inf (Antonio/L1 Spanish) ‘My boy always scolds me’ Nein en matina nix essen no in morning[It] not eat-inf (Bongiovanni/L1 Italian) ‘(I) don’t eat in (the) morning’ The evidence in Vainikka and Young-Scholten to illustrate their hypotheses is taken from situations in which the L1 and the L2 differ typologically. However, if L1 and L2 are typologically closely related languages such as Dutch and German, there is no reason to assume that L2 learners will begin syntactic acquisition with bare VP projection. Hence, in such a situation constraints on the transfer of functional elements of the IP or CP level are not expected to occur either initially or subsequently. In summary, the hypotheses of Schwartz and Sprouse and Vainikka and Young-Scholten on L2 learner behaviour differ as far as L1 transfer and developmental processes are concerned. While Schwartz and Sprouse’s Full Transfer/Full Access hypothesis can only provide a posteriori explanations of L2 learner phenomena, Vainikka and YoungScholten are able to formulate a priori constraints on both transfer and development. 2.3. The Basic Variety According to Perdue (1996), the VP is not the initial state of L2 acquisition. In Perdue (1996) it is shown how L2 learners are able to communicate with one-constituent utterances denoting activities and objects and that even verbless utterances with a few noun-like con-

stituents are structured in terms of topic-focus patterns interacting with semantic constraints and scope relations. It is this “interplay of semantic and discourse-organizational constraints” which also governs “much more advanced learner production” (Perdue, 1996: 143; 146). Whereas L2 learners are able to apply these types of organizational constraints from very early on, there is no reason to assume that at the initial stage words like gehen (go), spazier (stroll), laufa (run), komm (come), denoting activities corresponding to verbs in the target language, also have syntactic verb status in the learner’s language. Because there is no verb-argument structure at the initial stages “the distribution of these words here is not that of the [target language] TL” (142). In a further stage of acquisition, noun-like constituents become organized around a verb-like element. Examples are utterances such as Chaplin gehen strasse (Chaplin go street), gehen spazier (go stroll), komm strasse (come street), das frau laufa schnella strasse (woman run fast street). At that point utterances are structured by phrasal patterns, as well. What is particularly intriguing, however, are the types of constraints on placement of “major constituents (…) around the verb” (Perdue, 1996: 144). Klein and Perdue (1997) show that at the relevant stage all learners produce simple utterances which consist of a verb and a few other constituents. Structuring of these utterances is based on the same organizational principles for all learners, no matter what their mother tongue or target language. Hence, regardless of L1, the structure of learner varieties is initially determined by the following types of constraints: pragmatic constraints which organize information in connected discourse; for example: ‘Focus expression last’; semantic constraints which attribute arguments to particular positions; for example: ‘The NP-referent with highest control comes first’; and configurational constraints which define the patterns in which lexemes may occur; for example: ‘NP1-V-NP2’. Klein and Perdue argue that this particular organizational system is not only simple with respect to the principles that it is based on, but also stable in the sense that it is resistant to developmental progress. These properties of simplicity and stability lead Klein and Perdue to call this type of L2 learner language ‘the Basic Variety’. Although the Basic Variety lacks such structural properties of fully-fledged languages as

60. Constraints on the Shape of Second Language Learner Varieties

the grammatical categories subject and object or the grammatical function of finiteness, learners can express temporal and spatial relations. They are able to relate the time span about which they want to make an assertion to the time of utterance. In other words, they can express ‘before’, ‘after’ and ‘simultaneously’. They can also express duration, habituality or iterativity of time spans. They are able to distinguish between types of situation such as ‘states’ and ‘dynamic events’ and between spatial relations such as ‘location’ and ‘change of location’. The pragmatic, semantic and configurational restrictions of the Basic Variety are claimed to hold universally across L2 learners. Therefore, learner languages are similar no matter what their L1. L1 influence is limited to the very early stages of acquisition, where the target language has alternative ways of expressing the same content. This seems to hold for head-complement and complement-head structure in Dutch. In Dutch, complex NPs have complement-head structure in compounds, as in afdelingshoofd (department head), while they have headcomplement structure in NP PP phrases as in chef van de afdeling (head of the department). Broeder (1991) has observed that in L2 Dutch, Turkish informants prefer to use compounds or complex NPs with complement-head structure, as in sigarettenwinkel (cigarette shop), winkelbaas (shop boss), while Moroccan subjects choose the NP PP equivalent with head-complement structure as in winkel van sigaret (shop of cigarette), baas van winkel (boss of shop). This also holds for complex NPs with pronominal possessives as zijn boek (his book) vs. het boek van hem (the book of his) and complex NPs with nominal possessives as mijn vader’s broer (my father’s brother) vs. de broer van mijn vader (the brother of my father). If the learner’s option in these cases is adequately represented in terms of head-complement vs. complement-head structure, one may also expect L2 learners of Dutch and German to choose between either SOV or SVO structure as their basic phrasal pattern. The data seem to suggest that this is true. NP-NP-V is found in Turkish learners of Dutch and German and not in Moroccan learners of Dutch or in Italian learners of German. It should be noted, however, that Punjabi learners of English seem to use the NP-NP-V pattern despite the fact that English only has the SVO option.

3.

823

Mechanisms driving L2 development (‘driving forces’)

3.1. Full Transfer/Full Access: L2 input In the Full Transfer/Full Access approach developmental progress is claimed to depend on input: “… failure to assign a representation to input data will force some sort of restructuring of the system (‘grammar’), this restructuring drawing from options of UG (and hence the term ‘Full Access’)” (Schwartz & Sprouse, 1996: 41). Thus, the role of input data in L2 acquisition is the same as in L1 acquisition. The crucial difference, however, between L1 and L2 acquisition is Full Transfer from L1. Obviously, Schwartz and Sprouse do not seem to be interested in constraints with respect to successive stages of L2 development. This is because they adhere to one of the basic assumptions of the UG approach to L1 acquisition, the Full Competence Hypothesis (FCH). This hypothesis entails “that the initial state of the language faculty includes quite particular formal principles” (Poeppel & Wexler, 1993: 2). Among these formal principles are the functional category systems of IP and CP. Hence, children at the initial state of language acquisition are assumed to have full adult competence and that is why “the FCH has no developmental question associated with it” (Poeppel & Wexler, 1993: 18). As it is one of the basic assumptions of the Full Transfer/Full Access approach that UG is also available to adults, Schwartz and Sprouse do not care for developmental stages in L2 acquisition either. Another reason for Schwartz and Sprouse not to be interested in processes of L2 development might have to do with the fact that adult L2 learners, as opposed to children, are both cognitively and linguistically mature. That is, for adult language learners there are no cognitive constraints on language processing nor are there maturational constraints on the availability of options of UG. Therefore, if neither cognitive nor linguistic development plays a role in L2 learning, why should one bother with constructs such as ‘stages of development’? However, contrary to the position taken by Schwartz and Sprouse, there is a great deal of empirical evidence from investigations within the framework of, for example, the Heidelberg project (Klein & Dittmar, 1979), the ZISA project (Clahsen, Meisel &

824

VI. Spracherwerb

Pienemann, 1983) and the ESF project (Klein & Perdue, 1992) which shows that in many cases the acquisition of certain linguistic properties of the L2 is a prerequisite for the acquisition of other properties. Hence, developmental stages in L2 acquisition are an empirical fact which L2 acquisition research has to be able to account for. Given its assumptions on both the availability of options of UG and L1 transfer, however, it seems impossible for the Full Transfer/Full Access approach to provide a principled way to do so. 3.2. Minimal Trees: emerging functional projections As pointed out before, Vainikka and YoungScholten (1996) assume that L2 learners transfer only the L1 VP, while functional projections develop one by one “through the interaction of X⬘-Theory with the input” (13), that is “independently of the learner’s L1” (25). Vainikka and Young-Scholten, therefore, claim that after the initial stage as illustrated in (4a) and (4b), there is an intermediate stage at which L2 learners “project an underspecified IP-level functional projection, FP, providing a position for a raised verb, as well as a position for modals and auxiliaries” (20). Evidence for optional verb raising in sentences with head-initial FP and for the use of a modal verb is given in (5). (5)

Jetzt brau Wohnungsamt now need-0/1sg housing fragen authority ask-inf (Sevinc/L1 Turkish) ‘Now (I) need to ask (the) housing authority’ Ich sehen Schleier I see-inf veil (Kemal/L1 Turkish) ‘I see the veil’ Immer jeden Tag fünfhundert Stück always every day five-hundred unit machen make-inf (Kadir/L1 Turkish) ‘(I) always make five hundred units everyday’ Und dann nachher kommen die and then afterwards come-inf the Sonne nochmal wieder sun yet again (Maria/L1 Spanish) ‘And then afterwards the sun comes out again’

Mehr Deutsche lerne more German learn-1sg/inf (Maria/L1 Spanish) ‘(I) learn more German’ The examples in (5) also show the lack of an agreement paradigm (i. e., there is only a default suffix), the lack of complementizers and the lack of wh-movement. Furthermore, Vainikka and Young-Scholten argue that there is a more advanced stage at which learners show a “specification of the features” of IP such as AgrP, while they also seem to be “in the process of acquiring CP” (Vainikka & Young-Scholten, 1996: 23f). Evidence for this more advanced stage of acquisition are frequent verb raising, the use of auxiliaries and modals, the acquisition of the agreement paradigm, as illustrated in (6), and the fact that some embedded clauses are used with complementizers and that complex wh-questions are attested. (6)

Ich kaufe dich Eis I buy-1sg you-dat ice-cream (Gabho/L1 Korean) ‘I (will) buy you (some) ice-cream’ Er hat gesagt, nimmst du he has said, take-2sg you Lokomotive? train (Emine/L1 Turkish) ‘He said, (will) you take (the) train?’ Der kleine geht Kindergarten the small-one go-3sg kindergarten (Harva/L1 Turkish) ‘The young one goes (to) kindergarten’

As argued before, it is a major advantage of the account given by Vainikka and YoungScholten that it allows for predictions on the kinds of mechanisms which may or may not occur at a particular stage of interlanguage development. Thus, for a representation of the developmental processes of L2 acquisition, Vainikka and Young-Scholten’s Minimal Tree model appears to be more adequate than the Full Transfer/Full Access approach of Schwartz and Sprouse. Like Radford’s (1988) proposal, according to which the process of L1 development is subject to maturation, Vainikka and Young-Scholten also assume that some sort of internal syllabus determines progress in L2 acquisition. As Radford argued for children learning their L1, so Vainikka and Young-Scholten claim that functional categories, which are thought to

60. Constraints on the Shape of Second Language Learner Varieties

be innate, become successively available for adults. For research on developmental progress as in Vainikka and Young-Scholten, it is a methodological point of importance to establish the criteria which are used to attribute particular learners to particular stages of L2 development. Hence, one might ask for the criteria that were used to identify the first data collection as representative of the initial stage of L2 acquisition. Furthermore, it seems doubtful, particularly in the case of languages which are typologically closely related, that there is no L1 transfer of properties of functional projections. On the contrary, there is evidence from closely related languages such as English and German (see DuPlessis, Solin, Travis & White, 1987) that transfer also occurs with respect to phenomena based on movement to [Spec, IP] and movement to [Spec, CP]. 3.3. The Basic Variety: from ‘conflicts between constraints’ to ‘feature strengthening’ The structural properties of the Basic Variety are determined by its phrasal constraints defining particular word order patterns. The Basic Variety has no free or bound morphology and no complex hierarchical structures which would require some kind of movement (Klein & Perdue, 1997: 332; 337). Thus, properties typically linked to functional categories are lacking and, therefore, “in the [Basic Variety], all features are weak. (…) [S]econd I-language acquisition beyond the [Basic Variety] is essentially a process of selecting the appropriate features to be made strong – those which happen to be strong in the target language” (Klein & Perdue, 1997: 337). The question of what it is that causes the acquisition of functional features of morphology and movement is not only relevant with respect to the Basic Variety. For Klein and Perdue, one should also ask why it is that fully fledged languages are as complex as they are. The answer to this question is determined by the interaction between constraints on phrasal structure, constraints on case role properties of arguments and the organization of information in terms of topicfocus structure. For example, if the controller is in the focus component (as is the case in passive sentences), there is a conflict between semantic and pragmatic constraints. In such cases the learners may “develop specific means to accommodate the ‘competition’”

825

(330). By way of illustration, Klein and Perdue (1997: 331) refer to a situation in which a person is the protagonist in a series of events and therefore occurs in initial topic position. When this person gets hit by an object which is in focus function, the object has a higher degree of control. It is in such contexts that Klein and Perdue found what they called “the first approximations to a [target language] oblique pronominal form” occurring in sentence-initial position, as given in (7). (7)

[hiz] drop-on the timber [le] tombe un bois sur la teˆte to him falls a beam on the head ‘he is/gets hit by a beam’

To sum up, Schwartz and Sprouse differ from both Vainikka and Young-Scholten and Klein and Perdue with respect to constraints on developmental progress in the course of L2 acquisition. For Schwartz and Sprouse, constraints on progress in development are in conflict with the Full Competence Hypothesis. Hence, for them the concept of developmental stages does not play a role. According to Schwartz and Sprouse, development occurs by exposure to target language input. In Vainikka and Young-Scholten, however, stages in development play an important role in L2 learning. These stages are determined by the gradual emergence of functional projections. Finally, Klein and Perdue assume a feature strengthening model which receives its impetus not just by exposure to the target language but is driven by conflicts between different types of constraints. It is the means by which these conflicts are resolved which leads to target language complexity. 3.4. Constraints on transfer: transfer to somewhere Vainikka and Young-Scholten’s proposal has been criticized by Schwartz and Sprouse with respect to a particular type of error produced by francophones acquiring English. An example of this type of error is given in (8a). (8) a. *Mary takes often the subway This type of error can easily be explained on the basis of transfer if we compare the target structure in English with the equivalent in L1 French (as in 9a and 9b). (9) a. Mary often takes the subway (target language English) b. Marie prend souvent le metro (source language French)

826 In the Minimal Tree model of acquistion, however, transfer is not an acceptable explanation. This is because in the initial state adverbs can only occur outside VP as in ADV – VP, while in later stages of acquisition the development of functional projections occurs independently of L1. Therefore, Vainikka and Young-Scholten propose that utterances as in (8a) are a matter of verb raising to INFL or C due to the acquisition of MOD/ AUX as in (8b). (8) a. *Mary takes often the subway b. Mary has always taken the metro John will carefully eat his pie Thus, in Vainikka and Young-Scholten, (8a) is analysed as an error of overgeneralization with respect to the kinds of finite verb that may occur in INFL or C position. However, in their discussion of the Minimal Tree model, Schwartz and Sprouse claim that if utterances such as (8a) are indeed the result of verb raising to INFL or C, one would expect learners to have raising to INFL preceding ‘not’ as well as to C. Hence, learners should also produce (8d) along with (8c) and they should produce (8f) along with (8e). (8) c. Mary has not taken the metro John will not eat his pie d. *Mary takes not the metro *John eats not his pie e. Has Mary taken the metro? Will John eat his pie? f. *Takes Mary the metro? *Eats John his pie? According to Schwartz and Sprouse, this is not the case: “at the same point at which the L2 learners do allow the order S V Adv O [i. e. (8a)], they clearly do not allow sentences such as [(8d) and (8f)] …” (53). Assuming that the observations of Schwartz and Sprouse are correct, what are the constraints determining transfer in (8a) and no transfer in (8d) and (8f)? The Full Transfer/Full Access model does not provide an alternative explanation itself. However, it seems possible to explain the non-occurrence of (8d) and (8f) as a typical example of socalled ‘pre-emption’. Quite early L2 learners of English may have noticed that negative sentences and questions require do-support. Hence, in these cases they will not transfer their L1 forms expressing negation and questioning. Thus, instead of utterances like (8d) and (8f), they will produce the correct alter-

VI. Spracherwerb

natives with do, thereby showing that they know that do is an instantiation of AUX. As for the occurrence of declarative sentences like (8a), the question remains why it is that in these cases francophones raise thematic verbs. Instead of an explanation in terms of overgeneralization, as provided by Vainikka and Young-Scholten, it seems reasonable to assume that L1 transfer is involved. That is, having established INFL as a possible landing site, L2 learners assume that INFL functions the same way as in L1 French. As a result, verb raising with thematic verbs will be transferred. This type of constraint on transfer has been called the ‘Transfer to somewhere’ principle (Andersen, 1983). It states that for transfer to occur there should be some similarity between a structural property of the L1 and the L2 target equivalent. Many studies on cross-linguistic influence have provided evidence for this type of constraint. See, for example, Andersen (1983), Zobl (1980a, 1980b) on Neg placement and word order, Wode (1981) on negation, Gass (1980) on resumptive pronouns, Schachter (1974) on avoidance and Schachter and Rutherford (1979) on zero pronouns and serial verbs. In all these studies authors have been able to demonstrate that transfer is subject to constraints of L2 development. 3.5. Constraints on development There is an enormous body of literature on developmental stages in L2 learning. Implicational relations of acquisition have been observed for the acquisition of morphemes within the framework of the ‘morpheme order studies’ (Dulay, Burt & Krashen, 1982), for the acquisition of syntactic properties of negation (Wode, 1981; Felix, 1982), word order (Pienemann, 1987; Ellis, 1989), extraction and subjacency (Comrie, 1990), headedness (Schwartz, 1996), relative clause formation (Gass, 1980; Eckman, 1985) and even for the acquisition of semantic features of aspect and ‘Aktionsart’ (Andersen, 1991). While the developmental stages turned out to be universal in nature, the question is what mechanisms are responsible for particular orders of acquisition, and, hence, what are the mechanisms which propel further development of the language acquisition process. As Klein and Perdue argue, answering this question may provide insight into why it is that natural fully-fledged languages are as complex and as diverse as they are.

60. Constraints on the Shape of Second Language Learner Varieties

Research on the acquisition of word order in German by native speakers of Romance languages has shown that all learners of a particular target language have to go through the same stages of acquisition (see Meisel, Clahsen & Pienemann, 1981; Clahsen, Meisel & Pienemann, 1983). Two opposing views have been put forward with respect to the question of how to explain the order of acquisition. On the one hand, it is argued by Pienemann (1987), Clahsen (1984), Clahsen & Muysken (1986, 1989) that learners apply different strategies of language processing which operate on surface structure. The order in which these operating strategies are used is assumed to depend on their degree of complexity. On the other hand, it is claimed by Jordens (1988) and Schwartz (1996) that developmental progress is determined by processes of restructuring on the basis of properties which are possible options in natural languages. Ordering can be explained by the notion of prerequisite knowledge (Jordens, 1996). Hence, it appears that in L2 German, headedness is a prerequisite for the acquisition of verb movement and finiteness, while verb movement and finiteness are prerequisite for verb-second (inversion) and verb-end. As argued before, the UG based approach to L2 acquisition does not allow for stages of development which hold for all learners of a particular L2. It is based on the hypothesis that constraints on possible grammars are innate. Exposure to those properties of the L2 which are relevant for acquisition may lead to what has been called a ‘triggering experience’ (van Buren, 1996). Triggering leads to the instantiation of principles and to the setting or resetting of parameter values. See, for example, Schwartz (1996) and White (1985).

4.

The L2 final state

4.1. Fossilization L2 learners are hardly ever able to reach native competence. Despite a few anecdotal cases to the contrary this observation holds for both natural and classroom situations of L2 learning. The failure is explained by reference to the ‘age’ factor or to the fact that L2 learners already have an L1. Both kinds of observation are obvious. On the one hand, learners of an L2 are older than children learning their mother tongue. On the other hand, learners of an L2 have had the experi-

827

ence of going through the process of learning their first language. If it is the ‘age’ factor which is relevant with respect to the ultimate L2 level, one must assume that there is a window of opportunity for language learning, a ‘critical period’. On the other hand, if it is the instantiation of the L1 system which makes it difficult for L2 learners to achieve native competence, one must assume that it is the fixation of certain options which makes it difficult to acquire other possible options. The ‘age’ factor explains the inability to achieve native competence because adults will learn an L2 by using learning strategies which are not specifically geared towards the acquisition of language. This position is taken by Clahsen and Muysken (1986, 1989), amongst others. With respect to the acquisition of word order in German, they state that L2 learners come to use a system of rules which violate UG constraints on movement. Hence, “the L2 learners are not only creating a rule system which is far more complicated than the native system, but also one which is not definable in linguistic theory” (116). Schwartz (1996), however, claims that “UG is accessible in (adult) L2 acquisition” (227). Hence, the possession of L1 does not necessarily imply that for L2 learners native competence is unachievable, only that, as soon as abstract linguistic principles have been fixed according to the specific options of the L1 system, it is difficult to access the original linguistic abilities and therefore to acquire the options chosen by another system. A similar position with respect to the role of L1 in the acquisition of L2 phonology is taken by Wode (1996). In order to explain foreign accent in L2 acquisition, Wode argues that “[it] is the rise of L1 perceptual categories and not any loss of innate sensory capacities or socio-cultural attachments that leads to the well known perceptual difficulties of L2 learners” (342). 4.1.1. The Full Transfer/Full Access model: no negative evidence According to the idea of Full Transfer/Full Access, the process of L2 acquisition is, as is true for L1 acquisition, constrained by the linguistic principles and parameters of Universal Grammar. However, transfer from L1 may cause learners to make errors which cannot be corrected on the basis of positive evidence. This is the case whenever the L1 form does not have an equivalent in the L2. Therefore, Schwartz and Sprouse (1996) note that

828 “convergence on the TL is not guaranteed … data needed to force restructuring simply do not exist (e. g. negative data) … or the positive data needed are highly obscure, being very complex and/or very rare” (42). Whenever this happens, i. e. when learners will not be able to make further progress, they will remain at a stage of fossilization. Researchers have different views on whether or not correction and grammar teaching might stimulate learners to achieve more advanced stages of acquisition. White (1987), for example, claims that “it is conceivable that in situations like these (…) correction or specific, fine-tuned grammar teaching might also be a useful source of input” (107). Schwartz (1993), on the other hand, argues that negative data have no effect on reorganizing L2 grammar. She therefore concludes that “there will be aspects of the TL [target language] that will be nonacquirable” (160). 4.1.2. The Minimal Tree model: VP structure Vainikka and Young-Scholten (1996) do not explicitly discuss the question of the achievability of the L2 target state. Within their model of L2 acquisition, they hypothesize that positive evidence should suffice to learn verb raising, the use of auxiliaries and modals, wh-movement, agreement and complementizers. However, morphological properties that are not semantically motivated and structural properties that are the result of movement are known to be difficult for L2 learners to acquire. Hence, it seems that the Minimal Tree model may not be appropriate to account for the problems in achieving native competence in particular areas of the target language. 4.1.3. The Basic Variety: a simple language system The Basic Variety provides an explicit account of why the L2 target is difficult to acquire. The Basic Variety itself is a type of interlanguage system in which conflicts between constraints, i. e. possible sources of instability, are avoided. Furthermore, it is not only a simple language system in terms of the organizational principles involved, it is also a stable system. As such it represents ‘a potential fossilization point’ (Klein & Perdue 1997: 309, fn 10). Given the fact that the Basic Variety typically lacks those grammatical properties that are linked to the functional

VI. Spracherwerb

category system, it accounts for why it appears hard for L2 learners to achieve native competence with respect to free or bound morphology and structural properties of movement. Klein and Perdue hypothesize that learners may progress from the potential stage of fossilization when they are able to solve conflicts arising between types of constraints, be they constraints of a configurational, semantic or pragmatic nature. For this to happen, learners need to acquire precisely those aspects of the L2 which are typically linked to the functional properties of IP and CP. As is the case in the Minimal Tree model, the Basic Variety has no room for L1 transfer at the IP and CP level. Nor does it address the problem of no negative evidence. However, it has been observed in several studies that Turkish and Arabic learners of L2 Dutch and Turkish and Italian learners of L2 German typically produce errors as in (9) and (10). Here, verb-second is required in both target languages. (9) toen hij heeft ontslag (L1 Arabic) then he has dismissal dan die meisje ook komt (L1 Turkish) then that girl also comes (10) erste jahre ich habe gesproche mit deutsche freunde (L1 Italian) first years I have spoken with German friends dann nachher ich gehen andere firma (L1 Turkish) then afterwards I go to another firm Learners also produce errors with respect to the final position of the finite verb in subordinate clauses in both L2 Dutch and L2 German. Examples are given in (11) and (12). (11) dan moet zeggen of is dief (L1 Turkish) then has-to say if is thief omdat die brood is van hem (L1 Turkish) because that bread is of him (12) wenn ich geh zurück ich arbeit elektriker in türkei (L1 Turkish) if I go back, I work as an electrician in Turkey The properties of verb-second and verb-final are linked to the structural properties of IP and CP. Given the fact that the Basic Variety is a stable system, it is not yet clear how it may account for the way in which learners might be able to overcome these types of error.

60. Constraints on the Shape of Second Language Learner Varieties

4.2. Explaining fossilization The term ‘fossilization’ refers to the fact that in the process of L2 development learners very often seem to reach some sort of a ‘plateau’, as Klein and Perdue (309, fn 10) call it. According to Klein and Perdue “it is as striking that this plateau is so similar, for so many learners, for such a long period of time […], as it is striking that the better learners also pass through a stage where their learner variety is similarly structured” (309, fn 10). 4.2.1. Syntax As shown in the above, properties of basic word order are acquired early, while properties which are the result of movement are acquired late. In L2 German and Dutch, for example, it appeared that underlying SOV order is always acquired before verb movement or verb-second. Both Vainikka and Young-Scholten’s Minimal Tree model and Klein and Perdue’s Basic Variety are able to account for this observation. In order to explain why fossilization occurs with properties of basic word order, we need to consider the interaction between language input and underlying processes of lexical learning. If we assume that verbs are learnt as part of the argument structure that they occur in, verbs are learnt as part of lexical projections with a particular word order. Thus, lexical projections such as eat cookie, give kiss determine basic word order in English, while lexical projections such as koekje eten, kusje geven (cookie eat, kiss give) determine basic word order in Dutch. Given that lexical knowledge is easier to acquire than purely grammatical knowledge, it can be understood why it is that word order properties, such as VO vs. OV, are not particularly difficult to learn, whereas word order properties, such as verb movement, which are purely functionally motivated, may even be regarded ‘unacquirable’ (Schwartz, 1993). Therefore, the distinction between lexically and functionally based grammatical knowledge provides a measure of degree of complexity. It explains why it is that fossilization occurs particularly at the development stage which is constrained by the configurational properties of lexical projections. 4.2.2. Morphology A similar distinction seems to play a role in the L2 acquisition of morphology. Whenever morphology has a semantic function it is eas-

829

ier to acquire than if it is only structurally motivated. Booij (1994) refers to the opposition between semantically motivated morphology, i. e. ‘inherent inflectional morphology’, and syntactically motivated morphology, i. e. ‘contextual inflectional morphology’. Inherent inflectional morphology serves to express a particular semantic content, such as tense or aspect with verbs and number with nouns. Contextual inflectional morphology, such as finiteness, agreement, morphological case marking, adjectival morphology and gender marking depends on particular properties of syntactic context. The relevance of this distinction with respect to L2 acquisition has already been pointed out by Snow (1976). Snow discriminates between ‘semantically strongly-based systems’ and ‘semantically weakly-based systems’. Semantically strongly-based systems such as singular vs. plural are “based on obvious distinctions that are important in our understanding of the world” (151). Semantically weakly-based systems such as grammatical gender, however, need first to be noticed before their grammatical function and distribution can be acquired. Semantically strongly-based morphology is, therefore, easier to acquire than syntactically-weakly based morphology. The distinction between both types of morphology explains why it is that in the morpheme order studies on L2 English -ing and plural marking appear to be acquired before the 3rd person singular -s. Similarly, it explains why it is that the Basic Variety, as a potential stage of fossilization, is a system in which “all features are weak” (Klein & Perdue: 337). 4.2.3. Phonology As argued above, fossilization in phonology shows up as foreign accent. According to Wode (1996) this is due to the fact that “language processing in spontaneous communication is based on phonemic perception” (340). For learners to be able to recategorize the phonemic system according to the L2, they need to have access to their original perceptual abilities. However, “access to [this original ability] is made difficult or blocked via the development of the categories associated with the phonemes of a given language” (336). Hence, it is the perceptual difficulties of L2 learners which are the cause of foreign accent in L2 production. With respect to the age at which phonemic categorization becomes established and children begin to fail to discriminate certain foreign phonemic dis-

830 tinctions, Wode (1996: 342) notes: “The surprise, however, is that these difficulties occur already before the onset of speech, i. e. much before puberty as predicted by Lenneberg’s critical period hypothesis (1967)”. 4.3. Studying ‘the critical period’ Johnson and Newport (1989) and Newport (1994) have argued for a critical period in second-language learning. They carried out an experiment on the acquisition of morphosyntactic and word order properties of L2 English, such as verb tense, noun pluralization, verb agreement, determiner use, use of pronouns, basic word order, word order in wh-questions and yes/no-questions. For subjects who moved to the US between the ages of 3 to 15 they found a ‘whopping’ correlation (Newport, 1994: 551) between performance on a grammaticality judgement test and ‘age of arrival’, while for subjects arriving at ages between 17 to 39 no such effect appeared. In a critique of this experiment, Bialystok and Hakuta (1994) have argued that the subjects who immigrated earlier were also younger when they took the test. Given the fact that the test was a timed experiment on grammaticality judgements, Bialystok and Hakuta (1994) claim that the results are due to differences in “attentional vigilance” (70). Furthermore, they argue that “the younger arrivals would have had more opportunity for formal study of English grammar, the subject matter of the test” (71). Hence, so they claim, the experiment had nothing to do with language acquisition. What Bialystok and Hakuta did not take into account, however, was the fact that the set of linguistic properties as tested in Johnson and Newport (1989) mainly dealt with morpho-syntactic and word order properties which are typically part of the functional category system of English. There is evidence that it is indeed the functional nature of these elements which explains the maturational effects. As an exception to the overall correlation found in Johnson and Newport (1989), Newport (1994) notes that “[c]ontrol over word order was very similar for native and late learners, as was control over the English morpheme -ing”. Furthermore, she remarks that “both of these aspects of English were also acquired after puberty by Genie (Curtiss, 1977)” (551). Given that basic word order is determined by the configurational properties of lexical projections, it belongs to

VI. Spracherwerb

the domain of the lexical-semantic knowledge system. Furthermore, the aspectual function of -ing is also typically semantic. Hence, it seems that for semantic reasons both word order and -ing are acquired to native standards, while for functional reasons the other elements are subject to maturation.

5.

Children vs. adults: differences in input processing

If it is true that, for adults, functional-grammatical knowledge is much harder to acquire than lexical-semantic knowledge, why is it that for children this difference does not seem to matter? In other words, why is it that the acquisition of functional-grammatical knowledge is age-related? Due to differences in cognitive development, short term memory and the presence or absence of an L1, linguistic input processing changes as a function of age. Assuming that children are learning all the basic morphology and word order in the context of small, initially unanalysed structures, L1 acquisition is a problem of analysis. That is, children will learn the formal properties of the functional category system through the analysis of what they have first come to use holistically. The acquisition of agreement in German is an example in case. Ingram and Thompson (1996) argue that “[t]he use of inflections, in and of itself, is not sufficient evidence to the claim that they are acquired” (111). At the initial stage of L1 acquisition, “the large majority of verbs occur in only one inflected variant form” (111). This process of holistic learning explains why formal-grammatical knowledge seems no more difficult for children to acquire than lexical-semantic knowledge. Correct production, however, is not the same as productive use. It is only at a later stage of acquisition that children are able to use the formal features of the functional category system productively correctly, too. Adult learners, knowing the structure of the symbolic system of their L1, are able to distinguish between linguistic elements with a formal-grammatical function and those with a semantic function. Given that language acquisition is geared towards elements which are of semantic relevance, adult learners are primarily concerned with the acquisition of lexical-semantic and morpho-semantic knowledge. For them, morpho-syntactic elements of the functional category system are less rele-

60. Constraints on the Shape of Second Language Learner Varieties

vant to the meaning of the utterance and, therefore, they are relatively difficult to learn. Since, the function of these elements is to represent contextual relations and relations of movement, L2 acquisition is mainly a problem of synthesis. In sum, for adults learning an L2 it is possible to acquire native-like proficiency with properties of lexical projections such as basic word order and with semantically motivated morphology such as aspectual -ing. On the other hand, morpho-syntactic properties of the functional category system are more difficult to learn, and, therefore, learners may fossilize. Assuming that fossilization results from the way in which adult learners process L2 input, progress in L2 acquisition can be obtained if formal-grammatical features of the target language are learnt in settings in which they are crucial to the understanding of the meaning of an utterance. This is what VanPatten and Cadierno (1993) have called ‘structured input processing’. In several experiments VanPatten has shown that this approach to language learning is a viable way to reach higher levels of L2 competence.

6.

Summary

Second language learner varieties are systems in their own right. They belong to the class of natural grammars. Competing views have been put forward to account for the shape of these L2 grammars as well as for the developmental processes that they are involved in. Universally it seems to be the case that morpho-syntactic properties of the functional category system are more difficult to learn than properties of lexical projections. This explains why learners fossilize at a developmental stage which lacks those formal principles which are linked to the functional category system. Furthermore, the L1 system plays a role in shaping the interlanguage grammar. It may interfere with respect to the options chosen by the L2. This type of crosslinguistic influence is not a random process. It is governed by a constraint which has been called the Transfer to somewhere principle. Given the fact that second language learner varieties are the result of language learning mechanisms which apply universally across L2 settings the study of second language acquisition provides insight into the mechanisms of the human language learning faculty.

7.

831

References

Andersen, R. W. (1983). Transfer to somewhere. In S. M. Gass & L. Selinker (Eds.), Language transfer in language learning (pp. 177⫺201). Rowley, Mass.: Newbury House. Andersen, R. W. (1984). The one-to-one principle of interlanguage construction. Language Learning 34, 77⫺95. Andersen, R. W. (1991). Developmental sequences: The emergence of aspect marking in second language acquisition. In T. Huebner & C. Ferguson (Eds.), Crosscurrents in second language acquisition and linguistic theories (pp. 305⫺324). Amsterdam: John Benjamins, Bialystok, E. & Hakuta, K. (1994). In other words. The science and psychology of second-language acquisition. New York: Harper. Booij, G. E. (1994). Against split morphology. In G. E. Booij & J. van Marle (Eds.), Yearbook of morphology 1993 (pp. 27⫺50). Dordrecht: Kluwer. Broeder, P. (1991). Talking about people: A multiple case study on adult language acquisition. Amsterdam: Swets & Zeitlinger. Buren, P. van (1996). Are there principles of UG that do not apply to SLA? In P. Jordens & J. Lalleman (Eds.), Investigating second language acquisition (pp. 187⫺207). Berlin, New York: Mouton de Gruyter. Clahsen, H. (1984). The acquisition of German word order: A test case for cognitive approaches to L2 development. In R. W. Andersen (Ed.), Second languages. A cross-linguistic perspective (pp. 219⫺ 242). Rowley, Mass.: Newbury House. Clahsen, H., Meisel, J. M. & Pienemann, M. (1983). Deutsch als Zweitsprache: Der Spracherwerb ausländischer Arbeiter. Tübingen: Gunter Narr. Clahsen, H. & Muysken, P. (1986). The availability of Universal Grammar to adult and child learners. A study of the acquisition of German word order. Second Language Research, 2, 93⫺119. Clahsen, H. & Muysken, P. (1989). The UG paradox in L2 acquisition. Second Language Research, 5, 1⫺29. Comrie, B. (1990). Second language acquisition and language universals research. Studies in Second Language Acquisition 12, 209⫺218. Corder, S. P. (1978). Language distance and the magnitude of the language learning task. Studies in Second Language Acquisition, 2, 27⫺36. Curtiss, S. (1977). Genie: A psycholinguistic study of a modern day ‘wild child’. New York: Academic Press.

832 Dulay, H. C. & Burt, M. K. (1974). A new perspective on the creative construction process in child second language acquisition. Language Learning, 24, 235⫺278. Dulay, H. C., Burt, M. K. & Krashen, S. D. (1982). Language two. New York: Oxford University Press. DuPlessis, J., Solin, D., Travis, L. & White, L. (1987). UG or not UG, that is the question: A reply to Clahsen and Muysken. Second Language Research, 3, 56⫺75. Eckman, F. R. (1985). Some theoretical and pedagogical implications of the Markedness Differential Hypothesis. Studies in Second Language Acquisition, 7, 289⫺307. Ellis, R. (1989). Are classroom and naturalistic acquisition the same? A study of the classroom acquisition of German word order rules. Studies in Second Language Acquisition, 11, 305⫺328. Felix, S. W. (1982). Psycholinguistische Aspekte des Zweitspracherwerbs. Tübingen: Narr. Flynn, S. (1989). Spanish, Japanese and Chinese speakers’ acquisition of English relative clauses: New evidence for the head-direction parameter. In L. Obler & K. Hyltenstam (Eds.), Bilingualism across life spans. Aspects of acquisition, maturity, and loss (pp. 116⫺131). Cambridge: Cambridge University Press. Gass, S. M. (1980). An investigation of syntactic transfer in adult second language learners, In: R. C. Scarcella & S. D. Krashen (Eds.), Research in second language acquisition (pp. 132⫺145). Rowley, Mass.: Newbury House. Ingram, D. & Thompson, W. (1996). Early syntactic acquisition in German: Evidence for the modal hypothesis. Language, 72, 97⫺120. Johnson, J. S. & Newport, E. L. (1989). Critical period effects in second language learning: the influence of maturational state on the acquisition of English as a second language. Cognitive Psychology, 21, 60⫺99. Jordens, P. (1988). The acquisition of word order in L2 Dutch and German. In P. Jordens & J. Lalleman (Eds.), Language development (pp. 149⫺180). Dordrecht: Foris. Jordens, P. (1996). Input and instruction in second language acquisition. In P. Jordens & J. Lalleman (Eds.), Investigating second language acquisition (pp. 407⫺449). Berlin, New York: Mouton de Gruyter. Keenan, E. L. & Comrie, B. (1977). Noun phrase accessibility and universal grammar. Linguistic Inquiry, 8, 63⫺100.

VI. Spracherwerb Klein, W. & Dittmar, N. (1979). Developing grammars. Heidelberg: Springer Verlag. Klein, W. & Perdue, C. (1992). Utterance structure: Developing grammars again. Amsterdam: John Benjamins. Klein, W. & Perdue, C. (1997). The Basic Variety (or: Couldn’t natural languages be much simpler?). Second Language Research, 13, 301⫺347. Lenneberg, E. (1967). Biological foundations of language. New York: John Wiley. Liceras, J. M. (1989). On some properties of the ‘pro-drop’ parameter: looking for missing subjects in non-native Spanish. In S. M. Gass & J. Schachter (Eds.), Linguistic perspectives on second language acquisition (pp. 109⫺133). Cambridge: Cambridge University Press. Meisel, J. M., Clahsen, H. & Pienemann, M. (1981). On determining developmental stages in natural second language acquisition. Studies in Second Language Acquisition, 3, 109⫺135. Nemser, W. (1971). Approximative systems of foreign language learners. IRAL, 6, 115⫺123. Newport, E. L. (1994). Maturational constraints on language learning. In P. Bloom (Ed.), Language acquisition: Core readings (pp. 543⫺560). Cambridge, Mass.: MIT Press. Perdue, C. (1996). Pre-basic varieties: The first stages of second language acquisition. Toegepaste Taalwetenschap in Artikelen, 55, 135⫺150. Pienemann, M. (1987). Psychological constraints on the teachability of languages In C. Pfaff (Ed.), First and second language acquisition processes (pp. 143⫺168). Cambridge, Mass.: Newbury House. Poeppel, D. & Wexler K. (1993). The Full Competence Hypothesis of clause structure in early German. Language, 69, 1⫺33. Radford, A. (1988). Small children’s small clauses. Transactions of the Philological Society, 86, 1⫺43. Schachter, J. (1974). An error in error analysis. Language Learning, 24, 205⫺214. Schachter, J. (1989). Testing a proposed universal. In S. M. Gass & J. Schachter (Eds.), Linguistic perspectives on second language acquisition (pp. 73⫺ 88). Cambridge: Cambridge University Press. Schachter, J. & Rutherford, W. (1979). Discourse function and language transfer. Working Papers on Bilingualism, 19, 1⫺12. Schwartz, B. D. (1993). On explicit and negative data effecting and affecting competence and linguistic behavior. Studies in Second Language Acquisition, 15, 147⫺163.

61. Gesteuerter Fremdsprachenerwerb Schwartz, B. D. (1996). Parameters in non-native language acquisition. In P. Jordens & J. Lalleman (Eds.), Investigating second language acquisition (211⫺235). Berlin, New York: Mouton de Gruyter. Schwartz, B. D. & Sprouse, R. A. (1996). L2 cognitive states and the Full Transfer/Full Access model. Second Language Research, 12, 40⫺72. Selinker, L. (1972). Interlanguage. IRAL, 10, 209⫺231. Slobin, D. I. (1973). Cognitive prerequisites for the development of grammar. In C. A. Ferguson & D. I. Slobin (Eds.), Studies of child language development (pp. 175⫺208). New York: Holt, Rinehart and Winston. Slobin, D. I. (1985). Crosslinguistic evidence for the language-making capacity. In D. I. Slobin (Ed.), The crosslinguistic study of language acquisition. Volume 2: Theoretical issues. (pp. 1157⫺1256). Hillsdale, N.J.: Lawrence Erlbaum. Snow, C. (1976). Semantic primacy in first and second language acquisition. Interlanguage Studies Bulletin, 1, 137⫺165.

833 White, L. (1985). The pro-drop parameter in adult second language acquisition. Language Learning, 35, 47⫺62. White, L. (1987). Against comprehensible input: The Input Hypothesis and the development of second-language competence. Applied Linguistics, 8, 95⫺110. White, L. (1988). Island effects in second language acquisition. In S. Flynn & W. O’Neill (Eds.), Linguistic theory in second language acquisition (pp. 144⫺172). Dordrecht: Reidel. Wode, H. (1981). Learning a second language. 1. An integrated view of language acquisition. Tübingen: Narr. Wode, H. (1996). Speech perception and L2 phonological acquisition. In P. Jordens & J. Lalleman (Eds.), Investigating second language acquisition (pp. 321⫺353). Berlin, New York: Mouton de Gruyter. Zobl, H. (1980a). The formal and developmental selectivity of L1 influence on L2 acquisition. Language Learning,30, 43⫺57.

Vainikka, A. & Young-Scholten, M. (1996). Gradual development of L2 phrase structure. Second Language Research, 12, 7⫺39.

Zobl, H. (1980b). Developmental and transfer errors: Their common bases and (possibly) differential effects on subsequent learning. TESOLQuarterly,14, 469⫺479.

VanPatten, B. & Cadierno, T. (1993). Explicit instruction and input processing. Studies in Second Language Acquisition, 15, 225⫺243.

Peter Jordens Amsterdam, Free University (The Netherlands)

61. Gesteuerter Fremdsprachenerwerb 1. 2.

6.

Zur Begriffsbestimmung Der gesteuerte im Vergleich zu anderen Typen des Spracherwerbs Zweitsprachenerwerbsforschung Vom Lehren und Lernen von Sprachen (Didaktik des Fremdsprachenunterrichts) Psycholinguistik und gesteuerter Fremdsprachenerwerb Literatur

1.

Zur Begriffsbestimmung

3. 4. 5.

Der Begriff gesteuerter Fremdsprachenerwerb (controlled foreign language acquisition) bezeichnet gemeinhin alle Formen des Erwerbs einer Fremdsprache in einem institutionalisierten Kontext. Damit schließt er das schulische, aber auch das Fremdsprachenlernen im Erwachsenenalter ein, soweit dieses

institutionell organisiert ist. Gesteuerter Fremdsprachenerwerb bezieht sich also auf das Lernen von Fremdsprachen im Kindergarten, in der Schule, an der Hochschule, aber auch an Bildungseinrichtungen wie Volkshochschulen und privaten Sprachenschulen. Der Begriff wird in der deutschsprachigen Literatur schon seit geraumer Zeit gebraucht und auch dem englischsprachigen Begriff instructed language acquisition gleichgesetzt, der allerdings präziser als der deutsche die Spezifika des institutionalisierten Fremdsprachenlernens bezeichnet. Sowohl im deutschen wie im englischen Begriff ist die Annahme enthalten, dass eine Fremdsprache über Steuerungsprozesse vermittelt werden kann; mit dem englischen Begriff wird aber in stärkerem Maße ausgesagt, dass diese Steuerungsprozesse Vermittlungsprozesse sind, die

834 von einem Lehrenden durchgeführt werden. Die Annahme, dass Fremdsprachenlernprozesse von außen beeinflusst werden können, wird heute von vielen Forschern nicht mehr geteilt. Dies hat dazu geführt, dass der Begriff gesteuerter Fremdsprachenerwerb seltener Verwendung findet und durch den Begriff institutionalisiertes Fremdsprachenlernen ersetzt wird. Zum Verständnis des Begriffs ist noch auf einen weiteren Aspekt hinzuweisen. Der Terminus Fremdsprache wird verwendet, um diese Art des Lernens einer weiteren Sprache zu unterscheiden vom so genannten natürlichen Zweitsprachenerwerb, der gemeinhin den Erwerb einer zweiten Sprache in einem Kontext bezeichnet, in dem diese Sprache üblicherweise gesprochen wird. Natürlicher Zweitsprachenerwerb (natural second language acquisition) bezieht sich als Begriff z. B. auf das Lernen der Sprache des Gastlandes durch Migranten oder Immigranten (z. B. der Erwerb des Deutschen durch türkische Migranten in Deutschland, der Erwerb des Englischen durch chinesische Immigranten in Kanada). Die Bezeichnung „natürlich“ wird aus dem Umstand abgeleitet, dass diesem Erwerbsprozess keine Steuerungsprozesse unterliegen, d. h. kein Unterricht stattfindet, und er dort vonstatten geht, wo die Sprache gesprochen wird, d. h. also auf der Straße oder im beruflichen Alltag. Problematisch wird die Unterscheidung zwischen natürlichem Zweitsprachenerwerb und gesteuertem Fremdsprachenerwerb in mehrsprachigen Ländern, wie z. B. in der Schweiz oder in Belgien, wo die zu lernende Sprache gleichzeitig die andere im Land gebrauchte Sprache ist und deshalb sowohl natürlich als auch in institutionalisierten Kontexten gelernt wird. Nicht nur diese besonderen Erwerbskontexte haben dazu geführt, dass die Notwendigkeit einer Trennung in natürlichen und gesteuerten Fremd- bzw. Zweitsprachenerwerb immer weniger eingesehen wird. Denn wenn man das Lernen von Sprachen in der heutigen, stark durch Globalisierungsprozesse bestimmten Welt etwas allgemeiner betrachtet, dann zeigt sich deutlich, dass sich natürliche und institutionalierte Prozesse häufig miteinander vermischen: Der an einer deutschen Schule Englisch lernende Schüler geht z. B. für ein Jahr in die USA und lernt dort Englisch auf „natürliche Weise“. Ebenso lernen viele Migrantenkinder in Deutschland Deutsch auch in institutionalisierten Kontexten und nicht nur auf natürliche Weise. Ich

VI. Spracherwerb

werde im Folgenden den Begriff „gesteuerter Fremdsprachenerwerb“ im Wesentlichen als gleichbedeutend mit „institutionalisiertem Fremdsprachenlernen“ verstehen und darunter die Formen des Fremdsprachenerwerbs zusammenfassen, die überwiegend in einem Kontext ablaufen, der institutionellen Charakter hat. Sowohl der gesteuerte/institutionalisierte Fremdsprachenerwerb als auch alle anderen Typen des Spracherwerbs, die über die Muttersprache hinausgehen, werden in der Forschung gemeinhin mit dem Oberbegriff Zweitsprachenerwerb (second language acquisition ⫽ SLA) bezeichnet. Im Laufe der letzten dreißig Jahre hat sich eine eigene Zweitsprachenerwerbsforschung etabliert, die sich mit allen Formen des Zweitsprachenerwerbs beschäftigt. Darüber hinaus sind die Fremdsprachendidaktik bzw. die Didaktiken einzelner Sprachen (Fachdidaktik Englisch, Fachdidaktik Französisch) für den gesteuerten Fremdsprachenerwerb aus der Perspektive der Sprachvermittlung in institutionalisierten Kontexten zuständig.

2.

Der gesteuerte im Vergleich zu anderen Typen des Spracherwerbs

Bei der Begriffsbestimmung ist bereits deutlich geworden, dass der gesteuerte Fremdsprachenerwerb nur einer in einer ganzen Reihe von Typen des Zweit- und Fremdsprachenerwerbs ist, die sich durch Erwerbskontexte und Erwerbsprozesse bzw. Erwerbsverfahren voneinander unterscheiden. Wenn man sich mit dem gesteuerten Fremdsprachenerwerb auseinander setzt, muss man zunächst ausloten, in welchem Verhältnis er zu diesen anderen Typen steht, d. h. was ihn von den anderen Formen des Zweitsprachenerwerbs unterscheidet. Ziel dieses Abschnittes ist es, die verschiedenen Erwerbsformen kurz zu skizzieren und sie zueinander in Beziehung zu setzen. Es kann kein Zweifel daran bestehen, dass der Erwerb jeder weiteren Sprache in enger Beziehung zu der zunächst gelernten Sprache, der Muttersprache, steht. Im Sinne der oben vorgenommenen ersten Trennung der verschiedenen Spracherwerbstypen ist der Muttersprachenerwerb „natürlich“, d. h. das Kind lernt die Sprache in einem Erwerbskontext, in welchem diese Sprache sonst auch gesprochen wird. Die Spracherwerbsforschung ist unterschiedlicher Meinung darüber, in welchem Maße der Mutterspracherwerbspro-

61. Gesteuerter Fremdsprachenerwerb

zess gesteuert wird. Während eine Reihe von Forschern der Auffassung ist, die Mutter bzw. die Bezugsperson würde über Modifikationen in der an das Kind gerichteten Sprache (Input) eine Steuerung vornehmen, nehmen andere an, dass der Erwerbsprozess in hohem Maße autonom ist. Der Muttersprachenerwerb unterscheidet sich durch zwei wichtige Aspekte von fast allen Formen des Zweitsprachenerwerbs: (1) Das muttersprachliche Kind entwickelt sich gleichzeitig sprachlich und kognitiv, d. h. die Sprache stützt die kognitive Entwicklung, und die kognitive Entwicklung fördert die Sprachentwicklung. Mit einer Ausnahme (der des simultanen Bilingualismus) ist dies bei den verschiedenen Typen des Zweitsprachenerwerbs nicht der Fall. Denn der zweitsprachliche Erwerbsprozess beginnt zu einem Zeitpunkt, zu welchem die kognitive Entwicklung schon fortgeschritten ist. (2) Das muttersprachliche Kind hat, wenn es mit dem Spracherwerb beginnt, keinerlei Erfahrungen mit Sprache und dem Erwerb von Sprache. Auch dies gilt nicht für den Zweitsprachenerwerb. Qua Definition verfügt jeder Zweitsprachenlerner bereits über Erfahrungen mit einer Sprache und mit dem Sprachenlernen, denn er hat schon seine Muttersprache gelernt. Der hohe Stellenwert, den die Muttersprache in der sprachlichen Biographie eines jeden Menschen hat, führt dazu, dass sie sowohl den Erwerb jeder weiteren Sprache als auch ihren Gebrauch beeinflusst. Letzteres zeigt sich z. B. in der Vielzahl muttersprachlicher Interferenzen. Die verschiedenen Varianten des bilingualen Spracherwerbs bilden den Übergang zu den unterschiedlichen Typen des Zweit- und Fremdsprachenerwerbs. Der simultane bilinguale Spracherwerb ist in gewisser Weise eine Sonderform des Muttersprachenerwerbs, er bezeichnet den natürlichen Erwerb zweier Sprachen als Muttersprache(n), wobei normalerweise die Eltern des Kindes ihre jeweilige Muttersprache als Input einbringen. Der simultane Bilingualismus unterliegt ähnlichen Steuerungsmechanismen wie der Muttersprachenerwerb. Der konsekutive bilinguale Spracherwerb, bei dem die zweite Sprache später als die erste, aber spätestens im Vorschulalter erworben wird, tritt in zwei Varianten auf: in der einen, der elitären Form lernt das Kind zunächst im familiären Kontext die eine und dann – auf der Straße oder im Kindergarten – die andere Sprache, die gleichzeitig auch die Sprache des Landes ist, in welchem die Familie lebt. Die andere, die

835 erzwungene Form ist von der Konstellation her identisch; während aber der elitäre konsekutive Bilingualismus sich meist in sozialen Oberschichten entwickelt, ist der erzwungene konsekutive Bilingualismus charakteristisch für Migranten- und Immigrantenkontexte. Beide Typen sind natürliche Typen des Zweitsprachenerwerbs. Steuerungsprozesse erfolgen – wenn sie denn stattfinden – über die Eltern bzw. über die sozialen Kontexte, in welchen die andere Sprache gelernt wird. Die Zeiten, in welchen die Lernenden den beiden Sprachen ausgesetzt sind, sind unterschiedlich lang. Die Länge („length of exposure“) hängt von individuellen Variablen ab und bestimmt die Entwicklung der Sprachkompetenz in den beiden Sprachen. Institutionalisierten Formen des Fremdsprachenerwerbs begegnet man frühestens im Kindergarten und dann im Grundschulalter. Mit institutionalisierten Formen verknüpfte natürliche Formen des Zweitsprachenerwerbs lassen sich in Fortführung des erzwungenen konsekutiven Bilingualismus bei Migrantenund Immigrantenkindern beobachten: Kinder und auch Erwachsene lernen die Sprache des Gastlandes im Unterricht und in natürlichen Kommunikationssituationen. Häufig ist es auch so, dass es eher die ursprüngliche Muttersprache des Kindes ist, die institutionell gefördert wird („heritage language programmes“). In mehrsprachigen Ländern beginnt mit der Einschulung der institutionalisierte Erwerb der anderen Sprache, die gleichzeitig auch in natürlichen Kommunikationssituationen im Lande selbst erprobt wird. Institutionalisierte Formen des Fremdsprachenerwerbs im Sinne der obigen Definition beginnen ebenfalls bereits in der Grundschule; hier ist in Deutschland insbesondere der Frühbeginn des Fremdsprachenunterrichts zu nennen, der sich vorwiegend auf Englisch oder Französisch bezieht. Das so genannte Begegnungssprachenkonzept, das als Erwerbskonzept nur in Nordrhein-Westfalen existiert, hebt nicht auf eine spezifische Sprache, sondern auf die Förderung eines allgemeinen Sprachlernvermögens ab. Fremdsprachen werden an deutschen Schulen in allen Schulformen angeboten: Der Erwerb einer Fremdsprache (meist Englisch) bis zum Alter von sechzehn Jahren ist verpflichtend. An den weiterführenden Schulen sind es zwei Fremdsprachen, die erworben werden müssen. Die institutionalisierten Fremdsprachenangebote für Erwachsene sind sehr vielfältig: Sie reichen von auf Tourismusbedürfnisse ab-

836

VI. Spracherwerb

zielenden allgemeinsprachlichen Kursen an Volkshochschulen und privaten Sprachenschulen bis hin zu fachsprachlichen Kursen an Universitäten und Fachhochschulen. Allen institutionalisierten Formen des fremdsprachlichen Lernens ist zu Eigen, dass Unterricht stattfindet, der vom Lehrer durchgeführt und mit Unterrichtsmaterialien gestaltet wird, die zum Zwecke des Sprachlernens entwickelt wurden. Außerdem ist festzuhalten, dass die Lernenden im Gegensatz zu allen Formen des natürlichen Zweitsprachenerwerbs nur wenige Stunden in der Woche der anderen Sprache ausgesetzt sind.

3.

Zweitsprachenerwerbsforschung

Die Zweitsprachenerwerbsforschung (L2Forschung), die sich in den Sechzigerjahren etabliert hat, beschäftigt sich mit allen Ausprägungen des Erwerbs zweiter Sprachen. Ursprünglich aus Fragestellungen erwachsen, die auf den institutionalisierten Fremdsprachenerwerb fokussierten, hat sie sich dann auch Problemstellungen zugewandt, die eher dem natürlichen Zweitsprachenerwerb zukommen. Dies hat in Deutschland dazu geführt, dass sich in der Mitte der Siebzigerjahre mit der Sprachlehr- und Sprachlernforschung eine Teildisziplin der L2-Forschung abgetrennt hat, die sich wiederum nur mit dem Sprachenlernen in institutionalisierten Kontexten beschäftigt, also zu den Anfängen der L2-Forschung zurückkehrt. Dies wurde und wird damit begründet, dass das institutionalisierte Fremdsprachenlernen ein in sich geschlossenes komplexes Forschungsgebiet sei, das nicht nur Lernprozesse, sondern auch Lehrverfahren und ihre Auswirkungen auf Lernprozesse zu untersuchen habe. Die Trennung in L2-Forschung und Sprachlehr- und Sprachlernforschung existiert in anderen Ländern nicht. Ob sie berechtigt ist, soll im Kontext dieses Beitrages nicht diskutiert werden. Die L2-Forschung sieht es als ihre zentrale Aufgabe an, eine allgemeine Theorie des L2-Lernens zu entwickeln, gleichzeitig geht es ihr aber auch darum, die Spezifika der verschiedenen Erwerbstypen zu erforschen. Deshalb sind die Ergebnisse der L2-Forschung nicht nur für das Verständnis des natürlichen Zweitsprachenerwerbs wichtig; sie tragen auch in hohem Maße dazu bei, besser zu verstehen, was in einem fremdsprachlichen Klassenzimmer vor sich geht. Außerdem weist die L2-Forschung immer wieder darauf hin (zu-

letzt Ellis, 1994, der einen ganzen Teil seines monumentalen Werkes der classroom second language acquisition widmet), dass sie ihre Ergebnisse auch als Beitrag zur Weiterentwicklung des institutionalisierten Fremdsprachenlernens versteht. Daher muss sich auch ein Beitrag, der sich mit diesem Typ des Erwerbs einer zweiten Sprache beschäftigt, mit den Ergebnissen der L2-Forschung auseinander setzen. Die L2-Forschung hat ihre zentrale Aufgabe, eine allgemeine Theorie des L2-Lernens zu entwickeln, forschungsmethodisch über produkt- und prozessorientierte Verfahren zu bewältigen versucht. Dabei stand lange Zeit die Lernersprache („learner language, interlanguage“) im Mittelpunkt der Aufmerksamkeit. Am Anfang wurde versucht, über eine Analyse der Abweichungen lernersprachlicher Äußerungen von der zielsprachlichen Norm zu Erkenntnissen über zweitsprachliche Lernprozesse zu gelangen (Fehleranalyse), wobei die lernersprachlichen Äußerungen überwiegend aus dem institutionalisierten Fremdsprachenerwerb stammten. Später wurde die Lernersprache vor allem auf Interaktionsmuster hin untersucht, um aus dem Kommunikationsverhalten der Lernenden Rückschlüsse auf sprachliche Lernprozesse zu ziehen. Hierfür wurden Interaktionen natürlicher, aber auch schulischer Zweitsprachenlerner herangezogen. Direkte Prozessanalysen setzten in den frühen Achtzigerjahren ein. Neben Fragebogen und Interviews waren es vor allem Techniken des lauten Denkens, die zur Lösung ganz unterschiedlicher Fragen herangezogen wurden. So wurden z. B. Lautdenkverfahren dazu benutzt, Erkenntnisse über Wortschatz-Erschließungsverfahren von L2-Lernern zu gewinnen (Haastrup, 1991). Mit anderen introspektiven Verfahren wurde versucht, Aufschluss über Wortschatz-Abrufverfahren bei der Sprachproduktion und beim Übersetzen (Dechert, Möhle, Raupach, 1984; Zimmermann, 1990) zu erzielen. Auch hier kamen die Probanden sehr häufig aus Kontexten des gesteuerten Fremdsprachenerwerbs. Welches sind nun die spezifischen Bereiche, denen sich die L2-Forschung im Verlauf ihrer über dreißigjährigen Geschichte vor allem gewidmet hat? Ich möchte auf die folgenden eingehen: (1) Analyse der Lernersprache, (2) Analyse der Faktoren, die den L2-Erwerb beeinflussen,

61. Gesteuerter Fremdsprachenerwerb

(3) Analyse der individuellen Unterschiede zwischen L2-Lernern, (4) Entwicklung von Theorien zum L2-Erwerb. Zu (1): Ich hatte schon darauf hingewiesen, dass die Lernersprache in der produktorientierten methodischen Phase der L2-Forschung im Mittelpunkt aller Analysen stand. Nicht nur damals, sondern zum Teil auch noch heute sieht man in den Fehlern, die Lerner in der Zielsprache machen, Fenster, die einen Blick in das menschliche Gehirn erlauben und Rückschlüsse auf sprachliche Lernprozesse gestatten. Es ist nicht überraschend, dass die lernersprachlichen Fehler im Verlauf der Lernersprachenforschung unterschiedlich interpretiert wurden und sogar zur Bildung unterschiedlicher theoretischer Konzepte über den L2-Erwerb führten. In den Anfängen der L2-Forschung bis zum Beginn der Siebzigerjahre ging man davon aus, dass alle Fehler, die Lerner machten, auf Interferenzen mit der Muttersprache zurückgeführt werden müssen. Daraus wurde der, wie sich später zeigte, voreilige Schluss gezogen, dass man schulische Lernprozesse optimieren könne, wenn man im Unterricht Unterschiede und Ähnlichkeiten zwischen Ausgangs- und Zielsprache thematisiere. In der zweiten Phase der Lernersprachenforschung glaubte man eine Trennung in drei Arten von Fehlern nachweisen zu können: (a) die bereits bekannten Interferenzfehler, als deren Quelle weiterhin die Ausgangssprache des Lerners galt, (b) unsystematische Fehler, die nicht klassifizierbar und der Performanz des Lerners zuzuordnen waren, und (c) so genannte Entwicklungsfehler („developmental errors“), die, weil sie die Weiterentwicklung der L2-Forschung stark beeinflusst haben, hier etwas genauer behandelt werden müssen. In Anlehnung an die Muttersprachenerwerbsforschung, die festgestellt hatte, dass muttersprachliche Kinder in ihrer Sprachentwicklung bestimmten festgelegten Sequenzen folgen (in der L1-Forschung wird hier von „natural order“ gesprochen), konnte die L2-Forschung zeigen, dass diese Sequenzierung auch in der zweitsprachlichen Entwicklung zu beobachten ist. Ein großer Teil der lernersprachlichen Fehler wurde deshalb darauf zurückgeführt, dass Lerner zu dem Zeitpunkt, zu welchem sie den Fehler machten, noch nicht den sprachlichen Entwicklungsstand erreicht hatten, durch den sie diesen Fehler hätten vermeiden können. Im weiteren Verlauf

837 der Lernersprachenanalyse wurde eine Vielzahl weiterer Merkmale entdeckt, z. B. dass neben den Entwicklungsfehlern, die ausschließlich auf die Zielsprache zurückgeführt werden, in der Lernersprache auch Abweichungen auftreten, die mit der Muttersprache des Lerners zu tun haben, sich aber nicht als Interferenzen, sondern als Vermeidungsverhalten im Hinblick auf bestimmte Strukturen der Zielsprache niederschlagen. Bei der Analyse des Interaktionsverhaltens von Lernern wurde auch deutlich, dass sich Entwicklungssequenzen nicht nur im Bereich der grammatischen Morpheme, sondern auch bei komplexen Strukturen erkennen lassen. Es besteht kein Zweifel daran, dass die Lernersprachenanalyse gerade für den institutionalisierten Fremdsprachenerwerb zu interessanten Erkenntnissen geführt hat, die sich vor allem auf die Behandlung von Fehlern im Unterricht beziehen. Zu (2): Die L2-Forschung hat sich im Verlauf ihrer Geschichte intensiv mit den internen und externen Faktoren beschäftigt, die den Erwerb einer zweiten Sprache beeinflussen: Bei den internen Faktoren werden Intelligenz, Begabung („aptitude“), Persönlichkeit, Motivation und Alter genannt, zu den externen gehören vor allem soziale Faktoren sowie Input und Interaktion. Natürlich können diese Faktoren nur zu einem geringen Teil mit genuinen Methoden der L2-Forschung untersucht werden; viele Fragestellungen reichen in die Psychologie und in die Soziologie hinein. Intelligenz ist ein Faktor, der nicht nur Spracherwerbsprozesse beeinflusst. In der L2-Forschung wurde deutlich, dass durchaus eine Korrelation zwischen Intelligenz und Sprachlernerfolg hergestellt werden kann, dass diese Korrelation im Hinblick auf bestimmte sprachliche Fähigkeiten besonders stark ist, im Hinblick auf andere aber weniger ausgeprägt. Ein höherer Intelligenzquotient macht sich vor allem beim Lesen und Schreiben in der Fremdsprache bemerkbar, im Hinblick auf die mündlichen Kommunikationsfertigkeiten ist hingegen kein Unterschied zu Menschen mit einem geringeren Intelligenzquotienten erkennbar. Der Faktor Begabung, der von seiner Begrifflichkeit im Deutschen einen etwas unbestimmten Charakter hat, wird für den Lernerfolg in einer zweiten Sprache wichtig, wenn man ihn so versteht wie den englischen Begriff aptitude. Aus den aptitude-Tests, die zum Teil aus der Sozialpsychologie stammen, wird deutlich, dass Fertigkeiten wie das Erkennen von Lauten

838 und ihre Speicherung im Gedächtnis, das Festhalten von Wörtern im Gedächtnis, das Erkennen der grammatischen Funktionen von Wörtern in Sätzen und das Abstrahieren grammatischer Regeln aus sprachlichen Daten den Lernerfolg beim L2-Erwerb verbessern. Die Analyse von Persönlichkeitsfaktoren hat gezeigt, dass extrovertierte Menschen erfolgreicher beim Sprachlernen sind als introvertierte. Sie haben größeres Interesse an sozialer und sprachlicher Interaktion und benutzen daher auch die fremde Sprache häufiger. Sie sind risikobereiter und stehen daher auch Fehlern positiver gegenüber. Die gesichtsbedrohende Wirkung von Fehlern, die introvertierte Lerner spüren, ist ihnen weitgehend fremd. Die Motivation ist ein in hohem Maße lernerfolgssteigernder Faktor beim L2Lernen, wobei sowohl instrumentelle wie auch integrative Motivation den Lernerfolg positiv beeinflussen können. Der Faktor Alter hat in der L2-Forschung viele kontroverse Diskussionen ausgelöst. Es ist auch ein Faktor, der für das institutionalisierte Fremdsprachenlernen bedeutsam geworden ist. Der heutige Stand der Forschung macht es möglich, davon auszugehen, dass das Alter des Lernenden zwar beim L2-Erwerb eine wichtige Rolle spielt, dass es aber den Lernerfolg prinzipiell nicht beeinflusst, jedoch Auswirkungen auf die vom Lerner eingesetzten Lernverfahren hat. Die größere phonetische Korrektheit, die den kindlichen Sprachlerner häufig gegenüber dem erwachsenen auszeichnet, hat wahrscheinlich mit der besseren Nachahmungsfähigkeit des Kindes zu tun, nicht aber mit einer generell besser entwickelten Sprachlernfähigkeit. Die sozialen Faktoren, die als externe Faktoren ausgewiesen werden, haben mit dem sozialen Kontext zu tun, in dem ein Mensch Sprache lernt. Der soziale Kontext prägt die Haltungen, die ein Lerner gegenüber der fremden Sprache hat, und beeinflusst damit auch seine Motivation. Der Zwang, eine fremde Sprache lernen zu müssen, der vor allem Migranten oder Immigranten betrifft, kann den Lernprozess negativ oder positiv beeinflussen. Die Zugehörigkeit zu einer Sprachgemeinschaft, die sich anderen gegenüber als überlegen betrachtet, kann dazu führen, dass keine andere Sprache gelernt wird. Auf der anderen Seite kann aber auch Isolation bzw. Abgeschlossenheit („enclosure“) einer sozialen Gruppe dazu führen, dass der Erwerb weiterer Sprachen nicht für nötig befunden wird. Zweifellos stellen auch Input und Interaktion Faktoren dar, die den Erwerbsprozess beeinflussen. Ein Lerner, der,

VI. Spracherwerb

wie dies bei Migranten häufig geschieht, nur mit pidginisierten Formen der Zielsprache in Berührung kommt, wird wenig erfolgreich in seinem Lernprozess sein. Zu (3): Auf die individuellen Faktoren, die das Lernen einer weiteren Sprache beeinflussen, soll hier nicht so ausführlich eingegangen werden, obwohl sie gerade für das institutionalisierte Fremdsprachenlernen von großer Bedeutung sind. Die L2-Forschung konnte nachweisen, dass individuelle Lernstile den Spracherwerbsprozess beeinflussen. Es gibt Lerner, die einen visuellen Lernstil bevorzugen, d. h. beim Sprachlernen verschriftete Lernitems vorziehen; andere sind eher auditiv orientiert und können gesprochenen Input besser verarbeiten. Lernstile lassen sich auch nach der Art und Weise differenzieren, in der Lernitems gehandhabt werden. So gibt es neben konkret operierenden Lernen analytische, aber auch sozial orientierte und autonome Lerner. Die Zahl der Lerner, die sich der Autorität eines Lehrers unterstellen, ist vergleichsweise groß; dies hängt aber mit der instruktivistisch geprägten Grundhaltung von institutionalisiertem Lernen zusammen. Von großer Bedeutung wurde in der L2-Forschung auch die Erforschung der Lernerstrategien. Die Lernstrategien als die größte Gruppe wurden aufgeteilt in Gedächtnisstrategien, kognitive Strategien und Kompensationsstrategien auf der einen und metakognitive Strategien, affektive Strategien und soziale Strategien auf der anderen Seite (Oxford, 1990). Viele Lernstrategien haben ihre Entsprechungen in den Lern- und Arbeitstechniken, wie sie von der Fremdsprachendidaktik entwickelt wurden. Zu (4): Die ungeheure Zahl von Studien zum L2-Erwerb (Ellis (1994) listet in seinem Buch auf mehr als 60 Seiten nur die wichtigsten auf) hat u. a. dazu geführt, dass die L2Forschung im Verlauf ihrer Geschichte eine Reihe unterschiedlicher Theorien entwickelt hat. Die drei wichtigsten dieser Theorien waren auch für die Weiterentwicklung des institutionalisierten Fremdsprachenlernens von hoher Relevanz. Ich behandele sie hier in chronologischer Abfolge: (1) Die kontrastive Hypothese („contrastive analysis hypothesis“): Sie entwickelte sich auf der Grundlage der behavioristischen Lerntheorie und der oben skizzierten Fehleranalysen. Ihre wichtigste Aussage ist, dass jeder zweitsprachliche Lernprozess auf der Grundlage der Gewohnheiten der Muttersprache vor sich geht. Diese Gewohnheiten interferieren mit den Gewohnheiten, die für die zweite Sprache gebil-

61. Gesteuerter Fremdsprachenerwerb

det werden müssen, und führen zu Lernproblemen. Die kontrastive Hypothese postuliert, dass der Lerner dort, wo es Ähnlichkeiten zwischen Ausgangs- und Zielsprache gibt, die Zielsprache leicht lernen wird; wo es hingegen Unterschiede gibt, werden die zielsprachlichen Strukturen nur unter Schwierigkeiten gelernt. Die kontrastive Hypothese wurde in dem Augenblick obsolet, in dem die Diskussion um die Entwicklungsfehler einsetzte. (2) Die kreative Konstruktionstheorie („creative construction theory“): Diese Theorie, die mit dem Namen Krashen (z. B. 1981) verbunden ist, argumentiert, dass der Erwerb der zweiten Sprache wie der Erwerb der Muttersprache ein Prozess ist, der den Lerner aus den zur Verfügung gestellten Sprachdaten das Sprachsystem der neuen Sprache konstruieren lässt. Seine Erwerbsprozesse werden in ihrer Abfolge eingeschränkt durch die natürliche Ordnung, in der die sprachlichen Items der Zielsprache gelernt werden können, sie werden auch beeinflusst durch den sprachlichen Input, der dem Lerner zur Verfügung steht. Nur ein Input, der vom grammatischen und lexikalischen Schwierigkeitsgrad her gerade oberhalb der sprachlichen Kompetenz des Lerners liegt, wird nach Auffassung von Krashen zu Lernprozessen führen. Die Theorie Krashens ist stark angegriffen worden, aber einige Aspekte sind im Kontext des institutionalisierten Lernens von Bedeutung, insbesondere die Tatsache, dass das Sprachlernen ein Konstruktionsprozess ist, der vom Lerner weitgehend eigenständig durchgeführt wird. (3) Die Interaktionshypothese („interactionist hypothesis“): Auch diese Hypothese geht davon aus, dass der L2-Erwerb ein komplexer Konstruktionsprozess ist, allerdings versucht sie in höherem Maße als die kreative Konstruktionstheorie zu erklären, wie der Input beschaffen sein muss, um Konstruktionsprozesse zu initiieren. Es sind die Modifikationen in den Interaktionen zwischen Muttersprachlern und Zweitsprachenlernern, welche Erwerbsprozesse auslösen. Diese Modifikationen machen den Input verständlich, ein verständlicher Input fördert Erwerbsprozesse, deshalb fördern Modifikationen in der Interaktion die Erwerbsprozesse.

4.

Vom Lehren und Lernen von Sprachen (Didaktik des Fremdsprachenunterrichts)

Es sollte aus der Darstellung im letzten Abschnitt deutlich geworden sein, dass die L2Forschung im Verlauf ihrer kurzen Ge-

839 schichte eine Vielzahl von wichtigen Erkenntnissen für das institutionalisierte Fremdsprachenlernen geliefert hat, Erkenntnisse, die das Lernen von Fremdsprachen im Klassenzimmer vor allem aus der Lernerperspektive beleuchten. Neben der L2-Forschung war es vor allem die Fremdsprachendidaktik, die das Geschehen im fremdsprachlichen Klassenzimmer entweder als Bereichsdidaktik (Didaktik des Lehrens und Lerners fremder Sprachen) oder als Fachdidaktik (Didaktik des Englischen, Französischen, Russischen, Spanischen etc.) behandelt hat, wobei sie im Gegensatz zur L2-Forschung ihr Augenmerk auch – lange Zeit sogar ausschließlich – auf den Lehrer gelenkt hat. Ich will in diesem Abschnitt vor allem auf zwei Punkte eingehen: Ich möchte (1) die Fremdsprachendidaktik als Disziplin näher charakterisieren und (2) erläutern, welchen anderen Disziplinen – außer der L2-Forschung ⫺ sie verpflichtet ist. Fremdsprachendidaktik wird gemeinhin als Theorie und Praxis des Lehrens und Lernens von Fremdsprachen definiert. Die Fremdsprachendidaktik ist, wie im Verlauf dieses Abschnitts deutlich werden wird, weniger als die L2-Forschung eine empirische Wissenschaft; sie beschäftigt sich, aufbauend auf einer Reihe anderer Disziplinen, vorwiegend mit Konzepten des Fremdsprachenunterrichts und ist damit eine stärker pädagogisch orientierte Disziplin, obwohl sie vor allem in den letzten dreißig Jahren durchaus auch empirisch gearbeitet hat. Das Verhältnis zwischen der Fremdsprachendidaktik und ihrem deutschen Ableger – der Sprachlehr- und Sprachlernforschung – auf der einen und der L2-Forschung auf der anderen Seite hat sich verbessert, nachdem es lange dadurch gekennzeichnet war, dass die jeweiligen Disziplinen kaum etwas übereinander wussten und deshalb auch kaum zusammenarbeiteten. Dies hat vor allem damit zu tun, dass die methodischen Ansätze der englischen Forschung, die, weil sie sich gleichzeitig auf alle Formen des L2-Erwerbs konzentriert, eine Trennung in Didaktik und L2-Forschung nicht kennt, auch in Deutschland bekannt wurden. Aus heutiger Sicht kann man sagen, dass die deutsche Fremdsprachendidaktik großen Anteil an den Erkenntnissen der L2Forschung nimmt und in ihren konzeptuellen Überlegungen jetzt auch auf deren Forschungsergebnissen aufbaut. Womit beschäftigt sich nun die Fremdsprachendidaktik, was sind ihre Arbeits- und

840 Forschungsfelder? Wie alle didaktischen Disziplinen entwickelt sie Konzepte für den Lernraum Schule, Konzepte, die auf das Lehren und Lernen von Sprachen in institutitonalisierten Kontexten bezogen sind. Dabei lässt sich für den größten Teil auch der heute diskutierten Ansätze, weil sie immer noch stark lehrerorientiert sind, eine Zuordnung zu den inzwischen sicherlich vor allem historisch begründbaren Entscheidungsfeldern des didaktischen Geschehens, wie sie von der Berliner Schule der Didaktik (Heimann, Otto & Schulz, 1965) entworfen wurden, vornehmen: das methodische Feld, das inhaltliche Feld, das mediale Feld und das Feld der Lernziele. Die Methode stand lange Zeit im Mittelpunkt der fremdsprachendidaktischen Diskussion, war der eigentliche Kern jeder didaktischen Betrachtungsweise. Man fasst unter diesem Begriff alle Verfahren zusammen, die der Lehrer einsetzt, um die Lernprozesse der Schülerinnen und Schüler zu beeinflussen. Globale methodische Verfahren, wie z. B. der audiolinguale Ansatz oder die kommunikative Didaktik, dienen als begriffliche Sammelbecken, um konkreten Unterrichtsmethoden einen theoretischen Hintergrund zu geben. Ein methodisches Verfahren, wie z. B. der „pattern drill“, wird als praktische Umsetzung des audiolingualen Ansatzes verstanden, ein methodisches Verfahren wie das Einüben von Sprechakten in einer Simulation soll hier die praktische Umsetzung eines methodischen Prinzips in der kommunikativen Didaktik dokumentieren. Solche konkreten methodischen Verfahren gibt es bis hin in die kleinsten Details des Wortschatz- und Grammatiklernens. Der Inhalt von Fremdsprachenunterricht rückte erst später in den Mittelpunkt der fremdsprachendidaktischen Diskussion. Während es z. B. für den audiolingualen und den darauf folgenden kognitiven Ansatz irrelevant war, auf der Basis welcher Inhalte Schülerinnen und Schüler die fremde Sprache lernten, reflektierten die situationelle und vor allem die kommunikative Didaktik sehr intensiv über die Inhalte von Fremdsprachenunterricht. Heute ist das so genannte interkulturelle Lernen an die Stelle der Landeskunde getreten. Die Lernenden sollen sich kontrastiv mit Aspekten der Ausgangs- und der Zielkultur beschäftigen und sich auf diese Weise der Zielkultur nähern. Die Medien wurden zu einem didaktisch reflektierten Feld von Unterricht erst, als sie komplexer und vor allem durch moderne Technologien erweitert wurden. Erst als es

VI. Spracherwerb

Audio- und dann Videokassettenrekorder gab, erst als das Sprachlabor seinen bald gestoppten Siegeszug an deutschen Schulen antrat, begann man auch über Tafelbilder, Overhead-Projektoren und Lehrwerke nachzudenken. Heute machen kritische Didaktiker warnend deutlich, welch ungeheuren Einfluss das Lehrwerk auf den Fremdsprachenunterricht hat. Sie fragen vor allem, ob das Lehrwerk seinen Platz als Leitmedium im Unterricht behalten soll. Auch der Einsatz der Neuen Technologien rückt immer mehr in den Mittelpunkt der Diskussion. Das Feld der Lernziele war immer ein zentrales Entscheidungsfeld in der fremdsprachendidaktischen Diskussion. Ähnlich wie im methodischen Bereich werden globale und Detaillernziele unterschieden. Zu den globalen Lernzielen gehören solche wie das der linguistischen Kompetenz, das vor allem für den audiolingualen und den kognitiven Ansatz typisch ist, oder das der kommunikativen Kompetenz, das der kommunikativen Didaktik seinen Namen gegeben hat. Teillernziele können sich auf Teilkompetenzen oder spezifische Fähigkeiten beziehen, es können aber auch Setzungen im Hinblick auf konkrete Wortschatzlisten oder Listen von grammatischen Strukturen sein. Als Theorie und Praxis des Lehrens und Lernens von Fremdsprachen hat die Fremdsprachendidaktik aber nicht nur Konzepte entwickelt, wie Fremdsprachen zu lehren sind, sie hat diese Konzepte gleichzeitig auch im Unterricht erprobt und vor allem in den letzten Jahren auch im Hinblick auf ihre Effizienz empirisch untersucht. An dieser Stelle berühren sich die Interessen der Fremdsprachendidaktik mit den Interessen der L2-Forschung. Während Letztere aber den Lerner weitgehend losgelöst vom Unterrichtsgeschehen untersucht, versucht Erstere, die Wirksamkeit bestimmter vom Lehrer ausgehender Methoden, Medien und Inhalte auf den Lernenden zu erfassen. Eine noch engere Zusammenarbeit beider Disziplinen wäre in hohem Maße wünschenswert. Als Vermittlungswissenschaft ist die Fremdsprachendidaktik in allen Phasen ihrer Geschichte in hohem Maße auf andere Disziplinen angewiesen gewesen. Auf das zumindest in Deutschland immer noch etwas ambige Verhältnis zur L2-Forschung habe ich mehrfach hingewiesen. Neben den pädagogischen Wissenschaften ist die Fremdsprachendidaktik von den linguistischen und psychologischen Disziplinen stark beeinflusst wor-

841

61. Gesteuerter Fremdsprachenerwerb

den. Ich habe beim Versuch der Skizzierung ihrer Arbeitsfelder schon eine Reihe fremdsprachendidaktischer Schulen genannt. Der audiolinguale Ansatz („audiolingual approach“), der kognitive Ansatz („cognitive approach“), der situationelle Ansatz („situational teaching“) und die kommunikative Didaktik („communicative language teaching“) haben in dieser historischen Reihenfolge das praktische Unterrichtsgeschehen in den letzten 50 Jahren bestimmt. Jede dieser Schulen der Fremdsprachendidaktik ist sozusagen Ausfluss einer anderen Strömung der Linguistik oder der Psychologie oder sogar aus beiden Disziplinen. Der so genannte audiolinguale Ansatz, die erste nach dem Zweiten Weltkrieg aus den USA kommende Schule der Fremdsprachendidaktik, die vor allem durch Fries (1945) und Lado (1957) bekannt wurde, fußt auf der strukturalistisch orientierten Linguistik der Dreißiger- und Vierzigerjahre (Bloomfield, 1933; Gleason, 1961), gleichzeitig aber auch auf der Lernpsychologie des Behaviorismus, wie sie von Skinner und anderen Theoretikern der Vierziger- und Fünfzigerjahre vertreten wurde. Die Herausbildung von „habits“ über das Auswendiglernen von sprachlichen Mustern enthält als praktisches methodisches Verfahren zentrale Aspekte beider Ansätze. Der kognitive Ansatz, der in Deutschland wenig einflussreich war, kann festgemacht werden an der Entwicklung der generativen Linguistik in den USA. Das Lernen von sprachlichen „patterns“ wurde abgelöst vom Lernen linguistischer Regeln. Der kognitive Ansatz lässt sich nicht direkt an einer Schule der Lernpsychologie festmachen. Die in den Sechziger- und Siebzigerjahren, als sich der kognitive Ansatz entwickelte, bereits existierende kognitive Psychologie fokussierte auf anderen, vorwiegend sprachpsychologischen Fragestellungen und kommt als Grundlagendisziplin nicht in Betracht. Der situationelle Ansatz erweist sich ebenso wie dann die kommunikative Didaktik als stark linguistisch bestimmter Ansatz. Hier war es die (linguistische) Pragmatik, die in ihren verschiedenen Ausprägungen den Fremdsprachenunterricht beeinflusste. Weder der situationelle Ansatz noch die kommunikative Didaktik sind direkt von lernpsychologischen Modellen beeinflusst worden. Ich habe in diesem Abschnitt versucht, die Fremdsprachendidaktik als die Wissenschaftsdisziplin vorzustellen, die sich explizit mit dem gesteuerten Fremdsprachenerwerb

beschäftigt. Ich habe gleichzeitig auch versucht, die Fremdsprachendidaktik in ihrer historischen Entwicklung zu skizzieren und den Stand zu referieren, den die „mainstream“-Didaktik als kommunikative Didaktik derzeit erreicht hat. Die Tatsache, dass die Didaktik als Vermittlungswissenschaft in hohem Maße von anderen – Grundlagenwissenschaften – beeinflusst wird, führt dazu, eine andere, letzte Frage aufzugreifen, nämlich inwieweit die Weiterentwicklung der dem gesteuerten Fremdsprachenerwerb verbundenen Disziplinen zu Neuentwicklungen in der Fremdsprachendidaktik geführt hat.

5.

Psycholinguistik und gesteuerter Fremdsprachenerwerb

Dem aufmerksamen Leser der bisherigen Überlegungen ist deutlich geworden, dass, zumindest wenn man den derzeitigen „state of the art“ betrachtet, der Psycholinguistik als Grundlagendisziplin im engeren Sinne im gesteuerten Fremdsprachenerwerb kein Augenmerk geschenkt wurde. Man könnte natürlich argumentieren, dass die Psycholinguistik im weiteren Sinne bei allen Überlegungen zum L2-Erwerb beteiligt ist, denn auch L2-Forschung ist Spracherwerbsforschung und damit Psycholinguistik. Ich sehe die Situation etwas anders und möchte dafür plädieren, gerade auch für den gesteuerten Fremdsprachenerwerb der Psycholinguistik in ihren Ausprägungen als Sprachverstehensund Sprachproduktionsforschung mehr Aufmerksamkeit zu schenken. Die vergleichsweise wenigen Untersuchungen hierzu, die im Kontext der L2-Forschung durchgeführt wurden, haben viel versprechende Erkenntnisse gebracht, sind aber in der „mainstream“-Didaktik kaum berücksichtigt worden. Es gibt jedoch in der Fremdsprachendidaktik immer mehr Forscher, die nicht nur erkannt haben, welche Chancen die Psycholinguistik für punktuelle Verbesserungen in der Gestaltung von Unterricht bietet, sondern auch sehen, dass eine konsequentere Einbeziehung der Psycholinguistik in didaktische Überlegungen zu einem neuen fremdsprachendidaktischen Paradigma führen kann (Wolff, 1994). Dabei wird immer deutlicher, dass es vor allem die Zugehörigkeit der Psycholinguistik zur kognitiven Psychologie und damit auch die Verbindung zu kognitiven und konstruktivistischen Lerntheorien ist, die völlig neue Überlegungen ermöglicht.

842 Wichtig ist in diesem Zusammenhang auch, dass Praktiker des Fremdsprachenunterrichts ähnliche Überlegungen unabhängig von theoretischen Vorgaben angestellt und sehr effiziente Formen des fremdsprachlichen Lernens entwickelt haben. Ich werde im Folgenden versuchen, die skizzierten Zusammenhänge etwas genauer darzustellen. Die folgenden Erkenntnisse der Psycholinguistik, die ich hier nur verkürzt wiedergeben kann, erweisen sich als von zentraler Bedeutung für die Weiterentwicklung der Fremdsprachendidaktik und haben zum Teil auch schon Veränderungen im konkreten Unterrichtsgeschehen herbeigeführt: (1) Die Unterscheidung zwischen Produkt und Prozess: Die Fokussierung der Psycholinguistik auf sprachliche Prozesse hat in der Fremdsprachendidaktik überhaupt erst ein Bewusstsein für die Prozesshaftigkeit von Sprache erzeugt. Sie hat deutlich gemacht, dass man, wenn man Sprache erwirbt, nicht nur Produkte (Lexik und Grammatik), sondern gleichzeitig auch Prozesse der Sprachverarbeitung (die Prozesse, die beim Verstehen und bei der Produktion von Sprache ablaufen) erwerben muss. Obwohl die Fremdsprachendidaktik ihre Lernziele schon seit geraumer Zeit fertigkeitsorientiert formuliert, sieht sie sich erst jetzt in der Lage, diese Fertigkeiten als komplexe Bündel mentaler Prozesse zu formulieren und Verfahren anzubieten, um sie zu fördern. (2) Die Erklärung des Verstehensprozesses als Konstruktionsprozess: Die Erklärung des menschlichen Verstehensprozesses als eines Prozesses, bei dem der Verstehende aus seinem Vorwissen und den eingehenden Stimuli die Bedeutung einer Mitteilung oder eines Textes konstruiert, hat der Fremdsprachendidaktik ein neues Verständnis für die Verarbeitungs- und Lernprozesse der einzelnen Lerner verschafft. Während die bisherigen Lehrverfahren davon ausgehen, dass Fremdsprachenlerner unter den gleichen äußeren Bedingungen identische Lernergebnisse zeigen und Unterschiede allein auf mangelnde Konzentration, Unaufmerksamkeit und Müdigkeit des Lerners zurückzuführen sind, verweist die Verstehenstheorie darauf, dass Verstehens- und Lernergebnisse für jeden Lerner aufgrund des unterschiedlichen Vorwissens zwangsläufig unterschiedlich und deshalb auch nur schwer kontrollierbar und vorhersagbar sind. Gerade diese Erkenntnis hat für den Fremdsprachenunterricht zu völlig neuen Überlegungen geführt, auf die ich am Ende meines Beitrags eingehen werde. (3)

VI. Spracherwerb

Die Unterscheidung von Sprach- und Weltwissen und die Trennung beider Wissenskomponenten in deklaratives und prozedurales Wissen: Insbesondere die Annahmen der Psycholinguistik zur Struktur von Sprach- und Weltwissen haben Auswirkungen auf die fremdsprachendidaktische Diskussion gehabt. Die Überlegung, dass Wissen in schematischen Strukturen gespeichert ist und dass diese schematischen Strukturen deklarativen und prozeduralen Charaker haben können, hat bei einzelnen Didaktikern dazu geführt, neue Überlegungen zur Gestaltung von Materialien anzustellen, die es dem Lernenden erleichtern sollen, neues Wissen in seinen bisherigen Wissensbestand zu integrieren. Diese psycholinguistische Erkenntnis steht in engem Zusammenhang mit der folgenden, die institutionalisiertes Fremdsprachenlernen ebenfalls stark beeinflusst hat. (4) Jeder Wissenserwerb ist strategiengesteuert. Diese Erkenntnis ist für neuere Ansätze der Fremdsprachendidaktik deshalb so wichtig geworden, weil sie eine hieb- und stichfeste Begründung für die Förderung von Lern- und Arbeitstechniken liefert. Zwar werden Lernund Arbeitstechniken schon seit geraumer Zeit in das institutionalisierte Fremdsprachenlernen einbezogen, ihre besondere Bedeutung für Lernprozesse wurde aber erst erkannt, als das psycholinguistische Strategienkonzept bekannter wurde. Eine Umwandlung des psycholinguistischen Strategienarsenals in Lern- und Arbeitstechniken der Fremdsprachendidaktik ist in vollem Gange und wird auch durch die Strategiendiskussion der L2-Forschung (Wenden, 1991; Oxford, 1990) gestützt. Obwohl ich die für das institutionalisierte Fremdsprachenlernen bedeutsamen Erkenntnisse der Psycholinguistik in vier knappen Punkten zusammenfassen musste, sollte deutlich geworden sein, dass sie den gesteuerten Fremdsprachenerwerb nicht punktuell verändern, sondern grundsätzlich neue Weichenstellungen vornehmen, die, wenn der Veränderungsprozess einmal abgeschlossen ist, zu einem neuen Verständnis von gesteuertem Fremdsprachenerwerb geführt haben werden. Ich hatte anfangs davon gesprochen, dass der Begriff gesteuerter Fremdsprachenerwerb in der Didaktik heute nicht mehr so gern gebraucht wird; warum dies so ist, wird aus den zuletzt dargestellten Befunden besonders deutlich. Denn die Erkenntnisse der Psycholinguistik drängen die Fremdsprachendidaktik förmlich dazu, Unterricht nicht mehr als

61. Gesteuerter Fremdsprachenerwerb

lehrerzentriert, sondern als schülerorientiert zu verstehen und mehr über das Lernen als über das Lehren zu reflektieren. Wie bereits mehrfach angesprochen, werden die psycholinguistischen Befunde durch die Ergebnisse der L2-Forschung unterstützt. Es trifft sich gut, dass neben der L2-Forschung und der Psycholinguistik noch eine weitere Disziplin grundlegende Veränderungen im institutionalisierten Lernen fordert: die aus den Erkenntnissen des radikalen Konstruktivismus entwickelte konstruktivistische Lerntheorie, die unter dem Stichwort „selbstverantwortetes Lernen“ für eine völlige Abkehr von lehrerzentrierten und damit gesteuerten Unterrichtsverfahren plädiert. Ich möchte abschließend ein fremdsprachliches Klassenzimmer charakterisieren, das auf den Erkenntnissen basiert, die Gegenstand dieses Beitrags sind. Es sind vor allem die folgenden Parameter, die ein solches Klassenzimmer, das auch als autonomes Klassenzimmer bezeichnet wird, charakterisieren: Die Gruppenarbeit: Im autonomen Klassenzimmer bedient man sich aus verschiedenen Gründen der Sozialform der Gruppenarbeit. Der wichtigste ist, dass das Klassenzimmer als eine Lernwerkstatt verstanden wird, in welcher alle Lernenden gemeinsam an der schwierigen Aufgabe arbeiten, eine neue Sprache zu lernen. Die Arbeit in Kleingruppen erhöht die Verantwortung des Einzelnen bei der Bearbeitung der verschiedenen Aufgaben. Weniger als im Klassenverband kann er sich vor der gestellten Aufgabe drücken; er ist in höherem Maße mitverantwortlich für das Gelingen des Lernprozesses. Gruppenarbeit führt auch dazu, dass die Lerngruppen gleichzeitig eine Vielzahl unterschiedlicher Aufgaben bewältigen können. Dies wiederum macht es erforderlich, dass die Ergebnisse der einzelnen Arbeitsgruppen der gesamten Lerngruppe vermittelt werden. Die Aufgaben: Das Spektrum an Aufgaben, die den Lernenden gestellt werden, ist sehr viel größer als im herkömmlichen Unterricht. Es gibt kurzfristige und langfristige Aufgabenstellungen; Erstere beziehen sich nur auf eine Unterrichtsstunde oder einen Teil davon, Letztere werden als Projekte über mehrere Unterrichtsstunden hinweg geführt. Längerfristige Projekte werden in vielen Klassenzimmern vertraglich abgesichert: Die Lernenden verpflichten sich darauf, Projektergebnisse bis zu einem bestimmten Zeitpunkt zur Verfügung zu stellen. Die Ergeb-

843 nisse müssen im Klassenverband grundsätzlich als Produkte vorgelegt werden ⫺ als Folien, als Poster, als Broschüren, als kleine Bücher, als Audiokassetten, als Internet-Seiten. Damit wird gewährleistet, dass die fremde Sprache auch verschriftet wird. Die Aufgabenstellungen haben einen Bezug zum Lernen der fremden Sprache; typische Aufgaben sind das gemeinsame Schreiben von Geschichten zu einem vorher ausgehandelten Thema, Erstellen eines Bilderlottos zum Lernen von Wörtern, Recherchieren einer grammatischen Frage und Schreiben einer kleinen Grammatik, Zusammenstellen von Wortschatz zu einem bestimmten Thema, das gemeinsame Schreiben eines Sketches oder gar eines Theaterstückes, das Anhören einer Kassette und Erstellen eines Berichtes, das Lesen eines Buches und das anschließende Schreiben einer Buchrezension. Die Materialien: Für die Arbeit in der Lernwerkstatt stehen den Lerngruppen Materialien zur Verfügung. Seit Breen (1982) hat es sich eingebürgert, zwischen Inhalts- oder Produktmaterialien und Prozessmaterialien zu unterscheiden. Zu den Inhaltsmaterialien zählt Breen authentische Materialien (Bücher für unterschiedliche Altersstufen, Texte jedweder Art, Kassetten, Videos), die er als Rohmaterialien bezeichnet, weil sie nicht mit einer auf das Sprachlernen bezogenen Intention erstellt wurden. Zu den Inhaltsmaterialien gehören aber auch die so genannten Informationsmaterialien, also Wörterbücher und Grammatiken, die den Lernenden Informationen über Lexik und Strukturen der fremden Sprache geben. Prozessmaterialien stellen einen neuen Materialientyp dar, es sind einmal Zusammenstellungen prozeduralen Wissens (Lern- und Arbeitstechniken zum Lernen von Wortschatz, Techniken zur Benutzung eines Wörterbuchs oder einer Grammatik, Lesestrategien, Schreibstrategien, Hörverstehensstrategien), zum anderen aber auch Anregungen für Projekte und Aktivitäten im Klassenzimmer. Materialien, die die Lernenden selbst entwickelt haben, sind ein wichtiger Bestandteil der verfügbaren Arbeitsunterlagen. Die Bewertung: Die wichtigste Aufgabe in einem autonomen Klassenzimmer ist die Bewertung der durchgeführten Lernaktivitäten. Sie findet in regelmäßigen Abständen statt, meist einmal in der Woche bzw. wenn die Lernenden bestimmte Aktivitäten oder Projekte abgeschlossen haben. Alle Lerngruppen haben über ihre Lernprozesse Rechenschaft

844

VI. Spracherwerb

abzulegen. Die entscheidende Frage ist dabei: Was habe ich gelernt? Natürlich müssen bei solchen Evaluationsprozessen unterschiedliche Problemkreise thematisiert werden: die Aktivität selbst, die Materialien, die Ergebnisse, soziale Aspekte der Lernsituation, der Evaluationsprozess selbst. Auch der Einzellerner führt Bewertungsprozesse durch, die dann in die Gesamtbewertung einfließen. Er ist verpflichtet, ein Tagebuch zu führen, in welchem er seine Lernfortschritte beschreiben soll. Lehrerrolle: Es versteht sich von selbst, dass dem Lehrer in einem so gestalteten Klassenzimmer eine völlig andere Rolle zukommt als im herkömmlichen Unterricht. Der Lehrer ist Mitgestalter der Klassenzimmeraktivitäten, Berater der Lernenden, Moderator, Wissensquelle. Er ist nicht der allwissende „instructeur“, der alle Fäden in der Hand hat und die Schüler wie Marionetten führt. Die Bedeutung der Beraterfunktion des Lehrers wird besonders in den Vordergrund gerückt.

6.

Literatur

Ellis, Rod (1994). The study of second language acquisition. Oxford: Oxford University Press. Fries, Charles Carpenter (1945). Teaching and learning English as a foreign language. Ann Arbor: University of Michigan Press. Gleason, Henry Allan (1961). An introduction to descriptive linguistics. New York: Holt, Rinehart and Winston. Haastrup, Kirsten (1991). Lexical inferencing procedures or talking about words. Tübingen: Narr. Heimann, Paul, Otto, Gunter & Schultz, Wolfgang (1965). Unterricht – Analyse und Planung. Hannover: Schrödel. Krashen, Stephen (1981). Second language acquisition and second language learning. Oxford: Pergamon. Lado, Robert (1957). Linguistics across cultures. Ann Arbor: University of Michigan Press. Oxford, Rebecca (1990). Language learning strategies: What every teacher should know. Rowley, Mass.: Newbury House. Wenden, Anita (1991). Learner strategies for learner autonomy. New York: Prentice Hall.

Bloomfield, Leonard (1933). Language. London: Unwin University Books.

Wolff, Dieter (1994). Der Konstruktivismus: Ein neues Paradigma in der Fremdsprachendidaktik? Die Neueren Sprachen, 93, 407⫺429.

Breen, Michael (1982). How do we recognise a communicative classroom. Dunford House Seminar: Mimeo.

Zimmermann, Rüdiger (1990). Lexikalische Strategien: Perspektiven für die Wortschatzarbeit. Die Neueren Sprachen, 89, 426⫺452.

Dechert, Hans W., Möhle, Dorothea & Raupach, Manfred (Eds.) (1984). Second language productions. Tübingen: Narr.

Dieter Wolff Universität Wuppertal (Deutschland)

VII. Medien/Media 62. Medien der Individualkommunikation: Email und Telekonferenz 1. 2. 3. 4. 5.

Einleitung Email und Chat Telekonferenz Forschungsdefizite Literatur

1.

Einleitung

Die breite Durchsetzung des Computers hat unser kommunikatives Spektrum erweitert. Für den zeit- und raumversetzten Austausch stehen heute neben traditionellen Medien wie Telefon und Fax neue Optionen wie Email und Telekonferenz zur Verfügung. Sie schaffen spezifische situative Kontexte, in denen Menschen mit Sprache handeln. Wie sich die medialen Rahmenbedingungen elektronischer Kommunikation im Einzelnen auf die Sprachproduktion und -rezeption auswirken, ist aus der Sicht der Psycholinguistik wie auch der Sprachpsychologie kaum untersucht (Herrmann, 1998; Rickheit & Strohner, 1999). Wer sich für den Zusammenhang zwischen Medium und Sprachproduktion interessiert, ist daher gehalten, auf Ergebnisse anderer, anverwandter Disziplinen und Forschungsrichtungen zurückzugreifen. Dieser Weg wird im Folgenden bei der Diskussion der Kommunikationsformen Email (2.1), Chat (2.2) und Telekonferenz (3) beschritten. Abschließend werden Forschungsdefizite benannt (4).

2.

Email und Chat

2.1. Email-Kommunikation Email gewinnt als Mittel der Individualkommunikation zunehmend an Bedeutung. Vorteile der Kommunikationsform resultieren aus der Übertragungsgeschwindigkeit des Kanals, dem geringen Arbeitsaufwand für den Nutzer und der Option, erhaltene Emails beliebig weiter bearbeiten zu können. Die Kombination dieser Merkmale ermöglicht Veränderungen im kommunikativen Verhal-

ten der Nutzer. Die Schnelligkeit des Mitteilens rückt das Schreiben in die Nähe des Sagens. Sie erlaubt unmittelbarere Formen des Reagierens und Interagierens, die sich im Spannungsfeld konzeptueller Mündlichkeit und Schriftlichkeit bewegen (Koch & Oesterreicher, 1985). Abhängig von der Intention des Schreibers (zeitgleicher vs. zeitversetzter Austausch) eröffnet sich ein breites Spektrum von Kommunikationsmöglichkeiten. Zur Email liegt eine umfangreiche Literatur vor, deren Schwerpunkte je nach Forschungsinteresse und -disziplin stark variieren. Die Betrachtung aus psychologischer, soziologischer und linguistischer Sicht richtet sich auf kognitive, sprachliche, personengebundene oder kulturelle Aspekte. Zusammenhänge zwischen diesen werden eher selten gesehen. Während in der Linguistik das Interesse am Sprachgebrauch wie auch an Mischformen mündlicher und schriftlicher Rede vorherrscht, dominiert in der Psychologie und Soziologie das Interesse für Phänomene der Interaktion in Gruppen. In diesem Zusammenhang sind u. a. die empirischen Studien der Londoner Communication Studies Group und das von ihnen in den siebziger Jahren entwickelte Konzept der „sozialen Präsenz“ (Short, Williams & Christie, 1976) zu nennen, Studien zur Wirkung und Akzeptanz des Mediums, zu Kooperationsprozessen in Organisationen (z. B. Sproull & Kiesler, 1986) sowie zu qualitativen Aspekten des menschlichen Sozialverhaltens in Gruppen. Bis dato fehlen Modelle, die das Zusammenwirken verschiedener Einflussfaktoren beschreiben. Die Produktion und Rezeption von Email unterliegt spezifischen Bedingungen. Sie ergeben sich u. a. aus der Trennung von Produktions- und Rezeptionssituation, (in der Regel) fehlender Kopräsenz der Kommunikationspartner wie auch aus medienspezifischen Bedingungen. Letztere betreffen die Bindung an Bildschirm, Tastatur und elektronische Übertragungswege wie auch die Realisierung

846 schriftlicher Äußerungen mit Hilfe des ASCII-Codes. Die Trennung von Schreibort (Tastatur) und Lesefeld (Bildschirm) wirkt sich auf die visuelle Kontrolle des Geschriebenen aus. Ungeteilte Konzentration auf den Schreibprozess setzt die Fähigkeit voraus, „blind“ schreiben zu können. Neuere Studien belegen, dass Leseprozesse am Bildschirm bis zu 10 % ungenauer ausfallen und schneller ermüden als Lesen von Papier. Begründet wird dies u. a. mit Problemen der Buchstabenerkennung und -verarbeitung (Ziefle, 1998). Wie sich die genannten Faktoren auf die Produktion und Rezeption von Emails auswirken, ist kaum untersucht. Durch die elektronische Repräsentation entfallen Hinweise, die in traditioneller Briefkommunikation Rückschlüsse auf die Textsorte erlauben (so etwa Papierqualität und -format). Die Rezeption wird insgesamt durch die geringe Kontextualisierung der Email erschwert. Emailangaben lassen nur in geringem Maße Rückschlüsse auf die Situationseinbindung des Partners zu. Bei Unbekanntheit der Partner ist der Empfänger auf die Interpretation des Emailtextes angewiesen, um Hinweise auf die Persönlichkeit des Partners zu erhalten. Längere Emailwechsel per Reply-Funktion erschweren bei zeitversetzter Kommunikation das Übersichthalten wie auch – in Verbindung mit sprachlicher Knappheit und Mangel an Kontextmarkern – Kohärenzbildungsprozesse. Die Möglichkeit des Zitierens (quote) der Äußerungsteile der zu beantwortenden Email wie auch Hinweise in der Betreffzeile kompensieren das Problem nur partiell (vgl. auch Abschn. 3.2). Formale Beschränkungen der Darstellung ergeben sich u. a. aus dem ASCII-Code und der halbautomatischen Verwaltung von Kommunikationsdaten (Absender, Sendezeit, Übertragungsprotokoll). Der Wegfall von Statusangaben im Emailkopf (header) wird häufig durch die Gestaltung der Unterschrift (signature) kompensiert, die für Zwecke der Selbstdarstellung und Individualisierung neben Statusangaben weitere Elemente wie Zitate, Satzzeichenbilder (Ascii-Art) und andere kreative Formen enthalten kann. Gruppenkonstituierend wirken vor allem Insider-Ausdrücke. Die Gestaltung des Textes fällt je nach Anlass und Kommunikationspartner unterschiedlich aus. Vielfach folgt sie dem traditionellen Muster von Anrede, Mitteilung und Gruß. Anrede und Gruß können auch wegfallen.

VII. Medien

Charakteristisch sind die Tendenz zu kurzen Mitteilungen wie auch Strategien zur Verkürzung von Produktionszeiten. Tippfehler werden als produktionsbedingte Normabweichung toleriert, Korrekturen sind eher untypisch (Günther & Wyss, 1996). Die Fehlertoleranz scheint u. a. von der Kommunikationsdomäne sowie dem Selbstdarstellungsanspruch der Schreiber abhängig (Jakobs, 1998; Janich, 1994). Dem Wunsch nach Schnelligkeit entsprechen Einsparungstechniken wie der Ersatz von Ausdrücken durch Initialbildung und andere Formen der Kurzwortbildung bis hin zum Wortspiel durch Kombination von Codes (4get it ⫽ forget it) oder den Ersatz von Phrasen durch graphische Zeichenkombinationen (⬍!⬎ ⫽ An important part of a message) (Handler, 1996). Kürzebestrebungen rücken die Kommunikationsform Email in die Nähe des Telegramms. Nähe zu mündlicher Rede ergibt sich bei Individualkommunikation durch die Verschriftung von Umgangssprache (oda – oder), den Einsatz dialektaler, regionaler und umgangssprachlicher Formen, produktionsbedingte Normabweichungen in der Syntax, die mitunter beobachtbare Tendenz zu Dialogizität und den gehäuften Einsatz von Interjektionen (häufig mit lautmalendem Charakter: hahaha, würg), Verschmelzungen von Wortformen (son Quatsch) und Wortabschleifungen (hab) (Günther & Wyss, 1996). Die für schriftliche Kommunikation typische Reflektiertheit der Form tritt zurück. Abweichungen in der Groß- und Kleinschreibung wie auch in der Orthographie können z. T. mit der mechanischen Trägheit der Tastatur und Tippfehlern erklärt werden. Der medial bedingte Verzicht auf nonverbale und verbal-vokale Ausdrucksmittel wird durch Kompensationsstrategien teilweise ausgeglichen. Dazu gehört der Ausdruck von Emphase durch Großbuchstaben (NEEII INNN), die Markierung prosodischer Eigenschaften bei der Verschriftung (tjaaa) sowie die Verwendung von Emotikons zum Ausdruck innerer Befindlichkeiten, Mimik und Gestik (Günther & Wyss, 1996; Sanderson, 1995). In mimischer Funktion markieren Emotikons die Sprechereinstellung (vgl. ;-) zur Markierung von Ironie). Sie besitzen damit pragmatischen Charakter (Jakobs, 1998). Aktuelle Emotionen können durch sog. flamings ausgedrückt werden. Das Phänomen tritt weniger bei dyadischem Austausch als in Newsgroups auf (Handler, 1996). Das kommunikative Verhalten wird z. T. durch Kon-

62. Medien der Individualkommunikation: Email und Telekonferenz

ventionen (die sog. Netiquette) geregelt, die sich in den neunziger Jahren herausgebildet haben und Formen des Fehlverhaltens vorbeugen sollen (vgl. Storrer & Waldenberger, 1999). Die Entscheidung, wie über was geschrieben wird, hängt letztlich von der Interpretation der sozialen und persönlichen Beziehung der Kommunikationspartner, der Domäne, in der kommuniziert wird, den verfolgten Zielen und der gegebenen Situation ab. 2.2. Internet Relay Chat (IRC) Chats erlauben wie Email den Austausch bei fehlender räumlicher Kopräsenz. In privaten Kontexten besitzt der Austausch meist phatischen Charakter. In beruflichen Kontexten wird Chatkommunikation zunehmend für Beratungszwecke genutzt. Der Austausch kann zwischen zwei und mehreren Personen wie auch zwischen zwei Personen in einem mehrfach besetzten Chatraum erfolgen. Nähe zur Email ergibt sich aus dem Übertragungsweg und der Bindung der Sprachproduktion an Tastatur und Bildschirm. Im Gegensatz zur Email erfolgt der Austausch ausschließlich (fast) zeitgleich. Aus dem Kontrast zwischen schriftlicher Realisierung und Gesprächsintention ergeben sich interessante Phänomene in der Schnittmenge zwischen intendierter Mündlichkeit und realisierter Schriftlichkeit. Gesprächseröffnungen und Kontaktaufnahme in Chatkommunikation sind bisher wenig untersucht. Die folgenden Angaben stützen sich auf Rintel und Pittam (1997). Im Gegensatz zu Telefonaten oder Face-to-faceGesprächen bedürfen Interaktionseröffnungen in Chats eines höheren technischen Aufwandes. Nach dem Starten des Programms muss ein Chat-Server sowie ein auf diesem Server verfügbarer Chat-Kanal gewählt werden. Das Programm zeigt den neuen Teilnehmer durch eine automatisch generierte Nachricht anderen bereits im Kanal befindlichen Personen an. Je nach Einstellung des ChatServers erhält auch der neue Nutzer eine maschinell erstellte Nachricht, z. T. in Form einer Begrüßung (hi susi! welcome to #chatzone). Nach erfolgter Anmeldung sind Kontaktversuche zu anderen Teilnehmern möglich. Die Identifikation der im Kanal befindlichen Personen ist über eine Namensliste oder anhand der im Hauptfenster erscheinenden Äußerungen möglich. Die Teilnehmer verwenden im Freizeitbereich häufig Pseudonyme wie @ax1on, badgirl oder zackzack. Sie

847

sollen Aufmerksamkeit erzeugen, die Übernahme imaginärer Rollen ermöglichen und/ oder die Identifikation des Nutzers als reale Person erschweren. Die Kontaktaufnahme kann unterschiedlich initiiert werden. Bedingt durch die fehlende räumliche Kopräsenz stehen den Partnern nur nonvokal-verbale Ausdrucksmittel zur Verfügung (vgl. Abschn. 2.1). In den Chat-Kanal eintretende Teilnehmer werden von den bereits Anwesenden begrüßt oder können ihrerseits Kontakte initiieren, z. B. durch eine an die anderen gerichtete Äußerung, meist eine Begrüßung (hello, hi room). Die Kontaktversuche sind zu wiederholen, bis ein Teilnehmer Gesprächsbereitschaft signalisiert. In der Regel kommunizieren mehrere Personen miteinander. Wie in Face-to-face-Gesprächen verlaufen häufig mehrere Gesprächsstränge parallel zueinander und überlagern sich. Probleme beim Sprecherwechsel resultieren vor allem aus technisch bedingten Restriktionen. Im Gegensatz zu natürlichen Gesprächssituationen sehen sich die Partner nicht. Sie müssen daher auf nonverbal-nonvokale Mittel der Partneradressierung wie Blickkontakt und Körperzuwendung verzichten. Das Defizit wird durch Strategien kompensiert wie explizite verbale Adressierung der Äußerung und/oder automatisch eingefügte Benennung des Adressaten zu Beginn des Gesprächsbeitrages als Mittel der Selbstidentifizierung ([MaL] hi kelly ⫺ [Kelly] MaL: hi). Die Gesprächsbeiträge erscheinen, technisch bedingt, in der Chronologie ihrer Eingabe am Bildschirm. Die Abgabe des Rederechts wird durch das Versenden des Beitrages angezeigt. Fremdwahl des Rederechts erfolgt wie in Face-to-face-Situationen durch die Aufforderung an den Partner, sich zu äußern. Sie kann explizit oder implizit (durch inhaltliche Vorgaben) realisiert werden. Zu den Konventionen von Chatkommunikation gehören kurze Reaktionszeiten. Von den Teilnehmern wird erwartet, dass sie auf Redeaufforderungen spontan reagieren. Ungeachtet dessen kann jeder sich außerhalb der Reihe das Rederecht nehmen. Reibungslose Sprecherwechel setzen in Chats eine hohe Konzentration voraus. Sie verlangen die Fähigkeit, Übersicht über das als lose Abfolge schriftlicher Äußerungen vor seinen Augen entstehende Gespräch als Ganzes wie auch über den eigenen Gesprächsstrang zu wahren. Die Teilnehmer müssen

848

VII. Medien

permanent „gesprächsbereit“ sein, um in dem Moment, in dem ein an sie gerichteter Gesprächszug auf dem Bildschirm erscheint, schnell reagieren und einen eigenen Gesprächsbeitrag verfassen zu können. Die geringe Planungszeit dürfte sich auf die Sprachproduktion auswirken. Sprachliche Korrektheit tritt in den Hintergrund. Sprachliche Merkmale dieser auf Plaudern und schnellen Austausch gerichteten Kommunikationsform sind Ellipsen, Satz- und Wortabbrüche, der gehäufte Einsatz von Akronymen, ChatSlang (Rosenbaum, 1996), Emotikons und dialektale Ausdrucksformen. Der fehlende gemeinsame Wahrnehmungsraum wird durch verschiedene Mittel kompensiert. Dazu gehört der Ausdruck von Körperhandlungen wie auch von Gefühlen und Habitus durch in Asterisken eingeschlossene Äußerungen (*rück*, *wein*, *seufz theatralisch*); auffällig ist der Gebrauch von Verbstämmen in prädikativer Funktion (Runkehl, Schlobinski & Siever, 1998). Nach Sassen (2000) geht die in Chats beobachtbare Variabilität lexikalischer und struktureller phatischer Marker deutlich über diejenige in Faceto-face-Interaktionen hinaus.

3.

Telekonferenz

Der Ausdruck Telekonferenz (teleconferencing) subsumiert als Oberbegriff verschiedene Arten von Konferenzschaltungen und deren Nutzung. Nach der Art des Übertragungskanals lassen sich grob verallgemeinernd drei Konferenztypen unterscheiden: Telefonkonferenz (3.1.), emailbasierte Online-Konferenz (3.2.) und Videokonferenz (3.3.). Die verwendete Technik wirkt sich auf die Formen des sprachlichen Austausches aus. Die zu Telekonferenzen vorliegende Literatur ist äußerst heterogen. Es überwiegen Arbeiten mit soziologischer, psychologischer, technischer oder betriebswirtschaftlicher Schwerpunktsetzung. Linguistisch orientierte Arbeiten sind eher selten. Diskutiert werden Fragen der sozialen Präsenz, des (Informations-)Reichtums des Mediums, der Eignung von Konferenzschaltungen für Gruppenarbeit u. a. Die vorliegenden empirischen Ergebnisse differieren zudem in Aufgabenstellung und Untersuchungsdesign und sind daher schwer vergleichbar (Newlands, Anderson & Mullin, 1996). Häufig fehlen explizite Angaben zur genutzten Technik, an die jedoch Möglichkeiten und Restriktionen des sprachlichen Austausches gebunden sind.

Unabhängig vom Typ des gewählten Mediums werden technisch realisierte Zusammenkünfte und Konferenzen im Vergleich zu den ihnen entsprechenden Face-to-face-Formen als tendenziell kürzer, sachlicher, geschäftsmäßiger wie auch als weniger argumentativ, weniger konfrontativ und weniger persönlich beschrieben. Die Teilnehmer scheinen sich in der Einschätzung von Informationen wie auch ihres Gegenübers weniger sicher; Entscheidungen finden weniger Unterstützung durch die Betroffenen (Antoni, 1990; Culnan & Markus, 1987; Färber, 1993). Alle Formen der Telekonferenz zeichnen sich durch partielle Dekontextualisierung des Mitgeteilten aus. Die Nutzer reagieren auf diese Einschränkung mit Kompensationsstrategien und Reparaturhandlungen. 3.1. Die auditive Variante: Telefonkonferenzen Die älteste Form der Telekonferenz ist die Telefonkonferenz. Sie nutzt vorwiegend den auditiven Kanal. Den Teilnehmern steht das gesamte Spektrum verbal-vokaler wie auch nonverbal-vokaler Ausdrucksmittel zur Verfügung. Einschränkungen resultieren u. a. aus dem fehlenden gemeinsamen Wahrnehmungsraum, der den Aufbau eines Situationsmodells erschwert und Kompensationsstrategien erfordert. Wenn mehrere Personen miteinander kommunizieren, kann der fehlende gemeinsame Wahrnehmungsraum das Behalten des Überblicks erschweren. Kennen sich die Teilnehmer eher wenig, können Probleme bei der Identifizierung von Sprechern wie auch bei der Adressierung von Sprechern auftreten. Unterbrechungen des Sprechers treten häufiger auf als in Face-to-face-Situationen. Darauf deutet eine Studie von Newlands, Anderson und Mullin (1996) zur Unterbrechungsrate unter differierenden medialen Bedingungen. Die niedrigsten Werte werden bei Videokonferenzen, die höchsten bei Telefonkonferenzen ermittelt, Face-to-face-Situationen liegen dazwischen. 3.2. Die schriftliche Variante: Computerkonferenzen (CC) Computerkonferenzen nutzen die Möglichkeiten von Email und chat line. In Abhängigkeit davon erfolgt der Austausch zeitversetzt oder weitgehend synchron. Asynchrone Konferenzsysteme erfassen und verwalten die eingehenden Beiträge in einem allen zugängli-

62. Medien der Individualkommunikation: Email und Telekonferenz

chen Pool. Die Beiträge können von dort abgerufen und gelesen werden. Synchrone Konferenzen nutzen virtuelle Räume, in die sich die Teilnehmer einloggen. Gesprächsbeiträge können gleichzeitig von allen Teilnehmern gelesen werden. Komplexere Systeme kombinieren beide Varianten: ein Teil des Austausches erfolgt asynchron per Email, ein anderer synchron im Chat-Modus. Die Kommunikation verläuft bei synchroner wie asynchroner Schaltung über die Produktion und Rezeption schriftlicher Äußerungen. Ausdrucksmittel, die an den auditiven oder visuellen Kanal gebunden sind, entfallen. Bei synchroner Konferenzschaltung bedeutet dies u. a. den Verzicht auf verbal-vokale, nonverbal-vokale und nonverbal-nonvokale Feedbacksignale (Äußerungen wie mhm, ja?, wirklich?, nachdenkliches Brummen, Blickkontakt, Lächeln, Nicken; Abowd, Beale, Dix & Finlay, 1995; Gilbert, Jirotka & Luff, 1991), die in Face-to-face-Situationen den Redebeitrag begleiten und dem Partner Interesse, Aufmerksamkeit, Zustimmung oder Skepsis anzeigen. Reaktionen müssen explizit in Form von Bestätigungen, Rückfragen etc. ausgedrückt werden. Kommunizieren mehrere Partner, so kann die Verfahrensweise zu Schwierigkeiten führen. Eine Lösung des Problems wird in Softwarekomponenten gesehen, die den Teilnehmern erlauben, per Tastendruck direkt auf die Äußerung des Partners zu reagieren. Über einen quick response mechanism können vorformulierte Äußerungen wie OK oder I agree abgerufen werden (vgl. McCarthy, Miles, Monk, Harrison, Dix & Wright, 1990). Die Bedingungen für die Produktion und Rezeption von Äußerungen differieren je nach Konferenztyp und -technik. Teilnehmer asynchroner Konferenzen haben Zeit, um ihre Beiträge zu planen und zu überarbeiten, Teilnehmer synchroner Schaltungen dagegen nicht. Online-Konferenzen besitzen in stärkerem Maße Konversationscharakter als asynchrone Konferenzen (Gilbert et al., 1991), die eher dem Austausch schriftlicher Kurzbeiträge gleichen. Als weitere Faktoren werden das genutzte System (seine Restriktionen) genannt, der Aufgabenkontext (Wilkins, 1991), die Anzahl der Teilnehmer und individuenspezifische Faktoren wie Erfahrung im Umgang mit CC und Bekanntheitsgrad der Teilnehmer. Charakteristika der Sprachproduktion in synchronen Systemen resultieren aus der Diskrepanz zwischen intendierter Konversation

849

und schriftlicher Realisierung am Computer (talking in writing; Spitzer, 1986), die zu spezifischen Ausprägungen führen. Mc Carthy et al. (1992) werten sie deshalb als Form zwischen schriftlicher und mündlicher Sprachproduktion mit spezifischen Eigenschaften. In der Literatur dominiert der Vergleich von CC-Kommunikation mit mündlicher Konversation. Ob und in welchem Maße der Rückgriff auf Kategorien, die für die Beschreibung mündlicher Konversation entwickelt wurden (z. B. turn taking), sinnvoll ist, wird kontrovers gesehen. Nähe zu mündlicher Konversation zeigt sich nach Wilkins (1991) in einem hohen involvement des Sprechers/Schreibers (Chafe, 1985). Wie in Face-to-face-Gesprächen kann der Sprecherwechsel per Selbst- oder Fremdwahl erfolgen. Die technischen Bedingungen (fehlender visueller und akustischer Kanal) bedingen jedoch spezifische Formen der Organisation und Realisierung des turn taking. Sprecher können das Wort selbst ergreifen oder aufgefordert werden zu reagieren. Die Abgabe des Rederechts wird durch das Versenden eines eigenen Redebeitrags signalisiert; die Fremdwahl eines Sprechers kann sich aus dem Inhalt des vorangegangenen Redebeitrages ergeben oder durch explizite Adressierung angezeigt werden (vgl. Abschn. 1.3). In moderierten Konferenzen wird das Rederecht durch eine organisierende Instanz (Person oder Software) geregelt. Im Falle moderierender Software listet das System alle per Tastendruck angezeigten Redebeiträge auf und autorisiert diese z. B. durch ein der Äußerung vorangestelltes Namenkürzel (tag). Die Liste erscheint auf den Bildschirmen der Teilnehmer und ist als Empfehlung für die Abfolge von Beiträgen zu verstehen. Selbstwahl des Rederechts (z. B. durch Eintrag in Sprecherlisten) ist in synchronen Computerkonferenzen die häufigste Form des Sprecherwechsels. Pausen, die durch Schweigen entstehen, können verschiedene Gründe haben: technische Probleme, Verstehensprobleme u. a. Sie wirken in synchronen Situationen anders als in asynchronen Schaltungen. Größere Auswirkungen auf die Gesamtorganisation besitzen Unterbrechungen eines Redners durch Selbstwahl des Rederechts. Einige Systeme verhindern diese Möglichkeit (Wilkins, 1991). Ein zentrales Problem synchroner wie asynchroner Konferenzen ist die eindeutige Angabe von Referenzen (Verbinden von Mitteilung und Situation; Clark & Brennan,

850 1991) und der Aufbau von Kohärenz zwischen Beiträgen (McCarthy, Wright & Monk, 1992). Kohärenzbildungsprozesse setzen – bedingt durch den fehlenden gemeinsamen situativen Kontext – ein erhebliches Maß an Hintergrundwissen voraus. Fehlende Schnelligkeit der Teilnehmer kann dazu führen, dass mehrere Teilnehmer gleichzeitig reagieren. Themeneinführung und -entwicklung erfolgen zudem oft parallel zueinander. Kohärenzbildungsprozesse können sich nicht am Sprecherwechsel orientieren, nonverbale Marker wie Blickkontakt entfallen. Die Teilnehmer reagieren auf diese Situation mit Kompensationsstrategien wie explizite Adressierung (Angabe, auf welches Thema/Person der Beitrag reagiert), sequentielle Organisation (Reaktion auf Themen nach der zeitlichen Abfolge ihres Erscheinens auf dem Bildschirm) und message compression (Verteilen einer Reaktion auf mehrere aufeinanderfolgende kurze Beiträge) (McCarthy et al., 1992). In welchem Umfang diese Strategien notwendig werden, hängt u. a. von der zu lösenden Aufgabe und der Anzahl der kommunizierenden Partner ab. Synchronität und Asynchronität bieten differierende Bedingungen für Themenwechsel. Synchrone Konferenzen mit einer größeren Teilnehmerzahl können moderiert werden. Asynchrone Konferenzen erlauben dies nur in begrenztem Maße, z. B. durch das Zusammenfassen von Beiträgen zu einem Thema. Themenbezüge und Themenwechsel müssen in stärkerem Maße metasprachlich expliziert werden als in synchronen Konferenzschaltungen. Thematische Bezüge werden explizit durch lexikalische Mittel wie wörtliche und variierte Wiederaufnahme des Themas zu Beginn eines Beitrages angezeigt und/oder müssen auf der Basis geteilter (kultureller, sozialer, sachlicher) Wissensbestände erschlossen werden (Wilkins, 1991). Reagiert ein Beitrag auf mehrere Partner und/oder Themen, sind die betreffenden Passagen zu adressieren bzw. thematisch zu kennzeichnen. Spitzer (1986) konstatiert einen stärkeren Bedarf für Metakommunikation, um emotionalen Ausbrüchen vorzubeugen. Als Ursache für Kommunikationsprobleme, Irritationen und Unsicherheit wird die geringe Kontextualisierung von Beiträgen in asynchron durchgeführten Konferenzen erwähnt (Clases, 1994). Das Fehlen eines unmittelbaren Feedbacks erzeuge Unsicherheiten in Bezug auf die Wirkung des eigenen Beitrages wie auch interpretatorische Unsicherheit. Die Re-Kon-

VII. Medien

textualisierung von Mailbeiträgen erfordert einen erheblichen Aufwand an Konstruktionsarbeit, etwa beim Verfolgen längerer Diskussionsstränge. Schwache Kontextualisierung kann nach Feenberg (1996) partiell durch Metakommunikation abgefangen werden; sie ist u. a. vom Moderator zu leisten. Andere Autoren schlagen formalisierte Lösungen vor, die es erlauben, die Intention eines Beitrages explizit anzuzeigen, z. B. über die Angabe des Sprachhandlungstyps (Winograd & Flores, 1986). Schwer interpretierbar ist das Schweigen des Partners, da es gleichermaßen technisch, inhaltlich, durch Abwesenheit der Person oder zeitlich verzögerte Reaktion bedingt sein kann. 3.3. Bild und Ton: Videokonferenzen Empirische Untersuchungen zu Videokonferenzen basieren in der Regel auf Laborexperimenten (z. B. Lopez Montez, 1992; Rosetti & Surynt, 1985) oder auf Nutzerbefragungen zum Mediengebrauch (Antoni, 1990; Gowan & Downs, 1994; Köhler, 1993; Kydd & Ferry, 1994). Felduntersuchungen und Fallstudien sind eher selten (Bergmann & Meier, 1998; Meier, 1998). Die Funktionalität des Mediums wird kontrovers diskutiert, so z. B. die Frage, ob sich Vidiokonferenzen für Problemlösesituationen anbieten (Rosetti & Surynt, 1985) oder nicht (Bronner, 1996). Es wird angenommen, das Medium eigne sich nicht für die Behandlung kontroverser, emotionsgeladener Themen, für Brainstorming oder das Sichkennenlernen der Partner. Als Voraussetzung für das Gelingen von Videokonferenzen gelten die persönliche Bekanntschaft der Beteiligten (Weinig, 1996) und die Schwerpunktsetzung auf Informationsaustausch (Abel, 1990; Färber, 1993; Kydd & Ferry, 1994). Videokonferenzen simulieren Face-to-faceSituationen. Sie werden nicht als Ersatz für Face-to-face-Gespräche gesehen, sondern eher als zusätzliche Form mit eigenen Qualitäten (Bergmann & Meier, 1998). Medial bedingte Probleme variieren in Abhängigkeit von der Anzahl der beteiligten Personen und ihrer räumlichen Verteilung; sie sind abhängig von der verwendeten Technik. So beeinflusst die verwendete Technik den Blickkontakt, die Qualität der Bild- und Tonwiedergabe wie auch den Bildausschnitt. Gesprächs- und Interaktionseröffnung: Videokonferenzen ähneln in stärkerem Maße Face-to-face-Gesprächen als Chats, da sich die Beteiligten sehen und hören können. Ih-

62. Medien der Individualkommunikation: Email und Telekonferenz

nen stehen neben verbalen Mitteln nonverbal-nonvokale und nonverbal-vokale Ausdrucksmittel zur Verfügung. Wie andere Konferenztypen auch müssen technische Vorarbeiten geleistet werden, wie das Herstellen der Konferenzschaltung; spezifisch ist die Einstellung des Systems auf die konkreten situativen Bedingungen (Beleuchtung, Akustik, Kamera- und Bildschirmanordnung etc.). Gesprächs- und Interaktionseröffnungen in Videokonferenzen sind kaum untersucht. Eine Ausnahme bildet die Feldstudie von Meier (1998) zum Interaktionsverhalten konferierender Arbeitsgruppen aus der Industrie. Abweichend zu Treffen bei Kopräsenz der Partner sind danach explizite Selbstidentifikation und wechselseitige Begrüßung nach Herstellung des Konferenzmodus eher selten; Aktionen richten sich eher auf die eigene Gruppe. Teilweise finden erste Einzelgespräche zwischen Partnern beider Gruppen statt, die sich positiv auf die spätere wechselseitige Wahrnehmung auswirken. Problematisch ist der Übergang zur eigentlichen Konferenzsitzung, d. h. das Bündeln der Aufmerksamkeit aller und die Eröffnung gemeinsamer Gespräche. Die Aufmerksamkeitsfokussierung erfolgt über die Zuwendung zum Bildschirm, Aufmerksamkeit heischende Nachfragen („hallo“, „Hört Ihr uns?“ etc.) und erneute Begrüßung (openings up openings). Das Gespräch kann aus verschiedenen Gründen unterbrochen werden und eine erneute Eröffnungsphase notwendig machen. Der Austausch wird durch technische Probleme beeinflusst, wie fehlende Stabilität und/oder Synchronität von Bild- und Tonkanal. Verständigungsprobleme können auch aus der Position der Partner im Konferenzraum resultieren. Die der Kamera am nächsten sitzende Person wird am besten von der anderen Seite der Schaltung wahrgenommen; die Position eignet sich jedoch nicht für Interaktionen am selben Ort. Körperliche Hinwendung zu Mitgliedern der eigenen Gruppe beeinträchtigt die Aufnahmequalität des Mitgeteilten. Heath und Luff (1993) konstatieren trotz wechselseitigen Sehens und Hörens Probleme bei der Koordinierung des Verhaltens. Nonvokal-nonverbale Mittel wie Körperbewegungen, Gesten und Änderung des Blickwechsels wirken nicht im selben Maße auf die verbale Interaktion strukturierend bzw. modifizierend wie in natürlichen Gesprächssituationen (Fish, Kraut & Chalfonte, 1990; Smith, O’Shea, O’Malley, Scanelon & Taylor, 1989). Ähnliches gilt für zögerndes

851

und stockendes Sprechen. Weinig (1996) vergleicht empirisch Face-to-face-Konferenzen mit Videokonferenzen. Bei gleicher Aufgabenstellung fallen Videokonferenzen kürzer aus als Face-to-face-Sitzungen; die Anzahl der Gesprächsbeiträge und -schritte ist dagegen höher, die Länge der Gesprächsbeiträge kürzer. Videokonferenzen zeigen mehr gesprächsorganisierende Phasen, jedoch weniger gesprächsorganisierende Handlungen. Der Gesprächsverlauf ist sehr dynamisch, jedoch schwächer organisiert. Es gibt mehr Unterbrechungen und Überschneidungen sowie weniger Sprechpausen. Nonverbale Mittel werden doppelt so oft eingesetzt. Der höhere Anteil nonverbaler Handlungen erklärt sich aus der Gesprächsdynamik, die kaum ein verbales Feedback zulässt. Gesten haben unterschiedliche Funktion. Sie unterstützen die Sprecherwahl, bestätigen, dass die Mitteilung ohne Störung empfunden wurde, oder kompensieren in Schlussphasen den persönlichen Händedruck. Das Fehlen direkter Blickkontakte wird als störend und hemmend empfunden. Auf die Gespächsführung wirkt sich die Art der technischen Koordinierung von Sprecherwechseln aus, so z. B. moderierter vs. unmoderierter Wechsel, inhaltlich, chronologisch oder über Lautstärke geregelter Wechsel. Nach Sellen (1992) wird das Verstehen durch weitere technische Parameter beeinflusst, wie die Größe und Anordnung des Bildschirmausschnitts (Ganzkörper vs. Körperausschnitt, Bild-in-Bild-Design vs. mehrere Bildschirme nebeneinander). Die geringe Akzeptanz von Videokonferenzen wird z. T. auf die fehlende Schulung und Erfahrung der Nutzer mit diesem Medium zurückgeführt (Weinig, 1996).

4.

Forschungsdefizite

Als Fazit lässt sich konstatieren, dass Formen der elektronisch gestützten Individualkommunikation erst in Ansätzen erforscht sind. Allgemeine Aussagen zum Einfluss des Mediums auf Prozesse der Spracherzeugung und verarbeitung scheinen angesichts der schnellen technischen Entwicklung sowie der Heterogenität der untersuchten technischen Applikationen und kommunikativen Aufgaben schwierig. Defizite in der Erforschung emailbasierter Kommunikationsformen betreffen Kohärenzbildungsprozesse, Kontextualisierungsstrategien und -probleme sowie den

852

VII. Medien

Einsatz von Metakommunikation, etwa zur Sicherung des Verständnisses oder der Themenorganisation bei längeren Emailsequenzen, Chat und Computerkonferenzen. Weitgehend ungeklärt ist der Einfluss der Bildschirmrepräsentation auf Prozesse der Produktion und Verarbeitung von Email. Ähnliches gilt für die räumliche und zeitliche Situierung der Kommunikationspartner (z. B. Arbeitsplatz vs. Internetcafe, räumlich bedingt zeitversetzte Kommunikation), die Rolle des soziokulturellen Umfeldes (geteilte Wissensbestände, Werte und Normen) oder die Markierung des gemeinsamen common ground (Clark & Brennan, 1991). Bezogen auf Videokonferenzen, ist der Einfluss situativer Parameter (verwendetes System, Raumgestaltung, Bildschirmgröße), kommunikativer Größen (Kommunikationsaufgabe und -ziel) sowie personengebundener Größen (subjektive Erfahrung im Umgang mit dem Medium) auf das Miteinandersprechen und die Gesprächsorganisation zu klären. Damit sind nur einige wenige offene Fragen angesprochen. Die neuen Medien bieten ein reiches Forschungsfeld für Disziplinen, die sich mit Sprache befassen. In diesem Sinne ist dem Plädoyer von Herrmann (1998) nur zuzustimmen, aus sprachpsychologischer Sicht mehr Forschungsarbeit in den Gegenstand zu investieren.

5.

Literatur

Abel, M. J. (1990). Experiences in an exploratory distributed organization. In J. Galegher, R. E. Kraut & C. Egido (Eds.), Intellectual teamwork: Social and technological foundations of cooperative work (pp. 489⫺511). Hillsdale, N.J.: Lawrence Erlbaum. Abowd, G., Beale, R., Dix, A. & Finlay, J. (1995). Mensch Maschine Methodik. München: Prentice Hall. Antoni, C. (1990). Video-Konferenzen. Einstellungen und Erfahrungen von Mitarbeitern im Umgang mit einer neuen Kommunikationstechnik. Zeitschrift für Arbeits- und Organisationspsychologie, 34, 125⫺134. Bergmann, J. R. & Meier, Chr. (1998). Darstellung eines Forschungsprojektes. Arbeitspapiere zu „Telekooperation – Struktur, Dynamik und Konsequenzen elektronisch vermittelter kooperativer Arbeit in Organisationen“, 1, Institut für Soziologie, Giessen: Universität Giessen.

Bronner, R. (1996). Entscheidungs-Prozesse in Video-Konferenzen. Eine empirische Untersuchung der Leistungsfähigkeit moderner Kommunikationstechnik zur Bewältigung komplexer Management-Aufgaben. Frankfurt/M.: Lang. Chafe, W. (1985). Linguistic differences produced between speaking and writing. In. D. Olsen, N. Torrance & A. Hildyard (Eds.), Literacy, language and learning: The nature and consequences of reading and writing (pp. 105⫺123). New York: Cambridge University Press. Clark, H. H. & Brennan, S. E. (1991). Grounding in communication. In L. B. Resnick, J. D. Levine & S. D. Teasley (Eds.), Perspectives on shared cognition (pp. 127⫺149). Washington D.C.: American Psychological Association. Clases, Chr. (1994). Kommunikation in computervermittelten Tätigkeitszusammenhängen. Bilanzierung der Ergebnisse einer qualitativen Studie zur Nutzung und Bewertung elektronischer Postsysteme (‘E-mail’). Harburg: TUUH (Harburger Beiträge zur Psychologie und Soziologie der Arbeit; 8). Culnan, M. J. & Markus, L. (1987). Information technologies. In F. Jablin, L. Putnam, K. Roberts & L. Proter (Eds.), Handbook of Organizational Communications (pp. 420⫺433). Beverly Hills: Sage. Färber, B. (1993). Videokonferenzen; Einsatzbereiche und Grenzen. Office Management, 41, 45⫺47. Feenberg, A. (1996). The written world: On the theory and practise of computer conferencing. Available: http://acacia.open.ac.uk/Mindweave/Chap2. html (22.10.1996). Fish, R. S., Kraut, R. E. & Chalfonte, B. L. (1990): The video window system in informal communications. Proceedings of the Conference on Computer Supported Cooperative Work (pp. 1⫺11). Los Angelos, California. Gilbert, N., Jirotka, M. & Luff, P. (1991). Participation framework for computer mediated communication. In L. Bannon, M. Robinson & K. Schmidt (Eds.), Proceedings of the Second Conference on Computer Supported Cooperative Work (25.⫺27. Sept. 1991) (pp. 279⫺291). Amsterdam. Gowan, J. A. & Downs, J. M. (1994). Video conferencing human-machine interface: A field-study. Information & Management, 27, 341⫺356. Günther, U. & Wyss, E. L. (1996). E-mail-Briefe – eine neue Textsorte zwischen Mündlichkeit und Schriftlichkeit. In E.W. B. Hess-Lüttich, W. Holly & U. Püschel (Hrsg.), Textstrukturen im Medienwandel (pp. 61⫺86), Frankfurt/M. u. a.: Lang. Handler, P. (1996). Zwischen „Flames“ und „Netiquette“. Elektronische Kommunikation als

62. Medien der Individualkommunikation: Email und Telekonferenz Sprachbiotop vs. Textmülldeponie. In A. Fill (Hrsg.), Sprachökologie und Ökolinguistik (pp. 245⫺264). Tübingen: Stauffenburg. Heath, Chr. & Luff, P. (1993). Collaborative activity and technological design: Task coordination in London Underground control rooms. In L. Bannon, M. Robinson & K. Schmidt (Eds.), Proceedings of the Second European Conference on computer-supported cooperative work (pp. 65⫺80). Amsterdam: Dordrecht. Herrmann, Th. (1998). Medienentwicklung – verliert die Sprachpsychologie ihr Objekt? Medienpsychologie, 4, 268⫺275. Jakobs, E.-M. (1998). Mediale Wechsel und Sprache. Entwicklungsstadien elektronischer Schreibwerkzeuge und ihr Einfluß auf Kommunikationsformen. In W. Holly & B. U. Biere (Hrsg.), Medien im Wandel (pp. 187⫺209). Wiesbaden: Westdeutscher Verlag. Janich, N. (1994). Electronic Mail. Eine betriebsinterne Kommunikationsform. Muttersprache, 3, 248⫺259. Koch, P. & Oesterreicher, W. (1985). Sprache der Nähe – Sprache der Distanz. Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte. Romanistisches Jahrbuch, 36, 15⫺43. Köhler, S. (1993). Video-Konferenz. Bad Honnef: WIK Diskussionsbeitrag Nr. 105. Kydd, Chr. T. & Ferry, D.L. (1994). Managerial use of video conferencing. Information & Management, 27, 369⫺375. Lopez-Montez, G. M. (1992). Is interaction the message? The effect of democratizing and non-democratizing interaction in video-conferencing small groups on social presence and quality of outcome. In U. E. Gattiker (Ed.), Technology-mediated communication (pp. 187⫺223). Berlin, New York: de Gruyter. McCarthy, J. C., Miles, V. C., Monk, A. F., Harrison, M. D., Dix, A. J. & Wright, P. C. (1990). Using a minimal system to drive the conceptual analysis of electronic conferencing. University of York [Technical Report] McCarthy, J. C., Wright, P. C. & Monk, A. F. (1992). Coherence in text-based electronic conferencing: Coupling text and context. Journal of Language and Social Psychology, 11, 267⫺277. Meier, Chr. (1998). Potentielle und aktuelle Präsenz: von der Interaktionseröffnung zum offiziellen Beginn in Videokonferenzen. Arbeitspapiere zu „Telekooperation – Struktur, Dynamik und Konsequenzen elektronisch vermittelter kooperativer Arbeit in

853

Organisationen“, 5, Institut für Soziologie, Universität Giessen. Newlands, A., Anderson, A. H. & Mullin, J. (1996). Dialogue structure and cooperative task performance in two CSCW environments. In J. H. Conolly & L. Pemberton (Eds.), Linguistic Concepts and Methods in CSCW (pp. 41⫺60). London: Springer. Rickheit, G. & Strohner, H. (1999). Textverarbeitung: Von der Proposition zur Situation. In A. D. Friederici (Hrsg.), Enzyklopädie der Psychologie: Sprachrezeption (pp. 271⫺306). Göttingen: Hogrefe. Rintel, E. S. & Pittam, J. (1997). Strangers in a strange land. Interaction management on internet relay chat. Human Communication Research, 23, 507⫺534. Rosenbaum, O. (1996). Chat-Slang. Lexikon der Internet-Sprache. München, Wien: Carl Hauser Verlag. Rosetti, D. K. & Surynt, T. J. (1985). Video teleconferencing and performance. Journal of Bussiness Communication, 22, 25⫺31. Runkehl, J., Schlobinski, P. & Siever, T. (1998). Sprache und Kommunikation im Internet. Muttersprache, 2, 97⫺109. Sanderson, D. (1995). Smileys. Bonn: O’Reilly. Sassen, C. (2000). Phatische Variabilität bei der Initiierung von Internet-Relay-Chat-Dialogen. In C. Thimm (Hrsg.), Soziales im Netz (89⫺108). Opladen, Wiesbaden: Westdeutscher Verlag. Sellen, A. J. (1992). Speech patterns in video-mediated conversations. In P. Bauersfeld, J. Bennet & G. Lynch (Eds.), ACM Conference on Human Factors in Computing Systems (pp. 49⫺59). New York: Association for Computing Machinery. Short, J., Williams, E. & Christie, B. (1976). The social psychology of telecommunications. New York: Wiley. Smith, R., O’Shea, T., O’Malley, C., Scanelon, E. & Taylor, J. (1989). Preliminary experiments with a distributed, muliti-media, problem solving environment. EC-CSCW ’89 (pp. 19⫺34). London Spitzer, M. (1986). Writing style in computer conferences. IEEE Transactions on Professional Communications. Vol. PC 29, No. 1, March 1986. Sproull, L. & Kiesler, S. (1986). Reducing social contest cues: Electronic mail in organizational communication. Management Science, 32, 1492⫺ 1512. Storrer, A. & Waldenberger, S. (1999). Zwischen Grice und Knigge. Die Netiketten im Internet. In

854

VII. Medien

H. Strohner, L. Sichelschmidt & M. Hielscher (Hrsg.), Medium Sprache (pp. 63⫺77). Frankfurt/ M.: Lang.

Winograd, T. & Flores, F. (1986). Understanding computers and cognition. A new foundation for design. Norwood: Ablex.

Weinig, K. (1996). Wie Technik Kommunikation verändert. Das Beispiel Videokonferenz. Münster: LIT.

Ziefle, M. (1998). Visuelle Faktoren bei der Informationsentnahme am Computer. Habilitationsschrift. Institut für Psychologie, RWTH Aachen.

Wilkins, H. (1991). Computer talk. Long-distance conversations by computer. Written Conversation, Vol. (8) No. 1, 56⫺78.

Eva-Maria Jakobs RWTH Aachen (Deutschland)

63. Massenmedien: Rundfunk und Fernsehen 1. 2.

7. 8.

Entwicklung des Rundfunks Programmangebot in Hörfunk und Fernsehen Nutzung von Hörfunk und Fernsehen Forschungsgebiete zu Hörfunk und Fernsehen Psycholinguistische Untersuchungen zu Hörfunk und Fernsehen Psycholinguistische Aspekte von Fernsehnachrichten Ausblick Literatur

1.

Entwicklung des Rundfunks

3. 4. 5. 6.

Im Staatsvertrag der Bundesländer zur Erhebung von Rundfunkgebühren von 1974 wird mit „Rundfunk“ die „für die Allgemeinheit bestimmte Veranstaltung und Verbreitung von Darbietungen aller Art in Wort, in Ton und im Bild unter Benutzung elektrischer Schwingungen ohne Verbindungsleitungen oder längs oder mittels eines Leiters“ bezeichnet (Noelle-Neumann, Schulz & Wilke, 1989: 330). Der Begriff „Rundfunk“ – als Oberbegriff von „Hörfunk“ und „Fernsehen“, der allgemeinsprachlich allerdings häufig nur mit „Hörfunk“ gleichgesetzt wird – bezieht sich dabei sowohl auf die technischen Grundlagen der Verbreitung (anfänglich mittels Schwingungsanregung des Äthers durch elektrische Funken) als auch auf die nicht-zielgerichtete Ausstrahlung von Signalen an viele Empfänger gleichzeitig (Noelle-Neumann et al., 1989). (Zusätzlich ist mit dieser Definition auch der Rahmen der politischen Regelungskompetenz (z. B. die Aufsicht über die Kabelprogramme) festgelegt.) 1876 wurde das von Graham Bell erfundene Telefon – Wandlung des Schalls in elektrische Schwingungen im Mikrofon,

Wandlung der elektrischen Schwingungen in Schall mittels eines Lautsprechers – auf der Weltausstellung in Philadelphia der Öffentlichkeit vorgestellt, 1878 erhielt Thomas A. Edison das Patent für den Phonographen. 1888 entdeckte der deutsche Physiker Heinrich Hertz die elektromagnetischen Wellen, mit deren Hilfe der Italiener Guglielmo Marconi 1897 Morsezeichen über eine Entfernung von drei Meilen übertragen konnte. 1906 wurde das Radio erfunden. Überraschenderweise diente vor der breiten Einführung der Hörfunkempfänger das Telefon nicht so sehr der Individualkommunikation, sondern es dominierte das „Rundfunkkonzept des Telefons“. Schon 1893 war in Budapest der „Telefon-Bote“ eingeführt worden, der seine Abonnenten als „Radio-Zeitung“ mit Nachrichten, Börseninformationen und Musik versorgte (Höflich, 1996: 205). 1924 wurde das bayerische „Operntelefon“ vorgestellt und später einem breiten Publikum übergeben, im August 1930 jedoch wegen der zunehmenden Dominanz des Hörfunks mit seinen besseren Übertragungsmöglichkeiten eingestellt. Erst danach hat sich das Telefon vom Massenkommunikationsmittel zum Medium für die Individualkommunikation entwickelt. 1889 tastete der Russe Paul Nipkow Bilder punktweise mit Hilfe einer rotierenden Scheibe ab, 1895 führten die Brüder Lumie`re erstmals in Paris mit Hilfe einer Kamera und eines funktionstüchtigen Projektors einen kurzen Film vor, und 1897 gelang Ferdinand Braun die elektrische Bildabtastung mit der Kathodenstrahlröhre. 1926 demonstrierten Baird und Jenkins das Fernsehen mit Hilfe der Nipkow-Scheibe. 1936 wurde in BerlinWitzleben die erste Versuchsanlage für Fern-

855

63. Massenmedien: Rundfunk und Fernsehen

sehen in Betrieb genommen, 1939 eröffnete Theodore Roosevelt auf der Weltausstellung in New York das öffentliche Fernsehen in den USA. Am 01. 11. 1954 begannen die Allgemeinen Rundfunkanstalten Deutschlands (ARD) mit der schwarz-weißen Fernsehausstrahlung, am 01. 04. 1962 startete das Zweite Deutsche Fernsehens (ZDF) seinen Sendebetrieb mit dem „Vorspiel“ aus Goethes „Faust“. 1967 wurde von Willy Brandt auf der Funkausstellung in Berlin das Farbfernsehen in Deutschland in Gang gesetzt. Mit dem Start des Kabelprojektes in Ludwigshafen am 01. 01. 1984 wurde das duale Rundfunksystem in der BRD vorbereitet und mit dem Landesmediengesetz von 1986 rechtlich umgesetzt. Am 01. 01. 1985 ging SAT.1 auf Sendung, im August 1985 kam mit RTLplus ein weiterer privater Anbieter mit einem Vollprogramm hinzu. Versuche, im Sommer 1996 mit Hilfe der digitalen Übertragungstechnik das Vielkanalfernsehen auf breiter Basis einzuführen, scheiterten, da nur etwa 330 000 zahlende Fernsehhaushalte für dieses Programm gewonnen werden konnten (Die ZEIT vom 26. 08. 1999). Neben der Konkurrenz durch die zahlreichen in Deutschland kostenfrei zu empfangenden Fernsehkanäle werden auch Abstimmungsschwierigkeiten bei der Etablierung eines einheitlichen Übertragungsstandards („set top box“) für das Scheitern verantwortlich gemacht.

bei PRO SIEBEN sogar 57,8 % (9,3 % für Information) –, ist bei den öffentlich-rechtlichen Sendern eher ein ausgewogenes Verhältnis von Information und Unterhaltung zu beobachten: die ARD wenden 43,3 % ihrer Sendezeit, das ZDF 44,9 % für Information und Bildung auf (Quelle: Media Perspektiven Basisdaten, 1998). Die bei den Privatsendern beobachtbare Tendenz zur Unterhaltung ist nicht nur im Unterhaltungsangebot selbst, sondern auch an den Inhalten und den Darbietungsformaten von Informationssendungen festzustellen. So werden Meldungen in Nachrichtensendungen in stärkerem Maße als bei öffentlich-rechtlichen Sendern in einem unterhaltsamen Format dargeboten, es wird eher über alltägliche Probleme im persönlichen Umfeld („human interest“) berichtet, und die Trennung von Bericht und Kommentar löst sich auf (vgl. Früh, Kuhlmann & Wirth, 1996; Hugger & Wegener, 1995; Krüger, 1995, 1996). Zwar ist seit der Einführung des Privatfernsehens hinsichtlich Inhalt und Darbietungsformat eine Konvergenz im Nachrichtenangebot öffentlich-rechtlicher und privater Sender zu beobachten, es ist jedoch umstritten, ob sich ARD und ZDF dem Darbietungsformat der Privaten annähern oder ob sich beide Systeme zu einer Mittelposition hin entwickeln (vgl. Bruns & Marcinkowski, 1996).

3. 2.

Programmangebot in Hörfunk und Fernsehen

Wie beschrieben, herrscht in der BRD ein duales Rundfunksystem; auf der einen Seite finden sich die dem Programmauftrag verpflichteten und überwiegend durch Gebühren finanzierten öffentlich-rechtlichen Sender, auf der anderen Seite die der Aufsicht durch die Landesmedienanstalten unterstellten und fast ausschließlich durch Werbeeinnahmen finanzierten privaten Sender. Aufgrund dieser unterschiedlichen Voraussetzungen sind auch Unterschiede in der Struktur des Programmangebotes von öffentlich-rechtlichen und privaten Sendeanstalten erkennbar. Während bei den Privatsendern Unterhaltung dem Umfang nach vor Informations- und Bildungssendungen liegt – 1997 waren bei RTL 52,4 % der Sendedauer für fiktionale und non-fiktionale Unterhaltung vorgesehen (im Vergleich zu 16,7 % für Information), bei SAT.1 58,1 % (16,1 % für Information) und

Nutzung von Hörfunk und Fernsehen

Dem umfangreichen Angebot in Hörfunk und Fernsehen steht eine über die Jahre angestiegene und einen beträchtlichen Teil des Alltags umfassende Nutzungsdauer entgegen. So wurden im Jahr 1998 audiovisuelle Medien im Zeitraum zwischen 5.00 und 24.00 Uhr durchschnittlich für eine Zeitdauer von 366 Minuten, also mehr als sechs Stunden lang genutzt. Diese Zeitdauer ist bei Männern und Frauen nur geringfügig unterschiedlich ausgeprägt – 356 vs. 376 Minuten – , und sie nimmt mit dem Alter zu. (Sie liegt bei den 60 bis 69jährigen bei immerhin 400 Minuten am Tag.) Von der Nutzungsdauer für audiovisuelle Medien entfallen auf den Hörfunk 172 und auf das Fernsehen 173 Minuten. Erwartungsgemäß rangieren Fernsehen und Radio bei den Freizeitbeschäftigungen an erster Stelle: 94,1 % der Befragten gaben an, dass sie mehrmals in der Woche fernsehen, 83,5 % berichteten, dass sie Radio hö-

856

VII. Medien

ren. Zum Vergleich: 80,5 % der Befragten lesen mehrmals in der Woche Zeitung, 45,3 % Zeitschriften und Illustrierte und 21,3 % Bücher. 14,2 % der Personen treiben Sport, 25,4 % gehen Spazieren, 8,4 % basteln oder heimwerken, und nur jeweils 0,3 % besuchen das Kino oder das Theater bzw. Konzert (Quelle: Media Perspektiven Basisdaten, 1998). Vor dem Hintergrund dieser intensiven Beschäftigung mit den Medien ist zu erwarten, dass diese einen beträchtlichen Einfluss auf Kognition, Emotion und Verhalten ihrer Nutzer ausüben. Das ist der Grund, warum sich die Medienwirkungsforschung in den vergangenen Jahren intensiv mit den nachfolgend skizzierten Forschungsfeldern befasst hat.

4.

Forschungsgebiete zu Hörfunk und Fernsehen

Als Massenmedien dienen Hörfunk und Fernsehen der Verteilung von Medienbotschaften (⫽ Informations- und Unterhaltungsreizen) an eine große Zahl von Mediennutzern ohne die Möglichkeit zur unmittelbaren Rückmeldung. Die Besonderheit der dominierenden Einwegkommunikation legt es nahe, Forschungsarbeiten zu den Massenmedien, dem Kommunikationsmodell von Shannon und Weaver (1949) folgend, in eine produzentenorientierte, eine botschaftsorientierte und eine rezipientenorientierte Forschung zu unterteilen (Winterhoff-Spurk, 1989). Bei der produzentenorientierten Forschung steht die Analyse des Prozesses der Entstehung von Medienbotschaften (z. B. die Kriterien der Auswahl und Anordnung von Meldungen in den Nachrichtensendungen ⫽ Nachrichtenwert-Faktoren) im Vordergrund, bei der botschaftsorientierten Forschung wird die Beschaffenheit von Medienbotschaften analysiert (z. B. des Umfangs und der Art von Gewalt in Fernsehnachrichten; vgl. Mangold, im Druck). Bei der rezipientenorientierten Forschung stehen die Auswirkungen der Massenmedien auf ihre Nutzer im Mittelpunkt. Während im Kontext einer behavioristisch orientierten Medienwirkungsforschung die Einflüsse des Mediums im Vordergrund standen, zeigten etwa die Arbeiten aus der Gruppe um Paul Lazarsfeld (vgl. Lazarsfeld, Berelson & Gaudet, 1944), dass das Publikum die rezipierten Programme im Einklang mit seinen Bedürfnissen (aktiv) auswählt.

Diese Arbeiten zur defensiven Selektivität waren der Ausgangspunkt für den Nutzen- und Belohnungsansatz (zum Überblick vgl. etwa Palmgren, 1984); nach diesem entscheidet sich ein Mediennutzer für solche Kanäle und Programmangebote, von denen er den intendierten Nutzen bzw. die gesuchten Gratifikationen erwarten kann. Er wird um- bzw. abschalten, sobald die im Verlauf der Rezeption erhaltenen Gratifikationen von den gesuchten zu stark abweichen (vgl. auch das Erwartungs-Wert-Modell von Palmgren, 1984). Auch die von Medienbotschaften ausgehenden Wirkungen werden als von den Nutzungsmotiven der Rezipienten vermittelt und modifiziert angesehen (zum Nutzen-Wirkungs-Ansatz vgl. Rubin, 1994; Mangold, 1998). Medienwirkungen können entweder nach ihrer Wirkungsdauer oder nach den betroffenen psychischen Funktionsbereichen unterschieden werden. So lassen sich Begleiterscheinungen der Medienrezeption (z. B. physiologische Zustandsveränderungen oder mimisch-emotionale Reaktionen im Gesichtsausdruck), kurzfristige Nachwirkungen (z. B. emotionale Zustände nach einem Film) oder langfristige (durch intensiven und häufigen Medienkonsum zustande gekommene) Veränderungen voneinander trennen, und es können kognitive, emotionale und verhaltensbezogene (konative) Medienwirkungen beobachtet werden (vgl. Winterhoff-Spurk, 1999). Nach der inhaltlichen Unterteilung lassen sich die nachfolgend beschriebenen theoretischen Ansätze voneinander abgrenzen: (i) Nach der Agenda-Setting-Hypothese (McCombs & Shaw, 1973) nimmt mit der Zahl der zu einem Thema in den Medien veröffentlichten Beiträge die Wichtigkeit dieses Themas für die Mediennutzer sowie die Zahl der Rezipienten, die dieses Thema für bedeutsam halten, zu (vgl. zur Übersicht Brosius, 1994). Tichenor, Donohue und Olien (1970) formulierten die Hypothese, dass der Medieneinsatz nicht – wie ursprünglich intendiert – das Bildungs- und Informationsdefizit unterprivilegierter Bevölkerungsgruppen verringert, sondern vielmehr die Wissenskluft (engl.: knowledge gap) vergrößert, da bei höheren Sozialschichten der Wissenserwerb aus Medien schneller und effizienter vonstatten geht als bei unteren sozialen Gruppen. (Allerdings sind solche Wissenskluft-Effekte eher bei nationalen als bei lokalen Themen und eher bei Printmedien als beim Fernsehen zu beobach-

857

63. Massenmedien: Rundfunk und Fernsehen

ten.) Die von Gerbner (vgl. Gerbner, Gross, Morgan & Signorielli, 1986) formulierte Kultivierungs-Hypothese basiert auf der Annahme, dass sich bei intensiver Mediennutzung aufgrund verzerrter medialer Realitätsdarstellungen die Einstellungen der Nutzer zur gesellschaftlichen Wirklichkeit verändern. Befunde zu den Auswirkungen medialer Gewaltdarstellungen auf soziale Urteile und Angst werden von Gerbner (1981) berichtet; in weiteren Arbeiten wurden Kultivierungseffekte auf Geschlechterrollen, Altersstereotypen, Raum, Zeit- und Personenschemata (vgl. Winterhoff-Spurk, 1989) sowie kognitive Fertigkeiten (Salomon, 1976) postuliert und gefunden. (ii) Bis auf wenige Ausnahmen (Naturfilme und Lehrsendungen) wird für alle Fernsehsendungen vermutet, dass sie eine mehr oder weniger starke erregende Wirkung auf die Rezipienten ausüben (Zillmann, 1991). So können gewalthaltige Filme und insbesondere Horrorfilme bei den Zuschauern das Empfinden von Angst hervorrufen (vgl. Tamborini, 1991), was durch die Generalisierung real bedrohender Reize auf medial vermittelte Reize erklärt wird. Weitere untersuchte emotionale Wirkungen betreffen das Spannungserleben (engl.: suspense; vgl. Vorderer, 1994) und die Unterhaltung (Zillmann & Bryant, 1994). Die von Gewaltdarstellungen, aber auch von Sport oder Erotik ausgelöste Erregung beim Zuschauer wirkt der Erregungs-Transfer-Hypothese zufolge im Anschluss an die Filmrezeption unspezifisch nach (Zillmann, 1971) und kann zu einem späteren Zeitpunkt aggressive Handlungen des Zuschauers verstärken, ohne dass diesem ein Zusammenhang mit dem gesehenen Film bewusst ist. Die Vorstellung vom aktiven Zuschauer findet sich im Ansatz des Stimmungsmanagements wieder (Zillmann, 1988); hier wird davon ausgegangen, dass der Zuschauer sein Programm vor dem Hintergrund seines vorherrschenden und mit Blick auf den erwünschten Gefühlszustand auswählt. (iii) In der Medienforschung werden mit der Rezeption von Medienangeboten insbesondere folgende Verhaltensweisen in Verbindung gebracht: das prosoziale Verhalten, das aggressive Verhalten und das Kaufverhalten als Effekt der Werbung. Zur Überprüfung der zum Zusammenhang von Mediengewalt und Aggressivität vorgelegten Hypothesen (z. B. Katharsis-These, These des sozialen Lernens, Stimulations-These, Habituations-

These; vgl. Kunczik, 1993; Merten, 1999) liegen nach Schätzungen heute zwischen zweiund fünftausend empirische Studien vor (vgl. Friedrichsen & Jenzowsky, 1995); in der Übersicht deuten die Befunde auf aggressionsfördernde Wirkungen von Mediengewalt hin, die allerdings von der Ausprägung weiterer Faktoren (unsichere Persönlichkeit, latente Gewaltbereitschaft, unstabile soziale Verhältnisse) abhängen.

5.

Psycholinguistische Untersuchungen zu Hörfunk und Fernsehen

Die Massenmedien Hörfunk und Fernsehen gehören zu den Sprachmedien (WinterhoffSpurk, 1999: 18). Während im Hörfunk neben den (unterhaltenden) Musikbeiträgen (mit oder ohne Gesang) insbesondere die Informationsbeiträge (Nachrichten, Journale und Magazine, Berichterstattung) auf der Übertragung von Sprache aufbauen, kommt als Besonderheit im Fernsehen hinzu, dass die Sprecher/innen (und damit ihre Mimik und Gestik) sichtbar sind und dass (zumeist akustische) Sprachinformationen häufig durch Bildinformationen ergänzt werden (z. B. bei Filmberichten). Um so überraschender ist, dass in der gegenwärtigen medienwissenschaftlichen Forschung die Auseinandersetzung mit psycholinguistischen und sprachpsychologischen Fragestellungen nur eine nachgeordnete Rolle spielt (vgl. Herrmann, 1998). Im Folgenden wird mit der Darbietung und Verarbeitung von Hörfunk- und Fernsehnachrichten ein Bereich ausführlicher dargestellt, in dem vor etwa fünfzehn Jahren sprachliche Aspekte von Medienbotschaften intensiv erforscht wurden. Nach einer Betrachtung der sprachlichen Besonderheiten von Nachrichten folgt die Analyse des Zusammenspiels von Wort und Bild, von dem sich wiederum eine Linie zu aktuellen Untersuchungen zur Verarbeitung multimedialer Medienbotschaften zieht. (Dem gegenwärtig eher nachlässigen Gebrauch von „Multimedia“ zufolge wäre bereits das (multicodale) Fernsehen multimedial; vgl. Weidenmann, 1995.) Ein Blick auf das Internet bildet den Abschluss, das hier nicht als Medium zur Individualinformation und -kommunikation (vgl. den Beitrag von Jakobs in diesem Band, Kap. 62), sondern als computerbasiertes Massenkommunikationsmittel betrachtet wird.

858

6.

VII. Medien

Psycholinguistische Aspekte von Fernsehnachrichten

Für die öffentlich-rechtlichen Sendeanstalten regeln die Rundfunkgesetze den Auftrag zur Ausgewogenheit und Pluralität (Sicherung der Meinungsvielfalt), den kulturellen Auftrag sowie den Auftrag zur (Weiter-) Bildung der Bürger beizutragen. ARD und ZDF sind gehalten, in einem Vollprogramm neben Unterhaltung auch der Information und der Bildung dienende Programme sowie Beiträge zur Kultur, Kunst und Beratung zu bieten (Noelle-Neumann et al., 1989). (Bei den privaten Sendern ist die Meinungsvielfalt im Rundfunkstaatsvertrag in anderer Weise geregelt; einen Bildungsauftrag gibt es hier nicht.) In Übereinstimmung mit der bereits erwähnten stärkeren Informationsorientierung der öffentlich-rechtlichen Sender nahmen die Nachrichten als zentrale Informationssendungen bei den ARD im Jahr 1977 9,2 %, beim ZDF 7,6 %, bei RTL 6,9 %, bei SAT.1 dagegen nur 2,4 % und bei PRO SIEBEN nur 1,6 % der Sendezeit ein (Quelle: Media Perspektiven Basisdaten, 1998). Die bei der Darstellung der Forschungsgebiete erwähnte Wissenskluft-Hypothese beruht auf der Annahme, dass aufgrund individuell unterschiedlicher Verarbeitungskompetenzen der Informationswirkung von Hörfunk und Fernsehen Grenzen gesetzt sind. Beobachtungen zeigen in Übereinstimmung damit, dass etwa die Hälfte der Zuschauer die zentralen Teile der Meldungen in Fernsehnachrichten nicht verstehen und dass sich die Nachrichtenseher in Nachbefragungen nur an etwa ein Viertel der dargebotenen Informationen erinnern (Brosius, 1995). Dass sich Nachrichtenseher dennoch zumeist für gut informiert halten, ist eine Auswirkung der von Noelle-Neumann (1986) beschriebenen „Wissensillusion“ (vgl. auch WinterhoffSpurk, 1999: 88). Zur Erklärung des mangelnden Verstehens und Behaltens lassen sich Ansätze heranziehen, wonach Zuschauer die Nachrichteninhalte wegen ihrer Realitätsnähe nur oberflächlich verarbeiten und so keine tiefen Spuren im Gedächtnis entstehen können (Salomon, 1983, 1984; Weidenmann, 1989). Als weitere Ursache für die mäßigen Behaltenseffekte wird der komplexe sprachliche Darbietungsstil der Nachrichtenmeldungen gesehen (vgl. Straßner, 1982; Cohen, 1998). Die Sprache in den Nachrichten weist im Unterschied zur Umgangssprache eine Reihe

von Besonderheiten auf, die sie auf eine Ebene zu Fachsprachen stellen: (i) Es besteht eine Tendenz zur Verkürzung der Sätze. (ii) Es herrscht ein Nominalstil vor, bei dem Nomen dreimal häufiger auftreten als Verben. Zwar ist der Nominalstil auch für die Wissenschaftssprache charakteristisch, und ein Trend zur Nominalisierung kann sogar in der Umgangssprache beobachtet werden, jedoch ist die Tendenz zum Nominalstil in den Nachrichten am deutlichsten ausgeprägt. (iii) Der Zwang zur Neutralität zwingt Nachrichtentexter zur häufigen Verwendung von Konjunktiv-Formen. (iv) Auf den ersten Blick scheinen Nachrichten zwar eine einfache Oberflächenstruktur aufzuweisen, jedoch verbirgt sich dahinter eine bisweilen äußerst komplizierte Tiefenstruktur. (v) Häufig werden Passivformen und Impersonalia verwendet. (vi) Im Text findet sich ein hoher Anteil an drei- und mehrgliedrigen Substantiv-Gefügen (wie z. B. „Datenschutzbeauftragte“). (vii) Sätze stehen häufig unverbunden nebeneinander; Verbindungen und Übergänge fehlen. Zudem weisen die Meldungen eine komplizierte Referenzstruktur auf, bei dem der Bezug der Pronomen zu ihren Referenten nur schwer erkennbar ist. (viii) Häufig finden Fachausdrücke Verwendung. Die Verständlichkeitsforschung zeigt, dass viele der hier beschriebenen Eigenschaften der Nachrichtensprache einem tiefen Verstehen und soliden Behalten abträglich sind (vgl. Ballstaedt, Mandl, Schnotz & Tergan, 1981). In einer Studie variierte Straßner (1982) die syntaktische Komplexität der Meldungen. Inhalte mit einem hohem Komplexitätsgrad wurden schlechter reproduziert. In einer empirischen Studie zur syntaktischen und semantischen Gestaltung von Nachrichten prüften Eberspächter und Esche (1978) drei Hypothesen: (i) Ein einfacher Sprachstil ist für das Verstehen und Behalten von Nachrichten günstiger. Diese Hypothese wurde insbesondere für solche Meldungen bestätigt, bei denen komplexe syntaktische Konstruktionen mit einem eher abstrakten und erfahrungsfernen Inhalt zusammentrafen. (ii) Texte mit semantisch expliziten Relationen werden leichter verarbeitet als Texte mit semantisch impliziten Relationen. Diese Hypothese konnte bestätigt werden; fehlende Verbindungen zwischen den Sätzen regten dabei in besonderer Weise eine „kreative“ Interpretation des Textes durch die Zuschauer an. (iii) Dem Thema einer Meldung kann im Hinblick auf die Störfaktoren „syntaktische

63. Massenmedien: Rundfunk und Fernsehen

Komplexität“ und „semantische Implizitheit“ ein ausgleichender Effekt zukommen, da erfahrungsnahe Themen unter den störenden Einflüssen weniger leiden als erfahrungsferne. Allerdings scheint es zunächst nicht unproblematisch zu sein, allein die syntaktischen und semantischen Besonderheiten für die geringen Behaltensleistungen für Nachrichteninhalte verantwortlich zu machen, da die Nachrichtensprache der Umgangssprache gegenüber linguistisch komplexer ist und keinen narrativen Stil aufweist. Dem „Pyramidenstil“ zufolge beginnen Nachrichtenmeldungen mit einer einleitenden Schlagzeile oder einem „Lead-Satz“, gefolgt von der Quellenangabe und weiteren Informationen in abnehmender Wichtigkeit. Housel (1984) zeigt hierzu in einem Rezeptionsexperiment, dass sich das Verstehen durch die Wendung zu einem narrativen Stil nicht verbessern lässt, wohl aber durch die Beachtung von Hinweisen zur Reduktion der linguistischen Komplexität. Motamedi (1990) prüft im Rahmen der Analyse einer Nachrichtensendung für Kinder – der Sendung „Logo“ des ZDF ⫺, ob eine Berücksichtigung der allgemein genannten verständnisförderlichen Gestaltungsregeln auch bei Kindern das Verstehen und Behalten verbessern kann. Die Studie zeigt, dass im Wesentlichen drei Merkmale einen Einfluss auf das kindliche Verstehen haben: das Vorwissen (Weltwissen) der Kinder, ihr Interesse (ihre Neugier) und die Redundanz im Text. Tatsächlich kann bei Berücksichtigung dieser Faktoren die Behaltensleistung von 9bis 13-jährigen Schülern auf etwa 80 % der gezeigten Inhalte gesteigert werden. Zur Frage der Wirkung von Redundanz im Nachrichtentext liegt eine Reihe von Arbeiten vor (vgl. im Überblick Straßner, 1982). Findahl und Höijer (1975a, b) finden für alle Formen von Redundanz Verbesserungseffekte, und Bernhard und Coldevin (1985) zeigen, dass sowohl Untertitel als auch Zusammenfassungen die Behaltensleistung steigern (vgl. auch Perloff, Wartella & Becker, 1982; Son, Reese & Davie, 1987). Nicht nur die Redundanz, sondern auch die Anordnung der Informationen innerhalb der Meldungen beeinflusst die Informationsaufnahme: wenn die Reihenfolge der gesendeten Informationen entsprechend der Struktur von Geschichtengrammatiken gestaltet wird, lässt sich die Rezeption signifikant verbessern (Berry & Clifford, 1986). Die hier genannte Studie wurde

859 mit Radiohörern als Versuchspersonen durchgeführt; eine ausführliche Übersicht zum Einfluss sprachlicher Faktoren auf die Behaltensleistungen für Hörfunknachrichten wie journalistische Präsentationsformen, Wort- und Satzfaktoren, Text-Faktoren und prosodische Gestaltung gibt Kindel (1998). Auf die Tendenz der privaten Sender zu einem „Infotainment“-Stil, bei dem Informationen in möglichst unterhaltender Weise vermittelt werden, wurde bereits hingewiesen. Es ist zu vermuten, dass sich ein solcher Stil in seinen sprachlichen Eigenschaften von dem traditionellen Nachrichtenstil unterscheidet. In seiner Arbeit beobachtete Wittwen (1995) bei Infotainment-Sendungen eine Tendenz zur Abweichung vom gewöhnlichen Aussagesatz (hin zur häufigeren Verwendung von Imperativen und Frageformen) sowie eine häufigere Verwendung von expressiven Wortstellungen und von Doppelpunkt- bzw. Gedankenstrich-Konstruktionen. Ellipsen und kurzatmiger Satzbau waren verstärkt vorzufinden, ebenso die Verwendung metaphorischer Redensarten, rhetorischer Fragen (insbesondere in Alliterationen, Anspielungen und Oppositionen) und abgewandelter Buchund Filmtitel. Von der Standardsprache wird durch eine häufigere Verwendung von umgangssprachlichen Wörtern oder Superlativen sowie von affektiven Wörtern und Bindestrich-Komposita abgewichen. Die veränderte stilistische Gestaltung der Infotainment-Meldungen führt Wittwen (1995) darauf zurück, dass die Redakteure inzwischen den (Verständnis-) Schwierigkeiten von Rezipienten gegenüber sensibilisiert sind und vermehrt auf zuschauergerechte Formulierungen achten. Die Umformung der Quellen- zu Meldungstexten gelingt jedoch nicht immer; ein Grund für immer noch schwer zu verarbeitende Formulierungen in den Fernsehnachrichten ist in einer zu engen Anlehnung der Redakteure an die Agenturvorlagen zu sehen, die eigentlich für die Übernahme in die Presse vorgesehen sind („stilistisches Trägheitsprinzip“). Bei Fernsehnachrichten sind (sprachliche) Berichte über Geschehnisse häufig von (Film-) Bildern begleitet, in denen entweder redundante oder weitere (zusätzliche) Informationen vermittelt werden. Der Medienforscher B. Wember (1976) geht davon aus, dass die Verarbeitung und Speicherung von Nachrichten für die Zuschauer mit einer zunehmenden Diskrepanz zwischen Wort- und Filmbeitrag („Text-Bild-Schere“) erschwert wird (Winter-

860

VII. Medien

hoff-Spurk, 1986: 153 f.). Wenn Text und Bild aufeinander abgestimmt sind, werden 80 % der Inhalte, bei nicht korrespondierenden Inhalten dagegen nur 30 % behalten. Die Grenzen des Ansatzes zur Text-Bild-Schere zeigen sich jedoch in einer Untersuchung von Winterhoff-Spurk (1983): Die Behaltenswerte unterschieden sich bei einer ARD-Nachrichtensendung bei passendem und bei unpassendem Filmmaterial nicht voneinander, was durch eine dominante Stereotypisierung des Bildmaterials und die geringe Aufmerksamkeit der Versuchspersonen für die Bilder erklärt werden kann. Eine Reiz-Summierungs-Annahme spricht für eine förderliche Wirkung von (meldungsbegleitenden) Bildern auf die Behaltensleistung, die Annahme einer begrenzten Aufmerksamkeits- und Verarbeitungskapazität dagegen. Der Ansatz der dualen Verarbeitung von Text und Bild (Mayer, 1997) erklärt nicht nur die besseren Behaltensleistungen bei der parallelen Kodierung in Wort und Bild (zur Redundanz von Nachrichten vgl. auch Brosius, 1995), sondern macht auch die besonderen Anforderungen an die zeitliche Abstimmung von Text- und Bildinformationen deutlich. Neben den Nachrichten wurden auch andere Programmarten in Hörfunk und Fernsehen auf ihre sprachlichen Besonderheiten hin erforscht. Beispielsweise untersuchten Strauß und Möller (1996) mit einer Analyse aller Sendungen von ARD und ZDF zu den Leichtathletikmeisterschaften 1991 in Tokio die Attribution von Leistungen nach dem Attributionsschema von Weiner (1974). Die Autoren konnten einen „self serving bias“ nachweisen, wonach (westdeutsche) Kommentatoren selbst dann noch zwischen west- und ostdeutschen Athleten differenzierten, als diese bereits eine Mannschaft bildeten. Misserfolge ostdeutscher Athleten wurden als durch zeitlich instabile Faktoren verursacht angesehen (z. B. durch mangelnde Anstrengung oder Pech), während für Misserfolge westdeutscher Athleten vermehrt stabile Attributionen genannt wurden (mangelnde Fähigkeit, Schwierigkeit der Aufgabe). Untersuchungen zu den Besonderheiten der Sprache in der Werbung liegen beispielsweise von Dietrich und Peter (1996) und von KroeberRiehl und Meyer-Hentschel (1982) vor.

die unterschiedlichen Ausformungen der Kultivierungshypothesen verwiesen, deren Gemeinsamkeiten durch McLuhans (1962, 1965) Schlussfolgerung „the medium is the message“ charakterisiert werden können. Aufgrund der Besonderheiten der sprachlichen „Modelle“ in den Medien wird ein Einfluss auf den (kindlichen) Spracherwerb vermutet; so äußert Selnow (1990) die Befürchtung, dass die einfache Sprache in den Massenmedien bei intensiver Zuwendung zu den Medien zu einer „Verflachung“ der Denkund Sprachfähigkeiten führt. (Die hier hervorgehobene Einfachheit der Sprache steht in offensichtlichem Gegensatz zu den zuvor beschriebenen komplexen semantischen und syntaktischen Strukturen in Nachrichtenmeldungen. Insofern bezieht sich Selnow (1990) eher auf die Sprachverwendung in Infotainment- oder Unterhaltungssendungen als in „klassischen“ Nachrichtensendungen insbesondere der öffentlich-rechtlichen Sender.) Zumindest vorläufig noch spekulativer Natur sind vergleichbare Überlegungen, wie sie für vernetzte und multimediale Computer als Massenmedien (neben Hörfunk und Fernsehen) formuliert werden; Weingarten (1997) spricht in diesem Zusammenhang von einem „Sprachwandel durch Computer“. Dabei formuliert Schmitz (1997) zu dem medienbedingt veränderten Umgang mit Text die Erwartung, dass die Schrift ihre Vorrangstellung verlieren und in medialen Umgebungen nicht mehr linear, sondern „flächig“ zu lesen sein wird. Computer vermehren die Flut von Bildern, die den Text kaum mehr unterstützen („erhellen“). Nach allem wird die Schrift also den Bildern näherkommen, und die Texte werden kürzer, unselbstständiger, fragmentarischer und flüchtiger werden. Vielleicht deutet sich hier aber bereits eine Gegenbewegung an: Während die von Lahr (1996) beobachtete nachlassende Zuwendung zu den Printmedien den Autor zu der pessimistischen Einschätzung führt, dass im Zeitalter von Multimedia mit dem Lesen eine Schlüsselqualifikation verloren geht, empfiehlt Schmitz (1997: 147) eine neue Kommunikationsweise mit „widerständige[m] Lesen, Selbstdisziplinierung zur Langsamkeit und Pflege alter Medien“.

7.

8.

Ausblick

Bei der Darstellung der aktuellen Theorien und Gebiete der Forschung zu den Massenmedien Hörfunk und Fernsehen wurde auf

Literatur

Ballstaedt, S.-P., Mandl, H., Schnotz, W. & Tergan, S. O. (1981). Texte verstehen, Texte gestalten. München: Urban & Schwarzenberg.

861

63. Massenmedien: Rundfunk und Fernsehen Bernard, R. M. & Coldevin, G. O. (1985). Effects of recap strategies on television news recall and retention. Journal of Broadcasting and Electronic Media, 29, 407⫺419.

Höflich, J. (1996). Technisch vermittelte Individualkommunikation. Grundlagen, organisatorische Kommunikation, Konstitution „elektronischer Gemeinschaften“. Opladen: Westdeutscher Verlag.

Berry, C. & Clifford, B. R. (1986). Learning from television news. Effects of presentation and knowledge on comprehension and memory. IBA Report, North East London Polytechnic.

Housel, T. J. (1984). Understanding and recall of TV news. Journalism Quarterly, 61, 505⫺518.

Brosius, H. B. (1994). Agenda-Setting nach einem Vierteljahrhundert Forschung: Methodischer und theoretischer Stillstand? Publizistik, 39, 269⫺288. Brosius, H. B. (1995). Alltagsrationalität in der Nachrichtenrezeption. Opladen: Westdeutscher Verlag. Bruns, Th. & Marcinkowski, F. (1996). Konvergenz Revisited: Neue Befunde zu einer älteren Diskussion. Rundfunk und Fernsehen, 44, 461⫺478.

Hugger, K. U. & Wegener, C. (1995). Infotainment: Chancen und Risiken eines TV-Trends. In J. Lauffer & J. Volkmer (Hrsg.), Kommunikative Kompetenz in einer sich ändernden Medienwelt (pp. 120⫺131). Opladen: Westdeutscher Verlag. Kindel, A. (1998). Erinnern von Radio-Nachrichten. Eine empirische Studie über die Selektionsleistungen der Hörer von Radio-Nachrichten. München: Reinhard Fischer.

Cohen, A. A. (1998). Between content and cognition: On the impossibility of television news. Communications, 23, 447⫺461.

Kroeber-Riel, W. & Meyer-Hentschel, G. (1982). Steuerung durch die Sprache. In W. KroeberRiel & G. Meyer-Hentschel (Hrsg.), Werbung – Steuerung des Konsumentenverhaltens (pp. 157⫺ 173). Würzburg: Physica.

Dietrich, R. & Peter, K. (1996). Zum Aufbau von argumentativen Texten am Beispiel Werbung. Linguistische Berichte, 161, 3⫺37.

Krüger, U. M. (1995). Trends im Informationsangebot des Fernsehens. Media Perspektiven, 2, 69⫺ 87.

Eberspächter, V. & Esche, A. (1978). Der Einfluss syntaktischer und semantischer Merkmale auf die Verarbeitung von Fernseh-Nachrichtentexten. Communications, 4, 182⫺200.

Krüger, U. M. (1996). Boulevardisierung der Information im Privatfernsehen. Media Perspektiven, 7, 362⫺374.

Findahl, O. & Höijer, B. (1975a). Man as receiver of information. An analysis of errors in the recollection of a news programme. Stockholm: Sverige Radio Department. Findahl, O. & Höijer, B. (1975b). Fragments of reality. An experiment with news and TV visuals. Stockholm: Sverige Radio Department. Friedrichsen, M. & Jenzowsky, S. (1995). Methoden und Methodologie: Ein Vergleich ausgewählter Studien der 90er Jahre zur Gewalt in den Medien. In M. Friedrichsen & G. Vowe (Hrsg.), Gewaltdarstellungen in den Medien. Theorien, Fakten und Analysen (pp. 292⫺330). Opladen: Westdeutscher Verlag. Früh, W., Kuhlmann, Ch. & Wirth, W. (1996). Unterhaltsame Information oder informative Unterhaltung? Publizistik, 41, 428⫺451. Gerbner, G. (1981). Die „angsterregende Welt“ des Vielsehers. Fernsehen und Bildung, 15, 16⫺42. Gerbner, G., Gross, L., Morgan, M. & Signorielli, N. (1986). Living with television: The dynamics of the cultivation process. In J. Bryant & D. Zillmann (Eds.), Perspectives on media effects (pp. 17⫺40). Hillsdale: Erlbaum. Herrmann, Th. (1998). Medienentwicklung – verliert die Sprachpsychologie ihr Objekt? Medienpsychologie, 10, 268⫺275.

Kunczik, M. (1993). Gewalt im Fernsehen. Media Perspektiven, 3, 98⫺107. Lahr, H. von der (1996). Lesen: Verlust einer Schlüsselqualifikation für die Informationsgesellschaft. Media Perspektiven, 1, 2⫺7. Lazarsfeld, P. F., Berelson, B. & Gaudet, H. (1944). The people’s choice. New York: Meredith. Mangold, R. (1998). The evening’s thrill – News for entertainment? A uses and effects-comparison of media violence. Siegener Periodicum zur Internationalen empirischen Literaturwissenschaft 17 (2), 163⫺ 184. Mayer, R. E. (1997). Multimedia learning: Are we asking the right questions? Educational Psychologist, 32, 1⫺19. McCombs, M. E. & Shaw, D. L. (1973). The agenda setting function of mass media. Public Opinion Quarterly, 36, 176⫺187. McLuhan, M. (1962). The Gutenberg-galaxy: The making of typographic man. Toronto: University of Toronto Press. McLuhan, M. (1965). Understanding media: The extension of man. New York: McGraw-Hill. Media Perspektiven. Basisdaten 1998. Merten, K. (1999). Gewalt durch Gewalt im Fernsehen? Opladen: Westdeutscher Verlag.

862 Motamedi, S. (1990). Fernsehnachrichten für Kinder – eine psycholinguistische Untersuchung. In W. Arnhold, A. Kegel, S. Schmid, R. Dahlmeier & W. Tischer (Hrsg.), Sprechwissenschaft & Psycholinguistik 4. Beiträge aus Forschung und Praxis (pp. 161⫺188). Opladen: Westdeutscher Verlag. Noelle-Neumann, E. (1986). Lesen in der Informationsgesellschaft (Gutenberg-Jahrbuch 61). Mainz: Gutenberg-Gesellschaft. Noelle-Neumann, E., Schulz, W. & Wilke, J. (Hrsg.) (1989). Fischer Lexikon Publizistik Massenkommunikation. Frankfurt: Fischer Taschenbuch Verlag. Palmgren, P. (1984). Der „Uses and Gratifications Approach“. Theoretische Perspektiven und praktische Relevanz. Rundfunk und Fernsehen, 32, 51⫺ 62. Perloff, R. M., Wartella, E. A. & Becker, L. B. (1982). Increasing learning from TV news. Journalism Quarterly, 59, 83⫺86. Rubin, A. M. (1994). Media uses and effects: A uses-and-gratifications perspective. In J. Bryant & D. Zillmann (Eds.), Media effects: Advances in theory and research (pp. 417⫺436). Hillsdale: Erlbaum. Salomon, G. (1976). Cognitive skill learning across cultures. Journal of Communication, 26, 138⫺145. Salomon, G. (1983). Television watching and mental effort: A social psychological view. In J. Bryant & D. R. Anderson (Eds.), Children’s understanding of television. Research on attention and understanding (pp. 181⫺198). New York: Academic Press.

VII. Medien Straßner, E. (1982). Fernsehnachrichten. Eine Produktions-, Produkt- und Rezeptionsanalyse. Tübingen: Niemeyer. Strauß, B. & Möller, J. (1996). Sprache in der Sportberichterstattung: Leistungserklärungen von Sportjournalisten während der Fernsehlivekommentierung. Medienpsychologie, 8, 34⫺48. Tamborini, R. (1991). Responding to horror: Determinants of exposure and appeal. In J. Bryant & D. Zillmann (Eds.), Responding to the screen. Reception and reaction processes (pp. 305⫺328). Hillsdale: Erlbaum. Tichenor, P. J., Donohue, G. A. & Olien, C. N. (1970). Mass media flow and differential growth in knowledge. Public Opinion Quarterly, 34, 159⫺170. Vorderer, P. (1994). Was macht die Rezeption von Filmen spannend? Medienpsychologie, 5, 103⫺109. Weidenmann, B. (1995). Multimedia, Multicodierung und Multimodalität im Lernprozeß (Arbeiten zur Empirischen Pädagogik und Pädagogischen Psychologie, Bericht Nr. 33). München: Ludwig-Maximilians-Universität. Weidenmann, B. (1989). Der mentale Aufwand beim Fernsehen. In J. Groebel & P. WinterhoffSpurk (Hrsg.), Empirische Medienpsychologie (pp. 134⫺149). München: Psychologie Verlags Union. Weiner, B. (1974). Achievement motivation and attribution theory. Morristown: General Learning Press. Weingarten, R. (1997). Sprachwandel durch Computer. Opladen: Westdeutscher Verlag. Wember, B. (1976). Wie informiert das Fernsehen? München: List.

Salomon, G. (1984). Television is „easy“ and print is „tough“: The differential investment of mental effort in learning as a function of perceptions and attributions. Journal of Educational Psychology, 76, 647⫺658.

Winterhoff-Spurk, P. (1983). Fiktionen in der Fernsehnachrichtenforschung. Von der Text-BildSchere, der Überlegenheit des Fernsehens und vom ungestörten Zuschauer. Media Perspektiven, 10, 722⫺727.

Schmitz, U. (1997). Schriftliche Texte in multimedialen Kontexten. In R. Weingarten (Hrsg.), Sprachwandel durch Computer (pp. 131⫺158). Opladen: Westdeutscher Verlag.

Winterhoff-Spurk, P. (1986). Fernsehen. Psychologische Befunde zur Medienwirkung. Bern: Huber.

Selnow, G. W. (1990). The influence of television on language production: Rules, culture and Benjamin Whorf. Communications, 15, 163⫺170. Shannon, C. E. & Weaver, W. (1949). The mathematical theory of communication. Urbana: The University of Illinois Press. Son, J., Reese, S. D. & Davie, W. R. (1987). Effects of visual-verbal redundancy and recaps on the TV news learning. Journal of Broadcasting and Electronic Media, 31, 207⫺216.

Winterhoff-Spurk, P. (1989). Fernsehen und Weltwissen. Der Einfluß von Medien auf Zeit-, Raumund Personenschemata. Opladen: Westdeutscher Verlag. Winterhoff-Spurk, P. (1999). Medienpsychologie. Eine Einführung. Stuttgart: Kohlhammer. Wittwen, A. (1995). Infotainment – Fernsehnachrichten zwischen Information und Unterhaltung. Bern: Europäischer Verlag der Wissenschaften. Zillmann, D. (1971). Excitation transfer in communication-mediated aggressive behavior. Journal of Experimental Social Psychology, 7, 419⫺434.

64. Huge Virtual Reality Zillmann, D. (1988). Mood management through communication choices. American Psychologist, 31, 327⫺340. Zillmann, D. (1991). Television viewing and physiological arousal. In J. Bryant & D. Zillmann (Eds.), Responding to the screen (pp. 103⫺134). Hillsdale: Erlbaum.

863 Zillmann, D. & Bryant, J. (1994). Entertainment as media effect. In J. Bryant & D. Zillmann (Eds.), Media effects. Advances in theory and research (pp. 437⫺461). Hillsdale: Erlbaum.

Roland Mangold Universität Stuttgart (Deutschland)

64. Huge Virtual Reality 1. 2. 3. 4. 5. 6. 7.

History and issues Types of virtual environments VR devices VR modeling issues VR software VR applications References

1.

History and issues

A modern definition of the term “virtual reality” (in the following: VR) is offered by the Encyclopaedia Brittannica: “the use of computer modeling and simulation to enable a person to interact with an artificial three-dimensional visual or other sensory environment. VR applications immerse the user in a computer-generated environment that simulates reality throuth the use of interactive devices (goggles, headsets, gloves, body suits). The term VR is also applied to the branch of computer science concerned with the development of such systems”. The early roots of VR can be traced back at least into the sixties, when Boeing Corporation coined the term “computer graphics” and started initial work on display systems for aircraft pilots. In the sixties there were also the first demonstrations of graphically rendered objects that could be interactively grabbed, moved and resized with a light pen and a mouse device not much later. Other pioneering work in these years was the development of 3D raster graphics and shading algorithms, which later formed the basis for the VR graphics rendering systems that are in use nowadays. It was at about the same time that the Polish author Stanislav Lem wrote the novel Summa technologiae (Lem, 1981), in which he described a rather detailed image of computer-generated virtual reality which he called “Phantomatik”, while the modern

term “virtual reality” was coined only 25 years later by Jaron Lanier (1996), five years after William Gibson in his famous novel “Neuromancer” had invented the term “cyberspace” (Gibson, 1984). It required a major number of technological milestones to bring reality closer to the novelists’ far-sighted ideas about virtual reality. Among the major developments we may mention the invention of the microprocessor, the development of graphical user interfaces, the sustainment of Moore’s law of the doubling of computation speed every 18 months over a time span of now more than two decades, tremendous advances in input and output devices, such as high-resolution graphics displays, kinematic input devices and tracking technology, accompanied by the development of efficient rendering algorithms and their realisation in special purpose and high-performance graphics accelerators that allowed real time rendering of complex shapes, leading to the first precursors of fully immersive VR systems, such as the CAVE in the nineties. To create VR requires (i) to compute sufficiently rich “images” of various aspects of reality and (ii) to “display” these images with suitable VR devices. Moreover, to achieve the important element of “interaction”, there must also be (iii) sensing devices that allow to monitor reactions of the user in order to update the virtual scene appropriately. Ideally, this should not only happen at the lowest level of geometric movements of the user, but should also (iv) include the evaluation and interpretation of more complex user reactions, such as an interpretation of his or her movements combined with speech understanding in order to allow, e. g., conversations with virtual agents in the simulated world.

864

VII. Medien

To comply with these requirements poses difficult computational tasks from many domains, such as the rendering of the visual appearance of objects, auditory scene rendering, the animation of objects and agents, the tracking and interpretation of user movements, speech recognition and understanding and, ultimately, a large share from robotics and artificial intelligence to interpret user feedback at a high semantical level and to allow virtual agents to behave and react adequately in their virtual world. Therefore, VR is a multifaceted field, combining research efforts in graphical algorithms, simulation, computer architectures, computer vision, human-computer-interaction, sensor and display technology, artificial intelligence and even human cognition. In the following, we outline some of the major issues that can be solved to date, as well as tasks whose solution still requires research.

2.

Types of virtual environments

Our experience of reality is composed of many different contributions. In terms of information bandwidth, the most significant contributions seem to come from our visual, tactile and auditory senses. A further important source is our vestibular system. Although the total information bandwidth of the “interface” between our brain and the world is enormous (in the order of 10 Gigabytes per second via about 109 nerve fibers, each transmitting in the order of 10…100 bits per second), our cognitive system is usually focused only on a small part of its complex overall coupling with the external world. This makes it possible to create different types of virtual reality environments that focus only on a restricted subset of modalities. In view of the overwhelming importance of vision for human cognition, the most prominent type of virtual environment emphasizes the visual aspect (2.1). However, there are also examples of predominantly acoustic (2.2) or even haptic virtual environments (2.3). In all cases, a compelling experience requires that the user is not only a passive observer, but can also experience results of his or her own actions, such as body motions in the first place. Finally, a further distinguishing characteristic is whether several users can share a virtual environment (2.5).

2.1. Visual environments Visual virtual reality environments have some resemblance with computer-aided design systems (Kasik, 2000). Both share the goal of allowing the user to interact with 3dimensional objects, using a graphical view of the scene. However, while in a CAD-system the emphasis is mainly on geometric design and, therefore, an interactive editing of geometric object models, virtual reality systems put their primary emphasis on modeling the appearance and behavior of the objects. This may be useful for a CAD system also, but it becomes indispensable in application fields such as architecture, where the judgement of natural lighting conditions within a simulated building may be the primary purpose of the entire application. Therefore, the creation of virtual visual environments must devote particular attention to the simulation of the process of lighting, the use of surface textures, and often additional means to track the user in order to make the scene or parts of it move “naturally” in response to the user’s own body motion. Since the purpose is to create a compelling visual experience, results from the psychophysics of visual perception become important for the technical realization of visual environments (Bolas, 1994) as well. As a consequence, a major differentiating feature among visual environments is the way in which the interaction of the user with the virtual space is achieved. At the low end of the spectrum are ordinary display screens, which can just provide a narrow window into the scene. Their augmentation with shutter glasses allows at least to add the experience of depth perception, while a tracked moveable screen (“chameleon display”) allows to superimpose on the real, physical space a virtual space, of which arbitrary slices can be visualized (Buxton & Fitzmaurice, 1998). Panoramic or multi-wall projections (“Caves”, Cruz-Neira et al., 1993) can offer already a strong feeling of immersion, in particular when combined with a head tracker (Lantz, 1997). A similar effect can be achieved with head mounted displays (Buxton & Fitzmaurice, 1998). They offer the advantage that several users can move individually in a shared visual environment, and that the visual environment can be superimposed on the real scene. Disadvantages, as compared to Caves, are a lower pixel resolution and smaller view field.

64. Huge Virtual Reality

2.2. Aural environments Usually, auditory environments are used in conjunction with a visual environment, however, there are also important application domains where already the auditory component alone can be of significant utility. One example is the aural rendering of buildings (Rabenstein et al., 1997), e. g., to allow the judging of room acoustics, or to evaluate noise levels in offices or work cells, as well as the effectiveness of various noise reduction measures. Tasks like these require very high-quality acoustic rendering, which includes the modeling of acoustic sources, and the modeling of sound propagation in a virtual building. For sound frequencies above 1 kHz, one may neglect diffraction effects and use similar methods as for visual rendering (“geometric acoustics”) (Funkhouser et al., 1998). For lower frequencies, diffraction effects become important and computationally more expensive methods, based on the wave equation for sound propagation, must be applied (Takala & Hahn, 1992). If the aural environment plays only an auxiliary role, e. g., to augment a visual environment, simplified algorithms may suffice. Still, sound is usually tightly connected to spatially localized events, such as the hitting of one object against another. Therefore, realistic aural rendering algorithms must pay close attention to psychophysical factors that govern human sound localization (Middlebrooks & Green, 1991). 2.3. Haptic environments Our haptic sense comprises the use of our hands and the tactile sensibility of our skin to explore and manipulate objects. It allows us to make fine discriminations between object shapes, surface roughness, or material properties such as softness or thermal conductivity (Lederman & Klatzky, 1996). Many manual tasks, e. g. in medicine, industrial parts assembly, quality control of materials, or even art, could not be carried out without the haptic sense. Haptic environments attempt to provide some degree of haptic feedback to bring some of these tasks into the domain of virtual reality (Burdea, 1996). Unfortunately, our haptic sense is much less understood than vision (Lederman, 1991; Lederman & Klatzky, 1994), and haptic interfaces that can “display” contact forces with the spatio-temporal resolution of our skin are very difficult to realize since they re-

865 quire the control of a large number of degrees of freedom in a very small space. Therefore, current haptic environments are still very limited. One major use is in domains where the main interaction is already through some mechanical tool that has only a small number of degrees of freedom, such as a laparoscope or an endoscope in medical surgery (Meglan, 1996). By controlling these movements with some computer-controlled actuators, one can achieve a highly realistic haptic feedback for the special situation of tool use. Among the more general haptic displays a typical device is a moveable stylus with computer-controlled actuators that produce the forces that would occur from the contact of the stylus with a virtual object (Salisbury & Srinivasan, 1997). Despite obvious limitations, this approach allows already a significant range of applications, such as the exploration of “virtual tissue” with a needle, or the “feeling” of the relief of surfaces probed with a tunnel electron microscope at atomic dimensions (Taylor et al., 1993). Still more general are actuator-controlled exoskeletons that can provide proprioceptive feedback to finger motions. This already allows to add a significant amount of realism to the grasping of a virtual object. 2.4. Multimodal environments Most VR environments are multimodal and combine several of the above components. A major issue that arises then is the proper synchronization of the individual components. Even small temporal mismatches in the millisecond range between the registration, e. g., of head movements and the corresponding scene can lead to a significant impression of scene “swimming”. Larger shifts can cause severe misperceptions or even a feeling of motion sickness (Wu & Ouhyoung, 2000). Other issues are the substitutional use of one modality for another one, such as the use of auditory signals to convey tactile information, such as surface contact and roughness. 2.5. Distributed environments Since one of the major uses of VR environments is education and training, the possibility that a larger number of people can share the same virtual environment over a network constitutes a major attraction. This has led to the development of standards, such as the Virtual Reality Modeling Language (VRML) (Stone, 1999) that allows interac-

866

VII. Medien

tion with VR models over web browsers. However, this only allows to distribute the viewing of a VR model. In the longer term, one also would wish to distribute the virtual objects themselves in a similar manner, e. g., each participant might have his part of the virtual world reside in his local computer. This goal has inspired research into frameworks for distributed virtual environments that permit real time synchronization of the states of many synchronously operating “subworlds” (Stytz, 1996). This work led to the development of communication schemes that support an intelligent synchronization between distributed objects (DIS, Pullen & Wood, 1995) as well as the run-time registry of new objects (NPSPL, Macedonia et al., 1994) in an intelligent way, while at the same time being scalable to many users without requiring an inordinate amount of network bandwidth. On the basis of these developments, the implementation of distributed VR environments is now becoming increasingly feasable (Singhal & Zyda, 1999).

3.

VR devices

VR hardware devices (Macintyre & Feiner, 1996) address the question of how to instantiate the computed features in a format that is suitable for our perceptual apparatus and, in the reverse direction, how to sense and measure our actions and reactions in order to provide the computational models with sufficient feedback information to compute action consequences that give us the impression that we can act in the virtual world. Consequently, a coarse classification of VR devices (Perry et al., 2000) is into output or display devices that render one or more aspects of a virtual scenario, and input devices for sensing one or more aspects of the users reactions. 3.1. Visual display devices The human eye contains about 108 receptors. They subserve a visual view field of roughly elliptical shape, extending about 200∞ horizontally and 130∞ vertically (Lantz, 1997). Most of our cognitive information is derived from a small central portion of only 2∞radius, in which most of the receptors congregate. While this fovea provides us with a very high spatial acuity and is the basis for our fine discrimination abilities for patterns and shapes, the periphery is particularly impor-

tant for our perception of motion. These performance characteristics provide the background against which current visual display devices can be measured. Color display screens with high resolution (1 Megapixel or more) have become affordable standard components and allow a naturalistic real-time rendering of very complex scenes. Their main limitation is their restricted size which can only provide the experience of a “window” into a virtual world, but not the impression of immersion. Digital projection devices can provide much larger projection areas, e. g. on walls or as through-projection on translucent surfaces. The Responsive Workbench (Krüger & Fröhlich, 1994) is a system that uses the latter technique to render an image from below on the horizontal surface of a work bench, a scenario that is much more suitable for many applications than a limited computer screen. Spatially immersive displays combine several digital projectors to create a panoramic ultrawide or even wrap-around view that creates the illusion of a walk-in immersive environment (Special issue on Large Wall Displays, 2000). At the same time, this technique allows to overcome the limited pixel size of current display systems. A typical example is the CAVE system (Cruz-Neira et al., 1992; CruzNeira et al., 1993) with three projection walls and the floor as a fourth projection screen. Each screen projection is of 2500 ⫻ 2000 pixel resolution and the entire projection chamber is 100 ⫻ 73 ⫻ 84 inches in size. An integrated 6D body tracker provides data about user motions for feedback to the rendering system. Shutter glasses allow to overcome the limitation of conventional display screens and digital projectors to two-dimensional images. This requires that the graphics system projects an alternating sequence of right and left eye views of a scene while the shutter glasses synchronously block out light passage through their left and right lens, respectively. This technique is, e. g., used in the above Responsive Workbench and CAVE systems to provide a stereoscopic full-color view of the scene, but the technique is sufficiently inexpensive to allow its wide-spread use also in conjunction with low-end systems based on conventional computer display screens. Head mounted displays attempt to achieve immersion with a less space consuming ap-

64. Huge Virtual Reality

proach. Typical systems consist of a headset with a pair of miniaturized CRT or LCD monitors, either arranged directly in front of the eyes or attached at the side of the head with the images suitably reflected into the line of sight. The separate image for each eye allows to realize a three-dimensional, stereoscopic view. Available commercial systems approach about 1M pixel resolution at view fields of up to 140 * 110 deg (Lantz, 1997). Current limitations mainly result from the conflicting goals of large view fields, high resolution and ultra-light, highly miniaturized cameras. Therefore, extremely high-end systems work with a pair of off-helmet display monitors and use a pair of fiber optic image guides to transmit the image to the helmet. Often, head mounted displays also have an integrated head tracker so that appropriate scene movements can be computed when the user turns his head. Retinal displays. Unlike conventional displays, which create the image on some screen or wall, retinal displays (Tidwell et al., 1995; Viirre et al., 1998) project the image directly onto the retina of the user’s eye. Attractive features of this technology is the achieveable, much higher brightness range and the ease of combined viewing with real images for augmented reality applications. Current systems use a laser scanning device for sequential projection of the image pixels. Retinal displays are a rather recent technology and the first commercial systems are still under development. 3.2. Haptic displays When it comes to the manipulation of objects, the perception of forces as well as the haptic sense of our skin for sensing not only contact but also to finely discriminate a rich repertoire of features, such as points, edges, surface reliefs, or the presence of a particular texture, play an essential role in most of our everyday tasks. Similar to the retina in the eye, our skin represents a large receptor array with regions of sharply increased receptor density, in particular at our lips and our finger tips, where our ability for tactile discrimination is particularly high. The analogy persists even in the brain, where initial processing stages in the somatosensory cortex are known to extract similar features as in the visual system, namely motion and edges of various orientations (Johnson et al., 1995).

867 Therefore, there is a strong need to render virtual objects not only in the visual and auditory domain, but also to create realistic tactile images of their surfaces. However, while computational algorithms for visual object rendering can focus on the creation of an image for a rather well-known retinal sensor array whose responses to light are well researched and are known to be limited to essentially three color channels, the situation for our haptic sense is much more complicated (Lederman, 1991). The superficially located Merkel cells react to light static touch with very fine spatial resolution; more deeply positioned Ruffini corpuscles react to moderate static touch with low spatial resolution, while the Meissner and the Pacinian corpuscles respond to different types of light dynamic touch at high and low spatial resolution, respectively. Hair follicles provide another contribution to our touch sensation, and further receptors provide us with a sensation of temperature. In addition, while the geometric shape of the retina is fixed and rather simple, the spatial arrangement of the tactile surfaces in our hands is much more complex and in steady motion when we manipulate an object (Lederman & Klatzky, 1996). Moreover, the tactile “image” that is provided by the above sensor types is known to be modulated in a so far largely unknown way by further proprioceptive senses that provide the brain with information about the tensions in our muscles and the positions of our joints (Chapman et al., 1996). As a result, there is currently neither a comprehensive theory of haptic rendering that could be compared with the state of the art in visual rendering, nor are there any haptic displays for the delivery of good haptic images of objects. Current “haptic displays” only allow the delivery of rather small “image patches” to, e. g., a single finger tip and allow, e. g., the perceptual synthesis of simple surface reliefs or textures (Ikei et al., 1997). Better supported is a more or less rapid global force feedback to one or several fingertips or joints, e. g., with exoskeletons or with lightweight and rapidly moveable robot devices (Salisbury & Srinivasan, 1997). Current approaches to haptic and force rendering are based on an accurate modeling of the contact process between, e. g., the finger tip and the touched surface (Fritz & Barner, 1996). Similar techniques as used in graphical rendering can be used to compute a precise 3D geometry model of the contact

868 situation between finger tip and object surface. Additional assumptions about object and finger tip elasticities and friction coefficients then allow to compute the resulting reaction force that must be delivered by the feedback device. A technique that is analogous to visual texture mapping allows to “coat” the object surfaces with various height profiles in order to achieve a sensation of texture. In contrast to graphical rendering, the necessary computations must be carried out much faster, since the “flicker frequency” of our haptic system is at least one order of magnitude higher than in the visual system. Perceptual experiments have revealed that even the current, very limited haptic feedback methods can add a significant amount of realism to the perception of an object that in some cases can outweigh the realism that is achieveable by a further perfection of the visual rendering channel. 3.3. Pointing devices 2D pointing devices. One of the oldest devices for 2D pointing is the light pen (Sutherland, 1963). Nowadays, it has largely been replaced by mouse or trackball pointers or graphics tablets, if higher accuracy is desired. These systems have become rather standard, so we only mention them briefly. Spatial pointing devices. The “space mouse” is the obvious generalization of the 2D mouse pointer to 3D. The 3D location is determined by evaluating the relative arrival times of ultrasonic pulses sent out from three transmitters positioned at the vertices of an equilateral triangle. The “space ball” is a tennis-ball sized sphere to which the user can apply translational and rotational forces. The ball is mounted elastically on a 6D forcetorque sensor that measures the forces. Their translational components can be used to specify object translations, while the rotational forces allow an intuitive commanding of object rotations (Labtec). Glove devices. Dextrous grasping and manipulation of virtual objects requires an accurate sensing of the shape of our hands. Glove devices (Sturman & Zeltzer, 1994) are one approach to capture the necessary data, but their design also offers the possibility to integrate – at least to some extent – force and tactile feedback. Sensors for the measuring of finger joint bending have employed special fiber optics, embedded along each finger and designed in a special way to change transmis-

VII. Medien

sion characteristics in proportion to their degree of flexion. Pressure exerted at the finger tips can be sensed with pressure sensitive conductive foils or with capacitors whose capacitance changes as a dielectric film between the conducting plates becomes squeezed. A partial feeling of object contact and even force can be conveyed through small inflatable gas cells embedded along the finger tips or distributed over the palm area. 3.4. Tracking devices Acoustic tracking devices. These exploit either the time-of-flight or the phase of ultrasonic sound waves in order to determine the position of a target point. The time-of-flight systems use an emitter that periodically sends brief sound pulses that are recorded at several receivers. From the measured delay times, the speed of sound and the geometrical arrangement of the receivers one can compute the 3D-position of the emitter. Phase based systems replace the time-of-flight measurement by a measurement of phase difference between sound waves. Since phase difference is linearly related to distance, evaluation of several measurements also allows to compute 3D location with regard to a number of reference transmitters. Since phase can be measured continously, this method has the advantage of faster reaction times as compared to time-of-flight based systems. Electromagnetic tracking devices. These systems are based on the measurement of the magnetic field produced by a magnetic field transmitter that is usually composed of three small concentric and mutually perpendicular electric coils. The generated field is picked up by three or more stationary (usually much larger) receiver coils which deliver three signals from which the position of the transmitter coil can be computed. If six suitably arranged receiver coils are used, it also becomes possible to also measure the 3D orientation of the transmitter. Among the more widely used representatives of this approach are the Polhemus (Polhemus) and Ascension systems (Ascension), which feature a low latency of only a few milliseconds and allow a position detection to an accuracy of about 1 cm in a workspace of several meters. One limitation of the method is its sensitivity to the presence of metal objects which deform the magnetic field and, thereby, can significantly reduce the achieveable accuracy. Visual tracking devices. Commercially used systems usually employ highly visible or even

64. Huge Virtual Reality

active (e. g., light emitting diodes) visual markers that are positioned at the body of the person to be tracked. The scene is then recorded with two or more video cameras and the systems use image processing techniques to identify and correlate corresponding marker (2D-) positions in the resulting images. From these data it is then possible to compute the 3D-motion of each marker point. In contrast to acoustic and electromagnetic systems, this method allows the simultaneous tracking of a large number of reference points. The occlusion problem can be handled by using a sufficiently large number of cameras from different viewing directions. Eyetracker devices. Tracking of the user’s gaze direction is a frequently useful task for which good commercial eyetracker systems are available (see also Chapter 10). Eyetracking in the context of a VR application usually requires that the head can be moved freely. This can be achieved with a headset with an attached 6D position sensor to track head movements. The headset also carries a small light emitting diode and a miniaturized video camera. The diode emits an infrared light beam towards the cornea of one eye and the video camera captures an image of the iris together with the infrared reflex spot. The relative position between both allows to compute the angular position of the gaze axis with respect to the head. By tracking both eyes with a pair of cameras one can also compute the depth to which the subject focuses. With this approach angular accuracies below 1∞ at measuring rates of 200 Hz and more are possible. Before use, the system must be calibrated with a number of test points; the method is also very sensitive to shifts of the head set relative to the skull while the system is used. Therefore, more recent systems try to avoid the headset entirely and attempt to determine the gaze direction directly from the image of a stationary camera that tracks the eye region with high resolution. Extension of this approach to general body tracking is a topic of current research. There are already a number of research prototypes that demonstrate the feasability of such approach (Wren et al., 1997). In the long term, these efforts are expected to replace most of the currently employed techniques that rely on attaching either markers or sensing devices to the user’s body. For a

869 general overview of design issues in spatial input, see, e. g., Gleicher (1999) and Hinckley (1994). 3.5. Force feedback Exoskeletons. A more accurate delivery of force feedback is possible through actuated linkages whose joints can be precisely controlled through miniaturized electric motors. Multifingered exoskeletons with more than 20 degrees of freedom have been constructed and combined with sensing gloves to support fine manipulation of virtual objects under precise force feedback. Despite the considerable complexity of such combined devices they still lack considerable abilities, such as a fine spatio-temporal haptic resolution at the finger tips to convey a realistic sense of touch. Larger exoskeletons can also be employed to provide force feedback to one or both arms or the legs. Stylus devices. The Phantom (Salisbury & Srinivasan, 1997; McNeely et al., 1999) is a device that provides computed force-feedback to a stylus. The stylus is the end part of a lightweight 6DOF miniature robot arm that can position and orient the stylus freely within a workspace. When the user touches the stylus, the device can control the movement and the reactive force of the stylus so as to generate the sensation of exploring the surface of a virtual object with one’s finger tip. Similarly, more specialized devices have been developed to simulate the forces that occur, e. g., when a medical instrument such as a laparoscope is used during an operation (Meglan, 1996). 3.6. Other modalities Even more in its infancy is the inclusion of our olfactory sense into VR. Although a major reason is the difficulty of building suitable “olfactory displays”, there are also major computational issues whose solution is not yet clear. The encoding of smell sensations in the nervous system is fundamentally different from both vision and touch and is known to use many thousands of different channels. Rather little is known on the interaction of these channels. Also, there seem to operate sophisticated temporal processing strategies to account for the particular way in which odours are transported in puffs of air. Still, there are some initial demonstrations that olfactory cues can be included in VR scenarios, see e. g. DigiScent (2000).

870

4.

VII. Medien

VR modeling issues

While the devices described in the previous section define the range within which we can display any computed data to our senses and sense back any reactions, the second main factor on the fidelity of a VR environment is given by the accuracy by which we are able to model the required aspects of reality that we wish to replace. Even simple VR scenarios give rise to the need of models at many different levels: we have to model the scene geometry at the lowest level, next, we have to care about lighting, textures and sound. Since reality is not static, we must also model the movement of objects and their interactions. Such interactions can already become very complex at the inanimate level (e. g., consider the case of a leaf falling into a pond), but when we wish to enrich the virtual world with “agents” able to act in an at least somewhat autonomous manner we may even have to model aspects of cognitive behavior. 4.1. Geometry Geometry deals with the most basic level, namely the representation of the geometrical shape of objects as a collection of suitable, simpler geometric primitives, the representation of their three-dimensional arrangement and, possibly, movement, within a scene, and, finally, the computation of the resulting twodimensional arrangement for any given viewing direction. Since typical VR applications easily require the processing of millions of geometric primitives, high efficiency of the employed algorithms and data structures is of particular concern. There are two main techniques to represent objects. The first technique describes an object as a collection of surface patches, which can be either planar polygons (usually triangles) organized into a mesh, or it uses curved surface patches (usually described in parametric fashion, e. g., using spline functions (NURBS, Piegl, 1991)). While computationally simpler, the first choice usually requires a large number of polygons to achieve a good approximation to curved surfaces. The second choice is mathematically more complex, but allows to describe curved surfaces in a much more compact way which can speed up processing and reduce memory and storage requirements. In both cases, many finely structured objects, such as trees, clouds, hair or the like are computationally very expensive to model.

For objects of this kind, the second technique is more suitable. It models an object as a fractal set (Mandelbrot, 1977; Peitgen & Saupe, 1988). A characterizing property of a fractal set is a recursive self-similarity, e. g., a branch of a tree looks like a miniature copy of an entire tree. Therefore, a fractal object can be generated by repeatedly applying the inverse self-similarity relationship to a small part (the “generator”) of the object. This allows a very compact representation of fractal-like objects as a collection of a (usually small) number of mappings plus some simple “generator” (Prusinkiewicsz & Lindenmayer, 1990; Barnsley, 1993). Further algorithms are needed to compute the two-dimensional view of a three-dimensional collection of object primitives for a given viewing direction. This employs a perspective projection in combination with techniques for determining when a nearer object primitive occludes a farther one. To manage this and other, similar, computations (such as the detection of collisions amongst moving objects) at a high rate, requires the use of optimized data structures which are a major subject of computer graphics and computational geometry (see, e. g. Foley et al., 1990; Hearn & Baker, 1997; Preparata & Shamos, 1985). If only hidden surface removal is desired, there are also hardware solutions (“zBuffering”) that operate at the level of the pixels in the final, rasterized computer display when the rendering stage has been finished. 4.2. Lighting While the display of the projected geometrical object shapes may be sufficient when only abstract object shapes are needed (as, e. g., in some CAD application), a more realistic rendering requires to render illuminated surfaces. Different approaches have been developed to model the appearance of illuminated surfaces (Foley et al., 1990; Hearn & Baker, 1997). The radiosity approach solves a linear system of equations that express for each surface the energy balance of backdiffused light and light received from all other surfaces. Light sources are treated as surfaces that “glow”. Ray tracing considers an inverted light path of a ray from the viewer position until the ray hits a light source. By multiplying the effects of all reflections of the ray along its path, one obtains the light intensity and spectral composition along the viewing direction given by the ray. Both methods can pro-

64. Huge Virtual Reality

duce highly photorealistic scenes, but at the expense of rather high computational costs. For real-time rendering, shading algorithms are more suitable since these are much faster, in particular since special graphics processors that perform the necessary computations in hardware have become widely available. They compute the appearance of a surface point as a function of the relative directions between the surface normal, the viewer direction and the directions of all light sources. The usual shading model uses a Lambertian law according to which the reflected light intensity is proportional to the cosine between the incident direction and the surface normal and add a “specular” component that is peaked in the vicinity of the reflection direction, plus a constant contribution with no directional dependence that simulates diffuse ambient light. Flat shading, Gouraud shading and Phong shading are increasingly sophisticated ways of using this lighting model to render the faces of polygonal surface meshes. Flat shading computes for each face only a single shading value. Gouraud shading does so for the polygon vertices and interpolates the resulting shading values across each face, which yields a smoother and more realistic shading. Finally, Phong shading interpolates the normal directions across each face and only then computes the shading values from the interpolated normals. The improvement over Gouraud shading is particularly signficant for specular reflections, since these are very sensitive to normal directions. 4.3. Texture Many surfaces have a fine structure that appears to the human eye as a texture. While physically the appearance of textures results from the same reflectance process as it has been modelled by the above techniques (however, with the inclusion of shadows), the use of these models for the computation of texture would be computationally much too expensive. Therefore, texture is usually rendered by the process of texture mapping. It consists of mapping a given planar image of the texture pattern onto the surfaces of the to-be-rendered objects, taking into account the additional effects of scaling and shading. With this technique, usually several differently scaled versions of a given texture pattern are precomputed in order to speed up the repeatedly required mapping process later on. Also, to make texture mapping reason-

871 ably fast for VR applications requires to support the necessary computations in the graphics rendering hardware. The combination of the above techniques can yield quite realistic scene images that are already very suitable for VR applications. However, for high demands on realism further aspects have to be included, such as transparency, diffuse and specular reflection and its influence on the lighting of other objects and others. For an extensive treatment, see Foley et al. (1990) or Hearn and Baker (1997). 4.4. Sound Sound is another important source of information. Usually, many events are accompanied by characteristic sounds that often allow us to recognize many features of the event even in the absence of a visual image. Examples include the noise of a door, the hitting of an object on the floor, the crackling of a fire and so on. Among the cues that can be provided by sound are spatial location, size and material properties of involved objects, strength of acting forces and temporal properties such as speed and duration. Conversely, the realistic rendering of sound (Takala & Hahn, 1992) can greatly contribute to the realism of a VR scenario and the degree of immersion that the user feels. Additionally, sound can serve as a partial substitute for feedback through other modalities, e. g., to indicate the touching of an object or the occurrence of friction when an object is moved. Simulation of such acoustic events first requires a model for the sound source. The simplest procedure is to use stored sound prototypes for particular types of events, e. g., the slamming of a door or noise of a car engine. A computationally more demanding but also more general technique uses the fact that the generation of sound is always caused by the vibration pattern of some “resonator”. This vibration pattern or sound spectrum can be computed from a model of the mass distribution of the resonator, its stiffness and the way it is excited, e. g., by a hit or a periodic motion. Moreover, such models can be simplified and many objects can be abstractly described by a number of harmonic oscillators with different frequencies and damping constants. In this way it becomes possible to synthesize a great number of natural sounds. This approach can even be used to model the vocal tract to synthesize the human voice.

872 However, since for voices we have a particularly high sensitivity to tiny “rendering errors” (a similar situation occurs for faces in the visual domain) this method may not yet be competitive for real-time speech synthesis where the concatenation of short (and suitably interpolated) segments of natural speech is a computationally simpler option. The next step is to model the propagation of the sound from the sound sources to the receiver. The underlying physical laws of this process are well understood and can be used to compute the sound pressure field for an arbitrary arrangement of sources in a given scene geometry (Rabenstein et al., 1997). However, this requires to solve a partial differential equation and the resulting computational effort turns out to grow with the fourth power of the sound frequency and the volume under consideration, restricting the feasability of the approach to very low frequencies. If the impulse response function of the scene is known, the sound pressure field at any given receiver point can be very rapidly computed by comparably fast convolutions with the sound sources. For a real scene, the impulse response function can be measured; for a virtual scene it can be precomputed with the methods of the previous section, allowing to bypass some of the problems of the high computational costs. For frequencies above about 1 kHz, diffraction effects for normal room sizes become small, and the propagation of sound can be described in analogy to optics (optical acoustics) when additionally the delays caused by the low propagation velocity of sound (as compared to light) are taken into account. This allows to use similar computational approaches as ray tracing and radiosity to allow a faster rendering sound pressure fields. Additional complications result from the characteristics of the human auditory system (Middlebrooks & Green, 1991). The human ears define two receiver points separated by some defined distance, and the auditory system is highly sensitive to tiny interaural time shifts and intensity differences. The presence of the head and the pinnae of the outer ear modifies the local sound field due to diffraction for low frequencies (below 1kHz) and shadowing for higher frequencies (above 1kHz). Therefore, the two ears receive sound pressure intensities that deviate from those that are obtained for a receiver pair in empty space. This deviation is responsible for our

VII. Medien

ability not only to judge the azimutal but also the vertical component of the direction of a sound source and is, therefore, an essential component for a realistic perception of spatial sound. Mathematically, the deviation can be described by a linear filter function, the head related transfer function, which must be applied as a final step to obtain the sound signals that are to be delivered to the ears. 4.5. Kinematics Motion is an important element of almost any realistic VR scene. As soon as objects move, one is confronted with many issues that occur in a similiar way also in robotics, such as the specification of trajectories, the control of articulated objects, motion planning and collision avoidance, and the impact of the laws of physics, such as inertial or frictional forces, on the time course of realistic object motions (Sturman, 1998). Conversely, advances in animation techniques that handle such factors in a realistic way can make useful contributions to the simulation of robots. Therefore, there are many strong crossconnections between VR and robotics research. The simplest type of motion occurs when the viewer moves through an otherwise static scene. Already this requires to specify a continuous trajectory, specifying at each time point the location (three position variables) and the orientation (three further directional variables) of the viewer. A frequent technique for this employs a number of “via points” through which the trajectory has to pass, using some interpolation scheme, such as spline functions, to interpolate intermediate positions. While this controls only the spatial shape of the trajectory, the velocity and the time course of the orientational movement can be specified by similar means. Besides the observer, it is also possible that light sources or solid objects move in the scene. Their motions can be computed in an analogous way, using time-varying geometric transformations. The necessary computations are referred to as kinematics; they only deal with the purely geometric constraints on a motion and do not include consideration of further important non-geometric constraints from physics, such as the effect of inertia or friction. Kinematics can become rather complex when it comes to the animation of articulated objects with multiple joints, such as a crane, or a virtual figure (Thalmann & Thalmann,

64. Huge Virtual Reality

1991). The configuration space of such objects is the set of joint positions that lead to allowed configurations (e. g., postures for a figure). However, the desired motions (e. g., the trajectory of the hand of a virtual actor) usually is described in the rectilinear cartesian space. This requires to compute the inverse kinematics transform, i. e., the transform that finds for given cartesian coordinates the corresponding configuration coordinates. While the mapping in the opposite direction, the forward kinematics, is always unique and can be computed in a straightforward and closed form, the inverse kinematics mapping is in many cases not available in closed form so that numerical approximation techniques, e. g. using interpolation techniques in conjunction with known postures, must be used (Wiley & Hahn, 1997). Moreover, in many situations the inverse mapping is many-to-one and additional constraints must be invoked to obtain a unique configuration space solution. Typically, even the static posture of a virtual figure requires the specification of a large number of parameters which then must be controlled over time to “animate” the figure. For instance, the MPEG-4 encoding standard includes provision for human body animation by providing a standardized “body object” which represents a human skeleton, using a total of 186 degrees of freedom. To coordinate such large numbers of parameters over time such that the virtual figure carries out a prescribed action is a difficult task. For human action sequences, suitable coordination patterns can be obtained from human motion sequences, using visionor exoskeleton-based motion capture techniques. After their recording, the obtained motion sequences can be edited or transformed in order to adapt them to a broader range of situational contexts (Gleicher, 1999). However, such techniques are not available for animating the flight manouvers of a dinosaur or a more general, non-terrestric virtual creature. A feasable, but highly laborintensive approach is then the interactive “sculpting” of realistic motion sequences by means of suitable software tools for interactive rendering and editing of motion sequences. The simplest approach requires to specify the parameter values for each keyframe (“keyframing”). To make this process feasable requires the use of interpolation techniques to reduce the number of key-

873 frames for which all details have to be specified. Procedural models (Bruderlin et al., 1994) allow to reduce the specification effort by providing methods to specify the desired movements by formulating suitable rules, e. g., in the form of scripts. A particularly important type of rules are geometric or physical constraints that may allow to generate many details of a movement sequence automatically from a rather high-level description. For instance, in most animations, it is important to automatically enforce for the allowable motions the constraint that no intersections of object volumes occur. This has led to the development of efficient algorithms for the rapid computation of the distance and of intersections between complex polygonal objects (Moore & Wilhelms, 1988). Algorithms borrowed from robotics (Paul, 1981) can then be used for the automatic planning of collision-free paths. One general type of approach is based on the idea to surround obstacles by a distance-dependent virtual force field. The force field is chosen in such a way that it acts increasingly repulsive when an object approaches the obstacle. In this way, trajectories can become automatically deflected away from the obstacle. 4.6. Physics While kinematics is only considered with purely geometrical constraints on trajectories, dynamics considers the additional effects that arise from the physical laws of motion. These laws determine, e. g., that a thrown ball must follow a parabolic trajectory whose shape is fully specified when the direction and magnitude of the throwing velocity are given. Realistic animation, therefore, must include dynamics into the modeling of object motions (Barzel, 1992). Even more difficult is the computation of contact forces that are essential to model the correct behavior when objects touch each other (Baraff, 1994). Physicsbased simulation techniques address these and further issues, such as effects of friction, elasticity or viscosity in the case of non-rigid objects. This makes the underlying simulation techniques very demanding, since the motions are usually governed by non-linear numerically “stiff” differential equations. However, the constraints from physics can also help to reduce the number of parameters that have to be controlled in order to produce a certain animation. This is of particular

874 importance, when deformable objects, such as clothes or liquids, come into play: while these admit in principle an infinite number of degrees of freedom for their motion, the laws of physics help to identify an often rather small set of basis motions (called eigen modes) from which other, more complicated motions can be composed in a principled way (Metaxas & Terzopoulos, 1992). 4.7. Interaction Graphics rendering and motion animation provide the computational basis for creating only a film-like VR experience. However, it already has been emphasized that an important element of virtual reality is the ability to interact with the displayed scene. This requires a steady feedback from user actions into the displayed scene. In order to feel “immersed” in a scene, the user should be able to interact with the scene and its objects in a manner that is as natural as possible. This does not only include an ability to control one’s viewing position within the scene but also encompasses the concept of “direct manipulation” of virtual objects by picking them up, moving them and putting them down in some other place. Ideally, such interaction is not only limited to the visual modality, but also includes auditory or even haptic feedback. These requirements change the nature of a VR system from an open-loop (feed-forward) display system to a closed-loop (feed-back) control system. Since the user becomes an important part of the closed loop, there also arises the need to consider human factors, such as latencies (Wu & Ouhyoung, 2000) caused by reaction times, for the design of the control system. Perhaps even more importantly, since the reactions of the user have to be captured by suitable sensors, they will first be available only as sequence of raw and possibly noisy sensor signals. Except for the most simple reactions, such as the choice of a button or the operation of a joystick, whose semantics is already encoded in a “machinefriendly” format, the overwhelming majority of user reactions happens at a semantical level that is rather remote from the level of the raw signals that most sensors can deliver. To then extract the intended semantics from the sensor data presents an enormous computational challenge and is in many cases still a research topic. Since the major part of our natural interaction with our surroundings is based on

VII. Medien

motions of our body, in particular our legs, arms and hands, the sensor-based tracking of their motions is of fundamental importance for any advanced form of VR. Under suitably restricted conditions, some devices, such as electromagnetic sensors can directly provide a stream of 3d position or even 6d orientation data of a particular body part, such as a hand. However, even the measurements from such systems require additional postprocessing to adaptively compensate, e. g., for the presence of ferromagnetic materials that distort the geometry of the magnetic field that forms the basis of the measurement principle of these systems. A more ambitious and ergonomic approach obviates the need for attaching special sensing devices to the human body by using a vision-based approach for tracking (Wren et al., 1997). However, this approach inevitably involves the highly nontrivial computer vision problem of tracking human postures in video images. To date, robust solutions to this problem require still the aid of special visual markers attached to the body in order to make the segmentation and recognition tasks manageable. One may expect that such constraints can gradually be relaxed as computer vision algorithms for body tracking mature. However, this may still take some time for more complex situations, such as a vision-based identification and tracking of the manipulation sequences for general objects with the human hand. Even when auxiliary devices, such as data gloves, are used to facilitate the tracking of hand posture, the interpretation of the functional significance of the associated gesture sequence for the handling of the object is a complex research issue. As a consequence, current “direct manipulation” techniques are still restricted to only partially natural pick-and-place operations, usually controlled by either a three- or sixdimensional position tracking device, or, in more advanced systems, additionally supported by evaluation of finger posture data from a data glove to specify the orientational fine motion of the objects. 4.8. Behavior and cognition Behavioral and cognitive modeling are at the highest levels of the modeling hierarchy. Here the goal is to endow a virtual agent even with some degree of autonomy to enable it to react to new situations in a meaningful or even intelligent-seeming way (Badler et al., 1997). Such autonomy is, e. g., a prerequisite for the

64. Huge Virtual Reality

realization of “autonomous actors” that can be “instructed” with very high-level commands that are formulated at the task level and from which the autonomous actor has to generate the required low-level trajectories autonomously (Thalmann & Thalmann, 1987). Autonomy is also important when a virtual agent shall be able to react to realtime user input that cannot be known in advance, or to cooperate with “avatars” whose motions are directly controlled by a human user through suitable input devices. The realization of autonomous behavior is a long-standing and central goal of robotics (Maes, 1990). While the difficulty of the task has so far prevented its solution, there are now sufficiently mature techniques that can be applied when the task domains are sufficiently restricted. Examples include algorithms for obstacle avoidance, autonomous path planning and even planning of simple assembly tasks. One advantage of virtual agents over real world robots is that the former usually can be provided with “perfect” sensor data, or even with explicit representations of important aspects of their environment (such as the shape and locations of surrounding objects), which allows to bypass a major source of difficulty thats impedes the realization of autonomy for real world robots. The use of sensors to shape motion is the central topic of control theory and engineering (Jacobs, 1993). The synthesis of suitable sensori-motor controllers (Zeltzer, 1982) is, therefore, an important technique for creating many types of autonomous behaviors, such as target following, forming flocks or herds (Reynolds, 1987), keeping balance or avoiding obstacles. In most cases (e. g., walking or swimming), the control actions involved try to imitate the characteristics of biological sensori-motor systems (Tu & Terzopoulos, 1994). Therefore, classical approaches from control theory have been complemented by more recent, biologically inspired approaches (Ritter et al., 2000), such as neural networks (Narendra & Parthasarathy, 1990) and genetic algorithms (Sims, 1994). These approaches can generate good controllers from training examples or given quality functions, even when the dynamics of the system to be controlled is highly non-linear or is not even known in mathematical terms (Davidor, 1991). Another advantage is that the resulting controllers are usually computationally much more efficient than classi-

875 cal approaches that may need to invoke timeconsuming physics-based simulation (Grzesczuk et al., 1998). Controllers that directly connect sensors with motor actions can implement already a wide range of interesting and very useful “basis behaviors” (Braitenberg, 1984), in particular, when several sensors and actors are combined into a sensor-actor network. However, the resulting behaviors are only “reflexive”, i. e., they depend only on a very small temporal context and require additional, higherlevel coordination in order to achieve more complex goals (Brooks, 1991). Usually, this is done in a hierarchical fashion. At the lowest level of the hierarchy, simple coordination mechanisms, such as competition or layered subsumption, can be used to build more complex behaviors. At the middle and higher levels, additional, more “deliberative” methods, e. g., decision making and planning on the basis of “world models” and “internal simulation” can be used. While these methods can benefit from better world models than would be available for a real robot, the coupling of a VR scenario with the real world will include many inputs that are not known in advance. So even here the predictive power of world models for planning is limited and the realization of complex autonomous behavior faces similar challenges as familiar from robotics. Finally, at the highest level, there is the need for communication. Currently feasible approaches are based on specialized authoring tools that facilitate the specification of behaviors by providing suitable, usually interactive interfaces (Perlin & Goldberg, 1996; Sannier et al., 1999). Ultimately, however, the most convenient way of instructing a virtual actor is by language, possibly combined with gestures and demonstration by example. Obviously, the realization of such capabilities requires virtual actors to be endowed with very high-level cognitive abilities (Loyall, 1997), including speech understanding and production, an associative memory with a broad world knowledge, planning and understanding of actions, and the ability to express emotions (Bates, 1994). For a review of some recent work, see e. g., Cerezo et al. (1999). While initial approaches to implement narrow subsets of these capabilities are already under way (Funge et al., 1999), even the realization of synthetic actors with a moderate spectrum of cognitive abilities is an extremely large-scale technological challenge

876

VII. Medien

and cuts across numerous fields, including robotics, linguistics, human-machine-communication, neural networks and artificial intelligence, cognitive and brain sciences, biology, and many more.

5.

VR software

The computations for the rendering of a virtual scene, for evaluating available sensors, correlating their input with the displayed data in real-time and providing appropriate actuator commands to feedback devices such as exoskeletons constitute a task whose enormous complexity is reflected in the complexity of the software that is required for its solution. Important requirements are a good scalability with increased demands for more scene complexity or resolution, real-time capability to interface with feedback devices, and good modular extensibility. An important aspect for extensibility is the availability of widely used standards that support portability and interoperability of software components. Moreover, with the increasing importance of distributed applications connected over the Internet, the possibility of distributed VR across network connections will become increasingly important. A coarse classification of VR software is into (i) software libraries offering standardized algorithm or (software) object collections that provide generally useful building blocks to the programmer who wishes to develop a VR system that cannot be realized with an authoring tool. As indicated by the previous discussion, a larger topical division here are rendering libraries for computing the appearance of objects and simulation libraries for the computation of the object’s behavior. (ii) VR authoring systems to facilitate the creation of virtual worlds for various application areas. Unlike software libraries, authoring systems support an interactive construction process at a level of abstraction that is closer to the application domain. They can, therefore, be used without necessarily requiring highly specialized programming skills. (iii) Ready-to-use VR systems for specific applications, such as simulators in the automobile or aircraft industries, but also games or virtual studios, e. g., for the film industry. An intermediate between (ii) and (iii) are VR browsers for the display of a wider range of VR scenarios that are encoded in some platform-independent standard data format. The

emergence of such standardized data formats will also allow the development of generally useable libraries of virtual objects to facilitate the design of new VR scenarios. Generally, the developments on the software sector tend to occur on a rather short time scale. Therefore, we restrict the discussion to the few remarks made above and continue with a discussion of important application areas.

6.

VR applications

Virtual reality environments can be useful in many different fields (Göbel, 1996). VR technology can enrich more traditional CAD technology to provide virtual prototypes which cannot only be seen, but also interacted with. This can support the design process in various ways, e. g., in the evaluation of human factors or the performance of feasibility studies for maintenance procedures of complex technical systems. Another important application area is training and education. Further and obvious application areas are product advertizing, e. g., in virtual shops and entertainment. 6.1. Flight simulators VR systems are now routinely used to train aircraft pilots. A typical simulator, such as for a Boeing 747 airplane (Brooks, 1999), still uses a mechanical cockpit with real physical instruments, but simulates the visual environment on a spherical screen surrounding the front part of the cabin at a few meters distance. Additionally, the entire cabin is mounted on a hydraulically operated motion platform that can translate and gyrate within a range of several meters. A sound system simulates engine sound, wind sound, radios as well as tire noise when touching or moving on the ground. The environment can provide a highly realistic experience of flight situations, including emergency cases which could not be trained in a real airplane. Although expensive, the simulator costs only a tiny fraction of the airplane that it simulates. 6.2. Car simulators Car simulators are now in use for several aspects of automobile design. One system is based on a high-resolution head-mounted display supported by a boom mechanism that actively follows the user’s head motion (Brooks, 1999). The user sits in a real car

877

64. Huge Virtual Reality

seat, with a mocked-up instrument control panel and a real steering-wheel. Magnetic trackers allow to monitor the location and orientation of the user’s hands. The visual appearance of the interior of the car as well as the view through the windows is rendered with a high-end graphics computer. Typical questions investigated with the system are issues of interior design, or ergonomic factors, such as the arrangement of driver controls or the evaluation of different factors on visibility, such as body size or windshield wiper design. 6.3. Medical applications Medicine is another promising area for VR applications. Modern VR techniques allow to navigate through 3D views of inner organs, bones and vessels obtained from 3D body scanners (Gross, 1998). Interactive 3D simulations of the body anatomy can support the planning of complicated or higly delicate surgery, such as brain, bone or corneal surgery (Sourin et al., 2000). Augmented reality systems permit to view the patient overlaid with 3D data sets derived from body scanners, thereby simulating pseudo X-ray vision (Viirre et al., 1998). Recently available haptic devices let students or surgeons practice on virtual body tissue (Meglan, 1996). Other applications employ VR to treat psychic disorders, e. g. by exposing patients to virtual situations tailored to allow them gradually to lose anxieties and phobias (Lear, 1997). 6.4. Architecture Immersive VR systems are extremely wellsuited to provide a walk-through experience of virtual buildings (Brooks & Frederick, 1986). Aspects such as the distribution of light or room acoustics that are difficult to judge from plans or CAD models can be realistically experienced in a VR simulation (Rabenstein et al., 1997; Funkhouser et al., 1998). On a larger scale, the same techniques can be used for city planning. 6.5. Science Science offers many opportunities for VR applications (van Dam et al., 2000). In geology VR can be used to explore large geological data sets (Lin et al., 2000), e. g., to support the discovery of oil or other geological resources. In mathematics VR allows to explore and experience mathematical structures that could not be built in real space. VR techniques can be used to simulate physical

“mock-ups” of laboratory structures that would otherwise be expensive and time-consuming to build (Balaguer & de Gennaro, 1996). Simulations in physics or chemistry allow to navigate through subatomic structures. Haptic VR devices have been used to allow the tactile exploration of molecular surfaces (Taylor et al., 1993). In archeology, VR techniques have been developed and used for the virtual recovery of relicts (Zheng & Zhang, 1999) and their exhibition in virtual museums. 6.6. Education VR can enhance many aspects of teaching and education. One important cognitive factor is that memory retention is greater when educational material is not only viewed passively, but can be explored interactively. VR can, for instance, be used to generate experiences with natural laws that would otherwise not be obtainable (Loftin, 1996). Examples include relativistic effects during space travel, exploration of magnetic or electric field lines, or travel through molecular structures. Virtual experiments can replace or prepare real laboratory experiments that otherwise would be too expensive or dangerous to carry out. When visiting historic sites, augmented virtual reality can be used to superimpose reconstructions of buildings or ancient scenes. Similar techniques can be used to create virtual museums (Sherman, 1997). 6.7. Entertainment Numerous other application opportunities, many of them obvious, are offered in the entertainment sector. Fun parks, such as Disneyworld, make increasing use of VR technologies to create various special experiences, such as space travel, for their visitors. Interactive games with varying degrees of immersion will be a major driving force for the development of low-cost VR devices for the mass market. The film industry is another strong driving force for the development of high-end VR technology, e. g., to create virtual characters with highly natural animation and credible emotions.

7.

References

Ascension Technology Corporation, P.O. Box 527, Burlington, VT 05402, USA. (\tt http://www.ascen sion-tech.com/index.htm) Badler, N. I., Reich, B. D. & Webber, B. L. (1997). Towards personalities for animated agents with re-

878 active and planning behaviors. In R. Trappl & P. Petta (Eds.), Creating personalities for synthetic actors (pp. 43⫺57). Berlin: Springer.

VII. Medien CAVE. In Proc. ACM Siggraph 93, Ann. Conf. Series, (pp. 135⫺142). New York: ACM Press.

Balaguer, J.-F. & de Gennaro, S. (1996). VENUS: A virtual reality project at CERN. Computer Graphics, 30 (4), 40⫺43.

Cruz-Neira, C., Sandin, D., DeFanti, T., Kenyon, R. & Hart, J. (1992). The CAVE: Audio-visual experience automatic virtual environment. Communications of the ACM, 35(6), 65⫺72.

Baraff, D. (1994). Fast contact force computation for nonpenetrating rigid bodies. Computer Graphics (SIGGRAPH 94 Proceedings).

Davidor, Y. (1991). Genetic algorithms and robotics: A heuristic strategy for optimisation. World Scientific Series in Robotics and Intelligent Systems.

Barnsley, M. & Hurd, L. P. (1993). Fractal image compression. Natick, MA.: A. K. Peters Ltd.

DigiScents Inc. (2000). iSmell device (at www.digiscents.com).

Barzel, R. (1992). Physically based modelling for computer graphics. San Diego, CA: Academic Press.

Foley, J. D., van Dam, A. & Feiner, S. K. (1990). Computer graphics: Principles and practice. Reading, MA: Addison Wesley.

Bates, J. (1994). The role of emotion in believable agents. Commun. ACM, 37, 112⫺125.

Fritz, J. P. & Barner, K. E. (1996). Stochastic models for haptic texture. In M. R. Stein (Ed.), Telemanipulator and telepresence technologies III, (Proc. SPIE), (pp. 34⫺44). Boston, MA.

Bolas, M. T. (1994). Human factors in the design of an immersive display. IEEE Computer Graphics and Applications, 14(1), 55⫺59. Braitenberg, V. (1984). Vehicles: Experiments in synthetic psychology. Cambridge, MA: MIT Press. Brooks, F. P. (1999). What’s real about virtual reality? IEEE Computer Graphics and Applications, special issue on Virtual Reality, 19(6), 16⫺27. Brooks, F. P. Jr. & Frederick, P. (1986). Walkthrough – A dynamic graphics system for simulating buildings. Proc. Siggraph Workshop on Interactive 3D Graphics, (pp. 9⫺22). Brooks, R. A. (1991). New approaches to Robotics. Science, 253, 1227⫺1232. Bruderlin, A., Teo, C. G. & Calvert, T. (1994). Procedural movement for articulated figure motion. Computer & Graphics, 18, 453⫺461. Burdea, G. (1996). Force and touch feedback for virtual reality. New York: John Wiley & Sons. Buxton, B. & Fitzmaurice, G. W. (1998). HMDs, Caves & chameleon: A human-centric analysis of interaction in virtual space. Computer Graphics, 32(4), 69⫺74. Cerezo, E., Pina, A. & Seron, F. J. (1999). Motion and behavior modelling: State of art and new trends. The Visual Computer, 15, 124⫺146. Chapman, C. E., Trembly, F. & Ageranioti-Belanger, S. A. (1996). Role of primary somatosensory cortex in active and passive touch. In A. M. Wing, P. Haggard & J. R. Flanagan (Eds.), Hand and brain (pp. 329⫺347). San Diego, CA.: Academic Press. Cruz-Neira, C., Sandin, D. J. & DeFanti, T. A. (1993). Surround-screen projection-based virtual reality: The design and implementation of the

Funge, J., Tu, X. & Terzopoulos, D. (1999). Cognitive modeling: Knowledge, reasoning and planning for intelligent characters. In SIGGRAPH 99 Computer Graphics Proceedings, Annual Conf. Series (pp. 29⫺38). Los Angeles, CA.: ACM. Funkhouser, Th., Carlbom, I., Elko, G., Pingali, G., Sondhi, M. & West, J. (1998). A beam tracing approach to acoustic modeling for interactive virtual environments. SIGGRAPH 98, Proceedings of the 25th Annual Conference on Computer Graphics, July 19⫺24 (pp. 21⫺32). Gibson, W. (1984). Neuromancer. Ace Books. Gleicher, M. (1999). Animation from observation: Motion capture and motion editing. Computer Graphics, 51⫺54. Göbel, M. (1996). Industrial applications of VEs. IEEE Computer Graphics and Applications, 16(1), 10⫺13. Gross, M. H. (1998). Computer graphics in medicine: From visualization to surgery simulation. Computer Graphics, 32(1), 53⫺56. Grzeszczuk, R., Terzopoulos, D. & Hinton, G. (1998). Neuroanimator: Fast neural network emulation and control of physics-based models. In Proc. ACM SIGGRAPH 98 Conference (pp. 9⫺20). Orlando, FL. Hearn, D. & Baker, P. (1997). Computer graphics. New Jersey: Prentice Hall. Hinckley K., Pausch R., Goble, J. & Kassel N. (1994). A survey of design issues in spatial input. Proc. of UIST 94, ACM 1994 (pp. 213⫺222). Ikei, Y., Wakamatsu, K. & Fukuda, S. (1997). Vibratory tactile display of image-based textures. IEEE Computer Graphics and Applications, 17(6), 53⫺61.

64. Huge Virtual Reality Jacobs, O. L. R. (1993). Introduction to control theory. Oxford: Oxford University Press. Johnson, K. O., Hsio, S. S. & Twombly, I. A. (1995). Neural mechanisms of tactile form recognition. In M. Gazzaniga (Ed.), The cognitive neurosciences (pp. 253⫺267). Cambridge: MIT Press. Kasik, D. J. (2000). Viewing the future of CAD. IEEE Computer Graphics and Applications, 20(1), 34⫺35. Krüger, W. & Fröhlich, B. (1994). The responsive workbench. IEEE Computer Graphics and Applications, 14, 12⫺15. Labtec. 3D Motion Control Technology Group, USA, 1499 SE Tech Center Place, Vancouver, WA 98683⫺9575 (http://www.labtex.com). Lanier (1996). A cyberspace Renaissance man reveals his current thoughts on the World Wide Web, virtual realilty and other silicon dreams. Scientific American interview. Interview by Mark Jones, September 1996. Lantz, E. (1997). Future directions in visual display systems. Computer Graphics, 31(2), 38⫺44. Lear, A. C. (1997). Virtual reality provides real therapy. IEEE Computer Graphics and Applications, 17(4), 17⫺20.

879 Macedonia, M. R., et al. (1994). NPSNet: A network software architecture for large-scale virtual environments. Presence: Teleoperators and Virtual Environments, 3(4), 265⫺287. Macintyre, B. & Feiner, S. (1996). Future multimedia user interfaces. Multimedia Systems, 4, 250⫺ 268. Magenat-Thalmann, N. & Thalmann, D. (1991). Computer animation: Theory and practice. Springer Verlag. Mandelbrot, B. B. (1977). The fractal geometry of nature. San Francisco: Freeman Press. McNeely, W. A., Puterbaugh, K. D. & Troy, J. J. (1999). Six degree-of-freedom haptic rendering using voxel sampling. SIGGRAPH99 Conf. Proc., (pp. 401⫺408). Meas, P. (1990). Designing autonomous agents. Special issue of Robotics and Autonomous Systems, 6. Meglan, D. (1996). Making surgical simulation real. Computer Graphics, 30(4), 37⫺39. Metaxas, D. & Terzepoulos, D. (1992). Dynamic deformation of solid primitives with constraints. Computer Graphics, 26, 309⫺312.

Lederman, S. J. (1991). Skin and touch. In R. Delbucco (Ed.), Encyclopedia of human biology (pp. 51⫺63). San Diego, CA: Academic Press.

Middlebrooks, J. C. & Green, D. M. (1991). Sound localization by human listeners. Annu. Rev. Psychol., 42, 135⫺159.

Lederman, S. J. & Klatzky, R. L. (1994). The intelligent hand: An experimental approach to human object recognition and implications for robotics and AI. AI Magazine, 15, 26⫺38.

Moore, M. & Wilhelms, J. (1988). Collision detection and response for computer animation. Computer Graphics (SIGGRAPH 88 Proceedings), 22, 289⫺298.

Lederman, S. J. & Klatzky, R. L. (1996). Manual exploratory movements for haptically processing objects and their features. In A. M. Wing, P. Haggard & J. R. Flanagan (Eds.), Hand and brain (pp. 431⫺446). San Diego, CA.: Academic Press.

Narendra, K. S. & Parthasarathy, K. (1990). Identification and control of dynamical systems using neural networks. IEEE Transactions on Neural Networks, 1, 4⫺27.

Lem (1981). Summa technologiae. Suhrkamp taschenbuch 678. Frankfurt: Suhrkamp Taschenbuch Verlag (Polnische Erstausgabe Krakau 1964). Lin, C. R., Nelson, H. R. & Loftin, R. B. (2000). Interaction with geoscience data in an immersive environment. In Proc. IEEE Virtual Reality 2000 (pp. 55⫺62). Los Alamitos, CA: IEEE Computer Society Press. Loftin, R. B. (1996). Aerospace applications of virtual environment technology. Computer Graphics, 30(4), 33⫺35. Loyall, A. B. (1997). Some requirements and approaches for natural language in a believable agent. In R. Trappl & P. Petta (Eds), Creating personalities for synthetic actors (pp. 113⫺119). Berlin: Springer.

Paul, R. P. (1981). Robot manipulators: Mathematics, programming and control. Cambridge, MA: MIT Press. Peitgen, H. O. & Saupe, D. (1988). The science of fractal images. Berlin: Springer. Pentland, A. (2000). Perceptual intelligence. Communications of the ACM, 43(3), 35⫺44. Perlin, K. & Goldberg, A. (1996). Improv: A system for scripting interactive actors in virtual worlds. SIGGRAPH 96 Proceedings (pp. 205⫺ 216). Perry, L. D. S., Smith, C. M. & Yang, St. (2000). An investigation of current virtual reality interfaces. (www.acm.org/crossroads/xrds3⫺3/vrhci.html). Piegl, L. (1991). On NURBS: A survey. IEEE Computer Graphics and Applications, 11(1), 55⫺71.

880 Polhemus Inc., 40 Hercules Drive, P.O.B. 560, Colchester, VT 05446, (http://www.polhemus.com/ home.htm).

VII. Medien Sturman, D. (1998). The state of computer animation. Computer Graphics, 32(1), 57-61.

Preparata, F. P. & Shamos, M. I. (1985). Computational geometry. New York: Springer.

Sturman, D. & Zeltzer, D. (1994). A survery of glove-based input. IEEE Computer Graphics and Applications, 14(1), 30⫺39.

Prusinkiewicsz, P. & Lindenmayer, A. (1990). The algorithmic beauty of plants. New York: Springer Verlag.

Stytz, M. R. (1996). Distributed virtual environments. IEEE Computer Graphics and Applications, 16(3), 19⫺31.

Pullen, J. M. & Wood, D. C. (1995). Networking technology and DIS. Proc. IEEE, 83(8), 1156⫺ 1167.

Sutherland, I. E. (1963). Sketchpad: A man-machine graphical communication system. AFIPS Spring Joint Computer Conference, 23, 329⫺346.

Rabenstein, R., Schips, O. & Stenge, A. (1997). Acoustic rendering of buildings. 5th Int. Conf. Building Simulation (pp. 8⫺10).

Takala, T. & Hahn, J. (1992). Sound rendering. Computer Graphics, 26(2), 211⫺219.

Reynolds, C. W. (1987). Flocks, herds and schools: A distributed behavioral model. Computer Graphics, 21, 25⫺34.

Taylor, R. M. II, Robinet, W., Chi, V. L., Brooks, F. P. Jr., Wright, W. V., Williams, R. St. & Snyder, E. J. (1993). The nanomanipulator: A virtual reality interface for a scanning tunneling microscope. SIGGRAPH93 Conf. Proceedings (pp. 127⫺133).

Ritter, H., Cruse, H. & Dean, J. (2000). Prerational intelligence: Adaptive behavior and intelligent systems without symbols and logic, 2. Dordrecht: Kluwer.

Thalmann, D. & Thalmann, M. (1987). The direction of synthetic actors in the film Rendez-vous a` Montreal. IEEE Comput. Graph. Appl., 7, 9⫺19.

Salisbury, J. K. & Srinivasan, M. A. (1997). Phantom-based haptic interaction with virtual objects. IEEE Computer Graphics and Applications, 17(5), 6⫺10.

Tidwell, M., Johnston, R. S., Melville, D. & Furness, T. A. (1995). The virtual retinal display – A retinal scanning imaging system. Proceedings Virtual Reality World 95 (pp. 325⫺333).

Sannier, G., Balcisoy, S., Magnenat-Thalmann, N. M. & Thalmann, D. (1999). VHD: A system for directing real-time virtual actors. Visual Computer, 15, 320⫺329.

Tu, X. & Terzopoulos, D. (1994). Artificial fishes: Physics, locomotion, perception, behavior. Proc. Siggraph 94 (pp. 43⫺50). New York: ACM Press.

Sherman, W. R. (1997). Experiences with virtual reality applications. SIGGRAPH 97 Computer Graphics Proceedings, Annual Conf. Series, (pp. 473⫺476). Sims, K. (1994). Evolving virtual creatures. Comp. Graphics Proc. SIGGRAPH 94, 15⫺22. Singhal, S. & Zyda, M. (1999). Networked virtual environments ⫺ Design and implementation. Reading, MA.: Addison Wesley. Sourin, A., Sourina, O. & Tet Sen, H. (2000). Virtual orthopedic surgery training. IEEE Computer Graphics and Applications, 20, 6⫺9. Los Alamitos CA.: IEEE Computer Society. Special issue on Large Wall Displays (2000). IEEE Computer Graphics and Applications, 20(4). Srinivasan, M. A. & Basdogan, C. (1997). Haptics in virtual environments: Taxonomy, research status and challenges computers and graphics. Special Issue on Haptic Displays in Virtual Environments, 21(4). Stone, M. (1999). IEEE computer graphics and applications. Special issue on VRML, 19(2). Los Alamitos, CA: IEEE Computer Society.

Urey, H., Nestorovic, N., Baldwin, N. & Gross, A. (1999). Optics design and system MTF for laser scanning displays. White paper of Microvision Inc. Available at http://www.mvis.com. van Dam, A., Forsberg, A. S., Laidlaw, D. H., LaViola, J. J. & Simpson, R. M. (2000). Immersive VR for scientific visualization: A progress report. IEEE Computer Graphics and Applications, 20, 26⫺52. Viirre, E., Pryor, H., Nagata, S. & Furness, T. A. (1998). The virtual retinal display: A new technology for virtual reality and augmented vision in medicine. In D. Stredney & S. J. Weghorst (Eds.), Proceedings of Medicine Meets Virtual Reality (pp. 252⫺257). San Diego, Amsterdam: IOS Press and Ohmsha. Wiley, D. J. & Hahn, J. K. (1997). Interpolation synthesis of articulated figure motion. IEEE Computer Graphics and Applications, 17(6), 39⫺45 Wren, C., Azarbayejani, A., Darrell, T. & Pentland, A. (1997). Pfinder: Real-time tracking of the human body. IEEE PAMI, 19, 780⫺785. Wu, J.-R. & Ouhyong, M. (2000). On latency compensation and its effects on head-motion trajecto-

881

65. Kommunikation aus der Sicht der Nachrichtentechnik ries in virtual environments. The Visual Computer, 16, 79⫺90. Zeltzer, D. (1982). Motor control techniques for figure animation. IEEE Computer Graphics Applications, 2, 53⫺59.

Zheng, J. Y. & Zhang, Z. L. (1999). Virtual recovery of excavated relics. IEEE Computer Graphics and Applications, 19(3), 6⫺11.

Helge Ritter Universität Bielefeld (Deutschland)

65. Kommunikation aus der Sicht der Nachrichtentechnik 1. 2. 3. 4. 5. 6.

Einführung: Nachrichtentechnik? Formen der technischen Kommunikation Sprache als Arbeitsfeld der Nachrichtentechnik Multimedia Ausblick Literatur

1.

Einführung: Nachrichtentechnik?

Der Begriff „Nachrichtentechnik“, der sich in den 1950er Jahren als Nachfolger der Begriffe „Schwachstromtechnik“ und „Fernmeldetechnik“ durchsetzte, gehört sicherlich heute nicht mehr zu den unmittelbar eingängigen. Seine Nachfolge hat mittlerweile der Terminus „Informationstechnik“ (englisch „Communications“) angetreten. Ein Nachrichtentechniker ist nicht etwa ein Mensch, der im Auftrag von Nachrichtendiensten tätig ist. Die Nachrichtentechnik ist die Wissenschaft, welche Methoden zur Erzeugung, Codierung, Speicherung, Übertragung und Verarbeitung von Signalen entwickelt. Dabei sind Signale die physikalische Repräsentation einer Nachricht oder – synonym ⫺ einer Information. Die Nachrichtentechnik ist ein Fachgebiet der Elektrotechnik und wird in einer moderneren Terminologie auch als Informationsoder Kommunikationstechnik bezeichnet. Man kann sicherlich zu Recht behaupten, dass ohne Nachrichtentechnik die heute bekannten technischen Kommunikationsformen nicht existierten. Anders als das benachbarte Fachgebiet der Informatik bearbeitet die Nachrichtentechnik auch die Felder der Übertragungs- und Speicherungstechnik, stellt auf diese Weise also erst die technischen Infrastrukturen bereit, über die dann Signale fließen können.

2.

Formen der technischen Kommunikation

Die Formen der technischen Kommunikation sind seit der Erfindung des Telefons in der Mitte des neunzehnten Jahrhunderts extrem

vielfältig geworden. Orientiert man sich ein wenig an der historischen Entwicklung (Aschoff, 1984), so müsste eine Auflistung dieser Formen und ihrer Schlüsselkomponenten aus der Sicht des privaten Nutzers etwa wie folgt aussehen: Telefonie (schon im 19ten Jahrhundert beginnend), Hörrundfunk, Magnetband, Fernsehrundfunk, Bildtelefonie, PC, CD/CD-ROM, Internet, E-Mail, Mobiltelefonie, Datenrundfunk, Digital Versatile Disk (DVD). Die Entwicklung neuer Formen ist aber noch längst nicht abgeschlossen. Das aktuelle generelle Entwicklungsziel der Nachrichtentechnik lässt sich dabei etwa wie folgt formulieren: Jedem Nutzer sollen an jedem Ort alle von ihm gewünschten Informationen in bestmöglicher technischer Qualität bei gleichzeitiger Berücksichtigung der wirtschaftlichen Möglichkeiten bereitgestellt werden. In dieser Zielsetzung erkennt man eine Besonderheit der Arbeiten auf dem Feld der Nachrichtentechnik. Neben der Optimierung der technischen Leistungsmerkmale ist stets die wirtschaftliche Dimension zu berücksichtigen. Ein praktisches Beispiel möge dies erläutern. Die Entwicklung der Mobiltelefonie begann mit den sogenannten Autotelefonen, welche groß und teuer und deshalb über Jahrzehnte auch nur in den Autos von wohlhabenden Nutzern zu finden waren. Das Ziel der Entwicklung von Mobiltelefonie auch für den Normalbürger, welches mit der Einführung des heute in ganz Europa und in weiten Teilen der Welt verbreiteten GSM-Systems (Global Standard for Mobile Communications) erreicht wurde, war es, über kleine „Handys“ Telefonie und Datendienste anbieten zu können. Bei der Entwicklung von GSM war absehbar, dass – falls die Zielsetzung erreicht werden würde – mit großen Nutzerzahlen zu rechnen sein würde. Nun basieren Mobiltelefone aber naturgemäß auf der Verwendung von Funkübertragung, welche unter Belegung von „Frequenzen“ funktio-

882 niert. Eine Frequenz ist Teil des Frequenzspektrums. Sie ist eine wertvolle begrenzte (auch volkswirtschaftlich bedeutsame) Ressource, denn sie kann an einem Ort oder in einer Region im Grundsatz immer nur einmal genutzt werden. In Anbetracht der Tatsache, dass ein Mobiltelefon also eine solche Frequenz nutzt, musste daher die für jedes einzelne Telefonat bereitgestellte Datenrate (gemessen in Bit pro Sekunde [Bit/s]) – und, daraus folgend, das für eine Telefonverbindung belegte Frequenzspektrum – so weit vermindert werden, dass die Sprachverständigung gerade noch akzeptabel bleibt. Die Qualität der Sprachverständigung wird hier in mehreren Dimensionen definiert. Unter anderem wird sie an der Silbenverständlichkeit, aber auch an der Verzögerungszeit zwischen Rede und Gegenrede gemessen, welche ein Mobilfunksystem aus technischen Gründen einfügt. Wäre dieses Ziel nicht angestrebt bzw. nicht erreicht worden, so gäbe es heute nicht den gewaltigen Erfolg der Mobiltelefonie auch in Deutschland. Man kann aus dem beschriebenen Beispiel eine grundsätzliche Regel aufstellen, die da lautet: Je natürlicher Töne und Bilder auf den Rezipienten wirken sollen, nachdem sie von A nach B übertragen worden sind, oder je natürlicher Sprache klingen soll, wenn man sie zum Beispiel aus einem Datenspeicher abruft, desto mehr Daten pro Zeiteinheit muss man dafür verwenden und desto teurer werden die Betriebskosten. Wäre Kommunikation völlig entpersonalisierbar, so würde die Nachrichtentechnik zur immer weiteren Verbesserung der Kosteneffizienz sogar darauf hin arbeiten, Töne und Bilder zum Beispiel bei einer Übertragung per Bildtelefon auf der Seite des einen Teilnehmers in vollständig abstrahierte Merkmalsgruppen zu zerlegen, um sie im Endgerät des anderen Teilnehmers völlig synthetisch aus diesen Merkmalen zu regenerieren. Praktisch könnte dies heißen, dass eine stets gleiche, angenehme und natürliche, je nach Gesprächspartner mal männliche, mal weibliche Stimme zu hören wäre, unabhängig davon, wer am anderen Ende der Leitung ist. Außerdem sähe man auf dem Bildschirm künstlich generierte Objekte bzw. Personenpuppen (sogenannte „virtuelle Menschen“ werden in der Fachterminologie als „Avatar“ bezeichnet), welche in ihren Bewegungen dem folgen, was beim anderen Teilnehmer vor der Kamera des Bildtelefons passiert. Vielleicht wären die Gesichtszüge des Avatars denen des lebenden Gesprächsteilnehmers nachge-

VII. Medien

bildet. Vielleicht stimmte sogar seine Kleidung in etwa mit der wirklichen überein. Kommunikation ist in vielen Anwendungen jedoch nicht ohne reale Menschen denkbar. Deshalb stellt das geschilderte Beispiel auch nicht das allgemeine Entwicklungsziel der Nachrichtentechnik dar. Dennoch werden Nutzer nachrichtentechnischer Systeme zunehmend mit Avataren und künstlicher Sprache konfrontiert werden. Immer dann nämlich, wenn zum Beispiel in multimedialen Anwendungen, bei denen den Wünschen des Nutzers adaptiv gefolgt werden soll, eine komplette Vorproduktion aller Möglichkeiten mit lebenden Schauspielern nicht möglich ist. Man denke an Interaktive Spiele oder an Fremdsprachen-Lehrprogramme, in denen zum Beispiel ein Avatar genutzt werden könnte, um einen vom Nutzer geschriebenen Text in einer anderen Sprache vorzulesen und dabei die korrekte Lippenformung zu demonstrieren. Ohne reale Menschen kommen natürlich auch zahllose Formen der Datenkommunikation aus, bei denen Sprache und natürliche Bilder keine Rolle spielen. Verfolgt man das Ziel, zukünftige Formen der technischen Kommunikation zu prognostizieren, so kann man mit großer Sicherheit voraussagen, dass die Bedeutung der sogenannten Digitalisierung weiter zunehmen wird und in wenigen Jahren alle Kommunikationssysteme digital arbeiten werden. Der Nutzer wird dies nicht direkt merken, außer vielleicht dadurch, dass er sich einen neuen Fernsehempfänger gekauft hat, an dem das Wort „Digital“ als Werbeaufkleber verwendet wurde. Die Digitalisierung hat allerdings zur Folge, dass in zukünftigen Kommunikationssystemen nicht mehr grundsätzlich getrennt zu werden braucht zwischen Bild, Ton und Daten. Schon heute werden zum Beispiel in einem Sendernetz für das Digitale Fernsehen, welches in Norddeutschland aufgebaut wird (Reimers, 1998), Fernsehprogramme, Hörfunkprogramme, Internetseiten und regionale Informationen in einem einzigen Kanal, genauer in einem digitalen Datenstrom übertragen. Eine weitere Entwicklung der technischen Kommunikationsformen ist die Bereitstellung immer differenzierterer Typen von Endgeräten. Während man noch in den 1970er Jahren in einem typischen Haushalt nur zwei oder drei Hörfunkempfänger, das Fernsehgerät im Wohnzimmer und das Telefon im Flur kannte, werden in einem Haushalt des Jahres 2005 die vielfältigsten Geräte stehen: Schnur-

65. Kommunikation aus der Sicht der Nachrichtentechnik

lose Telefone, PCs, Fernsehempfänger mit eingebautem Internetzugang und E-Mail, Personal Communicators etc.. Im Wohnzimmer wird es möglicherweise einen kleinen, als technisches Gerät kaum erkennbaren, Server geben, in dem ein Datenspeicher mit gewaltiger Kapazität steckt, der nicht nur als klassischer Anrufbeantworter funktioniert, sondern der auch Hörfunk- und Fernsehprogramme aufzeichnet sowie als lokaler Speicher für regelmäßig oder auch sporadisch aufgefrischte Internetangebote zur Verfügung steht. Es wird Taschengeräte geben, über die man nicht nur telefoniert, sondern die auch Fernseh- und Hörfunkprogramme zu nutzen gestatten, über die man E-Mails lesen und schreiben und – falls Faxgeräte dann überhaupt noch eine Rolle auf dem Markt spielen – auch Faxe versenden kann. Und natürlich bieten diese Taschengeräte Zugang zum Internet. Generell wird die individuelle und mobile Kommunikation immer bedeutender werden. Ob die beschriebenen Geräte tatsächlich notwendig sind, ist eine rhetorische Frage. Wäre vor zehn Jahren in einem Beitrag wie diesem vorhergesagt worden, dass im Jahr 2000 nahezu jeder erwachsene Deutsche unter 40 Jahren ein „Handy“ in der Tasche haben wird, hätte der Großteil der Leser nur milde gelächelt und sich die Frage gestellt, ob der normale Mensch denn wirklich zu jeder Zeit telefonisch erreichbar sein muss. Heute lächelt niemand mehr – das Handy ist nahezu überall und stets präsent.

3.

Sprache als Arbeitsfeld der Nachrichtentechnik

Betrachtet man speziell die Sprache als ein Arbeitsfeld der Nachrichtentechnik, so ist zu konstatieren, dass sich eine ganze Gruppe von Nachrichtentechnikern mit der Erkennung von Sprache, ihrer Verarbeitung, speziell ihrer Codierung und mit der Erzeugung möglichst natürlich klingender Sprache beschäftigt (Paulus, 1998). Hingegen spielen die früher einmal bedeutenden Disziplinen Sprachübertragung und Sprachspeicherung in der Forschung praktisch keine Rolle mehr. Im Zuge der Digitalisierung ist Sprache ein Signalinhalt eines digitalen Datenstromes unter vielen geworden, der sogar verhältnismäßig einfach zu speichern und zu übertragen ist, weil die benötigte Datenmenge bzw. die benötigte Datenmenge pro Zeiteinheit, die

883

Datenrate, insbesondere im Vergleich zu der von Bildsignalen, nicht besonders groß sind. Dies gilt selbst dann, wenn man Sprache als allgemeines Audiosignal betrachtet und dieses – wie bei der Speicherung auf einer CD – mit höchster Qualität digitalisiert. 3.1. Spracherkennung Auf dem Gebiet der Spracherkennung sind in den 1990er Jahren gewaltige Fortschritte gemacht worden. Diese sind nicht nur Fachleuten deutlich, sondern sind auch für den aufmerksamen Normalmenschen nicht zu übersehen. Nahezu jeder Anruf in einem sogenannten Call Center führt dazu, dass die Anruferin oder der Anrufer gefragt wird, zu welchem Thema Informationen benötigt werden. Diese Frage erfolgt im Regelfall nicht durch einen Menschen, sondern durch ein technisches System. Auch die Antwort wird von einem technischen System ausgewertet. Hierbei spielt die Spracherkennung eine sofort einsehbare Rolle. Für nur etwas mehr als 50 Euro kann man im PC-Handel Softwarepakete erwerben, die der Spracherkennung dienen. Die Software wird auf dem PC installiert und soll dann unter anderem die Texteingabe per Sprache ermöglichen. Dies geschieht nicht fehlerfrei, jedoch lässt sich die Spracherkennungssoftware so trainieren, dass sie bei Benutzung durch einen einzigen Sprecher für viele Anwendungsfelder, zum Beispiel für das Diktieren ärztlicher Diagnosen, die Eingabe von Warenlisten etc., ausreichende Leistung bietet. Das grundsätzliche Problem der Spracherkennung liegt darin, dass man von ihr idealerweise Fehlerfreiheit erwartet, auch wenn ständig wechselnde Sprecher mit unterschiedlichsten Dialekten Text beliebig großen Vokabularumfanges eingeben wollen. Dies kann die automatische Spracherkennung heute noch nicht leisten. Wenn Spracherkennungssysteme aber auf individuelle Sprecher trainiert werden und wenn sie in einer ruhigen, das heißt also störungsarmen, Umgebung eingesetzt werden, wenn der Nutzer sorgfältig artikuliert, Pausen zwischen Wörtern einfügt und wenn das Vokabular begrenzt ist, so lassen sich bereits hervorragende Ergebnisse, also eine für den jeweiligen Anwendungsfall ausreichend geringe Zahl von Fehlerkennungen, erzielen. In zahlreichen Büroanwendungen ist dies heute bereits der Fall. Nach Paulus (1998) müssen die Einsatzbedingungen für technische Systeme zur Spracherkennung innerhalb bestimmter und

884 im Allgemeinen sehr enger Grenzen gehalten werden. Solche Grenzen können z. B. ⫺ die Art und den Umfang des Wortschatzes, ⫺ die Anzahl der Sprecher, ⫺ die Sprechweise und die Sprechdisziplin, ⫺ die Position des Sprechers zum Mikrofon, ⫺ das Mikrofon, ⫺ die Übertragung des Sprachsignals und ⫺ die Umgebungsgeräusche betreffen. Oft sind als Wortschatz nur die zehn Ziffern und einige wenige zusätzliche Wörter zugelassen („ja“, „nein“, „weiter“, „zurück“….). Die fortschrittlichsten unter den heutigen Systemen erlauben aber einen Wortschatz von einigen zehntausend Wörtern. Bei derartig großen Vokabularen sind Spracherkennungssysteme meist fest auf einen bestimmten Sprecher trainiert oder allenfalls sprecheradaptiv. Nach Anwendungsfeldern gruppiert, lassen sich sehr grob drei Gruppen von Spracherkennungssystemen unterscheiden: ⫺ Systeme zur Steuerung von Geräten, ⫺ Diktiersysteme, ⫺ Auskunfts- und Assistenzsysteme. In die erste Gruppe fallen meist Systeme zur Einzelwort- oder Wortkettenerkennung. Sie ermöglichen zum Beispiel die Bedienung von Telefonapparaten, Autoradios, Operationsmikroskopen, Personal Computern etc. Diktiersysteme zeichnen sich vor allen Dingen durch einen großen Wortschatz aus und bewältigen neuerdings auch kontinuierlich gesprochene Sprache. In die dritte Gruppe fallen Spracherkennungssysteme, mit deren Hilfe gesprochene Anfragen und Kommandos an Datenbanken oder Expertensysteme gerichtet werden können. Spracherkennungssoftware ist anspruchsvoll bezüglich der benötigten Rechnerleistung. Nun erlebt auch die Öffentlichkeit mit, wie rasant die Rechnerleistung auch preiswerter PCs Jahr für Jahr zunimmt. Tendenziell werden daher die Erkennungsleistungen von Spracherkennungssoftware schon dadurch laufend besser, dass bei immer schnelleren PCs während der laufenden Spracheingabe immer mehr Operationen zur Texterkennung möglich werden. Der immer weiteren Verbesserung der Algorithmen der Spracherkennung widmet sich international eine große Zahl von Forschern aus den Fachrichtungen Nachrichtentechnik und Informatik. Zur Lösung von Aufgaben

VII. Medien

der Spracherkennung ist man dabei in den letzten Jahren zunehmend davon abgerückt, Vorstellungen über die Sprachgenerierung beim Menschen oder über seine Sprachwahrnehmung in technische Lösungen umzusetzen – die mit diesem Ansatz erreichbaren Ergebnisse sind nicht gut genug. Statt dessen wurden Konzepte entwickelt, die Sprache als Zufallsfolge zu interpretieren und die Klassifikation derartiger Zufallsfolgen durchzuführen. Der Begriff „Zufallsfolge“ mag hier irreführend wirken, da Sprache ja kein im klassischen Verständnis des Begriffes „zufälliger“ Prozess ist. Berücksichtigt man aber zum Beispiel die bedingten Wahrscheinlichkeiten des Überganges zwischen einer Silbe und ihrer Nachfolgerin, so ist die Sprache mit dem Instrumentarium der Statistik behandelbar. Überwiegend werden hierfür „VerdeckteMarkoff-Modelle“ (Hidden Markoff Models – HMM) verwendet, seltener die dynamische Zeitanpassung. Abgesehen von künstlichen neuronalen Netzen werden Ansätze zur Klassifikation von Zufallsvektoren kaum noch als Kernstück der Spracherkennung erwogen (Paulus, 1998). 3.2. Sprachcodierung Die Sprachcodierung dient im Allgemeinen dem Zweck, die zur Speicherung oder Übertragung benötigte Datenmenge zu minimieren. Wenn man für numerische Betrachtungen die Datenmenge als Referenz verwendet, welche bei einer CD Verwendung findet, so errechnet man diese zu etwa 1,4 Millionen Bits, welche während jeder Sekunde Spielzeit von der CD abgegeben werden. Hierbei ist das Bit (aus „BInary DigiT“) die Maßeinheit der Information. Ein Bit ermöglicht die Unterscheidung zweier Zustände. Da Information nachrichtentechnisch die Vermehrung des Wissens seines Rezipienten kennzeichnet und diese Vermehrung bereits mit zwei Zuständen (z. B. „Alarmglocke an“ / „Alarmglocke aus“) möglich ist, wird das Bit als Basiseinheit verwendet. Die Zahl der Bits, welche pro Sekunde übertragen werden, nennt man die Datenrate. Bei der CD ist diese also 1,4 Millionen Bit/s. Mit dieser Datenrate ist es möglich, allerbeste Tonqualität zu übertragen, wie jeder CD-Nutzer bestätigen wird. Setzt man hingegen das Handy, also ein GSM-Mobiltelefon ein, so erlebt man, dass auch mit einer Datenrate von nur wenigen tausend Bit/s (maximal 9.600 Bit/s) für das Verstehen ausreichende Sprachqualität reali-

65. Kommunikation aus der Sicht der Nachrichtentechnik

siert werden kann. Die Reduktion der Datenrate um den Faktor (1,4 Millionen / 9.600 ⫽) 146 ist das Ergebnis der Sprachcodierung. Die Sprachcodierung setzt üblicherweise nicht auf eine vorgeschaltete Spracherkennung. In Spracherkennungssystemen wird aus gesprochener Sprache ein Datensatz erzeugt, der dann zum Beispiel als Textdatei gespeichert und übertragen werden kann. In diesem Fall ist Sprachcodierung als eigenständige Maßnahme überflüssig, denn die Textdatei besitzt bereits viele Eigenschaften eines hochgradig in der Datenrate reduzierten Signals. Mit Standard-Software kann die Datenmenge für eine Textdatei weiter verringert werden („zippen“). Sprachcodierung wird dafür aber nicht benötigt. Bei der Sprachcodierung ist grundsätzlich zu entscheiden, ob wirklich nur die Sprache im Mittelpunkt der Betrachtung stehen soll oder ob die Sprache als ein Schallereignis unter vielen angesehen wird. Ist Letzteres der Fall, soll also auch zum Beispiel Musik mit codiert werden, so wird man hierfür Verfahren verwenden, die unter dem Namen „MPEG“ gehandelt werden. In der Öffentlichkeit vielleicht am bekanntesten geworden ist der Begriff „MP3“, der eigentlich heißen müsste „MPEG Layer 3“. Mit MP3 werden (Musik-) Dateien bezeichnet, welche zum Beispiel über das Internet übertragen, im lokalen PC gespeichert und dann mit einem sogenannten „MP3-Player“ abgespielt werden, welcher entweder als Software auf dem PC läuft oder auch als separates Gerät gekauft werden kann. Auf diese Weise stehen jedem Internet-Nutzer zu jeder Zeit und überall nahezu unbegrenzt viele Musiktitel zur Verfügung ⫺ legal oder illegal. MPEG ist die Abkürzung für die Moving Pictures Experts Group, einen Zusammenschluss von mehreren hundert Organisationen aus aller Welt, welche sich zum Ziel gesetzt haben, gemeinsam weltweit gültige Standards für die Bildund für die Toncodierung zu entwickeln (Reimers, 1997). Unter der Bezeichnung „MPEG Layer 2“ firmiert die Form des Standards für die Toncodierung, welche im digitalen Hör- und Fernsehrundfunk eingesetzt wird. Verringert man unter Verwendung von MPEG Layer 2 die Datenrate eines Audiosignals von den für die CD typischen 1,4 Millionen Bit/s auf 192.000 Bit/s (192 kbit/s), also etwa um den Faktor 7, so ist die resultierende Audioqualität noch immer so hervorragend, dass ein Unterschied zu der Originalqualität der CD höchstens noch von geübten Zuhö-

885

rern im direkten Qualitätsvergleich wahrnehmbar ist. MPEG Layer 3, also MP3, gestattet eine Reduktion der Datenrate sogar um etwa den Faktor 20 bei nicht ernsthaft störenden Qualitätseinbußen. Insbesondere bei Pop-Musik mit ihren speziellen Eigenheiten bezüglich der auftretenden Dynamik etc. bleiben Qualitätsunterschiede kaum hörbar. Beschränkt man den Einsatzbereich der Toncodierung von vornherein auf Sprache, so darf man das Frequenzband und den Dynamikbereich schon vor der Toncodierung nennenswert einschränken. Außerdem ist es möglich, auf die spezifischen statistischen Signaleigenschaften von digitalisierter Sprache zurückzugreifen. Eine ganze Familie von Codierverfahren steht zur Sprachcodierung zur Verfügung. Damit sind Datenraten von nur einigen kbit/s erreichbar ⫺ allerdings unter Inkaufnahme von hörbaren, möglichst jedoch nicht ernsthaft störenden, Beeinträchtigungen. Zu den möglichen Codierverfahren gehören Analyse-Synthese-Systeme. In Analyse-Synthese-Systemen dient die Analyse dazu, eine zumindest teilweise parametrische Darstellung des Sprachsignals zu liefern, die als Grundlage für die Rekonstruktion durch „parametergeführte Synthese“ verwendet wird (Paulus, 1998). Verwendet man als Analyse-Synthese-Systeme zum Beispiel die sogenannten Kanal-, Formant- oder Prädiktionsvocoder, so kann man damit gerade noch verstehbare Sprache schon mit etwa 1 kbit/s realisieren. Mit 4 kbit/s erreicht man gute Sprachqualität. Zum Einsatz kommen derartig niedrige Datenraten insbesondere dann, wenn Sprache über das Internet übertragen werden soll (Voice over IP). 3.3. Spracherzeugung Spracherzeugung findet bereits in den im vorhergehenden Abschnitt erwähnten AnalyseSynthese-Systemen statt. Hörbare Sprache entsteht dort aus den Parametersätzen, welche aus der Analyse gesprochener Sprache resultieren. Hier soll die Spracherzeugung jedoch anders verstanden werden. Sie soll beispielsweise aus Informationen, die als Text vorliegen, Sprache erzeugen. Praktische Anwendungen sind das Vorlesen von Telefonnummern bei der Telefonauskunft, die automatische Fahrplanauskunft oder auch die bereits als PC-Programm verfügbare Vorlesefunktion, durch die mittels einer „Maus“ am Bildschirm ausgewählte Textblöcke vorgelesen werden können. Die in den meisten Spracherzeugern zu Grunde liegenden techni-

886

VII. Medien

schen Systeme sind die „lautschriftgeführte Sprachsynthese“ und die „textgeführte Sprachsynthese“. Die lautschriftgeführte Sprachsynthese bildet meist keine für sich allein genommen vollständige Funktionseinheit, sondern ist im Allgemeinen nur ein Teil der textgeführten Synthese. Die textgeführte Synthese beinhaltet praktisch immer eine automatische Transkription des Textes von Rechtschrift, der Schrift also, welche wir aus geschriebenen Texten kennen, in Lautschrift, an die sich die lautschriftgeführte Synthese anschließt (Paulus, 1998). Das Inventar kleinster Einheiten, aus denen ein synthetisches Sprachsignal zusammengesetzt wird, ist je nach Wahl des Inventars und der Anforderung an die Mehrsprachigkeit der Spracherzeugung zu definieren. Wollte man zum Beispiel Silben benutzen, um deutsche Sprache zu synthetisieren, so benötigte man ein Silbeninventar mit mehreren tausend Einheiten. Eben wegen dieser großen Zahl werden Silben aber auch kaum verwendet. Weit verbreitet ist hingegen die Verwendung sogenannter Diphone. Vereinfacht ausgedrückt, umfasst ein Diphon einen Ausschnitt aus einer Folge von zwei Lauten, der von der „Mitte“ des ersten bis zur „Mitte“ des zweiten Lautes reicht. Der Umfang des Diphoninventars zur Erzeugung eines beliebigen Textes in einer Sprache liegt zwischen tausend und zweitausend. Die genaue Beschreibung der Techniken und der Leistungsmerkmale von Spracherkennungssystemen würde den Rahmen des Beitrages sprengen. Man kann aber zusammenfassend feststellen, dass der erreichte Stand als durchaus befriedigend bezeichnet werden kann. Verbesserungen sind insbesondere bei der Gestaltung von Silben- und Wortübergängen und bei der Nachbildung der prosodischen Elemente menschlicher Sprache wünschenswert.

4.

Multimedia

Mit dem bereits überstrapazierten Begriff Multimedia verbinden viele Menschen unterschiedlichste Begrifflichkeiten. Hier soll Multimedia so verstanden werden, dass es die Verbindung von sogenannten statischen Inhalten wie Text, Grafiken und Bildern mit dynamischen Inhalten, also Audio und Video, darstellt. Sprache ist dabei also nur ein Element unter vielen. Video in multimedialen Dokumenten können auch synthetisch gene-

rierte, animierte Objekte sein. „The eternal Marilyn“ war die Überschrift über einer Vortragsveranstaltung des Internationalen Fernsehsymposiums in Montreux im Jahr 1997. Mit diesem sehr plakativen Titel sollte klar gemacht werden, um was es in den Vorträgen gehen sollte – um die Gestaltung von Filmen und von Fernsehproduktionen unter Verwendung prominenter Schauspielerinnen und Schauspieler, welche – auch wenn sie bereits nicht mehr am Leben sind – auf der Basis archivierten Bild- und Tonmaterials reanimiert werden könnten. Moralische und rechtliche Aspekte dieser praktischen Umsetzung der durch die Technik prinzipiell bereitgestellten Möglichkeiten sollen hier nicht diskutiert werden. Betrachtet man die Zukunftsperspektiven von Multimedia vor dem Hintergrund der rapiden technischen und technologischen Entwicklungen, dann ist zu erwarten, dass Sprache mehr und mehr durch andere multimediale Inhalte ergänzt werden wird. Um dies zu belegen, soll an dieser Stelle die Entwicklung der Bildcodierung skizziert werden. Will man das in einem Fernsehstudio produzierte Farbfernsehbild hoher technischer Qualität übertragen, so benötigt man einen Übertragungsweg, der etwa 200 Millionen Bit pro Sekunde (200 Mbit/s) bewältigen kann. Ein solcher Übertragungsweg existiert aber nur im professionellen Umfeld. Die Kosten zur Anmietung eines solchen Übertragungsweges zum Beispiel bei der Deutschen Telekom AG sind sehr hoch. Mit den Methoden, welche ebenfalls die Moving Pictures Experts Group (MPEG) entwickelt hat, ist es möglich, die Datenrate auf zum Beispiel ein Fünfzigstel, also auf 4 Mbit/s zu reduzieren und dennoch dem Betrachter eine technische Bildqualität bereitzustellen, die nahezu keinerlei Einschränkungen gegenüber dem im Studio bereitgestellten Originalmaterial erkennen lässt. Hintergrund des hohen zulässigen Reduktionsfaktors ist unter anderem die Tatsache, dass natürliche Bilder so viel redundante, also im nachrichtentechnischen Sinne überflüssige, Information enthalten, dass bei geschickter Analyse des Bildes diese überflüssigen Teile erkannt und vor der Übertragung eliminiert werden können. Ein anschauliches Beispiel für diese Tatsache ist die „Fernsehuhr“, bei der sich über genau eine Sekunde nichts bewegt, bis dann der Sekundenzeiger umspringt. Innerhalb dieser Sekunde wird beim bisherigen Fernsehen das unveränderte

887

65. Kommunikation aus der Sicht der Nachrichtentechnik

Bild 25mal übertragen. Bei geschickter Bildcodierung aber nur einmal. Die Datenrate 4 Mbit/s ist nur noch etwa dreimal so hoch wie die Datenrate, die von einer Musik-CD abgespielt wird. Lässt man nun sogar noch eine Verschlechterung gegenüber der im Studio erzeugten technischen Bildqualität zu, so lassen sich Bilder auch bei weniger als 1 Mbit/s in eventuell gerade noch akzeptabler Qualität darstellen. Die Konsequenz derartiger Datenratenreduktion auf den Platzbedarf bei der Speicherung von Bildsignalen zum Beispiel auf der Festplatte eines PC liegen auf der Hand. Akzeptiert man die bei 1 Mbit/s mögliche Bildqualität, so kann man auf einer heute (2003) preiswerten Standard-Festplatte mit einer Speicherkapazität von 13 GByte ca. 30 Stunden Video speichern. Datenreduktion macht den PC damit zum vollwertigen Speichermedium für Bilder – eine noch vor fünf Jahren kaum für möglich gehaltene Entwicklung. Parallel zum Siegeszug der Datenreduktion entstehen Datenübertragungswege immer höherer Leistungsfähigkeit – auch hinein in die Privatwohnung (Reimers, 1999). Es kann damit gerechnet werden, dass etwa ab dem Jahr 2003 über die Kabelnetze, die bis dahin nur für das Fernsehen und den Hörfunk genutzt wurden, jedem Haushalt, der an das Kabel angeschlossen ist, die Möglichkeit zum Internetzugang angeboten werden wird. Anders als bei dem Internetzugang über die bisherigen Telefonnetze oder über das Integrated Services Digital Network (ISDN) stehen dem Haushalt dann aber nicht mehr nur maximal 64 kbit/s, sondern zum Beispiel 1000 kbit/s zur Verfügung. Unter Nutzung der Technik der sogenannten Asymmetrical Digital Subscriber Line (ADSL) werden vergleichbare Zugangs-Datenraten auch per Telefonnetz bereitgestellt werden können. Schließlich werden Funknetze in Gebäuden und Büros zu einer Vernetzung von Systemen mit hoher Datenrate bereit stehen. Vor dem Hintergrund aller dieser Entwicklungen schwindet die bisherige Vorrangstellung von Sprache aus der Welt der technischen Kommunikation. In Einsatzfeldern, in denen Sprache bisher deshalb eine besondere Rolle inne hatte, weil man an die Übertragung oder Speicherung von Bildern und Daten nicht zu denken wagte, wird jetzt fast alles möglich. Insbesondere werden Bilder nahezu überall auftauchen. Kommunikation aus der Sicht der Nachrichtentechnik wird daher multimedial.

5.

Ausblick

Auch in den kommenden Jahrzehnten wird die Nachrichtentechnik in Zusammenarbeit zum Beispiel mit der Informatik wesentliche Fortschritte auf dem Gebiet der technischen Kommunikation erzielen. Die folgenden Entwicklungen werden zu diesen Fortschritten maßgeblich beitragen: Auch weiterhin werden als Folge der immer noch ungebrochenen Tendenz zur Verdichtung der Integration elektronischer Bauelemente auf einem Chip („Moore’s Law“) die Leistung von Rechnern und ihrer Peripherie (Speicher etc.) zunehmen. Dadurch werden immer mehr Verarbeitungszyklen pro Zeiteinheit und das Bereitstellen immer größerer Informationsmengen möglich werden. Der Digitale Hörfunk und vor allen Dingen das Digitale Fernsehen werden dem Privatnutzer ungeheure Mengen von Audio-, Video- und Datenprogrammen bereitstellen. Für den privaten Nutzer werden schnelle Internet-Zugänge erschwinglich, die den Datentransport in Geschwindigkeiten erlauben, welche man bisher bestenfalls in Firmennetzen erleben konnte. Die nächste Generation von Mobilfunksystemen (Universal Mobile Telecommunications System – UMTS) wird zu neuen Formen von Handys führen, die auch die Bilddarstellung erlauben. Die Weiterentwicklung von Signalverarbeitungsalgorithmen sowie von Übertragungstechniken und nicht zuletzt die Optimierung von Softwarestrukturen und von Protokollen für die Datenkommunikation führen dazu, dass auf leistungsfähigeren Geräten um ein Vielfaches leistungsfähigere Prozesse ablaufen werden. In der technischen Kommunikation wird also auch weiterhin praktisch alles Denkbare auch möglich werden. Gleichzeitig lehrt die Erfahrung, dass die Gerätepreise und die Preise für technische Dienstleistungen – ganz im Gegensatz zum Beispiel zu den Preisen von Automobilen und den mit dem Personenverkehr zusammenhängenden Betriebskosten – nicht stetig steigen, sondern im Gegenteil die Tendenz haben, bei immer steigender Funktionalität konstant zu bleiben oder sogar zu fallen. Und was wird der normale Mensch von alldem haben? Sie oder er wird mit immer neuen Angeboten konfrontiert werden, die sie oder ihn immer wieder vor die Entscheidung stellen werden: kaufen oder nicht kaufen. Andererseits wird die Flut der neuen Möglichkeiten nicht dazu führen, dass einmal eingeführte technische Angebote durch die

888 Neuentwicklungen kurzfristig vom Markt verdrängt werden und damit zu immer neuen (unerwünschten) Investitionszwängen führen. Das hat die Vergangenheit gezeigt. So existiert das klassische Telefon noch immer, obwohl erst ISDN, dann die Mobiltelefonie als Ergänzung, vielleicht sogar als Ablösung bereit stehen. Das Faxgerät hat seinen Dienst nicht deshalb aufgegeben, weil per E-Mail Texte schneller und preiswerter verschickt werden können. Das Digitale Fernsehen ist längst eingeführt – dennoch funktioniert das bisherige Fernsehen weiter. Auf den Nutzer von Kommunikationstechnik kommen also neue Herausforderungen und neue Angebote zu. Nicht alles, was da kommt, ist ein Segen für jeden. Die kontinuierlich weiter perfektionierte kommunikationstechnische Infrastruktur wird zum Beispiel immer stärker das Problem der scheinbaren jederzeitigen Erreichbarkeit heraufbeschwören. Dennoch bleibt wohl auch in Zukunft bei allen Systemen der Kommunikationstechnik eines erhalten: der Knopf zum Ausschalten.

VII. Medien

6.

Literatur

Aschoff, V. (1984). Geschichte der Nachrichtentechnik. Berlin, Heidelberg, New York: Springer. Paulus, E. (1998). Sprachsignalverarbeitung: Analyse, Erkennung, Synthese. Heidelberg, Berlin: Spektrum Akademischer Verlag. Reimers, U. (Hrsg.) (1997). Digitale Fernsehtechnik: Datenkompression und Übertragung für DVB. Berlin, Heidelberg, New York: Springer Reimers, U. (1999). Zugangsnetze zum Internet. Fernseh- und Kinotechnik, 53 (6), 326 – 331. Reimers, U., Unruh, C. (1998). MultiMedia Mobil (M3) – ein neuartiger Systemansatz für die mobile Kommunikation. 18. Jahrestagung der Fernsehund Kinotechnischen Gesellschaft, Tagungsband (pp. 90⫺99).

Ulrich Reimers Technische Universität Braunschweig (Deutschland)

VIII. Perspektiven der Informationsgesellschaft/ Perspectives of an Information Society 66. Multimedia in der Informationsgesellschaft: Von Open Source zu Open Information 1. 2. 3. 4. 5.

Einleitung Auszeichnungssprachen im World Wide Web Das Open-Source-Modell in der SoftwareEntwicklung Open Information Literatur

1.

Einleitung

Nachdem das Internet bis zum Anfang der neunziger Jahre beinahe ausschließlich von wissenschaftlichen und militärischen Einrichtungen zum Informationsaustausch eingesetzt wurde, hat das intuitiv zugängliche, hypertextbasierte World Wide Web (vgl. Berners-Lee, 1999) eine neue Ära des weltumspannenden Computernetzwerks eingeleitet. Waren anfänglich nur vereinzelt Firmen mit Präsenzen im Internet vertreten, so ist es mittlerweile schon fast zu einer Selbstverständlichkeit geworden, dass auch etwa kleinere Handwerksbetriebe die Vorteile der digitalen Medien erkannt haben und mit Homepages im World Wide Web für ihre Dienstleistungen und Angebote werben. Neben den zahlreichen Firmen bewegen sich auch immer mehr Schulen – gefördert durch die Initiative „Schulen ans Netz“ des Bundesministeriums für Bildung und Forschung, gemeinnützige Organisationen, Vereine und Privatanwender im Internet. Die Initiative zur flächendeckenden Versorgung der bundesdeutschen Schulen und Weiterbildungsstätten mit InternetVerbindungen und zum Einsatz multimedialer Technologien in der Bildung ist eingebettet in das Aktionsprogramm „Innovation und Arbeitsplätze in der Informationsgesellschaft des 21. Jahrhunderts“ der Bundesregierung, dessen Ziel die Sicherung eines Spitzenplatzes in Europa im Bereich der Informations- und Kommunikationstechnologien ist. Das Aktionsprogramm soll u. a. gewährleisten, dass eine beschleunigte Nutzung und

Verbreitung dieser Technologien stattfindet, wobei die Nutzung in der Gesamtbevölkerung bis zum Jahr 2005 eine Zielmarke von 30 % erreicht haben soll, und dass innovative Arbeitsplätze geschaffen und gefördert werden (Bundesministerium für Bildung und Forschung, 1999). Eine vergleichbare Initiative exisitiert auch auf europäischer Ebene mit dem Aktionsplan „Europas Weg in die Informationsgesellschaft“ der europäischen Kommission. Der Ursprung dieses Aktionsplans ist ein im Jahr 1994 entstandener Bericht, den eine Gruppe um den damaligen EK-Kommissar Martin Bangemann erarbeitet hat, welcher gezielte Maßnahmen zur Förderung informationstechnologischer Infrastrukturen der Mitgliedsstaaten definiert. Dertouzos (1997: 19) fokussiert in diesem Zusammenhang die Frage der Terminologie: „[the] Bangemann Report […] is a plan for the Global Information Society, as the Europeans like to call the Information Marketplace“. Dertouzos favorisiert letzteren Begriff wegen seiner Ideologiefreiheit und aus einem Verständnis der Informationen als Güter heraus (vgl. Weizenbaum, 1997: 34, für eine weiterführende Kritik des Begriffs Informationsgesellschaft), wohingegen in den Vereinigten Staaten vom „Information Superhighway“ oder vom „Cyberspace“, in Japan von einer „National Information Infrastructure“ die Rede ist. Dertouzos kommt zu dem Schluss: „The sudden realization across the globe that the coming world of information will play a key role in people’s lives has caused different nations to put their own imprimatur on [this] new ‘thing’ […]. The race to coin a name that will prevail is yet another indication of just how big everyone expects the ‘thing’ to be.“ Dertouzos (1997: 20). Die in verschiedenen Nationen vorgeschlagenen Bezeichnungen für die „Sache“ meinen de facto das Internet – und hierbei sowohl die

890 technische Infrastruktur als auch Dienste wie die elektronische Post oder das World Wide Web und die auf ihm basierenden Angebote – und die Summe der durch den Einsatz eben dieser Dienste zu verzeichnenden und erwarteten Änderungen und Möglichkeiten (siehe hierzu etwa von Haaren & Hensche, 1997): im wirtschaftlichen, gesellschaftlichen und politischen Umfeld, in der Beschäftigungssituation, in der Aus- und Weiterbildung und in der privaten und geschäftlichen Kommunikation, um nur einige der involvierten Gebiete zu nennen; Grundlagen, Definitionen, Formate und psychologische Untersuchungen des Bereichs, der unter dem Schlagwort Multimedia fungiert, finden sich – die Literatur zu diesem diffusen Themenkomplex ist geradezu erdrückend – beispielsweise in Pfammatter (1998: 9⫺18), Nielsen (1996), Fluckiger (1996), Steinmetz (1999) und Hasebrook (1995). Der vorliegende Beitrag betrachtet einen Bereich des multimedialen Information Marketplace, der unserer Meinung nach von einer äußerst dynamischen Entwicklung geprägt sein wird und den Benutzern des World Wide Web völlig neue Möglichkeiten bei der Informationsrecherche geben wird, die vorwiegend über Suchmaschinen durchgeführt wird. Die momentane Situation im Gebrauch von Suchmaschinen ist vor allem geprägt von einer semantischen Unschärfe, die sowohl aus mangelnder Strukturierung der indexierten Dokumente als auch aus unzureichenden Methoden zur Informationsextraktion resultiert. Konkret bedeutet dies für den Benutzer, dass zu einem Suchbegriff meist viele hundert oder tausend potenziell relevante Dokumente von der Suchmaschine gemeldet werden, eine wirkliche Relevanz zum gegebenen Stichwort aber nicht zwangsläufig vorhanden ist, so dass der Benutzer in mühevoller Arbeit die Liste der Treffer auf ihren tatsächlichen Bezug zur Suchanfrage überprüfen muss. Dem erwähnten Mangel an Struktur in Web-Dokumenten wird in Zukunft durch den vermehrten Einsatz von XML (Extensible Markup Language, Bray et al., 1998) und der gleichzeitigen Aufgabe von HTML (Hypertext Markup Language, Raggett et al., 1997), das lediglich eine sehr grobe Auszeichnung textueller Elemente wie Überschriften, Tabellen oder Absätze zulässt, Einhalt geboten werden; jedoch birgt die neue strukturelle Vielfalt und Freiheit von XML auch Gefahren. Diese liegen unserer Ansicht nach zu einem großen Teil in der immer wiederkehren-

VIII. Perspektiven der Informationsgesellschaft

den Neuerfindung des Rades: Da XML eine freie Definition konkreter Auszeichnungssprachen wie etwa HTML gestattet, werden viele auf XML basierende Auszeichnungsschemata kreiert werden, die wiederum die suchmaschinenbasierte Recherche in Dokumenten, die unter Benutzung dieser Schemata annotiert wurden, unnötig erschweren, da eine Ausnutzung der Vorteile von XML in einem verteilten Netz wie dem Internet zu einem Großteil auf einer Standardisierung der Auszeichnungsverfahren basiert. Im Folgenden skizzieren wir eine Entwicklung, die unserer Ansicht nach dem XML-Babel entgegenwirken könnte. Hierbei geht es um ein seit etwa 20 Jahren erfolgreiches Paradigma in der Software-Entwicklung, das – nicht zuletzt aufgrund des Erfolges des freien Betriebssystems Linux – seit 1998 als Open-Source-Software-Entwicklung in aller Munde ist und der Erschaffung neuer, quasi-standardisierter XML-basierter Auszeichnungssprachen entscheidende Impulse geben wird. Das Resultat dieser Impulse bezeichnen wir als Open Information. Abschnitt 2 führt zunächst in die Thematik ein, indem der Status Quo der heute gegebenen Möglichkeiten zur Auszeichnung von Informationen im World Wide Web skizziert wird. Dabei betrachten wir neben XML auch neue, auf diesem Standard basierende Vorschläge zur expliziten Markierung von Metainformationen und zum Aufbau von Konzepthierarchien. Abschnitt 3 erläutert den Ursprung, die Motivationen und das aktuelle Verständnis des Begriffs Open Source. Der letzte Abschnitt verknüpft das Paradigma der Open Source-Software-Entwicklung mit der kollaborierten Erschaffung und Pflege XMLbasierter Auszeichnungssprachen und geht auf die Möglichkeiten ein, die Open Information dem Internet und seinen Benutzern geben kann.

2.

Auszeichnungssprachen im World Wide Web

Die Auszeichnungssprache des World Wide Web, mit deren Hilfe Web-Dokumente geschrieben werden, heißt HTML, Hypertext Markup Language (Raggett et al., 1997). HTML gestattet die Anreicherung einer im ASCII-Format vorliegenden Textdatei mit einer klar definierten Menge von Formatierungsmarkierungen, sog. Tags; so markiert beispielsweise das Tag ⬍P⬎ (für Paragraph) den Beginn eines Absatzes, ⬍/TABLE⬎ das

66. Multimedia in der Informationsgesellschaft: Von Open Source zu Open Information

Ende einer Tabelle, und Text, der von den Tags ⬍H1⬎ und ⬍/H1⬎ (für Headline) umrahmt wird, stellt eine Überschrift erster Stufe dar. Weitere Tags gestatten die Auszeichnung tieferer Ebenen von Überschriften, verschiedener Arten von Listen (nummerierte und nicht nummerierte, Definitionslisten) und vor allem die Integration von Hyperlinks, also Querverweisen, die den Leser des Textes bei Aktivierung automatisch zu weiterführenden Informationen zu einem bestimmten Begriff führen. Die diesen Tags zugrunde liegenden Strukturelemente sind nicht etwa beliebig kombinierbar, sondern es existiert eine regelbasierte, formale Definition, die die Namen und das Zusammenspiel der Elemente spezifiziert. Diese Dokumenttypdefinition (DTD, Document Type Definition) für HTML wurde mit Hilfe der Standard Generalized Markup Language (SGML, ISO 8879, 1986) definiert, die eine abstrakte und äußerst komplexe Sprache zur Definition konkreter Auszeichnungssprachen (wie eben etwa HTML) darstellt. Die Ursprünge von HTML befinden sich im europäischen Kernforschungszentrum CERN, wo Tim Berners-Lee und Robert Cailliau 1989 angefangen hatten, ein verteiltes, also im Netzwerk arbeitendes HypertextSystem zu entwickeln, das von den Entwicklern später World Wide Web (benannt nach dem von Berners-Lee implementierten ersten grafischen Web-Browser) genannt wurde (Berners-Lee, 1999). Neben einem Protokoll zum Transfer von Hypertext-Dokumenten (HTTP, Hypertext Transfer Protocol) und einem Adressierungsschema für beliebige Typen von Web-Dokumenten entwickelten Berners-Lee und Cailliau auch HTML als Formalismus zur Repräsentation von Hypertexten. Die Entscheidung, HTML als „SGMLähnlich“ (Berners-Lee, 1999: 41) zu definieren, war zu einem großen Teil politischer bzw. diplomatischer Natur. SGML wurde zu dieser Zeit am CERN großflächig eingesetzt, so dass Berners-Lee die wichtigsten Elemente des am CERN benutzten SGML-Systems übernahm, um den Mitarbeitern einen leichten Einstieg in HTML zu ermöglichen. Erst einige Jahre später wurde HTML – in einer weiterentwickelten Version – tatsächlich als „echte“ SGML-Anwendung spezifiziert. Erlaubte HTML anfänglich nur die explizite Auszeichnung sehr grober textueller Elemente wie etwa Abschnitte, Überschriften oder Listen, implementierten die großen Browser-Hersteller – einhergehend mit dem

891

stetigen Erfolg des World Wide Web – immer mehr Elemente, die allein auf das Aussehen der HTML-Dokumente am Bildschirm Auswirkungen hatten, so dass der eigentliche Vorteil SGML-basierter Auszeichnugssprachen, die darstellungsunabhängige Explizierung struktureller Information, immer mehr in den Hintergrund rückte. Die Hersteller versuchten damit einerseits, Alleinstellungsmerkmale ihrer Produkte zu definieren, zum anderen aber durch die Schaffung von Defacto-Standards die langwierigen Entscheidungsprozesse der offiziellen Standardisierungsgremien zu umgehen. Der bereits angesprochene Erfolg des Web vor allem im kommerziellen Bereich machte jedoch deutlich, dass die Vorhaltung explizit strukturierter Information ein entscheidendes Kriterium für den Fortbestand des Web sein wird, etwa im Bereich des Austausches von aus Datenbanken gespeisten Produktinformationen. Die explosionsartige Ausbreitung des World Wide Web und die Erschließung neuer Interaktionsmöglichkeiten, oftmals im Zusammenhang mit der Entwicklung von eCommerce-Anwendungen, haben schließlich deutlich gemacht, dass für das Internet mit HTML nur ein erster Schritt bei der Informationsmodellierung unternommen worden ist. Da HTML lediglich eine SGML-Anwendung unter anderen ist und andere SGMLAnwendungen auch für die entstehenden Bedürfnisse im World Wide Web passender erscheinen, stellt sich die Frage, warum nicht anstatt nur einer bestimmten SGML-Anwendung SGML insgesamt über das Internet nutzbar sein kann. Für bestimmte Anwendungszwecke spezialisierte SGML-Anwendungen könnten dann im Internet verfügbar sein und, darauf aufbauend, auch flankierende Standards wie HyTime (Hypermedia/Time-Based Structuring Language, ISO 10744, 1997) für weitergehende Verlinkungstechniken und DSSSL (Document Style Semantics and Specification Language, ISO 10179, 1996) für Strukturtransformationen und flexible Gestaltung mit den dazugehörenden Software-Systemen. So naheliegend dieser Gedanke ist, so schwierig ist es, ihn umzusetzen. Das World Wide Web hat als ein neues Massenmedium längst Fakten geschaffen, die nicht zu dem sehr umfangreichen SGML-Standard passen. Das größte Problem besteht darin, dass der Standard nicht nur kompliziert, sondern auch formal so komplex ist, dass Online-Anwendungen Schwierigkeiten bekommen, ihre

892 Verarbeitung in akzeptabler Zeit durchzuführen. Viele Eigenschaften von SGML spiegeln noch den Stand der frühen achtziger Jahre wider, in denen noch nicht absehbar war, dass SGML-Anwendungen woanders als auf isolierten Einzelrechnern funktionieren könnten. Das Hervortreten dieser Unzulänglichkeiten von SGML für Zwecke der Online-Anwendung war der Ursprung von XML, das seit Anfang 1998 in einer vom World Wide Web Consortium verabschiedeten Fassung vorliegt (Bray et al., 1998). XML ist nichts anderes als eine vereinfachte Version von SGML – alle in XML kodierte Information ist zugleich auch gültige SGML-Information. Die Definition von XML ist jedoch viel konziser, knapper und logisch überzeugender, da alles das, was in SGML ohnehin kaum genutzt oder heutzutage nicht mehr gebraucht wird, weggelassen wurde, ohne dabei die Ausdrucksmöglichkeiten prinzipiell einzuschränken. Diese Reduktion ist so überzeugend gelungen, dass XML inzwischen auch dort eingesetzt wird, wo die Online-Fähigkeit der Daten gar nicht im Vordergrund steht. Man kann XML als ein Instrument für die Modellierung von strukturierter Information verstehen (Lobin, 2000). Was ist strukturierte Information? Der Idee der strukturierten Information liegen verschiedene Beobachtungen zugrunde, die ursprünglich an Textdokumenten gemacht worden waren: In einem Text können erstens unterschiedliche Ebenen voneinander unterschieden werden. Es gibt einerseits die Abfolge von Buchstaben, z. B. in einer Überschrift oder als ein Zitat, es gibt andererseits aber auch abstrakte Einheiten, die z. B. für die Kategorien „Überschrift“ oder „Kapitel“ stehen. Diese abstrakten Einheiten werden im Gegensatz zu den textuellen Einheiten nicht durch sprachliche Zeichen konkretisiert, sondern oftmals durch typografische: die Schrift einer Überschrift ist größer als die des folgenden Textes, die Überschrift wird abgesetzt und meistens nummeriert, und auch für die Kennzeichnung eines zusammenhängenden Textteils als ein Kapitel gibt es verschiedene Darstellungsmittel. Die zweite Beobachtung ist, dass die Anordnung der abstrakten und der konkreten Informationseinheiten nicht beliebig ist, sondern vielmehr festen Regeln zu folgen hat, die denen zur Bildung von Sätzen ähneln. Diese Regeln spezifizieren einerseits das hierarchische Verhältnis von abstrakten Informationseinheiten zu untergeordeten abstrakten oder konkreten Informationseinheiten, anderer-

VIII. Perspektiven der Informationsgesellschaft

seits die lineare Abfolge gleichrangiger Informationseinheiten. Man kann diese Regeln zu einer Grammatik der Informationseinheiten – der bereits angesprochenen Document Type Definition – zusammenfassen. Die dritte Beobachtung: Eine solche Grammatik kann immer so gestaltet werden, dass sich die Informationseinheiten mit ihren hierarchischen und linearen Beziehungen zueinander in Baumform anordnen: ganz oben gibt es ein Wurzelelement, das den Text als Ganzes repräsentiert, die Töchter darunter repräsentieren die Teile, aus denen sich der Text auf oberer Ebene zusammensetzt, und diese Zerteilung wird solange fortgesetzt, bis man auf der Ebene der elementaren Texteinheiten angelangt ist. In XML sind diese Beobachtungen in einen systematischen, formal definierten Zusammenhang gebracht worden: ⫺ Eine XML-Anwendung gibt an, was für Typen von abstrakten und konkreten Informationseinheiten es gibt, gibt ihnen Namen zur eindeutigen Identifizierung und spezifiziert gegebenenfalls weitere Beschreibungsmerkmale. ⫺ Diese Informationstypen werden durch Regeln miteinander in Beziehung gesetzt. ⫺ Diese Regeln werden zu einer Grammatik zusammengefasst. ⫺ Reale Informationseinheiten werden mit diesen Typen in Beziehung gesetzt und in Baumform angeordnet. Strukturierte Information ist also nichts anderes als die regelgeleitete Anordnung von Informationseinheiten, genauso wie wir korrekt strukturierte Sätze als regelgeleitete Anordnung von Wörtern verstehen können. Parallel zu XML vom World Wide Web Consortium entwickelte Formalismen beschäftigen sich mit der Verknüpfung von XML-Dokumenten (XPointer, XLink), der Verarbeitung mehrerer Dokumenttypdefinitionen in einem Dokument (Namespaces) und der Visualisierung von XML-Dokumenten in Web-Browsern (Cascading Style Sheets, CSS, und Extensible Stylesheet Language, XSL). Mit der Einführung von XML ist beim Umgang mit Information ein entscheidender Schritt vollzogen worden: erstmals wird es möglich, Informationen nicht nur aus einer technologischen Perspektive zu betrachten, sondern auch aus einer inhaltlichen. XMLstrukturierte Daten sind unabhängig von bestimmten Software-Systemen oder gar Be-

66. Multimedia in der Informationsgesellschaft: Von Open Source zu Open Information

triebssystemen, sie sind im Normalfall sogar unabhängig von der Darstellung in einem bestimmten Medium. Statt dessen geben sie Auskunft über ihren logischen Aufbau und vermögen im Idealfall diesen Aufbau aus den semantischen Eigenschaften der Daten abzuleiten. Sind diese Möglichkeiten im World Wide Web nur in sehr eingeschränkter Form genutzt worden, so ist für die nächste Zeit damit zu rechnen, dass inhaltsorientierte Navigations-, Such- und Präsentationsverfahren an Bedeutung gewinnen. Ein vom World Wide Web Consortium vorgeschlagenes Verfahren zur Schaffung einer Basis, die eine gezielte und sinnvolle Wissensexploration ermöglichen soll, ist das XML-basierte Resource Description Framework (RDF, siehe Lassila & Swick, 1999; Brickley & Guha, 1999). RDF gestattet die Auszeichnung von Metadaten, Daten über Daten, durch den Autor oder Bearbeiter eines Web-Dokuments. Beispiele für Metadaten eines Web-Dokuments sind etwa der Name des Autors, das Datum der letzten Änderung, verschiedene Schlagworte, ein Verweis auf die assoziierte Organisation etc. RDF wurde entwickelt, um eine umfassende und konsistente Explizierung von Metadaten in Web-Dokumenten zwecks vereinfachter und präziserer Suche und Exploration von Dokumentbeständen zu gewährleisten. RDF gestattet, ähnlich wie XML, lediglich die Definition verschiedener Schemata, mit deren Hilfe dann wiederum konkrete Dokumente annotiert werden können. Hierbei ergeben sich einige unmittelbare Probleme: Welche (standardisierten?) Vokabulare werden zur Definition von RDF-Schemata eingesetzt? Wie detailliert sollen die Metadaten strukturiert werden, und welche Arten von Metadaten sollen – jeweils abhängig vom Themengebiet – annotierbar sein? Zu diesen Fragestellungen der generellen Klassifikation von Objekten gibt es in verschiedenen Fachrichtungen (Bibliothekswesen, Architektur, Kunst etc.) Bemühungen zur Schaffung von Standards (Übersichten befinden sich etwa in Hudgins et al., 1999; Baca, 1998; Marchiori, 1998); im World Wide Web scheint sich mehr und mehr die noch in der Entwicklung befindliche Initiative Dublin Core (siehe http:// purl.org/dc/ und Weibel et al., 1999) durchzusetzen, die eine Art gemeinsamen und erweiterbaren Kern aller RDF-Schemata hervorbringen soll. Das Dublin-Core-Schema definiert drei verschiedene Gruppen von Elementen: Content (mit Elementen wie etwa Title,

893

Subject, Description, Type etc.), Intellectual Property (Creator, Publisher, Contributor, Rights) und Instantiation (Date, Format etc.). RDF wird – gerade in Verbindung mit dem Dublin Core – mittlerweile schon auf vielen Websites intern eingesetzt, um Ressourcen, also Web-Dokumente und in ihnen eingebettete Objekte, zu beschreiben. Mit Topic Maps (ISO/IEC 13250, 1999, vgl. Rath, 1999, früher Topic Navigation Maps) liegt bereits eine XML-Architektur für die standardisierte Darstellung von Metainformation vor. Dabei geht es – im Gegensatz zu RDF – vor allem um die thematischen Bezüge zwischen Informationsobjekten. Zweck einer solchen Darstellung ist die Unterstützung von inhaltsorientierter Navigation und Filterung. Die grundlegende Idee besteht darin, beliebige Informationsobjekte zu Gruppen zusammenzufassen und auf einer abstrakten Ebene zu gliedern. Der Bezug zu den konkreten Informationseinheiten kann dabei durch Verweise hergestellt werden, die Gesamtheit der thematischen Bezüge wird allerdings auch allein als ein sinnvoller unabhängiger Informationstyp verstanden. Die Bezüge zwischen Informationseinheiten, die sog. Associations, können ihrerseits zu Gruppen geordnet werden, so dass auch Filterungen auf dieser Ebene möglich werden. Der Vorteil der Standardisierung von thematischen Strukturierungen ist darin zu sehen, dass für unterschiedliche Domänen oder Wissensbereiche erstellte Topic Maps verschmolzen werden können und so nach einiger Zeit ein allumfassendes begriffliches Netzwerk entstehen kann. Es ist denkbar, dass das World Wide Web in seiner heutigen Erscheinungsform oder andere HypertextSysteme um ein Netz von begrifflichen Bezügen angereichert werden, die zusätzlich zu der Nutzung explizit repräsentierter Verlinkungen die Exploration zusammenhängender Wissensbereiche erlauben.

3.

Das Open-Source-Modell in der Software-Entwicklung

Unter dem Open-Source-Modell in der Software-Entwicklung (siehe Vixie, 1999, für einen Vergleich dieses Ansatzes mit traditionellen Methoden) versteht man die freie Veröffentlichung, Weitergabe und Erlaubnis zur Modifikation von Programm-Quellen – den in Programmiersprachen wie beispielsweise C oder Java geschriebenen Instruktionen, die vor der Ausführung durch den Computer in

894 Maschinenbefehle konvertiert werden müssen (vgl. DiBona et al., 1999). Der Erfolg dieses Ansatzes (die meisten Email- und WorldWide-Web-Server werden mit Open-SourceEntwicklungen betrieben, vgl. O’Reilly, 1999) wird als ein Phänomen betrachtet, das in engem Zusammenhang mit dem Internet steht und umfangreiche Auswirkungen auf die Branche der Kommunikations- und Informationstechnologie hatte und auch in Zukunft haben wird. Im Folgenden erläutern wir die Entstehung des Open-Source-Ansatzes, nennen die wichtigsten Gründe für den Erfolg von Open-Source-Software und gehen auf Erweiterungen dieses Paradigmas ein. Der heutige Open-Source-Begriff geht auf Gedanken zurück, die erstmalig Mitte der achtziger Jahre von dem Software-Entwickler Richard M. Stallman geäußert wurden. Stallman hat zu dieser Zeit seine Anstellung im Labor für Künstliche Intelligenz des Massachusetts Institute of Technology aufgegeben, um sich ganz der Entwicklung eines freien – „free as in freedom“ (Stallman, 1999), also nicht frei im Sinne von kostenlos – Betriebssystems zu widmen, das zum De-facto-Standard der Industrie, dem UNIX-System, kompatibel sein sollte. Stallman war nicht mit der allgemeinen Tendenz vieler Software-Anbieter einverstanden, die Weitergabe der Quell-Dateien ihrer Produkte an die Benutzer abzulehnen, da diese die Quellen als schützenswertes Eigentum verstanden haben. Quell-Dateien ermöglichen es dem geübten Anwender und Programmierer, Fehler in Programmen zu suchen und zu beheben, neue Funktionen in bestehende Programme zu integrieren oder aus Teilen verschiedener Programme und einem gewissen Maß an Eigenentwicklung Software mit ganz neuer Funktionalität zu erschaffen. Ohne die Programmquellen haben Anwender diese Möglichkeiten nicht, sondern können etwa im Falle eines Programmfehlers nur hoffen, dass dieser in der nächsten Version der eingesetzten Software behoben sein wird. Stallman war der Ansicht, dass Programmierer ein eth