164 61 24MB
German Pages 473
Vorwort zur vierten Auflage Das hier vorliegende Buch erscheint nun in der vierten Auflage. Damit wird uns zum einen die Gelegenheit geboten, es an die Möglichkeiten der neuesten Excel-Version anzupassen (Excel 2003), zum anderen können wir auf zahlreiche weiteren Anregungen und Verbesserungsvorschläge eingehen, die uns freundliche und aufmerksame Leser, insbesondere auch Fachkollegen und -kolleginnen aus der Zunft der Statistiker, zugeschickt haben und für die wir uns an dieser Stelle herzlich bedanken. In diesen Zuschriften kommt mehrheitlich zum Ausdruck, dass unser Versuch, ein Statistikbuch zu schreiben, das nicht von mathematischen Formeln strotzt, begrüßt und als gelungen angesehen wird. Es versteht sich, dass wir uns über diesen Zuspruch freuen und ihn als Ansporn für weitere Bemühungen betrachten. Dass der ein oder andere gleichwohl das Buch für zu wenig anspruchsvoll ansieht, können wir verschmerzen. Im Vorwort zur ersten Auflage, die 1996 erschien, hatten wir schon darauf aufmerksam gemacht, dass die hier vorliegende Einführung in die statistische Arbeit verknüpft werden soll mit einer Demonstration der Einsatzmöglichkeiten eines Statistikprogramms. Wir haben uns dabei für das Tabellenkalkulationsprogramm Excel entschieden, das ja eine außerordentlich weite Verbreitung erfahren hat und einfach zu bedienen ist. Im Vordergrund stand dabei nicht der Versuch, alle Details dieses Programms zu erläutern, als vielmehr zu illustrieren, wie dieses Programm bei der Lösung von statistischen Standardaufgaben, wie sie in der Praxis immer wieder auftauchen, nutzbringend eingesetzt werden kann. Deshalb findet der Leser in diesem Buch also Folgendes: eine kurze einleitende Geschichte in die jeweilige Thematik eine knappe Darstellung statistischer Grundüberlegungen zu jedem Themenbereich Formeln nur dort, wo sie hingehören praxisnahe Beispiele Musterlösungen in Excel zu jeder angesprochenen statistischen Fragestellung Wir haben uns bemüht, das Ganze so flüssig zu schreiben, dass man auch ein längeres Stück lesen kann, ohne gleich den Gesamtüberblick zu verlieren. Zum Schluss noch einige Anmerkungen zu den statistischen sowie EDV-technischen Inhalten: Wir stützen uns bei der Software, wie schon erwähnt, auf das weit verbreitete und außerordentlich leistungsfähige Tabellenkalkulationsprogramm Excel, mit dem die wichtigsten Standardverfahren der Statistik ohne Probleme bewältigt werden können. Dabei lassen sich alle Beispiele fast ohne Einschränkungen auch noch mit den älteren Excel-Versionen behandeln. An dieser Stelle sei aber darauf aufmerksam gemacht, dass es auch andere Softwareprogramme gibt, die speziell für statistische Auswertungsaufgaben eingesetzt werden können, so zum Beispiel das für Statistiker entwickelte Programm SPSS, das schon seit längerer Zeit auch als Windows-Version vorliegt. Gerade das Standardprogramm Excel scheint uns aber besonders geeignet, vor allem den Statistikpragmatiker in die Geheimnisse der Methoden einzuweihen, um ihn in die Lage zu versetzen, eigene Datenbestände mit den adäquaten Verfahren auszuwerten und zu analysieren. Unter inhaltlichen Gesichtspunkten greifen wir – soweit die deskriptive Statistik betroffen ist – auf die Einführung von M. Tiede zurück (M. Tiede: Beschreiben mit Statistik – Verstehen,
6
Vorwort zur vierten Auflage
Oldenbourg Verlag, München/Wien 2001). Bezüglich der Verfahren der induktiven Statistik orientieren wir uns an folgendem Lehrbuch: M. Tiede/W. Voß: Schließen mit Statistik – Verstehen, Oldenbourg Verlag, München/Wien 2000. Diesem Buch ist eine CD beigefügt. Auf dieser sind die Datenbestände in Form von ExcelTabellen abgelegt, die den einzelnen Kapiteln zugrunde liegen. Die einzelnen Dateien dieses Datenträgers können unter Excel geöffnet werden. Sollten Sie die Daten verändern wollen, empfiehlt es sich, sie vorher auf die Festplatte zu kopieren. Darüber hinaus finden Sie auf der CD-ROM eine Formelsammlung sowie Übungsaufgaben, wie sie an der Bochumer Universität bearbeitet werden. Um das Buch abzurunden, haben wir den gesamten Buchtext als PDF-Datei gespeichert. Zum Schluss möchten wir denjenigen danken, die dieses Buch tatkräftig unterstützt haben. Hier ist vor allem Frau Dr. Wutschel-Monka zu nennen. Nicht nur weil einer der Autoren das Glück hat, mit ihr liiert zu sein, sondern weil sie mit zahlreichen Anregungen und kritischen Einwänden die statistischen Inhalte des Buches zu einer Einheit gebracht hat. Unseren Dank an die Kritiker der ersten drei Auflagen haben wir schon weiter oben abgestattet. Herrn Prof. Dr. Manfred Tiede danken wir für die Bereitstellung der Formelsammlung auf der CD, Frau Nadine M. Schöneck, Frau Ekaterina Serova und Herrn Dr. Stefan Karduck für die redaktionelle Überarbeitung des Textes, Frau Veronika Khlavna für die Erstellung der Bildschirmabzüge. Dr. Michael Monka Prof. Dr. Werner Voß Bonn, Bochum, April 2005
Inhaltsverzeichnis Vorwort............................................................................................................ 5 1
Was ist Statistik überhaupt?............................................................ 13
1.1 1.2 1.3 1.4 1.5 1.6
Die Statistik lügt ........................................................................................................13 Zielsetzungen.............................................................................................................1 Zum Begriff der Statistik ...........................................................................................1 Anwendungsbereiche.................................................................................................17 Methodengruppen ......................................................................................................19 Grundbegriffe ............................................................................................................21
2
Excel – Grundlagen........................................................................... 23
2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
Im Schweiße meines Angesichts ...............................................................................23 Statistik und Excel .....................................................................................................24 Der Start von Excel....................................................................................................25 Ein erstes Beispiel......................................................................................................27 Veränderungen...........................................................................................................32 Mathematische Berechnungen ...................................................................................36 Drucken .....................................................................................................................45 Diagramme ................................................................................................................46 Daten importieren ......................................................................................................50
3
Sortieren, Gruppieren, Klassifizieren ....................................................... 53
3.1 3.2 3.3 3.4 3.5
Der Lottospieler .........................................................................................................53 Wie man statistische Daten gewinnt ..........................................................................54 Von der Urliste zur Häufigkeitsverteilung.................................................................60 Zeitreihen................................................................................................................... 0 Kreuztabellen.............................................................................................................70
4
Mittelwerte......................................................................................... 75
4.1 4.2 4.3 4.4 4.5 4.6
Wo bitte ist die Mitte? ...............................................................................................75 Wozu braucht man Mittelwerte?................................................................................75 Das arithmetische Mittel............................................................................................77 Der häufigste Wert (Modus) ......................................................................................84 Der Zentralwert (Median)..........................................................................................87 Das geometrische Mittel ............................................................................................88
5
Streuungsmaße .................................................................................. 91
5.1 5.2
Am Frühstückstisch ...................................................................................................91 Spannweite.................................................................................................................91
8
Inhaltsverzeichnis
5.3 5.4 5.5
Mittlere lineare Abweichung .................................................................................... 93 Standardabweichung ................................................................................................. 95 Quartile und Semiquartilsabstand ............................................................................. 98
6
Konzentrationsmaße .......................................................................103
6.1 6.2 6.3 6.4 6.5 6.6
Isabella.................................................................................................................... 103 Was bedeutet Konzentration? ................................................................................. 103 Herfindahl-Index..................................................................................................... 104 Maß von Lorenz/Münzner ...................................................................................... 106 Die Lorenzkurve ..................................................................................................... 107 Der Lorenzkoeffizient ............................................................................................. 112
7
Grafische Darstellungen .................................................................117
7.1 7.2 7.3 7.4 7.5 7.6 7.7
Chinesische Tusche................................................................................................. 117 Die Vorzüge grafischer Darstellungen.................................................................... 117 Stabdiagramm ......................................................................................................... 119 Histogramm ............................................................................................................ 124 Tortendiagramm...................................................................................................... 133 Die grafische Darstellung von Zeitreihen ............................................................... 134 Streudiagramm........................................................................................................ 138
8
Indexberechnungen .........................................................................145
8.1 8.2 8.3 8.4 8.5 8.6
Alles wird immer teurer .......................................................................................... 145 Gliederungszahlen, Messziffern, Wachstumsraten ................................................. 145 Umbasierung und Verkettung ................................................................................. 150 Preisindex................................................................................................................ 153 Mengenindex .......................................................................................................... 159 Wertindex................................................................................................................ 162
9
Regressionsrechnung (bivariat) .....................................................163
9.1 9.2 9.3 9.4 9.5 9.6
Auf dem Tennisplatz............................................................................................... 163 Zielsetzungen .......................................................................................................... 163 Mathematische Grundlagen .................................................................................... 169 Die Methode der kleinsten Quadrate....................................................................... 171 Beispiel zur Regressionsrechnung .......................................................................... 174 Fallstricke................................................................................................................ 180
10
Zusammenhangsrechnung..............................................................183
10.1 10.2 10.3 10.4
Das Klassenbuch..................................................................................................... 183 Korrelations- und Determinationskoeffizient.......................................................... 183 Rangkorrelation ...................................................................................................... 194 Zusammenhangsmaße für Nominaldaten................................................................ 196
Inhaltsverzeichnis
9
10.5
Der Alleskönner.......................................................................................................201
11
Trendfunktionen und Trendprognosen ........................................ 203
11.1 11.2 11.3 11.4 11.5 11.6
Statistik lügt? ...........................................................................................................203 Zielsetzungen...........................................................................................................203 Glättung einer Zeitreihe ...........................................................................................206 Linearer Zeitreihentrend ..........................................................................................209 Exponentieller Trend ...............................................................................................216 Saisonale Schwankungen.........................................................................................217
12
Grundlagen der Wahrscheinlichkeitstheorie ............................... 225
12.1 12.2 12.3 12.4 12.5
Pfälzer Leberwurst...................................................................................................225 Ereignisse.................................................................................................................226 Kombinatorik...........................................................................................................228 Kombinatorische Praxisaufgaben ............................................................................236 Bestimmung der Wahrscheinlichkeit .......................................................................238
13
Wahrscheinlichkeitsverteilungen .................................................. 245
13.1 13.2 13.3 13.4 13.5 13.6 13.7 13.8 13.9
Mensch ärgere Dich nicht!.......................................................................................245 Grafische Darstellung von Wahrscheinlichkeiten....................................................246 Der Additionssatz ....................................................................................................247 Der Multiplikationssatz............................................................................................250 Zwei weitere Sätze............................................. .........................253 Zufallsvariable .........................................................................................................256 ............ .......................258 ................... ..................260 Erwartungswert und Varianz von Zufallsvariablen .................................................265
14
Spezielle Wahrscheinlichkeitsverteilungen................................... 269
14.1 14.2 14.3 14.4 14.5 14.6 14.7 14.8 14.9 14.10
Das neue Fahrrad .....................................................................................................269 .......................... ...................................270 Binomialverteilung ..................................................................................................270 Normalverteilung.....................................................................................................281 Multinomialverteilung .............................................................................................289 Hypergeometrische Verteilung ................................................................................290 Poisson-Verteilung ..................................................................................................293 Student-t-Verteilung ................................................................................................295 Chi-Quadrat-Verteilung ...........................................................................................295 F-Verteilung.............................................................................................................296
10
Inhaltsverzeichnis
15
Stichproben und Stichprobenverteilungen ...................................297
15.1 15.2 15.3 15.4 15.5 15.6 15.7 15.8
Zufall?..................................................................................................................... 297 Auswahlverfahren für Stichproben ......................................................................... 297 Bewusste Auswahlen .............................................................................................. 299 Zufällige Auswahlen............................................................................................... 300 Stichprobenverteilungen ......................................................................................... 306 Das zentrale Grenzwerttheorem.............................................................................. 31 Stichprobenverteilungen wichtiger Maßzahlen....................................................... 31 Notationen............................................................................................................... 321
16
Der parametrische Hypothesentest................................................323
16.1 16.2 16.3 16.4 16.5 16.6
An der Theke .......................................................................................................... 323 Beispiel: Der Zigarettentest .................................................................................... 324 Mittelwerttest .......................................................................................................... 326 Entscheidungsfehler................................................................................................ 331 Weitere Parametertests............................................................................................ 339 Die Güte eines Tests ............................................................................................... 347
17
Hochrechnungen..............................................................................351
17.1 17.2 17.3 17.4
Modifizierte Bundestagswahl ................................................................................. 351 Aufgaben der Schätzstatistik................................................................................... 351 Punktschätzverfahren.............................................................................................. 352 Intervallschätzungen ............................................................................................... 357
18
Tests bei kleinen Stichprobenumfängen........................................363
18.1 18.2 18.3 18.4 18.5 18.6 18.7 18.8
Die sparsamste Lösung ........................................................................................... 363 Ausgangslage .......................................................................................................... 363 Anteilswerttest ........................................................................................................ 364 Anteilwertdifferenzentest (Fisher-Test) .................................................................. 366 Mittelwerttest .......................................................................................................... 369 Mittelwertdifferenzentest ........................................................................................ 370 Varianzquotiententest ............................................................................................. 372 Mittelwerte aus mehr als zwei Stichproben (Varianzanalyse) ................................ 374
19
Anpassungstestverfahren................................................................381
19.1 19.2 19.3 19.4 19.5
Total normal?.......................................................................................................... 381 Aufgaben von Anpassungstests .............................................................................. 381 Chi-Quadrat-Anpassungstest .................................................................................. 384 Fisher-Test und Chi-Quadrat-Homogenitätstest ..................................................... 395 Kolmogoroff-Smirnow-Test ................................................................................... 397
Inhaltsverzeichnis
11
20
Testen statistischer Zusammenhänge............................................ 401
20.1 20.2 20.3 20.4 20.5 20.6
Die Streitfrage..........................................................................................................401 Chi-Quadrat-Unabhängigkeitstest (Nominaldaten) .................................................401 Unabhängigkeitstest bei Ordinaldaten .....................................................................407 Test des Korrelationskoeffizienten (metrische Daten).............................................409 Test des Regressionskoeffizienten...........................................................................412 Schätzen der Regressionsgeraden ............................................................................414
21
Multiple Regression und partielle Korrelation ............................ 417
21.1 21.2 21.3 21.4 21.5 21.6
Vom Sinn der Aufklärung........................................................................................417 Drittvariablen...........................................................................................................418 Partielle Korrelationsrechnung ................................................................................420 Multiple lineare Regression .....................................................................................423 Multipler Determinationskoeffizient........................................................................426 Nichtmetrische Daten ..............................................................................................427
22
Weitere Verfahren .......................................................................... 429
22.1 22.2 22.3 22.4
Der Kollege..............................................................................................................429 Was fehlt? ................................................................................................................430 Zusätzliche Testverfahren........................................................................................430 Multivariate Verfahren ............................................................................................434
Excel-Funktionen ........................................................................................ 441 Glossar ......................................................................................................... 447 Register ........................................................................................................ 465
1
Was ist Statistik überhaupt?
„Ich glaube ke ner Statistik, die ich nicht selbst gefälscht habe.“ W. Churchill, brit. Premierminister, 1944
Anwendungsbereiche der Statistik 1.1 1.2 1.3 1.4 1.5 1.6
1.1
Die Statistik lügt Zielsetzungen Zum Begriff der Statistik Anwendungsbereiche Methodengruppen Grundbegriffe
Die Statistik lügt
Ein bekanntes deutsches Wirtschaftsforschungsinstitut veröffentlichte Mitte der 60er-Jahre des vergangenen Jahrhunderts eine statistische Prognose, nach der es mit der zukünftigen Wirtschaftsentwicklung in der Bundesrepublik Deutschland schlecht bestellt sei. Für die 70er-Jahre erwartete es deutliche konjunkturelle Einbrüche und vor allem stark anwachsende Arbeitslosenzahlen. Aufgrund der Veröffentlichung dieser Prognosen in einem viel beachteten Gutachten unternahmen die verantwortlichen Wirtschaftspolitiker, der Kanzler, der Wirtschaftsminister und der Finanzminister, alle Anstrengungen, um den prognostizierten Konjunktureinbruch zu verhindern. Zur Konjunkturbeeinflussung gibt es ja bekanntlich einige wirtschafts- und finanzpolitische Instrumente, die dann tatsächlich zum Einsatz kamen. Der Erfolg dieser Bemühungen war deutlich: Zwar konnte der konjunkturelle Einbruch nicht ganz verhindert, aber doch wesentlich abgeschwächt werden. Mehr noch: Es kam rasch wieder zu einer wirtschaftlichen Erholung, die unter dem Namen „Aufschwung nach Maß“ den älteren Lesern vielleicht noch bekannt sein dürfte. Dieser schöne Erfolg verführte einige Politiker dazu, bei nächstbester Gelegenheit – als nämlich von den Statistikern Befunde veröffentlicht wurden, die der Tagespolitik nicht sehr angenehm waren – davon zu sprechen, dass man der Statistik nicht trauen könne. „Das hat man doch gesehen, meine Damen und Herren“, wurde vom Rednerpult des Bundestages herunter verkündet, „da wurden von den Statistikern schwerwiegende konjunkturelle Einbrüche prognostiziert – und was ist passiert? Ich frage dieses hohe Haus, was ist passiert? Genau das Gegenteil ist eingetreten! Dank unserer hervorragenden Politik ist uns ein Aufschwung nach Maß gelungen, meine Damen und Herren. Man darf den Statistikern nicht glauben, meine Damen und Herren!“ Meine Schwiegermutter pflegte diese Erkenntnis kürzer zu formulieren. Sie sagte einfach: „Die Statistik lügt!“ Aufgabe dieses Buches ist es zu zeigen, was Statistik wirklich ist, genauer, was man mit statistischen Methoden machen kann. Dass man damit ab und zu auch ein bisschen schwindeln kann (man muss es aber nicht), wird sich dabei ebenfalls zeigen. Doch nun zur Sache.
14
1.2
1.2
Zielsetzungen
Zielsetzungen
Tag für Tag lesen Sie in den Zeitungen oder hören in den Rundfunk- und Fernsehnachrichten von Sozialprodukt, Konjunktur, Wirtschaftswachstum, Arbeitslosenquote oder Preisniveau und Lebenshaltungskosten, von „neuer Armut“ usw. Natürlich stehen diese und ähnliche Begriffe nicht für sich allein da, sondern werden interessant und aussagefähig, wenn sie mit Zahlen, mit statistischen Daten belegt sind: Der Trend in der Entwicklung des Sozialprodukts in der Bundesrepublik Deutschland zeigt aufwärts. Der Anteil potenzieller FDP-Wähler steigt seit etwa zwei Jahren signifikant an im Vergleich zum vorhergehenden langjährigen Durchschnitt. In der Zeit von 1990 bis 2004 stiegen die Lebenshaltungskosten durchschnittlich pro Jahr um 1,8%. Die Arbeitslosenquote lag im Jahr 2004 bei 8,1%. Solche und ähnliche Aussagen werden häufig von unseren Politikern formuliert. Man kann sie aber nur dann richtig verstehen und bewerten, wenn man weiß, was ein Trend ist und wie man ihn bestimmt; wenn man den Begriff der statistischen Signifikanz kennt, wenn man erfährt, wie die Statistiker Durchschnitte oder Prozentanteile berechnen und was sie unter Lebenshaltungskosten oder unter einem Preisindex verstehen. Vor allem muss man eine Vorstellung davon gewinnen, welche Probleme bei der Ermittlung derartiger Statistiken auftreten und wie fragwürdig deshalb manche statistischen Angaben sind – glücklicherweise nicht alle! Aus der riesigen Zahl statistischer Informationen, Kennziffern und Messwerte lässt sich für jeden Bedarf etwas finden: So fällt es den Regierungsparteien nicht schwer zu belegen, wie erfolgreich die Wirtschaftsentwicklung in diesem unseren Land verläuft; gleichwohl kann aber auch die Opposition mit handfesten statistischen Daten illustrieren, dass die Bundesrepublik Deutschland einer wirtschaftlichen Katastrophe entgegentreibt. „Was die Experten in den statistischen Ämtern regelmäßig als neueste Kennziffern für Befinden, Reichtum und Fleiß der Nation auswerfen, gleicht oft einem Mogelpaket.“ (Der Spiegel, 36/1978, Seite 89) Auch wenn dies Zitat etwas älter und übertrieben sein mag, ist doch eines richtig: Man wird als Nichtfachmann von der Flut unprüfbarer statistischer Einzelinformationen überrollt, wenn man sich nicht darum bemüht, einen Überblick darüber zu gewinnen, wie diese Informationen zustande kommen, wo „gemogelt“ werden könnte und was die Daten deshalb aussagen können (und was nicht). Insbesondere muss man wissen, welche statistischen Auswertungsmethoden bereitstehen, was man damit machen kann, wie sie eingesetzt werden und welche Ergebnisse erzielt werden können. Und dies ist, wenn man sich die zahlreichen Statistiken in der Presse anschaut, die als „wahre Werte“ in Argumentationen hervorgezaubert werden, ein höchst aktuelles Thema. Deshalb werden in diesem Buch die wichtigsten dieser Methoden vorgestellt. Da nun aber Statistik fast immer bedeutet, dass umfangreichere Datenbestände ausgewertet werden müssen, empfiehlt sich der Einsatz des Rechners. Während in früheren Jahren die rechnergestützte Datenauswertung eine Angelegenheit für Spezialisten war, haben die rasche Verbreitung preiswerter und leistungsfähiger Rechner einerseits und die Möglichkeiten der
1
Was ist Statistik überhaupt?
15
Nutzung komfortabler Software andererseits dazu geführt, dass auch der gelegentliche Statistikanwender und der Anfänger den Rechner- und Softwareeinsatz bevorzugen werden. Auf diese Weise nämlich ist es möglich, sich von der Last eventuell aufwändiger, komplizierter und umfangreicher Rechenarbeiten zu befreien. Mehr noch: Leicht können Alternativberechnungen und -auswertungen durchgeführt werden; Änderungen im Ausgangsdatenbestand führen nicht automatisch zu der Notwendigkeit, alles neu berechnen zu müssen, und Rechenfehler werden zuverlässig vermieden. Aber das ist noch immer nicht alles! Was besonders für den statistischen Laien von Bedeutung ist: Er muss nicht mehr die theoretischen Hintergründe statistischer Verfahren beherrschen, wenn er bestimmte Analysemethoden einsetzen will – die Computersoftware bietet ihm die wichtigsten Verfahren an, und was sich an mathematischen Geheimnissen dahinter verbirgt, braucht ihn nicht mehr zu interessieren. Allerdings – das soll in diesem Zusammenhang nicht verschwiegen werden – wer die Hintergründe kennt, auch wenn diese Kenntnisse nicht mehr zwingend erforderlich sind, der versteht mehr von den Methoden, die er einsetzt, und damit auch von den zu interpretierenden Ergebnissen, die er erzielt, als derjenige, der sich dafür nicht interessiert. Aus diesen Überlegungen ergibt sich, dass hier nicht nur über statistische Methoden gesprochen wird, sondern wir werden zugleich zeigen, wie sie rechnergestützt eingesetzt werden. Dazu greifen wir auf ein Programmpaket der Standardsoftware zurück, das in den letzten Jahren wegen seiner außerordentlichen Leistungsfähigkeit eine weite Verbreitung erfahren hat, nämlich auf das Windows-gestützte Programm Excel. Es handelt sich dabei um ein so genanntes Tabellenkalkulationsprogramm, das primär nicht für die Zwecke des Statistikers entwickelt wurde, gleichwohl es auch in diesem Anwendungsbereich hervorragende Dienste leisten kann. Die Präsentation statistischer Methoden und die Erörterung ihrer Einsatzmöglichkeiten anhand passender Praxisbeispiele gehen also in diesem Buch Hand in Hand mit der Besprechung der jeweils geeigneten Excel-Prozeduren. Damit werden Sie in die Lage versetzt – sofern Sie glücklicher Besitzer dieses Softwareprogramms sind –, die hier besprochenen statistischen Methoden auch sofort einsetzen und die gebotenen Anwendungsbeispiele gleichzeitig nachvollziehen zu können. Falls Sie mit dem Programm Excel noch keine Erfahrungen sammeln konnten, können Sie die wichtigsten Grundprinzipien zum Einsatz dieses Programms im folgenden Kapitel nachlesen. Wenn Sie diese Einführung nicht benötigen, können Sie nach dieser Einleitung direkt in Kapitel 3 weiterlesen.
1.3
Zum Begriff der Statistik
Wenn Sie wissen wollen, was die Statistiker treiben, müssen Sie sich zunächst einmal Gedanken darüber machen, was der Begriff Statistik bedeutet: Tabellen mit Angaben (Daten) zur Konjunkturlage, grafische Darstellungen etwa der Wählerstruktur bei einer Bundestagswahl, Angaben zur Entwicklung der Arbeitslosenquote in den letzten Jahren, Auswertungen einer Marktumfrage, Messungen von produzierten Werkstücken in der betrieblichen Qualitätskontrolle u.Ä. werden im Allgemeinen mit dem Begriff Statistik überschrieben. Genau genommen sind solche Statistiken aber nur die Ergebnisse statistischer Arbeit. Man erhält diese Ergebnisse, wenn man sich statistischer Methoden bedient. Anders ausgedrückt:
16
1.3
Zum Begriff der Statistik
Wenn man die Ergebnisse statistischer Arbeit kritisch beurteilen will, wenn man sie weiter verwenden will – oder aber wenn man selbst Statistiken erstellen will, dann muss man diese Methoden zuvor kennen lernen. Deshalb soll zunächst und vor allem über Statistik im Sinne von statistischen Methoden gesprochen werden. Für welchen Zweck werden statistische Methoden benötigt? Folgen wir einer Definition von R. Wagenführ, kann man diesen Zweck folgendermaßen umreißen: Statistische Methoden werden benötigt, um Massenerscheinungen zu quantifizieren, zu beschreiben, zu beurteilen, Schlüsse aus ihnen zu ziehen und ihre Erklärung vorzubereiten. In dieser Definition tauchen einige Begriffe auf, die näher betrachtet werden müssen, damit man sie richtig verstehen kann. Massenerscheinungen sind Sachverhalte, die man beobachten oder anders erfassen kann und die in großer Zahl auftreten. Das soll heißen, dass sich der Statistiker in der Regel nicht für Einzelfälle, für einzelne Daten oder für singuläre Angaben interessiert. Quantifizierung von Massenerscheinungen bedeutet, dass der Statistiker die interessierenden Tatbestände oder Sachverhalte mit Zahlen zu belegen versucht. In der Praxis gibt es sehr viele Phänomene, die quantifizierbar sind, also in Zahlen ausgedrückt werden können. Es darf aber nicht übersehen werden, dass es auch Informationen gibt, die sich einer Quantifizierung entziehen. Nicht umsonst haben deshalb in den letzten Jahren die qualitativen Verfahren deutlich an Bedeutung gewonnen. Beschreibung von Massenerscheinungen soll bedeuten, dass es nach der Quantifizierung (oder gleichzeitig) darum geht, das statistische Material zu beschreiben. Dabei gehen Sie so vor, als wollten Sie einem Gesprächspartner mitteilen, was Sie festgestellt haben. Sicherlich ist es nicht sinnvoll, jede einzelne Einkommensangabe von 40 Millionen abhängig Beschäftigten in diesem Gespräch mitzuteilen, sondern Sie werden zur mitteilenden Beschreibung zumindest zusammenfassen müssen; zum Beispiel können Sie den Datenbestand mit Hilfe von Durchschnittswerten beschreiben oder durch Angaben darüber, wie groß die Anzahl der Beschäftigten in einzelnen Einkommensklassen ist. Man spricht in diesem Zusammenhang auch von beschreibender Charakterisierung. Mit dem Stichwort Beurteilung von Massenerscheinungen wird ein Arbeitsschritt gekennzeichnet, der sich im Allgemeinen der Beschreibung anschließt. Der Statistiker beschäftigt sich nämlich nicht nur deshalb mit Massenerscheinungen, um möglichst viele Tabellen anlegen zu können, sondern um Licht in vorher unbekannte Bereiche zu bringen. So kann zum Beispiel die Aussage, dass 73% aller Haushaltsnettoeinkommen unter 1750 Euro monatlich liegen, als Vermutung, als Hypothese angesehen werden, die durch statistische Daten, also zum Beispiel durch eine entsprechende Umfrage überprüft und beurteilt werden soll. Man spricht dann davon, dass der Hypothese die statistischen Daten (Befunde) gegenübergestellt werden. Es soll auf diese Weise eine Entscheidung darüber herbeigeführt werden, ob die Hypothese als bestätigt oder als widerlegt gelten kann – die Aussage der Hypothese wird also überprüft oder, wie man auch sagt, einem Test unterzogen. In unserer Definition der statistischen Methoden tauchte noch das Stichwort Schlussfolgerungen auf. Auf der Grundlage der zuvor geschilderten Aufgaben statistischer Methoden können Schlüsse gezogen werden. Im Allgemeinen werden dabei aus den Ergebnissen einer statisti-
1
Was ist Statistik überhaupt?
17
schen Auswertung, die sich ja meist auf die Daten einer Stichprobe (Teilerhebung) stützt, Schlüsse auf die Gesamtheit gezogen, aus der diese Stichprobe stammt. Ergebnis einer solchen Schlussfolgerung könnte zum Beispiel die folgende Aussage sein: Weil sich in einer Stichprobenuntersuchung eine durchschnittliche Körpergröße zufällig ausgewählter Erwachsener von 172 cm ergeben hat, kann mit großer Wahrscheinlichkeit davon ausgegangen werden, dass auch in der Grundgesamtheit, aus der die Stichprobe stammt, die durchschnittliche Körpergröße bei 172 cm liegt. Eine solche Aussage ist natürlich in dieser Form nicht sonderlich aufregend. Da der Statistiker aber die Wahrscheinlichkeit dafür, dass die Aussage tatsächlich zutrifft, berechnen kann, wird sie interessanter. Er kann z. B. feststellen, dass obige Schlussfolgerung von der Stichprobe auf die Gesamtheit mit einer Wahrscheinlichkeit von 95% zutrifft. Damit wird eine solche Aussage sehr informativ und brauchbar. Das letzte Stichwort in der obigen Definition bezog sich auf die Vorbereitung der Erklärung von Massenerscheinungen: Die oben beschriebenen Überprüfungsverfahren dienen dieser Vorbereitung insbesondere dann, wenn man mehrere statistische Tatbestände gleichzeitig im Auge hat und sich nicht nur mit einem beschäftigt. Wird in einer statistischen Untersuchung beispielsweise der Gesundheitszustand der Bevölkerung thematisiert und werden zugleich Informationen über den tagesdurchschnittlichen Zigarettenkonsum gesammelt, dann kann mit geeigneten statistischen Methoden untersucht werden, ob es einen Zusammenhang zwischen beiden Bereichen gibt (Gesundheit und Rauchen) bzw. wie stark dieser eventuelle statistische Zusammenhang ist. Mit den beurteilenden Methoden kann der Statistiker prüfen, ob der eventuelle Zusammenhang deutlich genug ist oder nicht. Auf diese Weise kann der Weg zur Erklärung derartiger Zusammenhänge vorbereitet werden, was allerdings in der Regel aber die gleichzeitige Betrachtung weiterer Größen voraussetzt. Es ist klar, dass diese Erläuterungen zur Definition des Begriffs der statistischen Methoden für Sie noch recht unverbindlich sind. Wenn aber in den späteren Kapiteln dieses Buches die einzelnen Methoden vorgestellt werden, dann werden Sie sich an diese vorläufigen Anmerkungen erinnern.
1.4
Anwendungsbereiche
Wenn man erörtert, was unter statistischen Methoden zu verstehen ist und welche Aufgaben sie erfüllen, dann taucht natürlich sofort die Frage auf, für welche Anwendungsbereiche diese Methoden taugen und in welchen Gebieten dieses Instrumentarium eingesetzt wird. Die statistischen Datenbestände, die beschrieben oder analysiert werden sollen, sind ja zahlenmäßige Abbilder (nummerische Abbilder) von Tatbeständen aus Bereichen der realen, der wirklichen Welt. Welche Bereiche sind dies? Auch dem Nichtstatistiker ist bekannt, soweit er ab und an in die Zeitung schaut, dass ein wichtiges Anwendungsfeld der Statistik der wirtschaftliche Bereich ist. Man kann von Wirtschaftsstatistik sprechen, wenn es um Industrieumsätze geht, um die Arbeitslosenquote, um Durchschnittseinkommen, um die Werte für Exporte und Importe, um Lebenshaltungskosten und Inflationsraten, um Produktivität und Gehälter, um das Bruttosozialprodukt, um Preise, Produktionsmengen usw. Auch wenn man es nur mit einzelnen
18
1.4
Anwendungsbereiche
Produkten zu tun hat – zum Beispiel Kohleförderung, Entwicklung des Pkw-Bestands oder Erzeugung von Kunststoffen –, sind wirtschaftliche Fragen angesprochen. Offenbar handelt es sich hier um einen sehr breiten Anwendungsbereich statistischer Methoden, der leicht in Teilbereiche untergliedert werden kann. Solche Teilbereiche sind etwa die Preisstatistik, die Produktionsstatistik, die Industriestatistik, die Außenhandelsstatistik oder (ohne dass diese Liste schon vollständig wäre) die Betriebsstatistik. Diese betriebliche Statistik ist ein besonders wichtiger Teilbereich der Wirtschaftsstatistik, weil die statistische Durchleuchtung betrieblicher Abläufe für die notwendigen Prognosen, Planungen und Entscheidungen unentbehrliche Voraussetzung und Hilfe ist. Dies gilt übrigens nicht nur im wirtschaftsstatistischen Rahmen, sondern ganz generell. Die Wirtschaftsstatistik ist vielleicht der als Erstes ins Auge fallende Anwendungsbereich statistischer Methoden. Es darf jedoch nicht übersehen werden, dass es noch eine ganze Reihe anderer Anwendungsbereiche gibt. Einige wichtige (beileibe nicht alle denkbaren) sollen hier kurz vorgestellt werden: Die Bevölkerungsstatistik ist derjenige Anwendungsbereich statistischer Methoden, der sich mit der Aufzeichnung, Beschreibung und Analyse von Bevölkerungsbewegungen beschäftigt. Als Bevölkerungsbewegung bezeichnet man die Zunahme der Bevölkerung durch Geburten und Zuwanderungen und ihre Abnahme durch Tod und Abwanderungen. Häufig interessiert man sich für Einzelfragen, wie beispielsweise für die Geburtenhäufigkeit bei In- und Ausländern, Entwicklung dieser Kennziffern im Zeitablauf, Verteilung der Todesfälle nach Todesursachen u.Ä. – statistische Angaben, die für Politiker, Bildungsplaner, Mediziner und Soziologen, aber auch für den informierten Bürger von großem Interesse sein können. Unter Bevölkerungsstruktur versteht man die Zusammensetzung der Bevölkerung etwa nach Geschlecht, nach Alter, nach der Art der Beschäftigung oder zum Beispiel ihre örtliche (geografische) Verteilung. Es gibt eine sehr große Zahl von Merkmalen, nach denen man hier unterscheiden könnte. Dies leitet wieder in die Bereiche der Wirtschaftsstatistik über, wenn man sich etwa für den Umfang der arbeitsfähigen Bevölkerung interessiert, für die Zahl der abhängig Beschäftigten, für ihre Bildung und Ausbildung usw. Auch der Bereich der Sozialstatistik lehnt sich eng an die Wirtschafts- und die Bevölkerungsstatistik an, weil man es hier mit ähnlichen Bereichen der gesellschaftlichen Entwicklung zu tun hat. Die Sozialstatistik wendet sich insbesondere den quantifizierbaren Aspekten von Verteilungen zu, wie etwa der Einkommensverteilung, der Vermögensverteilung, der Verteilung von Bildungsqualifikationen oder der Einteilung der Bevölkerung in soziale Schichten und Klassen. Aber auch gesundheitspolitische Aspekte werden hier analysiert – beispielsweise die Frage, welche Diagnosen in bestimmten Regionen häufig bzw. weniger häufig in Krankenhäusern behandelt werden und welche Schlüsse man daraus bezüglich einer externen Belastung (z. B. Umwelteinflüsse) ziehen kann. Häufig interessiert man sich für Fragestellungen der Wirtschafts-, Bevölkerungs- oder Sozialstatistik, die sich auf andere Nationen beziehen – zum Beispiel bei internationalen statistischen Vergleichen. Dann muss man sich mit ausländischen Statistiken beschäftigen und diejenigen Veröffentlichungen heranziehen, die statistisches Material über das betreffende Ausland enthalten.
1
Was ist Statistik überhaupt?
19
Nicht nur im wirtschafts- und sozialwissenschaftlichen Bereich haben statistische Methoden weite Verbreitung gefunden, sondern auch in anderen Wissenschaftsgebieten, vor allem in den Naturwissenschaften. So gibt es zum Beispiel eine Medizinstatistik, die etwa die unterschiedlichen Krankheitsbilder, Krankheitsverläufe, Arznei- und Therapiewirkungen und nicht zuletzt auch die Resultate bei Tierversuchen aufzeichnet und statistisch auswertet. Die Physikstatistik analysiert physikalische Experimente, sofern sie in größerer Zahl durchgeführt werden, oder hilft mit, die in riesigen Mengen auftretenden Satellitenfotos auszuwerten und dergleichen mehr. Ähnlich ist es beispielsweise in der Psychologie, wo statistische Methoden benötigt werden, um die Ergebnisse von Untersuchungsexperimenten, die mit Personen oder Personengruppen durchgeführt werden, zu durchleuchten. Es wird Ihnen nach diesen durchaus unvollständigen Aufzählungen klar sein, wo es weitere Anwendungsgebiete für die Statistik gibt: Geografie, Wetterkunde, Biologie, Linguistik (Sprachwissenschaften) usw.
1.5
Methodengruppen
Es ist an dieser Stelle angebracht, die große Zahl unterschiedlicher statistischer Methoden und Verfahren zu klassifizieren, um einen ersten Überblick zu gewinnen. Dabei bieten sich verschiedene Unterteilungskriterien an.
1.5.1 Deskriptive und induktive Statistik Zunächst soll in die beiden wichtigen Bereiche der deskriptiven und der induktiven Statistik unterteilt werden. Von deskriptiver Statistik bzw. von deskriptiven statistischen Methoden spricht man, wenn das Ziel der eingesetzten Verfahren die Beschreibung des Ausgangsdatenbestandes ist. Zum Beispiel zählt die Berechnung eines arithmetischen Mittels, eines Durchschnitts also, zu dieser Gruppe, weil Sie mit der Mittelwertberechnung Ihren Datenbestand zusammenfassend beschreiben können. Von induktiven statistischen Methoden hingegen spricht man, wenn auf der Grundlage von Stichprobendaten Rückschlüsse auf die Grundgesamtheit angestrebt werden, aus der die jeweilige Stichprobe stammt. Diese Rückschlüsse führen, wie Sie noch erkennen werden, zu wahrscheinlichkeitsbehafteten Aussagen, weshalb die Verfahren dieser Gruppe auch manchmal dem Begriff der Wahrscheinlichkeitsstatistik untergeordnet werden. Mitunter spricht man in diesem Zusammenhang auch von schließender oder beurteilender Statistik.
1.5.2 Uni-, bi- und multivariate Methoden Bei den hier genannten Methodengruppen geht es um Folgendes: Der Statistiker interessiert sich bei der statistischen Auswertungsarbeit häufig nur für eine einzige Untersuchungsvariable, zum Beispiel für das monatliche Nettoeinkommen einer großen Zahl abhängig Beschäftigter in der Bundesrepublik Deutschland. Alle Methoden, die er einsetzt, um die Einkommensangaben zu analysieren, zählen zu den Methoden der univariaten Statistik. Wenn es aber um die Betrachtung von zwei Variablen gleichzeitig geht – zum Beispiel um den tagesdurchschnittlichen Zigarettenkonsum zufällig ausgewählter Erwachsener einerseits und um Angaben zum oberen Blutdruckwert dieser Personen andererseits, wenn man sich also dafür interessiert, ob es vielleicht Zusammenhänge zwischen diesen beiden Variablen gibt, dann bedient man sich der Methoden der bivariaten Statistik (bi = zwei). Schließlich kommt der
20
1.5
Methodengruppen
Statistiker auf die Idee, dass die Angaben zum Blutdruck nicht nur vom Zigarettenkonsum, sondern vielleicht auch vom Alter, vom Geschlecht und vom Beruf der befragten Personen beeinflusst sein könnten. Will er solchen gemeinsamen Beeinflussungen auf die Spur kommen, benötigt er die Methoden der multivariaten Statistik (multi = viele = drei oder mehr).
1.5.3 Skalenabhängige Methoden Hier geht es um die Frage der so genannten Skalenqualität statistischer Untersuchungsvariablen. Mit diesem Begriff ist der Informationsgehalt von Daten angesprochen. Was damit gemeint ist, sollen einige illustrative Beispiele erläutern: Stellen Sie sich vor, es wird der Familienstand zufällig ausgewählter Personen erfasst – also Angaben wie verheiratet, ledig, geschieden oder verwitwet. Man spricht in diesem Zusammenhang von einer Nominalskala (genauer von einer nominalskalierten Variablen) und will damit zum Ausdruck bringen, dass die ermittelten Werte nur Etiketten sind, gewissermaßen also Namen. Diese Etiketten erlauben nur Unterscheidungen zwischen einzelnen Personen – sonst nichts. Der Informationsgehalt beschränkt sich also auf die Feststellung von Unterschieden oder von Identitäten. Anders verhält es sich zum Beispiel mit der Variablen Zeugnisnote. Befragen Sie 20 zufällig ausgewählte Schüler nach ihrer Mathematikzensur, dann beinhalten die 20 Angaben nicht nur Unterscheidungs-/Identitätsinformationen, sondern zusätzlich auch eine Rangordnungsinformation (Schüler A ist besser als B, Schüler C ist schlechter als D usw.). Eine solche Variable nennen wir ordinalskalierte Variable. Können zusätzlich auch die Abstände (oder sogar die Quotienten) zwischen je zwei Werten einer Untersuchungsvariablen inhaltlich interpretiert werden, sprechen wir von einer metrischen Skala. So ist beispielsweise die Variable Körpergröße metrisch skaliert: Der Abstand von Person A (190 cm) zu Person B (160 cm) ist doppelt so groß wie der zwischen C (170 cm) und D (185 cm; 190 – 160 = 30; 185 – 170 = 15); man spricht von Abstandsinformationen. Das Alter von Person E (60 Jahre) ist dreimal so groß wie das von Person F (20 Jahre; 60/20 3 ); man spricht von Quotienteninformation. Natürlich können Sie zum Beispiel auch bei einer Ordinalskala Abstände oder Quotienten zwischen je zwei Werten berechnen – aber die Rechenergebnisse besagen inhaltlich nichts: Wenn Schüler A die Note 2, Schüler B die Note 4 hat, dann ist 4/2 2 . Das heißt aber nicht, dass Schüler A doppelt (zweimal) so gut ist wie Schüler B. Aus diesen Überlegungen ergibt sich, dass bestimmte mathematische Operationen bei bestimmten Skalen inhaltlich sinnvoll sind, bei anderen aber nicht. Und dies wiederum bedeutet, dass es statistische Methoden gibt, die bei bestimmten Skalen eingesetzt werden können, bei anderen jedoch nicht. Beispielsweise ist die Berechnung eines arithmetischen Mittels bei Körpergrößen sinnvoll, bei Angaben zum Familienstand aber sinnlos. Wenn die durchschnittliche Körpergröße 172,3 cm ist, dann können Sie mit dieser Information etwas anfangen. Wenn aber ausgerechnet wird, dass der durchschnittliche Familienstand 1,17 ist, dann stellt dies eine sinnlose Information dar. (Sie sollten sich einmal überlegen, warum es auch sinnlos ist, arithmetische Mittel aus Schulzensuren auszurechnen – auch wenn dies in der Realität der statistischen Praxis immer wieder gemacht wird.)
1
Was ist Statistik überhaupt?
21
Deshalb ist es zweckmäßig, statistische Methoden danach zu unterschieden, für welche Skalenqualitäten sie eingesetzt werden können.
1.6
Grundbegriffe
Vor den weiteren Ausführungen ist es zweckmäßig, einige wichtige Grundbegriffe zu klären, die immer wieder auftauchen werden.
1.6.1 Merkmale und Merkmalsträger Interessiert sich der Statistiker zum Beispiel für die Körpergröße erwachsener Personen, dann wird die Körpergröße als Merkmal oder als Variable bezeichnet. Variable wird eine solche Größe üblicherweise deshalb genannt – auch wenn diese Begriffsklärung etwas oberflächlich ist –, weil sie (von Person zu Person) unterschiedliche (variable) Werte annimmt. Nur zufällig werden zwei Personen die gleiche Körpergröße aufweisen. Die Werte der Variablen, also die einzelnen beobachteten oder gemessenen Körpergrößen, werden Ausprägungen (Variablenausprägungen) oder Merkmalswerte (kurz Werte) genannt. Zweckmäßigerweise unterscheidet man zwei Typen von Variablen: Variablen, die nur ganz bestimmte Werte annehmen können, die streng voneinander getrennt sind, so dass keine Zwischenwerte möglich sind, werden diskrete Variablen genannt. Ein typisches Beispiel ist das Merkmal Geschlecht, das als Werte nur männlich oder weiblich annehmen kann. Weitere Beispiele wären etwa die Merkmale Familienstand, Kinderzahl, gewählte politische Partei usw. Sie sollten versuchen, weitere Beispiele solcher Merkmale zu finden und die Merkmalswerte zu benennen. Dagegen hat man es mit einer stetigen Variablen zu tun, wenn die Variable im Prinzip jeden Wert und jeden Zwischenwert als Ausprägung annehmen kann. Beispiele dafür sind Einkommen oder generell Geldgrößen (wenn man davon absieht, dass zwischen benachbarten Centangaben im Allgemeinen keine Zwischenwerte angegeben werden), metrische Angaben wie Körpergrößen oder -gewichte, gemessene Zeiten, Temperaturen, Prozentangaben usw. Auch hier sollten Sie versuchen, einige weitere Beispiele zu benennen. Die Merkmalsträger sind bei diesen Beispielen immer einzelne Personen gewesen. Merkmalsträger können aber auch Nationen sein, vielleicht mit den Merkmalen Bevölkerungszahl, Fläche, Bruttosozialprodukt; oder Gemeinden mit den Merkmalen Steueraufkommen, Grünflächenanteil, Bevölkerungszahl; oder Straßenkreuzungen mit dem Merkmal Zahl der Unfälle pro Monat; Werkstücke mit den Merkmalen Durchmesser, Gewicht, Schadhaftigkeit; Zuchtsauen mit den Merkmalen Gewicht, Zahl der Ferkel usw.; Autos mit den Merkmalen Farbe, Hubraum usw.
1.6.2 Stichprobe und Grundgesamtheit Wenn sich der Statistiker für bestimmte Sachverhalte, Tatbestände oder Entwicklungen quantitativer Art interessiert, dann muss er versuchen, die entsprechenden Daten zu finden. Es bieten sich generell zwei Wege an: Entweder er betrachtet die Grundgesamtheit aller in Frage kommenden Merkmalsträger, oder er beschränkt sich auf eine Teilerhebung aus dieser Grundgesamtheit, die man auch Stichprobe nennt. Es leuchtet unmittelbar ein, dass eine Stichprobe rascher zu Ergebnissen führt und dass die Datenerhebung auf Stichprobenbasis viel preiswer-
22
1.6
Grundbegriffe
ter ist als eine Totalerhebung, also als die Auszählung der Grundgesamtheit. Weiterhin ist einleuchtend, dass eine Totalerhebung dann vorzuziehen ist, wenn es – aus welchen Gründen auch immer – unbedingt erforderlich ist, alle in Frage kommenden Merkmalsträger zu untersuchen.
2
Excel – Grundlagen
„Sind Computer lebendig?“ G. Simons, Computer-Fachmann, 1984
Vom Umgang mit Excel 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
2.1
Im Schweiße meines Angesichts ... Statistik und Excel Der Start von Excel Ein erstes Beispiel Veränderungen Mathematische Berechnungen Drucken Diagramme Daten importieren
Im Schweiße meines Angesichts ...
Als es noch keinen PC gab und der Zugang zu Großrechnern mit allerlei Schwierigkeiten verbunden war, begann ich meine Statistikerlaufbahn. Damals brachte mir mein Chef (da hatte ich noch einen) eine umfangreiche Sammlung statistischer Daten, nämlich für 13 Industrieländer die Umsatzangaben für den schwerindustriellen Bereich über den Zeitraum von 1860 bis 1960, und zwar in Monatsangaben. Ich saß also mehr oder weniger erschüttert vor 13 101 12 15756 Einzeldaten. „Mein Lieber“, sagte mein Chef, „ich hätte gern gleitende Durchschnitte zur Glättung dieser Daten!“ Dann überreichte er mir zum Trost eine Zigarre der Marke El Prado (eine Achtzigpfennigzigarre, was für die damalige Zeit etwas zu bedeuten hatte) und verschwand. Natürlich wusste ich, wie man gleitende Durchschnitte berechnet. Man addiert die ersten 12 Werte, teilt die Summe durch 12 und ordnet dieses Rechenergebnis der Mitte des ersten 12erZeitraums zu. Dann nimmt man aus der Summe den ersten Wert heraus, packt dafür den 13. Wert dazu, berechnet wieder den Durchschnitt, schreibt ihn an die mittlere Position des Bereichs 2. Als Nächstes nimmt man dann den zweiten Wert heraus, den 14. Wert hinzu, rechnet den Durchschnitt und schreibt ihn an die passende Stelle usw. Ich saß drei Tage vor den Daten, die ich auf große Bögen karierten Papiers übertragen hatte, verbrauchte zwei Bleistifte und drei Radiergummis, addierte, dividierte, schrieb das Ergebnis an die passende Stelle, strich den vorderen Wert durch, hakte den zusätzlichen Wert ab, addierte, dividierte, schrieb ... Es war Hochsommer. Im Institut, in dem ich arbeitete, brütete die Hitze. Mit einem Frotteehandtuch, das ich mir um den Nacken gelegt hatte, wischte ich mir im 30-Sekunden-Abstand den Schweiß von der Stirn. Nach drei Tagen war ich fertig. Aber, dachte ich mir dann, zur Sicherheit – bevor ich meine Ergebnisse dem Chef auf den Schreibtisch lege – zur Sicherheit sollte ich noch einmal rechnen. Wie leicht schleicht sich ein Rechenfehler ein.
24
2.2
Statistik und Excel
Also noch einmal drei Tage addieren, dividieren, schreiben, wegstreichen, abhaken, schwit ... Und wie es nicht anders zu erwarten war – am Ende der Woche zeigte sich, dass sich zweiten Ergebnisse partiell von den ersten unterschieden. Was macht der clevere Statistiker in einem solchen Fall? Er nimmt nicht den Durchschnitt aus beiden Ergebnissen, denn das wäre ja auf jeden Fall fehlerhaft, sondern er rechnet ein drittes Mal, um zu sehen, ob er Übereinstimmung mit der ersten oder mit der zweiten Version erzielt. Also ein drittes Mal addieren, dividieren, schreiben, wegstreichen, abhaken, schwitzen ... Sie werden erraten, was passierte: Ich hatte nach weiteren drei Tagen ein drittes Ergebnis in Händen! Da war ich es leid. Ich wandte mich an einen Freund, von dem ich wusste, dass er etwas mit Computern zu tun hatte, und erbat seinen Rat. „Wir schreiben ein kleines Programm“, sagte er, „sieben oder acht Anweisungen genügen ...“. Ich war beeindruckt und schaute ihm neugierig über die Schulter, als er das kleine FORTRAN-Programm entwickelte. Am nächsten Tag brachte er mir die Ergebnisse, die der Schnelldrucker des Rechenzentrums auf Endlospapier ausgegeben hatte. Endlose Zahlenkolonnen und am Ende die Meldung: Benötigte Rechenzeit: 2,07 Sekunden!!! Sicherlich können Sie verstehen, dass ich nach diesem Erlebnis nichts und nie mehr per Hand gerechnet habe. Übrigens, mit dem Computerergebnis hatte ich eine vierte Version der Resultate in Händen – diesmal aber garantiert fehlerfrei!
2.2
Statistik und Excel
Das Tabellenkalkulationsprogramm Excel eignet sich in hervorragender Weise dazu, die Aufgaben, die üblicherweise im Rahmen statistischer Auswertungen und Analysen anfallen, zu bewältigen. Der Einsatz eines solchen Programms ist allein schon deshalb sehr empfehlenswert, weil sich die manchmal recht mühsame Arbeit des Statistikers wesentlich vereinfacht, weil die Gefahr von Rechenfehlern, die sich bei Berechnungen „per Hand“ unweigerlich über kurz oder lang einschleichen, gebannt ist und weil sehr rasch und ohne zusätzlichen Aufwand Alternativen erprobt werden können, wenn für eine bestimmte statistische Aufgabe unterschiedliche Verfahrensmöglichkeiten zur Verfügung stehen. Es bietet sich deshalb geradezu an, statistische Methoden nicht mehr für sich isoliert zu betrachten und dem Anfänger in einem Trockenkurs zu erläutern, sondern in Verbindung mit einem solchen Programm. Der Einsatz von Excel für statistische Zwecke setzt allerdings voraus, dass man sich mit den wichtigsten Funktionen dieses Programms auskennt. Sicherlich braucht man nicht alle Feinheiten zu kennen, aber einige wenige Grundlagen sind doch ganz hilfreich – insbesondere die folgenden Funktionselemente: Eingabe und Speicherung von Daten Korrektur von Daten tabellarische und grafische Präsentationen statistische Berechnungen Einsatz statistischer Funktionen
2
Excel – Grundlagen
25
Diese Stichwörter sollen in diesem Kapitel aufgegriffen werden. Leser, die sich mit Excel schon auskennen, können dieses Kapitel natürlich überschlagen und zu den konkreten statistischen Anwendungen weiterblättern, die ab dem dritten Kapitel besprochen werden.
2.3
Der Start von Excel
Starten Sie das Programm Excel, gelangen Sie zum Startbildschirm, wo Ihnen eine erste, natürlich noch leere Tabelle in einer ersten so genannten Arbeitsmappe angeboten wird (siehe Abbildung 2.1). Excel erfasst Ihre Informationen in Arbeitsmappen, in die Sie Tabellen und Diagramme einsortieren können. Natürlich darf eine solche Arbeitsmappe auch nur eine einzige Tabelle oder nur ein Diagramm enthalten. Mit welcher Tabelle oder mit welchem Diagramm einer Mappe Sie gerade arbeiten, erkennen Sie am unteren Bildschirmrand, wo Sie auch durch Anklicken zwischen den einzelnen Blättern der Mappe wechseln können.
Abb. 2.1: Excel-Startbildschirm
Nach dem Start ist die erste Tabellenzelle links oben dick umrandet, und der Spaltenkopf (A) sowie der Zeilenkopf (1) sind farbig hervorgehoben. Wenn Sie dann den Mauszeiger in die Tabelle hinein steuern, sieht er aus wie ein dickes Kreuz.
26
2.3
Der Start von Excel
Am rechten Bildschirmrand entdecken Sie einen gesonderten Bereich, der Ihnen beispielsweise erlaubt, Mappen, mit denen Sie schon gearbeitet haben, sofort zu öffnen oder nach bestimmten Begriffen, zu denen Sie Hilfe wünschen, zu suchen. Jede Excel-Tabelle ist aus Zeilen und Spalten aufgebaut. Die Spalten sind mit den Buchstaben A, B, C, …, die Zeilen mit den Zahlen 1, 2, 3, ... bezeichnet. Einige besonders wichtige Elemente dieses Startbildschirms sollen für den Einsteiger kurz erläutert werden: Titelzeile Die erste Bildschirmzeile heißt Titelzeile: Hier sehen Sie, mit welchem Programm Sie gerade arbeiten. Durch Anklicken der Schaltfläche ganz rechts oben, die mit dem x-Symbol, können Sie Excel wieder verlassen. Menüzeile Die vielleicht wichtigsten Informationen stehen in der zweiten Bildschirmzeile – das ExcelHauptmenü. Hier finden sich die einzelnen Menüpositionen, die durch Anklicken oder mit der Tastenfolge Alt und dem unterstrichenen Buchstaben aktiviert werden können. Dabei öffnen sich Untermenüs, in denen nach dem gleichen Muster verfahren wird. Rechts sehen Sie in dieser Menüzeile das ?-Zeichen, mit dem Sie Hilfsinformationen aufrufen können. Sinnbildzeile (Funktionsleiste) In der dritten (und eventuell auch in der vierten) Bildschirmzeile finden Sie eine ganze Reihe von Sinnbildern (Icons) in Form einzelner Schalter, mit denen durch Anklicken bestimmte Aktivitäten sofort erledigt werden können, ohne dass vorher die Auswahl von Menü- und Untermenüpositionen erforderlich wäre. Diese Sinnbilder dienen also der Beschleunigung Ihrer Arbeit. Der Umgang mit ihnen wird später besprochen. Eingabezeile (Bearbeitungszeile) Die nächste Bildschirmzeile ist die Eingabe- oder Bearbeitungszeile. Sie dient dazu, Informationen aufzunehmen (Daten, Berechnungsformeln, aber auch Texte, wie später noch gezeigt wird), die dann in eine Tabellenzelle übernommen werden können. Statuszeile Unter der Arbeitsmappe finden Sie eine Bildschirmzeile, die Statuszeile genannt wird. Hier finden Sie Informationen zu dem Befehl, mit dem Sie gerade arbeiten – wenn es so weit ist. Arbeitsbereich Der wesentliche Bereich des Bildschirms wird durch die nach dem Start von Excel noch leere erste Tabelle eingenommen. Es ist die erste Tabelle in der ersten Arbeitsmappe, der Excel den Namen Mappe1 gegeben hat (siehe erste Bildschirmzeile). Der Name Mappe1 kann und sollte von Ihnen später geändert werden; wir kommen darauf noch zu sprechen. Jede Tabellenzelle kann durch Angabe ihrer Zeile und Spalte (man spricht von Koordinaten) identifiziert werden. A2 bezeichnet die Tabellenzelle in der Spalte A und der Zeile 2. Eine solche Bezeichnung wird Bezug genannt (die Bezeichnung 2A ist nicht zulässig). Mehrere zusammenhängende Tabellenzellen werden Bereich genannt. Um einen Bereich zu kennzeichnen, wird der Doppelpunkt verwendet. Beispielsweise umfasst der Bereich A1:A7 alle Zellen der Spalte A von Zeile 1 bis Zeile 7. Entsprechend umfasst A1:D1 alle Zellen in
2
27
Excel – Grundlagen
der Zeile 1 von Spalte A bis Spalte D. Schließlich bezeichnet A1:D7 den Bereich in den ersten vier Spalten von Zeile 1 bis Zeile 7. Mauszeiger Im Arbeitsbereich sehen Sie den Mauszeiger als dickes Kreuz dargestellt. Er gibt diejenige Position (Zelle) in der Tabelle an, an der Sie sich gerade befinden und beispielsweise Informationen eingeben können. In den oberen Bildschirmzeilen, z.B. in der Menüzeile, wird der Mauszeiger zu einem Pfeil mit nach links oben zeigender Spitze und deutet auf die auszuwählenden Menüpositionen. Auf dem Fensterrand und in den Fensterecken verändert er wiederum seine Form (Doppelpfeil) und dient dann dazu, das jeweilige Fenster zu verschieben oder in seiner Größe zu verändern, was mit gedrückter linker Maustaste bewerkstelligt wird. In der Editierzeile (Eingabezeile) wird er zu einem senkrechten Strich.
2.4
Ein erstes Beispiel
Wenn Sie mit Excel rechnen wollen, müssen die Ausgangsdaten in eine Excel-Tabelle eingegeben werden – beispielsweise in die Tabelle, die Ihnen nach dem Start angeboten wird. Das Beispiel, von dem wir im Folgenden ausgehen wollen, ist sehr einfach (siehe Tabelle 2.1): Stellen Sie sich vor, Sie haben sich eine Woche lang jeden Morgen auf die Badezimmerwaage gestellt, um Ihr Gewicht zu kontrollieren. Auf diese Weise haben Sie die folgenden sieben Werte erhalten: Tab. 2.1: Gewichtsmessung Tag
Gewicht (kg)
Montag
77,5
Dienstag
77,8
Mittwoch
78,3
Donnerstag
78,1
Freitag
78,4
Samstag
78,2
Sonntag
78,5
Diese Werte sollen nun in die Excel-Tabelle eingegeben werden, wobei wir der Einfachheit halber auf die Wochentage verzichten und nur die Zahlenwerte selbst in die A-Spalte von oben nach unten (Zeile 1 bis Zeile 7) eingeben. Dazu muss für den ersten Wert zunächst das Tabellenfeld A1 (Spalte A, Zeile 1) angesteuert werden. Sollte auf Ihrem Bildschirm dieses Feld schon stärker umrandet sein (die Koordinaten sind dann farbig unterlegt), ist dieser Arbeitsschritt entbehrlich. Andernfalls steuern Sie den Mauszeiger auf die Zelle A1 und drücken kurz die linke Maustaste (Anklicken von A1). Spätestens jetzt ist diese Zelle stärker als die anderen umrandet. Zusätzlich erscheint in der Eingabezeile des Bildschirms am linken Rand die Abkürzung A1. Hier können Sie also immer kontrollieren, welche Tabellenzelle gerade angesprochen bzw. aktiv ist.
28
2.4
Ein erstes Beispiel
Schreiben Sie jetzt die erste Zahl (77,5). Während Sie sie eintippen, erscheint diese Zahl in der Eingabezeile. Ist Ihre Eingabe komplett, drücken Sie die Return-Taste oder die Taste mit dem Abwärtspfeil (Sie können auch das grüne Häkchen vor der Eingabezeile anklicken). Damit wird die Zahl automatisch in die erste Tabellenzelle übernommen. Entsprechend können Sie jetzt alle anderen Werte untereinander eingeben. Sollten Sie sich bei einer Zelle verschrieben haben, klicken Sie sie einfach wieder an (oder steuern Sie sie mit den Pfeiltasten an) und geben den korrekten Wert ein. Wenn Sie alle Daten untereinander eingegeben haben, müsste Ihr Bildschirm so aussehen, wie es Abbildung 2.2 zeigt.
Abb. 2.2: Nach der Dateneingabe (E02.XLS, Gewicht1)
(Die Angaben in Klammern bei den Abbildungsunterschriften bezeichnen die entsprechenden Dateien auf der beigefügten CD.) Bevor nun irgendwelche Berechnungen durchgeführt werden – vielleicht sind Sie am Durchschnittsgewicht dieser betreffenden Woche interessiert oder am prozentualen Zuwachs von Montag bis Sonntag –, sollten Ihre Informationen gespeichert werden. Falls dann, aus welchen Gründen auch immer, der Strom ausfällt, war wenigstens die mühsame Arbeit der Dateneingabe nicht umsonst. Zum Speichern verwenden Sie die Menüposition DATEI/SPEICHERN UNTER… (Excel-Menüpositionen, Excel-Funktionen und dergl. schreiben wir im Folgenden in KAPITÄLCHEN, damit Sie sie sofort erkennen). Es öffnet sich ein Dialogfenster (siehe Abbildung 2.3 auf der folgenden Seite). Excel bietet Ihnen in diesem Dialogfenster an, Ihre erste Arbeitsmappe (mit der ersten kleinen Tabelle) als Datei unter dem Namen Mappe1 auf der Festplatte C: im Unterverzeichnis, aus dem heraus Sie gestartet waren, bzw. im Unterverzeichnis „Eigene Dateien“ zu speichern. Damit sollten Sie nicht einverstanden sein, denn erstens gehört Ihre Datei da nicht hin, und zweitens sollte auch der Name geändert werden. Wechsel des Laufwerks Sie können ein anderes Laufwerk auswählen, wenn Sie zum Beispiel anstatt auf der Festplatte C: auf einer Diskette im Laufwerk A: speichern wollen (eine formatierte Diskette muss dann in diesem Laufwerk liegen). Dazu müssen Sie im oberen Teil des Dialogfensters, neben dem Feld mit der aktuellen Verzeichnisangabe, den Schalter mit dem gelben Ordner-Symbol und
2
Excel – Grundlagen
29
dem nach oben weisenden grünen Pfeil so lange anklicken, bis im mittleren Listenfeld das Verzeichnis oder das Laufwerk auftaucht, das Sie wünschen. Dieses ist dann anzuklicken.
Abb. 2.3: DATEI/SPEICHERN UNTER…
Änderung des Dateinamens Steuern Sie den Mauszeiger in das vorletzte Feld des Dialogfensters (DATEINAME:) direkt vor den Anfang des Namens Mappe1, drücken kurz die linke Maustaste, und schreiben Sie dann den Namen hin, der Ihnen besser gefällt. Wenn sich bei der Eingabe des neuen Namens die Symbolfolge Mappe1 nach rechts verschiebt, macht das nichts. Sie können die überflüssigen Zeichen dann mit der Entf-Taste löschen. Wenn Sie danach die Schaltfläche SPEICHERN anklicken, wird Ihre Datei gespeichert. Sie erhält dabei die Typenkennung .XLS, die dem Dateinamen automatisch angehängt wird. Wenn Sie später an Ihrer Tabelle weitergearbeitet haben und sie erneut speichern, ist es in aller Regel sinnvoll, den gleichen Dateinamen und den gleichen Pfad (Laufwerksname, Unterverzeichnis) zu verwenden, also die zuerst verwendeten Informationen beizubehalten. Dann wird die alte durch die nun veränderte Datei überschrieben, was im Allgemeinen sinnvoll sein dürfte. Um dies zu bewerkstelligen, verwenden Sie die Menüauswahl DATEI/SPEICHERN (es genügt auch das Anklicken des Diskettensymbols in der dritten Bildschirmzeile). Erscheinen nicht gleich alle Menüpositionen, warten Sie einen Moment, oder klicken Sie auf den Schalter am unteren Rand des Menüs (nach unten weisender Doppelwinkel). Wollen Sie hingegen beim erneuten Speichern den Namen oder auch den Pfad verändern, so müssen Sie wieder mit der Menüposition DATEI/SPEICHERN UNTER… arbeiten. Dann erhalten Sie wieder das obige Dialogfenster und können die gewünschten Änderungen vornehmen. Jedes Dialogfenster können Sie wieder verlassen, indem Sie die Schaltfläche mit dem x-Symbol rechts oben anklicken. Sie können stattdessen auch die Schaltfläche ABBRECHEN anklicken.
30
2.4
Ein erstes Beispiel
Es empfiehlt sich übrigens, bei längeren Informationseingaben oder umfangreicheren und zeitlich aufwändigen Bearbeitungen zwischendurch in regelmäßigen Abständen mit der Menüposition DATEI/SPEICHERN zu speichern (ersatzweise genügt wieder das Anklicken der Schaltfläche mit der Diskette in der Funktionsleiste oben). Wenn Sie Ihre Arbeit mit Excel beenden und das (letzte) Speichern vergessen haben, werden Sie vom Programm auf dieses Versäumnis aufmerksam gemacht. Sie können dann das Speichern nachholen. Doch nun zurück zu dem Zahlenbeispiel mit den sieben Gewichtsangaben aus einer Woche: Stellen Sie sich beispielsweise vor, Sie wollten aus den sieben eingegebenen Gewichtsangaben ausrechnen, wie groß der prozentuale Gewichtszuwachs von Montag bis Sonntag, also von 77,5 kg auf 78,5 kg war. Eine solche Aufgabe kann man per Hand lösen, was ein bisschen Zeit erfordert und mit dem Risiko verbunden ist, dass man sich verrechnet. Einen solchen Rechenfehler sieht man dem Ergebnis möglicherweise nicht an, sodass man sich in dem irrigen Glauben befindet, die Gewichtszunahme betrage nur 0,91% – oder man setzt Excel ein: Excel rechnet viel schneller und vor allem fehlerfrei. In beiden Fällen muss aber eine wichtige Voraussetzung erfüllt sein: Sie müssen wissen, wie man den prozentualen Zuwachs zwischen zwei Zahlenwerten prinzipiell berechnet. Wenn Sie es nicht wissen – Excel weiß es auch nicht! Dies mag manchen Anwendern betrüblich erscheinen, und ich werde diese deshalb auch gleich mit einem dicken Trostpflaster versorgen; es hat aber auch seine positiven Seiten: Generell gilt nämlich, dass nur derjenige, der den Lösungsweg für ein bestimmtes Rechenproblem kennt, die Ergebnisse, die ein Anwenderprogramm quasi automatisch produziert, auch sachgerecht interpretieren kann. Jetzt aber das Trostpflaster: Sehr viele mathematische und statistische Aufgaben kann Excel selbstständig erledigen, ohne dass Sie die entsprechenden Lösungswege vorher im Kopf haben müssen. Weder Kopfrechnen ist dann gefragt, noch muss man wissen, wie zum Beispiel das Durchschnittsgewicht ausgerechnet wird. Excel weiß, wie ein Durchschnitt berechnet wird; und viele andere mathematische Ansätze, die im praktischen Umgang mit einem solchen Programm gebraucht werden, kennt Excel auch. Spätere Beispiele werden dies verdeutlichen. Nun aber zurück zu unserer Aufgabe: Wie groß ist der prozentuale Zuwachs zwischen 77,5 kg und 78,5 kg? Wollte man dies per Hand ausrechnen, wäre der folgende Rechenansatz erforderlich: Prozentualer Zuwachs
78,5 77,5 100 77,5
Mit einem Taschenrechner erhalten Sie das (gerundete) Ergebnis, nämlich 1,29%. Mit dem Blick auf unsere Tabelle (siehe Abbildung 2.2) lässt sich dieser Rechenansatz wie folgt beschreiben: 1. 2. 3.
Vom Inhalt der Zelle A7 muss der Inhalt der Zelle A1 abgezogen werden. Diese Differenz muss durch den Inhalt der Zelle A1 dividiert werden. Dieses Divisionsergebnis ist mit der Zahl 100 zu multiplizieren, um zu einem Prozentwert zu gelangen.
Soll dieses Ergebnis im Tabellenfeld A8 auftauchen, ist wie folgt vorzugehen:
2
Excel – Grundlagen
31
1. Klicken Sie mit dem Mauszeiger die Zelle A8 an; sie ist dann stärker umrandet. 2. Geben Sie die folgende Information ein: =(A7-A1)/A1*100 Jetzt erscheint in Zelle A8 der Abbildung 2.4 das gewünschte Rechenergebnis. Wichtig ist in diesem Zusammenhang zweierlei: Berechnungen müssen immer mit dem Gleichheitszeichen eingeleitet werden. In den Formeln dürfen keine Leerzeichen auftauchen (es gibt Ausnahmen von dieser Regel, die aber in unserem Zusammenhang nicht interessieren).
Abb. 2.4: Erstes Rechenergebnis (prozentualer Zuwachs) (E02.XLS, Gewicht2)
Sie können diese nun veränderte Tabelle in Ihrer Arbeitsmappe speichern. Verwenden Sie die Menüposition DATEI/SPEICHERN, wird die Mappe mit der veränderten Tabelle unter dem alten Namen gespeichert, ersetzt also die bisherige Mappe. Soll dies verhindert werden, wählen Sie DATEI/SPEICHERN UNTER… Benötigen Sie bei Ihrem ersten Einsatz von Excel Hilfe, so klicken Sie in der Hauptmenüzeile auf das ?-Symbol und wählen die Menüposition MICROSOFT EXCEL-HILFE.
Abb. 2.5: HILFE
32
2.5
Veränderungen
Das Hilfe-Fenster können Sie wieder schließen, indem Sie auf den Schalter mit dem X rechts neben EXCEL HILFE klicken. Wenn Sie Ihre erste Sitzung mit Excel beenden wollen, wählen Sie die Menüposition DATEI/BEENDEN. Wenn Sie ein Menü wieder schließen wollen, ohne irgendwelche Aktivitäten auszuwählen, drücken Sie die Esc-Taste.
2.5
Veränderungen
2.5.1 Einfügen oder Löschen von Tabellenspalten oder Tabellenzeilen Beispielsweise ist es der Übersichtlichkeit halber sinnvoll, zwischen der Kopfzeile einer Tabelle und den eigentlichen statistischen Daten zwei Leerzeilen einzufügen. Natürlich können Sie sich auch Beispiele ausdenken, bei denen zusätzliche Zeilen deshalb erforderlich werden, weil zusätzliche Informationen und nicht nur Leerzeilen eingegeben werden sollen. Um eine neue Zeile einzufügen, klicken Sie den Kopf derjenigen Zeile an, vor der die neue Zeile erscheinen soll (die ganze Zeile wird dann markiert), und wählen EINFÜGEN /ZEILEN:
Abb. 2.6: Menü EINFÜGEN
Wollen Sie zusätzliche Spalten einfügen, ist entsprechend zu verfahren, nachdem Sie den Spaltenkopf derjenigen Spalte angeklickt haben, vor der eine neue Spalte eingefügt werden soll (Menüposition EINFÜGEN/SPALTEN). Zum Löschen von Spalten oder Zeilen verwenden Sie nach Anklicken des entsprechenden Zeilen- oder Spaltenkopfes das Menü BEARBEITEN/ZELLEN LÖSCHEN. Beachten Sie dabei, dass diese Position tatsächlich eine ganze Zeile oder eine ganze Spalte löscht. Sollen diese aber erhalten bleiben, weil Sie nur die Inhalte der betreffenden Zeilen oder Spalten löschen wollen, wählen Sie die Menüposition BEARBEITEN/LÖSCHEN.
2.5.2 Verschieben und Kopieren Es kann sinnvoll sein, Tabellenbereiche (vielleicht auch eine ganze Tabelle oder ein Diagramm) zu verschieben. Die im vorangegangenen Abschnitt besprochene Aufgabe, leere Zeilen am oberen Tabellenrand einzurichten, könnte auch so aufgefasst werden, dass der Datenbereich der ursprünglichen Tabelle verschoben werden soll. Um eine derartige Verschiebung vorzunehmen, gehen Sie folgendermaßen vor:
2
Excel – Grundlagen
33
1.
Markieren Sie den Tabellenbereich, der verschoben werden soll, durch Ziehen der Maus bei gedrückter linker Maustaste von oben nach unten (Sie können auch die erste Tabellenzelle anklicken und dann mit gedrückter Umschalttaste und der Abwärtspfeiltaste und gegebenenfalls mit der Rechtspfeiltaste markieren). 2. Wählen Sie die Menüposition BEARBEITEN/AUSSCHNEIDEN. Diese Menüposition, die uns noch häufiger begegnen wird, hat die Aufgabe, die markierten Informationen in die Windows-Zwischenablage zu transportieren. Wichtiger Hinweis: Diese Zwischenablage steht in allen Anwenderprogrammen für Windows zur Verfügung. Sie erlaubt deshalb nicht nur das Verschieben von Informationen innerhalb einer Excel-Tabelle, zwischen zwei verschiedenen Excel-Tabellen einer Arbeitsmappe, zwischen Tabellen unterschiedlicher Arbeitsmappen, zwischen den verschiedenen Anwendungsteilen von Excel (zum Beispiel von einer Kalkulationstabelle zu einem Diagramm), sondern auch zwischen verschiedenen Programmen, zum Beispiel zwischen Excel und Word für Windows (etwa um eine mit Excel erzeugte Tabelle in einen mit dem Textverarbeitungsprogramm Word geschriebenen Text einzubetten). Doch zurück zu unserer Aufgabe, den markierten Tabellenteil, der sich jetzt in der Zwischenablage befindet, zu verschieben. Dass die Zwischenablage genutzt wird, erkennen Sie daran, dass der markierte und ausgeschnittene Tabellenteil zwar noch am alten Platz vorhanden ist, jetzt aber mit einem so genannten Laufrahmen umgeben ist. 1.
Klicken Sie jetzt mit der Maus die Tabellenzelle an, welche die linke obere Ecke des Zielbereichs des Verschiebeprozesses sein soll. 2. Wählen Sie die Menüposition BEARBEITEN/EINFÜGEN. Der Inhalt der Zwischenablage wird jetzt am Zielbereich eingefügt, d. h., der markierte Tabellenbereich verschwindet von seinem alten Platz. Formatierungen, Berechnungsformeln und Bezüge, die noch weiter unten besprochen werden, werden dabei mit transportiert. In ähnlicher Weise funktioniert das Kopieren. Der entscheidende Unterschied zum Verschieben besteht darin, dass die markierten Informationen beim Kopieren an der alten Stelle erhalten bleiben und zusätzlich im Zielbereich erscheinen, während beim Verschieben die Informationen des alten Bereichs verschwinden und ausschließlich im neuen Bereich auftauchen. Zuständig ist die Menüposition BEARBEITEN/KOPIEREN, gefolgt von der Menüposition BEARBEITEN/EINFÜGEN. Hinweis: Wenn beim Kopieren Zellinhalte in eine Zielzelle (oder in mehrere Zielzellen) transportiert werden, die auf Berechnungen basieren, kann es beim Einfügen an anderer Stelle zu einem Fehler kommen, weil die Berechnungsgrundlage (der entsprechende Zellbezug) nicht mehr stimmt. Dies verhindern Sie, wenn Sie beim Einfügen nicht mit BEARBEITEN/EINFÜGEN, sondern mit BEARBEITEN/INHALTE EINFÜGEN… arbeiten. Sie gelangen damit ins Dialogfenster der Abbildung 2.7.
34
2.5
Veränderungen
Abb. 2.7: BEARBEITEN/INHALTE EINFÜGEN…
In diesem Fenster der Abbildung 2.7 klicken Sie die Position WERTE an und dann OK. Dann gelingt auch in diesem Fall das Kopieren.
2.5.3 Verändern der Zellinhalte Wenn Sie im Nachhinein bei der Kontrolle der eingegebenen Daten feststellen, dass sich ein Fehler eingeschlichen hat, oder wenn aus anderen Gründen später die eine oder andere Zahl verändert werden muss, klicken Sie die entsprechende Zelle an und geben den neuen Wert ein. Beschließen Sie die Eingabe durch Anklicken des grünen Häkchens in der Bearbeitungszeile. Eventuelle Berechnungen, etwa die Bestimmung unserer Gewichtszunahme in Zelle A8, brauchen dann nicht erneut durchgeführt zu werden. Die bisher erzeugten Rechenergebnisse passen sich angenehmerweise automatisch den veränderten Ausgangsdaten an. Dies ist eines der interessantesten Leistungsmerkmale eines Tabellenkalkulationsprogramms.
2.5.4 Formatierungen Manchmal ist es ganz zweckmäßig, Zellinhalte, Zeilen oder Spalten zu formatieren, d.h., sie in ihrem Erscheinungsbild zu verändern. Einige Beispiele dafür, ausgewählt aus den zahllosen Möglichkeiten, die Excel in diesem Zusammenhang bietet, sollen hier angeführt werden. Veränderung der Schriftart Soll beispielsweise der Inhalt einer Zelle fett gedruckt werden, klicken Sie diese Zelle an (oder markieren Sie den Zellbereich, der insgesamt entsprechend verändert werden soll), und klicken Sie auf die Schaltfläche mit dem F. Andere Schriftarten können Sie auswählen, wenn Sie die Menüposition FORMAT/ZELLEN… wählen. Sie gelangen zum Dialogfenster der Abbildung 2.8.
2
Excel – Grundlagen
35
Abb. 2.8: FORMAT/ZELLEN…
Hier wählen Sie das Register SCHRIFT, was zum Fenster der Abbildung 2.9 führt.
Abb. 2.9: FORMAT/ZELLEN…, Register SCHRIFT
Sie erkennen sofort, was hier im Einzelnen möglich ist. Sie sollten übrigens die Gelegenheit nutzen, sich auch die anderen Register des Menüs FORMAT/ZELLEN… in Ruhe anzuschauen, insbesondere was zum Beispiel die Ausrichtung von Informationen betrifft. Veränderung von Zahlen Sollen zum Beispiel Euro-Beträge auf zwei Dezimalstellen ausgegeben werden, wählen Sie, nach Markierung der entsprechenden Tabellenzellen, FORMAT/ZELLEN…, Register ZAHLEN. Ersatzweise können Sie auch die Schaltflächen mit den kleinen blauen Pfeilen verwenden. Sie dienen dazu, Dezimalstellen hinzuzufügen oder wegzunehmen.
36
2.6
Mathematische Berechnungen
Farben Zur Hervorhebung bestimmter Informationen kann es sinnvoll sein, mit Farben zu arbeiten. Dabei haben Sie drei Möglichkeiten. Sie können die Zellhintergründe einfärben oder die Schrift der Zellinhalte oder beides zugleich. Am einfachsten bewerkstelligen Sie dies unter Nutzung der beiden Farbschaltflächen. Sie befinden sich in der Iconzeile. Die mit dem Farbeimer dient zur Färbung des Zellhintergrundes, die mit dem farbig unterlegten A der Färbung der Schrift. Die beiden genannten Schaltflächen sind mit kleinen Dreiecksschaltern versehen. Werden sie angeklickt, öffnet sich eine Farbpalette, aus der Sie durch Anklicken auswählen können. Die Farbe wird dann denjenigen Zellen bzw. Zellinhalten zugewiesen, die Sie vorher markiert haben. Spaltenbreite Zur Veränderung der Breite einer Spalte klicken Sie den Spaltenkopf an (es genügt auch, eine beliebige Zelle der fraglichen Spalte anzusteuern) und wählen dann FORMAT/SPALTE/ BREITE... Sie können dann die Breite in dem sich öffnenden Dialogfenster eingeben, die Ihnen sinnvoll erscheint. Ersatzweise können Sie auch die Trennlinie zwischen den Spaltenköpfen derjenigen Spalte, deren Breite verändert werden soll, und ihrer Nachbarspalte ansteuern und danach die Breite durch Ziehen der Maus bei gedrückter linker Maustaste verändern. Zeilenhöhe Die Zeilenhöhe kann verändert werden, indem Sie entsprechend vorgehen, wie gerade im Zusammenhang mit der Veränderung der Spaltenbreite besprochen wurde. Ein wichtiger Hinweis zum Schluss: Manche Veränderungen (dies betrifft aber auch fast alle anderen Prozeduren, die Sie innerhalb einer Tabelle oder eines Diagramms durchführen) wollen Sie sofort wieder rückgängig machen – vielleicht weil Sie etwas falsch gemacht haben oder weil Ihnen die gerade vorgenommene Veränderung doch nicht so gut gefällt. Dazu genügt es, die Schaltfläche anzuklicken, die einen gekrümmten nach links zeigenden blauen Pfeil zeigt. Durch mehrfaches Anklicken dieser Schaltfläche können Sie sukzessive auch mehrere Arbeitsschritte, die gerade abgelaufen sind, wieder rückgängig machen.
2.6
Mathematische Berechnungen
2.6.1 Summenbildung Mit diesem Abschnitt wenden wir uns den Möglichkeiten der Tabellenkalkulation zu, die für unsere Zwecke besonders wichtig sind. Mit den Daten soll ja gerechnet werden. Betrachten wir dazu die folgende Aufgabe: In Abbildung 2.10 haben wir aus einer Befragung zum Konsumentenverhalten Ausgaben für verschiedene Kategorien eingetragen (Ernährung, Wohnen usw.). Die Ausgabensummen sollen in der Zeile 14 durch Excel bestimmt werden.
2
Excel – Grundlagen
37
Abb. 2.10: Ausgabentabelle (E02.XLS, Haushalt1)
Es ist nicht schwierig, die Summe der Ernährungsausgaben mit Excel zu bestimmen: Sie brauchen bloß die Zelle B14 anzuklicken, um dort einzutragen, was Excel rechnen soll: =B2+B3+B4+B5+B6+B7+B8+B9+B10+B11+B12+B13 Sie sehen, Berechnungsformeln können recht umfangreich werden. Deshalb wollen wir gleich eine Möglichkeit anbieten, eine derartige Summenbildung, die man ja in der Statistik sehr häufig braucht, zu vereinfachen. Schreiben Sie ersatzweise in die Zelle B14: =SUMME(B2:B13) Damit wird das Gleiche erreicht wie mit der ersten umfangreicheren Formel. Noch einfacher geht es, wenn Sie einfach nach Anklicken der Zelle B14 die Schaltfläche mit dem Summenzeichen anklicken. Dann erscheint die zuletzt angegebene Berechnungsformel von ganz allein in der Editierzeile (Eingabezeile). Sie brauchen jetzt nur noch das grüne Häkchen anzuklicken und erhalten dann in der vorher angesteuerten Zelle B14 die gewünschte erste Betragssumme, nämlich 14534,45. Wenn Sie im Nachhinein an den Ausgangsdaten eine Änderung vornehmen, passt sich die Summenberechnung (und für alle späteren Berechnungen gilt das auch) automatisch an, d. h., es braucht nicht neu gerechnet zu werden. Auf diesen sehr erfreulichen Umstand wurde weiter oben ja schon aufmerksam gemacht. Die anderen drei Summen in den Zellen C14, D14 und E14 würden jetzt entsprechende Prozeduren erfordern, würde uns Excel nicht die außerordentlich angenehme und wichtige Möglichkeit bieten, Berechnungsformeln zu kopieren.
2.6.2 Kopieren von Berechnungsformeln Häufig ist es notwendig, nach der Eingabe einer Berechnungsformel in eine bestimmte Zelle, diese Formel entsprechend auch in anderen Zellen zu verwenden. In unserem Beispiel geht es also darum, auch die anderen Ausgabenkategorien zu summieren. Gehen Sie wie folgt vor: 1. 2. 3.
Klicken Sie die Zelle mit der ersten berechneten Summe an (B14). Markieren Sie den Zellbereich von B14 bis E14. Wählen Sie die Menüposition BEARBEITEN/AUSFÜLLEN/RECHTS.
38
2.6
Mathematische Berechnungen
Jetzt erscheinen, wie durch Zauberhand, automatisch auch die anderen Summen. Noch einfacher geht es, wenn Sie wie folgt vorgehen: 1.
Steuern Sie den Mauszeiger genau auf das kleine schwarze Quadrat an der unteren rechten Ecke der Zelle B14. Er ändert genau auf diesem Quadrat seine Gestalt und wird zu einem Pluszeichen. 2. Ziehen Sie jetzt die Maus bei gedrückter linker Maustaste nach rechts bis zur Zelle E14. Wenn Sie die Maus wieder loslassen, erscheinen die gewünschten Summen. Sie ersparen sich also auf diese Weise die mehrfache und fehlerträchtige Eingabe von gleichartigen Berechnungsformeln. Zugleich erscheint ein kleines Kästchen mit einem kleinen nach unten weisenden schwarzen Dreieck, das auftaucht, wenn Sie den Mauszeiger auf dieses Kästchen führen. Klicken Sie dieses Dreieck an, zeigt sich, dass Sie beim Kopieren Wahlmöglichkeiten haben. Beispielsweise kann so auf die Formatierung beim Kopieren verzichtet werden. Beim Kopieren von Berechnungsformeln werden die relativen Zellbezüge automatisch angepasst. In unserem Beispiel bedeutet dies, dass das Kopieren der Formel von B14 nach E14 nicht bewirkt, dass immer die erste Summe wiederholt wird, sondern die Berechnungsart wird wiederholt – nun angewandt auf jeweils neue Daten. Wäre das nicht so, wäre das Kopieren von Formeln natürlich völlig unpraktisch. Hingegen bleiben beim Kopieren von Formeln absolute Bezüge (siehe unten) erhalten. Wenn Sie alle Summen bestimmt haben, ergibt sich Abbildung 2.11.
Abb. 2.11: Ausgaben und Ausgabensummen (E02.XLS, Haushalt2)
Ein absoluter Bezug unterscheidet sich von einem relativen Bezug dadurch, dass eine automatische Anpassung der Zellbezüge beim Kopieren von Berechnungsformeln nicht erfolgt. Das folgende kleine Beispiel soll diesen Unterschied verdeutlichen. Stellen Sie sich vor, Sie hätten die Zeitreihendaten der Abbildung 2.12 auf der nächsten Seite in eine Excel-Tabelle eingegeben. Sie wollen nun in Zelle C3 ausgeben lassen, wie groß der prozentuale Zuwachs von 1990 auf 1991 war (8,13% haben wir per Hand ausgerechnet). Dazu tragen Sie in die Zelle C3 die folgende Formel ein: =(B3-B2)/B2*100
2
Excel – Grundlagen
39
Mit Return erhalten Sie das gewünschte Ergebnis, das in der Tabelle der Abbildung 2.12 ebenfalls schon zu sehen ist. Wollen Sie jetzt zusätzlich wissen, wie groß die prozentualen Zuwächse in den anderen Jahren waren, brauchen Sie nur die Berechnung von C3 nach unten bis zur Zelle C6 zu ziehen (so wie wir im ersten Beispiel eine Berechnungsformel nach rechts kopiert haben, kann man auch nach unten kopieren; dies entspricht der Menüposition BEARBEITEN/AUSFÜLLEN/UNTEN). Es ergeben sich die Werte, die in Spalte C der Abbildung 2.13 zu sehen sind.
Abb. 2.12: Zeitreihendaten (E02.XLS, Zeitreihe1)
Abb. 2.13: Zeitreihe mit jährlichen Zuwächsen (E02.XLS, Zeitreihe2)
Wenn Sie sich aber ausnahmsweise dafür interessieren sollten, wie groß die prozentualen Zuwächse zwischen 1990 und 1992, zwischen 1990 und 1993 und zwischen 1990 und 1994 sind, können Sie die Berechnungsformel aus Zelle C3 nicht einfach nach unten kopieren, weil dann durch die automatische Anpassung der relativen Bezüge nicht die gewünschten Zuwächse, sondern natürlich die jährlichen Zuwachsraten ausgerechnet werden. Um immer wieder den Bezug auf 1990 herzustellen, muss dieser als absoluter Bezug definiert werden. Dies gelingt, indem die oben verwendete Berechnungsformel, die in die Zelle C3 eingetragen wird, folgendermaßen abgewandelt wird: =(B3-$B$2)/$B$2*100
40
2.6
Mathematische Berechnungen
Durch Hinzufügen des $-Zeichens bei der Zeilen- und der Spaltenangabe der Zelle mit dem Wert für das Jahr 1990 wird erreicht, dass beim Kopieren der Berechnungsformel zwar B3 auf B4, B5 und B6 erhöht wird, die andere Rechengröße aber immer der Inhalt der Zelle B2, also der Wert des Jahres 1990 bleibt. $B$2 ist somit ein absoluter Bezug. Die entsprechenden Ergebnisse, die man (nun also unter Nutzung absoluter Bezüge) erhält, sind in der Spalte D der Abbildung 2.14 ausgewiesen.
Abb. 2.14: Jährliche Zuwächse und Zuwächse bezogen auf 1990 (E02.XLS, Zeitreihe3)
Als zusätzliche Übungsaufgabe sollen jetzt in dem ersten Beispiel (Haushalts-Konsumbefragung) auch die Gesamtausgaben der einzelnen befragten Haushalte berechnet werden. Diese Summen sind sinnvollerweise als Zeilensummen in die Spalte F einzutragen. 1. 2.
Klicken Sie die Zelle F2 an, denn dort soll die Summe für den ersten Haushalt auftauchen. Geben Sie die folgende Berechnungsformel ein: =B2+C2+D2+E2 oder =SUMME(B2:E2)
Wenn Sie hier mit der Summenschaltfläche arbeiten, bietet Excel an, die Summe von A2 bis E2 zu berechnen. Dies ist falsch, denn in A2 steht die Nummer des befragten Haushalts, die sinnvollerweise nicht mit zu addieren ist. Aber das kann Excel nicht wissen (es hätte ja auch der Betrag der Ausgaben für Körperpflege sein können, der dort steht). In diesem Fall müssten Sie in der Editierzeile den Bereich in der Summenformel per Hand korrigieren. Klicken Sie nach der Korrektur der Formel das grüne Häkchen an. Es erscheint jetzt die Ausgabensumme für den ersten Haushalt (2250,9) in der Tabellenzelle F2. Zur Berechnung der elf übrigen Summen bedienen Sie sich wieder der Kopiermöglichkeit: Steuern Sie den Mauszeiger auf das schwarze Quadrat an der rechten unteren Ecke der Zelle F2, und ziehen Sie bei gedrückter linker Maustaste die Maus nach unten bis zur Zelle F13.
2
Excel – Grundlagen
41
Abb. 2.15: Konsumausgaben mit allen Summen (E02.XLS, Haushalt3)
Zum Abschluss dieses Anwendungsbeispiels sollten Sie sich überlegen, wie Sie es auf geschickte Weise erreichen können, dass Excel auch die Gesamthöhe aller Ausgaben für alle Haushalte in der Tabellenzelle F14 präsentiert. Dieses Rechenbeispiel hat – was den mathematischen Anspruch anbelangt – nur mit Additionen zu tun. Selbstverständlich lassen sich auch Beispiele finden, in denen subtrahiert, multipliziert oder dividiert werden muss. Schauen Sie sich beispielsweise die Tabelle in der Abbildung 2.16 an.
Abb. 2.16: Häufigkeitsverteilung (E02.XLS, Kinder1)
In dieser Tabelle wurden die Ergebnisse einer kleinen statistischen Untersuchung dargestellt: 340 zufällig ausgewählte Ehepaare wurden im Rahmen einer sozialwissenschaftlichen Untersuchung unter anderem danach befragt, wie viele Kinder sie haben. Die Ergebnisse wurden als Häufigkeitsverteilung dargestellt. Was jetzt interessiert, ist die durchschnittliche Kinderzahl (Zahl der Kinder pro Ehepaar). Bekanntlich ist ein Durchschnitt definiert als die Summe aller Werte, geteilt durch die Anzahl dieser Werte. Die Anzahl der Einzelwerte (Antworten) ist 340, wie Sie sich von Excel in der Zelle B9 bestätigen lassen können, wenn Sie die Summenschaltfäche anklicken oder eingeben: =SUMME(B2:B8)
42
2.6
Mathematische Berechnungen
Dies ist in Abbildung 2.16 schon geschehen. Wie aber rechnet man den Durchschnitt aus, für den man ja zunächst die Summe aller Werte benötigt? Diese Summe ergibt sich mathematisch auf folgende Weise: 0 88 1 112 2 65 3 42 4 19 5 11 6 3 Ohne Excel zu bemühen, sei hier schon verraten, dass dies den Wert 517 ergibt. Die durchschnittliche Kinderzahl ist demnach: Mittelwert
517 340
1,52 (gerundet)
Wie löst man diese Aufgabe aber mit Excel? Sie erkennen, dass die obige Summe dadurch zustande kommt, dass immer die jeweilige Kinderzahl mit der Häufigkeit ihres Auftretens multipliziert wird und dass diese Produkte dann addiert werden. Was liegt näher, als in Spalte C der Tabelle zunächst diese Produkte berechnen zu lassen und in C9 dann die Summe der Produkte. In Tabellenzelle C10 können wir schließlich dann den Mittelwert ausgeben lassen. Demnach sind also die folgenden Arbeitsschritte erforderlich: 1. Klicken Sie C2 an, und geben Sie die Berechnungsformel ein: =A2*B2 und Return-Taste 2. Ziehen Sie diese Berechnung nach unten bis zur Zelle C8. 3. Klicken Sie C9 und dann die Summenschaltfläche an. 4. Klicken Sie das grüne Häkchen an. 5. Klicken Sie C10 an, und geben Sie ein: =C9/B9 Sie sehen, multipliziert wird mit Hilfe des *-Symbols. In der Tabellenzelle C2 erscheint zunächst der Wert 0. Unter Nutzung der Kopiermöglichkeiten von Excel bestimmen Sie dann die anderen Produkte. Dividiert wird mit dem Schrägstrich. Ihre Häufigkeitstabelle sieht jetzt so aus, wie in Abbildung 2.17 gezeigt (wir haben in A10 noch das Wort Mittelwert geschrieben).
Abb. 2.17: Mittelwertberechnung (E02.XLS, Kinder2)
2.6.3 Funktionen Weiter oben hatten wir gesehen, dass zum Beispiel eine Summenberechnung, die sich über 12 Tabellenzellen erstreckt, mit etwas Schreibarbeit bei der Formeleingabe verbunden ist. Dies lässt sich, wie viele andere Aufgaben auch, durch Nutzung von Funktionen vereinfachen.
2
Excel – Grundlagen
43
Eine Funktion ist nichts anderes als eine Berechnungsformel, wie sie in den bisherigen Anwendungsbeispielen schon verwendet wurden. Der Unterschied zu den bisher verwendeten Formeln besteht darin, dass der Anwender bei der Nutzung von Funktionen keine unter Umständen umfangreichen Formeln mehr hinzuschreiben braucht, weil Excel viele Formeln schon kennt und unter einem bestimmten Funktionsnamen zur Verfügung stellt. Eine Funktion besteht immer aus einem Funktionsnamen und aus Argumenten, die, in Klammern eingeschlossen, dem Funktionsnamen folgen. Dies entspricht der mathematischen Schreibweise y
f x
wobei f stellvertretend für den Funktionsnamen und x stellvertretend für das Argument oder für die Argumente steht. Das Symbol y gibt in der mathematischen Schreibweise an, was aus dem Argument x entsteht, wenn darauf die Funktion f angewandt wird. Hat eine Excel-Funktion mehrere Argumente, müssen diese durch Strichpunkte voneinander getrennt werden; Leerzeichen sind in der Regel an keiner Stelle zulässig. Zur weiteren Erläuterung ein schon bekanntes Beispiel, bei dem als Argument ein Tabellenbereich (Bezug) auftaucht, was bei der Anwendung von Excel-Funktionen sehr häufig der Fall ist. =SUMME(C2:C8) Diese Funktion mit dem Namen SUMME (auch Funktionsnamen werden in diesem Buch mit KAPITÄLCHEN, wie auch die Menüpositionen und die Schaltflächen, geschrieben, was aber für die entsprechende Informationseingabe nicht verpflichtend ist) berechnet die Summe aus den Werten in den Tabellenzellen C2 bis C8. Funktionen können über die Tastatur eingegeben werden. Sie können aber auch eine benötigte Funktion über die Menüposition EINFÜGEN/FUNKTION… bereitstellen. Sie gelangen dann zum so genannten Funktions-Assistenten (siehe Abbildung 2.18).
Abb. 2.18: Funktions-Assistent
In dem Dialogfenster zeigt Ihnen der Funktions-Assistent, welche Funktionen – nach Kategorien geordnet – zur Verfügung stehen. Hier können Sie durch Anklicken des Schalters neben
44
2.6
Mathematische Berechnungen
dem Stichwort KATEGORIE AUSWÄHLEN: die gewünschte Funktionsgruppe und in dieser Gruppe dann die gewünschte Funktion (unter dem Stichwort FUNKTION AUSWÄHLEN:) wählen; zum Beispiel aus der Kategorie MATH.&TRIGONOM. (Mathematik und Trigonometrie) die Funktion SUMME. Klicken Sie dann die Schaltfläche OK an, gelangen Sie zum zweiten Dialogfenster des Funktions-Assistenten (Abbildung 2.19). Hier geben Sie die erforderlichen Argumente ein. Bei der Funktion SUMME geben Sie bei der Position ZAHL1 also zum Beispiel den Zellbereich ein, in dem die Werte stehen, die addiert werden sollen (bei der Position Zahl2 braucht nichts eingegeben zu werden; dies ist immer dann der Fall, wenn eine Position nur grau und nicht schwarz angegeben ist).
Abb. 2.19: Funktions-Assistent, zweites Dialogfenster (Funktion SUMME)
Dazu noch ein Beispiel, ausgehend von den Daten der Konsumentenbefragung: In der entsprechenden Tabelle finden Sie unter anderem die Ausgaben für Ernährung im Bereich (B2:B13). Jetzt möchten Sie wissen, wie groß die durchschnittlichen Ausgaben für Ernährung pro Haushalt waren. Dieser Wert soll in Zelle B15 ausgegeben werden. Um diese Berechnung von Excel erledigen zu lassen, gehen Sie wie folgt vor: 1. 2. 3.
Klicken Sie die Zelle B15 an. Wählen Sie die Menüposition EINFÜGEN/FUNKTION… Wählen Sie im ersten Dialogfenster des nun gestarteten Funktions-Assistenten aus der Kategorie STATISTIK die Funktion MITTELWERT aus. 4. Klicken Sie die Schaltfläche OK an. 5. Geben Sie im sich öffnenden zweiten Dialogfenster des Funktions-Assistenten bei der Position ZAHL1 den Zellbereich an, in dem die Werte stehen, die gemittelt werden sollen, also B2:B13. 6. Klicken Sie die Schaltfläche OK an. Damit erscheint der berechnete Durchschnittswert in Zelle C15 (1211,20). Anstelle der Schritte 2. bis 6. hätten Sie ersatzweise auch eingeben können: =MITTELWERT(B2:B13)
2
Excel – Grundlagen
45
Wir werden auch Funktionen kennen lernen, die nicht nur ein einziges Ergebnis produzieren, wie zum Beispiel die Funktionen SUMME oder die Funktion MITTELWERT, sondern mehrere, unter Umständen viele Ergebnisse. Dann ist es erforderlich, vor dem Aufruf des FunktionsAssistenten zuerst den Zellbereich zu markieren, der die Ergebnisse aufnehmen soll – so wie Sie ja auch bei nur einem Ergebnis zuerst die Zelle anklicken (markieren) müssen, die das Ergebnis aufnehmen soll. Wenn dann die Funktion eingesetzt ist, d. h., wenn Sie im zweiten Fenster des Funktions-Assistenten schließlich die Schaltfläche OK angeklickt haben, erscheint im vorher markierten Bereich nur das erste von mehreren Ergebnissen. Um die anderen Ergebnisse ebenfalls sichtbar zu machen, müssen Sie in der Eingabezeile (Editierzeile) hinter die dort stehende Funktion klicken und dann die drei Tasten Shift (Umschalttaste), Strg und Return gemeinsam drücken. Solche speziellen Funktionen werden Matrixfunktionen (oder auch Array-Funktionen) genannt.
2.7
Drucken
Zum Drucken Ihrer Arbeitsmappe (Ausgangsdaten, Rechenergebnisse, gegebenenfalls auch Diagramme) wählen Sie die Menüposition DATEI/DRUCKEN… (siehe Abbildung 2.20). Sie sehen, dass Sie die Möglichkeit haben, Teile Ihrer Arbeitsmappe zu drucken, ausgewählte Blätter, bestimmte Seiten oder nur vorher markierte Bereiche. Zudem können Sie festlegen, wie viele Exemplare gedruckt werden sollen, welcher Drucker verwendet und in welcher Reihenfolge gedruckt werden soll. Ein Blick auf das Dialogfenster der Abbildung 2.20 zeigt Ihnen diese verschiedenen Möglichkeiten.
Abb. 2.20: DATEI/DRUCKEN…
Wichtig ist auch die Schaltfläche EIGENSCHAFTEN…, mit der Sie nach Anklicken der Schaltfläche ERWEITERT weitere Einzelheiten festlegen können (siehe Abbildung 2.21).
46
2.8
Diagramme
Abb. 2.21: DATEI/DRUCKEN…, Schaltfläche EIGENSCHAFTEN…
Wenn Sie am Bildschirm kontrollieren wollen, wie Ihre Tabelle später auf dem Papier nach dem Drucken aussehen wird, verwenden Sie die Menüposition DATEI/SEITENANSICHT oder die Schaltfläche mit dem Blatt Papier und der Lupe. Klicken Sie dort auf LAYOUT, können Sie vielfältige Änderungen vornehmen. Die Seitenansicht verlassen Sie mit der Schaltfläche SCHLIEßEN.
2.8
Diagramme
An dieser Stelle soll bereits ein Anwendungsbeispiel zur Diagrammerstellung betrachtet werden, damit Sie sehen, dass die Erzeugung einer aussagekräftigen Grafik mit Excel fast ein Kinderspiel ist. Als Ausgangsdatenbestand wählen wir die Kinderzahlverteilung, die in Abbildung 2.22 noch einmal vorgestellt wird.
Abb. 2.22: Kinderzahl zufällig ausgewählter Haushalte (E02B.XLS, Kinder3)
Diese Häufigkeitsverteilung soll nun grafisch dargestellt werden. Excel bietet eine Reihe unterschiedlicher Diagrammarten an, von denen das einfache Säulendiagramm für diese erste
2
Excel – Grundlagen
47
Aufgabe gewählt werden soll. Dabei werden in diesem Beispiel auf der waagerechten Achse eines Koordinatensystems (X-Achse) die Variable Kinderzahl, auf der senkrechten Achse (YAchse) die zugeordneten Häufigkeiten eingetragen. Um ein solches Säulendiagramm für die obige Häufigkeitsverteilung zu erstellen, sind die folgenden Arbeitsschritte notwendig: 1. Markieren Sie die Daten, also den Bereich B2:B8. 2. Wählen Sie die Menüposition EINFÜGEN/DIAGRAMM… Es öffnet sich das Dialogfenster der Abbildung 2.23.
Abb. 2.23: EINFÜGEN/DIAGRAMM…
3. Wählen Sie bei DIAGRAMMTYP: SÄULE. 4. Akzeptieren Sie die Vorgabe des Programms beim Stichwort DIAGRAMMUNTERTYP 5. Klicken Sie auf die Schaltfläche WEITER. Sie gelangen jetzt in ein zweites Dialogfenster mit den Registern DATENBEREICH und REIHE. Zudem wird Ihnen schon eine Vorschau auf das zu erstellende Diagramm geboten. Um nun eine korrekte X-Achsenbeschriftung zu erreichen, gehen Sie wie folgt vor: 6. 7.
Wählen Sie das Register REIHE. Klicken Sie auf den Schalter rechts neben dem Feld BESCHRIFTUNG DER RUBRIKENACHSE (X):. 8. Ziehen Sie bei gedrückter linker Maustaste von A2 bis A8, und schließen Sie das Hilfsfenster, das sich am oberen Bildschirmrand geöffnet hatte, durch Anklicken des Schalters am rechten Feldrand. 9. Klicken Sie erneut die Schaltfläche WEITER an. Im dritten Dialogfenster, in das Sie jetzt gelangen (Abb. 2.24), werden Ihnen über sechs Register vielfältige Veränderungsmöglichkeiten Ihres Diagramms geboten. Beispielsweise können Sie hier Ihrem Diagramm einen Titel geben (es wäre schon ein Titel erschienen, wenn Sie eingangs von B1 bis B8 markiert hätten; dann wäre der Kopfzeilenbegriff aus Zelle B1 als Titel verwendet worden), die Achsen können beschriftet werden, Gitternetzlinien können
48
2.8
Diagramme
eingefügt oder ausgeblendet werden usw. Wir wollen uns darum jetzt nicht kümmern, mit Ausnahme des Umstandes, dass wir in dieser einfachen Grafik keine Legende benötigen.
Abb. 2.24: Drittes Dialogfenster
10. Wählen Sie das Register LEGENDE. 11. Im Fenster der Abbildung 2.25 löschen Sie durch Anklicken das Häkchen beim Stichwort LEGENDE ANZEIGEN.
Abb. 2.25: LEGENDE
12. Klicken Sie die Schaltfläche WEITER an.
2
Excel – Grundlagen
49
Sie gelangen jetzt in das vierte Dialogfenster des Diagramm-Assistenten (siehe Abbildung 2.26).
Abb. 2.26: Viertes Dialogfenster
Hier können Sie darüber entscheiden, ob Ihre Grafik auf dem Tabellenblatt oder ob sie auf einem neuen Blatt Ihrer Arbeitsmappe (sie erhält dann den Namen Diagramm1) erscheinen soll. 13. Wählen Sie die Variante ALS NEUES BLATT, und klicken Sie auf FERTIG STELLEN. Mit diesem letzten Schritt ist Ihr Diagramm fertig. Es sieht so aus, wie es Abbildung 2.27 zeigt.
Abb. 2.27: Häufigkeitsverteilung (Säulendiagramm) (E02B.XLS, Kinderdiagramm)
Hätten Sie im letzten Schritt die Variante ALS OBJEKT IN: gewählt, wäre Ihr Diagramm automatisch in das Tabellenblatt eingebettet worden, wo Sie dann seine Größe (Länge und Breite) und seine Platzierung durch Ziehen an den kleinen Markierungsquadraten, die erscheinen, wenn Sie die Grafik anklicken, beliebig verändern können. Sollten Sie den Namen eines Blattes, zum Beispiel des zuletzt erzeugten, in Ihrer Arbeitsmappe ändern wollen (aus Diagramm1 soll Kinderdiagramm werden), klicken Sie den Blattnamen am unteren Bildschirmrand an. Sie haben dann im Menü FORMAT/BLATT/UMBENENNEN die Möglichkeit, einen passenden Namen einzugeben.
50
2.9
Daten importieren
Wir wollen an dieser Stelle nicht darauf eingehen, dass man auch Diagramme formatieren und gestalten kann (Größe, Achsenskalierungen, Achsenbeschriftungen, Legendenschrift, Legendenposition, Diagrammtitel, Schrift und Position, Farben, Strichstärken, Schraffuren etc.). Es gibt zahllose Möglichkeiten, und es würde viel zu weit führen, sie hier zu besprechen. Zudem sind solche Gestaltungsfragen für die Zwecke dieses Buches nicht so wichtig. Sollten sie in einem späteren Kapitel relevant sein, werden wir gesondert darauf eingehen (siehe z.B.: Werner Voß/Nadine M. Schöneck: Statistische Grafiken mit Excel. Eine Rezeptesammlung, Hanser Verlag, 2003). Im Übrigen sei dem interessierten Leser empfohlen, mit den verschiedenen Möglichkeiten ein wenig zu experimentieren. Klicken Sie zum Beispiel auf eine der Säulen des Säulendiagramms von Abbildung 2.27, und wählen Sie dann die Menüposition FORMAT/MARKIERTE DATENREIHEN... Sie gelangen ins Dialogfenster der Abbildung 2.28, wo Sie schnell erkennen können, was alles möglich ist.
Abb. 2.28: FORMAT/MARKIERTE DATENREIHEN…
Wichtiger als diese Gestaltungsfragen ist der folgende Hinweis: Wenn Sie im Nachhinein an den Ausgangsdaten etwas ändern, passt sich die darauf aufbauende Grafik automatisch an!
2.9
Daten importieren
Häufig steht man vor dem Problem, dass die zu analysierenden Daten noch nicht für das gewählte Auswertungsprogramm aufbereitet sind. Stellen Sie sich folgende Situation vor: Bei einer Fragebogenaktion wurden Personen nach ihrem Alter, ihrem Geschlecht und ihrer Parteipräferenz befragt. Die Daten wurden in Form einer Tabelle in ein ganz normales Textprogramm (Word für Windows) eingegeben. Die Tabelle hat folgende Gestalt:
2
Excel – Grundlagen
51
Tab. 2.2: Fragebogendaten (Ausschnitt) Nr
Sex
Alter
Partei
001
1
45
1
002
2
23
3
003
2
34
3
004
1
55
1
005
1
51
4
006
1
38
1
007
2
22
2
008
1
28
2
009
2
31
1
In dieser Tabelle 2.2 bedeutet: Nr:
laufende Nummer
Sex:
Geschlecht mit 1 für männlich und 2 für weiblich
Alter:
Alter in Jahren
Partei: bevorzugte politische Partei (1 = CDU/CSU, 2 = SPD usw.) Wenn nun diese Daten mit Excel statistisch ausgewertet werden sollen, gehen Sie folgendermaßen vor: 1. 2. 3. 4.
Markieren Sie die Daten in Ihrem Word-Textdokument. Wählen Sie BEARBEITEN/KOPIEREN. Starten Sie Excel. Öffnen Sie die Datei, in die Sie die Daten einfügen wollen (oder benutzen Sie gegebenenfalls die erste Tabelle der neuen Arbeitsmappe, die Ihnen von Excel nach dem Start angeboten wird). 5. Klicken Sie diejenige Tabellenzelle an, welche die linke obere Ecke Ihrer Tabelle sein soll. 6. Wählen Sie BEARBEITEN/EINFÜGEN. Mit dieser Vorgehensweise wird unter Nutzung der schon erwähnten Windows-Zwischenablage der Datenbestand von Winword nach Excel übertragen. An dieser Stelle ein wichtiger Hinweis: Falls Sie Einfluss auf die Datenerhebung haben, lassen Sie diese in Excel durchführen. Falls das nicht möglich ist, sorgen Sie dafür, dass die Daten möglichst im Tabellenformat erfasst werden, wobei die Werte durch TAB-Stopps bzw. Kommata getrennt eingegeben werden sollten. Die Datei sollte dann auf jeden Fall im ASCII-Format abgespeichert werden. Sie können auf diese Weise nahezu alle Dateien in Excel einlesen. Zum Schluss noch ein kleiner Tipp für Statistiker, die mit dem Statistikprogramm SPSS für Windows und zugleich mit Excel arbeiten. Häufig ist es wünschenswert, die Ergebnistabellen aus SPSS in Excel weiterzuverarbeiten. Der zuvor beschriebene Weg ist natürlich eine Mög-
52
2.9
Daten importieren
lichkeit. Einfacher funktioniert es aber, wenn Sie den SPSS-Output markieren und anschließend mit dem Befehl BEARBEITEN/TABELLE KOPIEREN in die Zwischenablage transferieren. In Excel erreichen Sie dann mit dem Befehl BEARBEITEN/EINFÜGEN, dass der Inhalt korrekt in die Zellen des Arbeitsblattes übertragen wird. Falls Sie in SPSS nur den Befehl BEARBEITEN/KOPIEREN verwenden, ist das Ergebnis wenig erfreulich.
3
Sortieren, Gruppieren, Klassifizieren
„Am Anfang stand die Zahl.“ R. Wagenführ, Professor, 1966
Wir bringen die Daten in Form 3.1 3.2 3.3 3.4 3.5
3.1
Der Lottospieler Wie man statistische Daten gewinnt Von der Urliste zur Häufigkeitsverteilung Zeitreihen Kreuztabellen
Der Lottospieler
Mein Freund Bernd, seines Zeichens hochqualifizierter Psychologe, pflegte ein bemerkenswertes Hobby, das es mit sich brachte, dass er ab Mittwoch bis zum späten Freitagnachmittag nie anzusprechen war. Er saß dann an seinem Schreibtisch über riesige Blätter karierten Papiers gebeugt, die über und über mit Zahlen bedeckt waren, und rechnete vor sich hin. „Ich bin einem statistischen Geheimnis auf der Spur“, erzählte er mir eines Abends (es muss an einem Dienstag gewesen sein). „Ich habe für alle Ziehungen im Zahlenlotto für die vergangenen Jahrzehnte alle Ergebnisse zusammengetragen und aktualisiere sie Woche für Woche. Dann werden sie verrechnet ...“ „Und was rechnest du?“, fragte ich neugierig. Ich muss dazu sagen, dass es zu der Zeit, als dieses Gespräch stattfand, noch keine PC-Rechner gab, und der Zugang zu Großrechnern war uns versperrt. Der gute Bernd rechnete also mit Bleistift und Papier. „Ich rechne Woche für Woche aus, welche Lottozahlen in der Vergangenheit häufig gekommen sind und welche nicht. Dann stelle ich die Häufigkeitsverteilungen zusammen, berechne Prozentwerte und kumulierte Prozentwerte, Mittelwerte und Streuungen ...“ „Langsam“, warf ich ein, „wenn ich dich richtig verstehe, setzt du alle bekannten und bewährten Verfahren der deskriptiven Statistik ein, nachdem du die Daten zusammengetragen hast, die dich interessieren ...“ „Genau! Und dann ...“ „Aber warum?“, fragte ich. „Was ist das Ziel deiner statistischen Bemühungen?“ „Ganz einfach“, antwortete er, „ich verbessere Woche für Woche meine Gewinnchancen im Lotto!“ „Da kann man mal sehen, wofür die Statistik gut ist“, sagte ich, „aber wie geht das mit der Verbesserung konkret vor sich?“ Bernd schaute mich eine Weile prüfend an. Offenkundig war er sich nicht im Klaren darüber, ob er mir sein Geheimnis anvertrauen sollte. Dann aber überwand er sich: „Pass auf“, sagte er. „Ich habe festgestellt, dass es Zahlen und Zahlenkombinationen gibt, die deutlich seltener gekommen sind als andere – ich werden sie dir aber nicht verraten, versteh das bitte.“
54
3.2
Wie man statistische Daten gewinnt
Ich nickte verstehend. „Und diese Zahlen“, fuhr er fort, „tippe ich dann am kommenden Wochenende. Die haben nämlich Nachholbedarf! Ihre Chancen, gezogen zu werden, sind größer, und deshalb steigen meine Gewinnchancen!“ „Und? Schon viel gewonnen?“, fragte ich, aber darauf gab er keine Antwort. „Wenn du recht hättest“, gab ich vorsichtig zu bedenken, „dann müssten die Zahlen, die du vorziehst, weil sie – wie du sagst – einen Nachholbedarf haben, dies auch wissen. Es müsste Kugeln in der Lottotrommel geben, die sich vordrängeln, weil sie jetzt endlich mal dran sind, und andere, die sich vornehm zurückhalten, weil sie schon viel zu oft gezogen worden sind ...“ „Ich glaube, du willst mich veräppeln“, sagte mein Freund und wechselte das Thema.
3.2
Wie man statistische Daten gewinnt
Vor jeder statistischen Auswertung steht der Prozess der Datengewinnung. Im obigen Beispiel hätte Bernd also zuerst einmal eine genügend große Anzahl von Daten erheben müssen, um später zu mehr oder weniger vernünftigen Aussagen zu kommen. Welche Verfahren stehen für die Datengewinnung zur Verfügung? Um diese Frage zu beantworten, wollen wir uns einmal anschauen, wie die Statistiker in der Praxis eine empirische Untersuchung durchführen, und uns an einem konkreten Beispiel orientieren. Im Zusammenhang mit der Debatte um die so genannte neue Armut in der Bundesrepublik Deutschland soll unter anderem untersucht werden, wie hoch die durchschnittlichen monatlichen Einkünfte speziell der Erwerbslosen sind. Es interessiert also ein Überblick über die Einkommensverteilung bei dieser speziellen Personengruppe, um zum Beispiel auch zu erfahren, wie hoch die durchschnittlichen Einkünfte sind oder auch wie stark diese Einkünfte streuen.
3.2.1
Wo man schon vorhandene Daten findet
Bei vielen Problemen ist es nicht notwendig, den mühseligen und aufwändigen Weg einer eigenen Erhebung zu beschreiten. Häufig kann man nämlich auf vorhandene Daten zurückgreifen, die bereits von anderen erhoben wurden, wenn man weiß, wo derartige Daten veröffentlicht sind, und wenn man die folgenden Einschränkungen beachtet: Schon vorliegende Daten können nicht so aktuell sein wie die einer eigenen Erhebung; möglicherweise sind sie für den eigenen Untersuchungszweck schon veraltet. Des Weiteren muss bedacht werden, dass bereits vorhandene Daten häufig im Hinblick auf andere Zielsetzungen erhoben wurden, die nicht notwendigerweise mit denen der eigenen Untersuchung übereinstimmen. Unter Umständen muss auch berücksichtigt werden, dass bei ihrer Zusammenstellung vielleicht Erhebungsmethoden verwendet worden sind, die man selbst nicht eingesetzt hätte. In jedem einzelnen Fall muss deshalb überlegt werden, ob diese Daten für die eigenen Zwecke verwendbar sind. Bei der Verteilung von Einkünften sind diese Probleme allerdings nicht so gravierend: Wenn wir in einer Veröffentlichung Angaben über die Einkünfte Erwerbsloser finden und diese nicht zu alt sind (Angaben für 1990 wären zur Illustration der heutigen Situation sicherlich nicht allzu brauchbar), und auf der Basis einer Zufallsstichprobe oder gar einer Vollerhebung
3
Sortieren, Gruppieren, Klassifizieren
55
gewonnen worden, so könnten wir diese Daten übernehmen. Nur am Rande sei allerdings darauf hingewiesen, dass wir derartige Daten speziell für Erwerbslose mit hoher Wahrscheinlichkeit nicht finden werden. Bei der Verwendung schon vorhandener Daten spricht man von Sekundärstatistik. Wie findet man nun aber entsprechende Veröffentlichungen? Einige Hinweise sollen hier gegeben werden: Veröffentlichungen mit statistischen Angaben, die man auch statistische Quellen nennt, erscheinen in großer Zahl. Die wichtigste Gruppe von Quellen sind die Veröffentlichungen der amtlichen Statistik, die andere Gruppe umfasst alle nichtamtlichen Veröffentlichungen, wie sie zum Beispiel von Forschungsinstituten, von Verbänden, Parteien und sonstigen Institutionen herausgegeben werden. Amtliche Quellen sind vor allem die statistischen Ämter, zum Beispiel das Statistische Bundesamt, die statistischen Landesämter oder die statistischen Ämter von Gemeinden und Kreisen, sofern dort solche Ämter eingerichtet sind (dies ist nicht überall der Fall). Die wichtigste Veröffentlichung des Statistischen Bundesamtes, die man sich grundsätzlich vor einer eigenen Erhebung anschauen sollte, ist das Statistische Jahrbuch für Deutschland, das jedes Jahr erscheint. In diesem Jahrbuch finden sich detaillierte sozial- und wirtschaftsstatistische Angaben zu folgenden Bereichen (nicht vollständige Aufzählung): Bevölkerung und Bevölkerungsbewegung Geografische Angaben Gesundheitswesen, Bildung und Kultur Rechtspflege und Wahlen Erwerbstätigkeit Land- und Forstwirtschaft, Fischerei Unternehmen und Arbeitsstätten Industrie und Handwerk Bauwirtschaft und Wohnungen Handel und Dienstleistungen Außenhandel Verkehr, Geld und Kredit, Versicherungen Öffentliche Sozialleistungen, Finanzen und Steuern Preise, Löhne und Gehälter Sozialproduktberechnungen Es wäre gemäß dieser groben Übersicht durchaus denkbar, dass im Abschnitt Preise, Löhne und Gehälter, Daten, wie sie in unserem Beispiel interessieren, zu finden sind. Einen ersten guten Überblick über die Informationsangebote des Statistischen Bundesamtes erhalten Sie, wenn Sie auf die Homepage des Amtes gehen. Sie erreichen diese Homepage unter www.destatis.de (siehe folgende Abbildung).
56
3.2
Wie man statistische Daten gewinnt
Gegebenenfalls können Sie auch die entsprechenden Veröffentlichungen der statistischen Landesämter heranziehen. Zur amtlichen Statistik zählen auch die Veröffentlichungen der internationalen Organisationen, die man benutzen sollte, wenn man Angaben über andere Gesellschaften und Nationen benötigt. Solche Veröffentlichungen sind zum Beispiel die Statistischen Jahrbücher der UNO (New York). Zur amtlichen Statistik zählen auch jene Veröffentlichungen, die zum Beispiel von den Bundes- oder Länderministerien oder der Deutschen Bundesbank herausgegeben werden. Zu bestimmten Fragestellungen lassen sich auch dort interessante Angaben finden. Bevor Sie sich zu einer eigenen Erhebung entschließen, weil die amtlichen Quellen vielleicht die Tatbestände nicht ausweisen, für die Sie sich interessieren, sollten Sie einen Blick in die statistischen Veröffentlichungen nichtamtlicher Institutionen werfen, wie zum Beispiel die Veröffentlichungen von Gewerkschaften, Arbeitgeberverbänden, wirtschaftswissenschaftlichen Forschungsinstituten, Meinungsforschungsinstituten etc. Je nachdem, welche Frage Sie zu beantworten versuchen, werden sich die Veröffentlichungen der einen oder der anderen Institution eher anbieten. Hier kann kein generelles Rezept angegeben werden.
3
Sortieren, Gruppieren, Klassifizieren
57
3.2.2 Wie man eigene Erhebungen durchführt Wenn die sekundärstatistischen Quellen nicht die Informationen bereitstellen können, die Sie benötigen, bleibt keine andere Möglichkeit, als die notwendigen Daten selbst zu erheben. Grundsätzlich kann man zwei Wege dieser Art der Datenerstellung, die man primärstatistische Erhebung nennt, unterscheiden: die Beobachtung und die Befragung (Interview). Der Unterschied zwischen beiden liegt auf der Hand: Bei der Beobachtung beschränkt sich der Statistiker darauf, Geschehnisse oder Sachverhalte zu beobachten und die Ergebnisse aufzuzeichnen. Man kann so vorgehen, wenn man etwa das Verkehrsgeschehen auf einer bestimmten Straßenkreuzung erfasst oder wenn man die Produktion in einem Betrieb betrachtet, um den Anteil schadhafter Produkte statistisch festzustellen. Von beobachtender Erhebung kann man auch bei Zeitmessungen sprechen, bei der Erfassung von Körpergrößen von Rekruten, oder wenn man sich für die Anzahl von Besuchern verschiedener Fußballspiele interessiert. Beobachtende Methoden werden auch eingesetzt, wenn man die Reaktionen von Versuchspersonen auf bestimmte Werbemaßnahmen (Plakate, Verpackungsarten, Fernsehspots u.Ä.) statistisch erfassen möchte oder wenn man die Arbeitsabläufe der Arbeiter am Fließband eines Industriebetriebs erfasst. In vielen Fällen lassen sich auch zunächst komplizierter erscheinende Datenerstellungsvorgänge letzten Endes auf Beobachtungen zurückführen. Es gibt aber eine große Zahl von Tatbeständen, die man sicher nicht per Beobachtung statistisch erfassen kann. Dies gilt zum Beispiel für die Erfassung von Einstellungen und Motiven (etwa bei der Erfragung der Beliebtheit von Politikern oder verschiedener Käsesorten oder wenn man feststellen will, warum bestimmte Zigarettenmarken häufiger gekauft werden als andere), für die Erfassung von persönlichen Merkmalen wie etwa Familienstand, Schulabschluss und auch die in unserem Beispiel interessierenden monatlichen Einkünfte bestimmter Personen. Solche Merkmale können nur erfasst werden, wenn man die Merkmalsträger – hier also bestimmte Personen – direkt befragt. Üblicherweise entwirft man zu diesem Zweck einen Fragebogen (in dem man dann meistens mehrere Merkmale gleichzeitig erhebt), den man per Post verschickt oder den man zu einer persönlichen Befragung durch Interviewer mitnimmt. Manchmal kann es auch zweckmäßig erscheinen, den Fragebogen, der ja zu einem sehr vorgeschriebenen Ablauf des Kontakts zwischen Befragten und Interviewer führt, wegzulassen, um ein eher lockeres Gespräch führen zu können. So vorzugehen, wird sich immer dann empfehlen, wenn man kompliziertere Tatbestände aufhellen möchte, die vielleicht sehr persönlicher oder sogar intimer Art sind. Es ist ganz klar, dass die Aufzeichnungen eines solchen Gesprächs (etwa per Tonband) schwierig auszuwerten sind, weil viele unterschiedliche Antworten und Gesprächsbeiträge zusammengefasst werden müssen; manchmal ist dies ganz unmöglich. Wenn möglich, bevorzugt man deshalb den vorgefertigten Fragebogen, wobei aber eine Reihe von Problemen auftaucht, von denen die wichtigsten kurz genannt werden sollen: Nicht immer kann genau geklärt werden, ob mit bestimmten Fragen tatsächlich die Tatbestände erfasst werden können, die man erfassen möchte. Interessiert man sich zum Beispiel für den Drogenkonsum Jugendlicher, so hat es keinen Sinn, die Betreffenden danach zu fragen, wie viel Haschisch sie durchschnittlich rauchen. Man wird kaum zutreffende Antworten erhalten.
58
3.2
Wie man statistische Daten gewinnt
Sollten Antworten vorgegeben werden, die dann nur angekreuzt werden müssen, oder lässt man den Befragten seine Antworten selbst formulieren? Beide Möglichkeiten sind mit Vorund Nachteilen verbunden. Die Vorgabe von Antworten beispielsweise engt die Antwortmöglichkeiten ein und verzerrt so vielleicht die Ergebnisse, wobei auch eine Rolle spielt, dass der Befragte oft bestimmte Antworten vorzieht (man stellt häufig die Tendenz fest, dass lieber Ja geantwortet und angekreuzt wird als Nein). Verzichtet man deshalb auf Antwortvorgaben, muss man im Nachhinein die verschiedenen Antworten gruppieren oder klassifizieren, was oft nicht einfach ist. Schließlich muss berücksichtigt werden, dass der Interviewer selbst den Befragten und seine Antworten beeinflusst – nicht immer absichtlich – und vielleicht ohne dass der Befragte dies merkt. Macht der Interviewer zum Beispiel einen wissensmäßig überlegenen Eindruck oder hat der Befragte vielleicht den Eindruck, eine Amtsperson vor sich zu haben, der er Rede und Antwort stehen muss, so wird dies in aller Regel seine Antworten beeinflussen. Selbst die Frageformulierung und die Formulierung der eventuellen Antwortvorgaben können beeinflussend wirken. Eine Frage, die beginnt „Sind Sie nicht auch der Meinung, dass …“, wird sicherlich eher mit „Ja“ beantwortet als eine mit neutraler Formulierung. Will man diese Beeinflussungen ausschalten und zieht deshalb eine postalische Befragung vor, so werden einige (unter Umständen sehr viele) Befragte den Fragebogen gar nicht ausfüllen, nichts zurückschicken, und man weiß nicht genau warum. Man erhält dann eine kaum zu kontrollierende Verfälschung der Ergebnisse. Diese Aufzählung verschiedener Probleme ist nicht vollständig. Man kann aber schon jetzt erkennen, dass die praktische Durchführung der Datenbereitstellung mit beträchtlichen Schwierigkeiten verbunden sein kann – weniger bei Variablen wie Geschlecht, Alter usw., sondern bei komplizierteren und interessanteren Größen. Statistische Ergebnisse, die auf diese Weise vorbereitet worden sind, müssen eigentlich immer mit großer Vorsicht betrachtet werden. Der Statistiker, der behauptet, er hätte zu einem bestimmten sozialstatistischen Problem angeblich exakte Daten gesammelt, will dem Nichtfachmann etwas vormachen. Wegen der genannten und vieler hier nicht genannten Probleme sind statistische Daten in den seltensten Fällen exakt; im Grunde sind es nur jeweils erste, vorsichtige Versuche, die unbekannte Wirklichkeit auszuleuchten.
3.2.3 Hintergründe der Datenerhebung Unser Beispiel bezieht sich auf eine zahlenmäßige Größe (Einkünfte Erwerbsloser), bei der die Probleme, über die oben gesprochen wurde, nicht völlig vernachlässigt werden können. Es lassen sich aber leicht Beispiele für Untersuchungsgrößen finden, bei denen diese Probleme noch weitaus gravierender sind und deshalb sehr ausführlich diskutiert werden müssen – denken Sie an Befragungen zur politischen Einstellung bestimmter Bevölkerungskreise oder zum sexuellen Verhalten. Offenbar gibt es Tatbestände, deren Erfassung leichter vonstatten geht als die anderer. Aber selbst bei den Größen, deren Erfassung zunächst unproblematisch erscheint (und bei den anderen erst recht), gibt es noch einige Dinge zu berücksichtigen, über die bisher noch nicht gesprochen wurde – also auch bei Alter, Geschlecht, Monatseinkommen u.Ä. Sie hängen in erster Linie mit der vielleicht überflüssig erscheinenden Frage zusammen, warum überhaupt bestimmte Merkmale statistisch erfasst werden sollen. Für unser Beispiel
3
Sortieren, Gruppieren, Klassifizieren
59
haben wir ein Stichwort schon genannt – es sollen Informationen zur „neuen Armut“ gesammelt werden, also beispielsweise zu den Kaufkraftverhältnissen bestimmter unterprivilegierter Personenkreise. Gerade deshalb aber könnte man die Frage stellen, ob Monatseinkünfte erhoben werden sollen oder ob nicht andere Größen wichtiger sind (Familienstand, Haushaltsgröße u.Ä.). Es ist von vornherein keineswegs entschieden, ob die Erfassung der Einkünfte (allein) die Frage beantworten kann, die der Ausgangspunkt unserer Untersuchung ist. Allgemein gesprochen, heißt das – und dies ist eine außerordentlich wichtige Bemerkung im Vorfeld statistischer Auswertungen –, dass oft bezweifelt werden muss, ob die statistischen Größen, die in einer Untersuchung mit Zahlen belegt und ausgewertet werden, tatsächlich diejenigen Tatbestände kennzeichnen, für die man sich eigentlich interessiert. Wenn man dann gleichwohl die Rechenergebnisse im Hinblick auf die interessierenden Tatbestände interpretiert, so können in gravierenden Fällen derartige Aussagen nahezu wertlos sein. Folgendes Beispiel soll dies verdeutlichen: Ein Statistiker interessiert sich für die Frage, welche Größen für den Rückgang der Kinderzahl pro Familie in der Bundesrepublik Deutschland (Abnahme der Geburtenrate) bedeutsam sind, und er vermutet, dass dies vor allem der gestiegene Verbrauch der Anti-Baby-Pille sei. Ohne sich über die inhaltlichen Probleme seiner Themenstellung weiter Gedanken zu machen, erfasst er deshalb Geburtenrate und Verbrauch der Pille und stellt in der Tat fest, was auch zu erwarten war, dass die eine mit der anderen Größe statistisch eng zusammenhängt: Zunehmender Verbrauch der Pille = abnehmende Geburtenrate. Er hat aber dabei wichtige soziale und wirtschaftliche Größen übersehen. Es ist ja durchaus vorstellbar, dass wirtschaftliche und gesellschaftliche Gründe dafür verantwortlich sind, dass die Frauen die Pille nehmen (Notwendigkeit bzw. Wunsch der Ehefrau, berufstätig zu sein; zu kleine bzw. zu teure Wohnungen ohne ausreichende Kinderzimmer u.Ä.). Derartige Zusammenhänge hat unser Forscher wegen der nicht durchgeführten notwendigen Vorüberlegungen nicht entdecken können. Seine Untersuchung hat kaum dazu beigetragen, neue Erkenntnisse zu erarbeiten. Die Aussage, dass zunehmender Pillenverbrauch geringere Kinderzahl bedeutet, ist wissenschaftlich wertlos, sie ist trivial. Man sieht an diesem Beispiel sehr deutlich, wie wichtig es ist, vor einer konkreten Erhebung ein gegebenes Problem möglichst genau zu durchleuchten. Es kann sonst geschehen, dass man die eigentlich interessierenden Fakten in statistisch fassbare Größen umsetzt, die diese Wirklichkeit gar nicht oder nur sehr unvollständig beschreiben. Wenn dies der Fall ist, dann können auch noch so viele Daten und die anspruchsvollsten Auswertungsmethoden keine Resultate liefern, die Erkenntnisse über diese Wirklichkeit bedeuten. Selbst wenn es gelungen sein sollte, die interessierenden Sachverhalte in fassbare statistische Größen korrekt zu übersetzen, ist es durchaus möglich, dass mit den eingesetzten Instrumenten zur Messung der statistischen Größen – wobei auch ein Fragebogen nichts anderes als ein Messinstrument ist – Dinge gemessen werden, die man gar nicht messen wollte.
60
3.3
3.3
Von der Urliste zur Häufigkeitsverteilung
Von der Urliste zur Häufigkeitsverteilung
Kehren wir nach diesem Ausflug in theoretische Überlegungen wieder zu unserem Ausgangsbeispiel zurück. Auf der Grundlage einer Stichprobe bei zufällig ausgewählten Erwerbslosen sollen Informationen über die Einkünfte dieses Personenkreises gewonnen werden. Man legt also den ausgewählten Personen einen Fragebogen vor (und sichert ihnen die Anonymität bei der Auswertung der Angaben zu) und fragt unter anderem nach den Einkünften. Nur am Rande sei darauf hingewiesen, dass in den seltensten Fällen ein Fragebogen nur aus einer Frage bestehen wird; meist interessiert man sich ja für mehrere Größen gleichzeitig, gerade wenn man vermutete Zusammenhänge untersuchen will. Unser Beispiel ist jedoch mit Absicht auf nur eine Variable beschränkt, um es überschaubar zu halten. Sinnvollerweise wird man es dem Befragten zugestehen, dass er auf- oder abgerundete Werte angeben kann, falls er den betreffenden Betrag auf den Cent genau nicht im Kopf hat. Wenn man einmal davon absieht, dass es eine Reihe von Leuten geben wird, die über ihre Einkünfte keine Auskunft geben wollen, und wenn wir alle Angaben zur Vereinheitlichung auf je zehn Euro runden, ist die Abbildung 3.1 Ergebnis dieser Befragung.
Abb. 3.1: Einkünfte (fiktive Daten; Ausschnitt) (E03.XLS, Ausgangsdaten)
Hier haben wir nun zum ersten Mal die Möglichkeit, das Programm Excel für statistische Zwecke einzusetzen. Wenn wir diese Daten weiter verarbeiten wollen, ist es zweckmäßig, sie, wie gezeigt, untereinander in einer einzigen Tabellenspalte unterzubringen – zweckmäßigerweise wählen Sie die Spalte A. Dies ist zwar mit dem Nachteil verbunden, dass Sie nicht alle Angaben auf einen Blick auf dem Bildschirm sehen (benutzen Sie die Bildlaufpfeile am rechten Fensterrand, um in der einspaltigen Tabelle nach unten und wieder nach oben zu wandern), aber für spätere statistische Auswertungen ist diese Vorgehensweise von unschätzbarem Vorteil, wie Sie noch erkennen werden.
3
Sortieren, Gruppieren, Klassifizieren
61
Gehen Sie also folgendermaßen vor, wenn Sie diese Daten eingeben wollen: 1. 2. 3. 4. 5.
Geben Sie in die Zelle A1 die erste Zahl (750) ein. Benutzen Sie den Abwärtspfeil, um zur zweiten Zelle (A2) zu gelangen. Geben Sie die zweite Zahl ein (1490). Geben Sie nacheinander alle anderen Zahlen ein (die Tabelle, von der Sie in Abbildung 3.1 einen Ausschnitt sehen, umfasst insgesamt 120 Werte in den Zellen A1 bis A120). Speichern Sie die Arbeitsmappe mit der Menüposition DATEI/SPEICHERN UNTER…, und geben Sie ihr dabei einen vernünftigen Namen.
Sie können sich aber die Arbeit der Dateneingabe auch ersparen, wenn Sie auf die diesem Buch beigelegte CD-ROM zugreifen und einfach nach dem Start von Excel über die Menüposition DATEI/ÖFFNEN… auf die Datei E03.XLS im Verzeichnis \TABELLEN zugreifen. Falls es noch erforderlich ist, klicken Sie am unteren Bildschirmrand das Blatt AUSGANGSDATEN an, um zu Abbildung 3.1 zu gelangen. Statistisches Ausgangsmaterial, wie es in der Abbildung 3.1 gezeigt wird, das einem statistischen Auswertungsprozess unterworfen werden soll, ist in aller Regel nicht direkt überschaubar. Insbesondere bei größeren Untersuchungen wird die Urliste, wie eine solche Zusammenstellung genannt wird, so umfangreich, dass ihr die interessierenden Informationen kaum direkt entnommen werden können. Wesentliche Aufgabe der Methoden der beschreibenden Statistik ist es deshalb, das Urmaterial überschaubar zu machen, es zusammenfassend zu charakterisieren, so dass die wesentlichen Informationen erkennbar werden. Ein erster wichtiger Schritt in diese Richtung ist die Darstellung oder Präsentation der erhobenen statistischen Daten. Eine Tabelle wie die obige kann nicht als informativ bezeichnet werden. Die informative Präsentation statistischer Daten kann auf zwei Wegen erfolgen, mit Hilfe statistischer Tabellen oder durch grafische Darstellungen. Mit der ersten der beiden Möglichkeiten beschäftigen wir uns hier. Über grafische Darstellungen wird in Kapitel 7 gesprochen. Jeder von Ihnen hat schon statistische Tabellen gesehen. Sie sind ein wichtiges Instrument zur Übermittlung von Informationen – vorausgesetzt, sie haben nicht die unübersichtliche Gestalt, wie sie Abbildung 3.1 aufweist.
3.3.1 Sortieren Es ist deshalb zweckmäßig, das zugrunde liegende statistische Urmaterial zuerst einmal zu ordnen, d. h., die einzelnen Merkmalswerte werden zunächst der Größe nach angeordnet. Damit kann man eine erste brauchbare Vorstellung über die Größenordnungen des Datenmaterials erlangen und die weiteren Arbeitsschritte vorbereiten. Zum Ordnen der Daten der Größe nach verwenden wir wieder Excel. Um den Ausgangsdatenbestand aber zu bewahren, wie er ursprünglich war (siehe Abbildung 3.1), werden wir ihn zunächst in der Originalform in die Tabelle 2 der gleichen Arbeitsmappe übertragen, um ihn dort zu ordnen. In Tabelle 1 bleibt demnach der Originaldatenbestand (also ungeordnet) erhalten. Um die Ausgangsdaten von Tabelle 1 (Ausgangsdaten) nach Tabelle 2 (Sortierung) zu übertragen, gehen Sie wie folgt vor:
62
3.3
Von der Urliste zur Häufigkeitsverteilung
1. Markieren Sie die Daten (von A1 bis A120). 2. Wählen Sie BEARBEITEN/KOPIEREN. 3. Klicken Sie am unteren Bildschirmrand TABELLE2 an. 4. Klicken Sie Zelle A1 an, falls dies erforderlich ist. 5. Wählen Sie BEARBEITEN/EINFÜGEN. Um die Daten nun zu sortieren, ist der folgende Schritt notwendig: 6. Wählen Sie DATEN/SORTIEREN… Es öffnet sich das in Abbildung 3.2 gezeigte Dialogfenster.
Abb. 3.2: DATEN/SORTIEREN…
Hier wird Ihnen angeboten, dass die Werte der Spalte A aufsteigend sortiert werden sollen. Diese Vorgaben akzeptieren Sie, indem Sie die Schaltfläche OK anklicken. Mit Blick auf das Sortierergebnis erkennen Sie, dass der kleinste beobachtete Wert bei 590, der größte (wenn Sie in der Tabelle der Abbildung 3.3 ganz nach unten blättern) bei 3900 liegt. Die Differenz zwischen diesen beiden Werten nennt man die Spannweite. Sie beträgt in diesem Beispiel 3900 590
3310
Diese Spannweite ist eine erste informierende statistische Maßzahl. In übersichtlichster Weise (knapper als mit einer einzigen Zahl kann man keinen Tatbestand ausdrücken) kennzeichnet sie einen bestimmten Aspekt des vorliegenden statistischen Materials, nämlich die so genannte Streuung der erhobenen Verteilung der Einkünfte. Mit dem Begriff der Streuung wird dabei ganz allgemein die Frage angesprochen, wie weit sich die einzelnen Merkmalswerte um ihren Mittelwert herum verteilen. Auf Einzelheiten dazu kommen wir in Kapitel 5, Abschnitt 5.4, zu sprechen.
3
Sortieren, Gruppieren, Klassifizieren
63
Abb. 3.3: Sortierte Ausgangsdaten (E03.XLS, Sortierung)
3.3.2 Gruppieren Bei der Erstellung statistischer Tabellen schließt sich dem ersten Arbeitsschritt, dem sortierenden Ordnen, ein zweiter an, nämlich die Bestimmung von Häufigkeiten bestimmter Merkmalswerte. Unser Beispiel (Verteilung der Euro-Beträge) eignet sich für die Darstellung dieses Schritts nicht sehr gut, deshalb folgendes Ergänzungsbeispiel: Wir haben in unserer Stichprobe neben dem Monatseinkommen die Personenzahl der Haushalte erfragt, denen die Befragten angehören. Auch diese Angaben haben wir zunächst sortiert. Es zeigt sich in der Zelle A1 der Tabelle in Abbildung 3.5 der kleinste Wert (1), in der Zelle A120 der größte Wert (8). An dieser Stelle ist der Hinweis angebracht, dass man sich Merkmale denken kann, bei denen ein Sortieren der Größe noch gar nicht sinnvoll ist, etwa bei der Variablen Familienstand der Befragten. Unter Gruppieren versteht man nun den Arbeitsschritt, der sich jetzt sofort anbietet. Zweckmäßigerweise würde man jetzt – wenn man keinen Rechner hat – auf ein Blatt Papier untereinander die Werte von 1 bis 8 aufschreiben und aus dem Datenbestand durch Anlegen einer Strichliste die Häufigkeiten bestimmen, mit denen diese einzelnen Werte aufgetreten sind.
64
3.3
Von der Urliste zur Häufigkeitsverteilung
Abb. 3.4: Haushaltsgrößen (Anzahl der Personen, sortiert; Ausschnitt) (E03.XLS, Personen1)
Diese Auszählarbeit übernimmt Excel mit der Funktion HÄUFIGKEIT. Um sie einzusetzen, gehen Sie in Tabelle PERSONEN1 der Arbeitsmappe E03.XLS folgendermaßen vor: 1. 2. 3.
Tragen Sie in die Zelle B1 den Begriff Personen ein (vgl. Abbildung 3.5). Tragen Sie in die Zelle C1 den Begriff Häufigkeit ein. Geben Sie in die Zellen B2 bis B9 die Werte 1 bis 8 ein.
Abb. 3.5: Vorbereitung zur Erstellung einer Häufigkeitsverteilung (E03.XLS, Personen2)
Vor den weiteren Schritten möchten wir darauf aufmerksam machen, dass es sich bei der Excel-Funktion HÄUFIGKEIT um eine Array-Funktion handelt. Dies bedeutet, dass sie mehr als eine Zahl als Ergebnis produziert – in unserem Beispiel acht Häufigkeiten –, für die zunächst durch Markieren der notwendige Platz freigehalten werden muss. Zudem sind solche Funktionen mit der Tastenkombination Shift, Strg und Return (gemeinsam drücken) abzuschließen. 1. 2.
Markieren Sie den Zellbereich C2 bis C9. Rufen Sie über EINFÜGEN/FUNKTION… aus der Kategorie STATISTIK die Funktion HÄUFIGKEIT auf.
3
Sortieren, Gruppieren, Klassifizieren
65
3. Klicken Sie die Schaltfläche OK an. 4. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: 5. bei DATEN: A1:A120 bei KLASSEN: B2:B9 6. Klicken Sie OK an. Excel erzeugt jetzt in der ersten Zelle des markierten Bereichs die erste Häufigkeit (17). 7. Klicken Sie oben in der Editierzeile hinter die Funktion. 8. Drücken Sie Shift, Strg und Return gemeinsam. Jetzt erscheinen auch die übrigen Häufigkeiten (siehe Abbildung 3.6).
Abb. 3.6: Häufigkeitsverteilung (E03.XLS, Personen3)
Sie haben jetzt eine so genannte Häufigkeitsverteilung erstellt. Wir nennen sie auch einfach diskrete Verteilung, weil die Häufigkeiten der Ausprägungen der diskreten Variablen Personenzahl präsentiert werden. Sie sehen, dass in unserer Erhebung 17 Einpersonenhaushalte waren, 33 Zweipersonenhaushalte usw. Auf diese Weise erhält man ein sehr viel übersichtlicheres und informativeres Bild, als es die Urliste bieten könnte. Mit einem Blick sind die wesentlichsten Eigenschaften der vorliegenden Verteilung der Personenzahl, d. h. der Haushaltsgröße zu entnehmen. Die Summe all dieser Häufigkeiten muss natürlich so groß sein wie die Zahl der Beobachtungen bzw. Befragungen, also gleich 120. Sie können dies überprüfen, wenn Sie die Zelle C10 anklicken, dann die Schaltfläche mit dem Summenzeichen und dann das grüne Häkchen vor der Editierzeile. Die in Spalte C ermittelten Häufigkeiten nennt man, im Gegensatz zu den gleich zu besprechenden relativen Häufigkeiten, absolute Häufigkeiten, bzw. man spricht hier von einer Verteilung absoluter Häufigkeiten. Sind Sie an relativen Häufigkeiten interessiert, dann wollen Sie wissen, wie viel Prozent der Haushalte Einpersonenhaushalte, wie viel Prozent Zweipersonenhaushalte sind usw. Konkret geht es also in der ersten Klasse darum auszurechnen, wie viel Prozent 17 Haushalte von n 120 Haushalten sind. Für solche Berechnungen wird der Dreisatz benötigt, den Sie noch aus der Schule kennen. Für Einpersonenhaushalte gilt zum Beispiel: f1'
f1 100 120
66
3.3
Von der Urliste zur Häufigkeitsverteilung
Oder allgemein: fi 100 n
f i'
Dabei sind die Symbole wie folgt definiert: n fi fi
Zahl der Beobachtungen absolute Häufigkeit in der Klasse i (f steht für frequency = Häufigkeit)
'
relative Häufigkeit in der Klasse i in Prozent
Man kann relative Häufigkeiten auch als Dezimalzahlen ausdrücken: Beispielsweise kann 14,17% auch als 0,1417 geschrieben werden. Weiterhin muss natürlich gelten: fi
n,
f i'
100% 1
Um mit Excel die relativen Häufigkeiten auszurechnen, gehen Sie wie folgt vor: 1. Geben Sie in Zelle D1 den Begriff Prozent ein. 2. Geben Sie in Zelle D2 ein: =C2/$C$10*100 Es erscheint jetzt der Wert 14,17 (gerundet). 3. 4.
Ziehen Sie die Berechnungsformel nach unten bis zur Zelle D9 (oder: Markieren von D2 bis D9 und Aufrufen der Menüposition BEARBEITEN/AUSFÜLLEN/UNTEN). Ziehen Sie die Summenberechnung von C10 nach rechts in die Zelle D10; dort muss dann der Wert 100 erscheinen (siehe Abbildung 3.8).
Abb. 3.7: Absolute und relative Häufigkeitsverteilung (E03.XLS, Personen4)
In diesem Zusammenhang drei Anmerkungen: 1. Bei der Division durch n 120 hätten Sie in der obigen Berechnungsformel auch direkt an der Stelle $C$10 den Wert 120 hinschreiben können. Dies ist aber wenig empfehlenswert. Wenn sich nämlich im Nachhinein, etwa wegen irgendwelcher Korrekturen, am Datenbestand etwas ändert, so dass vielleicht auch dieser Summenwert nicht mehr stimmt, müssten Sie Excel neu rechnen lassen. Wenn Sie sich aber auf die Zelle beziehen, in welcher der Wert 120 steht, dann passt Excel die weiteren Rechenergebnisse automatisch an, wenn sich etwas än-
3
Sortieren, Gruppieren, Klassifizieren
67
dert. Generell sollten Sie sich angewöhnen, wenn immer es bei weiteren Verrechnungen möglich ist, mit Zellbezügen zu arbeiten und nicht irgendwelche Zwischenrechnungsergebnisse nummerisch einzugeben. 2. Die Division durch 120 ist erreicht worden, indem der Zellbezug $C$10 verwendet wurde. Dies ist ein absoluter Bezug (erkennbar an den Dollarzeichen), der erforderlich ist, damit beim Kopieren der Berechnung nach unten (von Zelle D2 bis Zelle D9) dieser Wert, durch den dividiert werden muss, immer festgehalten wird. Würde man fälschlicherweise bei der Division den relativen Bezug verwenden (C10), so würde beim Kopieren nach unten schon in der Zelle D3 ein Fehler auftauchen (#DIV/0!), weil Excel versuchen müsste, durch null zu dividieren (durch den Wert in C11 – und da ist nichts!). 3. Der Übersichtlichkeit halber könnten die relativen Häufigkeiten auf zwei Dezimalstellen gerundet werden. Wenn Sie dies wollen, markieren Sie D2 bis D10, und drücken Sie mehrfach die Schaltfläche zur Reduzierung der Anzahl der Dezimalstellen. Ersatzweise können Sie auch nach dem Markieren FORMAT/ZELLEN… aufrufen, um dann im Register ZAHLEN bei der Kategorie ZAHL die Variante mit zwei Dezimalstellen auszuwählen.
3.3.3 Klassifizieren Hat man es mit einer stetigen Variablen zu tun, also zum Beispiel mit dem Merkmal monatliche Einkünfte, wie in unserem ersten Zahlenbeispiel, wird zur Erstellung einer informativen Tabelle ein anderer Arbeitsschritt gewählt, die Klassifizierung. Klassifizierung bedeutet, dass Häufigkeitsklassen (im Beispiel Euro-Klassen) gebildet werden; man zählt dann aus, wie viele Beobachtungen den Klassen zuzuordnen sind. Das Hauptproblem dabei ist die Wahl der geeigneten Klassenbreite. Je nach Klassenbreite wird die entstehende Häufigkeitsverteilung unterschiedliche Gestalt annehmen können. Der Statistiker hat hier eine gewisse Manipulationsmöglichkeit in der Hand. Sinnvollerweise sollte man die Klassenbreite so wählen, dass einerseits das Ausgangsmaterial übersichtlicher als in der Urliste dargestellt werden kann; andererseits aber muss vermieden werden, dass durch eine zu große Klassenbreite, d. h. durch eine zu geringe Anzahl von Klassen, zu viele Einzelinformationen verloren gehen. Üblicherweise geht man so vor, dass man den gesamten Wertebereich der Verteilung (Bereich zwischen dem kleinsten und dem größten Merkmalswert) mit ca. acht bis zwölf Klassen abdeckt. Dabei sollte die Klassenbreite selbst ein glatter Wert sein (bei Einkommensbeträgen also zum Beispiel auf 50 oder 100 oder 500 endend); auch Beginn und Ende der Klassifikation sollten durch entsprechende Werte gegeben werden. Feste Regeln können hier nicht angegeben werden. Wir hatten schon in der sortierten Urliste festgestellt, dass der kleinste Euro-Betrag bei 590, der größte bei 3900 lag (siehe Datei E03.XLS, Tabelle Sortierung, Zellen A1 und A120). Es empfiehlt sich deshalb ein Klassifikationsschema, das vielleicht folgendermaßen aussieht: über 500 bis 1000 über 1000 bis 1500 usw. über 3500 bis 4000
68
3.3
Von der Urliste zur Häufigkeitsverteilung
Sie sehen, dass in den Klassen immer das Stichwort ... über ... auftaucht. Damit wird eine eindeutige Zuordnung von Werten erreicht, die mit einer Klassengrenze zusammenfallen. Der Merkmalswert 1000 gehört so eindeutig zur ersten Klasse. Um nun mit Excel die entsprechende Häufigkeitsverteilung erstellen zu können, genügt es, als Klassifikationsschema die Klassenobergrenzen einzugeben. Dies ist in der Spalte B der Tabelle in Abbildung 3.8 geschehen.
Abb. 3.8: Klassifikationsschema (E03.XLS, Einkommen1)
Benutzen Sie jetzt die Funktion HÄUFIGKEIT wieder nach dem gleichen Muster, wie es weiter oben schon beschrieben wurde, ergibt sich das in Abbildung 3.9 gezeigte Bild.
Abb. 3.9: Einkommensverteilung (stetige Häufigkeitsverteilung) (E03.XLS, Einkommen2)
Sie sehen, bei 29 der Befragten liegen die Einkünfte bis 1000 Euro einschließlich), bei 47 liegen sie über 1000 bis 1500 Euro (einschließlich) usw. Übungshalber sollten Sie auch hier durch Excel die relativen Häufigkeiten berechnen lassen. Außerdem können Sie durch alternative Besetzungen der Zellen B1 bis B8 sofort überprüfen, wie sich die Gestalt der Häufigkeitstabelle verändert, wenn das Klassifikationsschema geändert wird. Wir sollten an dieser Stelle hinzufügen, dass es manchmal zweckmäßig ist, wenn die Klassenbreiten unterschiedlich angelegt werden. Stellen Sie sich beispielsweise vor, bei Angaben zu den monatlichen Einkünften würden sich 80% aller Beobachtungen im Bereich zwischen 2000 und 3000 Euro befinden. Dann wäre es angebracht, in diesem Bereich etwa mit 200-EuroKlassen und außerhalb davon mit 500-Euro-Klassen zu arbeiten. Für Excel wäre dies kein Problem. Sie müssten lediglich die entsprechenden Klassenobergrenzen in der Spalte B der obigen Tabelle vor dem Einsatz der Funktion HÄUFIGKEIT eingeben. Immer geht mit einer
3
Sortieren, Gruppieren, Klassifizieren
69
solchen Klassifikation ein Informationsgewinn durch anwachsende Übersichtlichkeit, zugleich aber auch ein Informationsverlust einher, weil die Verteilungsverhältnisse innerhalb der einzelnen Klassen nicht mehr ersichtlich sind. Dieser Informationsverlust wird umso gravierender, je kleiner die gewählte Klassenzahl ist. Man muss sich also entscheiden, welchen Informationsverlust man zugunsten der zunehmenden Übersichtlichkeit in Kauf nehmen will oder kann. Bei statistischen Datenbeständen, bei denen sehr kleine oder sehr große Werte erwartet werden, ist es manchmal üblich, so genannte offene Flügelklassen vorzusehen. Wäre man in unserem Beispiel also nicht ganz sicher, ob die letzte Klasse alle hohen Einkünfte umfasst, hätte man sie auch bezeichnen können: 3000 Euro und darüber. Excel kann allerdings mit der Funktion HÄUFIGKEIT die Besetzungszahl einer nach oben offenen Flügelklasse nicht bestimmen; ist sie nach unten offen, gibt es hingegen keine Probleme. Die Häufigkeit einer oberen offenen Flügelklasse kann nur indirekt aus der Gesamtzahl der Beobachtungen minus der bis zur offenen Klasse insgesamt erreichten Häufigkeiten bestimmt werden.
3.3.4 Kumulationen Wenn man relative Häufigkeiten berechnet hat, bietet sich oft ein weiterer Arbeitsschritt an, den wir als Kumulation bezeichnen. Dabei geht es darum, die relativen Häufigkeiten zu addieren, was zu zusätzlichen informativen Angaben führt. Dieser Schritt soll am Beispiel der Angaben zu den Personenzahlen in den befragten Haushalten illustriert werden (siehe die obige Abbildung 3.7). Rechentechnisch verläuft die Kumulation, die übrigens auch mit absoluten Häufigkeiten durchgeführt werden kann, auch wenn davon seltener Gebrauch gemacht wird, so, dass die jeweilige relative Häufigkeit zur bis dahin erreichten Zwischensumme relativer Häufigkeiten hinzuaddiert wird. Mit Excel geht das folgendermaßen (siehe Datei E03.XLS, Tabelle Kumuliert): 1. 2. 3. 4.
Geben Sie in Zelle E1 den Begriff Kumulation ein. Geben Sie in Zelle E2 ein: =D2 Geben Sie in Zelle E3 ein: =E2+D3 Ziehen Sie die Berechnung aus E3 nach unten bis zur Zelle E9.
Abb. 3.10: Kumulierte relative Häufigkeiten (E03.XLS, Kumuliert)
Sie können in Spalte E jetzt beispielsweise erkennen und direkt ablesen, dass 97,5% aller Befragten in Haushalten mit sechs oder weniger Personen leben.
70
3.4
3.4
Zeitreihen
Zeitreihen
Die tabellarische Darstellung von statistischen Zeitreihen unterscheidet sich etwas von derjenigen der Häufigkeitsverteilungen. Unter einer statistischen Zeitreihe versteht man die Zuordnung der Merkmalswerte eines bestimmten Merkmals zu Zeitpunkten (Uhrzeiten, Stichtagen etc.) oder zu Zeiträumen (zu Jahren, Monaten etc.). In der tabellarischen Darstellung finden wir deshalb nicht Merkmalswerte und ihnen zugeordnete Häufigkeiten, sondern Zeitpunkte oder Zeiträume und ihnen zugeordnete Merkmalswerte, wie das folgende Beispiel in Abbildung 3.11 verdeutlicht.
Abb. 3.11: Zeitreihe (Gewicht von W. Voß zu jedem Monatsersten 1997) (E03.XLS, Zeitreihe)
3.5
Kreuztabellen
Bei vielen statistischen Auswertungen werden zwei Merkmale gleichzeitig betrachtet. Ziel ist es, den eventuellen Zusammenhängen zwischen zwei statistischen Untersuchungsvariablen auf die Spur zu kommen. Interessiert man sich zum Beispiel für den statistischen Zusammenhang zwischen Körpergröße und Körpergewicht zufällig ausgewählter Erwachsener, so ist die Ausgangsbasis jetzt eine zweispaltige Urliste, in der die einzelnen Wertepaare untereinander notiert werden. Dies zeigt ausschnittsweise Abbildung 3.12.
Abb. 3.12: Größe und Gewicht (Ausschnitt) (E03.XLS, Bivariat)
Zur Erstellung der folgenden Kreuztabelle müssen wieder Klassen vorgegeben werden, für Körpergröße und für Körpergewicht, da beide Variablen vom stetigen Typ sind (im Falle diskreter Variablen wäre natürlich eine Gruppierung wie oben beim Beispiel der Variablen Personenzahl ausreichend). Diese Klassen könnten folgendermaßen aussehen:
3
Sortieren, Gruppieren, Klassifizieren
71
Bei der Körpergröße: über 160 bis 165 über 165 bis 170 usw. Beim Körpergewicht: über 50 bis 55 über 55 bis 60 usw. Um die bivariaten Häufigkeiten in Klassen auszuzählen, können Sie über das Menü DATEN/ PIVOTTABLE- UND PIVOTCHART-BERICHT… eine Kreuztabelle erstellen. Wir möchten dies hier nicht weiter beschreiben, da zu diesem Zweck in Excel extra ein Assistenzprogramm zur Verfügung steht, das Sie Schritt für Schritt zum Ziel führt. In einfacheren Fällen, so wie hier, können wir die Wertepaare per Hand einsortieren und gelangen damit zu einer Kreuztabelle, die ausschnittsweise so aussieht, wie es Abbildung 3.13 zeigt. Die Werte dieser Tabelle werden wie folgt gelesen: Acht der zufällig ausgewählten Personen sind zwischen 150 bis 160 cm groß und zugleich zwischen 50 bis 55 kg schwer. Sieben Personen sind zwischen 160 bis 170 groß und zugleich zwischen 50 bis 55 kg schwer usw. Wäre die Tabelle komplett, könnte man die Randsummen bestimmen, die genau genommen univariate Häufigkeitsverteilungen sind: Ganz rechts steht die Gewichtsverteilung der Befragten, ganz unten finden Sie die Größenverteilung.
Abb. 3.13: Kreuztabelle (Ausschnitt) (E03.XLS, Kreuztabelle1)
Bei diskreten Merkmalen sieht eine Kreuztabelle einfacher aus, wie das folgende Beispiel zeigt (siehe Abbildung 3.14).
72
3.5
Kreuztabellen
Abb. 3.14: Kreuztabelle mit diskreten Variablen (E03.XLS, Kreuztabelle2)
Natürlich können auch in Kreuztabellen relative Häufigkeiten berechnet werden, wobei die einzelnen Häufigkeiten entweder auf ihre Zeilensumme oder auf ihre Spaltensumme oder auf die Gesamtzahl der Beobachtungen bezogen werden können. Sie sollten einmal ausrechnen, wie diese Werte für die Tabelle in Abbildung 3.14 aussehen müssten und wie sie zu interpretieren sind. Ihre Ergebnisse müssten mit denen der Abbildung 3.15 übereinstimmen.
Abb. 3.15: Kreuztabelle mit Prozentangaben (E03.XLS, Prozente)
Ergänzend sei darauf hingewiesen, dass es durchaus auch möglich ist, mehr als zwei Merkmale in einer Tabelle gleichzeitig zu betrachten. Man könnte sich zum Beispiel vorstellen, dass jede Gewichtsklasse in der Tabelle der Abbildung 3.13 noch einmal in die Kategorien männlich und weiblich unterteilt wird, so dass etwa festgestellt werden könnte, wie viele der
3
Sortieren, Gruppieren, Klassifizieren
73
Befragten zwischen 150 bis 160 cm groß sind, zugleich zwischen 60 bis 65 kg wiegen und zugleich weiblichen Geschlechts sind – vorausgesetzt natürlich, auch das Geschlecht der befragten Personen wäre erfasst worden. Weitere Aufspaltungen sind bei entsprechenden Befragungen möglich, führen aber leicht zur Unübersichtlichkeit der Tabelle. In diesem Zusammenhang bietet es sich an, auf ein paar generelle Regeln für das Erstellen von Tabellen aufmerksam zu machen: Jede Tabelle muss mit einer Überschrift versehen werden, aus der klar hervorgeht, worum es sich handelt und welches die Maßeinheiten der dargestellten Größen sind. Gegebenenfalls sollten zur weiteren Erklärung Unterüberschriften formuliert werden. Hat man umfangreichere Tabellen (etwa bei mehreren Merkmalen), so empfiehlt es sich, Zeilen und Spalten der Tabelle zu nummerieren, wobei die Merkmale selbst wieder mit ihren Maßeinheiten versehen werden müssen. Hat man zu viele Variablen gleichzeitig darzustellen (etwa ab vier Variablen aufwärts), empfiehlt es sich, bei der Urliste zu bleiben, die dann einfach Datenmatrix genannt wird. In ihr werden zeilenweise die einzelnen Merkmalsträger, spaltenweise die Variablen dargestellt, wie es die Abbildung 3.16 schematisch zeigt.
Abb. 3.16: Datenmatrix (E03.XLS, Matrix)
In Abbildung 3.16 sind Ergebnisse einer sozialstrukturellen Marktuntersuchung zusammengestellt worden, bei denen Haushalte in verschiedenen Bundesländern nach Einkommen, Personenzahl im Haushalt, Ausgaben für Ernährung und für PKW-Nutzung, bevorzugte politische Partei etc. befragt worden sind. Die textlichen Angaben (zum Beispiel Bundesland oder be-
74
3.5
Kreuztabellen
vorzugte politische Partei) wurden zusätzlich nummerisch kodiert, was die spätere statistische Auswertung der erhobenen Befunde erleichtert. Wir werden auf diesen Datenbestand an anderer Stelle wieder zu sprechen kommen.
4
Mittelwerte
„Da, wo wir sind, da ist die Mitte!“ H. Kohl, ehemaliger Bundeskanzler, 1989
Die goldene Mitte 4.1 4.2 4.3 4.4 4.5 4.6
4.1
Wo bitte ist die Mitte? Wozu braucht man Mittelwerte? Das arithmetische Mittel Der häufigste Wert (Modus) Der Zentralwert (Median) Das geometrische Mittel
Wo bitte ist die Mitte?
In einer Veröffentlichung des Dachverbandes der deutschen Krankenversicherer fand sich vor nicht allzu langer Zeit die Meldung, dass das mittlere Einkommen der niedergelassenen Ärzte in der Bundesrepublik Deutschland derzeit bei 125.200 Euro jährlich liegt. Kurze Zeit darauf wurde vom Chefstatistiker des deutschen Ärzteverbandes mitgeteilt, dass dem mitnichten so sei, vielmehr habe die Hälfte der niedergelassenen Ärzte pro Jahr weniger als 69.700 Euro, die andere Hälfte allerdings mehr – die Mitte der Einkommen läge also offensichtlich bei diesem Betrag. „Was ist denn davon zu halten?“, fragte meine Schwiegermutter – die erste von beiden. „Die einen behaupten ein Durchschnittseinkommen, das fast doppelt so groß ist wie der Betrag, der von der anderen Seite angeführt wird. Ich denke Mittelwert ist Mittelwert?“ Es dauerte eine ganze Weile, bis ich ihr dargelegt hatte, dass es unterschiedliche Möglichkeiten gibt, die Mitte eines gegebenen Datenbestandes herauszufinden, und dass es deshalb nicht verwunderlich ist, wenn sich unterschiedliche Ergebnisse zeigen. „Je nach Interessenlage“, sagte ich, „wird man sich für den einen oder für den anderen Mittelwert entscheiden. Natürlich wird dann aber der redliche Statistiker darauf hinweisen, wie sich die Unterschiede zwischen den Ergebnissen, die in der Tat manchmal recht gravierend sind, erklären lassen, so dass der zunächst verdutzte Konsument der Daten weiß, was er mit ihnen anfangen kann.“ „Na, ob das so das Richtige ist“, sagte meine erste Schwiegermutter und zog sich in die Küche zurück.
4.2
Wozu braucht man Mittelwerte?
Mittelwerte werden auch als Durchschnittswerte bezeichnet. Aus der Verwendung des Plurals in diesem Zusammenhang können Sie schon entnehmen, dass es unterschiedliche Möglichkeiten gibt, die Mitte eines gegebenen Datenbestandes zu bemessen. Die Aufgabe dieser statistischen Maßzahlen ist es anzugeben, um welchen speziellen Merkmalswert herum sich die einzelnen Merkmalswerte einer Häufigkeitsverteilung konzentrieren.
76
4.2
Wozu braucht man Mittelwerte?
Was aber ist eigentlich die Mitte? Stellt man sich einen Kreis vor, dann ist ziemlich klar, was mit dem Begriff der Mitte gemeint ist. Es ist der Punkt, von dem alle Punkte auf der Kreislinie gleich weit entfernt sind (siehe Abbildung 4.1).
Abb. 4.1: Die Mitte eines Kreises
Bei einem Dreieck sieht das schon anders aus. Dort könnte man als Mitte den Schnittpunkt der drei Seitenhalbierenden bezeichnen (Geometriker bieten auch andere Lösungen an):
Abb. 4.2: Die Mitte eines Dreiecks
Sicherlich fallen Ihnen auch geometrische Figuren ein, bei denen die Mitte an einem Ort liegt, der seinerseits gar nicht zur Figur selbst gehört. Schauen Sie sich zum Beispiel den folgenden Ring an: Seine Mitte liegt in dem vom Ring umschlossenen leeren Bereich, trifft also auf einen Punkt, der selbst nicht zum Ring gehört (siehe Abbildung 4.3).
+
Abb. 4.3: Die Mitte eines Rings
4
77
Mittelwerte
Insbesondere dann, wenn mehrere Elemente in mehr oder weniger unregelmäßiger Anordnung versammelt sind, ist es manchmal nicht ganz einfach, die Mitte dieser Elemente festzustellen:
? Abb. 4.4: Schwierige Mitte
Oder ist die Mitte einfach dort, wo die meisten Elemente sind? Ist die politische Mitte in Deutschland derzeit wieder bei der CDU, weil diese Partei vielleicht mehr Wählerstimmen auf sich vereinigt als eine der anderen Parteien? Sie sehen, manchmal ist es gar nicht so einfach, darüber zu entscheiden, was mit dem Begriff Mitte gemeint ist. Glücklicherweise sind in der Statistik die Probleme nicht allzu gravierend. Wenn man die Mitte einer Häufigkeitsverteilung sucht, dann interessiert man sich für ihre zentrale Tendenz, wie es die Statistiker gern formulieren. Man geht dabei von der Überlegung aus, dass die Angabe dieser Mitte eine außerordentlich wichtige Detailinformation über den Datenbestand ist. Durch das Aufsuchen der Mitte aller einzelnen Merkmalswerte wird praktisch der gesamte vorliegende Datenbestand zu einer einzigen aussagekräftigen Zahl komprimiert. Die Zielsetzung der Beschreibung der zentralen Tendenz einer Häufigkeitsverteilung durch Komprimierung oder Verdichtung der Einzelinformationen (man spricht in diesem Zusammenhang auch von Datenreduktion) kann man auf mehreren Wegen, also unter Verwendung unterschiedlicher Maße der zentralen Tendenz erreichen. Die wichtigsten dieser Maßzahlen sind das arithmetische Mittel, der häufigste Wert (Modus), der Zentralwert (Median) und das geometrische Mittel.
4.3
Das arithmetische Mittel
Wenn von Durchschnittsberechnungen gesprochen wird, versteht man meist die Verwendung des arithmetischen Mittels. Dieser Mittelwert ist so bekannt und gebräuchlich, dass oft mit dem Wort Durchschnitt genau diese Maßzahl gemeint ist. Das arithmetische Mittel ist ein rechnerischer Mittelwert (wir werden auch andere kennen lernen), weil bei seiner Bestimmung gerechnet werden muss.
4.3.1 Ungewogenes arithmetisches Mittel Sicherlich ist Ihnen bekannt, dass das arithmetische Mittel in der Weise berechnet wird, dass man alle Merkmalswerte zusammenzählt und diese Summe dann durch die Anzahl der Merkmalswerte dividiert. Geht man so vor, spricht man von einem ungewogenen arithmetischen Mittel.
78
4.3
Das arithmetische Mittel
Hat man zum Beispiel die folgenden fünf Körpergrößen in einer kleinen Untersuchung erhoben: 173 cm, 180 cm, 175 cm, 187 cm, 185 cm, so ergibt sich das arithmetische Mittel aus diesen fünf Werten (ihr Durchschnitt) wie folgt: Arithmetisches Mittel
173 180 175 187 185 5
900 5
180 (cm)
Die Durchschnittsgröße der befragten fünf Personen erhält man also, indem man die Ausprägungen der Variablen Körpergröße (die Merkmalswerte) zusammenzählt und diese Summe durch fünf teilt. Die durchschnittliche Körpergröße ergibt sich dabei zu 180 cm. Der Rechenansatz lautet also allgemein: Arithmetisches Mittel
Summe aller Merkmalswerte Anzahl der Werte
Wenn wir dies, wie es in der Statistik leider üblich ist, etwas mathematischer formulieren, sieht das so aus: Die Untersuchungsvariable (Körpergröße) bezeichnen wir mit X, ihre Ausprägungen mit x i (wobei i 1, 2, 3,... ). Die Gesamtzahl der Beobachtungen wird mit n bezeichnet und das arithmetische Mittel mit dem griechischen Buchstaben (gesprochen als mü). Somit ergibt sich: xi
n
Natürlich bietet auch das Programm Excel die Möglichkeit, das arithmetische Mittel auszurechnen. Wenn Sie mit Excel so arbeiten wollen, wie gerade per Hand gerechnet wurde, benutzen Sie die Funktion SUMME, um zunächst die Summe aller Merkmalswerte zu berechnen, die dann durch 5 dividiert werden muss. Sie könnten also folgendermaßen vorgehen: 1. 2. 3.
Geben Sie in die Zellen A1 bis A5 einer neuen Arbeitstabelle die obigen Zahlenwerte ein. Klicken Sie die Zelle A6 an. Rufen Sie mit der Menüposition EINFÜGEN/FUNKTION… den Excel-Funktions-Assistenten auf.
Sie gelangen zu dem Dialogfenster der Abbildung 4.5 auf der nächsten Seite. In diesem Dialogfenster sind die folgenden Arbeitsschritte notwendig: 4. 5. 6.
Wählen Sie aus der Kategorie MATH.&TRIGONOM. die Funktion SUMME. Klicken Sie die Schaltfläche OK an. Geben Sie im zweiten Dialogfenster des Funktions-Assistenten beim Stichwort ZAHL1 den Zellbereich mit Ihren Ausgangsdaten ein, also A1:A5 (siehe Abbildung 4.6 auf der nächsten Seite).
4
79
Mittelwerte
Abb. 4.5: EINFÜGEN/FUNKTION…
Abb. 4.6: Funktions-Assistent, zweites Dialogfenster
7.
Klicken Sie OK an.
In der Zelle A6 Ihrer Tabelle erscheint jetzt der Wert 900. 8.
Klicken Sie A7 an, und geben Sie die folgende Berechnung ein:
=A6/5
80
4.3
Das arithmetische Mittel
Abb. 4.7: Mittelwertberechnung (E04.XLS, CM)
Die oben vorgestellten Schritte lassen sich unter Nutzung der Schaltfläche mit dem Summenzeichen wie folgt verkürzen: 1. 2.
Verwenden Sie die ersten beiden Schritte aus der obigen Ablaufbeschreibung. Klicken Sie das Summenzeichen an.
In der Editierzeile erscheint jetzt: =SUMME(A1:A5) Diese Meldung können Sie direkt verwenden: 3.
Klicken Sie das grüne Häkchen an.
In der Zelle A6 Ihrer Tabelle erscheint jetzt wieder der Wert 900, und Sie können weiter verfahren, wie oben schon beschrieben wurde. Vielleicht geht es noch schneller, wenn Sie nach der Dateneingabe in die Zelle A6 einfach hineinschreiben: =SUMME(A1:A5) Ganz sicher der schnellste Weg ist aber die Nutzung einer anderen Excel-Funktion, nämlich der Funktion MITTELWERT. Statt zuerst eine Summe zu bilden, die dann durch die Anzahl der Merkmalswerte dividiert werden muss, können Sie mit dieser Funktion in einem einzigen Rechenschritt das arithmetische Mittel ausrechnen. Diese Funktion können Sie nach Anklicken der Zelle A6 über EINFÜGEN/FUNKTION… aus der Kategorie STATISTIK auswählen, wobei dann auch im zweiten Dialogfenster des Funktions-Assistenten der Zellbereich mit den Ausgangsdaten angegeben werden muss (A1:A5; Sie können auch nach Führen des Mauszeigers auf die Summenschaltfläche die Funktion MITTELWERT auswählen, wenn Sie dort zuerst das nach unten zeigende kleine Dreieck anklicken), oder Sie schreiben einfach: =MITTELWERT(A1:A5)
4.3.2 Gewogenes arithmetisches Mittel Treten einzelne Merkmalswerte mehrfach auf, so lässt sich die Berechnung des arithmetischen Mittels vereinfachen: Statt alle Merkmalswerte zusammenzuzählen, können zunächst diejenigen, die mehrfach aufgetreten sind, mit der Häufigkeit ihres Auftretens multipliziert werden, bevor zusammengezählt wird. Die Merkmalswerte werden durch diese Multiplikation mit ihren Häufigkeiten gewogen oder, wie man auch sagt, gewichtet. Insbesondere dann, wenn
4
81
Mittelwerte
schon gruppiertes Material vorliegt, also zum Beispiel eine diskrete Häufigkeitsverteilung, bietet sich diese Vorgehensweise an. Betrachten Sie zur Illustration noch einmal die Verteilung der Personenzahlen in befragten Haushalten, die wir in Kapitel 3 vorgestellt haben (siehe Abbildung 4.8). Um aus den Daten der Abbildung 4.8 das arithmetische Mittel auszurechnen, also die durchschnittliche Haushaltsgröße, hat es keinen Sinn, wie im Beispiel zuvor, etwa in der Zelle A10 mit der Funktion SUMME oder direkt mit der Funktion MITTELWERT zu operieren. Es würde dann ja unterstellt, dass die Personenzahlen 1, 2 usw. jeweils nur einmal aufgetreten seien – und genau das ist nicht der Fall. Vielmehr werden wir zunächst in der Spalte C jeden Merkmalswert (Spalte A) mit der Häufigkeit seines Auftretens (Spalte B) multiplizieren und erst dann die Summe dieser Produkte bilden. Diese muss dann durch n 120 dividiert werden.
Abb. 4.8: Diskrete Häufigkeitsverteilung (E04.XLS, Personen1)
Die entsprechende Berechnungsformel lautet also: xi fi n
Unter Benutzung relativer Häufigkeiten könnten wir auch schreiben: x i f i'
100 wenn die
f i' als
Prozentwerte gegeben sind bzw. x i f i'
wenn die f i' als Dezimalzahlen (Bruchteile von 1) gegeben sind. 1. 2. 3. 4. 5.
Schreiben Sie in die Zelle C1 den Begriff Produkte. Rechnen Sie in C2 =A2*B2. Ziehen Sie diese Berechnung nach unten bis zur Zelle C9. Berechnen Sie in C10 die Summe der Produkte durch Anklicken der Summen-Schaltfläche. Errechnen Sie in C11 das arithmetische Mittel durch Eingabe von =C10/B10.
Es ergibt sich als Durchschnitt der Wert 2,975. Die durchschnittliche Personenzahl bei den befragten 120 Haushalten liegt also knapp unter drei Personen.
82
4.3
Das arithmetische Mittel
Abb. 4.9: Diskrete Häufigkeitsverteilung mit Mittelwertberechnung (E04.XLS, Personen2)
Sie erkennen, das arithmetische Mittel kann ein Wert sein, der real gar nicht beobachtet worden ist und manchmal auch nie beobachtet werden könnte – oder haben Sie schon einmal einen Haushalt mit 2,975 Personen gesehen? Auch diese Berechnung lässt sich vereinfachen: Statt die einzelnen Produkte zu berechnen, um diese dann aufzusummieren, können Sie diese benötigte Summe (es hatte sich der Wert 357 ergeben) auch direkt erzeugen, wenn Sie über EINFÜGEN/FUNKTION… aus der Kategorie MATH.&TRIGONOM. die Funktion SUMMENPRODUKT aufrufen (siehe Abbildung 4.10).
Abb. 4.10: Funktion SUMMENPRODUKT, zweites Dialogfenster des Funktions-Assistenten
Hier geben Sie bei MATRIX1 ein: und bei MATRIX2:
A2:A9 B2:B9
Excel berechnet Ihnen dann sofort die Summe der Produkte, die dann durch n 120 noch dividiert werden muss, um das arithmetische Mittel der gegebenen Verteilung zu finden. Bei klassifiziertem Datenmaterial einer stetigen Untersuchungsvariablen ist die Berechnung eines arithmetischen Mittels etwas umständlicher. Betrachten wir noch einmal unser Ausgangsbeispiel zur Verteilung der Einkünfte Erwerbsloser:
4
Mittelwerte
83
Abb. 4.11: Stetige Einkommensverteilung (E04.XLS, Einkommen1)
Hier ist es ja nun leider so, dass wir die Merkmalswerte gar nicht mehr kennen, die wir brauchen, um sie bei der Berechnung des arithmetischen Mittels zusammenzählen zu können – es sei denn, wir würden wieder auf die Urliste zugreifen und so verfahren, wie es oben bei der Mittelung der fünf Körpergrößen vorgeführt wurde. Uns stehen hier nur noch Klassen von Merkmalswerten zur Verfügung, wobei in der Tabelle sogar nur die Klassenendpunkte zu sehen sind (Spalte A). Man geht in einem solchen Fall so vor, dass man die mittleren Werte der einzelnen Merkmalsklassen als stellvertretende Merkmalswerte ansieht und berechnet mit ihrer Hilfe das gewogene arithmetische Mittel. In der obigen Tabelle müssten also in der Spalte C zunächst die Klassenmittelpunkte notiert werden, bevor dann so verfahren werden kann wie im Beispiel zuvor. 1. 2. 3.
Schreiben Sie in Zelle C1 das Wort Klassenmitten Rechnen Sie in C2 =A2-250 Ziehen Sie diese Berechnung bis zur Zelle C8.
Erinnern Sie sich daran, dass wir Klassen der Breite 500 (Euro) gebildet hatten. Die jeweiligen Klassenmittelpunkte erhält man also in der Tat, indem man von den Klassenendpunkten (Spalte A) den Wert 250 abzieht. Hätten Sie andere Klassenbreiten benutzt, müssten Sie entsprechend reagieren. Bei unterschiedlichen Klassenbreiten bleibt Ihnen nichts anderes übrig, als die Klassenmitten einzeln per Hand einzugeben. 4. 5.
Klicken Sie C9 an, und wählen Sie die oben erwähnte Funktion SUMMENPRODUKT, um aus den Werten (C2:C8) und (B2:B8) den Wert 184000 auszurechnen. In C10 können Sie jetzt das arithmetische Mittel der Verteilung ausrechnen lassen, indem Sie eingeben: =C9/B9.
Es ergibt sich als Wert der durchschnittlichen Einkünfte der 120 befragten Personen der Wert 1533,33 Euro. Man sieht bei diesem Beispiel sehr deutlich, dass mit einer einzigen statistischen Zahl, nämlich mit dem arithmetischen Mittel als Durchschnittswert, eine wesentliche Aussage über die zugrunde liegende Häufigkeitsverteilung gemacht werden kann. Die Angabe, dass das Durchschnittseinkommen bei ca. 1530 Euro liegt, ist ein wichtiges Charakteristikum dieser Verteilung.
84
4.4
Der häufigste Wert (Modus)
Abb. 4.12: Stetige Einkommensverteilung und Mittelwertberechnung (E04.XLS, Einkommen2)
An dieser Stelle muss mit Nachdruck darauf hingewiesen werden, dass das arithmetische Mittel nur bei metrischen Daten berechnet werden sollte, weil bei Ordinal- oder bei Nominaldaten eine inhaltliche Interpretation dieser Maßzahl nicht möglich ist. Anders ist es hingegen mit den folgenden beiden Mittelwerten. Eine weitere Anmerkung ist für den Fall notwendig, dass aus klassifiziertem Material – wie eben – ein arithmetisches Mittel berechnet werden soll: Hat man offene Flügelklassen, so ist es nicht möglich, für diese Klassenmittelpunkte anzugeben; dann aber kann das arithmetische Mittel nicht berechnet werden – es sei denn, man schließt die offenen Klassen künstlich.
4.4
Der häufigste Wert (Modus)
Der häufigste Wert ist derjenige Merkmalswert in einem gegebenen Datenbestand, der am häufigsten aufgetreten ist. Auch er ist ein charakterisierender Mittelwert, weil er ohne Zweifel eine Aussage über die Mitte einer vorliegenden Häufigkeitsverteilung macht. Allerdings ist dies kein rechnerischer Mittelwert, sondern er wird als lagetypischer Mittelwert bezeichnet, weil er ausschließlich durch die Lage (die Position) der einzelnen Merkmalswerte bestimmt wird. Offensichtlich ist der Modus viel leichter aufzufinden als ein arithmetisches Mittel. Er kann aber nur bei solchen Häufigkeitsverteilungen bestimmt werden, bei denen die Merkmalswerte mit unterschiedlichen Häufigkeiten aufgetreten sind. Bei dem Beispiel der fünf verschiedenen Körpergrößen, das wir als erstes Beispiel in diesem Kapitel verwendet haben, ist jeder Merkmalswert nur einmal genannt worden; ein häufigster Wert existiert hier gar nicht. Anders hingegen bei der Verteilung der Haushaltsgrößen der Abbildung 4.13. Dieser Verteilung kann direkt entnommen werden, dass der Merkmalswert 3 am häufigsten aufgetreten ist, d. h. in diesem Beispiel ergibt sich: Häufigster Wert
3
4
Mittelwerte
85
Abb. 4.13: Diskrete Häufigkeitsverteilung (E04.XLS, Personen1)
Excel bietet in der Kategorie STATISTIK eine Funktion mit dem Namen MODALWERT an, die aus eingegebenen Ausgangsdaten – sofern diese noch als Urliste vorliegen – den Modus bestimmt. Treten zwei Werte gleich häufig auf, bestimmt die Funktion den ersten der beiden als Modus. Bei gruppiertem oder klassifiziertem Material kann diese Funktion nicht verwendet werden. Sie ist dann aber auch entbehrlich, denn der Modus ist ja in aller Regel direkt ablesbar. Sie erkennen an dem obigen Zahlenbeispiel, dass der Modus nicht mit dem arithmetischen Mittel identisch ist, das ja bei diesen Daten den Wert 2,975 hatte. Es ist sogar durchaus möglich, dass beide Mittelwerte deutlich voneinander abweichen – erinnern Sie sich an das Beispiel mit dem mittleren Einkommen der niedergelassenen Ärzte. Im folgenden überschaubaren Beispiel, wo für elf zufällig ausgewählte Studenten die Anzahl der Fehler notiert wurde, die sie in einer Prüfungsaufgabe gemacht haben, zeigt sich dieser Unterschied sehr deutlich (der Übersichtlichkeit halber haben wir in der folgenden ExcelTabelle die einzelnen Werte ihrer Größe nach sortiert):
Abb. 4.14: Fehlerzahlen (E04.XLS, Fehler)
Die Funktion MODALWERT ergibt als Modus den Wert 2, das arithmetische Mittel ergibt sich hingegen mit der Funktion MITTELWERT zu 5,27. Offenkundig weichen die beiden Mittelwerte umso weiter voneinander ab, je schiefer die gegebene Häufigkeitsverteilung ist. Genau genommen haben wir mit dem Vergleich der beiden Maße der zentralen Tendenz (Modus und arithmetisches Mittel) zugleich ein Maß zur
86
4.4
Der häufigste Wert (Modus)
Charakterisierung der Schiefe einer Verteilung in Händen. Aus dieser Überlegung folgt zugleich, dass bei einer symmetrischen Verteilung Modus und arithmetisches Mittel zusammenfallen müssen. Weiterhin zeigt sich, dass der Statistiker, der den Modus zur Beschreibung der Mitte einer Häufigkeitsverteilung bevorzugt, extreme Merkmalswerte überhaupt nicht berücksichtigt – sie spielen bei der Bestimmung des Modalwertes keine Rolle –, während beim arithmetischen Mittel Extremwerte gleichberechtigt mit allen anderen in die Berechnung des Durchschnitts eingehen. Man muss sich also überlegen, was mit einem Mittelwert zum Ausdruck gebracht werden soll, wenn man zwischen Modus und arithmetischem Mittel entscheiden soll. Der schon erwähnte redliche Statistiker bestimmt im Zweifel beide Maßzahlen. Allerdings ist dies nicht immer möglich: Wir haben ja schon darauf aufmerksam gemacht, dass die Berechnung des arithmetischen Mittels metrische Daten voraussetzt; beim Modus ist dies nicht der Fall. Er kann auch bei Nominaldaten bestimmt werden. Bei Nominal- und Ordinaldaten stellt sich die Frage der Entscheidung zwischen diesen beiden Maßen nicht, weil in diesen Fällen das arithmetische Mittel ausscheidet. Das mögliche Auseinanderfallen von arithmetischem Mittel und Modus verdeutlicht also, dass hier der Statistiker bei der Angabe des Mittelwerts einer Häufigkeitsverteilung eine Manipulationsmöglichkeit in der Hand hat. Je nachdem, für welche Maßzahl er sich entscheidet, bekommt er für den gleichen Zweck, nämlich die zentrale Tendenz einer Verteilung zu charakterisieren, zwei unterschiedliche Zahlenwerte. Am Beispiel der Verteilung der Einkünfte Erwerbsloser zeigt sich dies ebenfalls sehr deutlich: Bei klassifiziertem Material, wie es sich in der Regel bei einer stetigen Untersuchungsvariablen ergibt, kann man zunächst in einer groben Schätzung davon ausgehen, dass der Modus durch den Mittelpunkt derjenigen Klasse gegeben wird, die am stärksten besetzt ist (schauen Sie sich bitte noch einmal Abbildung 4.12 weiter oben an). In diesem Beispiel hatte sich als arithmetisches Mittel der Wert 1533,33 ergeben. Der Modus hingegen ist 1250 Euro, die Mitte der am stärksten besetzten Klasse (es gibt eine so genannte Feinberechnungsformel, auf die wir aber nicht eingehen wollen; sie verschiebt den Modus von der Klassenmitte weg, nach Maßgabe der unterschiedlichen Besetzung der beiden benachbarten Klassen). Wir registrieren also eine Differenz von 283,33 Euro. Je nachdem, welche Interessenlage man vertritt bzw. welchen Mittelwert man für den aussagefähigeren hält, wird man also die Mitte der zu beschreibenden Einkommensverteilung mit zwei unterschiedlichen Zahlenwerten belegen können. Am sinnvollsten wird es im Allgemeinen sein, beide Mittelwerte zusammen anzugeben und auf ihre Aussage jeweils gesondert hinzuweisen.
4
Mittelwerte
4.5
87
Der Zentralwert (Median)
Als dritte Maßzahl betrachten wir den Zentralwert, dem in seiner Eigenschaft als Mittelwert die gleichen Aufgaben zukommen wie den beiden vorher besprochenen Maßzahlen. Auch der Median ist wie der gerade besprochene Modus ein lagetypischer Mittelwert. Er ist definiert als derjenige Merkmalswert, der eine der Größe nach geordnete Reihe von Merkmalswerten halbiert. Betrachten wir noch einmal das Beispiel der Studierenden mit ihren Fehlern in der Prüfungsaufgabe (siehe oben: Abbildung 4.14). Da diese Werte schon der Größe nach sortiert sind, ist das Auffinden des Zentralwertes nicht schwierig. Bei n 11 Merkmalsträgern ist der Zentralwert der Merkmalswert, den der sechste Merkmalsträger aufweist. Fünf Studierende haben weniger Fehler (oder höchstens die gleiche Anzahl) als der sechste, fünf Studierende haben gleich viel oder mehr Fehler. Der Merkmalswert des sechsten Studierenden in der Rangreihe ist der Wert 3. Sie erkennen, dass der Median in diesem Beispiel zwischen dem Modus und dem arithmetischen Mittel liegt. Excel stellt zur Bestimmung des Medians – ausgehend von den Daten einer Urliste – über den Funktions-Assistenten (EINFÜGEN/FUNKTION…) aus der Kategorie STATISTIK die Funktion MEDIAN zur Verfügung. Wenn im Gegensatz zu obigem Beispiel eine geradzahlige Anzahl von Werten vorliegt, dann liegt der Median zwischen zwei Werten der geordneten Reihe. Man nimmt dann üblicherweise den mittleren Wert aus diesen beiden. So verfährt auch die gerade erwähnte Excel-Funktion. Die Beschreibung dieser Maßzahl lässt erkennen, dass sie nur eingesetzt werden kann, wenn mindestens ordinalskalierte Daten vorliegen, denn nur diese können ja in eine Rangordnung gebracht werden, was Voraussetzung für die Bestimmung des Medians ist. Bei klassifiziertem Material ist die Bestimmung des Zentralwerts schwieriger. Als erste Annäherung wählt man den Klassenmittelpunkt derjenigen Klasse, in der – von der niedrigsten Klasse ausgehend – bei der Kumulation der relativen Häufigkeiten 50% aller Beobachtungen überschritten werden. Wir demonstrieren die Vorgehensweise am Beispiel der Verteilung der Einkünfte Erwerbsloser, die wir ja auch in diesem Kapitel verwendet haben.
Abb. 4.15: Stetige Verteilung und Kumulation der relativen Häufigkeiten (E04.XLS, Einkommen3)
Sie erkennen in Spalte D, dass in der zweiten Klasse (1000 bis 1500 Euro; Zeile 4 der Tabelle) der 50%-Wert überschritten wird. Als Median könnten wir deshalb den Wert 1250
88
4.6
Das geometrische Mittel
(Mitte dieser so genannten Einfallsklasse) nutzen. Nun zeigt aber ein Blick auf die Werte der letzten Spalte, dass der 50%-Punkt etwas näher an der oberen Klassengrenze als an der unteren zu finden sein dürfte, denn der Abstand zur Klassenobergrenze beträgt 13,33 Prozentpunkte, der Abstand hingegen von der unteren Klassengrenze 25,83 Prozentpunkte. Sinnvoller wäre es demnach, den Median so in der Einfallsklasse zu positionieren, dass er den Bereich von 1000 bis 1500 im Verhältnis 25,83/13,33 teilt. Eine einfache Dreisatzrechnung führt mithin zu folgendem Wert: Median 1000 500
25,83 25,83 13,33
1329,80
Die gegebene Einkommensverteilung können wir jetzt also mit drei Mittelwerten charakterisieren: Häufigster Wert (Modus) = 1250,00 Zentralwert (Median)
= 1329,80
Arithmetisches Mittel
= 1533,33
Die Unterschiede der Mittelwerte weisen – wie schon erwähnt wurde – auf die Schiefe der Verteilung hin, wobei die Reihenfolge der drei Mittelwerte in diesem Beispiel bedeutet, dass die unteren Klassen der Verteilung stärker besetzt sind als die oberen. Hat man es hingegen mit einer Häufigkeitsverteilung zu tun, bei der die oberen Klassen stärker besetzt sind als die unteren, würde sich als Reihenfolge ergeben: Arithmetisches Mittel, Zentralwert, Häufigster Wert.
4.6
Das geometrische Mittel
Für spezielle Aufgaben wird das geometrische Mittel benötigt. Es ist – wie das arithmetische Mittel – ein rechnerischer Mittelwert, bei dem wieder metrische Daten vorausgesetzt werden müssen. Es ist definiert als die n-te Wurzel aus dem Produkt aller Merkmalswerte. Um es zu berechnen, müssen Sie also alle Merkmalswerte miteinander multiplizieren und aus diesem Gesamtprodukt die n-te Wurzel ziehen – oder, was das Gleiche ist – dieses Produkt mit 1/n potenzieren. g
n
x1 x 2 x 3 ... x n
Diese etwas seltsame Konstruktion ist bei nur zwei Werten leicht überschaubar. Nehmen Sie an, Sie hätten die Körpergrößen von zwei Personen gemessen, 170 und 176 cm. Dann ist das arithmetische Mittel natürlich: 170 176 2
173
Das geometrische Mittel ist in diesem Fall: g
2
170 176
172,97
Es stellt sich die Frage, wozu dieser zusätzliche Mittelwert gut ist. Die Antwort ist einfach: Es gibt Problemstellungen, bei denen das arithmetische Mittel nicht angemessen ist. Dies verdeutlicht das folgende Beispiel:
4
89
Mittelwerte
Stellen Sie sich vor, Sie tragen 5000 Euro zur Sparkasse und erhalten nach zwei Jahren 5500 Euro zurück. Welches ist der jahresdurchschnittliche Geldbetrag? Verbindet man mit dem Wort Durchschnitt sofort den Gedanken an ein arithmetisches Mittel, wird man ohne zu zögern rechnen: Durchschnitt
5000 5500 2
5250
Dieser Wert 5250 ist aber ein sinnloser Wert. Er bedeutet nämlich, dass Sie im ersten Jahr zu Ihren 5000 Euro von der Sparkasse 250 Euro hinzubekommen hätten, was einem Zinssatz von 5% entspricht. Wenn Sie aber 5% Zinsen bekommen, müsste Ihr Kapitel im zweiten Jahr von 5250 Euro um 5% anwachsen. 5% von 5250 Euro sind aber 262,50 Euro, so dass Ihr Schlusskapitalbestand nach zwei Jahren nicht 5500, sondern 5512,50 Euro betragen müsste. Das tut er aber nicht! Offenbar bekommen Sie nicht 5% Zinsen, sondern weniger, und demnach ist 5250 kein sinnvoller Mittelwert. Berechnen wir nun aber das geometrische Mittel mit der Excel-Funktion GEOMITTEL, ergibt sich das, was in Abbildung 4.16 gezeigt ist.
Abb. 4.16: Geometrisches Mittel aus zwei Ausgangswerten (E04.XLS, Geomittel)
Wir erhalten also als mittleren Wert 5244,04 Euro, was einer durchschnittlichen Zinsrate von 4,88% entspricht. Nur die Berechnung des geometrischen Mittels führt also zu einem interpretierbaren Ergebnis. Immer dann, wenn es um die Mittelung von Zuwachsraten geht – das ist in der Wirtschaftsund Sozialstatistik nicht selten –, wird diese Maßzahl benötigt. Denken Sie zum Beispiel an die Aufgabe, aus den Angaben des deutschen Bruttosozialprodukts für die Jahre von 1990 bis 1995 eine jahresdurchschnittliche Wachstumsrate auszurechnen. Der statistische Laie wird so vorgehen, dass er den Zuwachs von Jahr zu Jahr ausrechnet und diese fünf Zuwachsraten dann arithmetisch mittelt. Das Ergebnis sieht gut aus – ist aber falsch, ohne dass man ihm das sofort ansieht (siehe Abbildung 4.17). In Abbildung 4.17 sehen Sie, dass die arithmetische Mittelung der Zuwachsraten zum Wert 2,75% führt. Dieser Wert ist falsch, wie in der letzten Spalte gezeigt wird. Es wird unter Nutzung dieser fehlerhaften jahresdurchschnittlichen Wachstumsrate nicht der Wert 3065 des Jahres 1995 erreicht. Der korrekte Weg wird nach der Präsentation der Abbildung 4.17 beschrieben.
90
4.6
Das geometrische Mittel
Abb. 4.17: Falsche und richtige Berechnung des jahresdurchschnittlichen Wachstums (E04.XLS, BSP)
In Spalte D haben wir unter der Überschrift Index jeweils zwei aufeinander folgende Beträge des Bruttosozialprodukts durcheinander dividiert. Diese Werte wurden dann geometrisch gemittelt, was zum Ergebnis 1,0285 (gerundet) führt. Aus diesem Wert kann die korrekte jahresdurchschnittliche Zuwachsrate zu 2,85% abgelesen werden (dahinter verstecken sich die mathematischen Geheimnisse der Zinseszinsrechnung, mit denen wir Sie nicht belästigen wollen). Verwendet man diesen Wert, um – von 2663 ausgehend – den jährlichen Zuwachs auszurechnen, so gelangt man – wie die vorletzte Spalte zeigt – zum korrekten Wert für 1995.
5
Streuungsmaße
„Obwohl die Statistik die Kinderei der modernen Staatsmänner ist, die glauben, dass die Zahlen die Rechnung seien, so muss man sich doch der Zahlen bedienen, um zu rechnen.“ Honoré de Balzac
Ein bisschen daneben 5.1 5.2 5.3 5.4 5.5
Am Frühstückstisch Spannweite Mittlere lineare Abweichung Standardabweichung Quartile und Semiquartilsabstand
5.1
Am Frühstückstisch
„Weißt du, was ich nicht verstehe?“, fragte mich meine Frau beim Frühstück. Sie fragt mich immer gern etwas, wenn ich gerade die Morgenzeitung lese. „Na?“ „Warum du immer so die Brötchenkrümel über den ganzen Tisch verstreust!“ „Ich streue nicht“, behauptete ich und schob hinter der Zeitung rasch ein paar Krümel so zusammen, dass sie hinter der Kaffeetasse versteckt waren. „Die Krümel fallen halt runter, wenn ich mein Brötchen aufschneide, und sie fallen nicht alle auf einen Punkt, sondern sie streuen – sie, nicht ich!“ „Was soll denn das heißen?“, fragte meine Gattin. „Meine Krümel streuen doch auch nicht – zumindest nicht so wie deine!“ „Es gibt unterschiedliche Streuungen“, sagte ich. „Mit diesem Thema werden sich in knapp einer Stunde die Studenten in meiner Vorlesung befassen.“ „Mit unseren … mit deinen Brötchenkrümeln?“ „Quatsch! Mit dem Phänomen der statistischen Streuung.“ „Toll!“, sagte meine Frau. „Wirst du ihnen auch erklären, warum bei deinem Brötchen im Gegensatz zu meinem ...“ „Trink doch noch ein Schlückchen Kaffee“, antwortete ich und griff nach einer Scheibe Brot. Die krümelt nicht so sehr wie ein knuspriges Brötchen.
5.2
Spannweite
In einem Zeitungsartikel war kürzlich zu lesen, dass das Durchschnittseinkommen der Deutschen ungefähr bei 1600 Euro monatlich liegt. Allerdings kann solch eine durchaus informative Aussage auch irreführend sein. Wenn nämlich zwei Personen jeweils über 1600 Euro verfügen, dann haben sie im Schnitt tatsächlich 1600 Euro pro Kopf. Der gleiche Durchschnitt ergibt sich aber selbstverständlich auch dann, wenn einer der beiden nur 270 Euro hat, der andere aber 2930 Euro monatlich.
92
5.2
Spannweite
Was sagt also ein Durchschnitt überhaupt aus? Offensichtlich ist es zweckmäßig, dieser informativen Maßzahl der zentralen Tendenz noch eine zusätzliche Maßzahl beizufügen, die etwas darüber aussagt, wie weit die einzelnen Einkommensgrößen von dem gemeinsamen Durchschnitt abweichen. Nur auf diese Weise kann man Durchschnittsangaben sachgerecht interpretieren. Zugegeben, bei zwei Personen mag diese zusätzliche Maßzahl entbehrlich sein – man sieht ja sofort, was Sache ist. Aber bei 20 Personen oder bei 20 Millionen Personen? Da sieht die Angelegenheit schon ganz anders aus. Was haben wir beispielsweise von der Feststellung, dass das Durchschnittseinkommen in Deutschland genauso groß ist wie das in Saudi-Arabien, wenn wir keine zusätzlichen Informationen über die Streuungsverhältnisse haben? Gleiche Durchschnitte bedeutet ja offenkundig nicht notwendigerweise, dass die beiden betrachteten Einkommensverteilungen gleich sind – sie können sich in den Streuungen deutlich voneinander unterscheiden. Um solchen Unterschieden auf die Spur zu kommen, verwenden wir Streuungsmaße. Ein Streuungsmaß haben wir schon kennen gelernt, nämlich die Spannweite (siehe Kapitel 3.3.1). Sie ist die Differenz zwischen dem größten und dem kleinsten Merkmalswert in einem gegebenen Datenbestand. Wenn man die Ausgangsdaten der Größe nach sortiert (Excel: Menü DATEN/SORTIEREN…), dann kann man die beiden Extremwerte sofort ablesen und die Spannweite berechnen. Aber auch ohne zu sortieren kann Excel die Spannweite bestimmen, wenn Sie die Funktionen MIN und MAX verwenden. Sie dienen dazu, den kleinsten und den größten Merkmalswert aus den Daten herauszufinden, wie das Beispiel in Abbildung 5.1 verdeutlicht.
Abb. 5.1: Berechnung der Spannweite (E05.XLS, CM)
Aus zwölf unsortierten Angaben zur Körpergröße (siehe Abbildung 5.1) werden der kleinste Wert (162), der größte Wert (192) und die Spannweite berechnet (30). Die Vorgehensweise ist die folgende: 1. 2. 3. 4. 5.
Geben Sie die Ausgangsdaten in die Zellen B1 bis B12 ein. Klicken Sie B13 an, und geben Sie ein =MIN(B1:B12). Klicken Sie B14 an, und geben Sie ein =MAX(B1:B12). Klicken Sie B15 an, und geben Sie ein =B14-B13. Zusätzlich wurden in die Zellen A13, A14 und A15 erläuternde Stichwörter eingegeben.
5
Streuungsmaße
93
Die Spannweite ist als Streuungsmaß nicht allzu beliebt, weil sie zu empfindlich auf Extremwerte reagiert. Stellen Sie sich zum Beispiel elf Personen mit einem Einkommen von jeweils 1600 Euro vor. Zusätzlich ist in Ihrem Datenbestand eine zwölfte Person (ein Zahnarzt vielleicht) mit 5000 Euro pro Monat. Schon haben Sie eine Spannweite von 3400 Euro. Eine solche Angabe zur Streuung der Einkommen sagt nicht allzu viel aus. Sinnvoller sind die beiden folgenden Streuungsmaße, die deshalb auch in der Praxis viel bedeutsamer geworden sind.
5.3
Mittlere lineare Abweichung
Wenn man über das Phänomen der Streuung spricht, dann hat man im Blick, wie weit die einzelnen Merkmalswerte eines Datenbestandes von ihrem eigenen Mittelwert (wobei meist das arithmetische Mittel die entsprechende Bezugsgröße ist) abweichen. Letztlich geht es um die Frage, wie weit die Merkmalswerte der einzelnen Merkmalsträger im Schnitt vom Mittelwert abweichen. Deshalb notiert man alle diese Abweichungen, addiert sie auf und teilt diese Summe durch die Anzahl der Beobachtungen. Diese Vorgehensweise illustriert die Tabelle in Abbildung 5.2, bei der wir auf die oben schon verwendeten zwölf Angaben zur Körpergröße zufällig ausgewählter Erwachsener zurückgreifen.
Abb. 5.2: Berechnung der mittleren linearen Abweichung (E05.XLS, Lineare Abw.1)
In der Tabelle der Abbildung 5.2 haben wir zunächst in der Zelle B15 mit der Excel-Funktion MITTELWERT das arithmetische Mittel ausgerechnet (176,92) und dann in der Spalte C alle Abweichungen. Ihre Summe muss null sein (Excel berechnet hier als Summe den Wert 1,13687E-13, was zu lesen ist als 1,13687 mal 10 hoch minus13 – und dies ist eine extrem kleine Zahl, also praktisch null). Dies liegt nicht an einem fehlerhaften Computer, sondern hängt mit der Genauigkeit der Nachkommastellen des Excel-Programms zusammen. Wenn man nun alle Abweichungen zusammenfasst – etwa in der Weise, dass sie alle aufaddiert werden – dann kommt immer null heraus, ganz egal wie die wirklichen Streuungsverhältnisse sind. Der Grund liegt einfach darin, dass sich positive und negative Abweichungen vom arithmetischen Mittel immer gegenseitig aufheben. Genau genommen ist das arithmetische Mittel so definiert, nämlich dass die Summe aller Abweichungen von ihm null sein muss. Um dieses gegenseitige Aufheben zu verhindern, werden bei der mittleren linearen Abweichung
94
5.3
Mittlere
die Absolutabweichungen verwendet. Diese haben wir in Spalte D unter Nutzung der ExcelFunktion ABS erzeugt. Ihre Summe führt zum Wert 81. Teilt man diese Summe durch die Anzahl der Beobachtungen ( n 12 ), erhält man mit dem Wert 6,75 (cm) die mittlere lineare Abweichung für den gegebenen Datenbestand. In mathematischer Betrachtungsweise haben wir also folgenden Rechenprozess vollzogen: 1 n
xi
(sprich delta) ist das in der Statistik übliche Symbol für diese Streuungsmaßzahl. Diese Berechnung kann bei Nutzung der Excel-Funktion MITTELABW wesentlich vereinfacht werden. Ausgehend vom Datenbestand der Spalte B der obigen Tabelle brauchen Sie in einer freien Zelle Ihrer Arbeitstabelle nur einzugeben: =MITTELABW(B2:B13) um den Wert 6,75 direkt durch Excel ausrechnen zu lassen. Es versteht sich, dass bei einer diskreten Häufigkeitsverteilung (gruppiertes Datenmaterial) die einzelnen absoluten Abweichungen zunächst mit ihren Häufigkeiten zu gewichten (zu multiplizieren) sind, bevor die Summe gebildet wird, die dann durch n dividiert wird. In diesem Fall können Sie also die Funktion MITTELABW nicht einsetzen. Dies zeigt die Tabelle in Abbildung 5.3.
Abb. 5.3: Mittlere lineare Abweichung einer diskreten Verteilung (E05.XLS, Lineare Abw.2)
Hier ergibt sich als mittlere lineare Abweichung der Wert 1,096 (Personen). Entsprechend ist vorzugehen, wenn für eine stetige Variable klassifiziertes Datenmaterial vorliegt. Hier geht man wieder von den jeweiligen Klassenmitten aus, wie Abbildung 5.4 verdeutlicht. In Abbildung 5.4 ergibt sich als mittlere lineare Abweichung der Wert 600,56 (Euro).
5
95
Streuungsmaße
Abb. 5.4: Mittlere lineare Abweichung einer stetigen Verteilung (E05.XLS, Lineare Abw.3)
5.4
Standardabweichung
Noch wichtiger als die mittlere lineare Abweichung als Streuungsmaß ist die Standardabweichung. Sie ist sogar in der praktischen statistischen Arbeit so bedeutsam geworden, dass man meistens diese Maßzahl meint, wenn man nur von Streuung spricht. Auch bei ihr ist der Grundbaustein die einzelne Abweichung des Merkmalswertes vom arithmetischen Mittel. Um auch hier zu verhindern, dass sich positive und negative Abweichungen gegenseitig aufheben, werden nicht – wie bei der gerade besprochenen mittleren linearen Abweichung – die Absolutabweichungen summiert, sondern die quadrierten Abweichungen. Da diese quadrierten Abweichungen alle positiv sind, kann es auch hier nicht passieren, dass sich einzelne Abweichungen nach oben und nach unten wechselseitig aufheben. Zudem hat die entstehende Summe quadrierter Größen einige angenehme Eigenschaften, auf die wir im Rahmen der Wahrscheinlichkeitsstatistik noch zu sprechen kommen. Die Summe der quadrierten Abweichungen wird durch die Zahl der Beobachtungen dividiert, um eine mittlere quadrierte Abweichung zu erhalten, und aus dieser wird zum Schluss die Quadratwurzel gezogen. Die Standardabweichung (sprich sigma) berechnet sich also wie folgt: 1 n
2
xi
Excel stellt uns die Funktion STABWN bereit, wenn die Standardabweichung aus einer gegebenen Urliste ausgerechnet werden soll. Betrachten wir zum Einsatz dieser Funktion noch einmal das Beispiel mit den zwölf Körpergrößen (siehe Abbildung 5.5). In der Tabelle der Abbildung 5.5 haben wir in Zelle B14 durch Eingabe von =STABWN(B1:B12) die Standardabweichung ausrechnen lassen, wobei sich der Wert 8,68 (cm) ergibt. In der Zelle darunter haben wir diesen Wert quadriert. Auch das Quadrat der Standardabweichung ist ein Streuungsmaß, das in der Statistik Varianz genannt wird. Es ergibt sich der Wert
2
75,41 .
96
5.4
Standardabweichung
Sie können die Varianz auch mit Excel direkt ausrechnen lassen, wenn Sie die Funktion VARIANZEN aufrufen.
Abb. 5.5: Standardabweichung bei gegebenen Werten (E05.XLS, Standardabw.1)
Schließlich ist auch der so genannte Variationskoeffizient ein Streuungsmaß. Er kommt zustande, wenn man die Standardabweichung durch den Mittelwert dividiert und diesen Quotienten mit 100 multipliziert. Hier ergibt sich der Wert VK 4,91% . Dieser Variationskoeffizient ist ein dimensionsloses Streuungsmaß. Er bringt in diesem Fall zum Ausdruck, dass die Streuung der Daten, gemessen mit der Standardabweichung, knapp 5% des Mittelwertes ausmacht. Solche dimensionslosen Angaben zur Streuung sind vor allem dann wichtig, wenn verschiedene Verteilungen miteinander verglichen werden sollen. Haben zwei Einkommensverteilungen zum Beispiel unterschiedliche Mittelwerte und zugleich unterschiedliche Streuungen, so ist oft auf den ersten Blick nicht zu erkennen, welche der Verteilungen enger streut. Durch den dimensionslosen Variationskoeffizienten wird dies aber sofort deutlich. Bei einer diskreten Häufigkeitsverteilung (gruppiertes Material) muss wieder gewichtet werden, wie Abbildung 5.6 zeigt.
Abb. 5.6: Standardabweichung einer diskreten Verteilung (E05.XLS, Standardabw.2)
5
Streuungsmaße
97
Als Standardabweichung erhalten wir hier den Wert 1,452 (Personen); die Varianz ist 2,108, der Variationskoeffizient hat den Wert 48,8 (%). Bei einer stetigen Verteilung gehen wir entsprechend vor (siehe Abbildung 5.7).
Abb. 5.7: Standardabweichung einer stetigen Verteilung (E05.XLS, Standardabw.3)
Hier erhalten wir als Standardabweichung den Wert 738,1 (Euro), als Varianz 544722,2 und als Variationskoeffizient 48,1 (%). An dieser Stelle ist eine Anmerkung zur Excel-Funktion STABWN (bzw. zur Funktion VARIANZEN) angebracht. Wenn Sie diese Funktion über EINFÜGEN/FUNKTION… aus der Kategorie STATISTIK auswählen, dann finden Sie im ersten Dialogfenster des Funktions-Assistenten den folgenden Hinweis (es empfiehlt sich ganz generell, auf diese Hinweise von Excel zu achten und bei Bedarf auch zusätzliche erläuternde Informationen über die Schaltfläche mit dem Fragezeichen, die kontextabhängige Hilfstexte bereitstellt, anzufordern): Berechnet die Standardabweichung ausgehend von der Grundgesamtheit Damit ist gemeint, dass die Funktion STABWN (Entsprechendes gilt auch für die Funktion VARIANZEN) für Grundgesamtheitsdaten gedacht ist. Hat man hingegen Daten einer Zufallsstichprobe, aus denen die Standardabweichung berechnet werden soll, sollten Sie die ExcelFunktion STABW (bzw. VARIANZ) verwenden, bei der die folgende Information ausgegeben wird: Schätzt die Standardabweichung ausgehend von einer Stichprobe Was hat es mit diesem Unterschied auf sich? Wenn Sie sich die beiden Funktionen unter mathematischen Gesichtspunkten genauer anschauen, dann werden Sie feststellen, dass die Funktion STABWN die Standardabweichung in der Weise berechnet, dass vor dem Ziehen der Quadratwurzel die Summe der quadrierten Abweichungen zwischen Merkmalswerten und ihrem arithmetischen Mittel durch n, die Anzahl der Beobachtungen, dividiert wird. Das entspricht auch der Rechenvorschrift, die wir in der obigen Formel für angegeben haben. Bei der Funktion STABW, die also für die Standardabweichung für Stichprobendaten vorgesehen ist (diese Standardabweichung wird üblicherweise nicht mit , sondern mit s abgekürzt; weiterhin gilt, dass das arithmetische Mittel einer Zufallsstichprobe nicht mit , sondern mit x bezeichnet wird), wird nicht durch n, sondern durch n – 1 dividiert, also:
98
5.5
s
xi
x
Quartile
2
n 1
Für diese unterschiedliche Vorgehensweise gibt es einen guten Grund, auf den wir in Kapitel 17 unter dem Stichwort Erwartungstreue von Schätzungen wieder zu sprechen kommen. An dieser Stelle mag der folgende Hinweis genügen: Nur wenn man bei der Berechnung von Varianzen aus den Daten von Zufallsstichproben durch (n – 1) dividiert, wird man auf lange Sicht die wahre Varianz der Grundgesamtheit, aus der die Stichproben gezogen werden, treffen. Dividiert man hingegen durch n, wird durch die so berechneten Stichprobenvarianzen die wahre Varianz der Grundgesamtheit tendenziell unterschätzt. Genau das ist der Grund dafür, dass Excel beide Berechnungsmöglichkeiten anbietet.
5.5
Quartile und Semiquartilsabstand
Die bisher vorgestellten Streuungsmaße erfordern metrische Daten. Bei Ordinal- oder bei Nominaldaten können sie nicht sinnvoll eingesetzt werden. Nun können Sie sich aber sicherlich leicht denken, dass bei Nominaldaten eine Streuungsberechnung generell ziemlich sinnlos sein dürfte: Stellen Sie sich vor, Sie befragen zwölf zufällig ausgewählte Erwachsene nach ihrem Familienstand. Wie streuen die Werte ledig, verheiratet etc.? Diese Frage kann nicht adäquat beantwortet werden, es sei denn, Sie benutzen Anteilswerte zur Verdeutlichung von Streuungen: 10% sind ledig, 60% sind verheiratet etc. – solche Angaben können indirekt als Streuungsbeschreibungen aufgefasst werden. Wenn Sie zum Beispiel einen anderen Datenbestand haben, wo 35% ledig und 35% verheiratet sind, wird deutlicher, was hier gemeint ist. Anders ist es bei Ordinaldaten: Vergleichen Sie zum Beispiel die Zensurenverteilung in einer Schulklasse mit der in einer anderen Klasse, so interessieren nicht nur die eventuellen Unterschiede der Mittelwerte (geeignet als Maß der zentralen Tendenz wäre – da Ordinaldaten vorliegen – der Median; siehe Kapitel 4, Abschnitt 4.5), sondern auch die möglicherweise unterschiedlichen Streuungsverhältnisse. Deshalb hat man auch für Ordinaldaten ein Streuungsmaß entwickelt, den so genannten Semiquartilsabstand. Es handelt sich bei diesem Maß – im Gegensatz zur mittleren linearen Abweichung und zur Standardabweichung – um ein lagetypisches Maß, das folgendermaßen zustande kommt: Denken Sie sich eine der Größe nach geordnete Reihe von Merkmalswerten, und erinnern Sie sich an die Bestimmung des Medians als Mittelwert. Diesen Wert findet man, indem man die geordnete Reihe quasi abschreitet, bis man 50% der Werte hinter sich gelassen hat und noch 50% der Werte vor sich hat. Der Merkmalsträger, der sich an dieser zentralen Position befindet, hat als Merkmalswert den Zentralwert (Median). Wenn wir nun bei diesem Abschreiten der geordneten Reihe einen ersten Halt einlegen, sobald wir 25% der Merkmalsträger hinter uns gelassen haben, mithin noch 75% vor uns haben, erhält man einen Merkmalswert, der als erster Quartilswert bezeichnet wird. Marschiert man weiter, über den Median hinaus, der dann als zweiter Quartilswert bezeichnet werden kann, bis man 75% der Merkmalsträger hinter sich und noch 25% vor sich hat, findet man den dritten Quartilswert. Der erste Quartilswert wird mit Q1 , der dritte mit Q 3 bezeichnet.
5
Streuungsmaße
99
Der Abstand zwischen diesen beiden Quartilswerten kann als Streuungsmaß interpretiert werden, weil diese beiden Punkte umso enger beieinander liegen werden, je enger die Merkmalswerte im mittleren (50%-)Bereich streuen. Es hat sich eingebürgert, den halben Abstand zwischen beiden Punkten (deshalb Semi...) als Streuungsmaß zu verwenden: Q
Q3
2
Q1
Bezieht man diesen Semiquartilsabstand auf den Median, erhält man wieder ein dimensionsloses Streuungsmaß (vergleichbar also dem Variationskoeffizienten), das Quartilskoeffizient genannt wird. Ausgehend von den geordneten Daten einer Urliste müssen also die Werte an der Position 0,25 n und an der Position 0,75 n aufgesucht werden. Bei kleinen Werten von n führt diese Positionsbestimmung zu Schwierigkeiten. Betrachten Sie noch einmal das Beispiel mit den n 12 Körpergrößen. Welches ist der Wert der geordneten Reihe, von dem gesagt werden kann, dass 25% der Beobachtungen kleiner oder gleich und 75% der Beobachtungen größer oder gleich sind? Offenbar liegt der erste Quartilspunkt zwischen dem dritten und dem vierten Wert, der dritte hingegen zwischen dem neunten und dem zehnten Wert, wie die Tabelle in Abbildung 5.8 verdeutlicht.
Abb. 5.8: Quartilspunkte bei zwölf Ausgangswerten (E05.XLS, Semiquart.1)
Wir haben in dieser Tabelle die Quartilspunkte mit der Excel-Funktion QUARTILE bestimmt. Dabei ergibt sich also: Q1 172 Q2
176,5 (Median)
Q3
182
Die Funktion QUARTILE benötigt zwei Argumente, wie der Blick auf das zweite Dialogfenster des Funktions-Assistenten zeigt (siehe Abbildung 5.9). Zum einen ist beim Stichwort MATRIX der Zellbereich mit den Ausgangsdaten einzugeben (hier also A1:A12), beim Stichwort QUARTIL die Zahl 1, 2 oder 3, je nachdem, welchen Quartilspunkt Sie berechnet haben möchten (geben Sie zum Beispiel 2 ein, wird der zweite Quartilspunkt bestimmt, der mit dem Median identisch ist).
100
5.5
Quartile und Semiquartilsabstand
Abb. 5.9: Funktion QUARTILE, zweites Fenster des Funktions-Assistenten
Sie erkennen, der erste Quartilspunkt liegt zwischen dem dritten Wert der geordneten Reihe (169) und dem vierten Wert (172), aber nicht in der Mitte zwischen beiden, sondern in Richtung des vierten Wertes verschoben. Genau genommen teilt der erste Quartilspunkt den Abstand zwischen dem dritten und dem vierten Wert im Verhältnis 3:1. Entsprechend teilt der dritte Quartilspunkt den Abstand zwischen 181 und 185 im Verhältnis 1:3. Der Semiquartilsabstand ergibt sich zu: Q
182 172 2
5 (cm)
Der Quartilskoeffizient ist in diesem Beispiel: QK
5 100 176,5
2,83 (%)
Bei einer diskreten Häufigkeitsverteilung müssen wir wieder von den kumulierten relativen Häufigkeiten ausgehen, wie Abbildung 5.10 zeigt.
Abb. 5.10: Semiquartilsabstand bei einer diskreten Häufigkeitsverteilung (E05.XLS, Semiquart.2)
5
101
Streuungsmaße
Wir erkennen mit dem Blick auf Spalte D, wo die relativen Häufigkeiten kumuliert wurden, dass der erste Quartilspunkt bei der Personenzahl Q1 2 liegen muss. In diesem Bereich wird der 25%-Wert bei der Aufwärtskumulation überschritten. Entsprechend ist abzulesen, dass der Haushalt, für den gilt, dass 75% weniger Personen haben (oder gleich viel wie er selbst) und 25% mehr Personen haben (oder gleich viel wie er selbst) zu denjenigen gehört, die vier Personen angegeben haben. Also ist Q3 4 . Der Semiquartilsabstand ergibt sich demnach zu: 4 2 2
Q
1 (Person )
Entsprechend gehen wir bei einer stetigen Variablen vor (siehe Abb. 5.11).
Abb. 5.11: Semiquartilsabstand bei einer stetigen Häufigkeitsverteilung (E05.XLS, Semiquart.3)
Allerdings muss hier wieder ein bisschen interpoliert werden. Wir sehen sofort, dass der erste Quartilspunkt knapp über der ersten Klassengrenze und ziemlich weit entfernt von der zweiten Klassengrenze liegen muss, weil wir bis zur ersten schon 24,17% der Beobachtungen hinter uns gelassen haben, bis zur zweiten aber 63,33%. Der Abstand von der ersten zur zweiten Klassenobergrenze beträgt 500 Euro, die durch den 25%-Punkt im Verhältnis 0,83% zu 63,33 24,17 % geteilt werden müssten. In unserem Beispiel gilt nun die folgende Beziehung: 0,83 a
63,33 24,17 500
39,16 500
oder a
500
0,83 39,16
10,60 (gerundet)
Der 25%-Punkt (erster Quartilspunkt) liegt also um 10,60 Euro über der ersten Klassenobergrenze. Somit gilt: Q1 1010,60 Im Kapitel über grafische Darstellungen werden Sie sehen, dass dieses zunächst etwas mühsam erscheinende Aufsuchen der Quartilspunkte unter Nutzung einer geeigneten Grafik recht einfach vonstatten geht (siehe Kapitel 7).
102
5.5
Quartile und Semiquartilsabstand
Entsprechend gilt für den dritten Quartilspunkt, dass er knapp unter 2000 Euro liegen muss, denn dort wird der 75%-Wert überschritten. Entsprechend wie oben erhalten wir hier: a 11,67
500 76,67 63,33
437,41 (gerundet)
Der dritte Quartilspunkt liegt also bei 1500 437,41 1937, 41 . Mithin ergibt sich als Semiquartilsabstand: Q
1937,41 1010,60 2
463,41
6
Konzentrationsmaße
„Eine Sache, welche vielen gehört, wird schlechter verwaltet, als eine Sache, die einem einzelnen gehört.“ Aristoteles
Arm und Reich 6.1 6.2 6.3 6.4 6.5 6.6
6.1
Isabella Was bedeutet Konzentration? Herfindahl-Index Maß von Lorenz/Münzner Die Lorenzkurve Der Lorenzkoeffizient
Isabella
In einer Automobilzeitschrift las ich kürzlich, dass es Mitte der Fünfzigerjahre in der Bundesrepublik mehr als 25 Automobilfirmen gab. Es fielen mir Namen ein wie Gutbrod und Kleinschnittger (das war der Zweisitzer ohne Rückwärtsgang), Goliath und Lloyd (der Leukoplastbomber), Heinkel Kabine, BMW Isetta und der Messerschmidt Kabinenroller, nicht zu vergessen Zündapp Janus, in dem die Passagiere Rücken an Rücken saßen, oder DKW mit seinen schicken Cabrios – und natürlich Borgward. Wer erinnert sich heute noch an die klassischen Formen des Typs Isabella von Borgward? Am Straßenrand drehte man sich um, wenn dieses wunderschöne Auto vorbeiglitt – dunkelrot oder cremefarben, mit in der Sonne blitzenden Chromteilen und frisch geputzten Weißwandreifen. Heute, so war weiter zu lesen, gebe es nur noch fünf deutsche Automobilwerke, die übrigen seien den wirtschaftlichen Konzentrationsprozessen zum Opfer gefallen. „Was heißt das, Konzentration?“, fragte meine Frau, die sich auch mit Vergnügen die Hochglanzbilder der Oldtimer in dieser Zeitschrift anschaute. „Immer weniger Unternehmen in einer Branche erwirtschaften immer größere Umsatzanteile – so könnte man Konzentration bezeichnen. Es gibt sogar Maßzahlen statistischer Art, um Konzentrationen zu messen.“ „Aha“, antwortete meine Frau und zeigte auf einen Jaguar. „Der könnte mir allerdings auch gefallen – die gibt es doch noch, oder?“ „Die gibt es noch. Allerdings ist das ein britisches Auto – die Rede war vom Verschwinden deutscher Automobilfirmen!“ „Er gefällt mir trotzdem“, beharrte sie in seltsamer Logik. „Es ist ja bald Weihnachten“, erwiderte ich.
6.2
Was bedeutet Konzentration?
Wenn man über den Begriff der Konzentration nachdenkt, dann wird deutlich, dass er etwas mit dem im vorangegangenen Kapitel besprochenen Begriff der Streuung zu tun haben könn-
104
6.3
Herfindahl-Index
te. Je enger die Werte einer gegebenen Häufigkeitsverteilung streuen, desto stärker konzentrieren sie sich auf einen bestimmten Wertebereich oder sogar auf einen einzigen Wert – so könnte man argumentieren. Nun muss aber berücksichtigt werden, dass beim Begriff der Streuung der Bezug auf den Mittelwert einer Verteilung hergestellt wurde, indem – etwa bei der mittleren linearen Abweichung, aber auch bei der wichtigen Standardabweichung – Abweichungen der Merkmalswerte von ihrem Mittelwert Grundbaustein der Streuungsmaße sind. Dies ist jetzt bei den Konzentrationsmaßen anders. Hier wird gefragt, ob es Merkmalswertbereiche gibt, wo sich Beobachtungen ballen (konzentrieren), unabhängig von der Lage oder der Größe des Mittelwertes der gegebenen Verteilung. Untersuchungen zur Konzentration statistischer Daten sind vor allem bei Einkommens- und Vermögensstatistiken interessant, weil es ja eine sozialpolitisch bedeutsame Frage ist, wie stark zum Beispiel die Monatsverdienste abhängig Beschäftigter konzentriert sind oder wie das so genannte Produktivkapital – und damit die Verfügungsgewalt über die Produktionsmittel – konzentriert ist (lange Zeit geisterte zum Beispiel die Behauptung durch die deutsche Presse und auch durch die wissenschaftliche Literatur, dass sich mehr als 70% des deutschen Produktivkapitals in kaum 1,7% aller Hände konzentriere). Darüber hinaus sind derartige Untersuchungen etwa im industriellen Bereich von Interesse, wo es um die Unternehmenskonzentration – etwa gemessen anhand der Umsätze – in einzelnen Branchen geht (Konzentrationsbewegungen in der deutschen Automobilindustrie, im Energiebereich etc.). Ähnlich wie bei den Maßen der zentralen Tendenz und den Streuungsmaßen gibt es auch zur Bemessung der statistischen Konzentration unterschiedliche Maßzahlen, von denen hier der Herfindahl-Index, das Maß von Lorenz/Münzner und der Lorenzkoeffizient betrachtet werden sollen. Die ersten beiden eignen sich in erster Linie für ungruppiertes bzw. nichtklassifiziertes Datenmaterial, der Lorenzkoeffizient für klassifizierte Daten.
6.3
Herfindahl-Index
Dieser Index eignet sich für ungruppiertes bzw. nichtklassifiziertes Datenmaterial, kann also verwendet werden, um die Konzentrationsverhältnisse ausgehend von einer Urliste von Daten zu bemessen. Betrachten Sie dazu das folgende Beispiel von sechs Einkommensangaben, die zur Berechnung dieses Index der Größe nach – absteigend – sortiert wurden (siehe Abbildung 6.1).
Abb. 6.1: Ausgangsdaten für die Konzentrationsmessung (E06.XLS, Herfindahl1)
6
Konzentrationsmaße
105
In der Spalte B (siehe Abbildung 6.2) haben wir nach Aufsummierung aller Ausgangsdaten in der Zelle A10 (Summenschaltfläche; Ergebnis: 20000) die Anteile der einzelnen Angaben am Gesamteinkommen ausgerechnet.
Abb. 6.2: Konzentrationsmessung mit dem Herfindahl-Index (E06.XLS, Herfindahl2)
Die Einkommensanteile haben wir mit pv bezeichnet. Sie ergeben sich wie folgt: 1. Geben Sie in B3 ein =A3/$A$10. 2. Ziehen Sie diese Berechnung nach unten bis zur Zelle B8. Die Summe dieser pv-Werte muss natürlich 1 ergeben. Der Herfindahl-Index ist nun mathematisch folgendermaßen definiert: pvi 2
H
Ausgehend von dieser Formel wurden in Spalte C die pv-Werte quadriert und die Summe gebildet (0,1942). Damit ist der Wert des Herfindahl-Index schon bestimmt (siehe Abbildung 6.2). Sie können rasch überprüfen, wie dieser Index auf sich ändernde Konzentrationsverhältnisse reagiert. Wie würde sich in diesem einfachen Zahlenbeispiel der Fall der maximalen Konzentration darstellen? Offenkundig läge dieser Fall doch dann vor, wenn fünf der sechs Personen kein Einkommen haben ( Einkommen 0 ) und ein Einziger hat alles (20000 Euro). Wenn Sie diese Daten in die Spalte A der obigen Arbeitstabelle eingeben, dann ändert sich der Herfindahl-Index. Sie erhalten: H 1 Daraus können Sie entnehmen, dass im Fall maximaler Konzentration dieser Index den Wert 1 annimmt. Der Fall minimaler Konzentration liegt dann vor, wenn alle sechs Personen das gleiche Einkommen haben, also beispielsweise 3333,33 Euro. Der Herfindahl-Index führt dann zu dem folgenden Wert: H
0,1667
Dies ist nichts anderes als: 1 n
1 6
0,1667
106
6.4
Maß
Der Herfindahl-Index ist also im Wertebereich zwischen 1/n und 1 definiert: 1 n
H 1
Sie erkennen an diesen Bereichsgrenzen, dass H gegen null geht, wenn bei einer Gleichverteilung die Zahl der Beobachtungen (n) gegen unendlich geht.
6.4
Maß von Lorenz/Münzner
Auch dieses Maß kann bei ungruppierten und nichtklassifizierten Daten eingesetzt werden, die zu diesem Zweck zunächst aufsteigend sortiert werden (siehe Abbildung 6.3).
Abb. 6.3: Ausgangsdaten für das Lorenz/Münzner-Maß (E06.XLS, Münzner1)
Die Ausgangswerte müssen für die Berechnung des hier interessierenden Konzentrationsmaßes aufwärts kumuliert werden. Dies ist in Spalte B der folgenden Tabelle (Abbildung 6.4) geschehen, in der auch die Summe der kumulierten Werte berechnet wurde (57200 Euro).
Abb. 6.4: Berechnungen für das Lorenz/Münzner-Maß (E06.XLS, Münzner2)
Die Vorgehensweise ist folgende: 1. 2. 3. 4.
Klicken Sie B3 an, und geben Sie ein =A3. Klicken Sie B4 an, und geben Sie ein =B3+A4. Ziehen Sie diese Berechnung nach unten bis zur Zelle B8. Berechnen Sie in B10 die Summe der kumulierten Werte.
6
107
Konzentrationsmaße
Das Maß von Lorenz/Münzner ist wie folgt definiert: L
n 1 2c n 1
Dabei ist c die Summe der kumulierten Werte dividiert durch die Summe der Einkommensangaben. Hier erhalten wir also: c
57200 20000
2,86
und damit: L
6 1 2 2,86 6 1
0,256
Auch hier wollen wir kontrollieren, was bei maximaler und was bei minimaler Konzentration mit dieser Maßzahl geschieht. Bei maximaler Konzentration (eine Person verfügt über 20000 Euro, die anderen haben nichts) ergibt sich für c der Wert c 1 . (Sie können das leicht erproben, wenn Sie in der obigen Tabelle in der Spalte A für die ersten fünf Personen jeweils den Wert 0, für die sechste Person den Wert 20000 eingeben). Somit wird das Lorenz/ Münzner-Maß zu: L
6 1 2 1 1 6 1
Der Fall der minimalen Konzentration liegt vor, wenn jede der sechs Personen wieder 70000 3333,33 Euro hat. Dann wird c zu 3,5 und das Lorenz/Münzner-Maß nimmt den 20000 folgenden Wert an: L
6 1 2 3,5 6 1
0
Sie erkennen also, dass diese Maßzahl im Wertebereich zwischen 0 und 1 definiert ist. L bedeutet minimale (keine) Konzentration, L 1 bedeutet maximale Konzentration.
6.5
0
Die Lorenzkurve
Um den Lorenzkoeffizienten herleiten zu können, werden wir zunächst – unter Vorgriff auf das Kapitel, das mit der grafischen Darstellung statistischer Daten zu tun hat (siehe Kapitel 7) – über die Lorenzkurve sprechen, ausgehend von einem Beispiel zur Einkommensverteilung. Mit der Lorenzkurve gelingt es, in anschaulicher Weise die Konzentrationsverhältnisse in einer gegebenen Häufigkeitsverteilung grafisch zu präsentieren. Wie sie zustande kommt, demonstrieren wir anhand des folgenden Beispiels, das sich auf Daten aus einer Zufallsstichprobe stützt. Eine Reihe zufällig ausgewählter abhängig Beschäftigter wurde nach ihrem monatlichen Nettoeinkommen befragt. Die Angaben wurden klassifiziert (es handelt sich hier, wie der Blick auf die Tabelle in Abbildung 6.5 zeigt, um ein Beispiel mit unterschiedlichen Klassenbreiten) und die Häufigkeiten, ausgehend von der nicht dargestellten Urliste der Daten, unter Nutzung der Excel-Funktion HÄUFIGKEIT (siehe Kapitel 2, Abschnitt 2.6.3) zugeordnet.
108
6.5
Die Lorenzkurve
Abb. 6.5: Einkommensverteilung (E06.XLS, Lorenz1)
Sie sehen, dass wir im Gegensatz zu bisherigen tabellarischen Darstellungen von Häufigkeitsverteilungen für die Klasseneinteilung zwei Spalten verwendet haben: Spalte A für die Klassenuntergrenze (Klassenanfang), Spalte B für die Klassenobergrenze (Klassenende). Diese Zweiteilung ist mit dem Vorzug verbunden, dass wir in Spalte C die Klassenmitten durch Excel ausrechnen lassen können. Dazu muss nur in C3 eingegeben werden: =(A3+B3)/2 und diese Berechnung wird dann nach unten bis zur Zelle C16 gezogen. In Spalte D finden sich die absoluten Häufigkeiten, wie sie durch die Funktion HÄUFIGKEIT den einzelnen Klassen zugeordnet wurden. Danach haben wir in Spalte E die relativen Häufigkeiten als Dezimalzahlen (diesmal also nicht als Prozentwerte) ausrechnen lassen. Dazu wurde zunächst in Zelle D17 die Summe der absoluten Häufigkeiten n 1335 durch Anklicken der Summenschaltfläche berechnet und dann in Zelle E3 eingegeben: =D3/$D$17 Auch diese Berechnung wurde dann nach unten bis zur Zelle E16 gezogen. Schließlich haben wir noch in Spalte F die relativen Häufigkeiten aufkumuliert. Dazu war wie folgt vorzugehen: 1. Eingabe in Zelle F3: =E3. 2. Eingabe in Zelle F4: =F3+E4. 3. Ziehen dieser Berechnung nach unten bis zur Zelle F16. Die Kumulationen in Spalte F dieser Tabelle sind recht informativ. Sie erkennen hier, dass beispielsweise 38,6% der Befragten unter der Einkommensgrenze von 3000 Euro liegen. Zusätzlich führen wir jetzt die folgende Berechnung durch: In der Spalte G der Tabelle in Abbildung 6.6 haben wir die Klassenmittelpunkte aus Spalte C mit den relativen Häufigkeiten aus Spalte E multipliziert.
6
Konzentrationsmaße
109
Abb. 6.6: Vorbereitungen der Lorenzkurve, erster Schritt (E06.XLS, Lorenz2)
Damit erhalten wir die Einkommen (relativ), die in den einzelnen Einkommensklassen verdient werden – allerdings unter der Voraussetzung, die wir bisher ja immer bei klassifiziertem Datenmaterial mitgeschleppt haben, dass sich die Werte innerhalb einer Klasse durch den Klassenmittelpunkt repräsentieren lassen. Anders formuliert bedeutet diese Voraussetzung, dass sich die Werte innerhalb jeder Klasse gleichmäßig über diese Klasse verteilen. Diese Annahme ist sicherlich nicht in allen Fällen ganz realistisch, aber durch keine andere sinnvoll zu ersetzen, wenn die Daten der Urliste – so wie hier – nicht mehr vorliegen. In der ersten Einkommensklasse rechnen wir also =C3*E3 und erhalten 250 0,019 4,68 (dies entspricht nicht genau dem Produkt der angegebenen Zahlen; bedenken Sie aber, dass Excel in der obigen Tabelle die Werte der Spalte E gerundet ausgegeben hat, so dass bei der genaueren Rechnung, die Excel intern durchführt, das Ergebnis 4,68 tatsächlich korrekt ist). Zieht man diese Berechnung nach unten bis zur Zelle G16 und summiert alle Werte in Zelle G17 auf, ergibt sich der Wert 3890,64. Würde man diesen Wert mit n 1335 , der Gesamtzahl der Beobachtungen, multiplizieren – worauf wir aber verzichtet haben – würde sich der Wert 5194004,40 ergeben. Dies ist die Summe aller Einkünfte, welche die 1335 befragten Personen – ausgehend von den Klassenmittelpunkten – verdient haben (siehe Abbildung 6.6). In Spalte H der Tabelle in Abbildung 6.7 haben wir durch Excel ausrechnen lassen, wie viel die jeweiligen Klasseneinkommen am Gesamteinkommen ausmachen. Dieser Anteil ist wieder als Relativzahl angegeben, so dass die Summe all dieser Anteile den Wert 1 ergibt. In der ersten Klasse berechnen wir also in Zelle H3: =G3/$G$17 und erhalten den Wert 0,001. Dies bedeutet, dass sich 0,1% aller Einkünfte in der ersten Klasse versammeln. Diese Berechnung der Zelle H3 wird ebenfalls nach unten bis zur Zelle H16 gezogen. Zusätzlich haben wir in Spalte I diese Anteile ebenfalls kumuliert, indem wir in Zelle I3 eingegeben haben: =H3
110
6.5
Die Lorenzkurve
und in Zelle I4: =I3+H4 Auch diese Berechnung wurde bis zur Zelle I16 nach unten gezogen (siehe Abbildung 6.7).
Abb. 6.7: Vorbereitungen der Lorenzkurve, zweiter Schritt (E06.XLS, Lorenz3)
Die Gegenüberstellung der Spalten F und I ist nun von besonderem Interesse. Die Daten dieser Spalten können nämlich wie folgt interpretiert werden: Ein Anteil von 0,019 der Befragten bezieht einen Einkommensanteil von 0,001, oder anders formuliert: -
1,9% der ärmsten Einkommensbezieher verfügen über 0,1% des Gesamteinkommens.
-
4,6 % der Einkommensbezieher verfügen über 0,7% des Gesamteinkommens.
-
8,7 % der Einkommensbezieher verfügen über 2% des Gesamteinkommens usw.
Die Werte dieser beiden Spalten lassen sich anschaulich grafisch darstellen. Dazu werden auf der waagerechten Achse eines Achsenkreuzes (X-Achse) die Werte der Spalte F, auf der senkrechten Achse (Y-Achse) die Werte der Spalte I abgetragen. Auf diese Weise erhält man in einem Achsenkreuz, in dem beide Achsen Werte von 0 bis 1 aufnehmen, eine nach unten durchhängende Kurve, die Lorenzkurve genannt wird (siehe Abbildung 6.8). Diese Kurve zeigt anschaulich die Konzentrationsverhältnisse der gegebenen Einkommensverteilung, wie die Beantwortung der folgenden Fragen verdeutlicht: 1.
Wie müsste die Lorenzkurve aussehen, wenn jede der befragten Personen das gleiche Einkommen hätte? 2. Wie müsste die Lorenzkurve aussehen, wenn von den n 1335 Personen 1334 nichts haben und eine einzige Person alles, also das gesamte Einkommen auf sich vereinigt? Im ersten Fall dürfte man sicherlich davon sprechen, dass die Konzentration der Einkommen minimal ist, im zweiten Fall ist die Konzentration offensichtlich maximal.
6
111
Konzentrationsmaße
Lorenzkurve 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
0
0,2
0,4
0,6
0,8
1
Abb. 6.8: Lorenzkurve (E06.XLS, Lorenzkurve)
Zur ersten dieser beiden Fragen: Wenn jede der befragten Personen das gleiche Einkommen hätte, zum Beispiel das mittlere Einkommen (es beträgt übrigens, wie Sie selbst aus den gegebenen Daten berechnen können, 3890,64 Euro (= 5194004,40/1335); das entspricht übrigens dem Wert in Zelle G17. Finden Sie heraus, warum das so sein muss), dann müsste sich bei der Kumulation der Einkommensbezieher und der Einkommensanteile selbstverständlich Folgendes ergeben: -
10% der Einkommensbezieher haben auch 10% des Einkommens.
-
20% der Einkommensbezieher haben auch 20% des Einkommens.
-
30% der Einkommensbezieher haben auch 30% der Einkommens; usw.
Würde man alle diese Punkte zu einer Lorenzkurve zusammenfügen, müsste sich die Diagonale in dem obigen Achsenkreuz der Abbildung 6.8 ergeben. Anders formuliert: Fällt die Lorenzkurve mit der Diagonalen zusammen, ist die Konzentration minimal. Man nennt deshalb auch die Diagonale die Kurve der Gleichverteilung (Gleichverteilung bedeutet, dass jeder Einkommensbezieher das gleiche Einkommen hat). Zur zweiten Frage: Wenn nur ein einziger Einkommensbezieher das Gesamteinkommen auf sich vereinigt, dann müsste selbstverständlich für die kumulierten Bezieher- und Einkommensanteile gelten: -
10% der Einkommensbezieher haben nichts (0% des Einkommens).
-
20% der Einkommensbezieher haben nichts (0% des Einkommens).
-
30% der Einkommensbezieher haben nichts (0% des Einkommens); usw.
-
100% haben das Gesamteinkommen (100%).
112
6.6
Der Lorenzkoeffizient
Dies bedeutet, dass die Lorenzkurve für diesen Fall quasi auf der X-Achse entlangkriecht (also beim Wert Y 0 ), bis sie ganz rechts, kurz vor Erreichen des 100%-Wertes ( X 1 ), plötzlich nach oben springt zum Wert Y 1 . In diesem Fall würde man von maximaler Konzentration sprechen (siehe Abbildung 6.9, wo in 10%-Klassen maximale und minimale Konzentration dargestellt sind).
Abb. 6.9: Maximale und minimale Konzentration (E06.XLS, Lorenz4)
Aus der Abbildung 6.9 können Sie folgenden Zusammenhang entnehmen: Je stärker die Konzentration einer gegebenen Verteilung ist, desto weiter entfernt sich die Lorenzkurve von der Linie der Gleichverteilung, d. h., desto stärker hängt sie nach unten durch. Anders formuliert: Je stärker die Konzentration der Verteilung ist, desto größer ist die Fläche zwischen der Lorenzkurve und der Linie der Gleichverteilung (Diagonale). Deshalb benutzt man diese Fläche, die auch Lorenzfläche genannt wird, zur Herleitung eines Maßes der Konzentration, nämlich des Lorenzkoeffizienten.
6.6
Der Lorenzkoeffizient
Der Lorenzkoeffizient als Maß der Konzentration einer gegebenen Häufigkeitsverteilung wird bestimmt aus dem Verhältnis der Lorenzfläche (LF) zur Gesamtfläche unter der Diagonalen (Dreiecksfläche DF), also unter der Linie der Gleichverteilung (siehe Abbildung 6.10). Diese Gesamtfläche (DF) ergibt sich, wenn beide Achsen von 0 bis 1 skaliert sind, zu: DF 1
1 2
0,5
Die Berechnung der Lorenzfläche (LF) ist ein bisschen schwieriger und soll anhand der Abbildung 6.10 vorbereitet werden.
6
113
Konzentrationsmaße
LF
DF UF
Abb. 6.10: Lorenzfläche und Dreiecksfläche
Sie erkennen, dass sich die Lorenzfläche in der Weise bestimmen lässt, dass wir von der Dreiecksfläche DF die Fläche unter der Lorenzfläche (UF = untere Fläche) subtrahieren. Diese untere Fläche wiederum setzt sich aus Trapezflächen zusammen, wie Abbildung 6.11 verdeutlicht.
TF Abb. 6.11: Trapezfläche
Wie man die Fläche eines einzigen Trapezes (TF) berechnen kann, wissen Sie vielleicht noch aus dem Geometrie-Unterricht: TF
Mittelparallele Grundseite
Bezeichnen wir die Grundseite mit C, die erste Längsseite mit A und die zweite Längsseite mit B, so ergibt sich also eine bestimmte Trapezfläche zu (siehe Abbildung 6.12): TF
C
A B 2
114
6.6
Der Lorenzkoeffizient
B
A C Abb. 6.12: Trapez
Nun ist aber C, die Grundseite des Trapezes Nr. t, nichts anderes – jetzt wieder mit Blick auf unser Ausgangsbeispiel zur Einkommensverteilung – als die relative Häufigkeit der Einkommensbezieher in der Einkommensklasse Nr. t (zu finden in der Tabelle zum Beispiel aus Abbildung 6.7 in der Spalte E). Die Trapez-Längsseite A ist der kumulierte Einkommensanteil, der bis zum Anfang der Klasse Nr. t erreicht wurde, die Trapez-Längsseite B ist entsprechend der kumulierte Einkommensanteil, der bis zum Ende dieser Klasse erreicht wurde. Diese kumulierten Einkommensanteile sind je zwei aufeinander folgende Werte der Spalte I der Tabelle in Abbildung 6.7. Schauen Sie sich beispielsweise in Abbildung 6.13 das dritte Trapez von links an (das erste ist übrigens zum Dreieck degeneriert, weil seine erste Längsseite die Länge 0 aufweist).
0,049 0,020 0,007 0,001 0,019
0,046
0,087
0,153
Abb. 6.13: Die ersten vier Trapeze (nichtmaßstabsgetreue Skizze)
Das dritte Trapez hat die Grundseite C = 0,04 (Zelle E5) der Ausgangstabelle. Seine erste (linke) Längsseite ist A = 0,007 (Zelle I4), seine zweite (rechte) Längsseite ist B = 0,020 (Zelle I5). Seine Fläche ist mithin: TF3
0,04 0,007 0,020 /2 0,00054
6
115
Konzentrationsmaße
Dies entspricht dem (gerundeten) Wert in der Zelle J5 der Tabelle in Abbildung 6.14 (Excel weist wegen genauerer Berechnung den Wert 0,00053 aus). In der Tabelle der Abbildung 6.14 haben wir in der Spalte J nach diesem Muster alle Trapezflächen berechnet und in der Zelle J17 aufsummiert (Summe der Trapezflächen = UF = 0,3531). Damit ergibt sich als Lorenzfläche: LF
0,5 0,3531 0,1469
Somit ist der Lorenzkoeffizient (Lorenzfläche / Dreiecksfläche) für diesen Datenbestand: LK
LF / 0,5
0,1469 / 0,5
0,294 (gerundet)
Abb. 6.14: Trapezflächenberechnungen (E06.XLS, Lorenz5)
Wie reagiert dieses Maß, wenn die Konzentration zu- oder abnimmt? Betrachten wir zunächst den Fall der Gleichverteilung. Jeder Einkommensbezieher hat das gleiche Einkommen, zum Beispiel 3250 Euro. Dies bedeutet, dass – ausgehend von der ursprünglichen Tabelle – alle Werte der Spalte D auf null gesetzt werden, mit Ausnahme der Häufigkeit in der Klasse von 3000 bis unter 3500 Euro. Dort setzen wir alle Einkommensbezieher (n=1335) ein – in der Zelle E9 also (siehe Abbildung 6.15).
Abb. 6.15: Gleichverteilung (E06B.XLS, Lorenz6)
116
6.6
Der Lorenzkoeffizient
Sie erkennen, der Lorenzkoeffizient hat im Falle der Gleichverteilung den Wert LK = 0. Maximale Ungleichheit (maximale Konzentration) liegt vor, wenn 1334 der Befragten kein Einkommen, einer aber alles hat. Um diesen Fall zu simulieren, haben wir einmal unterstellt, dass 1334 der 1335 Befragten kein Einkommen hätten. Zu diesem Zweck haben wir der Einfachheit halber in der Tabelle der Abbildung 6.16 die Klassenmitte der ersten Klasse (Zelle C3) auf 0 gesetzt und mit der Häufigkeit 1334 in Zelle D3 versehen. Alle anderen Häufigkeiten wurden auf null gesetzt, mit Ausnahme der letzten. In Zelle D16 steht die Häufigkeit 1, d.h., es gibt einen Reichen und 1334 völlig Arme.
Abb. 6.16: Maximale Ungleichheit (E06B.XLS, Lorenz7)
Als Lorenzkoeffizient ergibt sich: LK
0,9993 (gerundet)
Sicherlich werden Sie uns glauben, wenn wir behaupten, dass der Maximalwert der Wert LK = 1 ist. Er wird erreicht, wenn der eine Reiche nicht nur 9500 Euro verdient, wie in unserer kleinen Statistik, sondern wenn Sie hier einen beliebig hohen Wert einsetzen. Bei maximaler Konzentration liegt also der Lorenzkoeffizient bei 1, bei gegebener Gleichverteilung ergibt sich der Wert 0.
7
Grafische Darstellungen
„Ein Bild sagt mehr als tausend Worte.“ Verfasser unbekannt
Papier, Stift und Tusche ... 7.1 7.2 7.3 7.4 7.5 7.6 7.7
7.1
Chinesische Tusche Die Vorzüge grafischer Darstellungen Stabdiagramm Histogramm Tortendiagramm Die grafische Darstellung von Zeitreihen Streudiagramm
Chinesische Tusche
In einer statistischen Examensaufgabe, die ich als Student im vierten Semester zu bearbeiten hatte, war unter anderem die Aufgabe gestellt, die Bevölkerungsentwicklung des Deutschen Reiches von 1871 bis 1939 in angemessener Weise grafisch darzustellen. Die Ausgangsdaten waren in Form einer Tabelle vorgegeben. Ich saß eine Weile unentschlossen vor dieser Aufgabe, weil mich das Stichwort von der angemessenen Darstellung etwas verunsicherte. Was war damit wohl gemeint? Nach einigen Minuten beschloss ich, ein Achsenkreuz zu zeichnen, um dann die Jahre auf der waagerechten und die Bevölkerungsdaten auf der senkrechten Achse abzutragen. Leider hatte ich vergessen, zu dieser Prüfung Bleistifte und einen Radierer mitzubringen, so dass ich gezwungen war, meine Grafik mit dem Kugelschreiber anzufertigen. Wenigstens ein Lineal hatte ich dabei, so dass nach einigen Minuten ein recht ordent Diagramm zustande kam – wenn man einmal davon absieht, dass mein altes Holzlineal ein paar Scharten hatte, die zu wellenförmigen Verzierungen der Achsen meines Koordinatensystems und der Verbindungslinien zwischen den einzelnen Zahlenangaben führten. Außerdem hatte die Kugelschreibermine an ein paar wenigen Stellen ein bisschen gekleckst – aber immerhin, ich war ganz zufrieden. Als uns nach einer Woche die korrigierten Arbeiten wieder ausgehändigt wurden, fand ich an meiner Zeichnung eine Randbemerkung des Professors (er schrieb seine Randbemerkungen immer mit einem ganz kurzen, dicken Bleistiftstummel): „Das ist ja wohl keine angemessene Darstellung! Das nächste Mal bitte auf Millimeterpapier und mit chinesischer Tusche!“ Ich bin mir aber auch heute noch nicht ganz sicher, ob er das wirklich so ernst gemeint hat.
7.2
Die Vorzüge grafischer Darstellungen
Wenn man es mit größeren Datenmengen zu tun hat, dann kann es leicht geschehen, dass in der großen Zahl statistischer Angaben die eigentlichen Informationen, für die man sich interessiert, verloren gehen. Genau genommen gehen sie allerdings nicht verloren, sondern sie können nicht oder nur unter großen Schwierigkeiten entdeckt werden. Selbst wenn man die
118
7.2
Die Vorzüge grafischer Darstellungen
Ausgangsdaten durch Gruppierung oder Klassifikation tabellarisch zusammenfasst oder durch die Berechnung geeigneter statistischer Maßzahlen zu charakterisieren versucht – das Problem wird damit nicht immer bewältigt, da Zahlen manchmal nicht allzu aussagekräftig sind. Vor allem der statistische Laie kann mit Zahlen in der Regel nicht besonders viel anfangen. Deshalb bietet es sich an, mit anderen Methoden zu versuchen, den Informationsgehalt von Datenbeständen – quasi auf einen Blick – dem Betrachter und dem Nutzer der Informationen zugänglich zu machen. Dafür eignen sich in hervorragender Weise grafische Darstellungen, also zum Beispiel Diagramme, Landkarten und Bilder. Erfahrungsgemäß sind grafisch aufbereitete Informationen viel leichter eingängig als etwa Zahlentafeln, Häufigkeitsverteilungen oder auch umfangreichere Texte. Vergleichen Sie bitte bei dem folgenden Beispiel, wie ein und dieselbe Information als Text, als Tabelle und als Diagramm dargestellt wird. Sicherlich werden Sie auch der Meinung sein, dass die grafische Präsentation am deutlichsten macht, worum es tatsächlich geht: Textinformation Die wirtschaftliche Entwicklung in den neuen Bundesländern – gemessen mit dem Bruttosozialprodukt pro Kopf der Bevölkerung – ist in der Zeit nach 1990 günstiger verlaufen als in den alten Bundesländern. Die Zuwachsraten der fraglichen statistischen Größe waren in den neuen Bundesländern höher. Gleichwohl besteht in den neuen Bundesländern ein beträchtlicher Nachholbedarf, weil das Ausgangsniveau der betrachteten statistischen Größe, also des Bruttosozialprodukts pro Kopf, dort zu Beginn der Neunzigerjahre wesentlich niedriger war, als das in den alten Bundesländern der Fall war. Tabellarische Information
Abb. 7.1: Bruttosozialprodukt pro Kopf in den alten und in den neuen Bundesländern (E07.XLS, BSP)
Eine geeignete grafische Darstellung dieser Informationen sieht so aus, wie es Abbildung 7.2 auf der folgenden Seite anschaulich zeigt.
7
Grafische Darstellungen
119
Grafische Information
Abb. 7.2: Bruttosozialprodukt pro Kopf in den alten und in den neuen Bundesländern (E07.XLS, BSP)
In diesem Kapitel wird besprochen, welche Möglichkeiten der grafischen Darstellung dem Statistiker geboten werden. Es empfiehlt sich, dabei zwischen univariaten und bivariaten Statistiken zu unterscheiden. Im ersten Fall wird nur eine einzige statistische Untersuchungsvariable betrachtet, wobei dabei wiederum eine Unterteilung nach Skalenqualitäten sinnvoll ist (zu diesem Begriff siehe Kapitel 1, Abschnitt 1.5.3), im zweiten Fall geht es um die gemeinsame Betrachtung von zwei statistischen Untersuchungsvariablen. Zusätzlich werden wir uns auch anschauen, wie man statistische Zeitreihen geschickt präsentiert (Abbildung 7.2 war dafür schon ein Beispiel).
7.3
Stabdiagramm
Wenn man nur eine einzige statistische Untersuchungsvariable betrachtet und sich für die Frage der grafischen Präsentation interessiert, dann geht es immer um das schon gruppierte Material, also um eine gegebene (univariate) Häufigkeitsverteilung. Wir wollen von dem folgenden Beispiel ausgehen: 115 Schüler eines Jahrgangs werden aufgefordert, eine Reihe relativ einfacher Rechenaufgaben zu bearbeiten. Sie haben dafür eine Stunde Zeit. Nach Ablauf dieser Stunde wird ausgezählt, wie viele Aufgaben von den einzelnen Schülern bearbeitet wurden. Dies führt zu einer Urliste von Daten, die 115 Angaben umfasst. Der kleinste Wert sei 5, d.h., die schwächsten Schüler haben fünf Aufgaben bearbeitet; die besten hingegen haben es auf zwölf Aufgaben gebracht. Eine Urliste metrischer Daten, wie sie nun entstanden ist, lässt sich grafisch nicht veranschaulichen. Werden diese Antworten hingegen gruppiert (siehe Kapitel 3, Abschnitt 3.3), entsteht eine univariate Häufigkeitsverteilung – in diesem Fall eine diskrete Verteilung (siehe Abbildung 7.3).
120
7.3
Stabdiagramm
Abb. 7.3: Gelöste Mathematikaufgaben (E07.XLS, Mathe1)
Wir greifen jetzt auf den Excel-Diagramm-Assistenten zurück, denn es soll jetzt Schritt für Schritt besprochen werden, wie diese Daten in eine ansprechende Grafik umgesetzt werden können. Dazu sind, wenn man den Diagramm-Assistenten nutzt, die folgenden Arbeitsschritte erforderlich: 1. 2. 3.
Markieren Sie die darzustellenden Häufigkeiten (Zelle B2 bis B9). Wählen Sie EINFÜGEN/DIAGRAMM… Wählen Sie das Säulendiagramm, das im Register STANDARDTYPEN angeboten wird, und klicken Sie WEITER an. 4. Wählen Sie im zweiten Dialogfenster das Register REIHE. 5. Klicken Sie auf den Schalter rechts neben dem Listenfeld BESCHRIFTUNG DER RUBRIKENACHSE (X): 6. Ziehen Sie bei gedrückter linker Maustaste von A2 bis A9, um die Werte der Spalte A als X-Achsenbeschriftung vorzugeben. 7. Klicken Sie auf den Schalter rechts neben dem Listenfeld des kleinen Dialogfensters, das sich am oberen Bildschirmrand geöffnet hatte. 8. Klicken Sie WEITER an. 9. Wählen Sie im dritten Dialogfenster auf das Register LEGENDE, um diese auszublenden. 10. Klicken Sie auch im dritten Dialogfenster WEITER an. 11. Klicken Sie im vierten Dialogfenster WEITER an (Ihr Diagramm wird in das Tabellenblatt eingefügt). 12. Klicken Sie FERTIG STELLEN an. Es entsteht jetzt das Diagramm der Abbildung 7.4 auf der folgenden Seite, das Sie durch Angabe eines Titels und Achsenbeschriftungen im dritten Dialogfenster noch hätten verschönern können. Das Diagramm der Abbildung 7.4 ist aber noch nicht befriedigend, weil durch die gezeichneten Säulen im Auge des Betrachters der Eindruck entsteht, dass es nicht 5, 6 ... gelöste Aufgaben (mit den als Säulen angegebenen Häufigkeiten) gibt, sondern die 5 steht beispielsweise als Mittelpunkt einer Klasse, die ungefähr von 4,8 bis 5,2 reicht. Entsprechendes gilt auch für die anderen Abszissenpunkte. Somit entsteht – genau genommen – ein nicht ganz zutreffender Eindruck.
7
Grafische Darstellungen
121
Abb. 7.4: Gelöste Mathematikaufgaben, Diagramm (E07.XLS, Mathe1)
Eine korrekte Darstellung erfordert genau genommen Säulen von der Breite 0, wie sie durch ein so genanntes Stabdiagramm geliefert werden. Für diesen speziellen Diagrammtyp macht der Excel-Diagramm-Assistent leider kein Angebot. Wir können aber durch Nutzung eines pfiffigen Umwegs doch ein solches Stabdiagramm erzeugen, wie im nächsten Abschnitt gezeigt wird. Stabdiagramm – einfach gemacht In der Statistik ist es üblich, eine diskrete Häufigkeitsverteilung als Stabdiagramm darzustellen. Dabei wird ein Achsenkreuz verwendet, auf dessen waagerechter Achse (X-Achse) die Ausprägungen der Untersuchungsvariablen abgetragen werden. Da die Variable, um die es hier geht, metrisch ist, können die Abstände der einzelnen Punkte auf der waagrechten Achse genau fixiert werden. Sie sind in diesem einfachen Beispiel jeweils 1 – aber das muss bei metrischen Daten nicht immer so sein. Sicherlich können Sie sich Beispiele für metrische Variablen ausdenken, deren Ausprägungen unterschiedliche Abstände voneinander haben (Beispiel: Hubraum von Motorrädern: 50 ccm, 80 ccm, 125 ccm, 250 ccm usw.). Die zu zeigenden Häufigkeiten werden dann durch die Länge senkrechter Lote (Stäbe), die in den Ausprägungspunkten auf der waagerechten Achse errichtet werden, also parallel zur YAchse verlaufen, dargestellt. Wie gelangt man nun mit Excel zu einem solchen Bild? Wie gelangt man zu einem Stabdiagramm? Schauen Sie sich die Tabelle der Abbildung 7.5 auf der folgenden Seite an. Wir haben hier erneut die Ausgangsdaten notiert, aber zwischen Spalte A mit den Kinderzahlen und den Häufigkeiten, die jetzt in Spalte D stehen, zwei Spalten (B und C) mit Nullen gefüllt. Sie werden gleich sehen, was es damit auf sich hat.
122
7.3
Stabdiagramm
Abb. 7.5: Ausgangsdaten – verändert (E07.XLS, Mathe3)
Von diesen Daten ausgehend lässt sich nun ein Stabdiagramm recht schnell erstellen. 1. 2. 3. 4. 5.
Markieren Sie A1 bis D9. Wählen Sie EINFÜGEN/DIAGRAMM… Wählen Sie den Diagrammtyp KURS im Register STANDARDTYPEN. Geben Sie im entsprechenden Dialogfenster an, dass Sie keine Legende wünschen. Klicken Sie schließlich auf FERTIG STELLEN, um Ihr Diagramm auf dem Tabellenblatt ausgeben zu lassen.
Abb. 7.6: Stabdiagramm (E07.XLS, Mathe3)
Wir haben übrigens bei dieser Grafik der Abbildung 7.6 die Schriftgrößen der Achsenbeschriftungen verkleinert. Sie erreichen dies, indem Sie eine Achse anklicken (sie zeigt dann links und rechts bzw. oben und unten schwarze Markierungsquadrate), dann FORMAT/ MARKIERTE ACHSE… aufrufen. Es öffnet sich daraufhin das Fenster, das in Abbildung 7.7 auf der folgenden Seite dargestellt ist.
7
Grafische Darstellungen
123
Abb. 7.7: FORMAT/MARKIERTE ACHSE…
Sie sehen, dass das Dialogfenster der Abbildung 7.7 mehrere Register aufweist, die Sie sich ruhig einmal anschauen sollten, um zu erkennen, welche vielfältigen Gestaltungsmöglichkeiten Ihnen hier geboten werden. Zur Schriftverkleinerung wählen wir das Register SCHRIFT und gelangen damit in das Dialogfenster der Abbildung 7.8.
Abb. 7.8: FORMAT/MARKIERTE ACHSE..., Register SCHRIFT
124
7.4
Histogramm
In diesem Register klicken wir bei SCHRIFTGRAD: die Zahl 8 an und dann OK. Damit wird die Achsenbeschriftung verkleinert, und so verfahren wir auch bei der anderen Achse. Zusätzlich haben wir noch dafür gesorgt, dass auf der waagerechten Achse keine Teilstriche erscheinen. Zuständig dafür ist (nach Markieren der waagerechten Achse) FORMAT/MARKIERTE ACHSE…, Register MUSTER, Schalter KEINE in den Feldern HAUPTSTRICHE und HILFSSTRICHE.
7.4
Histogramm
Hat man es mit einer stetigen, klassifizierten Variablen zu tun, ist das gerade vorgestellte Stabdiagramm nicht geeignet. Hier benutzt der Statistiker das so genannte Histogramm, in dem die darzustellenden Häufigkeiten durch Rechteckflächen dargestellt werden. Die einzelnen Rechtecke werden über den auf der X-Achse abgetragenen Klassen von Merkmalswerten errichtet. Betrachten wir dazu das folgende Beispiel, das Ihnen schon aus dem Kapitel 3 bekannt sein dürfte. Hier haben wir allerdings Klassenanfangs- und Klassenendpunkte gesondert eingegeben.
Abb. 7.9: Einkommenstabelle (E07.XLS, Einkommen1)
Um ausgehend von diesen Daten ein Histogramm zu erzeugen, gehen Sie wie folgt vor: 1. 2. 3. 4. 5. 6. 7.
Markieren Sie in der Tabelle die Zellen B1 bis C8. Wählen Sie EINFÜGEN/DIAGRAMM… Bestätigen Sie das Angebot des Säulendiagramms durch Anklicken von WEITER. Blenden Sie im nächsten Dialogfenster im Register LEGENDE die Legende aus. Klicken Sie auf WEITER. Klicken Sie im vierten Dialogfenster auf FERTIG STELLEN, um das Diagramm in Ihrem Tabellenblatt einzufügen. Verändern Sie das Diagramm in seiner Größe gemäß Ihren Wünschen durch Ziehen an den so genannten Anfassern (das sind die kleinen schwarzen Markierungsquadrate, die das Diagramm umgeben).
7
Grafische Darstellungen
125
8.
Klicken Sie auf die waagerechte Achse, und verändern Sie die Schriftgröße auf 8 durch Anwahl von FORMAT/MARKIERTE ACHSE…, Register SCHRIFT, Feld SCHRIFTGRAD. 9. Wiederholen Sie diesen letzten Schritt für die senkrechte Achse. Ihr Diagramm sieht jetzt so aus, wie es Abbildung 7.10 zeigt.
Abb. 7.10: Säulendiagramm (E07.XLS, Einkommen1)
Dies ist nun allerdings noch kein Histogramm, denn dazu müssten die einzelnen Säulen nahtlos aneinander stoßen. Dieses Aneinanderstoßen erreichen Sie mit den folgenden Arbeitsschritten: 1. 2.
Klicken Sie eine der Säulen an, womit automatisch alle markiert werden. Wählen Sie FORMAT/MARKIERTE DATENREIHEN… (siehe Abbildung 7.11).
Abb. 7.11: FORMAT/MARKIERTE DATENREIHEN…
126
7.4
Histogramm
Schauen Sie sich auch dieses Dialogfenster an, um zu erkennen, welche vielgestaltigen Möglichkeiten Ihnen hier geboten werden. 3.
Wählen Sie dann das Register OPTIONEN.
Dieses Register OPTIONEN, das Sie jetzt erreichen, ist in Abbildung 7.12 dargestellt.
Abb. 7.12: FORMAT/MARKIERTE DATENREIHEN…, Register OPTIONEN
4. Im Feld mit dem Stichwort ABSTAND: geben Sie den Wert 0 ein und klicken auf OK. Damit haben Sie Ihr Histogramm erzeugt, wie es in Abbildung 7.13 dargestellt ist.
Abb. 7.13: Histogramm (E07.XLS, Einkommen2)
7
Grafische Darstellungen
127
Polygon Zur noch besseren Verdeutlichung einer stetigen Häufigkeitsverteilung, die in Form eines Histogramms dargestellt wird, zeichnet man häufig noch das so genannte Polygon ein. Es kommt in der Weise zustande, dass die oberen Klassenmittelpunkte (als die Halbierungspunkte der oberen Rechteckseiten) mit geraden Linienstücken verbunden werden. Um auch ein Polygon zu zeichnen, ist es erforderlich, eine Tabelle aufzubauen, in der auch die Klassenmittelpunkte angegeben sind (siehe Abbildung 7.14). In Spalte C der Tabelle der Abbildung 7.14 haben wir die Klassenmitten eingegeben, nachdem die Häufigkeiten über BEARBEITEN/AUSSCHNEIDEN und BEARBEITEN/EINFÜGEN in die Spalte D verschoben wurden und nachdem wir die Spalte C über FORMAT/ZELLEN…, Register ZAHLEN als TEXT formatiert haben, bevor die Klassenmitten eingegeben wurden. Zudem haben wir die darzustellenden Häufigkeiten in Spalte E (ebenfalls durch Kopieren) ein zweites Mal eingegeben, und zwar deshalb, weil wir dadurch die Häufigkeiten einmal als Säulen und ein zweites Mal – in der gleichen Grafik – als Reihe darstellen lassen können.
Abb. 7.14: Ausgangstabelle mit Klassenmitten (E07.XLS, Einkommen3)
Zum Zeichnen des Histogramms zusammen mit einem Polygon gehen Sie jetzt wie folgt vor: 1. 2. 3. 4. 5. 6.
Markieren Sie die Zellen C1 bis E8. Wählen Sie EINFÜGEN/DIAGRAMM... Wählen Sie aus dem Register BENUTZERDEFINIERTE TYPEN die Option LINIE-SÄULE. Klicken Sie WEITER an. Klicken Sie im zweiten Dialogfenster erneut WEITER an. Wählen Sie im dritten Dialogfenster das Register LEGENDE, und klicken Sie das Häkchen bei LEGENDE ANZEIGEN weg. 7. Klicken Sie erneut WEITER an. 8. Klicken Sie auf FERTIG STELLEN, um Ihr Diagramm im Tabellenblatt einzubetten. 9. Verändern Sie die Größe des Diagramms, eventuell auch die Größe der Achsenbeschriftung und die Balkenbreite, wie es oben schon beschrieben wurde. Ihr Diagramm sieht jetzt so aus, wie es Abbildung 7.15 auf der folgenden Seite zeigt. Es zeigt das Histogramm zusammen mit dem Polygonzug – und genau das wollten wir ja erreichen.
128
7.4
Histogramm
Abb. 7.15: Histogramm mit Polygon (E07.XLS, Einkommen3)
Kumulation und Ogive Gerade bei stetigen Verteilungen ist es zweckmäßig, auch die kumulierten Häufigkeiten grafisch darzustellen. Dabei geht man sinnvollerweise von den relativen Häufigkeiten (Prozentwerten) aus, während es bei den bisher vorgestellten Diagrammen gleichgültig war, ob Sie von absoluten oder von relativen Häufigkeiten ausgehen. Diese Beliebigkeit gilt im Prinzip jetzt auch noch; Sie werden aber gleich sehen, dass die Verwendung der relativen kumulierten Häufigkeiten einige zusätzliche Auswertungsmöglichkeiten bietet. Betrachten wir noch einmal das Beispiel der Einkommensverteilung, für die wir jetzt auch die relativen und die kumulierten relativen Häufigkeiten berechnet haben (siehe Abbildung 7.16).
Abb. 7.16: Relative und kumulierte relative Häufigkeiten (E07.XLS, Einkommen4)
Um nun die kumulierten Häufigkeiten darzustellen, ist es zweckmäßig, am Beginn der Verteilung noch eine Klasse einzufügen (bis unter 500), die mit 0 besetzt ist. Klicken Sie dazu den Kopf der Zeile 2 an, und wählen Sie EINFÜGEN/ZEILEN. Geben Sie in die neue Zeile 2 (Zelle B2) den Wert 500 und in die Zelle F2 den Wert 0 ein. Danach sind die folgenden Schritte notwendig: 1.
Markieren Sie die Werte der Spalte B (Zelle B2 bis B9) gemeinsam mit denen der Spalte F (F3 bis F9).
7
Grafische Darstellungen
129
Das gemeinsame Markieren nicht zusammenhängender Zellbereiche geht so, dass zunächst der erste Bereich (B2:B9) markiert wird. Dann klicken Sie bei gedrückter Strg-Taste die Zelle F2 an und ziehen die Maus bei gedrückter linker Maustaste bis zur Zelle F9. 2. 3. 4.
Wählen Sie EINFÜGEN/DIAGRAMM… Wählen Sie bei DIAGRAMMTYP: die Option LINIE, und klicken Sie WEITER an. Klicken Sie im zweiten Dialogfenster des Diagramm-Assistenten erneut WEITER an, und nehmen Sie im dritten Dialogfenster die gewünschten Einstellungen vor (zum Beispiel Ausschalten der Legende im Register LEGENDE). 5. Klicken Sie WEITER an, und entscheiden Sie im vierten Dialogfenster, wo Ihr Diagramm erscheinen soll. 6. Klicken Sie FERTIG STELLEN an. 7. Verändern Sie gegebenenfalls die Größe Ihres Diagramms und die Größe der Achsenbeschriftungen, wie es weiter oben schon beschrieben wurde. Ihr Diagramm sieht jetzt so aus, wie es Abbildung 7.17 zeigt.
Abb. 7.17: Ogive (E07.XLS, Einkommen4)
Die in Abbildung 7.17 gezeichnete Kurve wird Ogive oder auch Summenkurve genannt. Sie ist das grafische Abbild der Verteilungsfunktion der gegebenen stetigen Häufigkeitsverteilung. Diese Ogive bietet einige interessante Interpretationsmöglichkeiten. Sie können beispielsweise den Median (Zentralwert) der gegebenen Verteilung ohne weitere Berechnungen mit für die Praxis hinreichendem Genauigkeitsgrad ablesen, wenn Sie vom 50%-Wert auf der senkrechten Achse nach rechts bis zum Schnitt mit der Ogive und von dort nach unten bis zur X-Achse gehen (zum Median siehe Kapitel 4, Abschnitt 4.5). Nach dem gleichen Muster können Sie den 25%- und den 75%-Wert bestimmen, also den ersten und den dritten Quartilspunkt, um daraus den Semiquartilsabstand zu bestimmen (siehe Kapitel 5, Abschnitt 5.5).
130
7.4
Histogramm
Aus der Abbildung 7.17 lassen sich ungefähr (unter Nutzung eines Ausdrucks der Grafik auf Papier und eines Geodreiecks geht das ein bisschen genauer) die folgenden Werte ablesen (siehe Abbildung 7.18). Median
= 1350
Erster Quartilspunkt
= 1000
Zweiter Quartilspunkt
= 2000
Die Striche und Pfeile in der Abbildung 7.18 haben wir mit Hilfe der Symbolleiste ZEICHNEN erzeugt, die Sie über ANSICHT/SYMBOLLEISTEN, Option ZEICHNEN einblenden können. Klicken Sie in dieser neuen Symbolleiste zum Beispiel die Schaltfläche mit dem Pfeil an, und führen Sie dann den Mauszeiger in Ihr Diagramm, so können Sie bei gedrückter linker Maustaste einen Pfeil zeichnen. Er beginnt dort, wo Sie mit der Maus ansetzen, und endet an der Stelle, an der Sie die Maus hingezogen und die linke Maustaste wieder gelöst haben.
Abb. 7.18: Ogive mit Quartilspunkten (E07.XLS, Einkommen5)
Im Prinzip können Sie nach dem gleichen Muster wie oben die Ogive auch für eine diskrete Häufigkeitsverteilung zeichnen, die dann die entsprechenden Interpretationsmöglichkeiten bietet. Allerdings ist dies etwas weniger üblich, denn genau genommen hat im diskreten Fall die Verteilungsfunktion eine treppenförmige Gestalt und nicht die, die sich gemäß der oben vorgestellten Folge von Arbeitsschritten ergibt. Das Problem der Flächentreue Bei der Darstellung einer stetigen Häufigkeitsverteilung in Form eines Histogramms und damit auch beim Zeichnen einer Ogive gibt es ein spezielles Problem, wenn die Merkmalswertklassen – abweichend vom bisher verwendeten Beispiel – unterschiedlich groß sind. Dieses Problem hat damit zu tun, dass beim Histogramm die Rechteckflächen und nicht etwa die Rechteckhöhen den darzustellenden Häufigkeiten entsprechen sollen. Wenn also beispielsweise eine bestimmte Einkommensklasse doppelt so groß ist wie die übrigen (vor allem am
7
131
Grafische Darstellungen
Ende stetiger Verteilungen wählt man nicht selten größere Klassenbreiten, weil hier die Besetzungszahlen manchmal so gering werden, dass es nicht zweckmäßig ist, die ursprüngliche Klassenbreite beizubehalten), dann muss die Höhe des entsprechenden Rechtecks – wenn seine Fläche der darzustellenden Häufigkeit proportional sein soll – halbiert werden. Man kann das an folgendem Beispiel nachvollziehen: Stellen Sie sich vor, Sie haben in einer stetigen Verteilung (es möge sich wieder um eine Einkommensverteilung handeln) ausschließlich 500-Euro-Klassen. Die letzten drei mit ihren Häufigkeiten seien die folgenden: über 2500 bis 3000
13
über 3000 bis 3500
3
über 3500 bis 4000
2
Es sind hier also drei Rechtecke zu zeichnen. Da alle Klassenbreiten 500 betragen, sind die Rechteckflächen zu den Rechteckhöhen proportional (siehe Abbildung 7.19).
Abb. 7.19: Einkommensverteilung, obere Klassen (E07.XLS, Einkommen6)
Werden nun die letzten beiden Klassen zu einer einzigen zusammengelegt, so ist diese mit einer Breite von 1000 Euro doppelt so breit wie alle anderen, und sie ist mit der Häufigkeit 5 besetzt: über 2500 bis 3000
13
über 3000 bis 4000
5
Würde man jetzt zwei Rechtecke zeichnen, von denen das zweite doppelt so breit ist und die Höhe 5 hat, würde ein ganz anderes Bild entstehen, als es durch Abbildung 7.19 gegeben ist (siehe Abbildung 7.20).
132
7.4
Histogramm
Abb. 7.20 : Nach der Zusammenlegung der beiden letzten Klassen (E07.XLS, Einkommen6)
Dieses Diagramm der Abbildung 7.20 ist eine verfälschende Darstellung. Man muss sich jetzt vorstellen, dass fünf befragte Personen auf ein doppelt so großes Intervall der Länge 1000 verteilt werden. Pro 500, so könnte man sagen, sind dies also 2,5 Befragte. Dies bedeutet, dass über der Klasse 3000 bis unter 4000 ein Rechteck der Höhe 2,5 (=5/2) gezeichnet werden muss, wenn man dem Prinzip der Flächentreue genügen will. Übrigens, auch die Rechteckbreiten sind in dieser Abbildung natürlich nicht mehr korrekt wiedergegeben. Umgekehrt müsste dann, wenn Klassenbreiten halbiert werden (vor allem bei stark besetzten mittleren Klassen könnte sich dies anbieten, um detailliertere Informationen zu erhalten), die Rechteckhöhe verdoppelt werden. Dieses so genannte Prinzip der Flächentreue ist deshalb so wichtig, weil man im Auge des Betrachters des Diagramms unzutreffende Verteilungsverhältnisse suggerieren würde, wenn man die Rechteckflächen nicht gemäß diesen Überlegungen anpasst. Im Auge des Betrachters wirken nämlich die Flächen als Verdeutlichung der darzustellenden Häufigkeiten, nicht die Höhe der Rechtecke. Leider bietet Excel keine Möglichkeit, diesen Überlegungen Rechnung zu tragen. Anders formuliert: Wenn Ihnen eine stetige Häufigkeitsverteilung mit ungleichen Klassenbreiten vorliegt, sollten Sie auf die oben beschriebenen Möglichkeiten der grafischen Präsentation verzichten. Es bleibt Ihnen in einem solchen Fall nichts anderes übrig, als – wie in den Zeiten vor dem PC-Einsatz –, per Hand zu zeichnen, wenn es denn unbedingt ein Diagramm sein soll. Oder Sie bringen die Klassen auf gleiche Distanzen und verändern damit die Häufigkeiten. Ganz problematisch wird diese Geschichte, wenn zum Beispiel eine offene Flügelklasse vorliegt (zum Beispiel 4000 und mehr). Da eine solche Klasse mathematisch gesehen unendlich breit ist, müsste die Höhe des entsprechenden Rechtecks unendlich klein werden, also den Wert 0 aufweisen. Ein solches Rechteck ist offensichtlich grafisch nicht mehr darstellbar. Es bleibt als Ausweg nur, die offene Klasse künstlich zu schließen – oder auch in einem solchen Fall auf die grafische Präsentation zu verzichten.
7
Grafische Darstellungen
133
Für fortgeschrittenere Excel-Benutzer wollen wir aber darauf hinweisen, dass es fast nichts gibt, was Excel nicht kann. Auch das Prinzip der Flächentreue kann mit Excel verwirklicht werden. Dazu ist es aber erforderlich, in die Excel-Programmiersprache einzusteigen, um ein Programm zu schreiben, das Excel dazu veranlasst, bei unterschiedlichen Klassenbreiten in der erforderlichen Weise durch Änderung der Rechteckbreite und vor allem durch Umrechnung der Rechteckhöhe zu reagieren, bevor das Histogramm gezeichnet wird. Die Nutzung der Programmiersprache erfordert aber fundierte Kenntnisse ihrer Syntax, die wir in diesem Buch nicht vermitteln wollen.
7.5
Tortendiagramm
Bisher haben wir Beispiele betrachtet, bei denen es um metrische Untersuchungsvariablen (diskret oder stetig) ging. Hat man schwächere Skalenqualitäten vorliegen, also nominal- oder ordinalskalierte Daten, dann sind die Abstände zwischen den einzelnen Merkmalswerten nicht definiert. Dies bedeutet, dass eine Anordnung dieser Werte auf der X-Achse eines Achsenkreuzes, so dass man dann Häufigkeiten in Form von Stäben (diskreter Fall) oder Rechteckflächen (stetiger Fall) zuordnen könnte, nicht mehr sinnvoll möglich ist. In einem solchen Fall wählt man beispielsweise das oft auftauchende Tortendiagramm, wie das folgende Beispiel verdeutlicht (siehe Abbildung 7.21).
Abb. 7.21: Tortendiagramm mit Ausgangsdaten (E07B.XLS, Partei2)
Dieses Diagramm ist auf folgende Weise zustande gekommen: 1. 2. 3. 4. 5. 6.
Geben Sie die Ausgangsdaten ein, und markieren Sie von A1 bis B6. Wählen Sie die Menüposition EINFÜGEN/DIAGRAMM… Wählen Sie die Variante KREIS, und klicken Sie WEITER an. Klicken Sie im zweiten Fenster des Diagramm-Assistenten erneut WEITER an. Wählen Sie im dritten Fenster des Diagramm-Assistenten das Register DATENBESCHRIFTUNGEN. Klicken Sie im Feld DATENBESCHRIFTUNGEN die Option PROZENT ANZEIGEN an.
134
7.6
Die grafische Darstellung von Zeitreihen
7. Klicken Sie WEITER an. 8. Entscheiden Sie, wo Ihr Diagramm erscheinen soll, und klicken Sie FERTIG STELLEN an. Wenn Sie nun beispielsweise die Farbe eines der Kreissegmente ändern wollen, müssen Sie das Segment doppelt anklicken, so dass es markiert ist (mit Markierungspunkten umgeben). Dann können Sie über FORMAT/MARKIERTER DATENPUNKT…, Register MUSTER eine neue Farbe auswählen (Feld AUSFÜLLEN) und durch Anklicken von OK die neue Farbe zuweisen. Schauen Sie sich auch die anderen Register der Abbildung 7.22 an, um zu erkennen, was hier alles möglich ist. Auch hier gibt es vielfältige weitere Gestaltungsmöglichkeiten, die wir aber im Einzelnen nicht besprechen müssen. Probieren Sie ein bisschen mit den verschiedenen Formatierungsmöglichkeiten und den im Diagramm-Assistenten angebotenen Varianten für Kreisdiagramme (erstes Dialogfenster), um zu sehen, wie Sie Ihr Kreisdiagramm bei Bedarf verändern können.
Abb. 7.22: FORMAT/MARKIERTER DATENPUNKT…, Register MUSTER
7.6
Die grafische Darstellung von Zeitreihen
Zeitreihen, über deren tabellarische Darstellung in Kapitel 3, Abschnitt 3.4, gesprochen wurde, lassen sich ebenfalls in überschaubarer Form grafisch präsentieren und sind dann häufig informativer als in der tabellarischen Form. Für die grafische Darstellung von Zeitreihen nutzt man üblicherweise die so genannten Liniendiagramme. Auch bei Liniendiagrammen nutzt man ein Achsenkreuz: Auf der waagerechten Achse werden die Zeiteinheiten, auf der senkrechten Achse die jeweils dazugehörenden Merkmalswerte abgetragen. Dazu das folgende Beispiel der Abbildung 7.23.
7
Grafische Darstellungen
135
Abb. 7.23: Zeitreihe – tägliche Gewichtsangaben (E07B.XLS, Gewicht1)
Dieses Diagramm kam auf folgende Weise zustande: 1. Nach Eingabe der Daten werden diese einschließlich der ersten Zeile markiert. 2. Wählen Sie EINFÜGEN/DIAGRAMM… 3. Wählen Sie die Variante LINIE. 4. Akzeptieren Sie den Linientyp-Vorschlag von Excel, und klicken Sie WEITER an. 5. Fahren Sie fort wie bei den bisher erstellten Diagrammen. Abbildung 7.23 erlaubt, auf einige Besonderheiten grafischer Darstellungen aufmerksam zu machen, die vor allem bei Zeitreihen eine Rolle spielen: Häufig ist es sinnvoll, die senkrechte Achse (Y-Achse) anders zu skalieren. Die von Excel vorgegebene Skalierung ist nicht immer die geschickteste. Beachten Sie aber: Wenn Sie die senkrechte Achse eines Zeitreihendiagramms so skalieren, dass sie nicht im Nullpunkt des Achsenkreuzes ansetzt, kann im Auge des Betrachters leicht ein verfälschender Eindruck von der Entwicklung der Zeitreihe entstehen, weil nicht immer deutlich genug hervorgehoben wird (Excel tut das auch nicht), dass die senkrechte Achse gewissermaßen gestaucht wurde. Um eine andere Skalierung zu erreichen, markieren Sie die Y-Achse (Mauszeiger mit der Spitze genau auf die Achse führen und kurz die linke Maustaste drücken). Am Anfang und am Ende der Y-Achse erscheint jetzt je einer der Markierungspunkte. Wählen Sie dann FORMAT/MARKIERTE ACHSE.., gelangen Sie zu dem folgenden Dialogfenster (siehe Abbildung 7.24 auf der folgenden Seite).
136
7.6
Die grafische Darstellung von Zeitreihen
Abb. 7.24: FORMAT/MARKIERTE ACHSE…
Wenn Sie hier das Register SKALIERUNG öffnen, kommen Sie zu dem folgenden Bild (siehe Abbildung 7.25).
Abb. 7.25: FORMAT/MARKIERTE ACHSE…, Register SKALIERUNG
Hier sehen Sie, was im Einzelnen getan werden muss, um zu einer anderen Skalierung zu gelangen. Betrachten Sie etwa das folgende Beispiel, bei dem eine Zeitreihe zweimal dargestellt ist, aber mit unterschiedlichen Skalierungen der Y-Achse (siehe Abbildung 7.26).
7
Grafische Darstellungen
137
Abb. 7.26: Unterschiedliche Skalierung der Y-Achse (E07B.XLS, Gewicht2)
Sicherlich braucht nicht im Detail beschrieben zu werden, wie unter Nutzung der Dialogfenster der Abbildungen 7.24 und 7.25 die zweite aus der ersten Grafik entstand. Manchmal wird bei der Zeitreihendarstellung auch ein logarithmischer Achsenmaßstab eingesetzt. Dieser wird Ihnen im Register SKALIERUNG (siehe Abbildung 7.25) auch angeboten. Ein solcher logarithmischer Maßstab ist dann besonders angebracht, wenn Wachstumsvorgänge dargestellt werden sollen. Betrachten Sie dazu das folgende Beispiel (Abbildung 7.27 auf der folgenden Seite), bei dem wöchentlich erfasst wurde, wie viele Krokusse auf der Wiese vor meinem Haus aufgeblüht sind. Sie erkennen im ersten Diagramm an der tendenziellen Aufwärtskrümmung der gegebenen Zeitreihe, dass hier ein Wachstumsprozess vorliegt. Sollte dieser mit einer ungefähr konstanten Wachstumsrate verlaufen, dann wird die entsprechende Zeitreihe in einem Achsenkreuz mit logarithmierter Y-Achse sich ungefähr als Gerade darstellen. Dies ist tatsächlich der Fall, wie das zweite Diagramm verdeutlicht. Vor allem dann, wenn zwei Zeitreihen miteinander verglichen werden sollen, um festzustellen, in welcher ein stärkeres Wachstum vorhanden ist, gelingt dies leichter in der logarithmischen Darstellung. Eine Zeitreihe mit stärkerem Wachstum stellen sich dort als steilere Gerade (tendenziell) dar. Und dies ist leichter zu erkennen, als wenn man zwei aufwärts gekrümmte Kurven – insbesondere dann, wenn sie von einer unterschiedlichen Ausgangsbasis ausgehen – miteinander vergleichen wollte. Manchmal also ist es sinnvoll, durch geeignete Skalierungen dem Betrachter von Diagrammen bei ihrer Interpretation behilflich zu sein.
138
7.7
Streudiagramm
Abb. 7.27: Arithmetischer und logarithmischer Maßstab (E07B, Krokusse)
7.7
Streudiagramm
Besonders interessant ist die grafische Darstellung von zwei statistischen Untersuchungsvariablen gleichzeitig, weil auf diese Weise erste Informationen über die Art und die Stärke des eventuellen statistischen Zusammenhangs zwischen den beiden Untersuchungsvariablen gewonnen werden können. Es ist dabei besonders empfehlenswert, von der Urliste auszugehen. Zur Veranschaulichung greifen wir auf das folgende Beispiel zurück, wo zwölf zufällig ausgewählte Personen nach Körpergröße und Körpergewicht befragt wurden – ausgehend von der Überlegung, dass zwischen diesen beiden Untersuchungsvariablen ein interessierender statistischer Zusammenhang bestehen könnte. Will man solche Daten grafisch darstellen, trägt man die Werte der einen Variablen auf der XAchse, die der anderen auf der Y-Achse eines Achsenkreuzes ab. Jeder Merkmalsträger (hier also jede befragte Person) lässt sich dann als Punkt in diesem Achsenkreuz darstellen. Üblicherweise wird diejenige Variable auf der X-Achse positioniert, von der man annimmt, dass sie die andere beeinflusst. Hingegen steht diejenige auf der Y-Achse, von der man annimmt, dass sie von der anderen beeinflusst wird. Sie werden sich vorstellen können, dass es Variablen gibt, bei denen diese Unterscheidung vielleicht nicht ganz einfach ist (Beispiel Inflationsrate und Arbeitslosenquote in untersuchten Ländern: Beeinflusst die Inflationsrate die Arbeitslosenquote, oder ist es eher umgekehrt?). Letztlich hängt diese Entscheidung davon ab, welches Ihre Untersuchungshypothese ist. Wenn Sie von der Vermutung ausgehen, dass
7
Grafische Darstellungen
139
mit steigender Inflationsrate sich tendenziell die Arbeitslosenquote ändert, dann werden Sie die Inflationsrate auf die X-Achse setzen, andernfalls nicht.
Abb. 7.28: Größe und Gewicht (E07B.XLS, CMKG1)
In vielen anderen Fällen ist die Entscheidung leichter. Untersuchen Sie, wie bei unserem Beispiel, den statistischen Zusammenhang zwischen der Körpergröße zufällig ausgewählter Personen und ihrem Körpergewicht, so werden die Größenangaben sinnvollerweise auf der XAchse stehen, die Gewichtsangaben auf der Y-Achse, weil Sie vermuten dürfen, dass mit zunehmender Größe tendenziell das Gewicht zunimmt, und weniger, dass mit zunehmendem Gewicht die Menschen tendenziell größer werden. Damit gelangen Sie zu dem folgenden Bild, das man als Abbild einer bivariaten Häufigkeitsverteilung auch Streudiagramm nennt (siehe Abbildung 7.29).
Abb. 7.29: Größe und Gewicht – Streudiagramm (E07B.XLS, CMKG2)
Ein solches Streudiagramm kommt nach Eingabe der Ausgangsdaten folgendermaßen zustande:
140
7.7
Streudiagramm
1. 2. 3. 4. 5. 6.
Markieren Sie die Daten (A1 bis B13). Wählen Sie EINFÜGEN/DIAGRAMM… Wählen Sie den Diagrammtyp PUNKT (XY). Akzeptieren Sie den Untertyp, den Excel vorschlägt, und klicken Sie auf WEITER. Klicken Sie im zweiten Dialogfenster des Diagramm-Assistenten auf WEITER. Blenden Sie im dritten Dialogfenster des Diagramm-Assistenten die Legende aus (Register LEGENDE), und geben Sie einen Titel und Achsenbeschriftungen ein (siehe Abbildung 7.30). 7. Klicken Sie auf WEITER. 8. Entscheiden Sie, wo Ihr Diagramm erscheinen soll, und klicken Sie auf FERTIG STELLEN. 9. Verändern Sie, wenn Sie das wollen, die Größe Ihres Diagramms, seine Position und eventuell die Größe der Achsenbeschriftung, wie es an anderer Stelle schon beschrieben wurde. Auch hier gibt es wieder vielfältige Gestaltungsmöglichkeiten (zum Beispiel andere Skalierungen der Achsen – die Y-Achse haben wir in der Tat in der obigen Abbildung auch passender skaliert). Bei DIAGRAMMTITEL: haben wir Streudiagramm eingegeben, bei RUBRIKENACHSE (X): das Kürzel cm und bei GRÖßENACHSE (Y): das Kürzel kg. Zudem haben wir das Kürzel kg, das vertikal ausgegeben wird, um 90 Grad gedreht, so dass es horizontal gelesen werden kann. Dies erreichen Sie, wenn Sie nach Anklicken des Kürzels kg im fertigen Diagramm das Menü FORMAT/MARKIERTE ACHSENBESCHRIFTUNG.., Register AUSRICHTUNG aufrufen (siehe Abbildung 7.31).
Abb. 7.30: Drittes Dialogfenster des Diagramm-Assistenten, Register TITEL
7
Grafische Darstellungen
141
Abb. 7.31: FORMAT/MARKIERTE ACHSENBESCHRIFTUNG…, Register AUSRICHTUNG
Im rechten Teil des Dialogfensters dieser Abbildung 7.31 können Sie den vorher markierten Text um eine beliebige Gradanzahl drehen. Doch nun zurück zu unserem Streudiagramm der Abbildung 7.29: Zunächst einmal entdecken Sie, dass sich die einzelnen Punkte zu einer so genannten Punktwolke ordnen, die natürlich umso mehr Punkte beinhaltet, je mehr Befragungen Sie durchgeführt haben. Diese Punktwolke breitet sich von links unten nach rechts oben im Achsenkreuz aus. Diese Lage lässt sich folgendermaßen interpretieren: Mit zunehmenden Werten von X (mit zunehmender Größe) nehmen tendenziell die Werte der Variablen Y zu (nimmt tendenziell das Gewicht zu). Hier ist der Begriff tendenziell von besonderer Wichtigkeit, weil damit zum Ausdruck gebracht wird, dass nicht in jedem Einzelfall die größere Person auch schwerer sein muss als die kleinere Person – aber tendenziell, d. h., im Durchschnitt ist das so. Wir sprechen hier von einem gleich gerichteten Zusammenhang, während in Abbildung 7.32 auf der folgenden Seite ein gegenläufiger Zusammenhang zu sehen ist. Wir haben in diesem nächsten Beispiel die körperliche Leistungsfähigkeit dadurch gemessen, dass ermittelt wurde, wie viele Kniebeugen die Versuchspersonen zustande brachten, bis ihr Puls auf 140 war – ausgehend von der Hypothese, dass mit zunehmendem Alter diese Zahl tendenziell abnimmt. Das Streudiagramm in Abbildung 7.32 ist genauso entstanden, wie es oben schon beschrieben wurde, so dass darauf nicht erneut eingegangen werden muss. Sie erkennen, dass in der Tat mit zunehmenden X-Werten tendenziell die Y-Werte kleiner werden. Dies ist also ein gegenläufiger Zusammenhang zwischen den beiden untersuchten statistischen Variablen.
142
7.7
Streudiagramm
Abb. 7.32: Gegenläufiger Zusammenhang (E07B.XLS, Leistung)
Hier wie auch bei den noch folgenden Schaubildern haben wir relativ dürftige Punktwolken vorliegen. Bedenken Sie aber, dass es sich hier nur um Demonstrationsbeispiele handelt. In der Praxis des Statistikers sind natürlich in aller Regel die Punktwolken dichter gefüllt, was aber an den grundsätzlichen Überlegungen nichts ändert. Solche Punktwolken erlauben noch weitergehende Interpretationen. Schauen Sie sich die folgende Abbildung an, wo für zufällig ausgewählte Erwachsene als Variable X das Alter, als Variable Y die Schuhgröße erfragt wurde (siehe Abbildung 7.33).
Abb. 7.33: Alter und Schuhgröße (E07B.XLS, Schuh)
Sie sehen, dass zwischen den beiden Variablen Alter und Schuhgröße, wie das auch zu erwarten war, kein statistischer Zusammenhang besteht. Die Punkte ordnen sich wahllos in der Punktwolke an, gewissermaßen kreisförmig. Es kann keine Aussage in der Form „wenn X ..., dann Y ...“ gemacht werden.
7
Grafische Darstellungen
143
Betrachten Sie schließlich die beiden Punktwolken der Abbildung 7.34.
Abb. 7.34: Größe und Gewicht in zwei Stichproben (E07B.XLS, CMKG3)
Sie sehen in dieser Abbildung, dass in beiden Fällen mit zunehmender Körpergröße tendenziell das Gewicht zunimmt. Offenbar ist aber in der ersten Stichprobe der Zusammenhang zwischen beiden Variablen enger, d.h. statistisch stärker als in der zweiten Stichprobe. Dies wird darin deutlich, dass die erste Punktwolke schlanker als die zweite ist. Wir werden in einem späteren Kapitel Maßzahlen kennen lernen, welche die Stärke des statistischen Zusammenhangs zwischen zwei Variablen nummerisch zum Ausdruck bringen (siehe Kapitel 10). Ein letzter Hinweis in diesem Zusammenhang: Das optische Bild einer Punktwolke kann auch eine erste Information darüber liefern, ob ein gegebener statistischer Zusammenhang tendenziell linear ist oder ob eher ein nichtlinearer Zusammenhang vermutet werden muss. Betrachten Sie die folgende Abbildung, wo dargestellt wurde, wie sich mit veränderndem Düngemitteleinsatz der Ernteertrag auf Probefeldern verändert (siehe Abbildung 7.35) – es handelt sich allerdings nicht um reale Daten, die hier verwendet wurden.
Abb. 7.35: Düngemitteleinsatz und Ernteertrag (E07B.XLS, Ernte)
144
7.7
Streudiagramm
Sie erkennen an dieser – ebenfalls noch zu dürftigen – Punktwolke, dass mit zunehmendem Düngemitteleinsatz auf Probefeldern (in Gramm pro Quadratmeter) der Ernteertrag (in Kilogramm) tendenziell zunimmt – und zwar mit zunehmenden Zuwächsen. Offensichtlich liegt hier kein linearer Zusammenhang vor, sondern es geht gewissermaßen tendenziell nach oben gekrümmt aufwärts. Auch darauf werden wir wieder in Kapitel 10 zu sprechen kommen. Was an dieser Stelle festzuhalten bleibt, ist die Erkenntnis, dass durch die grafische Präsentation einer bivariaten Häufigkeitsverteilung in Form eines Streudiagramms erste interessante Aussagen über die Art, die Richtung und die Stärke eines eventuellen statistischen Zusammenhangs möglich sind. Allein deshalb ist die grafische Darstellung solcher Verteilungen von großem informativem Nutzen. Ansonsten sollte man grafische Darstellungen immer dann einsetzen, wenn komplexe Zusammenhänge zu präsentieren sind. Es gibt nichts Ermüdenderes als endlose Zahlenkolonnen mit überfrachteten Aussagen.
8
Indexberechnungen
„Hauptsache, im Korb sind Schokoladenplätzchen.“ Snoopy, Beagle
Was ist im Warenkorb? 8.1 8.2 8.3 8.4 8.5 8.6
8.1
Alles wird immer teurer Gliederungszahlen, Messziffern, Wachstumsraten Umbasierung und Verkettung Preisindex Mengenindex Wertindex
Alles wird immer teurer
„Alles wird immer teurer“, sagte meine Schwiegermutter (die erste von beiden), als sie vom Einkaufen zurückkam. „Brötchen, Limonade, Opas Korn, die Schweineschnitzel – alles immer teurer!“ „Das stimmt nicht“, antwortete ich. „Computer sind billiger geworden und Farbfernseher auch. Außerdem sind die Einkommen im Schnitt stärker gestiegen als die durchschnittlichen Konsumgüterpreise, so dass eigentlich alles eher billiger geworden ist.“ „Davon merke ich nichts“, behauptete meine Schwiegermutter. „Außerdem – was hat Opas Korn mit dem Farbfernseher zu tun? Man kann das eine doch nicht mit dem anderen verrechnen!“ „Doch, kann man. Wir Statistiker benutzen dazu den Preisindex für die Lebenshaltung.“ „Ach, ihr mit eurer Statistik. Ihr könnt ja alles beweisen. Hättest Du früher etwas Vernünftiges gelernt, dann würdest Du mir jetzt helfen, meinen Warenkorb auszupacken, statt darüber zu philosophieren!“, schimpfte meine Schwiegermutter und packte weiter ihre Einkaufstasche aus.
8.2
Gliederungszahlen, Messziffern, Wachstumsraten
Im vorangegangenen Kapitel haben wir unter den Aspekten der grafischen Darstellung statistischer Daten unter anderem einen ersten Blick auf Zeitreihendaten geworfen. Ausführlicher werden wir uns mit der Zeitreihenstatistik in Kapitel 11 beschäftigen – aber auch schon hier werden einige Fragestellungen angesprochen, die im Zusammenhang mit zeitreihenstatistischen Angaben eine Rolle spielen. Es geht in diesem Abschnitt zunächst darum, aus gegebenen Daten durch Umformungen und Umrechnungen neue und zusätzliche Informationen herauszulesen. Dies kann durch die Berechnung von Gliederungszahlen und Messziffern erreicht werden oder durch die Berechnung von Wachstumsraten.
146
8.2
Gliederungszahlen, Messziffern, Wachstumsraten
8.2.1 Messziffern Eine Messziffer liegt beispielsweise dann vor, wenn man einen Wert einer Zeitreihe auf einen festen Basiswert bezieht. Betrachten Sie dazu das folgende Beispiel. In der Abbildung 8.1 haben wir das Bruttosozialprodukt in den alten Bundesländern der Bundesrepublik Deutschland notiert (in Milliarden DM; das Bruttosozialprodukt ist der Wert aller pro Jahr produzierten Güter und Dienstleistungen):
Abb. 8.1: Zeitreihe – Ausgangsdaten (E08.XLS, BSP1)
In Spalte C der Tabelle in der folgenden Abbildung haben wir Messziffern berechnet, indem wir als Basisjahr das Jahr 1980 festgelegt haben. Der Wert dieses Jahres wird auf 100 gesetzt, und die anderen Werte werden darauf bezogen (siehe Abbildung 8.2).
Abb. 8.2: Messziffern (E08.XLS, BSP2)
Die Werte der Spalte C erhalten Sie, wenn Sie in Zelle C2 eingeben: =B2/$B$2*100
8
Indexberechnungen
147
und diese Berechnungsformel dann nach unten bis zur Zelle C19 ziehen. Welchen Sinn hat eine derartige Messziffernberechnung? Die Antwort ist einfach: Zum einen sind zeitliche Veränderungen besser einzuschätzen, zum anderen – das zeigt sich allerdings bei diesem Beispiel noch nicht – ist der Vergleich zwischen zwei oder mehreren Zeitreihen besser zu vollziehen, wenn Sie in Messziffern mit der gleichen Basisperiode zum Ausdruck gebracht werden. In den Spalten D und E der Tabelle in Abbildung 8.3 haben wir erneut Messziffern berechnet, wobei aber jeweils ein anderes Basisjahr verwendet wurde. Damit soll verdeutlicht werden, dass Sie in der Wahl der Basisperiode frei sind. Allerdings empfiehlt es sich, als Basisperiode eine solche zu wählen, bei der man davon ausgehen darf, dass nicht außergewöhnliche oder einmalig wirkende Faktoren zu einem atypischen Wert der Zeitreihe geführt haben.
Abb. 8.3: Messziffern mit unterschiedlicher Basis (E08.XLS, BSP3)
Wählt man zum Beispiel eine Periode, zu der ein außerordentlich niedriger Wert beobachtet wurde, so erscheinen alle die zu anderen Zeitpunkten beobachteten Abweichungen davon als überdurchschnittlich groß. Es empfiehlt sich deshalb, als Basisperiode eine solche zu wählen, die eher durchschnittliche Werte aufweist. Häufig verwendet man einfach den Anfangswert der gegebenen Zeitreihe (Spalte C), manchmal auch den Endwert (Spalte E) als Basiswert.
8.2.2 Gliederungszahlen Mit dem Begriff der Gliederungszahl ist der Quotient zwischen zwei aufeinander folgenden Zeitreihenwerten angesprochen. Diese Gliederungszahlen haben wir in der Spalte C der Tabelle in Abbildung 8.4 ausgerechnet. (Überlegen Sie, warum es dabei offenbar gleichgültig ist, ob man von den Ausgangswerten oder von einer der Messziffernreihen der Abbildung 8.3 ausgeht.) Die Gliederungszahlen bringen also die Veränderung zwischen zwei aufeinander folgenden Werten zum Ausdruck. Sie kommen in Spalte C der Abbildung 8.4 dadurch zum Ausdruck, dass Sie in Zelle C3 die Berechnungsformel eingeben: =B3/B2*100
148
8.2
Gliederungszahlen, Messziffern, Wachstumsraten
und auch diese Berechnungsformel nach unten bis zur Zelle C19 ziehen. Es versteht sich, dass für das erste Jahr, also in der Zelle C2, kein entsprechender Wert angegeben werden kann.
Abb. 8.4: Zeitreihe – Ausgangsdaten und Gliederungszahlen (E08.XLS, BSP4)
Diese Gliederungszahlen erlauben folgende Interpretation: Wenn diese Werte (Quotienten) alle ungefähr gleich sind, liegt ein geometrisches Wachstum vor, das man auch exponentielles Wachstum nennt. Im Gegensatz dazu würde man von einem arithmetischen Wachstum sprechen, wenn die Abstände (und nicht die Quotienten) zwischen je zwei aufeinander folgenden Werten ungefähr konstant wären. In Abbildung 8.5 haben wir zur Illustration Quotienten und Abstände gemeinsam dargestellt.
Abb. 8.5: Gliederungszahlen und Abstände (E08.XLS, BSP5)
Eine Zeitreihe mit exponentiellem Wachstum lässt sich in einem Achsenkreuz mit einem halblogarithmischem Maßstab (siehe Kapitel 7, Abschnitt 7.6.) ungefähr als Gerade darstellen (siehe Abbildung 8.6 auf der folgenden Seite).
8
149
Indexberechnungen BSP (Mrd.DM) 3500
BSP (Mrd.DM) 10000
3000 2500 2000 1500 1000 500 0
1000
Abb. 8.6: Zeitreihe mit absolutskalierter und logarithmischer Y-Achse (E08.XLS, BSP6)
8.2.3 Wachstumsraten Die Gliederungszahlen der Abbildung 8.5 können benutzt werden, um die Zuwachsraten zu bestimmen. Wenn wir von jeder Gliederungszahl den Wert 100 abziehen, haben wir die Zuwächse (in Prozent), die das Bruttosozialprodukt in Deutschland von Jahr zu Jahr aufweist (siehe Abbildung 8.7).
Abb. 8.7: Zuwachsraten (E08.XLS; BSP6)
Häufig interessiert man sich auch für die jahresdurchschnittliche Zuwachsrate. Diese ergibt sich nun allerdings nicht, indem man alle Zuwachsraten addiert und diese Summe durch die Anzahl der Raten dividiert (darüber wurde schon einmal im Zusammenhang mit der Besprechung des geometrischen Mittels gesprochen; siehe Kapitel 4, Abschnitt 4.6), sondern es ist das geometrische Mittel der Gliederungszahlen zu bestimmen.
150
8.3
Umbasierung und Verkettung
In Zelle C20 der Tabelle in Abbildung 8.8 haben wir das geometrische Mittel der Gliederungszahlen berechnet durch Eingabe von: =GEOMITTEL(C3:C19) Es ergibt sich der Wert 104,6 (gerundet). Dies ist die durchschnittliche Gliederungszahl (geometrisch gemittelt). Ihr entspricht eine jahresdurchschnittliche Zuwachsrate von 104,6 – 100 = 4,6 (%) Sollten Sie sich gut mit der Zinseszinsrechnung auskennen, dann wissen Sie, dass Sie die jahresdurchschnittliche Zuwachsrate auch so ausrechnen können, dass Sie aus dem Quotienten zwischen End- und Anfangswert die 17-te Wurzel ziehen und davon 1 abziehen. Soll der durchschnittliche Zuwachs als Prozentangabe erscheinen, muss dieses Ergebnis noch mit 100 multipliziert werden. Damit ergibt sich der Wert in Zelle C21 der Tabelle in Abbildung 8.8. Sie sehen, Zinseszinsrechnung und geometrische Mittelung der Gliederungszahlen führen zum gleichen Ergebnis.
Abb. 8.8: Jahresdurchschnittliche Zuwachsrate (E08.XLS, BSP6)
8.3
Umbasierung und Verkettung
8.3.1 Umbasierung Häufig ist es sinnvoll oder notwendig, dass eine Zeitreihe, die schon als Messziffernreihe vorliegt, umbasiert wird. Diese Umbasierung ist sehr einfach – sofern Sie die Regeln der Dreisatzrechnung beherrschen. Schauen Sie sich erneut das Beispiel der Sozialproduktentwicklung in Deutschland an, die wir jetzt nur in Messziffern zum Ausdruck bringen (Basis: 1980 = 100; siehe Abbildung 8.9 auf der folgenden Seite). Soll diese Reihe nun umbasiert werden, zum Beispiel so, dass 1984 als neue Basisperiode gilt, die mit dem Wert 100 besetzt wird, so brauchen Sie in Zelle C2 nur einzugeben: =B2/$B$6*100
8
Indexberechnungen
151
und diese Berechnung nach unten bis zur Zelle C19 zu ziehen. Schon ist die gewünschte Umbasierung erfolgt (siehe Abbildung 8.10).
Abb. 8.9: Messziffernreihe (1980 = 100) (E08.XLS, BSP7)
Abb. 8.10: Messziffernreihe (1980 = 100) und Umbasierung (1984=100) (E08.XLS, BSP8)
8.3.2 Verkettung Bei einer Verkettung geht es um ein anderes Problem. Stellen Sie sich vor, es liegen zwei Messziffernreihen vor, die unterschiedliche Basen haben und sich auf unterschiedliche Zeiträume beziehen, die aber den gleichen Sachverhalt betreffen. Gerade deshalb ist es zweckmäßig, beide Reihen zu einer einzigen zu verknüpfen. Das ist gemeint, wenn man von Verkettung spricht. Diese Verkettung setzt allerdings voraus, dass es mindestens ein Jahr gibt, für das in beiden Reihen eine Messziffer vorliegt (siehe Abbildung 8.11). Sie sehen, beide Reihen haben eine unterschiedliche Basis, die erste das Jahr 1984, die zweite das Jahr 1990, und es gibt ein Jahr, für das in beiden Reihen je ein Wert vorliegt, nämlich das
152
8.3
Umbasierung und Verkettung
Jahr 1988. Vorausgesetzt, die beiden Reihen stellen den gleichen Sachverhalt dar – sonst wäre ja eine Verkettung völlig sinnlos –, erfolgt die Verkettung, wenn die verkettete Reihe auch die Basis 1990 100 haben soll, indem wir in Zelle D2 die unter Abbildung 8.11 angegebene Berechnungsformel eingeben.
Abb. 8.11: Zwei Messziffernreihen mit unterschiedlicher Basis (E08.XLS, Kette1)
=$C$10/$B$10*B2 Diese Berechnung wird dann nach unten bis zur Zelle D10 gezogen (ab Zelle D11 abwärts gelten die Werte der Spalte C). Sie sehen, auch hier steht nichts anderes im Hintergrund als die aus der Schulmathematik längst bekannte Dreisatzrechnung (siehe Abbildung 8.12).
Abb. 8.12: Zwei Messziffernreihen und Verkettung (E08.XLS, Kette2)
Sie sollten sich übungshalber überlegen, wie die Verkettung vonstatten gehen muss, wenn die verkettete Reihe in Spalte D die Basis 1984 100 erhalten soll.
8
Indexberechnungen
8.4
153
Preisindex
Allgemein gesprochen dient ein Index dazu, mehrere Einzeldaten pro Zeitpunkt oder Zeitperiode zusammenzufassen. Ein typisches Beispiel dafür ist der Preisindex für die Lebenshaltung. Ein Preisindex zeichnet die zeitliche Entwicklung von Preisen auf, bezogen auf ein Basisjahr, wobei mehrere Produkte zusammengefasst betrachtet werden. Den Preisindex für die Lebenshaltung nennt man auch den Lebenshaltungskostenindex, der von der amtlichen Statistik zum Beispiel für Vier-Personen-Arbeitnehmerhaushalte ausgewiesen wird. Ausgangsdaten zur Konstruktion eines derartigen Index sind die Preise verschiedener, unter Umständen sehr vieler Güter zu unterschiedlichen Zeitpunkten. Nun wäre es natürlich nicht sehr sinnvoll, einfach zur Beschreibung der Lebenshaltungskosten die Preise für Brot, Fernsehgeräte, Heizöl, Bier, Wintermäntel usw. zusammenzufassen, sondern man muss zunächst zwei Fragen beantworten: 1.
Welche Güter sollen überhaupt berücksichtigt werden?
2.
Wie soll die unterschiedliche Bedeutung verschiedener Güter in Rechnung gestellt werden?
Die erste Frage wird in der Weise beantwortet, dass die amtliche Statistik auf der Grundlage von Konsumentenuntersuchungen einen Warenkorb der wichtigsten Güter und Dienstleistungen zusammengestellt hat. Dieser Warenkorb umfasst – was den Lebenshaltungskostenindex für Vier-Personen-Arbeitnehmerhaushalte betrifft (es gibt auch Warenkörbe für andere Zwecke) – ziemlich viele Güter und Dienstleistungen, vom Schweineschnitzel über Wohnungsmieten und Kfz-Versicherungen bis zum Haarschnitt beim Friseur. Die zweite Frage ist etwas schwieriger zu beantworten. Es leuchtet ein, dass Kartoffeln und ihre Preise in der Berechnung der Lebenshaltungskosten eine andere Rolle spielen als Kaviar. Man hat sich deshalb aus gutem Grund dafür entschieden, dass die Preisentwicklung derjenigen Güter, die mengenmäßig stark verbraucht werden, stärkere Gewichtung erfahren muss als Güter, die im täglichen Verbrauch keine allzu große Rolle spielen. Diese Berücksichtigung der unterschiedlichen Bedeutung erreicht man, indem man die Güterpreise mit den verbrauchten Mengen der Güter multipliziert. An einem sehr vereinfachten Beispiel soll diese Vorgehensweise gezeigt werden. Stellen Sie sich vor, es soll nicht der generelle Lebenshaltungskostenindex berechnet werden, sondern ein Preisindex für alkoholische Getränke. Erfasst werden also Wein, Bier, Schnaps und sonstige Alkoholika, wobei die Mengen und die Preise dieser Produkte zu unterschiedlichen Zeitpunkten interessieren. In der Tabelle der Abbildung 8.13 haben wir für drei Jahre entsprechende Angaben zusammengestellt, wobei zwei Anmerkungen erforderlich sind: 1.
Die angegebenen Preise sind ihrerseits schon Durchschnittswerte pro Liter. Es leuchtet ja unmittelbar ein, dass ein Liter Bier je nach Marke und Qualität unterschiedlich viel kostet; zudem ist Bier an der Imbissbude preiswerter als Bier in der Bar Mon Cherie.
2.
Die Mengen sind ebenfalls Durchschnitte, zum Beispiel monatsdurchschnittlicher Verbrauch pro Haushalt.
154
8.4
Preisindex
Abb. 8.13: Ausgangsdaten für den Alkohol-Preisindex (E08B.XLS; Alki1)
Uns interessiert nun die Frage, wie sich die Lebenshaltungskosten von 2002 über 2003 bis 2004 verändert haben. Was liegt näher, als zur Beantwortung dieser Frage die Durchschnittspreise zu berechnen und diese dann aufeinander zu beziehen? Diese Durchschnittspreise finden Sie in der Zeile 8 der Tabelle in Abbildung 8.14.
Abb. 8.14: Ausgangsdaten für den Alkohol-Preisindex und Durchschnittspreise (E08B.XLS, Alki2)
Sie erkennen, dass der Durchschnittspreis von 6,11 Euro über 6,475 Euro im Jahre 2003 auf 7,20 Euro im Jahre 2004 gestiegen ist. Benutzt man zur Indizierung dieser Entwicklung eine auf 2002 basierte Messziffer, so ergeben sich die Werte der Zeile 9 der Abbildung 8.14. Zusätzlich haben wir auch noch in Zeile 10 den jährlichen Zuwachs in Prozent ausgerechnet. Was können wir mit den Zahlen der obigen Tabelle anfangen? Sind das die Preissteigerungen für Alkoholika, für die wir uns interessieren? Nein, sie sind es nicht! Und zwar deshalb, weil in diesen Angaben nicht die unterschiedliche Bedeutung (das unterschiedliche Gewicht) der einzelnen Produkte zum Ausdruck kommt. Deshalb kehren wir noch einmal zurück zur Tabelle in Abbildung 8.14 und berechnen gewichtete arithmetische Mittel aus den Preisen, indem wir diese mit den durchschnittlich verbrauchten Mengen multiplizieren. Dazu haben wir für jedes Jahr eine Spalte mit der Überschrift P*M eingefügt, weil dort Preise mit Mengen multipliziert werden. Dividiert man die mit den Mengen gewichteten Preise durch die Summe der Gewichte, ergeben sich neue Mittelwerte (4,11 Euro für 2002, 4,39 Euro für 2003 und 4,58 Euro für 2004; siehe Abbildung 8.15). Die Durchschnittspreise in Zeile 10 der Tabelle in Abbildung 8.15 liegen deutlich niedriger als die zuerst berechneten, weil jetzt das Bier mit seinem niedrigeren Preis, aber seinem deutlich höheren Verbrauch diese Durchschnitte drückt. Auch hier haben wir in Zeile 11 noch eine Messziffernreihe und in Zeile 12 die Zuwächse in Prozent hinzugefügt. Der letzte Messzif-
8
Indexberechnungen
155
fernwert (111,26) ist übrigens deutlich kleiner als der in der ersten Berechnung (117,79%), weil jetzt berücksichtigt worden ist, dass das in größerer Menge konsumierte Bier im Literpreis ja sogar billiger geworden ist.
Abb. 8.15: Ausgangsdaten und gewichtete Durchschnittspreise (E08B.XLS, Alki3)
Sind das nun endlich die Werte, die uns interessieren? Sind die Preise für Alkoholika von 2002 auf 2003 um 6,65% und von 2003 auf 2004 um 4,33% gestiegen? Nein, das sind sie auch noch nicht! In diesen Zuwachsraten der letzten Spalte kommen nämlich nicht nur Preisänderungen zum Ausdruck – und die sind es, die uns eigentlich interessieren –, sondern Preis- und Mengenänderungen. Ein Preisindex soll und darf aber nur auf Preisänderungen und nicht auch auf Mengenänderungen reagieren. Deshalb greifen wir zu folgendem Trick: Wir verwenden zur Gewichtung der Preise nicht nur im Jahr 2002, sondern auch in den folgenden Jahren das Mengenschema des Basisjahres, also die Verbrauchsmengen des Jahres 2002. Damit gelangen wir zu den folgenden Ergebnissen (siehe Abbildung 8.16 auf der folgenden Seite). In dieser Abbildung haben wir erreicht, was wir wollten. In den hier angegebenen Durchschnittspreisen (Zeile 10 der Abbildung 8.16) sind nur noch Preisänderungen erfasst. Mengenänderungen sind nicht in die Berechnungen eingegangen, weil immer das gleiche Gewichtungsschema verwendet wurde, nämlich der Warenkorb des Basisjahres 2002. Wir sehen also, dass von 2002 bis 2003 der hier berechnete Preisindex um 8,04% (von 100 auf 108,04) gestiegen ist; von 2003 auf 2004 sind die Preise um 4,35% gestiegen. Dabei wird jetzt aber hilfsweise unterstellt, dass in allen interessierenden Jahren die Mengenstruktur (Verbrauch an Alkoholika) die gleiche war, wie sie tatsächlich im Jahr 2002 (im Basisjahr) vorgefunden wurde. Einen auf diese Weise berechneten Preisindex nennt man basisgewogenen Preisindex oder auch Preisindex vom Typ Laspeyres.
156
8.4
Preisindex
Abb. 8.16: Mit den Mengen des Basisjahres gewichtete Durchschnittspreise (E08B.XLS, Alki4)
Seine allgemeine Berechnungsformel für ein beliebiges Jahr t lässt sich wie folgt herleiten: 1. Wir bilden zunächst den gewogenen Durchschnittspreis in der Basisperiode. Sie erinnern sich, dass ein gewogenenes arithmetisches Mittel dadurch zustande kommt, dass man jeden Merkmalswert mit der Häufigkeit seines Auftretens multipliziert, diese Produkte aufsummiert und die Summe dann durch n dividiert. Dabei ist n die Zahl der Beobachtungen und nichts anderes als die Summe aller Gewichte f i , also: x i fi
xi fi
n
fi
Wenn man nun als Merkmalswerte x i Preise pi hat und als Gewichte f i Mengen m i , so ergibt sich für die Basisperiode (sie sei mit 0 indiziert): p 0 i m 0i
0
m 0i
Dabei laufen die Summen über alle i ( i 1, 2, ..., n ; Anzahl der Produkte; in unserem Beispiel also von 1 bis 4). 2. Entsprechend erhalten wir für die Berichtsperiode (2003 oder 2004, allgemein Periode t): p ti m 0i
t
m 0i
3. Als Messziffer für die Berichtsperiode t erhalten wir: p ti m 0i
PLt
t 0
m 0i p 0i m 0i m 0i
100
p ti m 0i
p 0i m 0i
100
Wir nennen diesen Preisindex „Preisindex vom Typ Laspeyres“, wie oben schon erwähnt wurde. Dieser Preisindex ist mit einem wesentlichen Nachteil verbunden. Er bringt zwar – wie gewünscht – ausschließlich Preisveränderungen (und nicht zusätzlich auch irgendwelche
8
157
Indexberechnungen
Mengenveränderungen) zum Ausdruck, aber er verwendet ein Gewichtungsschema, das umso mehr veraltet, je weiter die Berichtsperiode von der Basisperiode entfernt ist. Dies verdeutlicht etwa die folgende Aussage: Der Preisindex für die Lebenshaltung hat sich von 1980 (Basisjahr) bis zum Jahr 2004 um 82% erhöht. Üblicherweise wird bei einer solchen Aussage nicht hinzugefügt, dass bei dieser Berechnung unterstellt worden ist, dass die Mengenstruktur des Jahres 2004 hypothetisch als gleich mit der des Jahres 1980 angesetzt werden musste. Deshalb müsste man eigentlich genau genommen sagen: Der Preisindex für die Lebenshaltung hat sich von 1980 (Basisjahr) bis 2004 um 82% erhöht, wenn man unterstellt, dass die Leute 2004 noch die gleichen Mengen der einzelnen im Warenkorb befindlichen Güter und Dienstleistungen gekauft hätten, wie sie 1980 tatsächlich gekauft haben. Offenkundig ist es so, dass diese hypothetische notwendige Unterstellung umso unrealistischer wird, je weiter die Berichtsperiode von der Basisperiode entfernt ist. Stellen Sie sich beispielsweise vor, es müsste noch der Warenkorb des Jahres 1950 für derartige Berechnungen verwendet werden: Damals gab es noch keine Fernsehgeräte (noch nicht einmal schwarz-weiß), statt des Elektrorasierers waren Rasierklingen im Warenkorb, statt Bohnenkaffee Kathreiners Malzkaffee und statt eines Mittelklasse-Pkws ein Fahrrad der Marke Vaterland. Es hätte offensichtlich überhaupt keinen Sinn, etwas über heutige Preise auszusagen unter Nutzung der Annahme, dass noch die 1950er Mengenstruktur gültig sei – sie ist es definitiv nicht mehr. Deshalb müssen die Fachleute der amtlichen Statistik ab und zu – etwa im Abstand von sechs bis zehn Jahren – ein neues Basisjahr mit einem neuen und aktualisierten Warenkorb vereinbaren, damit die Berechnungen der ansonsten sehr beliebten Laspeyres-Indizes nicht völlig in den luftleeren Raum geraten. Eine andere Lösung hat ein Statistiker namens Paasche gefunden. Er wollte verhindern, dass mit den rasch veraltenden Ergebnissen des Laspeyres-Index gearbeitet wird, gleichwohl musste aber auch er Sorge dafür tragen, dass nur Preisveränderungen und keine Mengenveränderungen in die Berechnungen eingehen. Er schlug deshalb vor, bei den Preisindexberechnungen das Mengenschema des Berichtsjahrs zu verwenden, um auf diese Weise einen aktuellen Warenkorb zugrunde legen zu können. Mit dieser Überlegung gelangte er zu der folgenden Berechnungsformel, dem Preisindex vom Typ Paasche: PPt
p ti m ti
p 0i m ti
100
Verwendet man diese Formel für unseren Ausgangsdatenbestand (Preisindex für Alkoholika), gelangt man zu den folgenden Ergebnissen (siehe Abbildung 8.17):
158
8.4
Preisindex
Abb. 8.17: Mit den Mengen des Berichtsjahres gewichtete Durchschnittspreise (E08B.XLS, Alki5)
Jetzt erhalten wir wieder andere Durchschnittswerte, aus denen wiederum die Indexwerte und die Zuwachsraten berechnet wurden (Zeile 11 und Zeile 12 der Abbildung 8.17). Sie erkennen, die Werte des Preisindex vom Typ Paasche weichen etwas, wenn auch unwesentlich, von denen des Laspeyres-Index ab. Sie weisen zudem den Vorzug auf, dass immer das aktuelle Gewichtungsschema verwendet wird. Dieser Vorzug wird aber mit dem ganz wesentlichen Nachteil erkauft, dass die Indexwerte von Jahr zu Jahr nicht mehr direkt miteinander vergleichbar sind, weil sich ja das Gewichtungsschema von Jahr zu Jahr ändert. Hinzu kommt ein ähnlicher hypothetischer Vorbehalt, wie wir ihn beim Laspeyres-Index schon kennen gelernt haben. Wenn sich beispielsweise für 2003 der Wert 108,25 ergibt, dann heißt das, dass die Verbraucher 2003 um 8,25% höhere Preise für Alkoholika bezahlen mussten, wobei hypothetisch unterstellt werden muss, dass sie in der Basisperiode schon die gleiche Mengenstruktur verbraucht hätten, wie sie sie im Berichtsjahr tatsächlich verbraucht haben. Also auch hier wird eine Hypothese mitgeschleppt, die wieder umso schwerer wiegt, je weiter Berichts- und Basisperiode auseinander liegen. Insbesondere wegen der erleichterten intertemporalen Vergleichbarkeit zieht die amtliche Statistik den zuerst besprochenen Laspeyres-Index vor, berechnet allerdings – vor allem zu Kontrollzwecken – den Paasche-Index. Mit dieser Kontrolle hat es Folgendes auf sich: Je weiter der Wert des Laspeyres-Index für ein bestimmtes Jahr von dem des Paasche-Index abweicht, desto deutlicher ist dem Fachmann, dass das Basis-Gewichtungsschema veraltet ist, dass es also Zeit wird, einen neuen Warenkorb und ein neues Basisjahr festzulegen. Zu der Preisindexberechnung hier noch zwei statistische Anmerkungen:
Deflationierungen Angaben zur Preisentwicklung können dazu verwendet werden, monetäre statistische Angaben zu deflationieren. Der Begriff der Deflationierung soll an einem kleinen Beispiel verdeutlicht werden: Das Bruttosozialprodukt ist in der Bundesrepublik Deutschland von 1950 bis 1990 von 96,7 Milliarden DM auf 2403,1 Milliarden DM gestiegen. Da das Bruttosozialprodukt nichts anderes ist als der Wert aller pro Jahr produzierten Güter und Dienstleistungen, kann man also
8
Indexberechnungen
159
sagen, dass in diesen 40 Jahren die Produktion um mehr als das 24fache angewachsen ist. Nun handelt es sich dabei aber um monetäre Größen, also um Geldgrößen, denn das Bruttosozialprodukt kommt dadurch zustande, dass alle Güter und Dienste mit ihren Marktpreisen bewertet werden (man spricht deshalb auch vom Bruttosozialprodukt zu Marktpreisen). Dies bedeutet, dass die entsprechenden statistischen Angaben auch Preisveränderungen beinhalten. Will man nun wissen, wie sich diese Kenngröße real verändert hat, will man also Preisveränderungen aus den gegebenen Daten herausrechnen, benötigt man einen Preisindex für das Bruttosozialprodukt. Der amtlichen Statistik kann man entnehmen, dass dieser Preisindex von 1950 bis 1990 von 33,0 auf 106,7 (1985 = 100) gestiegen ist. Diese Angaben kann man verwenden, um per Dreisatzrechnung festzustellen, dass – wenn man Preisveränderungen herausrechnet – das Bruttosozialprodukt von 96,7 nur auf 743,2 gestiegen wäre. Dies ist keine Steigerung um das 24fache, sondern der Steigerungsfaktor liegt jetzt nur bei ca. 7,7 – was übrigens auch nicht schlecht ist. Ein geeigneter Preisindex kann also verwendet werden, um zu verdeutlichen, dass dem monetären Wachstum (jahresdurchschnittliche Wachstumsrate 8,4%) eine deutlich geringere jahresdurchschnittliche Wachstumsrate des realen Wachstums, nämlich 5,2%, gegenübersteht.
Qualitätsveränderungen Wir haben verdeutlicht, dass ein basisgewogener Preisindex, wie ihn die amtliche Statistik häufig verwendet, mit dem Nachteil verbunden ist, dass der Warenkorb, der verwendet werden muss, umso unrealistischer wird, je weiter das Basisjahr von der Berichtsperiode entfernt ist. Die Struktur des realen Warenkorbs weicht immer stärker von der Basisstruktur ab, neue Produkte kommen hinzu, veraltete Produkte scheiden aus. Aber selbst wenn diese strukturellen Veränderungen keine entscheidende Rolle spielen würden, bleibt ein Problem zu beachten, das darin besteht, dass die im Warenkorb befindlichen Produkte qualitativen Veränderungen unterworfen sind. Stellen Sie sich vor, im Warenkorb des Basisjahres 1985 befindet sich ein Pkw der unteren Mittelklasse, also zum Beispiel ein VW Golf. Im Zusammenhang mit der Preisindexentwicklung bis zum Jahr 1996 interessiert natürlich auch dieser Pkw-Preis, und erfreut stellen die Statistiker fest, dass auch noch 1996 der VW Golf auf dem Markt ist. Der Warenkorb des Basisjahres ist also nicht so sehr veraltet, dass dieses Produkt, dessen verkaufte Anzahlen im Basisjahr auch noch heute zur Gewichtung des aktuellen Preises verwendet werden (Preisindex vom Typ Laspeyres), gar nicht mehr existiert. Vielleicht stimmen die Mengen des Basisjahres nicht mehr so ganz – aber das Produkt ist wenigstens noch da – im Gegensatz etwa zu Kassettenlaufwerken für Homecomputer, die längst durch Disketten- und CD-ROM-Laufwerke praktisch völlig ersetzt wurden. Trotzdem bleibt ein wichtiges Problem bestehen: Ist der VW Golf des Jahres 1996 überhaupt mit dem des Jahres 1985 zu vergleichen? Man kann das bezweifeln: Die äußere Gestalt hat sich gewandelt, die Ausstattung, die Motorleistung, die aktive und passive Sicherheit und vieles andere. Der VW Golf des Jahres 96 ist – unter qualitativen Gesichtspunkten – nicht mehr der des Jahres 1985, und allein schon deshalb ist die Veraltung des Warenkorbes ein nicht zu übersehendes Problem.
8.5
Mengenindex
Nach dem gleichen Muster, wie Preisindizes konstruiert werden, kann man auch Mengenindizes konstruieren. Hier geht es darum, einen zusammenfassenden Ausdruck für die Mengen-
160
8.5
Mengenindex
veränderungen mehrerer Güter im Zeitablauf zu finden, wobei nun die Bedeutung der unterschiedlichen, zusammenzufassenden Güter durch ihre Preise zum Ausdruck gebracht wird. Während also beim Preisindex Preise gemittelt werden, gewichtet mit Mengen, und dann je zwei dieser Mittelwerte aufeinander bezogen werden, mittelt man beim Mengenindex Mengen – jetzt gewichtet mit den Preisen –, um dann auch wieder je zwei dieser Mittelwerte aufeinander zu beziehen. Und wie es bei den Preisindizes einen basisgewogenen und einen berichtsgewogenen Preisindex gibt (Laspeyres-Index und Paasche-Index), so gibt es auch einen Mengenindex vom Typ Laspeyres und einen Mengenindex vom Typ Paasche. Die Konstruktionsprinzipien sind die gleichen wie bei den Preisindizes. Mengenindex vom Typ Laspeyres: M Lt
m ti p 0i
m 0i p 0i
100
Mengenindex vom Typ Paasche: M Pt
m ti p ti
m 0i p ti
100
Es gibt eine Reihe von vor allem wirtschaftsstatistischen Fragestellungen, bei denen die mengenmäßige Entwicklung unterschiedlicher Güter im Zeitablauf zusammengefasst dargestellt werden muss. Dies ist zum Beispiel dann der Fall, wenn ein Unternehmen, das eine Vielzahl verschiedener Produkte erzeugt, zusammenfassende Angaben über die mengenmäßige Entwicklung seiner Gesamtproduktion machen möchte. Auch dabei taucht wieder ein Gewichtungsproblem auf, weil verschiedene Produkte nicht einfach zusammengezählt werden können. Man geht, wie oben beschrieben, so vor, dass man die Bedeutung der einzelnen Gütermengen durch die Preise dieser Güter zum Ausdruck bringt, d.h., man multipliziert die Mengen der Güter mit ihren Preisen. Dabei kann auf die Preise einer Basisperiode oder auf die Preise der Berichtsperioden zugegriffen werden. Auch hier gilt, dass der basisgewogene Index in der Praxis bevorzugt wird, wobei die jeweiligen Vor- und Nachteile im Prinzip die gleichen wie bei den Preisindizes sind. Die Berechnung eines basisgewogenen Mengenindex soll anhand der Daten der Tabelle in Abbildung 8.18 auf der folgenden Seite gezeigt werden, die Produktionsangaben eines Automobilwerks darstellt. Aus diesen Angaben lassen sich basisgewogene Mengenindizes berechnen, was in der Tabelle der Abbildung 8.19 geschieht. Es zeigt sich, dass die Produktionsmengen im Schnitt von 41,99 über 48,84 und 49,29 bis 55,25 (1000 Einheiten) steigen. Dies ergibt die Indexwerte und Zuwachsraten der Zeilen 12 und 13 der Tabelle in Abbildung 8.19.
8
Indexberechnungen
161
Abb. 8.18: Produktion von Pkw (Preise in 1000 DM; Mengen in 1000 Stück) (E08B.XLS, Pkw1)
Abb. 8.19: Basisgewogene Mengenindizes (E08B.XLS, Pkw2)
Entsprechend können auch Mengenindizes vom Typ Paasche berechnet werden (siehe Abbildung 8.20).
Abb. 8.20: Mengenindizes vom Typ Paasche (E08B.XLS, PKW3)
Auch hier unterscheiden sich die Berechnungen nach Paasche nicht allzu sehr von denen nach Laspeyres. Aber auch hier ist zu erwarten, dass die Ergebnisse tendenziell umso weiter auseinander fallen werden, je weiter Berichts- und Basisperiode auseinander rücken.
162
8.6
Wertindex
Mengenindizes spielen nicht nur im betriebsstatistischen Bereich eine Rolle, sondern auch auf gesamtwirtschaftlicher Ebene, wo etwa der Index der industriellen Nettoproduktion besondere Bedeutung gewonnen hat. Wegen der Basisjahrgewichtung handelt es sich wieder um einen Index vom Typ Laspeyres. Er erfasst eine große Zahl wichtiger industrieller Produkte, gewichtet sie mit ihren Preisen und zeichnet so die zeitliche Entwicklung der gesamtindustriellen Produktion auf. Dieser Index zeichnet sich besonders dadurch aus, dass er sehr deutlich die konjunkturelle Situation unserer Wirtschaft beschreibt. Ähnlich konstruiert ist auch der Index der industriellen Auftragseingänge, der sogar gewisse Schlüsse auf die zukünftige Konjunkturlage erlaubt, weil ja Auftragseingänge der eigentlichen Wirtschaftstätigkeit zeitlich vorausgehen. Aus den heutigen Auftragseingängen kann deshalb geschlossen werden, wie die Wirtschaftskonjunktur in einem Vierteljahr oder in einem halben Jahr aussehen wird.
8.6
Wertindex
Erfasst man Preis- und Mengenänderungen zugleich, so erhält man einen so genannten Wertindex. Er ergibt sich, indem man die Umsätze eines Berichtsjahres auf die des Basisjahrs bezieht: Wt
p ti m ti
p t0 mt0
100
Das nächste Beispiel zeigt, zu welchen Ergebnissen diese Berechnung, der wir schon weiter oben einmal begegnet sind, führt:
Abb. 8.21: Berechnung von Wertindizes (E08B.XLS, Wert)
Dieser Index zeigt also, wie sich der Umsatz (Menge mal Preis) im Zeitablauf verändert hat. Wenn Sie die Berechnungsformel für W mit den oben vorgestellten Preis- und Mengenindizes vergleichen, dann erkennen Sie übrigens folgenden Zusammenhang: Wt
PLt M Pt
PPt M Lt
Weitere Erläuterungen dürften bei dieser relativ einfachen Maßzahl entbehrlich sein.
9
Regressionsrechnung (bivariat)
„Mental, äh, war ich heute gut drauf. Deshalb konnte ich die Bälle immer ganz nah an der Linie plazieren.“ Boris Becker, Tennischampion
Große Dicke – kleine Dünne 9.1 9.2 9.3 9.4 9.5 9.6
9.1
Auf dem Tennisplatz Zielsetzungen Mathematische Grundlagen Die Methode der kleinsten Quadrate Beispiel zur Regressionsrechnung Fallstricke
Auf dem Tennisplatz
Als ich ein Knabe war, verdiente ich mir mein Taschengeld als Balljunge auf dem Tennisplatz einer hinterpfälzischen Kleinstadt. Es gab da zwar nur 75 Pfennig pro Stunde, aber die Spieler legten fast immer noch ein paar Groschen drauf, wenn sie den Platz wieder verließen – zumindest wenn sie guter Laune waren. Es stellte sich rasch heraus, dass das Aufsammeln der Bälle eine vergleichsweise langweilige, wenn auch bei Tennisanfängern eine manchmal schweißtreibende Angelegenheit war. Um mir die Zeit etwas zu verkürzen, versuchte ich während des Spiels abzuschätzen, in welcher Höhe am Ende des Spiels das Zusatz-Trinkgeld ausfallen könnte. Bei diesen Prognosen wuchs von Woche zu Woche meine Treffsicherheit, weil ich folgende Erfahrung nutzen konnte: Es stellte sich mit der Zeit heraus, dass das Trinkgeld des Matchgewinners umso höher war, je deutlicher sein Sieg ausfiel. Ich stellte schon nach relativ kurzer Zeit einen Zusammenhang fest zwischen der Deutlichkeit des Sieges eines der Tennispartner und meinem Extratrinkgeld. Da ich mit der Zeit auch die Qualitäten der einzelnen Spieler kennen lernte – es kamen ja mehr oder weniger immer die gleichen sonnengebräunten Herrschaften; viel mehr als vielleicht zehn aktive Spieler hatte der kleine Verein nicht –, versuchte ich, dort als Balljunge eingesetzt zu werden, wo ein bekannt starker Spieler auf eine echte Flasche traf. Oft gelang mir das tatsächlich, so dass ich mit der Zeit zu wesentlich höheren Einkünften kam als meine Kollegen, die sich wunderten. Dass ich mit meiner Strategie schon die Nutzanwendungen der statistischen Regressionsrechnung im Kopf hatte, wurde mir allerdings erst ein gutes Jahrzehnt später deutlich. Und wie man dabei auch über einige Fallstricke stolpern kann, steht am Ende dieses Kapitels.
9.2
Zielsetzungen
Wenn sich der Statistiker eine Untersuchungsvariable anschaut, zum Beispiel das Körpergewicht zufällig ausgewählter Erwachsener, und diese nach den Regeln der statistischen Kunst aufbereitet, indem er beispielsweise eine Häufigkeitsverteilung erstellt, diese Verteilung grafisch darstellt und zudem noch wichtige charakterisierende Parameter (Mittelwerte, Streuungsmaße) berechnet, dann mit dem Ziel, die wesentlichen Informationen optimal zugänglich zu machen. Letztendlich steht er dann vor der Frage, warum die Daten sich so darstellen, wie
164
9.2
Zielsetzungen
sie sind. Warum sieht die Verteilung gemessener Körpergewichte so aus wie eine glockenförmige Kurve? Warum fallen bei einer Einkommensverteilung arithmetisches Mittel, Median und Modus auseinander? Welche Faktoren sind für die Streuung von gemessenen Körpergewichten verantwortlich? Solche und ähnliche Fragen lassen sich unschwer in großer Zahl formulieren. Diese Fragen machen deutlich, dass nicht die Darstellung von Daten mit den Methoden der deskriptiven Statistik das primäre Ziel der statistischen Arbeit ist – auch wenn es immer ein außerordentlich wichtiger Arbeitsschritt ist –, sondern die Frage, warum eine Untersuchungsvariable streut. Auf diese erkenntnisleitende Frage kann man nur dann eine (erste) Antwort finden, wenn man die interessierende Untersuchungsvariable mit anderen in Verbindung bringt. Im Kapitel über grafische Darstellungen haben wir schon gezeigt, dass die gemeinsame Betrachtung von zwei Variablen zu interessanten Befunden führen kann (siehe Kapitel 7, Abschnitt 7.6.). Wir können dem Streudiagramm, das ja die grafische Abbildung einer bivariaten Häufigkeitsverteilung ist, beispielsweise entnehmen, dass mit zunehmenden Werten einer Variablen X die Werte einer interessierenden Variablen Y tendenziell zunehmen. Wenn uns also die Frage interessiert, warum Körpergewichte zufällig ausgewählter Erwachsener variieren (streuen), dann können wir in bivariater Betrachtung (Betrachtung von zwei Untersuchungsvariablen gleichzeitig) zu dem folgenden Ergebnis kommen: Wenn die Körpergrößen (X) befragter Personen zunehmen, nimmt tendenziell auch ihr Gewicht zu. Damit haben wir auf der Grundlage einer bivariaten statistischen Auswertung eine erste Idee darüber gewonnen, welche beeinflussende Größe es sein könnte, mit der die interessierenden unterschiedlichen Körpergewichte zusammenhängen. Natürlich fällt uns dann sofort ein, dass es auch noch andere Variablen – außer der Körpergröße – geben könnte, die mit dem Körpergewicht statistisch zusammenhängen. Vielleicht spielt auch das Alter, sicherlich aber zum Beispiel das Geschlecht eine Rolle, und wenn wir etwas nachdenken, fallen uns möglicherweise auch noch andere Variablen ein. Dies bedeutet, dass wir bei einer bivariaten Betrachtungsweise nicht stehen bleiben dürfen, sondern mehr als zwei Variablen zum Gegenstand realitätsbezogener Betrachtungen machen müssen. Sicherlich ist aber auch richtig, dass die bivariate Betrachtung ein erster Schritt in die Richtung einer multivariaten statistischen Analyse ist – gewissermaßen der Grundbaustein später zu behandelnder multivariater Verfahren. Deshalb ist es zunächst nicht falsch, den bivariaten statistischen Methoden besondere Aufmerksamkeit zu widmen – dies allerdings nicht nur, weil sie, wie gerade angemerkt, Vorstufe multivariater Verfahren sind, sondern weil die bivariate Betrachtung auch für sich genommen zu wesentlichen Erkenntnisgewinnen beitragen kann. Wenn wir zum Beispiel aufgrund statistischer Untersuchungen und Datenauswertungen feststellen, dass mit zunehmendem Düngemitteleinsatz auf Probefeldern tendenziell der Ernteertrag ansteigt, dann ist dies eine wichtige Information – unabhängig von dem Umstand, dass es auch weitere Faktoren gibt, die den Ernteertrag beeinflussen. Die Methoden der bivariaten Statistik werden üblicherweise in zwei Gruppen eingeteilt, nämlich in die Methoden der Regressionsrechnung einerseits und die Methoden der Korrelationsrechnung andererseits. Die Regressionsrechnung hat die Aufgabe, die Art eines statistischen Zusammenhangs (hier also zwischen zwei Untersuchungsvariablen) zusammenfassend zu beschreiben; die Korrelationsrechnung dient dazu, die Stärke des eventuellen Zusammen-
9
Regressionsrechnung (bivariat)
165
hangs zu quantifizieren, weshalb man hier auch von Zusammenhangsrechnung spricht. Mit der Korrelationsrechnung beschäftigen wir uns im nächsten Kapitel. Hier geht es hingegen ausschließlich um die Methoden der Regressionsrechnung. Wie schon bei den Methoden der univariaten Statistik steht auch hier das Bemühen im Vordergrund, einen unter Umständen unüberschaubaren Bestand an Ausgangsdaten zu verdichten, im Sinne von zusammenfassender Charakterisierung (man spricht ja in diesem Zusammenhang auch vom generellen Ziel der Datenreduktion). So wie ein arithmetisches Mittel in der univariaten Statistik (siehe Kapitel 4) einen möglicherweise sehr großen Datenbestand, der eine einzige Untersuchungsvariable betrifft, zu einer einzigen, sehr aussagekräftigen Maßzahl verdichtet, so versucht die Regressionsrechnung, einen bivariaten Datenbestand zu verdichten, so dass ein möglichst knapper, gleichwohl besonders aussagekräftiger, zusammenfassender Ausdruck übrig bleibt. Ausgangspunkt ist dabei die Punktwolke einer bivariaten Verteilung, wie sie zum Beispiel in der folgenden Abbildung dargestellt ist. Hier wurden die Körpergrößen und Gewichte zufällig ausgewählter Erwachsener als Streudiagramm präsentiert (siehe Abbildung 9.1):
Abb. 9.1: Größe und Gewicht (E09.XLS, CMKG1)
Es soll zunächst, bevor wir die Methoden der Regressionsrechnung besprechen, kurz noch einmal beschrieben werden, wie man zu einer derartigen Darstellung unter Nutzung des Programms Excel gelangt: 1. 2. 3. 4. 5.
Geben Sie die Daten wie angegeben in eine leere Excel-Tabelle ein. Markieren Sie die Daten (Zelle A3 bis Zelle B11). Wählen Sie EINFÜGEN/DIAGRAMM… Wählen Sie den Diagrammtyp PUNKT (XY). Akzeptieren Sie den Untertyp, der von Excel vorgeschlagen wird, und klicken Sie auf WEITER. 6. Klicken Sie im zweiten Dialogfenster des Diagramm-Assistenten erneut WEITER an. 7. Geben Sie bei DIAGRAMMTITEL: zum Beispiel Streudiagramm ein, bei RUBRIKENACHSE (X): cm und bei GRÖßENACHSE (Y): kg. 8. Klicken Sie WEITER an. 9. Akzeptieren Sie den Vorschlag von Excel, das Diagramm auf dem Tabellenblatt einzubetten, indem Sie FERTIG STELLEN anklicken. 10. Verändern Sie die Größe und Position Ihres Diagramms in geeigneter Weise. 11. Ändern Sie die Größe der Achsenbeschriftungen (Anklicken einer Achse, FORMAT/ MARKIERTE ACHSE…, Register SCHRIFT und ihre Skalierung im Register SKALIERUNG).
166
9.2
Zielsetzungen
12. Ändern Sie, wenn Sie das wünschen, auch die Ausrichtung der Achsenbeschriftung nach Anklicken der Achsenbeschriftung im Menü FORMAT/MARKIERTE ACHSENBESCHRIFTUNG…, Register AUSRICHTUNG. Damit gelangen Sie zur Abbildung 9.2.
Abb. 9.2: Streudiagramm (E09.XLS, CMKG1)
Uns liegt jetzt also in Form des Streudiagramms eine bivariate Häufigkeitsverteilung als Punktwolke vor (dass sie bei nur n 9 Beobachtungen etwas dürftig ausfällt, braucht uns jetzt nicht zu kümmern, denn alles, was für 9 Punkte gilt, gilt auch, was die jetzt einzusetzenden Methoden betrifft, für 90 oder für 9000 Beobachtungen). Wir stehen jetzt vor der Aufgabe, diese Punktwolke durch einen zusammenfassenden Ausdruck zu beschreiben. So wie also beispielsweise ein arithmetisches Mittel eine univariate Verteilung charakterisiert, so soll dieser Ausdruck die bivariate Verteilung zusammenfassend charakterisieren. Man geht dabei in der Statistik so vor, dass man in die Punktwolke eine mathematische Funktion hineinlegt, eine definierte Linie also, die mitten durch die Punktwolke hindurchlaufen soll – dies nennen wir eine zusammenfassende Beschreibung der Punktwolke. Diese Funktion soll so in der Punktwolke liegen, dass sie den einzelnen Punkten möglichst nahe kommt. Es tauchen nun zwei Fragen auf: 1. Von welchem Typ soll diese Funktion sein? 2. Wie geht das Hineinlegen der Funktion konkret vor sich? Zunächst zur Frage des Funktionstyps: Wenn man generell lineare von nichtlinearen Funktionen unterscheidet, reduziert sich die erste Frage darauf, ob eine lineare Funktion die Punktwolke angemessen zusammenfassend beschreibt oder ob eine nichtlineare Funktion angemessen ist. Die Beantwortung dieser Frage orientiert sich an den folgenden Überlegungen:
9
Regressionsrechnung (bivariat)
167
Wenn die Punktwolke so aussieht – wie im obigen Beispiel –, als repräsentiere sie einen linearen Zusammenhang, dann wählen wir eine lineare Funktion, andernfalls überlegen wir uns, welcher Typus einer nichtlinearen Funktion in Frage kommen könnte. Dies ist zweifelsohne eine eher triviale Feststellung – deshalb werden wir gleich noch ein sinnvolleres Entscheidungskriterium vorstellen. Zunächst aber zwei Beispiele nichtlinearer bivariater Verteilungen (siehe Abbildung 9.3).
Abb. 9.3: Nichtlineare Zusammenhänge (E09.XLS, Nichtlinear)
In Abbildung 9.3 sehen Sie eine aufwärts gekrümmte und eine u-förmige Punktwolke. Solche bivariaten Verteilungen sind in der wirtschafts- und sozialwissenschaftlichen Statistik eher selten. Es lassen sich aber etwa naturwissenschaftliche Anwendungsbereiche denken, bei denen derartige Punktwolken auftauchen könnten. Denken Sie beispielsweise an das schon erwähnte Beispiel der Ernteerträge auf Probefeldern in Abhängigkeit von unterschiedlichen Düngemitteleinsatzmengen. Man kann erwarten, dass mit zunehmendem Düngemitteleinsatz der Ernteertrag nicht nur tendenziell zunimmt, sondern sogar mit zunehmenden Zuwächsen zunimmt – also optisch aufwärts gekrümmt, wie das erste Beispiel der ersten Punktwolke in Abbildung 9.3. Allerdings kann man weiterhin erwarten, dass bei weiterer Erhöhung des Düngemitteleinsatzes die Zuwächse des Ernteertrags wieder abnehmen, d. h., der Anstieg der Punktwolke wird sich weiter rechts im Achsenkreuz wieder abschwächen – möglicherweise wird sie sogar ein Maximum überschreiten, um von da an sogar wieder in Richtung der X-Achse zu fallen (Überdüngung führt vielleicht sogar zu Verlusten im Ernteertrag). Sicherlich fallen Ihnen auch andere Beispiele für Punktwolken ein, die sich vielleicht wie eine geschwungene S-Kurve im Achsenkreuz nach oben bewegen, oder Punktwolken, die eher parabelförmig aussehen, oder solche, die vielleicht eher einer Sinusschwingung gleichen usw. Immer, wenn der Statistiker vor der Aufgabe steht, aufgrund des optischen Bildes einer gegebenen Punktwolke den Versuch zu unternehmen, sie durch eine nichtlineare Funktion zu beschreiben, erweitert sich die erste Frage, die nach dem Funktionstyp (linear oder nichtlinear)
168
9.2
Zielsetzungen
in der Weise, dass er nun auch noch darüber entscheiden muss, welche nichtlineare Funktion in Frage kommen könnte: Soll oder darf es eine Parabel sein, eine Hyperbel, eine Exponentialfunktion, eine trigonometrische Funktion …? Zudem tritt schon jetzt die folgende Überlegung hinzu: Wenn er sich für eine nichtlineare Funktion entscheidet, ist der mathematische Aufwand, der erforderlich ist, um sie optimal in die Punktwolke hineinzulegen, viel größer, als das bei linearen Funktionen der Fall ist. Deshalb schließen wir uns dem folgenden Vorschlag an: Wenn das optische Bild einer Punktwolke dem nicht eindeutig widerspricht (oder die Überlegungen, die wir gleich noch zusätzlich anstellen müssen), dann sollte man immer eine lineare Funktion vorziehen – nicht nur weil sie einfacher zu handhaben ist, sondern auch deshalb, weil sie inhaltlich in aller Regel leichter und überschaubarer zu interpretieren ist. Selbst bei einer gekrümmten Punktwolke kann man diesem Vorschlag folgen, wenn man sich klar macht, dass man eine solche gekrümmte Wolke in mehrere Teilwolken zerlegen kann, die ihrerseits jeweils durch lineare Funktionen charakterisiert werden können. Mit dem Blick auf das optische Erscheinungsbild einer gegebenen Punktwolke haben wir die erste gestellte Frage (welcher Funktionstyp?) aber noch nicht hinreichend beantwortet. Es müssen inhaltliche Überlegungen hinzutreten, wie erneut das Ernte-/Dünger-Beispiel verdeutlichen mag: Selbst wenn Sie bei der Auswertung verschiedener Probefelder hinsichtlich Düngemitteleinsatz und Ernteertrag zu einer relativ linear aussehenden Punktwolke gelangen, selbst dann sollten Sie sich klar darüber sein, dass prinzipiell mit zunehmendem Düngemitteleinsatz der Ernteertrag nicht beliebig linear ansteigen kann – die Punktwolke muss sich abflachen –, je weiter man sich nach rechts im Achsenkreuz bewegt, desto deutlicher. Also selbst wenn man die beobachtete Punktwolke mit einer linearen Funktion zuverlässig beschreiben kann, muss man sich verdeutlichen, dass in Wahrheit eigentlich doch ein nichtlinearer Zusammenhang vorliegt. Im Grunde sind diese eher theoretischen Überlegungen sogar noch wichtiger als die Inaugenscheinnahme der optischen Gestalt einer gegebenen Punktwolke. Aber auch in diesem Zusammenhang gilt die obige Anmerkung: Zumindest in Teilbereichen kann immer sehr gut mit linearen Funktionen gearbeitet werden – und dies ist Grund genug für uns, in diesem Buch bevorzugt diesen Fall der linearen Funktion zu behandeln. Damit gelangen wir zu zweiten Frage, die oben gestellt wurde. (Wie geht das Hineinlegen der linearen Funktion in eine Punktwolke konkret vor sich?) Bevor wir diese Frage beantworten (siehe Abschnitt 9.4), wollen wir im folgenden Abschnitt zunächst auf die Geometrie der linearen Funktion etwas näher eingehen. Sollte Ihnen dieses Thema aus dem Schulunterricht noch gut bekannt sein, können Sie diesen Abschnitt auch überblättern.
9
Regressionsrechnung (bivariat)
9.3
169
Mathematische Grundlagen
Eine lineare Funktion sieht in allgemeiner mathematischer Schreibweise so aus: yt i
a
b xi
Dabei bedeutet: a
Ordinatenabschnitt der Funktion (Schnittpunkt mit der Y-Achse)
b
Steigung der Funktion (Tangens des Steigungswinkels)
xi
Werte auf der X-Achse (i = 1,2 ... n)
yt i
Werte auf der Y-Achse (i = 1,2 ... n; der Zusatz t steht für theoretisch, darauf kommen wir in Abschnitt 9.4. zu sprechen)
Eine solche lineare Funktion sieht also so aus, wie es Abbildung 9.4 zeigt.
Abb. 9.4: Lineare Funktion (E09.XLS, Linear1)
Wenn der Ordinatenabschnitt a und die Steigung b nummerisch vorgegeben sind, ist eine lineare Funktion im Achsenkreuz eindeutig definiert. Beispiel: yt i
2 0,4 x i
Diese Funktion hat den Ordinatenabschnitt a 2 und die Steigung b 0,4 (0,4 bedeutet, dass die Funktion um 0,4 Y-Einheiten steigt, wenn X um eine Einheit zunimmt). Man kann diese Funktion also zeichnen, indem man notiert, dass sie durch den Punkt 2 auf der Y-Achse laufen muss und durch den Punkt 2 0,4 2,4 , wenn X von 0 auf 1 steigt. Hat man zwei Punkte, also P1 (0;2) und P2 (1;2,4), dann kann man diese zwei Punkte im Achsenkreuz miteinander verbinden und die Gerade auch über die Punkte hinauszeichnen (siehe Abbildung 9.5).
170
9.3
Abb. 9.5: yt i
Mathematische
2 0,4 x i (E09.XLS, Linear2)
Betrachten wir übungshalber noch ein paar andere lineare Funktionen und ihre grafische Präsentation: 1.
Y1
yt i
5 0,6 x i
2.
Y2
yt i
0,5 x i
3.
Y3
yt i
xi
4.
Y4
yt i
2
Diese Funktionen haben wir in Abbildung 9.6 dargestellt.
Abb. 9.6: Verschiedene lineare Funktionen (E09.XLS, Linear3)
9
171
Regressionsrechnung (bivariat)
Die erste Funktion hat eine negative Steigung (ein Gefälle gewissermaßen): Bei Zunahme von X um eine Einheit geht Y um 0,6 Einheiten zurück. Die Funktion schneidet die Y-Achse beim Wert 5. Die zweite Funktion zeichnet sich dadurch aus, dass der Ordinatenabschnitt 0 ist, d. h., die Gerade verläuft durch den Ursprung des Koordinatensystems. Ihre Steigung ist 0,5. Auch die dritte Funktion verläuft durch den Ursprung des Achsenkreuzes. Ihre Steigung ist 1, d. h., es handelt sich um die Diagonale im Achsenkreuz (Steigung b 1 bedeutet, dass der Tangens des Steigungswinkels 1 ist, und dies ist beim 45-Grad-Winkel der Fall). Die vierte Funktion schneidet die Y-Achse beim Wert a es handelt sich um eine Parallele zur X-Achse.
2 und hat die Steigung b
0 , d. h.,
Generell ist noch anzumerken, dass eine Veränderung von a zu einer Parallelverschiebung einer gegebenen linearen Funktion führt. Die Veränderung von b dreht eine lineare Funktion im Schnittpunkt mit der Y-Achse.
9.4
Die Methode der kleinsten Quadrate
Jetzt aber wenden wir uns der zweiten oben formulierten Frage zu: Auf welche Weise gelingt es, eine lineare Funktion so in eine gegebene Punktwolke zu legen, dass wir von einer optimalen Lage sprechen können? Optimal meint in diesem Zusammenhang, dass die lineare Funktion stellvertretend für alle Punkte der Punktwolke steht, diese also in bestmöglicher Form zusammenfassend beschreibt. Diese Frage impliziert eine andere, nämlich die Frage danach, wie denn hier das Stichwort optimal präzise definiert werden kann. Was unterscheidet eine bessere lineare Funktion von einer schlechteren? In der Statistik stellt man zur Klärung dieser Frage die folgende Überlegung an: Die Gerade soll sich den einzelnen Punkten der Punktwolke möglichst gut anpassen. Dies bedeutet, dass die Abstände zwischen den beobachteten Punkten und der noch zu bestimmenden Geraden möglichst klein werden sollen. Da dies natürlich für alle Punkte gelten soll, kann man sich vorstellen, zunächst einmal von der Summe aller Abstände auszugehen. Nun muss aber berücksichtigt werden, dass beliebig viele Geraden, wenn sie nur mitten durch die Punktwolke hindurchgehen, sich dadurch auszeichnen, dass die Summe aller Abweichungen von ihnen immer null wird, weil sich positive und negative Abweichungen gegenseitig aufheben werden. Zwei solcher Geraden zeigt Abbildung 9.7. Die Summe der Abweichungen ist also kein geeigneter Ansatzpunkt – wohl aber die Summe der quadrierten Abweichungen, weil alle quadrierten Abweichungen positiv sind (allenfalls null), so dass sich hier immer eine Summe ergeben wird, die größer als null (allenfalls null) ist. Man geht also von der folgenden Überlegung aus: Betrachtet wird für jeden einzelnen Punkt der Punktwolke der beobachtete Wert der Variablen Y für den jeweils gegebenen Wert der Variablen X. Hat man also zum Beispiel für eine Person, die 175 cm groß ist (X-Wert), das Gewicht 78 kg (Y-Wert) festgestellt, so gibt es für diese Person auch einen auf der Gerade liegenden Y-Wert – wenn die Gerade schließlich optimal bestimmt worden ist. Diesen Wert nennen wir Yt-Wert, den theoretischen (auf der Gerade liegenden) Wert der Variablen Y.
172
9.4
Die Methode
Abb. 9.7: Zwei Ausgleichsgeraden (Summe der Abweichungen = 0) (E09.XLS, Linear4)
Anders formuliert: Bei einer Körpergröße von 175 cm ist der Y-Wert 78 kg beobachtet worden, und es kann ein theoretisches Gewicht erwartet werden, nämlich der zu X 175 gehörende, auf der noch zu bestimmenden Geraden liegende Yt-Wert. Wir stellen also für die Person, die 175 cm groß ist, eine Abweichung zwischen beobachtetem Y-Wert und theoretischem Yt-Wert fest, deren Größe wir aber noch nicht kennen, weil die Gerade noch nicht im Achsenkreuz verankert ist. Für jede Person, also für jeden Merkmalsträger, d. h., für jeden Punkt der Punktwolke gibt es eine solche Abweichung, die generell als yi
yt i
geschrieben werden kann (i = 1,2 ... n). Diese Abweichungen werden, wie oben begründet, quadriert, und es wird die Summe dieser quadrierten Abweichungen gebildet, die also folgendermaßen geschrieben werden kann: QS
yi
yt i
2
Dabei steht QS für Quadratsumme, genauer für Summe der quadrierten Abweichungen. Die Quadrierung der Abweichungen ist nicht nur deshalb zweckmäßig, um zu verhindern, dass sich positive und negative Abweichungen bei einer Summenbildung gegenseitig ausgleichen, sondern sie führt auch dazu, dass auf dieser Grundlage hergeleitete lineare Funktionen angenehme wahrscheinlichkeitsstatistische Eigenschaften haben, auf die wir in einem späteren Kapitel zu sprechen kommen. Wozu ist nun diese Quadratsumme QS weiterhin nützlich? Ein bisschen Nachdenken führt zu dem Ergebnis, dass diese Quadratsumme nur von a und b, also von Ordinatenabschnitt und Steigung der noch zu bestimmenden linearen Funktion abhängig ist. Wir hatten ja weiter oben gesehen, dass durch diese beiden Parameter die Lage einer Geraden im Achsenkreuz eindeutig bestimmt ist. Wenn also a und b nummerisch gegeben sind, liegt die entsprechende Gerade fest.
9
173
Regressionsrechnung (bivariat)
Dann aber liegen auch die Yt-Werte fest, und da die Y-Werte sowieso vorgegeben sind, sind dann auch die Abweichungen ( y i yt i ), die quadrierten Abweichungen bestimmt. Damit ist dann auch die Summe der quadrierten Abweichungen festgelegt. Anders formuliert: Der Wert der Größe QS hängt nur von der Lage der Geraden, d. h. nur von den nummerischen Werten für a und b ab. Dies können wir so beschreiben, dass wir sagen, QS ist funktional von a und b (und von sonst nichts) abhängig: QS f a , b Ändern wir a und/oder b, ändert sich QS. Damit ist die Aufgabe deutlicher, vor der wir stehen: Die zu bestimmende Gerade liegt dann optimal in der Punktwolke, ihre Parameter a und b (Ordinatenabschnitt und Steigung) sind dann optimal bestimmt, wenn die Quadratsumme QS, die Summe der quadrierten (vertikalen) Abweichungen zwischen beobachteten Y-Werten und theoretischen Yt-Werten minimal ist. Oder: Ordinatenabschnitt a und Steigung b sind so zu bestimmen, dass QS minimal wird. Dies ist der Grundgedanke der so genannten Methode der kleinsten Quadrate, die in der Statistik eine bedeutsame Rolle spielt. Sie besagt also in mathematischer Schreibweise: QS f a , b
yi
yt i
2
min!
Setzt man für yt i in diese Beziehung die allgemeine Geradengleichung ein, ergibt sich: QS
yi
a b xi
2
min!
Da, wie schon berichtet wurde, QS bei gegebenen X- und Y-Werten einer bivariaten Punktwolke nur noch von a und b abhängt, können wir das Minimum dieser Funktion mit Hilfe der Differentialrechnung finden. Bildet man die beiden ersten (partiellen) Ableitungen von QS – einmal partiell abgeleitet nach a, einmal nach b – und setzt diese beiden ersten Ableitungen null (Bedingung für einen Extremwert, also auch für das Minimum), so erhält man zwei Bestimmungsgleichungen für a und b, also für die optimale Parameterkombination, die folgendermaßen aussehen (auf die Herleitung mit Hilfe der Differentialrechnung soll hier verzichtet werden): b a
n
x i yi n yi
n
xi
x i2 b
xi xi
n
2
yi
y bx
Sie sehen, dass hier viel mit Summen gearbeitet wird, d. h., bei umfangreicheren bivariaten Verteilungen ist viel zu rechnen – wenn man per Hand rechnet. Glücklicherweise entlastet uns auch hier Excel von mühsamer Arbeit und stellt die Funktionen ACHSENABSCHNITT und STEIGUNG zur Verfügung. Wir kommen darauf im folgenden Abschnitt zu sprechen. Auch wenn man einmal mit nichtlinearen Funktionen arbeiten müsste, wäre die prinzipielle Vorgehensweise die gleiche. Auch hier geht es darum, die Summe der senkrechten quadrierten Abweichungen zwischen beobachteten Y-Werten und den auf der Funktion liegenden Yt-
174
9.5
Beispiel zur Regressionsrechnung
Werten zu minimieren. Im Unterschied zum linearen Ansatz werden allerdings die Berechnungsmodalitäten etwas umständlicher und auch komplizierter.
9.5
Beispiel zur Regressionsrechnung
Wir gehen von dem folgenden Beispiel aus, das schon weiter oben aufgetaucht war (siehe Abbildung 9.8).
Abb. 9.8: Größe und Gewicht (E09.XLS, CMKG1)
Um von diesen Angaben ausgehend die Parameter der optimalen linearen Funktion zu bestimmen – man nennt sie übrigens Regressionsfunktion –, gehen Sie wie folgt vor: 1. 2. 3. 4.
Klicken Sie eine freie Zelle an, z. B. die Zelle A16. Geben Sie den Begriff Ordinatenabschnitt ein oder einfach nur a =. Geben Sie entsprechend in A17 Steigung ein oder b =. Klicken Sie B16 an, und rufen Sie den Excel-Funktions-Assistenten über EINFÜGEN/ FUNKTION… 5. Wählen Sie aus der Kategorie STATISTIK die Funktion ACHSENABSCHNITT, und klicken Sie OK an. 6. Geben Sie im zweiten Dialogfenster des Funktions-Assistenten folgende Informationen ein: bei Y_WERTE: B3:B11 bei X_WERTE: A3:A11 7. Klicken Sie dann OK an. Excel berechnet jetzt den Wert –78,4 (gerundet) als Ordinatenabschnitt der linearen Regressionsfunktion. Entsprechend erhalten Sie die Steigung wie folgt: 1.
Klicken Sie B17 an, wählen Sie aus der Kategorie STATISTIK die Funktion STEIGUNG, und klicken Sie OK an. 2. Geben Sie im zweiten Dialogfenster des Funktions-Assistenten die gleichen Informationen wie oben ein. 3. Klicken Sie dann OK an. Excel berechnet jetzt den Wert 0,88 (gerundet) als Steigung. Die lineare Regressionsfunktion lautet also: yt i
78,4 0,88 x i
Ihre Tabelle sieht jetzt so aus, wie es Abbildung 9.9 zeigt.
9
Regressionsrechnung (bivariat)
175
Abb. 9.9: Ausgangswerte und Parameter der Regressionsfunktion (E09.XLS, CMKG2)
Diese Gerade schneidet die senkrechte Achse im Punkt –78,4 (bedenken Sie bitte, dass die XAchse in der obigen Abbildung erst bei 165 beginnt und dass dort positive Y-Werte zu verzeichnen sind. Verlängern Sie die X-Achse gedanklich nach links bis zum Ursprung des Achsenkreuzes, dann ist verständlich, dass – von der Lage der Punktwolke ausgehend – dort ein negativer Achsenabschnittswert auftaucht), ihre Steigung ist 0,88. Besonders dieser Wert ist statistisch interessant. Er besagt, dass bei einer Zunahme der Körpergröße um einen Zentimeter tendenziell mit einer Zunahme des Gewichts um 0,88 kg zu rechnen ist. Diese Funktion ist eine zusammenfassende Beschreibung des Ausgangsdatenbestandes. Möglicherweise sind Sie der Auffassung, dass bei neun Wertepaaren diese Art der Zusammenfassung keineswegs informationsverbessernd ist, sondern eher verwirrend. Bedenken Sie aber, dass eine lineare Funktion dieser Art zusammenfassend auch 90 oder 9000 Wertepaare beschreiben kann, und dann kann man ihr mehr an Informationen entnehmen, als dies mit dem Blick auf die große Zahl einzelner Wertepaare möglich wäre. Eine solche Geradengleichung wird darüber hinaus umso informativer für Sie sein, je öfter Sie mit dieser Art regressionsstatistischer Ansätze zu tun haben, so dass sie aufgrund einer allmählich größer werdenden Vergleichsbasis solche Befunde interpretieren können. Mit dieser Regressionsfunktion ist es nun möglich auszurechnen, welche Gewichtsangaben für die einzelnen Personen – ausgehend von ihren Körpergrößen x i – zu erwarten wären. Es handelt sich um die Yt-Werte, also um die theoretischen, auf der nun bestimmten Geraden liegenden Gewichtsangaben. Mit Excel sind diese theoretischen Werte leicht zu berechnen, wie in der Tabelle der Abbildung 9.10 gezeigt ist.
176
9.5
Beispiel zur Regressionsrechnung
Abb. 9.10: Größe und Gewicht, empirische und theoretische Werte (E09.XLS, CMKG3)
Wenn in B16 der Ordinatenabschnitt und in B17 die Steigung steht, brauchen wir in die Zelle C3 zur Berechnung des ersten theoretischen Yt-Wertes nur einzugeben: =$B$16+$B$17*A3 Damit erhalten wir das zu erwartende Körpergewicht der ersten Person, nämlich 66,19 kg (gerundet). Für die erste Person, die, wie der Blick auf die Tabelle zeigt, 165 cm groß ist und 65 kg wiegt, ist also ein (theoretisches) Gewicht von 66,19 kg zu erwarten. Was heißt nun in diesem Zusammenhang „ist zu erwarten“? Im Grund geht es hier um die folgende Überlegung: Wenn die mit der Methode der kleinsten Quadrate bestimmte Gerade den wahren Zusammenhang zwischen Größe und Gewicht zutreffend zum Ausdruck bringen sollte (was wir aber nicht genau wissen; immerhin haben wir ja nur neun Erwachsene zufällig ausgewählt und nicht alle Erwachsenen dieser Erde in Vergangenheit, Gegenwart und Zukunft untersucht), dann müsste eine Person mit 165 cm Größe ein Gewicht von 66,19 kg erwarten lassen. Anders formuliert: Unsere erste Person ist etwas leichter, als sie sein müsste. Entsprechend können wir die anderen Werte von Excel berechnen lassen, wenn wir die Berechnung aus Zelle C3 nach unten bis zur Zelle C11 ziehen. Man kann die so berechneten theoretischen Werte, die wir ja auch Erwartungswerte genannt haben, auch als Prognosewerte bezeichnen, weil sie Antworten auf vorausschätzende Fragen sind: Welches Gewicht ist zu erwarten bei einer Person, die 180 cm groß ist? Oder: Welches Gewicht können wir für eine Person, die 180 cm groß ist, prognostizieren? Antwort: Wenn die Regressionsgerade den wahren Zusammenhang zutreffend zum Ausdruck bringt, dann kann das Gewicht 79,34 kg für eine 180 cm große Person prognostiziert werden. Sie erkennen: Die Regressionsfunktion hat nicht nur eine zusammenfassend beschreibende Aufgabe, sondern erfüllt auch prognostische Aufgaben. Dieser zweite Aspekt ist vielleicht noch wichtiger als der erste, weil wir jetzt auch Fragen etwa der folgenden Art beantworten können: Welches Gewicht lässt eine Person erwarten, die 195 cm groß ist? Sie sehen, diese Frage richtet sich auf einen Sachverhalt, der in unserem Ausgangsdatenbestand überhaupt nicht beobachtet worden ist. Niemand der neun zufällig befragten Erwachsenen ist 195 cm groß. Trotzdem können wir eine Prognose des Gewichts einer solchen Person wagen, indem wir einfach von der berechneten Regressionsgeraden ausgehen: yt i
78,4 0,88 x i
78,4 0,88 195 93,2 kg
9
Regressionsrechnung (bivariat)
177
Es versteht sich, dass solche Prognosen sinnvoll nur innerhalb eines vernünftig abgegrenzten Wertebereichs durchgeführt werden können. Sicherlich hat es keinen Zweck, nach dem Gewicht einer Person zu fragen, die 355 cm groß ist. Offensichtlich wird eine solche Prognose umso ungenauer – wenn nicht sogar unsinnig –, je weiter der X-Wert, für den prognostiziert werden soll, von den beobachteten X-Werten entfernt ist. Und weil wir gerade dabei sind: Eine solche Prognose wird umso besser (treffsicherer) sein, je mehr Punkte in der Punktwolke, aus der die Regressionsfunktion berechnet wurde, versammelt waren und je enger diese Punktwolke ist, d. h., je näher die beobachteten Werte an die Regressionsgerade heranrücken. Bemerkenswert ist in diesem Zusammenhang – Sie können das auch der obigen Tabelle entnehmen –, dass die Summe der beobachteten Y-Werte identisch ist mit der Summe der für die gegebenen X-Werte prognostizierten Yt-Werte: yi
yt i
Sie sollten sich einmal in Ruhe überlegen, warum das so ist und warum das auch so sein muss. In diesem Zusammenhang noch eine Anmerkung mathematischer Art: Die mit der Methode der kleinsten Quadrate bestimmte Regressionsgerade muss durch den Punkt im Achsenkreuz verlaufen, der durch die beiden arithmetischen Mittel definiert ist (durchschnittliche Größe, durchschnittliches Gewicht). Wenn Sie diese Werte mit der Excel-Funktion MITTELWERT ausrechnen, ergibt sich als durchschnittliche Größe 177,33 cm und als durchschnittliches Gewicht 77 kg (gerundet). Setzt man den Wert 177,33 in die obige Geradengleichung ein, ergibt sich: yt i
78,4 0,88 x i
78,4 0,88 177,33 77 kg
Genau genommen ergibt sich bei der Berechnung mit den oben angegebenen Parameterwerten der Yt-Wert 77,65 und nicht – wie erwartet – der Wert 77. Bedenken Sie aber, dass Ordinatenabschnitt a und Steigung b kräftig gerundet wurden. Nimmt man die etwas genaueren Werte, die Excel anbietet (nämlich a 78, 43589744 und b 0,876518219 ), dann ergibt sich tatsächlich yt 77 . Man kann es übrigens auch leicht mathematisch beweisen, dass die Regressionsgerade durch diesen speziellen Punkt hindurchlaufen muss. Darauf darf hier aber verzichtet werden. Wenn Sie nun die Punktwolke zusammen mit der Regressionsgeraden zeichnen wollen, gehen Sie folgendermaßen vor: 1. 2. 3. 4. 5. 6. 7.
Markieren Sie die Ausgangsdaten (A3 bis B11). Wählen Sie EINFÜGEN/DIAGRAMM… Wählen Sie den Diagrammtyp PUNKT (XY). Akzeptieren Sie den Untertyp, der von Excel vorgeschlagen wird, und klicken Sie WEITER an. Klicken Sie im zweiten Dialogfenster des Diagramm-Assistenten erneut WEITER an. Blenden Sie im dritten Dialogfenster (Register LEGENDE) die Legende aus, und klicken Sie WEITER an. Akzeptieren Sie den Vorschlag von Excel, das Diagramm im Tabellenblatt einzufügen, indem Sie FERTIG STELLEN anklicken.
178
9.5
Beispiel zur Regressionsrechnung
8.
Verändern Sie, wenn Sie wollen, Größe und Lage Ihres Diagramms, verändern Sie die Größe der Achsenbeschriftung (Anklicken der Achse, FORMAT/MARKIERTE ACHSE…, Register SCHRIFT), verändern Sie die Skalierung der senkrechten Achse (Register SKALIERUNG). Ihr Diagramm sieht jetzt so aus, wie es Abbildung 9.11 zeigt.
Abb. 9.11: Punktwolke (E09.XLS, CMKG4)
Um nun die Regressionsgerade einzuzeichnen, sind folgende Schritte erforderlich: Klicken Sie mit der rechten Maustaste auf einen der Datenpunkte. Es öffnet sich ein Kontextmenü, aus dem Sie die Position TRENDLINIE HINZUFÜGEN… wählen. Damit gelangen Sie zum Dialogfenster der Abbildung 9.12.
Abb. 9.12: TRENDLINIE HINZUFÜGEN…
9
Regressionsrechnung (bivariat)
179
Im Register TYP wird Ihnen als Erstes die lineare Funktion angeboten (Sie sehen, dass Sie hier auch zwischen verschiedenen Typen nichtlinearer Funktionen wählen können). Bestätigen Sie dieses Angebot, indem Sie auf OK klicken. Excel zeichnet jetzt die lineare Regressionsfunktion in die gegebene Punktwolke ein (siehe Abbildung 9.13).
Abb. 9.13: Punktwolke und Regressionsfunktion (E09.XLS, CMKG5)
Wenn Sie sich noch einmal das Dialogfenster der Abbildung 9.12 anschauen und dort das Register OPTIONEN aufblättern, dann erkennen Sie unter anderem, dass Ihnen Excel auch anbietet, durch Anklicken von FORMEL IM DIAGRAMM DARSTELLEN, den mathematischen Funktionstyp im Diagramm ausgeben zu lassen, d.h., Sie können deshalb auch auf den Einsatz der Funktionen ACHSENABSCHNITT und STEIGUNG verzichten. Speziell bei nichtlinearen Funktionen ist diese Ausgabe der Funktionsgleichung eine sehr hilfreiche Sache. Hier noch ein letztes Beispiel, um zu zeigen, wie Sie Excel dazu einsetzen können, auch über den Bereich hinaus, für den Sie Daten erhoben haben, Prognosen durchzuführen. Dargestellt werden in der Tabelle der Abbildung 9.14 zwei Variablen, die bei Schülern einer Hauptschulklasse erhoben wurden: X
Anzahl der Fehler in einem Deutschdiktat
Y
Anzahl der Rechenfehler in einer Mathematik-Klassenarbeit
Die Regressionsfunktion, die wir mit den Excel-Funktionen ACHSENABSCHNITT und STEIGUNG bestimmen, hat das folgende Aussehen: yt i
7,086 0,686 x i
Sie erkennen, mit zunehmenden Werten der Variablen X (zunehmende Fehleranzahl im Deutschdiktat) geht tendenziell die Zahl der Rechenfehler zurück. Hier liegt also ein gegenläufiger statistischer Zusammenhang vor.
180
9.6
Fallstricke
Abb. 9.14: Diktat- und Mathefehler (E09.XLS, Diktat)
In den Zellen A16 und B16 dieser Tabelle bieten wir die Möglichkeit für prognostische Aussagen. Gibt man in Zelle A16 einen beliebigen X-Wert ein (zum Beispiel neun Fehler im Deutschdiktat), so wird in Zelle B16 der Wert 0,9143 ausgegeben, weil dort die Berechnungsformel für die Regressionsbeziehung eingegeben wurde: =B10+B11*A16 Wer also neun Fehler im Deutschdiktat macht, lässt weniger als einen Fehler in der Mathematik-Klassenarbeit erwarten. Wir sehen hier übrigens wieder einmal, dass mit statistischen Methoden manchmal Berechnungsergebnisse erzeugt werden können, die in Wirklichkeit nie auftauchen können: Es wird keinen einzigen Schüler geben, der wirklich irgendwann einmal 0,9143 Rechenfehler macht. Trotzdem ist ein solcher Befund nicht sinnlos. Letztlich bedeutet diese krumme Zahl nämlich, dass alle Schüler, die neun Fehler im Deutschdiktat machen, im Durchschnitt betrachtet 0,9143 Rechenfehler erwarten lassen – und als Durchschnittswert ist eine solche Dezimalzahl ja keineswegs sinnlos –, immer vorausgesetzt, der durch die berechnete lineare Regressionsfunktion zum Ausdruck gebrachte statistische Zusammenhang zwischen X und Y trifft tatsächlich zu.
9.6
Fallstricke
Wenn wir uns nicht für die Körpergröße und das Gewicht zufällig ausgewählter Erwachsener interessieren, sondern zum Beispiel einmal für die Geburtenrate in verschiedenen Ländern (Anzahl der Geburten pro 1000 Einwohner) und die Zahl der Störche pro 100 Quadratkilometern Fläche in diesen Ländern, gelangen wir zu den Daten der Abbildung 9.15. Aus diesen Angaben kann man Ordinatenabschnitt und Steigung einer linearen Regressionsfunktion bestimmen, wobei sich ergibt (gerundet): a
0,68
b
0,083
9
Regressionsrechnung (bivariat)
181
Abb. 9.15: Störche und Geburten in ausgewählten Ländern (E09.XLS, Storch1)
Berechnet man mit den oben angegebenen Parametern – wie schon im Zahlenbeispiel zuvor – die Erwartungswerte, so gelangt man zu den Werten der Spalte D, die wir zusammen mit der grafischen Präsentation der Daten und der linearen Regressionsfunktion in Abbildung 9.16 sehen (bei der Bestimmung der Regressionsfunktion habe wir dieses Mal auch die mathematische Gleichung mit ausgeben lassen: Kontextmenü TRENDLINIE HINZUFÜGEN…, Register OPTIONEN, Position FORMEL IM DIAGRAMM DARSTELLEN).
Abb. 9.16: Störche und Geburten in ausgewählten Ländern (E09.XLS, Storch2)
Was sagen uns die Ergebnisse der Abbildung 9.16? Offenbar besagt der vorliegende statistische Befund, dass mit steigenden Werten der Variablen X (Anzahl der Störche pro 100 qkm) die Geburtenziffer tendenziell in die Höhe geht – ein Befund, der Ihnen seltsam erscheinen mag. Aber so sind die Daten, da gibt es kein Vertun. Nun wissen wir allerdings aufgrund einer gewissen Lebenserfahrung, dass Störche und Geburten miteinander nichts zu tun haben ... oder sollten wir uns da getäuscht haben? Ist eine Prognose unsinnig, die aufgrund der gegebenen Daten behauptet, dass in einem Land eine hohe Geburtenziffer zu erwarten ist, wenn die
182
9.6
Fallstricke
Storchenanzahl hoch ist? Doch wohl nicht! Unsinnig allerdings wäre es zu behaupten, weil in einem bestimmten Land die Storchanzahl hoch ist, ist auch eine hohe Geburtenziffer zu erwarten. Beachten Sie bitte den feinen Unterschied zwischen den beiden Wörtchen weil und wenn. Wir wissen aufgrund unserer Lebenserfahrung, dass der deutliche statistische Zusammenhang zwischen Störchen und Geburten kein kausaler Zusammenhang (verursachender Zusammenhang) ist. Woher kommt dann aber der statistische Zusammenhang, wenn keine direkte Verursachung zwischen beiden Variablen zu entdecken ist? Wer meint, er könne die Geburtenziffern zwecks Sicherung der späteren Renten in Deutschland dadurch in die Höhe treiben, dass er Störche importiert (denn in einem Land mit vielen Störchen gibt es ja, wie die Statistik gezeigt hat, viele Babys), der wird Schiffbruch erleiden. Woher kommt also der statistische Zusammenhang? Ein bisschen Nachdenken bringt uns auf die richtige Spur: Offenkundig gibt es weitere Variablen, mindestens eine dritte Variable, die sowohl eng mit den Störchen als auch eng mit den Geburten zusammenhängt, so dass der Zusammenhang zwischen diesen beiden ursprünglich interessierenden Variablen sich quasi automatisch ergibt. Diese dritte Variable könnte beispielsweise das wirtschaftliche Entwicklungsniveau der betrachteten Länder sein. Je höher der Entwicklungsstand, desto weniger Störche gibt es, und die Zahl der Geburten geht auch zurück. Dass sich somit zwischen Störchen und Geburten ein deutlicher statistischer Zusammenhang ergibt, braucht uns also überhaupt nicht zu wundern. Zugegeben, bei diesem Beispiel sind die Dinge recht leicht zu durchschauen. Wie ist es aber, wenn man zwei Variablen X und Y betrachtet, bei denen man über eventuelle Wechselwirkungen mit dritten Variablen nichts oder nur sehr wenig weiß? Da stellt man vielleicht auch einen deutlichen Zusammenhang fest, gelangt zu relativ treffsicheren prognostischen Aussagen und stützt darauf dann vielleicht politische Entscheidungen. Die aber schlagen fehl, wenn unerkannte Drittvariableneinflüsse den interessierenden Zusammenhang mehr oder weniger nur vortäuschen. Es ist aus dieser Problemsituation zu schließen, dass wir uns gelegentlich auch mit der Frage befassen müssen, wie man eventuelle Drittvariableneinflüsse kontrollieren kann (siehe dazu Kapitel 21).
10
Zusammenhangsrechnung
„Treibe Sport oder bleib gesund.“ Winston Churchill, britischer Premier, 1955
Wer Sport treibt, bleibt gesund? 10.1 Das Klassenbuch 10.2 Korrelations- und Determinationskoeffizient 10.3 Rangkorrelation 10.4 Zusammenhangsmaße für Nominaldaten 10.5 Der Alleskönner
10.1
Das Klassenbuch
Zwei Jahre lang war ich für das Klassenbuch zuständig. Ich hatte den durchgenommenen Stoff und die Hausaufgaben einzutragen, was dann vom jeweiligen Lehrer abgezeichnet wurde. Außerdem war zu notieren, wer zu spät zum Unterricht kam und warum, und ich hatte einzutragen, wer von meinen Mitschülern fehlte und was in den einzelnen Entschuldigungen als Grund für dieses Fehlen angegeben wurde. Dabei machte ich im Lauf der Zeit die folgende bemerkenswerte Entdeckung: Diejenigen meiner Mitschüler, die man für die besseren Sportler halten durfte, ich gehörte übrigens nicht dazu, weil ich im Schulsport eher eine Niete war, die fehlten im Durchschnitt öfter als die Übrigen. Und bemerkenswerterweise tauchten in den Entschuldigungen und ärztlichen Attesten häufig Stichwörter auf, die den Schluss erlaubten, dass sportliche Betätigungen mit für die Fehlzeiten verantwortlich waren. Die Ursachen waren nämlich nicht die üblichen Erkältungskrankheiten, sondern häufig Verstauchungen, Muskelzerrungen, Bänderrisse, Schlüsselbeinbrüche, Gehirnerschütterungen, Prellungen und Blutergüsse. Es verstärkte sich in mir der Verdacht, dass es einen Zusammenhang zwischen dem Ausmaß und der Art der sportlichen Aktivitäten meiner Mitschüler und den Entschuldigungen, mit denen sie dem üblichen Schulunterricht mehrfach im Jahr fernblieben, geben müsse. Da gab es Skifahrer und Langstreckenläufer, Hochspringer und Fußballspieler, Schwimmer und Reiter – und dann gab es noch den Rudi M., der ein begeisterter, wenn auch erfolgloser Boxer war. Ich behielt die Erkenntnis dieser auffälligen statistischen Korrelation (dieses Wort kannte ich damals noch nicht) aber für mich, hörte ich doch oft genug, wie bedauerlich es sei, dass ich meine Tage so unsportlich verbrachte, zog ich es doch vor, mit meinem Märklin-Metallbaukasten zu spielen oder pro Woche mindestens drei bis vier Bücher zu lesen. An der Wand in meinem Zimmer hing übrigens ein Poster von Churchill, der, so vermute ich, auch wenig unter Verstauchungen litt.
10.2
Korrelations- und Determinationskoeffizient
Wir hatten schon bei unseren einleitenden Bemerkungen zur Regressionsrechnung im vorangegangenen Kapitel darauf aufmerksam gemacht, dass in der bivariaten Statistik zwei Aufgaben anfallen, nämlich die Beschreibung der Art des statistischen Zusammenhangs zwischen zwei Variablen (dies war Aufgabe der Regressionsrechnung, wobei wir uns auf die Betrach-
184
10.2
Korrelations- und Determinationskoeffizient
tung linearer Zusammenhänge beschränkt haben) und die Quantifizierung der Stärke des statistischen Zusammenhangs zwischen zwei Untersuchungsvariablen. Mit dieser zweiten Aufgabe hat die Korrelationsrechnung oder Zusammenhangsrechnung zu tun, mit der wir uns in diesem Kapitel befassen. Es ist dabei zweckmäßig, die Vielzahl der zur Verfügung stehenden Zusammenhangsmaße danach einzuteilen, für welche Skalenqualitäten der zu betrachtenden Variablen sie eingesetzt werden können, d. h., wir werden Zusammenhangsmaße für Nominaldaten für Ordinaldaten für metrische Daten betrachten und beginnen bei den metrischen Daten. Dies schließt nämlich direkt an die Ausführungen des vorangegangenen Kapitels an. Bei metrischen Daten wird üblicherweise der so genannte Korrelationskoeffizient von Bravais/Pearson berechnet, um die Stärke des Zusammenhangs zwischen den beiden interessierenden Untersuchungsvariablen zum Ausdruck zu bringen. Damit wird übrigens einleitend eines wieder sehr deutlich: Wir betrachten hier nur bivariate Statistiken, d. h., eventuelle Drittvariableneinflüsse interessieren jetzt noch nicht (siehe dazu Kapitel 21).
10.2.1 Der Korrelationskoeffizient von Bravais/Pearson Dieser Koeffizient kommt auf der Grundlage der folgenden Überlegungen zustande, die wir wieder mit dem Körpergrößen-Körpergewicht-Beispiel des vorangegangenen Kapitels illustrieren wollen.
Abb. 10.1: Größe und Gewicht, Ausgangsdaten und Punktwolke (E10.XLS, CMKG1)
Je enger eine Punktwolke, desto stärker der Zusammenhang zwischen X und Y. Wie kann man nun die Enge der Punktwolke quantifizieren? Um diese Frage zu beantworten, gehen wir
10
185
Zusammenhangsrechnung
von den Streuungsverhältnissen aus: Zunächst haben wir von Excel mit der Funktion MITTELWERT die Durchschnittswerte und danach mit der Funktion VARIANZEN die Varianzen berechnen lassen (die Varianz, Sie erinnern sich, war definiert als das Quadrat der Standardabweichung; siehe Kapitel 5, Abschnitt 5.4): Die entsprechenden Werte finden sich in den Zeilen 12 und 13 der Tabelle in Abbildung 10.1. Wir können nun die interessierende Enge der Punktwolke dadurch zum Ausdruck bringen, dass wir uns anschauen, wie die Punkte innerhalb der Punktwolke streuen. Schauen Sie sich dazu noch einmal Abbildung 10.1 in Verbindung mit den berechneten Mittelwerten und Varianzen an. Wir können feststellen, dass die Variable X (Körpergröße) nach Maßgabe von 54,89 (Varianz von X) streut – sich gewissermaßen auf der X-Achse bewegt. Dabei ist diese Varianz definiert als: sx 2
var x
1 n
xi
x
1 n
2
xi
x xi
x
Entsprechend bewegt sich die Variable Y nach Maßgabe ihrer Varianz (43,78) auf der senkrechten Achse, wobei gilt: sy2
var y
1 n
yi
y
1 n
2
yi
y yi
y
Ausgehend von diesen beiden Rechenvorschriften für Varianzen kann nun eine dritte konstruiert werden, welche die ersten beiden gewissermaßen mischt: cov x, y
1 n
xi
x yi
y
Diese Größe wird Covarianz genannt. Sie ist ein Maß für das gemeinsame Streuen von X und Y in der gegebenen Punktwolke. Es dürfte einsichtig sein, dass es ein bestimmtes Verhältnis mathematischer Art zwischen dieser Covarianz und den beiden Einzelvarianzen geben muss. Was hat es mit der Covarianz auf sich? Betrachten Sie zur Beantwortung dieser Frage Abbildung 10.2. Wir haben in der Punktwolke eine einzige Beobachtung, also einen Punkt P1 hervorgehoben. Zudem haben wir zwei stärkere Geraden eingezeichnet. Die waagerechte schneidet die YAchse im arithmetischen Mittel der Y-Werte, die senkrechte schneidet die X-Achse im arithmetischen Mittel der X-Werte. Dies erlaubt uns, die Größe xi
x yi
y , d.h. für P1: x1
x y1
y
in diese Skizzen als eine Rechtecksfläche einzuzeichnen. Das Rechteck hat die Breite x1
x
und die Länge y1
y
Die Summe all dieser Rechtecke (unter Berücksichtigung aller anderen Punkte), dividiert durch n (n ist die Zahl der Beobachtungen, also die Gesamtzahl der Punkte in der Punkt-
186
10.2
Korrelations- und Determinationskoeffizient
wolke), also die durchschnittliche Rechtecksfläche ist eine geometrische Veranschaulichung der Covarianz.
Abb. 10.2: Herleitung der Covarianz (E10.XLS, COV)
Entsprechend kann xi
x xi
x
als Quadratfläche interpretiert werden, und die Varianz der Variablen X ist nichts anderes als die durchschnittliche Quadratfläche über alle Punkte. Das Gleiche gilt schließlich für yi
y yi
y
d. h., auch die Varianz der Y-Werte kann geometrisch als eine durchschnittliche Quadratfläche interpretiert werden. Sofort wird nun mit Blick auf die obige Skizze deutlich, dass die Rechtecksfläche immer eine Größe hat, die nicht größer werden kann als der Durchschnitt aus beiden Quadratflächen. Dabei ist der Unterschied zwischen Rechtecksfläche und den Quadratflächen umso größer, je dicker die Punktwolke ist. Je schmaler die Punktwolke wird – im Extremfall liegen alle Punkte genau auf der Regressionsgeraden, die Wolke hat dann die Dicke null –, desto näher kommt die Rechtecksfläche den Quadratflächen. Wenn alle beobachteten Punkte tatsächlich im Extremfall genau auf der Regressionsgeraden liegen sollten, dann ist die Rechtecksfläche für einen bestimmten Punkt mit jeweils einer der beiden Quadratflächen identisch. Wir haben dies deshalb so ausführlich erläutert, um zu verdeutlichen, dass das Verhältnis Covarianz (durchschnittliche Rechtecksfläche) zu Einzelvarianzen (durchschnittliche Quadratflächen) ein Maß für die Dicke der Punktwolke und damit für die Stärke des Zusammenhangs zwischen X und Y ist – und das ist es ja, was uns hier interessiert. Übrigens, Sie können mit der Excel-Funktion KOVAR die Covarianz aus dem oben gegebenen Datenbestand (Größe und Gewicht zufällig ausgewählter Erwachsener) ausrechnen, wobei sich der Wert 48,11 ergibt (siehe Zeile 16 in der Tabelle der Abbildung 10.1). Sie müssen
10
187
Zusammenhangsrechnung
dazu im zweiten Dialogfenster des Funktions-Assistenten die beiden Datenreihen (Größen und Gewicht), also die Zellbereiche (A3:A11) und (B3:B11) als Argumente bei den Stichwörtern MATRIX1 und MATRIX2 eingeben. In der Statistik hat man eine Maßzahl definiert, welche die Covarianz in Beziehung setzt zum geometrischen Mittel aus den beiden Einzelvarianzen (Sie erinnern sich, das geometrische Mittel aus zwei Werten ist definiert als die Quadratwurzel aus dem Produkt dieser beiden Werte; siehe Kapitel 4, Abschnitt 4.6). Diese Maßzahl wird mit r bezeichnet: r
cov x, y var x var y
Setzt man die Berechnungsformeln für die Covarianz und die beiden Einzelvarianzen in diesen Ausdruck ein und formt man ein bisschen mathematisch um, so ergibt sich die folgende Berechnungsformel für r. Sie muss benutzt werden, wenn Sie aus einem gegebenen Datenbestand den Korrelationskoeffizieten r per Hand berechnen wollen. n
r
n
xi
2
x i yi xi
xi 2
n
yi y
2 i
y
2 i
Dieser Wert r ist ein Maß für die Stärke des Zusammenhangs zwischen den beiden betrachteten Variablen X und Y und wird als Korrelationskoeffizient von Bravais/Pearson bezeichnet. Berechnet man diesen Wert für die obigen Daten, indem man die angegebene Rechenvorschrift verwendet, ergibt sich: r
48,11 54,89 43,78
0,98
Auch für solche einfachen arithmetischen Zwischenrechnungen können Sie Excel selbstverständlich einsetzen: Klicken Sie eine freie Zelle an, und geben Sie ein: =48,11/WURZEL(54,89*43,78) Sie sehen, wir haben hier die Excel-Funktion WURZEL verwendet, die bisher noch nicht aufgetaucht war. Den Korrelationskoeffizienten können Sie allerdings viel schneller unter Nutzung der ExcelFunktion KORREL berechnen, weil Sie dann weder vorher die Einzelvarianzen noch die Covarianz berechnen müssen. Geben Sie einfach in eine freie Zelle ein: =KORREL(A3:A11;B3:B11) und schon gelangen Sie zum gewünschten Ergebnis. Natürlich können Sie stattdessen auch über EINFÜGEN/FUNKTION… den Funktions-Assistenten aufrufen, im ersten Dialogfenster aus der Kategorie STATISTIK die Funktion KORREL auswählen, OK anklicken und im zweiten Fenster bei MATRIX1 den ersten Bereich (A3:A11) und bei MATRIX2 den zweiten Bereich (B3:B11) eingeben. Klicken Sie dann OK an, erscheint auch das gewünschte Ergebnis in der vorher angeklickten Tabellenzelle. Aus den oben vorgetragenen Überlegungen zur geometrischen Veranschaulichung des Korrelationskoeffizienten ergibt sich, dass sein Maximalwert 1 ist. Dann liegt eine extrem
188
10.2
Korrelations- und Determinationskoeffizient
schmale Punktwolke vor (alle beobachteten Punkte liegen genau auf der Regressionsgeraden), d. h., der Zusammenhang zwischen X und Y ist maximal stark. Es kann keinen Wert für den Korrelationskoeffizienten r geben, der größer als 1 ist. Der Definitionsbereich für r ist folgender: 1 r
1
Bei r 1 liegt, wie gesagt, ein maximal starker, gleichgerichteter Zusammenhang vor (steigen die Werte der Variablen X, steigen auch die der Variablen Y), bei r 1 liegt ein maximal starker, gegenläufiger Zusammenhang vor (steigt X, fällt Y), bei r 0 liegt kein statistischer Zusammenhang vor – Zwischenwerte für r können entsprechend interpretiert werden. In unserem Beispiel hatte sich für den Zusammenhang zwischen Größe und Gewicht von neun zufällig ausgewählten Erwachsenen ergeben: r 0,98 . Dies ist offensichtlich ein sehr starker, gleichgerichteter statistischer Zusammenhang. Wir können diesen Koeffizienten so interpretieren, dass mit steigender Körpergröße mit sehr hoher Wahrscheinlichkeit auch das Körpergewicht zunimmt.
10.2.2 Fehlinterpretationen Wie schon bei der Regressionsrechnung (siehe Kapitel 9) lauern nun allerdings auch hier ein paar Fallstricke bei der Interpretation berechneter Korrelationskoeffizienten, die mit den dort schon angesprochenen Problemen direkt zusammenhängen. Erinnern Sie sich an das Beispiel mit den Störchen und den Geburten. Wir hatten einen Datenbestand vorgestellt (siehe Abbildung 10.3), der zu r 0,92 (gerundet) führt. Also besteht auch hier ein starker statistischer Zusammenhang, der aber – wie wir schon in Kapitel 9 dargelegt haben – ein vorgetäuschter Zusammenhang sein dürfte. Er kommt durch eine gemeinsam wirkende Drittvariable zustande, deren Einfluss auspartialisiert werden muss, wenn man den wahren Zusammenhang zwischen Geburten und Störchen entdecken will. Darüber werden wir aber erst in Kapitel 21 sprechen.
Abb. 10.3: Geburten und Störche (E10.XLS, Storch1)
Hier taucht aber auch noch eine zweite Möglichkeit von Fehlinterpretationen des Korrelationskoeffizienten auf, die in der Praxis leider nicht selten zu beobachten ist. Schauen Sie sich bitte die Tabelle in Abbildung 10.4 an. In der Spalte B wurde für verschiedene Stadtteile Dortmunds der Ausländeranteil erfasst, in der Spalte C die so genannte Kriminalitätsrate (Anzahl zur Anzeige gebrachter Delikte pro 1000 Einwohner).
10
Zusammenhangsrechnung
189
Abb. 10.4: Ausländer und Kriminalität (E10.XLS, Krimi)
Hier ergibt sich unter Nutzung des Befehls =KORREL(B2:B10;C2:C10) der Wert r 0,94 (gerundet), also wird auch hier ein sehr hoher, gleichgerichteter Zusammenhang festgestellt. Man könnte nun aus diesem Befund schließen, dass Ausländer tendenziell eher straffällig werden, denn in Stadtteilen mit hohem Ausländeranteil ist ja offensichtlich die Kriminalitätsrate höher als in Stadtteilen mit niedrigerem Ausländeranteil. Diese Schlussfolgerung ist aber nicht zulässig: In der Tat ist es – ausgehend von den Daten – richtig zu sagen, dass in Stadtteilen mit hohem Ausländeranteil die Kriminalitätsrate tendenziell höher ist. Bedenken Sie aber, dass die hier betrachteten Merkmalsträger Stadtteile sind und nicht Personen. Der Rückschluss auf die Personenebene ist so ohne weiteres nicht möglich. Die Gefahr eines Fehlschlusses droht.
10.2.3 Determinationskoeffizient Eine besonders interessante weitere Maßzahl in diesem Zusammenhang ist der Determinationskoeffizient, der einfach als das Quadrat des Korrelationskoeffizienten definiert ist. Dieser Determinationskoeffizient hat bemerkenswerte Eigenschaften, die wir an einem weiteren Zahlenbeispiel illustrieren wollen. In der Tabelle der Abbildung 10.5 haben wir für zehn zufällig ausgewählte Personen das Alter und den oberen Blutdruckwert notiert.
Abb. 10.5: Alter und Blutdruck (E10.XLS, Blut1)
Stellt man diese Daten grafisch dar, gelangt man zur Abbildung 10.6.
190
10.2
Korrelations- und Determinationskoeffizient
Abb. 10.6: Alter und Blutdruck (E10.XLS, Blut2)
Es zeigt sich ein gleichgerichteter Zusammenhang, der anschaulich durch eine lineare Regressionsfunktion zusammenfassend beschrieben werden kann. Zur Quantifizierung der Stärke des Zusammenhangs verwenden wir den Korrelationskoeffizienten von Bravais/Pearson. Also geben wir ein: In Zelle A13:
a=
In Zelle A14:
b=
In Zelle A15:
r=
In Zelle B13:
=ACHSENABSCHNITT(B2:B11;A2:A11)
In Zelle B14:
=STEIGUNG(B2:B11;A2:A11)
In Zelle B15:
=KORREL(B2:B11;A2:A11)
Abb. 10.7: Regressions- und Korrelationsrechnung (E10.XLS, Blut3)
Zusätzlich führen wir noch folgende Berechnungen durch, auf deren Nützlichkeit wir ein bisschen später zu sprechen kommen (siehe Abbildung 10.8):
10
1. 2.
3.
Zusammenhangsrechnung
191
Zunächst bestimmen wir in Spalte C der Tabelle die theoretischen Yt-Werte, also die Blutdruckwerte, die auf der Regressionsgeraden zu erwarten sind. Weiterhin untersuchen wir, wie weit die beobachteten Y-Werte (Blutdruckwerte) von den zu erwartenden Blutdruckwerten abweichen, indem wir einfach durch Excel die Differenzen zwischen Y- und Yt-Werten ausrechnen lassen (Spalte D). Die Summe dieser Differenzen muss übrigens null sein. Schließlich berechnen wir durch Excel zur Charakterisierung der Streuungsverhältnisse Varianzen – und zwar interessieren wir uns für die Streuung der Blutdruckwerte (YWerte), für die Streuung der theoretischen Blutdruckwerte (Yt-Werte) und für die Streuung der Differenzen, also der Abweichungen zwischen beobachteten und theoretischen Blutdruckwerten, für die Y-Reste gewissermaßen.
Abb. 10.8: Alter und Blutdruck, beobachtete, theoretische Werte und Abweichungen (E10.XLS, Blut4)
Die zuletzt angesprochenen Varianzen haben wir in Zeile 17 unter Nutzung der Excel-Funktion VARIANZEN ausgerechnet. Wir erkennen hier zwei bemerkenswerte Sachverhalte: 1.
Die Varianz der theoretischen Werte ist mit 34,21 kleiner als die Varianz der beobachteten Werte. Nur wenn alle beobachteten Punkte genau auf der Regressionsgeraden liegen würden (wir haben schon weiter oben erkannt, dass dann ein maximal starker Zusammenhang zwischen X und Y vorliegen würde), wären diese beiden Varianzen gleich groß. 2. Die Varianz der Reste ergänzt sich zusammen mit der Varianz der theoretischen Werte zur Gesamtvarianz der beobachteten Werte. Es gilt also – und dies generell, ohne dass das hier mathematisch bewiesen werden soll – das so genannte Prinzip der Varianzzerlegung. Die Varianz der Reste muss deshalb logischerweise null sein, wenn die Varianz der theoretischen Werte mit der der beobachteten Werte übereinstimmt. Dann liegen ja, wie unter 1. noch einmal festgestellt wurde, alle beobachteten Punkte direkt auf der Regressionsgeraden, d. h., alle Reste, alle Abweichungen sind null, so dass auch die Streuung der Reste in diesem speziellen Fall null sein muss.
192
10.2
Korrelations- und Determinationskoeffizient
Wenn wir jetzt noch ein bisschen Prozentrechnung üben, können wir feststellen, dass die Varianz der theoretischen Werte 68,35% der Gesamtvarianz der beobachteten Werte ausmacht – die Varianz der Reste macht dann logischerweise 31,65% der Gesamtvarianz aus. Die Zahl 68,35% begegnet uns aber auch in einem ganz anderen Zusammenhang wieder. Wenn wir den Determinationskoeffizienten ausrechnen, also das Quadrat des Korrelationskoeffizienten r, und diese Zahl mit 100 multiplizieren, so erhalten wir den Wert, der in Zelle C20 der Tabelle in Abbildung 10.8 zu finden ist. Wenn wir von den Rundungsungenauigkeiten absehen, ergibt sich hier der gleiche Wert wie oben (68,35%). Dies bedeutet, dass wir mit dem Determinationskoeffizienten sofort angeben können – ohne erst drei Varianzen ausrechnen und die Prozentrechnung bemühen zu müssen –, wie groß der Anteil der Varianz der theoretischen Yt-Werte im Vergleich zur Gesamtvarianz der Y-Werte ist. Wir sprechen in diesem Zusammenhang vom erklärten Varianzanteil. Was hat es mit diesem Begriff auf sich? Was determiniert eigentlich der Determinationskoeffizient? Diese Fragen können wir beantworten, wenn wir uns noch einmal ganz klar machen, was das zentrale Ziel derartiger bivariater statistischer Analysen ist: Ausgangspunkt ist eine interessierende Untersuchungsvariable Y, der obere Blutdruckwert untersuchter Personen. Wenn wir entsprechende Messungen durchführen, stellen wir fest, dass wir von Person zu Person unterschiedliche Werte (oder höchst zufälligerweise gleiche Werte) erhalten. Die Werte streuen, sagt der Statistiker, und er kann diese Streuung mit der Varianz bemessen (50,04). Der Übergang von der univariaten zur bivariaten Statistik wird unter anderem durch den Wunsch begründet herauszufinden, warum die Y-Werte streuen. Wer oder was ist dafür verantwortlich, dass die oberen Blutdruckwerte unterschiedlich ausfallen? Unsere erste Antwort: Das Alter ist verantwortlich. Wir untersuchen deshalb Alter (Variable X) und oberen Blutdruckwert (Variable Y) gemeinsam und stellen einen starken Zusammenhang zwischen beiden Variablen fest ( r 0,83 ); die bivariate Verteilung kann gut durch eine lineare Regressionsfunktion beschrieben werden. Diese Regressionsfunktion bietet nun die Möglichkeit, theoretische Blutdruckwerte (Yt-Werte) zu berechnen, also diejenigen Werte, die zu erwarten wären, wenn die durch die lineare Regressionsbeziehung zum Ausdruck gebrachte Zusammenhangshypothese zwischen X und Y tatsächlich zutrifft. Natürlich streuen die Yt-Werte ebenfalls, und auch diese Streuung kann durch die entsprechende Varianz zum Ausdruck gebracht werden (34,21). Deshalb können wir folgenden Satz formulieren: Wenn die lineare Regressionsfunktion den interessierenden Zusammenhang komplett abbilden würde, dann müssten die Yt-Werte genauso stark streuen wie die Y-Werte. Das tun sie aber nicht. Die Varianz der Yt-Werte ist kleiner als die Varianz der Y-Werte. Das bedeutet, dass die Regressionsfunktion die interessierende Beziehung zwischen Alter und Blutdruck nur zum Teil statistisch erklärt, ein Rest der Streuung der Blutdruckwerte bleibt statistisch (in dieser bivariaten Betrachtungsweise) unerklärt. Wir können deshalb abschließend Folgendes sagen: Der Determinationskoeffizient zeigt uns den Anteil der (statistisch) erklärten Varianz der Y-Werte: 68,35% der Streuung der Blutdruckangaben werden statistisch durch die Variable Alter erklärt (determiniert). Oder etwas präziser und dafür etwas schwerer zu lesen:
10
Zusammenhangsrechnung
193
Der Determinationskoeffizient zeigt uns den Anteil der Varianz der Y-Werte, der durch die Variabilität der Variablen Alter (X-Variable) unter Nutzung der Hypothese, dass zwischen beiden Variablen ein linearer Zusammenhang besteht, wie er durch die lineare Regressionsfunktion zum Ausdruck gebracht worden ist, statistisch erklärt wird. Das war der langen Rede kurzer Sinn! Es wird in diesen Darlegungen eine Sache deutlich, auf die noch gesondert aufmerksam gemacht werden soll: Der Determinationskoeffizient und damit auch der Korrelationskoeffizient unterstellt immer einen linearen Zusammenhang zwischen den beiden betrachteten Untersuchungsvariablen X und Y. Es lassen sich Fälle vorstellen, in denen ein strenger nichtlinearer Zusammenhang vorliegt, wo aber – weil r eben auf lineare Zusammenhänge ausgerichtet ist – der Korrelationskoeffizient in der Nähe von 0 liegt. Betrachten Sie dazu das folgende Beispiel, wo die Stabilität bestimmter Bauteile untersucht wurde. Die Variable X gibt die Stärke des Bauteils an, die Variable Y die Stabilität (siehe Abbildung 10.9).
Abb. 10.9: Baustärke und Stabilität (E10.XLS, Bau)
Es zeigt sich hier ein sehr deutlicher Zusammenhang derart, dass bei zunehmenden X-Werten die Stabilität (Y-Werte) zunächst zunimmt, dann einen Maximalwert überschreitet und wieder absinkt. Berechnet man eine lineare Regressionsfunktion, so zeigt sich am kleinen Steigungswert b 0,094 , dass diese fast waagerecht in der Punktwolke liegt – es ist ja ganz offensichtlich, dass hier eine lineare Funktion nicht passend ist. Dem entspricht es, dass der Korrelationskoeffizient r den sehr kleinen Wert r 0,11 aufweist. Dies ist ein Wert nahe bei null, d. h., die Korrelationsrechnung behauptet, dass praktisch kein Zusammenhang zwischen X und Y vorliegt. In Wahrheit ist dieser Zusammenhang aber doch vorhanden – nur, er ist eben nicht linearer Art. Wir merken uns also: Korrelations- und Determinationskoeffizient sind Maße für die Stärke linearer statistischer Zusammenhänge.
194
10.3
10.3
Rangkorrelation
Rangkorrelation
Wenn keine metrischen Daten vorliegen, kann der Korrelationskoeffizient von Bravais/Pearson als Maß der Stärke des Zusammenhangs zwischen zwei Untersuchungsvariablen X und Y nicht eingesetzt werden (über eine wichtige Ausnahme wird in Abschnitt 10.5 gesprochen). Deshalb hat man für ordinalskalierte und nominalskalierte Variablen andere Maßzahlen entwickelt. Für Ordinaldaten steht der Rangkorrelationskoeffizient von Spearman zur Verfügung, der in diesem Abschnitt betrachtet werden soll. Maße für Nominaldaten werden im dann folgenden Abschnitt vorgestellt. Der Koeffizient von Spearman ist aus dem Korrelationskoeffizienten von Bravais/Pearson hergeleitet worden. Er geht aber nicht von den Merkmalswerten der beiden Variablen X und Y aus, sondern benutzt nur deren Rangpositionen. Dadurch vereinfacht sich die Berechnungsformel ganz wesentlich: rSP
1
6 n3
Di 2 n
Dabei ist n wieder die Zahl der Beobachtungen. D i ist die Differenz zwischen je zwei Rangplätzen, also Di
R xi
R yi
Ein Beispiel verdeutlicht die Vorgehensweise: Es soll untersucht werden, wie stark der Zusammenhang zwischen der Deutschzensur und der Mathematikzensur zufällig ausgewählter Schüler einer Klasse ist. Die Daten finden sich in der Tabelle der Abbildung 10.10.
Abb. 10.10: Deutsch- und Mathematikzensur (E10.XLS, Schule1)
In den Spalten D und E der folgenden Tabelle (siehe Abbildung 10.11 auf der folgenden Seite) haben wir die Rangplätze der einzelnen Merkmalswerte bestimmt, in Spalte D für die Variable X, in Spalte E für die Variable Y. Dabei wird dem größten Merkmalswert die Position 1 zugewiesen. Deshalb hat Schüler E bei Deutsch die Position 1, wie Sie der Zelle D7 entnehmen können. Natürlich hätte man ihm, da er in Deutsch die schlechteste Zensur hat, auch den letzten Platz zuweisen können, d. h., man könnte die Platzziffern (Rangplätze) auch in umgekehrter Richtung vergeben – am Ergebnis der folgenden Berechnungen ändert das aber nichts, vorausgesetzt man geht bei der Variablen Y den gleichen Weg. Schüler E hat also bei der Deutschnote den Rangplatz 1. Entsprechend könnte Schüler B den Rangplatz 2 be-
10
Zusammenhangsrechnung
195
kommen (Deutschnote 4). Das gilt aber auch für Schüler F – auch er hat eine Vier in Deutsch. Bevor sich die beiden nun um die Plätze 2 und 3 streiten, kann man ihnen beiden den mittleren dieser beiden Plätze zuweisen, also jeweils den Platz 2,5, und hat dann als Nächstes den Platz 4 zu vergeben, oder man setzt sie beide auf Platz 2 und fährt dann auch mit Platz 4 fort. Diesen zweiten Weg schlägt Excel ein, wo für die Rangplatzvergabe die Funktion RANG zur Verfügung steht. Die Nutzung dieser Funktion ist sehr empfehlenswert, weil bei größeren Datenreihen die Rangplatzvergabe per Hand leicht etwas mühsam und unübersichtlich wird. Deshalb haben wir nach Anklicken der Zelle D3 über EINFÜGEN/FUNKTION… den FunktionsAssistenten aufgerufen und aus der Kategorie STATISTIK die Funktion RANG ausgewählt. Diese Funktion benötigt, wie das zweite Dialogfenster des Funktions-Assistenten zeigt, zwei Argumente: 1. 2.
Der Wert, dessen Rangplatz bestimmt werden soll; er steht er in der Zelle B3. Die Datenreihe, innerhalb derer der Rangplatz des ersten Arguments bestimmt werden soll – in diesem Fall der Zellbereich B3:B10.
Excel bestimmt den Wert 4, der in Zelle D3 erscheint. Ziehen Sie jetzt die RANG-Formel nach unten, erscheint in Spalte D die Rangplatzreihe der X-Werte. Entsprechend gehen Sie in Spalte E vor, um die Ränge der Mathematikzensuren zu erzeugen.
Abb. 10.11: Deutsch- und Mathematikzensur und Rangplätze (E10.XLS, Schule2)
Offensichtlich ist es nun so, dass die beiden Rangreihen ungefähr gleich laufen müssen, wenn ein deutlicher gleichgerichteter Zusammenhang vorliegt. Hingegen werden sie entgegengesetzt laufen, wenn ein stärkerer, gegenläufiger Zusammenhang vorliegt. Es liegt deshalb der Gedanke nahe, die Abstände (Differenzen) zwischen den Rangplätzen als Grundlage eines Zusammenhangsmaßes zu verwenden. Um dabei zu verhindern, dass sich positive und negative Abweichungen gegenseitig ausgleichen, werden sie alle wieder quadriert, bevor dann die Summe dieser quadrierten Abweichungen gebildet wird. Dies ist in Spalte G der Tabelle in Abbildung 10.11 geschehen. Sie sehen, dass sich die Summe der quadrierten Abweichungen zu 150 ergibt. Wenn man diese Summe in die oben angegebene Berechnungsformel eingibt, erhält man als Rangkorrelationskoeffizienten den Wert –0,7857, also einen relativ starken gegenläufigen Zusammenhang: Mit zunehmenden Werten der Variablen X (schlechtere Deutschzensur) steigt tendenziell der Wert der Variablen Y (bessere Mathematikzensur).
196
10.4
Zusammenhangsmaße für Nominaldaten
Zur Frage der Interpretation konkreter Werte des Rangkorrelationskoeffizienten ist darauf hinzuweisen, dass auch dieses Maß, wie schon der Korrelationskoeffizient von Bravais/Pearson r, im Wertebereich zwischen –1 und +1 definiert ist.
10.4
Zusammenhangsmaße für Nominaldaten
Wenn die vorliegenden Daten nur nominalskaliert sind, ist zur Berechnung der Stärke des statistischen Zusammenhangs auf andere Maßzahlen zurückzugreifen. Es steht eine größere Zahl solcher Maße zur Verfügung, von denen hier nur zwei betrachtet werden sollen: der so genannte Vierfelder-Koeffizient (Phi) und das Kontingenzmaß von Pearson (C).
10.4.1 Vierfelder-Koeffizient Stellen Sie sich zwei nominalskalierte Variablen vor, die jeweils nur zwei Ausprägungen aufweisen (man nennt Variablen mit nur zwei Ausprägungen dichotome Variablen), also etwa die Variable Geschlecht mit den beiden Ausprägungen männlich und weiblich und eine zweite Untersuchungsvariable, etwa die Antwort auf die Frage „Stimmen Sie der Forderung zu, eine generelle Geschwindigkeitsbegrenzung auf Autobahnen einzuführen?“. Diese Frage kann nur mit Ja oder Nein beantwortet werden, so dass es sich also auch dabei um eine dichotome Variable handelt. Zudem sind beide nominalskaliert (zur Frage der Skalenqualität von statistischen Daten siehe Kapitel 1, Abschnitt 1.5.3). Ein entsprechender Datenbestand könnte also zum Beispiel so aussehen, wie es Abbildung 10.12 zeigt.
Abb. 10.12: Vierfelder-Tabelle – Ausgangsdaten und Summen (E10.XLS, Phi1)
In den Zellen B3:C4 steht eine bivariate Häufigkeitsverteilung für zwei dichotome Variablen. Zusätzlich haben wir durch Excel die Zeilen- und die Spaltensummen berechnen lassen, so dass auch die Gesamtheit der Beobachtungen bestimmt werden kann ( n 190 ). Es interessiert jetzt die Frage: Wie stark ist der statistische Zusammenhang zwischen den beiden betrachteten Variablen, also zwischen dem Geschlecht und dem Antwortverhalten auf die gestellte Frage? Die Daten lassen ja erkennen, dass da ein Zusammenhang bestehen könnte. In Abbildung 10.13 haben wir eine allgemeine Notation für derartige Vierfelder-Tabellen vereinbart:
10
Zusammenhangsrechnung
197
Abb. 10.13: Allgemeines Schema einer Vierfelder-Tabelle (E10B.XLS, Phi2)
Aus einem solchen Schema kann die Berechnungsformel für den so genannten Vierfelder-PhiKoeffizienten hergeleitet werden: Phi
a d b c S1 S2 S3 S4
Verwendet man Excel, um aus den entsprechenden Zellenbesetzungen diesen Wert auszurechnen, ergibt sich Phi 0,26 (gerundet). Es zeigt sich also ein nicht besonders starker, aber immerhin vorhandener statistischer Zusammenhang zwischen beiden Variablen. Auch hier ist mit Blick auf die Interpretation eines Phi-Wertes anzumerken, dass auch dieser Koeffizient im Wertebereich zwischen –1 und +1 definiert ist. Dabei müssen Sie aber berücksichtigen, dass hier das Vorzeichen des Koeffizienten keine inhaltliche Bedeutung hat. Man kann bei Nominaldaten nicht zwischen einem gleichgerichteten und einem gegenläufigen Zusammenhang unterscheiden, weil diese beiden Begriffe ja zumindest eine Rangordnung zwischen den Ausprägungen der Variablen implizieren – genau diese ist aber nicht gegeben. Sie erkennen das auch an folgendem Umstand: Wenn Sie beispielsweise in der Ausgangstabelle der Abbildung 10.12 die Spalte männlich mit der Spalte weiblich vertauschen – und das wäre ja sicherlich erlaubt –, dann würde sich das Vorzeichen des Phi-Koeffizienten ändern. Daraus können Sie entnehmen, dass das Vorzeichen hier keine Bedeutung hat.
10.4.2 Kontingenzkoeffizient Wenn die beiden Variablen nicht dichotom sind oder wenn wenigstens eine von beiden mehr als zwei Ausprägungen hat, dann kann dieser Phi-Koeffizient nicht verwendet werden. In diesem Fall bietet sich der Kontingenzkoeffizient von Pearson an, dessen Herleitung wir auch an einem Zahlenbeispiel verfolgen wollen (siehe Abbildung 10.14). Dabei geht es in dem Beispiel um die Frage, ob sich die Antworten auf die Frage nach der bevorzugten politischen Partei im Vergleich zwischen Männern und Frauen unterscheiden. Dies entspricht der Frage, ob es einen statistischen Zusammenhang zwischen den beiden Untersuchungsvariablen Geschlecht und bevorzugte politische Partei (kurz: Partei) gibt. Auch in diesem Beispiel sind die beiden Variablen nominalskaliert, eine davon (Partei) ist aber nicht mehr dichotom, sondern polytom. Zur Vorbereitung der weiteren Berechnungen haben wir auch schon die Randsummen ausrechnen lassen (Spalte D und Zeile 9). Uns interessiert, wie stark die beiden Variablen voneinander abhängen. Um diese Abhängigkeit zu quantifizieren, fragen wir zunächst danach, wie denn diese bivariate Häufigkeitsver-
198
10.4
Zusammenhangsmaße für Nominaldaten
teilung aussehen müsste, wenn es gar keine Abhängigkeit gäbe, also wenn Unabhängigkeit zwischen Geschlecht und bevorzugter politischer Partei bestünde.
Abb. 10.14: Ausgangsdaten für den Kontingenzkoeffizienten (E10B.XLS, C1)
Dies bedeutet, dass wir jeder einzelnen beobachteten Häufigkeit (Häufigkeit in der Zeile Nr. i und der Spalte Nr. j der Tabelle) diejenige Häufigkeit gegenüberstellen, die theoretisch zu erwarten wäre, wenn Unabhängigkeit bestünde. Wie viele männliche CDU/CSU-Anhänger sind zu erwarten, wenn es keine Abhängigkeit zwischen Geschlecht und bevorzugter politischer Partei gäbe? Welcher Wert e11 ist der Zahl b11
388 gegenüberzustellen?
Die Antwort auf diese Frage ist einfach. Wenn Unabhängigkeit bestünde, dann müssten die insgesamt 807 CDU/CSU-Anhänger sich im Verhältnis 883/915 auf die beiden Geschlechter aufteilen. Die Zahl der bei Unabhängigkeit zu erwartenden männlichen CDU/CSU-Anhänger wäre demnach: e11
807 883 1798
396,32
Entsprechend ergibt sich die Anzahl der bei Unabhängigkeit zu erwartenden weiblichen CDU/CSU-Anhänger zu: e12
807 915 1798
410,68
Natürlich muss gelten, dass diese beiden Werte sich zu 807 addieren. Allgemein ergibt sich die erwartete Häufigkeit in einer bestimmten Tabellenzelle, indem man die beiden Randsummen miteinander multipliziert und dieses Produkt durch die Gesamtzahl der Beobachtungen (n) dividiert. Nach diesem Muster haben wir im rechten Teil der Abbildung 10.15 den beobachteten Häufigkeiten die bei Unabhängigkeit der beiden Variablen voneinander zu erwartenden theoretischen Häufigkeiten gegenübergestellt. Für das erste Feld (Zelle G3) wurde eingegeben: =$B$9*D3/$D$9 um diese Berechnung dann nach unten zu ziehen (Spaltensumme in Spalte B * Zeilensumme Zeile 3 / n). Entsprechend wurde in H3 eingegeben: =$C$9*D3/$D$9
10
Zusammenhangsrechnung
199
und ebenfalls nach unten gezogen. Sie sehen, dass beispielsweise knapp 57 männliche FDPAnhänger zu erwarten wären, wenn zwischen den beiden betrachteten Variablen Unabhängigkeit bestünde.
Abb. 10.15: Berechnung der Erwartungswerte (E10B.XLS, C2)
Wir können nun folgendermaßen argumentieren: Je weiter die bei Unabhängigkeit zu erwartenden Werte von denen abweichen, die tatsächlich beobachtet worden sind, je größer also die Abweichungen zwischen beobachteten und erwarteten Häufigkeiten sind, desto weiter ist unser Befund – die gegebene bivariate Häufigkeitsverteilung – von der Unabhängigkeit entfernt, d. h., umso stärker hängen die beiden betrachteten Variablen voneinander ab. Je größer die Differenzen, desto stärker der Zusammenhang. Um nun wieder zu verhindern, dass bei der Betrachtung aller Differenzen sich positive und negative Differenzen gegenseitig ausgleichen, werden sie alle quadriert. Zusätzlich werden sie durch den jeweiligen Erwartungswert relativiert, d. h. durch den Erwartungswert dividiert. Bei den männlichen CDU/CSU-Anhängern zum Beispiel wird also gerechnet: 388 396,32 396,32
2
0,175
Diese Relativierung (Division der quadrierten Abweichung durch die Erwartungswerte) wird deshalb vorgenommen, um der unterschiedlichen Bedeutung einzelner quadrierter Abweichungen Rechnung zu tragen. Eine bestimmte quadrierte Abweichung wird wichtiger genommen, wenn der dazugehörige Erwartungswert klein war, und weniger wichtig, wenn viel zu erwarten war. Gemäß dieser Überlegung haben wir in der Abbildung 10.16 unter der Überschrift Berechnung von U alle quadrierten, relativierten Differenzen durch Excel ausrechnen und die Summe dieser Werte bestimmen lassen. Diese Summe wird in der statistischen Methodenliteratur mit dem Symbol U abgekürzt. Zur Berechnung haben wir in Zelle G11 eingegeben: =(B3-G3)^2/G3 Entsprechend steht in Zelle H11: =(C3-H3)^2/H3 Beide Berechnungen wurden dann nach unten gezogen. In Spalte G haben wir unter Nutzung der Summen-Schaltfläche die Summe der ersten fünf quadrierten, relativierten Abweichungen gebildet, in Spalte H die zweite Teilsumme. Beide wurden dann in Zelle I17 zum Wert U 2,189 addiert.
200
10.4
Zusammenhangsmaße für Nominaldaten
Abb. 10.16: Berechnung von U (E10B.XLS, C3)
Der sich ergebende Wert U muss nun offensichtlich umso größer sein, je weiter die beobachteten von den bei Unabhängigkeit zu erwartenden Häufigkeiten entfernt sind, d. h., je stärker der Zusammenhang zwischen beiden Variablen ist. Liegt Unabhängigkeit vor (Stärke des Zusammenhangs 0 ), dann sind die beobachteten mit den erwarteten Häufigkeiten identisch, die Abweichungen wären alle null und somit müsste dann auch U null sein. Es liegt deshalb nahe, diese Größe U als Grundbaustein eines Zusammenhangsmaßes zu verwenden. Pearson hat daraus den Kontingenzkoeffizienten C entwickelt, der wie folgt definiert ist: C
U U n
Hier ergibt sich demnach C 0,035 , also ein sehr schwacher Zusammenhang zwischen Geschlecht und bevorzugter politischer Partei. Dieser Kontingenzkoeffizient C ist im Wertebereich zwischen 0 und 1 definiert. Allerdings wird der Maximalwert C 1 nur erreicht bei Kontingenztabellen, die unendliche viele Spalten und unendlich viele Zeilen haben. In allen anderen Fällen ergibt sich der Maximalwert, den C erreichen kann, zu: c max
0,5
z 1 z
s 1 s
Bei einer Tabelle, die wie in unserem Beispiel zwei Spalten und fünf Zeilen ausweist, liegt der Maximalwert für C also, wie man leicht ausrechnen kann (oder durch Excel ausrechnen lassen kann; siehe Zelle I19 der Tabelle in Abbildung 10.16), bei C max 0,8 . Häufig bezieht man den konkret berechneten C-Wert auf diesen Maximalwert, erhält also einen transformierten C-Wert, der in diesem Beispiel wie folgt aussieht: Ct
C
C max
0,0436
10
Zusammenhangsrechnung
10.5
201
Der Alleskönner
Wir kommen in diesem Abschnitt noch einmal auf den Korrelationskoeffizienten von Bravais/Pearson zurück (siehe Abschnitt 10.2), von dem festgestellt wurde, dass er nur bei metrischen Daten berechnet werden kann. Es kann nun allerdings gezeigt werden, dass diese Einschränkung eigentlich nur theoretischer Natur ist. Betrachten Sie dazu noch einmal den Vierfelder-Phi-Koeffizienten anhand des Beispiels in Abbildung 10.17.
Abb. 10.17: Zweites Beispiel zum Vierfelder-Koeffizienten (E10B.XLS, Phi3)
Unter Nutzung der Berechnungsformel, die weiter oben vorgestellt wurde, ergibt sich hier: Phi
0,507
Wir hatten schon darauf aufmerksam gemacht, dass in diesem Fall aber das Vorzeichen keine Bedeutung hat. Es ergibt sich also ein recht deutlicher statistischer Zusammenhang zwischen den beiden Variablen X und Y. Wir haben in Abbildung 10.17 die dichotomen Ausprägungen der beiden Variablen (jede hat bei der Vierfeldertafel ja nur zwei Ausprägungen) mit 0 und 1 codiert. Es ist ja beispielsweise möglich und auch durchaus üblich, etwa bei der Variablen Geschlecht die Ausprägung männlich mit 0 und die Ausprägung weiblich mit 1 zu belegen (man spricht in diesem Zusammenhang vom Codieren). Wenn man nun die so codierten Daten in eine neue Arbeitstabelle einträgt, in der ersichtlich ist, dass zum Beispiel die Merkmalswertkombination (0,0) zweimal, die Kombination (0,1) fünfmal aufgetreten ist usw., erhält man die Tabelle in Abbildung 10.18.
Abb. 10.18: Urliste der Daten der Abbildung 10.17 (E10B.XLS, Phi4)
202
10.5
Der Alleskönner
Wendet man auf die Daten der Abbildung 10.18 die Excel-Funktion KORREL an, die ja dazu dient, den Korrelationskoeffizienten von Bravais/Pearson für metrische Daten zu berechnen, ergibt sich mit r 0,507 der gleiche Wert wie bei der Berechnung des hier eigentlich zuständigen Vierfelder-Phi-Koeffizienten. Daraus ist Folgendes zu entnehmen: Wenn dichotome Variablen vorliegen, die (zulässigerweise) mit 0 und 1 codiert werden, kann man den Vierfelder-Phi-Koeffizienten durch den Korrelationskoeffizienten von Bravais/Pearson ersetzen, obwohl dieser eigentlich wegen der Skalenqualität der Variablen nicht zuständig ist. Hat man nichtdichotome Variablen (zum Beispiel die Variable bevorzugte politische Partei) ist diese Ersetzung allerdings nicht möglich – es sei denn, Sie würden die nichtdichotome Variable künstlich dichotomisieren und wieder mit 0 und 1 codieren. Selbstverständlich ist es möglich, die Variable bevorzugte politische Partei nur mit zwei Ausprägungen auszustatten, zum Beispiel mit den Ausprägungen SPD und Nicht-SPD. Dabei gehen allerdings Detailinformationen verloren – aber es könnte auch jetzt wieder der Korrelationskoeffizient von Bravais/Pearson eingesetzt werden. Wenn man den Informationsverlust, der mit der Dichotomisierung einer an sich polytomen Variablen (einer Variablen mit mehr als zwei Ausprägungen) einhergeht, vermeiden will, gibt es noch einen Ausweg: Eine polytome Variable mit zum Beispiel fünf Ausprägungen kann künstlich in vier dichotome Variablen zerlegt werden, wie das folgende Beispiel zeigt: Polytome Variable Y :
Bevorzugte politische Partei
Ausprägungen von Y :
y1
CDU / CSU
y2
SPD
y3
FDP
y4
Die Grünen
y5
Sonstige
Zerlegung: Variable 1 mit den Ausprägungen : CDU/CSU – Nicht CDU/CSU Variable 2 mit den Ausprägungen : SPD – Nicht SPD Variable 3 mit den Ausprägungen : FDP – Nicht FDP Variable 4 mit den Ausprägungen : Die Grünen – Nicht Die Grünen Überlegen Sie, warum wir keine fünfte künstliche Variable brauchen und dennoch den gesamten Ausgangsinformationsbestand durch vier dichotomisierte, mit 0 und 1 zu codierenden Variablen zum Ausdruck bringen können. Solche künstlichen Variablen werden als DummyVariablen bezeichnet. Da nun, wie oben beschrieben wurde, bei 0/1-codierten Variablen der Korrelationskoeffizient von Bravais/Pearson eingesetzt werden kann, kann diese Maßzahl als universelle Maßzahl zur Bemessung der Stärke statistischer Zusammenhänge verwendet werden.
11
Trendfunktionen und Trendprognosen
„Man sieht gar selten die Propheten im eignen Land die Krone tragen.“ Sprichwort
Ein Blick in die Zukunft 11.1 Statistik lügt? 11.2 Zielsetzungen 11.3 Glättung einer Zeitreihe 11.4 Linearer Zeitreihentrend 11.5 Exponentieller Trend 11.6 Saisonale Schwankungen
11.1
Statistik lügt?
„Da sieht man es mal wieder“, sagte meine Schwiegermutter (die zweite) triumphierend und ließ die Zeitung sinken, „da haben Statistiker Anfang 1995 behauptet, dass die Arbeitslosenquote ab 1998 die Vierzehn-Prozent-Marke übersteigen würde – und jetzt? Kaum zehn Prozent sind es geworden.“ „Schlimm genug“, antwortete ich. „Schon. Aber man sieht, dass statistische Prognosen nichts taugen!“ „Die Statistik lügt, meinst du?“ „Genau“, sagte sie. „Hör zu“, antwortete ich. „Es ist häufig so, dass Prognosen nicht eintreffen – und das ist auch ein erwünschter Effekt von Prognosen.“ „?“ „Von Lüge kann da keine Rede sein“, erklärte ich. „Prognosen dienen manchmal auch dazu, vor unerwünschten oder sogar gefährlichen Entwicklungen zu warnen. Wenn dann aufgrund dieser Warnungen Gegenmaßnahmen ergriffen werden – wenn es also zum Beispiel die Wirtschafts- und Finanzpolitiker erreichen, dass die prognostizierte hohe Arbeitslosenquote doch nicht erreicht wird, dann ist dies sogar das primäre Ziel der Prognose gewesen! Sie wurde veröffentlicht, damit sie eben nicht Realität wird! Zugegebenermaßen ist das mit dem unangenehmen Nachteil verbunden, dass man den Statistikern hinterher vorwerfen kann, dass sie – wie man den amtlichen Daten tatsächlich entnehmen kann – wieder mal falsch prognostiziert haben.“ „Ich glaube, du willst dich nur rausreden“, antwortete meine Schwiegermutter.
11.2
Zielsetzungen
Die wesentliche Aufgabe der bisher besprochenen statistischen Methoden bestand darin, zu zusammenfassenden Beschreibungen zu gelangen. Umfangreiche Datenbestände sollten in überschaubarer Form präsentiert werden, und durch geeignete statistische Maßzahlen wurden wichtige Charakteristika der Daten zum Ausdruck gebracht. Im Zusammenhang mit der Be-
204
11.2
Zielsetzungen
sprechung regressions- und korrelationsstatistischer Methoden trat eine zweite Aufgabe hinzu, nämlich die der Prognose. Beispielsweise kann man mit Hilfe einer Regressionsfunktion, welche die Art des Zusammenhangs zwischen zwei statistischen Untersuchungsvariablen X und Y beschreibt, zu Aussagen der folgenden Art gelangen: Wenn X den Wert x i annimmt, dann lässt die interessierende Variable Y den Wert yt i erwarten. Eine solche Aussage nennt man eine Prognose. Wir hatten auch schon gesehen, dass Prognosen dieser Art umso treffsicherer sind, je mehr Beobachtungen zur Bestimmung der Regressionsfunktion vorliegen, je präziser die bivariate Häufigkeitsverteilung dem gewählten Typ der Regressionsfunktion entspricht und je stärker der Zusammenhang zwischen den beiden betrachteten Variablen ist. Im Alltagssprachgebrauch wird allerdings der Begriff der Prognose in einer etwas eingeschränkten Bedeutung benutzt. Hier spricht man von einer Prognose in der Regel dann, wenn es um zukunftsbezogene Aussagen geht: Für das Jahr 2005 wird in der Bundesrepublik Deutschland eine konjunkturelle Erholung erwartet. Die Arbeitslosenquote wird im kommenden Monat bei 9,3% liegen. Für den morgigen Tag sind ergiebige Regenfälle angesagt. Es leuchtet unmittelbar ein, dass für solche und ähnliche Aussagen ebenfalls der Rückgriff auf vorhandenes statistisches Material nützlich sein dürfte – und zudem die Verwendung geeigneter statistischer Methoden. Man spricht in diesem Zusammenhang von Prognosemethoden. Mit einigen der wichtigsten derartige Methoden wollen wir uns in diesem Kapitel befassen. Ausgangsbasis der statistischen Prognosemethoden sind Datenbestände, die zeitliche Entwicklungen beschreiben. Solche Daten bilden Zeitreihen. Diesem Begriff sind wir schon im Kapitel 7 begegnet, wo festgestellt wurde, dass eine Zeitreihe dann vorliegt, wenn man Zeitpunkten oder Zeiträumen die Ausprägungen einer zeitabhängigen statistischen Untersuchungsvariablen zuordnet. Im einfachsten Fall sind die Zeitpunkte voneinander gleich weit entfernt (etwa regelmäßig auftauchende Stichtage) oder die Zeiträume sind gleich lang (zum Beispiel Tage oder Jahre – mal abgesehen davon, dass jedes vierte Jahr ein kleines bisschen länger ist). In solchen Fällen spricht man von äquidistanten Zeitreihen. Stellen Sie sich beispielsweise vor, Sie treten an jedem Tag auf Ihre Badezimmerwaage, um Ihr Gewicht zu kontrollieren. Es könnte sich dann im Verlauf eines Monats die Zeitreihe der Abbildung 11.1 ergeben. Bei der grafischen Präsentation dieser Gewichtsentwicklung in Abbildung 11.2 kann man die Charakteristika der zeitlichen Entwicklung besser erkennen.
11
Trendfunktionen und Trendprognosen
205
Abb. 11.1: Zeitreihe – Ausgangsdaten: Tägliche Gewichtsangaben (Ausschnitt) (E11.XLS, KG1)
Abb. 11.2: Zeitreihe – grafisch (E11.XLS, KG1)
Wie man eine solche Grafik erstellt, hatten wir schon an anderer Stelle besprochen (siehe Kapitel 7, Abschnitt 7.6). Hier noch einmal die erforderlichen Arbeitsschritte in Kurzfassung: 1. 2. 3. 4. 5.
Markieren Sie die Ausgangsdaten (Zelle A1 bis B32). Wählen Sie EINFÜGEN/DIAGRAMM… Wählen Sie den Diagrammtyp LINIE, und akzeptieren Sie den von Excel vorgeschlagenen Untertyp. Blenden Sie die Legende aus, und geben Sie Ihrem Diagramm einen Titel und für die Achsen geeignete Beschriftungen. Betten Sie Ihr Diagramm im Tabellenblatt ein.
206
11.3
Glättung einer Zeitreihe
6. 7.
Legen Sie Größe und Position des Diagramms fest. Skalieren Sie die senkrechte Achse in geeigneter Weise, und verändern Sie gegebenenfalls die Größe und Ausrichtung der Achsenbeschriftungen. Die Besonderheiten, die in der grafischen Darstellung der Abbildung 11.2 ins Auge fallen, sind die folgenden: 1.
Die gegebene Zeitreihe weist in ihrer Gesamttendenz eine aufwärts steigende Entwicklungsrichtung auf. Man spricht in diesem Zusammenhang der längerfristigen Entwicklung von einem Trend. 2. Woche für Woche scheinen sich bestimmte Regelmäßigkeiten zu wiederholen – in der Wochenmitte sind die Gewichtsangaben tendenziell niedriger als zum Wochenende – man spricht von zyklischen Bewegungen der Zeitreihe, manchmal auch von saisonalen Bewegungen (denken Sie etwa an Monatsangaben über mehrere Jahre hinweg) oder von saisonalen Schwankungen. Die Statistiker interessieren sich nun für die Beantwortung der folgenden Fragen: 1.
Wie kann eine gegebene Zeitreihe durch Bestimmung ihres Trends und gegebenenfalls der zyklischen Komponenten zusammenfassend beschrieben werden? 2. Wie kann mit Hilfe des Trends eine Trendprognose durchgeführt werden? 3. Wie können die Informationen über eventuelle zyklische Bewegungen genutzt werden, um die Trendprognose zu verbessern? Bei der Beantwortung dieser Fragen geht der Statistiker von der Vorstellung aus, dass jeder Zeitreihenwert (jeder Wert der betrachteten Untersuchungsvariablen) sich in Komponenten zerlegen lässt: Yt
Tt
St
Rt
Dabei bedeutet: Yt
Zeitreihenwert der Untersuchungsvariablen Y zum Zeitpunkt t.
Tt
Trendwert (Wert der Trendkomponenten) zu diesem Zeitpunkt.
St
Wert der saisonalen Komponente.
Rt
Restgröße Yt
Tt S t
Um nun die einzelnen Komponenten bestimmen zu können, beginnt die statistische Arbeit in der Regel mit der so genannten Glättung.
11.3
Glättung einer Zeitreihe
Bei der Glättung einer Zeitreihe geht es primär darum, die eher kurzfristigen Schwankungen auszuschalten, um zu einem genereller gültigen Entwicklungsverlauf zu gelangen. Insbesondere bei solche Zeitreihen, bei denen zyklische Bewegungen von bestimmter Periodizität deutlich ins Auge fallen – so wie bei dem Gewichtsbeispiel in Abbildung 11.1 und 11.2 –, sind derartige Glättungen sinnvoll und informationssteigernd. Solche zyklischen Bewegungen tauchen häufig dann auf, wenn Tagesdaten erfasst werden – die Daten schwanken dann oft im Wochenrhythmus. Bei Monatsdaten fallen gerade im wirtschaftsstatistischen Bereich oft zy-
11
Trendfunktionen und Trendprognosen
207
klische Bewegungen mit der Periodenlänge eines Jahres auf. Bei kurzfristig erhobenen Daten – etwa bei stündlichen Temperaturmessungen – fallen Tageszyklen ins Auge usw. Wenn man die Periodizität einer Zeitreihe aus den Daten oder aus der grafischen Präsentation erkennen kann, dann wird bei der Glättung diese Kenntnis verwendet. Man setzt die Methode der gleitenden Durchschnitte ein, deren Grundgedanke der folgende ist: Stellt man zum Beispiel – wie bei den obigen Gewichtsdaten – eine Periodizität von sieben Tagen fest, dann berechnet man aus den ersten sieben Werten der gegebenen Zeitreihe das arithmetische Mittel und ordnet diesen Mittelwert dem mittleren Zeitpunkt dieser ersten Werte zu. Wenn man sieben Werte mittelt, ist der mittlere Zeitpunkt der vierte Zeitwert – ihm wird das erste arithmetische Mittel zugeordnet. Ist die Zyklenlänge nicht wie hier mit 7 ein ungeradzahliger, sondern ein geradzahliger Wert (zum Beispiel 12 Monate), dann ist die Mitte der ersten Folge von Werten nicht einem Zeitwert direkt zuordenbar, sondern sie liegt zwischen zwei Zeitpunkten. Bei zwölf Werten ist die Mitte zwischen dem sechsten und dem siebten Wert angesiedelt. In einem nächsten Arbeitsschritt berechnet man wieder ein arithmetisches Mittel, nun aber aus den Werten Nr. 2 bis Nr. 8, d. h., das Mittelwertberechnungsfenster wird um eine Zeiteinheit verschoben. Der zweite berechnete Mittelwert wird dann der Mitte dieses verschobenen Fensters, also dem fünften Zeitwert zugeordnet. Nach diesem Muster verschiebt man das Fenster – quasi wie ein glättendes Bügeleisen – über die ganze Zeitreihe hinweg und gelangt zu den Daten in Abbildung 11.3.
Abb. 11.3: Zeitreihe – Ausgangsdaten und gleitende Siebener-Schnitte (Ausschnitt) (E11.XLS, KG2)
Diese Siebener-Schnitte in Spalte C haben wir folgendermaßen unter Nutzung von Excel erzeugt: 1. In Zelle C5 (vierter Zeitpunkt) haben wir eingegeben =MITTELWERT(B2:B8). 2. Diese Berechnung wurde nach unten gezogen bis zur Zelle C29. Sie erkennen, dass es bei der Methode der gleitenden Schnitte nicht möglich ist, für den Anfang der Zeitreihe oder für ihr Ende Glättungswerte anzugeben. Bei einem Siebenerschnitt
208
11.3
Glättung einer Zeitreihe
entfallen für die ersten drei und für die letzten drei Zeitreihenwerte die Glättungsberechnungen. Man kann dies verhindern – obwohl dies in der Praxis nicht allzu üblich ist –, indem man an den Rändern der Zeitreihe mit entsprechend verkürzten Fenstern arbeitet. Dass hier nun tatsächlich ein Glättungseffekt aufgetreten ist, macht die grafische Präsentation in Abbildung 11.4 sehr deutlich:
Abb. 11.4: Glättung der Zeitreihe (E11.XLS, KG2)
Wir werden in Abschnitt 11.6 darüber sprechen, was mit diesen geglätteten Werten weiter angefangen werden kann. Zuvor aber einige statistische Anmerkungen: Ist die Periodizität einer Zeitreihe nicht deutlich erkennbar, sollte man auf die Methode der gleitenden Durchschnitte verzichten. Es kann sonst passieren – vor allem wenn man eine falsche Fensterlänge wählt –, dass sich kurzfristige Schwankungen nicht glätten, sondern sich im Gegenteil sogar stärker aufschaukeln können. Wir haben bei den jeweiligen Mittelwertberechnungen innerhalb der Fenster ungewogene Durchschnitte berechnet. Es wäre auch vorstellbar, den einzelnen Merkmalswerten bei der Mittelwertberechnung unterschiedliches Gewicht zuzuweisen, also gewogene Mittelwerte zu berechnen. Häufig werden dann die aktuelleren Werte höher gewichtet als die weniger aktuellen Werte. Der Einsatz von Excel erlaubt es, sehr rasch alternative Zyklenlängen bei der Methode der gleitenden Durchschnitte auszuprobieren. Wenn also die Periodizität einer Zeitreihe nicht klar ersichtlich ist, man gleichwohl mit diesem Verfahren arbeiten möchte, kann man sehr rasch aufgrund des optischen Ergebnisses herausfinden, welche Zyklenlänge zum besten Glättungsergebnis führt. Dieser letzte Punkt verweist übrigens darauf, dass man auch mehrstufig verfahren kann. Stellen Sie sich eine Zeitreihe mit Tagesangaben vor, die über mehrere Jahre läuft. Denkbar wäre, dass sich mehrere periodische Schwingungen additiv überlagern – zum Beispiel eine Schwin-
11
209
Trendfunktionen und Trendprognosen
gung der Periodenlänge ein Monat und eine der Länge einer Woche. Führt man zunächst eine Glättung mit der längeren Schwingung durch und glättet dann die Reste (Reihenwerte minus Glättungswerte der ersten Glättung) erneut – nun mit der kürzeren Schwingung –, erhält man bessere Ergebnisse. Weiter oben wurde darauf hingewiesen, dass bei geradzahligen Zyklen die Zuordnung der Glättungswerte zwischen je zwei Zeitpunkten erfolgt. Der Statistiker möchte aber die Glättungswerte Zeitpunkten zuordnen können. Deshalb schließt man in diesem Fall einen Arbeitsschritt an, der je zwei benachbarte Glättungswerte ihrerseits mittelt, so dass dieser mittlere Glättungswert nun wieder einem Zeitpunkt zugeordnet ist.
11.4
Linearer Zeitreihentrend
Als erste und vielleicht wichtigste Zeitreihenkomponente hatten wir den Trend genannt. Wie kann der Trend bestimmt werden? Wir stehen hier vor einer ganz ähnlichen Aufgabe wie bei der Regressionsrechnung, weil auch hier – ausgehend vom grafischen Bild – in eine gegebene Reihe von Punkten eine zusammenfassend beschreibende Funktion bestimmt werden soll, die sich den Punkten, d. h. den beobachteten Werten, möglichst gut anpasst. Zwar liegt hier keine Punktwolke vor wie bei einer bivariaten Häufigkeitsverteilung, weil wir nicht von zwei statistischen Untersuchungsvariablen X und Y ausgehen, sondern wir haben eine zeitlich geordnete Reihe von Punkten. Als statistische Variable gibt es nur die Variable Y – auf der senkrechten Achse eines Koordinatensystems abgetragen. Auf der Abszisse hingegen steht keine statistische Variable X, sondern die Zeit T, die keine Variable im statistischen Sinne ist, wie Sie sicherlich leicht einsehen. Trotzdem sind die Vorgehensweisen hier denen bei der Bestimmung einer Regressionsfunktion vergleichbar, denn auch hier stehen wir zunächst vor zwei Fragen: 1. 2.
Von welchem Typ soll die Trendfunktion sein? Wie kann die gewählte Trendfunktion möglichst gut an die beobachteten Werte angepasst werden? Wie auch schon bei der Regressionsrechnung beschränken wir uns zunächst auf den Typus einer linearen Trendfunktion. Wenn der Blick auf den Datenbestand und inhaltlich-theoretische Überlegungen dies erlauben, werden wir immer – zumindest stückweise – eine lineare Trendfunktion einer nichtlinearen Funktion vorziehen. Wenn wir uns für eine lineare Trendfunktion entschieden haben, sind wir der Meinung, dass eine in die beobachteten Punkte hineingelegte Gerade am ehesten dazu geeignet ist, von kurzfristigen Schwankungen der gegebenen Zeitreihe zu abstrahieren, diese auszugleichen und damit die langfristige Entwicklungstendenz der Zeitreihe zutreffend zum Ausdruck zu bringen. Diese lineare Funktion zu bestimmen, bedeutet wieder, die Parameter a (Ordinatenabschnitt) und b (Steigung) zu berechnen. Wie schon in der Regressionsrechnung greifen wir auch hier auf die Methode der kleinsten Quadrate zurück und berechnen die Parameter a und b gemäß der folgenden beiden Berechnungsformeln (vergleiche Kapitel 9, Abschnitt 9.4): b
cov t , y var t
a
y b t
n
t i yi n
ti
ti 2
ti
2
yi
210
11.4
Linearer Zeitreihentrend
Dies bedeutet, dass wir auch hier die schon bekannten Excel-Funktionen ACHSENABSCHNITT und STEIGUNG verwenden können. Für das Gewichtsbeispiel aus Abbildung 11.1 haben wir diese beiden Parameter in Abbildung 11.5 berechnet. Zusätzlich geben wir auch die theoretischen Werte (die Trendwerte) aus, die sich gemäß der Geradengleichung yt i
a
b ti
ergeben. Dazu ist es allerdings vorbereitend erforderlich, die Wochentage in Spalte A der Ausgangstabelle durch nummerische Werte zu ersetzen.
Abb. 11.5: Linearer Trend (E11.XLS, KG3)
Zur Erzeugung der Tabelle in Abbildung 11.5 sind wir folgendermaßen vorgegangen: 1.
2.
Wir haben die Ausgangsdaten (Wochentage und Gewichtsangaben) aus der Abbildung 11.1 nach Markieren (Tabellenblatt KG1 der Arbeitsmappe E11.XLS, A1:B32) mit BEARBEITEN/KOPIEREN und BEARBEITEN/EINFÜGEN in das Tabellenblatt KG3 der Arbeitsmappe E11.XLS nach Anklicken der Zelle A1 übertragen. Wir haben dann in der Tabelle KG3 die Informationen der Spalte B (Gewichtsangaben), nach Markierung, mit BEARBEITEN/AUSSCHNEIDEN und BEARBEITEN/EINFÜGEN in die Spalte C, nach Anklicken von C1 übertragen (ersatzweise hätten wir auch vor der Spalte B eine neue Spalte einfügen können; Anklicken des Spaltenkopfes und Anwählen von EINFÜGEN/SPALTEN).
11
Trendfunktionen und Trendprognosen
211
3.
Die nun freie Spalte B wurde, bei Zelle B2 beginnend, mit den Werten 1, 2 … 31 gefüllt (nutzen Sie dazu die Funktion des automatischen Ausfüllens: Eingabe von 1 und 2 in die Zellen B2 und B3, Markieren beider Zellen, Ziehen des schwarzen Quadrats an der rechten unteren Zellenecke mit gedrückter linker Maustaste bis zur Zelle B32). 4. In Zelle A33 gaben wir das Wort Abschnitt ein. 5. In Zelle A34 geben wir das Wort Steigung ein. 6. In Zelle C33 gaben wir ein =ACHSENABSCHNITT(C2:C32;B2:B32). 7. In Zelle C34 gaben wir ein =STEIGUNG(C2:C32;B2:B32). Excel berechnet jetzt die folgenden Parameter: Achsenabschnitt a
88,055
Steigung b
0,061
Die Trendgerade lautet also yt i
88,055 0,061 t i
Mit dieser Gerade haben wir in Spalte D die Trendwerte berechnet, indem wir in Zelle D2 eingaben =$C$33+$C$34*B2 und diese Berechnungsformel nach unten bis zur Zelle D32 gezogen haben. Schließlich wurden in der Spalte E die Reste ausgegeben, also die Differenz zwischen beobachteten Zeitreihenwerten und den Trendwerten. Man spricht in diesem Zusammenhang von einer trendbereinigten Reihe. Die entsprechende Vorgehensweise wird Trendbereinigung genannt. Dazu wurde in Zelle E2 eingegeben: =C2-D2 und auch diese Berechnungsformel wurde nach unten gezogen. Diese Reihe trendbereinigter Werte zeigt die Entwicklung der Zeitreihe, wenn die langfristig wirkende Entwicklungstendenz, wie sie in der linearen Trendfunktion zum Ausdruck gebracht wurde, aus den beobachteten Werten herausgerechnet wird. In Abbildung 11.6 haben wir die Zeitreihe mit ihrem linearen Trend zusammen grafisch dargestellt. Auch hier soll noch einmal übungshalber die Vorgehensweise geschildert werden: 1. 2. 3. 4. 5. 6. 7.
Markieren Sie die Wochentage in Spalte A zusammen mit den Gewichtsangaben in Spalte C (beim Markieren nicht zusammenhängender Zellbereiche muss beim Übergang vom einen zum anderen die Taste Strg gedrückt werden). Wählen Sie EINFÜGEN/DIAGRAMM… Wählen Sie den Diagrammtyp LINIE, und akzeptieren Sie den Vorschlag, den Excel für den Diagrammuntertyp macht, indem Sie auf WEITER klicken. Klicken Sie im zweiten Dialogfenster des Diagramm-Assistenten auf WEITER. Blenden Sie im Register LEGENDE des dritten Dialogfensters die Legende aus, und klicken Sie auf WEITER. Akzeptieren Sie im vierten Dialogfenster den Excel-Vorschlag, das Diagramm im Tabellenblatt einzufügen, und klicken Sie auf FERTIG STELLEN. Das nun entstandene Diagramm können Sie, wie es schon an anderer Stelle beschrieben wurde, in seiner Größe und Position verändern. Zudem können Sie die Achsenskalierung und die Größe der Achsenbeschriftung verändern.
212
11.4
Linearer Zeitreihentrend
8.
Um die Trendgerade einzuzeichnen, klicken Sie einen der Zeitreihenpunkte mit der rechten Maustaste an, um in das entsprechende Kontextmenü zu gelangen. 9. Wählen Sie TRENDLINIE HINZUFÜGEN… 10. Im ersten Dialogfenster akzeptieren Sie im Register TYP den Vorschlag LINEAR, den Excel unterbreitet. 11. Im Register OPTIONEN sorgen Sie für ein Häkchen bei der Option FORMEL IM DIAGRAMM DARSTELLEN. 12. Klicken Sie dann OK an. Ihr Diagramm müsste jetzt so aussehen, wie es Abbildung 11.6 zeigt.
Abb. 11.6: Zeitreihe und Trendgerade (E11.XLS, KG3)
Anmerkung: Zur Bestimmung der Werte einer linearen Trendfunktion stellt Excel eine leistungsfähige Funktion mit dem Namen TREND zur Verfügung, die es entbehrlich macht, zunächst Achsenabschnitt und Steigung der Funktion und dann alle theoretischen (Trend-)Werte zu bestimmen. Sie berechnet diese Trendwerte in einem Schritt. Darüber hinaus bietet sie den Vorzug, dass sie weiter in die Zukunft fortgeschrieben werden kann, so dass sofort Prognosen durchgeführt werden können. Prognosen, die durch die Fortschreibung der Trendfunktion entstehen, werden Trendprognosen genannt. Diese Möglichkeit der Prognose langfristiger Entwicklungstendenzen unter Nutzung der Excel-Funktion TREND soll an einem weiteren Beispiel illustriert werden. In der Tabelle der Abbildung 11.7 haben wir die Entwicklung der Bevölkerungszahl in den alten Bundesländern der Bundesrepublik seit 1987 dargestellt (Angaben in Millionen):
11
Trendfunktionen und Trendprognosen
213
Abb. 11.7: Bevölkerungsentwicklung in Deutschland (alte Bundesländer) (E11.XLS, BEV1)
Grafisch stellt sich diese kurze Zeitreihe so dar, wie es Abbildung 11.8 zeigt.
Abb. 11.8: Bevölkerungsentwicklung in Deutschland (E11.XLS, BEV1)
Mit der Excel-Funktion TREND sollen jetzt die Trendwerte ausgerechnet werden, die zudem bis zum Jahr 2005 fortgeschrieben werden sollen. Um diese Aufgabe zu erledigen, haben wir die Ausgangsdaten in das Tabellenblatt BEV2 der Arbeitsmappe E11.XLS übertragen und dort die Jahresangaben bis zum Jahr 2005 fortgeschrieben. Zudem haben wir eine neue Spalte B eingefügt und diese mit den Zahlen 1 bis 19 belegt. Vor den weiteren Schritten ist die folgende Anmerkung wichtig: Die Funktion TREND ist eine Matrixfunktion, d. h., sie erzeugt, ähnlich wie zum Beispiel die Funktion HÄUFIGKEIT, die wir in Kapitel 2, Abschnitt 2.6, kennen gelernt haben, mehrere Werte als Ergebnis. In unserem Beispiel sollen 19 Trendwerte (für 1987 bis 2005) erzeugt und in Spalte D ausgegeben werden. Dies bedeutet, dass dieser Zellbereich (D2 bis D20) zunächst markiert werden muss. Danach sind die folgenden Schritte erforderlich:
214
11.4
Linearer Zeitreihentrend
1.
Über EINFÜGEN/FUNKTION… wählen wir aus der Kategorie STATISTIK die Funktion TREND und klicken die Schaltfläche OK im ersten Dialogfenster des Funktions-Assistenten an. 2. Im zweiten Dialogfenster geben wir ein: bei Y_WERTE C2:C12 bei X_WERTE keine Eingabe bei NEUE_x_WERTE B2:B20 bei KONSTANTE keine Eingabe 3. Dann ist die Schaltfläche OK anzuklicken. An dieser Stelle ein genereller Hinweis zur Nutzung von Funktionen: Häufig haben Excel-Funktionen mehrere Argumente, so wie hier die Funktion Trend vier Argumente aufweist, und es ist nicht immer intuitiv ersichtlich, was sie im Einzelnen bedeuten bzw. was der Nutzer der Funktion einzugeben hat. Immer dann hilft die Hilfe-Schaltfläche (die mit dem Fragezeichen) weiter, die Sie anklicken können, um detaillierte Informationen zur gerade verwendeten Funktion abzurufen. In der ersten Zelle des markierten Bereichs, also in der Zelle D2, taucht nun der erste Trendwert (für 1987) auf. Um die anderen Trendwerte erscheinen zu lassen, klicken Sie in der Eingabezeile hinter die Funktion (genauer hinter die letzte Klammer) und drücken gleichzeitig Strg, Shift und Return. Es tauchen jetzt die anderen Trendwerte auf (siehe Abbildung 11.9).
Abb. 11.9: Zeitreihe und Trendwerte (E11.XLS, BEV2)
Ausgangswerte und linearer Trend stellen sich grafisch so dar, wie es Abbildung 11.10 auf der folgenden Seite zeigt.
11
Trendfunktionen und Trendprognosen
215
Abb. 11.10: Trendprognose (E11.XLS, BEV2)
Auch hier soll noch einmal stichpunktartig beschrieben werden, wie dieses Diagramm entstanden ist: 1. 2. 3.
Markieren Sie C1 bis D20, und wählen Sie EINFÜGEN/DIAGRAMM… Wählen Sie LINIE und den angebotenen Untertyp. Klicken Sie auf WEITER, und wechseln Sie ins Register REIHE.
Abb. 11.11: Zweites Dialogfenster des Diagramm-Assistenten, Register REIHE
216 4. 5. 6.
11.5
Exponentieller Trend
Klicken Sie auf den Schalter am rechten Rand des Feldes BESCHRIFTUNG DER RUBRIKENACHSE (X): Markieren Sie die Zellen A2:A20. Klicken Sie WEITER an, und beenden Sie die Diagrammerstellung in der gewohnten Weise.
Bezüglich der Qualität von Zeitreihenprognosen mit Hilfe einer linearen Trendfunktion gelten entsprechend die gleichen Überlegungen, wie wir sie im Zusammenhang mit der Verwendung linearer Regressionsfunktionen schon angestellt haben (siehe Kapitel 9, Abschnitt 9.5). Es leuchtet ein, dass eine Trendprognose dieser Art umso besser, d.h., umso treffsicherer sein wird, je mehr beobachtete Werte vorliegen, die bei der Berechnung der Parameter der linearen Trendfunktion verwendet werden können; je enger die Punkte um die Trendlinie herum streuen; je eher der lineare Funktionstyp als zutreffend unterstellt werden kann. Gerade bezüglich des letzten Stichworts gibt es vor allem bei sozial- und wirtschaftsstatistischen Zeitreihen häufig begründete Zweifel, die damit zu tun haben, dass in diesen Anwendungsbereichen nicht selten zeitabhängige Wachstumsvorgänge vermutet werden dürfen. Diese wiederum entsprechen in aller Regel nicht linearen, sondern beispielsweise exponentiellen Entwicklungsprozessen. Angemessen ist also nicht selten eine Exponentialfunktion als Trendlinie. Deshalb wollen wir uns im folgenden Abschnitt speziell mit dem exponentiellen Trend beschäftigen.
11.5
Exponentieller Trend
Zur Bestimmung exponentieller Trendfunktionen stellt Excel die Funktion VARIATION bereit. Wir erproben sie an dem folgenden Beispiel: In der Spalte D der Tabelle in Abbildung 11.12 auf der folgenden Seite sind die Werte des exponentiellen Trends bestimmt worden. Zudem wurden Ausgangswerte und Trendwerte grafisch dargestellt. Zur Errechnung der exponentiellen Trendwerte gehen Sie genauso vor, wie es oben bei der Nutzung der Funktion TREND beschrieben wurde, nun aber unter Nutzung der Funktion VARIATION aus der Kategorie STATISTIK des Funktions-Assistenten. Auch bei der Erstellung des Diagramms können Sie sich an den oben vorgestellten Arbeitsschritten orientieren. Die Vorgehensweise ist im Prinzip die gleiche wie diejenige, die zur Abbildung 11.10 führte.
11
Trendfunktionen und Trendprognosen
217
Abb. 11.12: Indexwerte und Werte des exponentiellen Trends (E11.XLS, EXP)
11.6
Saisonale Schwankungen
Trendberechnungen, wie sie in den vorangegangenen Abschnitten vorgeführt wurden, dienen in erster Linie dazu, Prognosen zukünftiger Entwicklungen durchführen zu können. Es wurde schon darauf aufmerksam gemacht, dass eine derartige Trendprognose in ihrer Qualität umso stärker beeinträchtigt wird, je weiter die Beobachtungswerte nach oben und unten von der Trendfunktion abweichen, d. h., je weiter sie streuen. Wenn diese Abweichungen allerdings Regelmäßigkeiten aufweisen, etwa in Form periodisch wiederkehrender, relativ gleichmäßiger Schwankungen vorliegen, dann können diese Periodizitäten ihrerseits dazu verwenden werden, Trendprognosen wesentlich zu verbessern. Betrachten Sie dazu noch einmal das erste Beispiel mit den Gewichtsangaben für einen Monat (siehe Abbildung 11.13 auf der folgenden Seite). Hier erkennen wir regelmäßige Schwankungen im Wochenrhythmus. Derartige Schwankungen werden als Saisonschwankungen bezeichnet, weil man dabei in erster Linie an wirtschaftliche Zeitreihen denkt, die im Jahresablauf zyklische Bewegungen aufweisen. Denken Sie zum Beispiel an die Produktion von Schokoladen-Weihnachtsmännern, die über mehrere Jahre mit monatlichen Daten statistisch erfasst wird, oder an Umsatzentwicklungen in der Baubranche, an klimatografische Messungen usw. In Abbildung 11.13 ist deutlich zu erkennen, dass wir in der Wochenmitte regelmäßig Gewichtsangaben finden, die unter dem Trend liegen, während wir zum Wochenende mehr oder weniger regelmäßig über dem Trend liegen. Diese Regelmäßigkeit wollen wir nun nutzen, um die Prognosen zum Beispiel für die erste Woche des folgenden Monats zu verbessern. Um dies zu erreichen, wird die so genannte Saisonnormale bestimmt, die man auch das Saisonprofil nennt.
218
11.6
Saisonale Schwankungen
Abb. 11.13: Gewichtsangaben und linearer Trend (E11.XLS, KG3)
Zur Bestimmung der Saisonnormalen geht man so vor, dass die Regelmäßigkeiten der Abweichungen in einer Arbeitstabelle erfasst werden, die so aussehen kann, wie es Abbildung 11.14 auf der folgenden Seite zeigt. Sie sehen, dass wir zunächst in Spalte E der Ausgangstabelle die Abweichungen der beobachteten Werte von den Trendwerten erfasst haben. Dazu wurde in Zelle E2 eingegeben: =C2-D2 und diese Berechnung wurde nach unten gezogen. Sie erkennen übrigens, wenn Sie Zelle E34 und dann die Summenschaltfläche anklicken, dass die Summe aller Abweichungen null ergibt. In den Spalten G bis N (siehe auch Abbildung 11.16 weiter unten) haben wir dann eine neue Tabelle aufgebaut, die mit den Wochentagen überschrieben wurde und wo in der Vorspalte die laufende Nummer der jeweiligen Woche angegeben wurde. Die in der Spalte E der Tabelle in Abbildung 11.13 (oben) ausgegebenen Abweichungen werden nun in diese Hilfstabelle übertragen, wobei folgendermaßen vorgegangen wird: 1. Markieren Sie die Abweichungen der ersten Woche (E2:E8). 2. Wählen Sie BEARBEITEN/KOPIEREN. 3. Klicken Sie Zelle H2 an. 4. Wählen Sie BEARBEITEN/INHALTE EINFÜGEN… Sie gelangen jetzt zunächst zum Dialogfenster der Abbildung 11.15.
11
Trendfunktionen und Trendprognosen
219
Abb. 11.14: Arbeitstabelle zur Ermittlung des Saisonprofils (E11.XLS, Saison1)
Abb. 11.15: BEARBEITEN/INHALTE EINFÜGEN…
In diesem Dialogfenster müssen Sie angeben, dass nur Werte übertragen werden sollen. Dieser Schritt kann auch in manchen anderen Fällen sinnvoll sein. Er ist immer dann erforderlich, wenn Sie Zahlenwerte von einer Tabelle zu einer anderen Tabelle (oder von einem Tabellenbereich zu einem anderen oder von einer Arbeitsmappe zu einer anderen) übertragen wollen,
220
11.6
Saisonale Schwankungen
die (ganz oder teilweise) aufgrund von Rechenoperationen entstanden sind – so wie hier unsere Trendwerte und die auch zu übertragenden Abweichungen. Würden Sie derartige Verlagerungen einfach mit BEARBEITEN/KOPIEREN und BEARBEITEN/EINFÜGEN erledigen wollen, käme es zu einer Fehlermeldung, die besagt, dass fehlerhafte Bezüge vorliegen. Weiterhin müssen Sie in diesem speziellen Fall beim Stichwort TRANSPONIEREN anklicken, um zu erreichen, dass die ursprünglich senkrecht angeordneten Werte nun horizontal ausgegeben werden sollen. Dieser Schritt würde entfallen, wenn man die Hilfstabelle von vornherein um 90 Grad gedreht hätte, wenn man also die Wochentage vertikal und die Wochen horizontal angegeben hätte. In vielen statistischen Lehrbüchern finden Sie aber die hier gewählte Art der Darstellung, der wir folgen wollten. Klicken Sie dann OK an, werden die ersten sieben Abweichungen horizontal in den Zellen H2 bis N2 der Tabelle 11.16 ausgegeben. Für die zweite Woche verfahren Sie entsprechend: 1. Markieren der Abweichungen (E9:E15). 2. BEARBEITEN/KOPIEREN. 3. Anklicken der Zelle H3. 4. BEARBEITEN/INHALTE EINFÜGEN… 5. Anklicken bei WERTE. 6. Anklicken bei TRANSPONIEREN. 7. Anklicken von OK. Verfahren Sie auch so für die dritte, vierte und fünfte Woche, gelangen Sie zur Abbildung 11.16.
Abb. 11.16: Hilfstabelle (E11.XLS, Saison2)
Sie sehen, dass in der letzten Woche nur die ersten drei Tage besetzt sind, weil wir insgesamt nur 31 Werte übertragen können. Zusätzlich haben wir dann in der Zeile 7 (Zellen H7 bis N7) die tagesdurchschnittlichen Abweichungen berechnen lassen. Zu diesem Zweck dienen die folgenden Schritte: 1. Eingabe in Zelle H7 =MITTELWERT(H2:H6) 2. Ziehen dieser Berechnung nach rechts bis J7 (Mittwoch) 3. Eingaben in Zelle K7 =MITTELWERT(K2:K5) 4. Ziehen dieser Berechnung nach rechts bis N7. Sie sehen, dass hier zwei Mittelwertberechnungsformeln verwendet wurden, eine für Montag bis Mittwoch, eine für Donnerstag bis Sonntag. Dies ist notwendig, weil in den ersten drei
11
Trendfunktionen und Trendprognosen
221
Tagen je fünf Werte, in den letzten vier Tagen aber nur je vier Werte zu mitteln sind. Somit gelangen wir zu den Befunden der Abbildung 11.17.
Abb. 11.17: Hilfstabelle mit tagesdurchschnittlichen Abweichungen (E11.XLS, Saison3)
Sie erkennen aus diesen Mittelwerten, dass die Gewichtsangaben im Durchschnitt montags um 0,18 (kg) über dem Trend liegen, dienstags um 0,12 (kg) unter dem Trend usw. Addieren Sie alle diese durchschnittlichen Abweichungen auf in der Zelle O7 auf, wo Sie eingeben: =SUMME(H7:N7) Es ergibt sich hier der Wert 0,06. Eigentlich wäre an dieser Stelle der Wert null zu erwarten, was aber voraussetzen würde, dass die periodischen Schwankungen absolut gleichmäßig und Woche für Woche von gleicher Stärke sind. In der Realität ist aber weder die Periodizität von saisonal schwankenden Daten völlig gleichmäßig, noch sind die Amplituden (Ausschläge) der Schwankungen immer gleich groß. Deshalb verwundert es nicht, wenn diese Summe von null abweicht. Je größer diese Abweichung ist, desto ungleichmäßiger ist die Periodizität und die Amplitudenentwicklung der gegebenen Abweichungen. Deshalb schließen die Statistiker noch einen letzten Arbeitsschritt an, der darin besteht, diesen Summenwert zur Korrektur der ausgerechneten Durchschnitte zu verwenden. Sie teilen diesen Wert so auf die (in diesem Fall) sieben Saisonwerte, dass die Summe der korrigierten Werte tatsächlich null ergibt. Dazu geben Sie in H8 ein: =H7-$O$7/7 und ziehen diese Berechnung nach rechts bis zur Zelle N8. Wenn Sie dann in Zelle O8 die Summe dieser korrigierten Werte errechnen lassen, ergibt sich tatsächlich der Wert 0,00. Die Werte in den Zellen H8 bis N8 der Tabelle in Abbildung 11.18 werden als Saisonnormale oder als Saisonprofil bezeichnet. Diese Werte können nun zur Verbesserung von Prognosen verwendet werden. Wir zeigen dies in der Tabelle der Abbildung 11.19 (nächste Seite), wo Gewichtsprognosen für die folgenden elf Tage über den Beobachtungszeitraum hinaus durchgeführt werden. Dazu berechnen wir zunächst die Trendwerte für die Tage 32 bis 42 (bis zum Tag 31 liegen ja beobachtete Werte vor), wie das schon in Abschnitt 11.4. beschrieben wurde.
222
11.6
Saisonale Schwankungen
Abb. 11.18: Saisonprofil (E11.XLS, Saison4)
Abb. 11.19: Ausgangsdaten und Trendprognose für elf weitere Tage (E11.XLS, Prognose1)
Diese Prognosewerte können nun verbessert werden. Dazu haben wir in der Spalte E der Tabelle in Abbildung 11.20 das oben berechnete Saisonprofil neben die Trendwerte gestellt.
11
Trendfunktionen und Trendprognosen
223
Abb. 11.20: Hinzufügen des Saisonprofils (E11.XLS, Prognose2)
Folgende Schritte sind erforderlich, um die Verbesserung der Prognose zu erreichen: 1. 2. 3.
Markieren der Saisonwerte (Zelle H8 bis N8) im Tabellenblatt Saison4. BEARBEITEN/KOPIEREN Wechsel zum Blatt Prognose2 und Anklicken der Zelle E30 (Montag der Woche mit den letzten drei beobachteten Werten). 4. BEARBEITEN/INHALTE EINFÜGEN… 5. Anklicken bei WERTE und bei TRANSPONIEREN (das horizontale Saisonprofil muss wieder senkrecht ausgegeben werden; auch dies wäre wieder entbehrlich, wenn wir von vornherein die Hilfstabelle um 90 Grad gedreht hätten; darüber wurde schon weiter oben gesprochen) und Anklicken von OK. 6. Anklicken von E37 (letzter Montag) und Wiederholung der Schritte 4. und 5. Geben Sie dann in Zelle F33 ein: =D33+E33 und ziehen diese Berechnung nach unten, werden die Trendprognosewerte mit den Werten des Saisonprofils korrigiert. In F33 bis F42 stehen jetzt die endgültigen und verbesserten Prognosewerte.
12
Grundlagen der Wahrscheinlichkeitstheorie
„Alea iacta est.“ (Der Würfel ist gefallen) – Caesar
Haben Sie sieben Bücher? 12.1 Pfälzer Leberwurst 12.2 Ereignisse 12.3 Kombinatorik 12.4 Kombinatorische Praxisaufgaben 12.5 Bestimmung der Wahrscheinlichkeit
12.1
Pfälzer Leberwurst
„Was darf es denn diesmal sein?“, fragte mich meine Metzgerfrau, bei der ich zum Wochenende regelmäßig einkaufe. „Wir hätten da heute ausnahmsweise ein paar sehr schöne Stücke Lammfleisch.“ Sie neigte sich über die Theke. „Vielleicht einmal schöne Lammkoteletts?“ „Eigentlich sollte es ja einen bayrischen Schweine...“ braten geben, wollte ich noch sagen, aber meine Nachbarin, eine resolut wirkende Dame unterbrach mich. „Hören Sie mal, junger Mann“, sagte sie, und ihre Stimme war eine Spur zu schrill. „Hier stehen sieben Hausfrauen in einer Reihe ...“ „Sechs Hausfrauen und ein Hausmann“, warf ich vorsichtig ein. „... und Sie drängen sich da einfach vor? Hätten Sie die Güte, sich hinten anzustellen? Wir haben ja unsere Zeit auch nicht gestohlen!“ Die übrigen Damen, alle ähnlich resolut dreinschauend, nickten zustimmend. Einige flüsterten hinter vorgehaltener Hand miteinander. „Ich glaubte, an der Reihe zu sein“, log ich. „Unsinn!“ „Entschuldigen Sie“, mischte sich die Metzgerfrau ein, „wenn da so viele Personen vor der Theke stehen, dann verlier ich auch schon mal den Überblick. Wer ist denn nun eigentlich dran?“ „Ein Pfund Pfälzer Leberwurst – von der fetten“, sagte meine Nachbarin. „Wahrscheinlich gibt es ja ein paar Dutzend Möglichkeiten, wie sieben Kunden vor meiner Theke in der Reihe stehen könnten“, antwortete die Metzgerfrau, legte das Lammfleisch zur Seite und griff nach der Pfälzer Leberwurst. „Wie soll man das im Auge behalten?“ „Genau 5040 Möglichkeiten“, sagte ich und trat ins zweite Glied zurück, während sich die Damen vielsagend anschauten. Natürlich war es nicht zweckmäßig, ihnen jetzt etwas über die Regeln der Kombinatorik zu erzählen oder über Zufallsereignisse.
226
12.2
12.2
Ereignisse
Ereignisse
Beginnend mit diesem Kapitel wenden wir uns dem umfangreichen Gebiet der Wahrscheinlichkeitsstatistik und der darauf aufbauenden Verfahren zu. Diese Verfahren sind deshalb so außerordentlich wichtig geworden, weil die empirische Datenbereitstellung in aller Regel auf Stichprobenbasis erfolgt – und genau in diesem Zusammenhang werden Wahrscheinlichkeitsüberlegungen, wie wir gleich sehen werden, besonders bedeutsam. Dann nämlich, wenn die Stichprobenelemente nach dem Zufallsprinzip ausgewählt werden. Wie wahrscheinlich ist es zum Beispiel, dass sieben Personen in ganz bestimmter Anordnung in der Reihe stehen? Offenbar spielt bei der Beantwortung dieser Frage das, was wir in der Alltagssprache als Zufall bezeichnen, eine besondere Rolle. Denken Sie beispielsweise an Marktforschungsstudien oder an Untersuchungen in der Qualitätskontrolle. Dabei geht man meistens so vor, dass die zu untersuchenden Elemente, etwa die befragten Personen, nach dem Zufallsprinzip ausgewählt werden. Wir werden in Kapitel 15 darüber sprechen, was die wesentlichen Vorzüge dieser Vorgehensweise sind. Hier ist es vorbereitend erforderlich, zunächst zu erörtern, was es mit dem Begriff des Zufalls und mit dem eng damit zusammenhängenden Begriff der Wahrscheinlichkeit auf sich hat. Generell kann man sagen, dass die Wahrscheinlichkeitsrechnung mit Ereignissen zu tun hat, die vom Zufall abhängen oder davon beeinflusst werden. Sie werden weiter unten erkennen, dass Wahrscheinlichkeiten als Quotienten ausgedrückt werden können. Zum Beispiel wird die Wahrscheinlichkeit dafür, mit einer Münze Zahl zu werfen, durch den Quotienten ½ gegeben. Der Quotient ½ kann auch mit der Zahl 0,5 oder mit dem Wert 50% bezeichnet werden. Deshalb spricht man auch bei dem Münzwurfbeispiel von einer 50:50-Chance für das Ereignis Zahl. Bei komplizierteren Fragestellungen, zum Beispiel: 1. 2.
Wie groß ist die Wahrscheinlichkeit, mit 18 Münzwürfen sechsmal Kopf zu werfen? Wie wahrscheinlich ist es, bei 49 Lottozahlen genau die sechs anzukreuzen, die am Samstag auch gezogen werden? ist es nicht immer ganz einfach herauszufinden, was im Zähler und was im Nenner des entsprechenden Quotienten stehen muss. Hier hilft die Kombinatorik weiter, die deshalb ausführlicher in diesem Kapitel besprochen wird (siehe Abschnitt 12.3). Zunächst aber zum Begriff des Zufallsereignisses. Unter einem Zufallsereignis versteht man die mögliche Realisierung eines Zufallsexperiments. Solche Experimente finden unter festgelegten Bedingungen statt. Beispiele für solche Experimente, die man wiederholt unter gleichen Bedingungen ausführen kann, sind zum Beispiel das Würfeln, das Werfen von Münzen, das Auswählen von Kugeln aus einem Behälter (Lotto), unter bestimmten Bedingungen die Auswahl von Personen, die in einer Marktuntersuchung befragt werden sollen, oder die zufällige Auswahl einer Glühbirne aus der Serienproduktion zur Feststellung ihrer Qualität. Vielleicht haben Sie kein Interesse daran, zu würfeln oder Münzen über den Tisch klimpern zu lassen. Beispiele dieser Art haben jedoch unübersehbare Vorzüge: Die äußeren Bedingungen, unter denen solche Experimente durchgeführt werden, sind überschaubar, und die Ergebnisse sind daher nachvollziehbar – jeder kann selbst von Fall zu Fall ausprobieren, was zum
12
Grundlagen der Wahrscheinlichkeitstheorie
227
Beispiel beim Würfeln passiert. Aus diesem Grunde werden wir wiederholt auf das Würfelund das Münzwurfbeispiel zurückgreifen. Sie werden aber bald erkennen, dass auch in praktischen Anwendungsfällen häufig Bedingungen vorliegen, die durchaus denen des Münzwurfoder des Würfelbeispiels entsprechen. Betrachten wir also einmal das Würfelbeispiel ein bisschen genauer: Die mögliche Realisierung eines Zufallsexperiments kann beim einmaligen Wurf eines Würfels beispielsweise die Augenzahl Eins bedeuten. Ein anderes mögliches Ergebnis wäre zum Beispiel eine gerade Zahl, also die Zwei, Vier oder Sechs. Sicherlich fällt Ihnen auf, dass im ersten Fall die denkbare Realisierung des genannten Experiments eine einzige Augenzahl war, im zweiten Fall besteht sie aus drei Augenzahlen. Man spricht im ersten Fall von einem Elementarereignis, weil dieses sich nicht weiter zerlegen lässt. Im zweiten Fall liegt ein zusammengesetztes Ereignis vor (nämlich das Ereignis gerade Zahl). Wenn Sie beispielsweise zweimal hintereinander würfeln, ist die Realisation eins im ersten Wurf und drei im zweiten Wurf Elementarereignis. Wundern Sie sich darüber bitte nicht. Es sieht zwar so aus, als ob dieses spezielle Ereignis zerlegt werden könnte, dem ist aber nicht so. Im Sinn der Versuchsanordnung, die vom zweimaligen Würfelwurf ausging, ist die erwähnte Realisation eine, die ihrerseits nicht weiter zerlegt werden kann. Die Menge der bei einem Zufallsexperiment möglichen Elementarereignisse wird als Ereignisraum bezeichnet. Der Ereignisraum des einmaligen Wurfs eines Würfels besteht aus sechs Elementarereignissen (siehe Abbildung 12.1).
Abb. 12.1: Ereignisraum beim einfachen Würfelwurf (E12.XLS, Würfel1)
Der Ereignisraum des zweimaligen Wurfs eines Würfels wird aus 36 Elementarereignissen gebildet (siehe Abbildung 12.2). Werden mehrere Elementarereignisse zusammengefasst, spricht man von zusammengesetzten Ereignissen. Ein solches zusammengesetztes Ereignis wurde oben schon vorgestellt. Es war das Ereignis gerade Augenzahl beim einmaligen Würfeln, denn es besteht aus den Elementarereignissen 2, 4 und 6.
228
12.3
Kombinatorik
Abb. 12.2: Ereignisraum beim doppelten Würfelwurf (E12.XLS, Würfel2)
Bei den betrachteten Beispielen handelt es sich deshalb um Zufallsereignisse, weil damit gemeint ist, dass das jeweilige Experiment unter Bedingungen des Zufalls durchgeführt wird, so dass Eintreten oder Nichteintreffen des Ereignisses zufällig erfolgt, also nicht mit Sicherheit vorausgesagt werden kann. So ist das ja nun mal beim Würfeln. Die Zufälligkeit bestimmter Ereignisse lässt sich, wie wir später sehen werden, quantifizieren, indem man den Ereignissen Wahrscheinlichkeiten zuordnet. Der Wert der Wahrscheinlichkeit gibt an, wie groß die Chance ist, dass das betreffende Ereignis bei einem Experiment auftritt.
12.3
Kombinatorik
Mit der Kombinatorik wird untersucht, auf welche und auf wie viel verschiedene Arten Sie eine gegebene Anzahl von Dingen (Elementen) anordnen und zu Gruppen zusammenfassen können. Für uns ist die Kombinatorik deshalb bedeutsam, weil mit ihrer Hilfe in vielen, auch komplizierteren Fällen die Berechnung der Anzahlen bestimmter Ereignisse möglich wird. Vielleicht denken Sie, dass dies nicht erforderlich ist. Es wird sich aber bald zeigen, dass es sich lohnt, wenn Sie sich mit kombinatorischen Fragestellungen beschäftigen. Betrachten Sie folgendes Beispiel: Vor der Theke in einer Metzgerei stehen drei Personen und warten darauf, bedient zu werden. Es handelt sich um Frau Müller-Sprottendorf, Frau Zumbügel-Hersteiner und Herrn Voß. Die Metzgerfrau hinter ihrer Wurstauslage hat vergessen, in welcher Reihenfolge diese drei Personen ihren Laden betreten haben. Sie versucht, sich auszudenken, welche Reihenfolgen überhaupt denkbar sind, und kommt zu dem folgenden Ergebnis: Als zum ersten Mal die Tür aufging, gab es drei Möglichkeiten: Entweder es kam als Erstes Frau Müller-Sprottendorf oder Frau Zumbügel-Hersteiner oder Herr Voß herein. Gedanklich gelangt sie also zu dem folgenden Bild: Erster Eintritt: Frau Müller-Sprottendorf oder Frau Zumbügel-Hersteiner oder Herr Voß
12
Grundlagen der Wahrscheinlichkeitstheorie
229
Weiter überlegt sie Folgendes: Wenn die erste Person – egal wer – im Laden ist, dann kann es bei der zweiten Türöffnung nur noch zwei Möglichkeiten geben. Sie ergänzt ihre gedankliche Aufstellung wie folgt: Erster Eintritt:
Zweiter Eintritt:
Frau Müller-Sprottendorf
Frau Zumbügel-Hersteiner oder Herr Voß
oder Frau Zumbügel-Hersteiner oder Herr Voß
Frau Müller-Sprottendorf oder Herr Voß Frau Müller-Sprottendorf oder Frau Zumbügel-Hersteiner
Und schließlich, wenn zwei Personen schon im Laden sind, gibt es bei der dritten Türöffnung nur jeweils eine Möglichkeit. Insgesamt gibt es also sechs denkbare verschiedene Reihenfolgen, nämlich: Müller-Sprottendorf, Müller-Sprottendorf, Zumbügel-Hersteiner, Zumbügel-Hersteiner, Voß, Voß, Ohne viel nachzudenken, kommt man bei Ziel:
Zumbügel-Hersteiner, Voß Voß, Zumbügel-Hersteiner Müller-Sprottendorf, Voß Voß, Müller-Sprottendorf Zumbügel-Hersteiner, Müller-Sprottendorf Müller-Sprottendorf, Zumbügel-Hersteiner drei Personen mit der folgenden Rechnung zum
Anzahl der Reihenfolgen 3 2 1 6 Bevor wir dies weiter vertiefen, ist es zunächst wichtig, einige wichtige Unterscheidungsmerkmale kombinatorischer Fälle zu betrachten. Dazu das folgende Beispiel: In einem für Sie nicht einsehbaren Behälter befinden sich vier verschiedenfarbige Kugeln. Es sind die Farben Weiß, Rot, Grün und Schwarz vertreten.
Abb. 12.3: Behälter mit vier Kugeln
230
12.3
Kombinatorik
Wie viele verschiedene Möglichkeiten gibt es, von den vier Kugeln, die wir mit w, r, g und s bezeichnen wollen (weiß, rot, grün und schwarz), zwei herauszugreifen? Stellen Sie sich vor, Sie sollten diesen Versuch durchführen. Wenn Sie zum ersten Mal in den Behälter greifen, sind offenkundig vier verschiedene Ergebnisse möglich. Die Kugel, die Sie beim ersten Mal ziehen, können Sie nun zur Seite legen, bevor Sie zum zweiten Mal in den Behälter greifen. Oder aber Sie legen die erste Kugel wieder in den Behälter zurück, nachdem Sie sich notiert haben, welches Ergebnis aufgetreten war. Für Ihren zweiten Zug ist es von großer Bedeutung, ob die Kugel des ersten Zuges in den Behälter zurückgelegt wurde oder nicht. Wurde sie zurückgelegt, so sind beim zweiten Zug, wie beim ersten Zug auch, vier Ergebnisse möglich. Dabei kann zufälligerweise wieder die gleiche Kugel gezogen werden wie beim ersten Mal. Wir sagen in diesem Fall: Wiederholung ist möglich, bzw. wir sprechen von einem Modell mit Zurücklegen. Wenn Sie dagegen die Kugel des ersten Zuges nicht wieder in den Behälter zurücklegen, so sind beim zweiten Zug nur noch drei Ziehungsergebnisse möglich. Die beim ersten Zug entnommene Kugel können Sie nicht noch ein zweites Mal ziehen. In diesem Fall liegt ein Modell ohne Zurücklegen vor; hier sind Wiederholungen aufgetretener Realisierungen nicht möglich. Ein zweites unterscheidendes Merkmal bei kombinatorischen Fragestellungen ist die Bedeutung der Reihenfolge. Bilden Sie in unserem Beispiel Zweiergruppen gezogener Kugeln, so kann in einer Gruppe der Fall (r, w) auftreten (rot-weiß), in einer anderen Gruppe der Fall (w, r), also weiß-rot. Wird die Reihenfolge für wesentlich erachtet, sind das zwei verschiedene Ziehungsergebnisse, andernfalls aber nur ein Ergebnis. Es gibt noch ein drittes Einteilungskriterien für kombinatorische Fragestellungen: Sie müssen nämlich beachten, ob bei einer Gesamtheit von n Elementen alle in eine kombinatorische Überlegung einbezogen werden oder nur ein Teil k davon. Im Allgemeinen muss im letzteren Fall k kleiner als n sein. Es sind aber auch Fälle denkbar, in denen k größer als n ist; nämlich dann, wenn Wiederholung zugelassen ist. Auch dieses Kriterium findet sich in unserem Beispiel wieder: Es ging darum, zwei aus vier Kugeln auszuwählen; d. h. k 2, n 4 . Schließlich ein viertes und letztes Einteilungskriterium: Wir unterscheiden die Fälle der Kombinatorik, in denen alle n vorliegenden Elemente voneinander verschieden sind, von den Fällen, in denen einige Elemente gleich sind. Stellen Sie sich vor, in dem Behälter, von dem vorhin die Rede war, befänden sich wieder vier Kugeln, von denen nun aber zwei weiß und zwei schwarz sind. Dann hätten Sie es mit dem Fall zu tun, dass einige Elemente gleich sind. Aufgrund dieser vier Kriterien, die sich als Fragen formulieren lassen: Zählt die Reihenfolge innerhalb der einzelnen Anordnungen (Auswahlen) oder nicht? Gelten alle n Elemente als verschieden oder nicht? Werden alle n Elemente berücksichtigt oder nur ein Teil k davon? Ist Wiederholung möglich oder nicht? ordnet man die verschiedenen Typen kombinatorischer Fragestellungen und gibt ihnen Namen. Zählt die Reihenfolge innerhalb der einzelnen Anordnungen, so sprechen wir von Permutationen. Diese können entsprechend den übrigen drei Kriterien weiter eingeteilt werden. Zählt
12
Grundlagen der Wahrscheinlichkeitstheorie
231
die Reihenfolge nicht, so sprechen wir von Kombinationen, die ebenfalls weiter nach den drei übrigen Kriterien unterschieden werden können. Einige wenige und besonders wichtige Fälle kombinatorischer Fragestellungen werden wir nun betrachten.
12.3.1 Permutationen Stellen Sie sich vor, Sie sollen sieben verschiedene Bücher auf ein Regalbrett stellen. Auf wie viele verschiedene Arten ist dies möglich? (Erinnern Sie sich an die Metzgerei aus Abschnitt 12.1? Dort ging es im Prinzip um die gleiche Frage.) Welcher Permutationsfall vorliegt, zeigt die Kontrolle der vier Kriterien: Die Reihenfolge innerhalb der einzelnen Anordnungen ist von Bedeutung, weil es nicht dasselbe ist, ob Karl May vor Simmel oder Simmel vor Karl May steht – deshalb handelt es sich hier um eine Permutation und nicht etwa um eine Kombination. Wiederholung ist nicht möglich, weil das eine Simmel-Buch nicht an zwei Positionen gleichzeitig auftreten kann. Es werden sämtliche Elemente betrachtet, weil alle sieben Bücher aufgestellt werden sollen. Die sieben Bücher sind alle voneinander verschieden. Die Frage nach der Anzahl der verschiedenen Anordnungen können Sie durch eine einfache Überlegung beantworten: Für das erste Buch gibt es sieben verschiedene Positionen auf dem Brett. Wenn Sie sich für eine dieser sieben Positionen entschieden haben, verbleiben für das zweite Buch nur noch sechs Positionen. Dies bedeutet, dass es für die ersten beiden Bücher – gemeinsam betrachtet – insgesamt 7 6 42 Möglichkeiten gibt, weil sich jede der sieben Möglichkeiten für das erste Buch mit jeder der sechs Möglichkeiten für das zweite Buch verbinden lässt. Ist das zweite Buch hingestellt, bleiben für das dritte Buch noch fünf Positionen. Jeder der 42 Fälle lässt sich nun mit den noch offenen fünf Positionen verknüpfen, so dass Sie für die Positionierung der ersten drei Bücher bisher 7 6 5 210 Möglichkeiten haben. Setzen Sie diese Überlegung für sämtliche Bücher fort, so finden Sie als Gesamtzahl der verschiedenen Anordnungen: 7 6 5 4 3 2 1 5040 Allgemein ergibt sich für den Fall der Permutation von n Elementen unter den gegebenen Voraussetzungen: Pn
n! n n 1
n
2
n 3 ... 3 2 1
(n! wird gesprochen als n-Fakultät). Zur Verdeutlichung sei der Fall von drei Büchern betrachtet: Karl May, Simmel, Konsalik. Welche Anordnungsmöglichkeiten gibt es? Wenn Sie sich alle Möglichkeiten notieren, gelangen Sie zu der folgenden Übersicht: Karl May Karl May Simmel Simmel Konsalik Konsalik
Simmel Konsalik Karl May Konsalik Karl May Simmel
Konsalik Simmel Konsalik Karl May Simmel Karl May
232
12.3
P3
Kombinatorik
3! 3 2 1 6
Um mit Excel die Frage zu beantworten, wie viele verschiedene Anordnungsmöglichkeiten es für sieben verschiedene Bücher gibt, nutzen Sie die Excel-Funktion FAKULTÄT. Die Vorgehensweise ist folgende (siehe Abbildung 12.4): 1. 2. 3. 4.
Geben Sie in die Zelle B3 den Wert 7 ein. Klicken Sie die Zelle B5 an. Tragen Sie ein: = FAKULTÄT(B3). Drücken Sie Return, oder klicken Sie eine andere Zelle an.
Abb. 12.4: Fakultätsberechnung (E12.XLS, Perm1)
Ab dem dritten der oben genannten Schritte könnten Sie auch den Funktions-Assistenten verwenden: 1. Wählen SIE EINFÜGEN/FUNKTION… 2. Klicken Sie die Kategorie MATH & TRIGONOM. an. 3. Wählen Sie aus dem rechten Listenfeld FAKULTÄT. 4. Klicken Sie die Schaltfläche OK an. 5. Geben Sie die Zelle B3 als Argument der Funktion an. 6. Klicken Sie auf die Schaltfläche OK. Der zweite Fall von Permutationen, den wir betrachten wollen, bezieht sich darauf, dass aus n verschiedenen Elementen k Elemente unter Beachtung der Reihenfolge ausgewählt werden sollen. Stellen Sie sich vor, dass aus n 7 verschiedenen Büchern k 3 ausgewählt werden, um sie etwa als ersten, zweiten und dritten Preis an besonders gute Schüler zu verteilen. Wie viele solcher Dreierauswahlen sind möglich? Wieder gibt es für die Auswahl des ersten Buches sieben, für die des zweiten sechs und für die des dritten Buches fünf Möglichkeiten. Deshalb erhalten wir als Gesamtzahl 7 6 5
210
Auswahlmöglichkeiten. Allgemein ergibt sich für diesen Fall der Permutationen von k aus n Elementen: k Pn
n n 1
n
2 ... n
k 1
Wenn Sie diesen Fall mit dem ersten vergleichen, erkennen Sie: Pn
Pn
k k Pn
oder k Pn
n n 1 ... n k 1 n k n k 1 ... 3 2 1 n k n k 1 ... 3 2 1
12
Grundlagen der Wahrscheinlichkeitstheorie
233
bzw. k Pn
n
n! k!
In unserem Zahlenbeispiel ergibt sich demnach: 3 P7
7! 7 3!
7! 4!
7 6 5
210
Zur Verdeutlichung seien vier Personen (Meier, Müller, Monka, Voß) betrachtet, aus denen zwei ausgewählt werden. Sie erhalten die folgenden zwölf Möglichkeiten: Meier, Müller Müller, Meier Monka, Meier Voß, Meier 2 P4
Meier, Monka Müller, Monka Monka, Müller Voß, Müller 4! 4 2!
4! 2!
Meier,Voß Müller, Voß Monka, Voß Voß, Monka
4 3 2 1 2 1
4 3 12
Die Lösung der Aufgabe, drei aus sieben Büchern auszuwählen, sieht mit Excel so aus: 1. 2. 3.
Geben Sie in Zelle A4 den Begriff Elemente (in der obigen Formel n) und in B4 den Wert 7 ein. Geben Sie in Zelle A5 den Begriff Auswahl (in der obigen Formel k) und in B5 den Wert 3 ein. Geben Sie in Zelle A6 den Begriff Permutation ein, klicken Sie B6 an, und geben Sie die folgende Berechnungsformel ein: =FAKULTÄT(B4)/FAKULTÄT(B4-B5).
Abb. 12.5: Permutation von drei aus sieben Elementen (E12.XLS, Perm2)
Ein dritter Permutationsfall hat mit dem eben behandelten große Ähnlichkeit: Wir betrachten wiederum das Modell ohne Wiederholung und ohne Auswahl. Sieben Bücher sollen auf einem Regalbrett angeordnet werden. Es sollen jedoch nicht alle Bücher verschieden, sondern einige sollen gleich sein. Unter den sieben Büchern seien nun drei gleiche (dreimal seien die Bücher 5, 6 und 7 jeweils Karl May, Winnetou Band 1). Dadurch muss sich natürlich die Gesamtzahl der Aufstellmöglichkeiten verringern. Die verschiedenen Bücher 1, 2, 3 und 4 lassen sich wieder auf 7 6 5 4 Arten anordnen. Die drei Winnetou-Exemplare lassen sich nur auf eine Art anordnen; in jedem der 7 6 5 4 Fälle können die noch nicht belegten Positionen auf dem Regalbrett nur auf eine einzige Art besetzt werden – weitere Umstellungen führen zu keinen neuen Gesamtanordnungen. Damit ist das Problem gelöst: Für n Elemente, von denen k gleich sind, gibt es
234
12.3
Kombinatorik
n! k!
Pn k
Anordnungen. Für unser Beispiel bedeutet dies: 7! 3!
P7 3
7 6 5 4 3 2 1 3 2 1
7 6 5 4 840
Sie sehen, dass man beim Rechnen mit Fakultäten angenehm kürzen kann. Mit Excel können Sie diese Aufgabe folgendermaßen lösen: 1. 2. 3. 4.
Geben Sie in Zelle A3 den Begriff Elemente (in der obigen Formel n) und in B3 den Wert 7 ein. Geben Sie in Zelle A4 den Begriff gleiche Elemente (in der obigen Formel k) und in B4 den Wert 3 ein. Geben Sie in Zelle A6 den Begriff Permutationen ein, klicken Sie B6 an, und geben Sie ein =FAKULTÄT(B3)/FAKULTÄT(B4). Drücken Sie Return, oder klicken Sie eine andere Zelle an.
Abb. 12.6: Permutation von zum Teil gleichen Elementen (E12.XLS, Perm3)
Betrachten wir noch einen vierten Fall der Permutationen. Hier soll wie schon beim Beispiel zuvor gelten, dass nicht alle Elemente verschieden sind. Vielmehr soll es eine erste Gruppe identischer Elemente geben vom Umfang k1 und eine zweite Gruppe vom Umfang k 2 . Außer diesen beiden Gruppen identischer gibt es keine Elemente. Es gilt also: k1
k2
n
Sie können sich also sieben Bücher vorstellen, von denen drei identische Karl May-Bände und vier identische Simmel-Bände sind. Wie viele verschiedene Möglichkeiten gibt es, diese sieben Bücher auf einem Regalbrett anzuordnen? Die Antwort auf diese Frage ergibt sich aus den Überlegungen des vorangegangenen Beispiels zu: Pn ( k1 ,k 2 )
n! k1! k 2 !
Im Beispiel ergibt sich deshalb: Pn 3, 4
7! 3! 4!
7 6 5 3 2 1
35
12
Grundlagen der Wahrscheinlichkeitstheorie
235
Dieser Spezialfall der Permutationen wird Ihnen gleich wieder begegnen, nachdem auch hier noch gezeigt wird, wie die entsprechende Berechnung in einem Excel-Arbeitsblatt erledigt wird. 1. 2. 3. 4. 5.
Geben Sie in Zelle A4 den Begriff Elemente (in der obigen Formel n) und in B4 den Wert 7 ein. Geben Sie in Zelle A5 den Text 1. Gruppe gleicher Elemente (in der obigen Formel k1) und in B5 den Wert 3 ein. Geben Sie in Zelle A6 den Text 2. Gruppe gleicher Elemente (in der obigen Formel k2) und in B6 den Wert 4 ein. Geben Sie in Zelle A8 den Begriff Permutationen ein, klicken Sie B8 an, und geben Sie ein: =FAKULTÄT(B4)/(FAKULTÄT(B5)*FAKULTÄT(B6)). Drücken Sie Return, oder klicken Sie eine andere Zelle an.
Abb. 12.7: Permutationen von zwei Gruppen identischer Elemente (E12.XLS, Perm4)
12.3.2 Kombinationen Wir haben jetzt vier verschiedene Aufgabenstellungen aus dem Bereich der Permutationen betrachtet. Wenn Sie sich an die vier Kriterien zur Unterscheidung kombinatorischer Fragestellungen erinnern, die oben kurz vorgestellt wurden, so ist leicht einsichtig, dass es noch mehr Fälle gibt. Beispielsweise haben wir darauf verzichtet, Permutationen mit Wiederholung vorzuführen. Sie sind aber auch für die späteren statistischen Praxisaufgaben nicht so wichtig. Entsprechendes gilt auch für die Kombinationen. Hier werden wir lediglich den wichtigsten Fall herausgreifen. Sie werden allerdings verwundert feststellen, dass dieser eine Fall auch unter den Permutationen hätte eingeordnet werden können. Basis ist das Modell ohne Wiederholung. Aus n verschiedenen Elementen sollen k Elemente ausgewählt werden. Dabei ist jetzt die Reihenfolge, in der ausgewählt wird, unwichtig. Dies unterscheidet ja Kombinationen von Permutationen. Gefragt ist danach, wie viele verschiedene Auswahlen es gibt. Ausgehend vom Bücherbeispiel stehen Sie jetzt also vor der Frage, wie viele Möglichkeiten es gibt, k 3 Bücher aus n 7 verschiedenen Büchern auszuwählen, wobei jetzt aber die Reihenfolge der Bücher innerhalb der Dreiergruppen kein Kriterium der Unterscheidung mehr ist. Ob Sie also Karl May, Simmel und Konsalik auswählen oder Simmel, Konsalik und Karl May, bleibt sich gleich. Erinnern Sie sich an den zuletzt besprochenen Fall der Permutationen. Dort lautete die auf das Bücherbeispiel bezogene Frage folgendermaßen: Wie viele Möglichkeiten gibt es, sieben
236
12.4
Kombinatorische
Bücher anzuordnen, von denen drei identisch (erste Gruppe) und die vier übrigen ihrerseits identisch (zweite Gruppe) sind? Diese Frage entspricht der jetzt gestellten Frage, wie sich zeigt, wenn wir die kombinatorische Frage ein wenig umformulieren. Vor der Umformulierung lautet sie, wie viele Möglichkeiten es gibt, k 3 Bücher aus n 7 verschiedenen Büchern (ohne Beachtung der Reihenfolge) auszuwählen? Nach der Umformulierung lautet sie so: Wie viele Möglichkeiten gibt es, n 7 Bücher so anzuordnen, dass k1 3 davon identisch sind, in dem Sinne, dass sie ausgewählt werden, und k 2 4 ihrerseits identisch sind, in dem Sinne, dass sie nicht ausgewählt werden? Sie erkennen, dass in dieser zweiten Formulierung die Frage nach den Kombinationen dem zuletzt betrachteten Permutationsfall völlig entspricht. Es braucht deshalb nicht zu verwundern, dass die Berechnungsformel die gleiche ist. Kombinationen von k aus n Elementen werden bezeichnet mit k C n . Wenn man berücksichtigt, dass im dritten Permutationsbeispiel an der Stelle von k das Symbol k1 verwendet wurde und dass k1 k 2 n , so kann man hier schreiben: n k
n! k! n k !
k Cn
Den letzten Ausdruck bezeichnet man mit „n über k“ und nennt ihn Binomialkoeffizient. Vielleicht ist er Ihnen aus der Schulmathematik bekannt, wo er bei der Auflösung zum Beispiel der Ausdrücke b 2, a
a
b 3, a
b
4
usw. auftaucht. Sie werden diesem Binomialkoeffizienten an anderer Stelle wieder begegnen. Zur Veranschaulichung betrachten wir wieder den Fall, dass aus vier Personen (Meier, Müller, Monka, Voß) zwei – nun ohne Beachtung der Reihenfolge – ausgewählt werden sollen. Sie erhalten die folgenden Möglichkeiten: Meier, Müller Müller, Monka Monka, Voß 2 C4
12.4
Meier, Monka Müller, Voß 4! 2! 4 2 !
Meier, Voß
4 3 2 1 2 1 2 1
4 3 2 1
6
Kombinatorische Praxisaufgaben
Unter dem Aspekt des praktischen Einsatzes statistischer Methoden können mit kombinatorischen Berechnungsformeln einige interessante Aufgaben gelöst werden – auch wenn die Kombinatorik eigentlich nur Vorstufe für noch bedeutsamere Verfahren ist, die in späteren Kapiteln angesprochen werden. Einige typische Vertreter solcher Aufgaben sollen kurz vorgestellt werden. 1.
24 Formel-1-Rennwagen starten zu einem Rennen. Vorausgesetzt, alle kommen ins Ziel, wie viele verschiedene Möglichkeiten der Zieldurchfahrt gibt es?
12
237
Grundlagen der Wahrscheinlichkeitstheorie
Es handelt sich hier um die Frage der Anordnungsmöglichkeiten von 24 verschiedenen Rennwagen, also um eine Permutation von 24 Elementen. Es ergibt sich: P24
24! 6,2045E 23
Excel berechnet hier eine bemerkenswert hohe Zahl: E+23 ist zu lesen als mal 10 hoch 23, d.h., wir erhalten ein Ergebnis mit 24 Stellen (zum Beispiel ist ja 10 hoch 6 eine Million, eine Zahl also mit sieben Stellen). 2.
Acht 100-Meter-Sprinter starten im olympischen Endlauf. Wie viele Möglichkeiten gibt es, die Gold-, Silber- und Bronzemedaille zu verteilen?
Hier handelt es sich um die Auswahl von drei aus acht Personen mit Beachtung der Reihenfolge, also um eine Permutation von aus Elementen: 3 P8
3.
8! 8 7 6 8 3!
336
In einem Verein, der aus zehn Personen besteht, soll ein Vorstand gewählt werden, der aus drei gleichberechtigten Personen besteht. Wie viele Wahlmöglichkeiten gibt es?
Es handelt sich hier um eine Auswahl von drei aus zehn Personen ohne Beachtung der Reihenfolge (wegen der Gleichberechtigung), also um eine Kombination von drei aus zehn Elementen: 3 C10
4.
10! 3! 10 3 !
10 9 8 3 2 1
120
Wie viele Diagonalen gibt es in einem Sechseck?
Offensichtlich handelt es sich auch hier um eine kombinatorische Fragestellung, denn eine Diagonale ist definiert als die Verbindungslinie zwischen zwei Punkten im Sechseck. Es geht also um die Auswahl von zwei aus sechs Elementen. Die Frage nach der Zahl der Diagonalen lässt sich demnach kombinatorisch als die Frage auffassen, wie viele Möglichkeiten es gibt, aus sechs Ecken zwei auszuwählen – ohne Beachtung der Reihenfolge, denn die Diagonale von A nach C ist die gleiche wie die von C nach A. Allerdings gehören zu solchen Zweierauswahlen auch die Seiten des Rechtecks, zum Beispiel die Seite von A nach B. Da ein Sechseck sechs Seiten hat, müssen diese sechs speziellen Zweierauswahlen abgezogen werden. Somit ergibt sich: Diagonalenzahl
2 C6
6
6! 6 2! 6 2 !
6 5 2 1
6 15 6
9
Allgemein erhält man demnach für ein n-Eck: Diagonalenzahl
2 Cn
n
n! n 2! n 2 !
n n 1 2
n
Sie können diese allgemeine Berechnungsformel für den Fall eines Quadrats überprüfen, das ja bekanntlich zwei Diagonalen hat.
238
12.5
12.5
Bestimmung der
Bestimmung der Wahrscheinlichkeit
Nach diesen einführenden Überlegungen zur Kombinatorik, auf die wir wieder zurückkommen, wenn etwas anspruchsvollere Wahrscheinlichkeitsberechnungen in Angriff genommen werden, soll nun zunächst dem Begriff der Wahrscheinlichkeit selbst unsere Aufmerksamkeit gelten. Was bedeutet es eigentlich, wenn wir behaupten, dass es morgen wahrscheinlich regnen wird oder dass wir wahrscheinlich am Samstag nicht sechs Richtige im Lotto haben werden? Derartige Aussagen können vage Vermutungen sein; genauso gut könnte es sich aber auch um fast unerschütterliche Meinungen handeln. Auf jeden Fall gilt aber, dass es nicht völlig sicher ist, dass es regnen wird. Es ist auch nicht auszuschließen, dass ich glücklicher Lottogewinner sein werde. Die Mutmaßung, dass ein Ereignis (wie das Regnen am nächsten Tag) verwirklicht werden könnte oder auch nicht, mag sich auf eine gewisse Erfahrung stützen, könnte aber auch physikalischen Überlegungen entsprungen sein oder gar lediglich aus der Tiefe des Gemüts stammen. Damit nun mit solchen Mutmaßungen konkret gearbeitet werden kann, ist es erforderlich, unsere Erwartungen zu quantifizieren, also Wahrscheinlichkeiten zu bemessen. Wie hoch ist die Regenwahrscheinlichkeit für den morgigen Tag? Wie groß ist die Wahrscheinlichkeit für sechs Richtige im Lotto? Können für solche Wahrscheinlichkeiten Messzahlen angegeben werden?
12.5.1 Klassischer Wahrscheinlichkeitsbegriff Ein erstes konkretes Konzept der nummerischen Festlegung einer Wahrscheinlichkeit knüpft direkt an Gedankengänge an, die in Zusammenhang mit Zufallsexperimenten und Ereignissen stehen, wie wir dies weiter oben erörtert haben. Ausgangspunkt der folgenden Überlegungen ist ein endlicher Ereignisraum, der die bei einem Zufallsexperiment möglichen Elementarereignisse enthält – etwa beim einfachen Würfelwurf die sechs Augenzahlen 1 bis 6. Er kann wie folgt geschrieben werden (siehe auch Abbildung 12.1 weiter oben): E
1, 2, 3, 4, 5, 6
Ohne dass Sie den Würfel auch nur ein einziges Mal werfen, können Sie von vornherein (oder, wie man sagt, a priori) sagen, dass – wenn der Würfel in Ordnung ist – jede Augenzahl die gleiche Neigung haben wird, gewürfelt zu werden. Diese Ansicht werden Sie allerdings nur dann vertreten, wenn Sie sicher sind, dass sämtliche Gegebenheiten ausgeräumt sind, die für die Bevorzugung bzw. Benachteiligung einer bestimmten Augenzahl verantwortlich sein könnten, zum Beispiel unterschiedliche Oberfläche des Würfels, unterschiedliche Gewichtsverteilung, unsauberes Werfen oder andere Mogeleien. Haben alle Elementarereignisse eines endlichen Ereignisraumes a priori – also ohne Ausprobieren – die gleiche Möglichkeit, realisiert zu werden, spricht man von einem endlichen Gleichmöglichkeitsmodell. Das endliche Gleichmöglichkeitsmodell ist die adäquate Beschreibung einer Reihe bekannter Glücksspiele: Münzwürfe, Würfelspiele, Roulette, Zahlenlotto
12
Grundlagen der Wahrscheinlichkeitstheorie
239
können hier genannt werden. Sie sehen, wir nähern uns allmählich den praktischen Nutzanwendungen der Wahrscheinlichkeitsstatistik. Übrigens waren in der Tat die alten Glücksspiele in grauer Vorzeit die Geburtshelfer der Wahrscheinlichkeitstheorie. Es braucht nicht zu verwundern, dass vor allem berufsmäßige Spieler schon vor langer Zeit bemüht waren, ihre Chancen bei bestimmten Spielen dadurch zu verbessern, dass sie ihre Gewinnaussichten zu berechnen versuchten. Das endliche Gleichmöglichkeitsmodell ist die Grundlage eines ersten Wahrscheinlichkeitsbegriffs, den wir heute klassisch nennen und der mit dem Namen von Laplace verbunden ist. Hier wird Wahrscheinlichkeit wie folgt definiert: Die Wahrscheinlichkeit ist der Quotient aus der Anzahl im Sinne einer Fragestellung günstiger Elementarereignisse und sämtlicher Elementarereignisse. Bezeichnet man im endlichen Gleichmöglichkeitsmodell mit n die Anzahl der Elementarereignisse und mit m die Anzahl der im Sinn einer Fragestellung günstigen Elementarereignisse und schließlich mit A das aus den m günstigen Elementarereignissen zusammengesetzte so genannte günstige Ereignis, so beträgt die Wahrscheinlichkeit P für die Realisierung von A, nämlich P A , bei einem Experiment: PA
m n
Besteht beim einfachen Wurf eines Würfels das Ereignis A lediglich aus einer günstigen Augenzahl, z.B. der Sechs, dann ergibt sich die Wahrscheinlichkeit, bei einem Wurf eine Sechs zu würfeln, gemäß der klassischen Begriffsfassung zu: P6
1 6
weil ein einziges Ereignis im Sinne der Fragestellung günstig, sechs Ereignisse dagegen gleichmöglich sind. Betrachten Sie ein zweites überschaubares Beispiel: Gefragt ist nach der Wahrscheinlichkeit, bei dem zweimaligen Wurf mit einer Münze mindestens einmal Kopf zu werfen. Auch hier liegt das Gleichmöglichkeitsmodell vor. Der Ereignisraum umfasst vier Elementarereignisse und kann wie folgt geschrieben werden: E
KK, KW, WK, WW
Dabei steht zum Beispiel KW für Kopf im ersten und Wappen im zweiten Wurf. Günstig im Sinne der Fragestellung ist die Menge A der Elementarereignisse: A
KK, KW, WK
Bei diesen drei Elementarereignissen gibt es jeweils mindestens einmal Kopf. Die Anzahlen n 4, m 3 führen zur gesuchten Wahrscheinlichkeit: PA
3 4
Wahrscheinlichkeiten können also als reelle Zahlen dargestellt werden, die zwischen null und eins liegen. Man sieht dem klassischen Konzept sofort an, dass die Wahrscheinlichkeit für das
240
12.5
Bestimmung der Wahrscheinlichkeit
unmögliche Ereignis null ist. Entsprechend gilt, dass die Wahrscheinlichkeit für das sichere Ereignis 1 ist. Im ersten Fall steht im Zähler eine Null, im zweiten Fall stehen im Zähler und im Nenner n. Sofort durchschaubar ist schließlich, dass die Wahrscheinlichkeit für das Komplementärereignis von A, nämlich A , sein muss: PA
n m n
Deshalb muss auch gelten: PA
1 PA
Das klassische Konzept der A-priori-Wahrscheinlichkeit ist sicherlich einleuchtend. Es gibt jedoch zwei Einwände dagegen. Zunächst fällt auf, dass die Gleichmöglichkeit der Elementarereignisse vorausgesetzt wird. Dieser Begriff der Gleichmöglichkeit kann auch durch den Begriff Gleichwahrscheinlichkeit ersetzt werden. Das heißt, dass mit dem klassischen Wahrscheinlichkeitsbegriff die Wahrscheinlichkeit bemessen wird mit Hilfe von Ereignissen, die gleichwahrscheinlich sein sollen. Man misst also eine Sache mit etwas, welches das zu messende enthält. Dies ist unbefriedigend. Es liegt bei der klassischen Wahrscheinlichkeitsdefinition eine Art Zirkeldefinition vor. Der zweite Einwand hat mit folgender Überlegung zu tun: Zwar ist ein Abzählen oder Berechnen (mit Mitteln der Kombinatorik) der Anzahlen von gleichmöglichen Elementarereignissen bei vielen Glücksspielen und manchen physikalischen und biologischen Problemen durchführbar, bei den meisten ökonomischen und sozialwissenschaftlichen Problemstellungen hingegen ist das endliche Gleichmöglichkeitsmodell entweder nicht angemessen, oder es bestehen zur Bestimmung einer A-priori-Wahrscheinlichkeit unüberwindbare Hindernisse. Wollten Sie etwa mit dem klassischen Konzept die Wahrscheinlichkeit dafür bestimmen, dass ein bestimmter Student sein Examen besteht, wären Sie sofort zum Scheitern verurteilt, denn Experimente unter gleichmöglichen Bedingungen finden in der Wirklichkeit normalerweise nicht statt. Es ist also erforderlich, dem klassischen Wahrscheinlichkeitsbegriff eine Alternative gegenüberzustellen.
12.5.2 Statistischer Wahrscheinlichkeitsbegriff Der statistische Wahrscheinlichkeitsbegriff beruht auf dem so genannten Gesetz der großen Zahl. Dabei geht es um die folgende Überlegung: Viele statistische Messzahlen, die für eine Beobachtungsserie berechnet werden, werden im Allgemeinen desto weniger von konstanten Grenzwerten abweichen, je größer der Umfang n der Serie ist. Damit Sie sich besser vorstellen können, was mit dieser etwas schwer verständlichen Aussage gemeint ist, betrachten Sie das folgende Beispiel: In der Universitäts-Frauenklinik Heidelberg werden die Entbindungen beobachtet. Man zählt die neugeborenen Knaben (Anzahl k) und bezieht sie auf die Anzahl n sämtlicher Entbindungen. Dabei mögen sich die in Abbildung 12.8 (siehe folgende Seite) gezeigten Werte ergeben haben. In Spalte A dieser Tabelle sind die Entbindungen insgesamt notiert; die Ausgangsinformationen sind in Abständen von je zehn Entbindungen angegeben. In Spalte B sind die Anzahlen
12
Grundlagen der Wahrscheinlichkeitstheorie
241
der Knabengeburten notiert. Die Angaben der Spalten A und B sind aufwärts kumuliert. Spalte C zeigt den Anteil der Knabengeburten. Was erkennen Sie? Der Anteil der Knabengeburten an allen Geburten (also die relative Häufigkeit) nähert sich mit wachsendem n – unter regellosen Schwankungen – einer Zahl, die in der Nähe von 0,5 liegt.
Abb. 12.8: Entbindungen (E12.XLS, StatWahr)
Stellt man die Entwicklung der letzten Spalte dieser Tabelle grafisch dar, so gelangt man zur Abbildung 12.9 auf der folgenden Seite. Aus solchen Beobachtungen leitet sich das statistische Konzept der Wahrscheinlichkeit her: Ist bei n Beobachtungen eines Merkmals, wobei die Beobachtungen im Wesentlichen unter gleichen Bedingungen stattfanden, die Merkmalsausprägung A in der Häufigkeit f gezählt worden, wird die Wahrscheinlichkeit für die Realisierung der Ausprägung A bei einer Beobachtung, also P A , bei genügend großem n belegt durch die relative Häufigkeit: PA
f n
Sicherlich erkennen Sie die Parallele zur beschreibenden Statistik: Mit Wahrscheinlichkeiten, die auf diese Weise bestimmt werden, kann man so rechnen wie mit relativen Häufigkeiten. Im Gegensatz zum klassischen Konzept der Wahrscheinlichkeit lässt sich nach dem statistischen Konzept eine Wahrscheinlichkeit erst nach Durchführung von Beobachtungen oder Experimenten bestimmen. Deshalb spricht man bei diesem statistischen Konzept von einer Aposteriori-Wahrscheinlichkeit (a posteriori = im Nachhinein).
242
12.5
Bestimmung der Wahrscheinlichkeit
Abb. 12.9: Knabenanteil (E12.XLS, StatWahr)
Gegenüber dem klassischen Konzept besitzt die statistische Bestimmung der Wahrscheinlichkeit auffallende Vorzüge: Sie ist auch dann praktikabel, wenn ein Gleichmöglichkeitsmodell nicht vorliegt oder nicht angemessen ist. Beispielsweise könnte sich nach einigen hundert Würfen mit einer Münze herausstellen, dass die Wahrscheinlichkeit für Kopf sich ergibt zu P K 0,552 . Ähnlich könnte sich ergeben, dass der Anteil der Knabengeburten in Regionen mit starker Luftverschmutzung zum Beispiel 0,57 ist. Oft wird gegen das statistische Konzept der Wahrscheinlichkeit das Argument vorgebracht, die Anzahl der Beobachtungen n sei nicht groß genug, so dass der empirische Befund, die relative Häufigkeit nämlich, die wahre Wahrscheinlichkeit nicht korrekt angibt. Eine Erhöhung der Anzahl der Beobachtungen ist in manchem Fall entweder gar nicht möglich oder nur mit erheblicher zeitlicher Streckung der Beobachtungen durchführbar. In diesem Falle läuft man Gefahr, dass die Wahrscheinlichkeit – entsprechend den sich ändernden äußeren Bedingungen der Versuche bzw. der statistischen Erhebung – zu einer von der Zeit abhängigen historischen Variablen wird, die dann vielleicht nicht gegen eine feste Zahl konvergiert. Deshalb fasst eine Gruppe von Vertretern dieses Konzepts die Wahrscheinlichkeit als Grenzwert auf, dem die relative Häufigkeit zustrebt, wenn unter stets gleichen äußeren Bedingungen die Zahl der Beobachtungen bzw. Experimente über alle Grenzen wächst. Die insbesondere mit dem Namen R. v. Mises verbundene Limesdefinition der Wahrscheinlichkeit lautet folgendermaßen: Wenn ein Ereignis bzw. eine Merkmalsausprägung A insgesamt f-mal in einer Reihe von n Zufallsversuchen oder Beobachtungen, die alle unter wesentlichen gleichen Bedingungen ausgeführt werden, eingetreten ist, so bezeichnet man das Verhältnis f/n als relative Häufigkeit des Erfolges. Der Grenzwert für f/n, wenn n gegen unendlich strebt, ist dann die Wahrscheinlichkeit eines Erfolges in einem einzelnen Versuch.
12
Grundlagen der Wahrscheinlichkeitstheorie
243
12.5.3 Subjektiver Wahrscheinlichkeitsbegriff Der klassische und auch der statistische Wahrscheinlichkeitsbegriff haben, wenigstens auf den ersten Blick, nichts mit dem unterschiedlichen Grad des Glaubens oder der Überzeugtheit von Personen zu tun. Die Wahrscheinlichkeit dafür, dass beim Roulettespiel das nächste Mal eine Zahl roter Farbe auftritt, ist 18/37, ganz unabhängig davon, ob Sie als Spielbankbesucher in einer bestimmten Situation eher ein anderes Gefühl haben. Wahrscheinlich erwarten Sie gefühlsmäßig eine höhere Wahrscheinlichkeit für eine schwarze Zahl, wenn zum Beispiel zehnmal hintereinander Rot gekommen ist. Dieses Gefühl trügt aber, denn die Elfenbeinkugel und der Roulettetisch wissen beim elften Spiel nichts von den zehn vorangegangenen Ergebnissen. Die bislang besprochenen Konzepte der Wahrscheinlichkeit sind deshalb frei von subjektiven Einflussmöglichkeiten; man spricht deshalb auch von objektiver Wahrscheinlichkeit. Ihr steht gegenüber die Gruppe der subjektiven Wahrscheinlichkeitskonzepte. Diesen Konzepten ist gemeinsam, dass Ihr persönlicher Grad des Glaubens hinsichtlich einer Aussage oder eines Ereignisses im Vordergrund steht. Die Gruppe der Subjektivisten hat sich in zwei Richtungen aufgespalten, die intuitionistische Richtung, die u.a. mit den Namen von de Finetti und Koopman verbunden ist, sowie die bayesianische Richtung (benannt nach Bayes), der Savage und Raiffa zugerechnet werden. Für Vertreter der intuitionistischen Richtung ist typisch, dass die Intuition als bedeutendster Grund für Bemessung einer Wahrscheinlichkeit angesehen wird. Grob gesprochen ist hiermit Folgendes gemeint: Einer Person liegt die Beurteilung eines Ausschnitts der Realität vor. Die Person überprüft, ob sie hiermit intuitiv übereinstimmt. Ist dies ohne Vorbehalt der Fall, ordnet sie der Beurteilung die Wahrscheinlichkeit 1 zu. Ist die Intuition der Beurteilung in jeder Hinsicht entgegengesetzt, so wird der Beurteilung die Wahrscheinlichkeit 0 zugeordnet. Den mehr oder weniger deutlichen Übereinstimmungen zwischen Beurteilung und subjektiver Intuition entsprechend, ordnet die Person Wahrscheinlichkeiten zwischen 0 und 1 zu. Vertreter der bayesianischen Richtung gehen einen direkteren Weg der Bemessung einer subjektiven Wahrscheinlichkeit. Sie denken sich die Wahrscheinlichkeit als Grad des Fürwahrhaltens und versuchen, ihn dort zu messen, wo er sich durch Entscheidungen offenbart, beispielsweise im Zusammenhang der Annahme oder des Abschlagens einer Wette. Stellen Sie sich zum Beispiel die folgende Situation vor: A sei das Ereignis, Michael Schumacher wird Formel-1-Weltmeister 2005; B sei das Gegenteil, er wird nicht Weltmeister. Wenn Sie bereit sind, auf A viermal so viel zu wetten wie auf B, dann ist nach Ihrem individuellen Gutdünken P A 4 P B . Die entsprechenden Wahrscheinlichkeiten sind offensichtlich: PA
4 5
PB
1 5
Subjektive Wahrscheinlichkeitskonzepte werden viel häufiger benutzt, als man auf den ersten Blick glauben möchte. Besonders an Freitagen strömen die Menschen zu den Lottoannahmestellen und geben ihre Tipps ab, wo doch für jedermann einsichtig sein sollte, dass es wenig Grund für die Annahme gibt, dass dieser Geldeinsatz ein Geschäft sei. Grundsätzlich kann angemerkt werden, dass die Nutzung des subjektiven Wahrscheinlichkeitskonzepts, verglichen mit den anderen Konzepten, ein schwieriger Weg sein dürfte, das Verständnis für objektive Gegebenheiten zu fördern. Allerdings: Obwohl Intuition oder sub-
244
12.5
Bestimmung der Wahrscheinlichkeit
jektives Fürwahrhalten bei Forschungsvorhaben gelegentlich unumgänglich ist, scheuen sich viele Wissenschaftler, dies zuzugeben, in der irrigen Annahme, diesen Einbruch in die so genannte exakte Wissenschaft nicht zulassen zu dürfen.
13
Wahrscheinlichkeitsverteilungen
„Die Mengenlehre ist unser Unglück!“ R. Leonhardt, Volksschullehrer 1967
Münzen und Würfel 13.1 Mensch ärgere Dich nicht! 13.2 Grafische Darstellung von Wahrscheinlichkeiten 13.3 Der Additionssatz 13.4 Der Multiplikationssatz 13.5 Zwei weitere Sätze 13.6 Zufallsvariable 13.7 Wahrscheinlichkeitsverteilungen diskreter Zufallsvariablen 13.8 Wahrscheinlichkeitsverteilungen stetiger Zufallsvariablen 13.9 Erwartungswert und Varianz von Zufallsvariablen
13.1
Mensch ärgere Dich nicht!
Eines Abends saß ich mit meinen Töchtern beim Spiel Mensch ärgere Dich nicht. Die beiden Mädchen brauchten nur ein paar Würfe, bis sie ihre erste Sechs hatten und mit dem Ziehen ihrer Steine beginnen konnten. Bei mir hingegen dauerte das ein bisschen länger. „Ärgere dich nicht“, sagte Sabine und würfelte schmunzelnd mit ihrem grünen Würfel schon ihre zweite Sechs. Auch Heike hatte schon fast das halbe Spielfeld mit ihrem ersten Stein umrundet, dank hoher Augenzahlen, die der Würfel, mit dem sie würfelte, ihr fortwährend bescherte. Meine vier giftgelben Figuren warteten dagegen immer noch auf meine erste Sechs, damit sie endlich loswandern konnten, aber der dicke schwarze Würfel, der mit den goldenen Punkten, wollte partout keine Sechs zeigen. „Im statistischen Schnitt müsste nach spätestens sechs Würfen die erste Sechs auftauchen“, behauptete ich und würfelte ungefähr zum zehnten Mal. Es war eine Drei. „Ja. Im Schnitt“, antwortete Heike und würfelte wieder eine Sechs. Selbstverständlich ließ ich mir meinen Frust nicht anmerken, war es doch pädagogisch wertvoll, den Töchtern ein Vorbild an disziplinierter Selbstbeherrschung zu sein, gepaart mit der Freude am gemeinsamen Spiel. „Wo bleibt dein statistischer Schnitt?“, fragte Sabine und begann schon mit dem dritten Stein die Runde. „Gemach, gemach“, antwortete ich. „Statistisch gesehen kann es natürlich auch mal sein, dass man zehn oder sogar 20 Würfe lang auf die erste Sechs warten muss – oder sogar noch länger. Statistische Ausreißer gibt es immer einmal!“ Dass aber ausgerechnet ich jetzt mit einem solchen statistischen Ausreißer zu kämpfen hatte, das machte mir nun aber doch zu schaffen. Nur nicht nervös werden, dachte ich mir und würfelte unverdrossen mal eine Zwei, mal eine Drei – nie aber eine Sechs! „Jetzt wird es aber bald Zeit“, meinte Sabine nach etwa zehn Minuten. „Wir sind gleich fertig, und du hast noch nicht einmal den ersten Stein draußen!“
246
13.2
Grafische Darstellung von Wahrscheinlichkeiten
Das ging aber noch eine Weile so weiter mit den niedrigen Augenzahlen meines schwarzgoldenen Würfels, bis mir schließlich mein Statistiker-Verstand sagte, dass hier irgendetwas nicht mit rechten Dingen zuging. „Einen Moment mal“, sagte ich und schaute mir meinen Würfel in Ruhe an. Der wies – golden glänzend – die Augenzahlen Eins, Zwei und Drei auf ... und auf den übrigen Seiten erneut Eins, Zwei und Drei. Meine raffinierten Töchter hatten mir den Würfel irgendeines Spezialspieles in die Hand gedrückt, auf dem es die Augenzahlen Vier, Fünf und Sechs gar nicht gab – und ich hatte rund dreißig Würfe lang auf die Sechs gewartet und dem Zufall die Schuld gegeben, dass sie so lange auf sich warten ließ ...
13.2
Grafische Darstellung von Wahrscheinlichkeiten
Unabhängig davon, ob Sie zum Beispiel mit dem klassischen oder mit dem statistischen Wahrscheinlichkeitskonzept arbeiten, Sie können auch mit Wahrscheinlichkeiten rechnen. Dies ist auch notwendig, denn viele praktische Aufgaben im Bereich der Wahrscheinlichkeitsstatistik sind ohne gewisse Rechenoperationen nicht zu lösen. Um die notwendigen Rechenregeln herleiten zu können, wollen wir zunächst zeigen, dass man Wahrscheinlichkeiten anschaulich grafisch darstellen kann. Schauen Sie sich dazu in der folgenden Abbildung den Ereignisraum des doppelten Würfelwurfs an (siehe Abbildung 13.1).
Abb. 13.1: Ereignisraum des doppelten Würfelwurfs (E13.XLS, Würfel2)
Sie erkennen, dass dieser Ereignisraum aus 36 Elementarereignissen besteht. Im Folgenden interessieren wir uns für das Zufallsereignis A Augensumme kleiner als 4 im doppelten Würfelwurf. Dieses Zufallsereignis setzt sich aus den drei Elementarereignissen 1,1; 1,2 und 2,1 zusammen, die wir in der Abbildung 13.2 gesondert markiert haben.
Abb. 13.2: Zufallsereignis A (Augensumme kleiner als 4 im doppelten Würfelwurf) (E13.XLS, A)
13
Wahrscheinlichkeitsverteilungen
247
Sofort zeigt sich unter Nutzung des klassischen Wahrscheinlichkeitsbegriffs: PA
3 36
1 12
In verallgemeinerter Form können wir deshalb im Weiteren mit einer Skizze zur Verdeutlichung eines Zufallsereignisses arbeiten, die folgendermaßen aussieht:
A
Abb. 13.3: Zufallsereignis A (E13.XLS, Skizze)
Man könnte sich das gesamte Rechteck als eine Zielscheibe vorstellen, wobei der Schütze jeden Punkt dieser gedachten Zielscheibe bei einem Schuss mit der gleichen Wahrscheinlichkeit trifft (und nie vorbeischießt). Dann wird die Wahrscheinlichkeit für das Ereignis A gegeben durch das Verhältnis der Kreisfläche A zur gesamten Rechteckfläche.
13.3
Der Additionssatz
Es sollen jetzt zwei Zufallsereignisse A und B betrachtet werden, die sich gegenseitig ausschließen. Grafisch sieht das so aus, wie es Abbildung 13.4 zeigt.
A B
Abb. 13.4: Zwei sich ausschließende Zufallsereignisse (E13.XLS, Skizze)
Der Umstand, dass sich die beiden Zufallsereignisse gegenseitig ausschließen, wird grafisch dadurch repräsentiert, dass die beiden Kreise A und B sich nicht überschneiden und sich auch nicht berühren. Sicherlich erinnert Sie diese Art der Darstellung an die Mengenlehre, wo man auch Kreise benutzt, um verschiedene Mengen darzustellen. In diesem Sinn besteht das Zufallsereignis A aus allen Elementen der Menge A. Zufallsereignis B ist entsprechend definiert.
248
13.3
Der Additionssatz
Wie groß ist nun die Wahrscheinlichkeit dafür, dass A oder B auftritt? Diese Frage beantwortet der Additionssatz für sich gegenseitig ausschließende Ereignisse (auch einfacher Additionssatz genannt): P A oder B
PA
PB
Mengentheoretisch gesprochen handelt es sich um die Vereinigungsmenge aus den Mengen A und B. Betrachten Sie zur Illustration noch einmal das Experiment des doppelten Würfelwurfs. Das Ereignis A sei definiert als eine Augensumme kleiner als 4, das Ereignis B sei definiert als die Augensumme 12. Zu beantworten ist die Frage nach der Wahrscheinlichkeit, dass A oder B auftritt, also dass beim doppelten Würfelwurf entweder eine Augensumme kleiner als 4 oder die Augensumme 12 auftritt. Die beiden Ereignisse A und B sind in Abbildung 13.5 dargestellt.
Abb. 13.5: Zwei sich ausschließende Zufallsereignisse (A oder B) (E13.XLS, AoderB1)
Unter Nutzung des klassischen Wahrscheinlichkeitskonzepts ist sofort einsichtig, dass vier Elementarereignisse im Sinne der Fragestellung günstig sind (A oder B: 3 1 ; es handelt sich um die Vereinigungsmenge der Mengen A und B), während 36 Elementarereignisse gleichmöglich sind. Die gesuchte Wahrscheinlichkeit ergibt sich demnach wie folgt: P A oder B
PA
B
PA
PB
3 36
1 36
4 36
1 9
Das Zeichen steht für „vereinigt mit“, es ist das Zeichen zur Bildung von Vereinigungsmengen. Entsprechend ist das Zeichen für „geschnitten mit“; es ist das Zeichen zur Kennzeichnung von Schnittmengen – auch dieses Zeichen werden wir gleich verwenden. Etwas komplizierter werden die Verhältnisse, wenn sich die Ereignisse A und B nicht gegenseitig ausschließen. Betrachten Sie dazu Abbildung 13.6 auf der folgenden Seite. Fragt man auch hier wieder nach der Wahrscheinlichkeit für A oder B, so würde man beim einfachen Addieren der beiden Mengen, also bei der Bildung der Vereinigungsmenge, zur Bestimmung der Anzahl der im Sinn der Fragestellung günstigen Ereignisse, diejenigen Ereignisse, die sich im Schnittbereich (Schnittmenge) zwischen A und B befinden, doppelt zählen. Einmal würden sie mit A und einmal würden sie mit B erfasst. Dies wäre falsch! Um korrekt die Anzahl der günstigen Elementarereignisse zu erhalten, muss die Anzahl von ihnen, die sich in der Schnittmenge befinden, subtrahiert werden.
13
249
Wahrscheinlichkeitsverteilungen
C A B Abb. 13.6: Zwei sich im Ereignisraum nicht ausschließende Zufallsereignisse (E13.XLS, Skizze)
Somit gelangt man zum allgemeinen Additionssatz: P A und B
PA
B
PA
PB
PA
B
Auch hier greifen wir zur Illustration wieder auf das Beispiel des doppelten Würfelwurfs zurück: A sei definiert als Augensumme kleiner als 6; B sei definiert als Augenzahl 3 beim ersten Würfel (siehe Abbildung 13.7).
Abb. 13.7: Augensumme kleiner als 6 oder Augenzahl 3 beim ersten Würfel (E13.XLS, AoderB2)
Sie erkennen, dass zu A zehn Elementarereignisse und zu B sechs Elementarereignisse gehören. Aber es gibt jetzt auch eine Schnittmenge C, der zwei Elementarereignisse angehören, nämlich die Ereignisse (3,1) und (3,2). Dies bedeutet, dass die beiden Ereignisse A und B sich nicht gegenseitig ausschließen; in den Elementarereignissen (3,1) und (3,2) überschneiden sie sich. Würde man nun zur Bestimmung der Wahrscheinlichkeit für A oder B die Einzelwahrscheinlichkeiten einfach addieren (P(A)=10/36; P(B)=6/36), dann würden die Elementarereignisse (3,1) und (3,2) doppelt gezählt. Deshalb ist der allgemeine Additionssatz zu verwenden, wenn die Wahrscheinlichkeit dafür ausgerechnet werden soll, im doppelten Würfelwurf eine Augensumme kleiner als 6 oder mit dem ersten Würfel eine Drei zu würfeln: P A oder B
PA
PB
PA
B
10 36
6 36
2 36
14 36
7 18
250
13.4
Der Multiplikationssatz
Der allgemeine Additionssatz schließt selbstverständlich den Satz für sich gegenseitig ausschließende Ereignisse mit ein, in diesem Falle ist nämlich die Schnittmenge leer, d. h., A B wäre ein unmögliches Ereignis, und die Wahrscheinlichkeit für das unmögliche Ereignis ist null.
13.4
Der Multiplikationssatz
So wie wir gerade zwei Formen des Additionssatzes voneinander unterschieden haben, werden auch zwei Multiplikationssätze unterschieden; einen für unabhängige und einen für voneinander abhängige Ereignisse. Betrachten wir zunächst den Multiplikationssatz für voneinander unabhängige Ereignisse anhand des folgenden Beispiels, das wieder der Anschaulichkeit halber auf dem Experiment des doppelten Würfelwurfs beruht: A sei definiert als gerade Augenzahl beim ersten Würfel; B sei definiert als Augenzahl kleiner als 3 beim zweiten Würfel. Wir fragen danach, wie groß die Wahrscheinlichkeit dafür ist, dass A und B auftritt. Wie groß ist die Wahrscheinlichkeit, dass beim doppelten Würfelwurf der erste Würfel eine gerade Augenzahl (2, 4 oder 6) und zugleich der zweite Würfel eine Augenzahl kleiner als 3 zeigen? Die Ausgangslage haben wir in Abbildung 13.8 skizziert.
Abb. 13.8: Zwei unabhängige Ereignisse (E13.XLS, AundB1)
Sofort zeigt sich, dass P A
18 36
1 und P B 2
12 36
1 3
Dass die beiden Ereignisse voneinander unabhängig sind (man spricht auch in diesem Zusammenhang von stochastischer Unabhängigkeit), ist ebenfalls offensichtlich: Das Auftreten einer bestimmten Augenzahl des zweiten Würfels (Augenzahl kleiner als 3) wird nicht davon beeinflusst, was mit dem ersten Würfel geschieht. Man sieht in Abbildung 13.8 auch, dass die günstigen Elementarereignisse diejenigen sind, die sowohl der Menge A als auch der Menge B angehören. Dies sind sechs von 36 Elementarereignissen. Deshalb gilt: P A und B
PA
B
6 36
1 6
1 1 2 3
13
Wahrscheinlichkeitsverteilungen
251
Der Multiplikationssatz für voneinander unabhängige Ereignisse (man nennt ihn auch den einfachen Multiplikationssatz) lautet demnach wie folgt: P A und B
PA
B
PA PB
Um den allgemeinen Multiplikationssatz herzuleiten, der auch den Fall nicht voneinander unabhängiger Ereignisse betrifft, ist es erforderlich, zunächst den Begriff der bedingten Wahrscheinlichkeit zu besprechen. Eine Wahrscheinlichkeit nennen wir dann bedingt, wenn der Eintritt eines zufälligen Ereignisses durch den Eintritt anderer zufälliger Ereignisse beeinflusst wird. In diesem Sinn sind nahezu alle Ereignisse, mit denen der Statistiker zu tun hat, mit bedingten Wahrscheinlichkeiten behaftet, denn kaum ein Ereignis kann völlig unabhängig von irgendwelchen anderen Ereignissen eintreten, so dass seine Wahrscheinlichkeit bedingungslos wäre. Allerdings ist in der Wahrscheinlichkeitstheorie etwas sehr Bestimmtes gemeint, wenn von einer bedingten Wahrscheinlichkeit gesprochen wird. Zur Veranschaulichung betrachten wir das folgende statistische Experiment: Der Ereignisraum enthalte n gleichmögliche Elementarereignisse. Das zusammengefasste Ereignis A soll m Elementarereignisse enthalten. Die Schnittmenge von A und einem anderen zusammengesetzten Ereignis B soll k Elementarereignisse enthalten. Wir gehen also von einer Konstellation aus, wie sie Abbildung 13.9 zeigt.
A
B m
k n
Abb. 13.9: Herleitung einer bedingten Wahrscheinlichkeit (E13.XLS, Skizze)
Hier ist nun entsprechend dem Konzept der klassischen Wahrscheinlichkeit: PA
m n
PA
B
k n
Für die zweite genannte Wahrscheinlichkeit ergibt sich nach Erweiterung mit m: PA
B
m k n m
PA
k m
Man erhält also ein Produkt, dessen erster Faktor die Wahrscheinlichkeit P A ist.
252
13.4
Der Multiplikationssatz
Der zweite Faktor ist der Quotient k/m. Dabei ist m im Nenner die Anzahl der in A zusammengefassten Elementarereignisse. Im Zähler wiederum steht die Anzahl k der Elemente, die in jedem Falle noch zu A gehören, aber auch gleichzeitig zu einem anderen Ereignis B. k kann also niemals größer als m sein. Offenbar gibt der Quotient k/m die Wahrscheinlichkeit an, dass das Ereignis B realisiert wird, wobei von vornherein nur noch die Elementarereignisse betrachtet werden, die das Ereignis A bilden. Man nennt eine Wahrscheinlichkeit dieses Typs bedingte Wahrscheinlichkeit und schreibt hierfür P B A . Dies ist als „Wahrscheinlichkeit für B unter der Bedingung A“ zu lesen. Die zuletzt angegebene Formel kann deshalb geschrieben werden als: PA
B
P A P BA
Diese Beziehung, welche die Multiplikation von Wahrscheinlichkeiten zum Inhalt hat, wird als allgemeiner Multiplikationssatz bezeichnet. Der gerade hergeleitete Satz lässt sich wie folgt verallgemeinern: PA
B
P A P BA
P B P AB
Wenn sich ergibt, dass P BA
PB
nennt man das Ereignis B stochastisch unabhängig vom Ereignis A. Hiermit wird ausgedrückt, dass die Wahrscheinlichkeit, bei einem Experiment B zu realisieren, nicht davon berührt wird, ob wir nun den gesamten Ereignisraum betrachten und die gesamten zu B gehörigen Elemente oder ob wir nur den zu A gehörigen Teil betrachten und von B den Teil der Elemente, der auch gleichzeitig zu A gehört. Anschaulich gesprochen: Die Wahrscheinlichkeit für B hängt dann nicht davon ab, ob A realisiert wird oder nicht. Stochastische Unabhängigkeit in diesem Sinne gibt es zum Beispiel beim Roulettespiel. Die Wahrscheinlichkeit für eine rote Zahl wird nicht dadurch anders, dass zuvor zweimal eine schwarze Zahl realisiert wurde. In der sozialen und ökonomischen Welt sind allerdings eher stochastisch voneinander abhängige Ereignisse die Regel. Das ist etwa immer dann der Fall, wenn bei der Durchführung des Experiments die Grundgesamtheit, die es zu betrachten gilt, verändert wird. In der Produktionskontrolle wird man ein untersuchtes Gut zur Seite und nicht mehr in die Gesamtheit der zu prüfenden Produkte zurücklegen. Im Zuge der Kontrolle verändert sich die Grundgesamtheit ständig. Dies bedeutet aber, dass die Wahrscheinlichkeit, mit dem sechsten Zug ein schadhaftes Produkt auszuwählen, von den fünf vorhergehenden Kontrollen abhängt. Die bedingten Wahrscheinlichkeiten P A B und P(B A) sind null, wenn sich die beiden Ereignisse A und B gegenseitig ausschließen, wenn also nur das eine oder das andere eintreten kann. Dann ergibt sich natürlich auch im allgemeinen Multiplikationssatz für PA
B
der Wert null, weil beide Ereignisse kein Element gemeinsam haben.
13
253
Wahrscheinlichkeitsverteilungen
13.5
Zwei weitere Sätze
Wir stellen noch zwei weitere Sätze der Wahrscheinlichkeitsalgebra vor, die geeignet sind, eine Reihe spezieller Fragen zu beantworten, wie wir an entsprechenden Beispielen demonstrieren wollen.
13.5.1 Satz der totalen Wahrscheinlichkeit Wenn man sich den Additionssatz für zwei sich ausschließende Ereignisse anschaut, dann wird leicht einsichtig, dass dieser auch auf mehr als zwei (sich ausschließende) Ereignisse ausgedehnt werden kann: P A oder B oder C ...
PA
PB
PC
...
Vereinfacht, wenn auch etwas abstrakt, kann dies folgendermaßen geschrieben werden, wenn wir die Symbole A, B, C ... durch A1 , A 2 , A 3 , ..., allgemein A i ersetzen: P
Ai
P Ai
Diese Summe erreicht den Wert 1, wenn die sich gegenseitig ausschließenden Teilereignisse A i den gegebenen Ereignisraum völlig ausschöpfen, wie Abbildung 13.10 verdeutlicht:
B
A
Abb. 13.10: Ereignisraum mit sich gegenseitig ausschließenden Teilereignissen (E13.XLS, Skizze)
Jetzt betrachten wir in Abbildung 13.11 zusätzlich ein zusammengesetztes Ereignis. A2 E
A3
A1 A4 Abb. 13.11: Zusätzliches Ereignis E (E13.XLS, Skizze)
In Abbildung 13.11 gilt: E
E
Ai
Man erkennt, dass das Ereignis E sich seinerseits als Vereinigungsmenge aus sich gegenseitig ausschließenden Teilereignissen zusammensetzt, die ihrerseits Schnittmengen von E und den einzelnen A i darstellen.
254
13.5
Zwei weitere Sätze
Demnach gilt für die Wahrscheinlichkeit dieses zusätzlichen Ereignisses E: P (E )
P ( (E
Wendet man auf P E PE
Ai
A i ))
P( E
Ai )
A i den allgemeinen Multiplikationssatz an, so ergibt sich: P E Ai P Ai
Demnach ergibt sich für P E : PE
P E Ai P Ai
Diese Formel nennt man Satz der totalen Wahrscheinlichkeit. Er besagt: Die Wahrscheinlichkeit eines zusammengesetzten Ereignisses E ist gleich der Summe der Wahrscheinlichkeiten für die Schnitte dieses Ereignisses mit den Ereignissen A i . Diese zerlegen den gesamten Ereignisraum in paarweise sich ausschließende Ereignisse. Die Anwendung des Multiplikationssatzes führt dazu, dass die Wahrscheinlichkeit des Ereignisses E als gewichtetes arithmetisches Mittel der bedingten Wahrscheinlichkeiten P E Ai dargestellt wird. Erinnern Sie sich bitte in diesem Zusammenhang an den klassischen Wahrscheinlichkeitsbegriff: Im Gleichmöglichkeitsmodell würde man P E dadurch bestimmen, dass man die in E enthaltenen Elementarereignisse auszählt oder kombinatorisch bestimmt und in Beziehung zur Anzahl sämtlicher Elementarereignisse setzt. Der Satz der totalen Wahrscheinlichkeit besagt nun: Man kommt zum gleichen Resultat, wenn man die in E enthaltenen Elementarereignisse in sich gegenseitig ausschließende Gruppen E A i trennt. Hat man die Trennung der Elemente auf diese Weise vorgenommen, bestimmt man jeweils den Anteil der dort enthaltenen Elemente an der jeweiligen Gesamtzahl der Elemente von A i . Diese Anteile werden entsprechend der Bedeutung, den die jeweilige Gruppe A i im Ereignisraum hat, summiert. Zum Satz der totalen Wahrscheinlichkeit ein illustratives Beispiel: Wir betrachten einen Ereignisraum, der lediglich in zwei Teile getrennt ist; die zusammengesetzten Ereignisse A1 und A 2 schöpfen den Ereignisraum aber aus. Stellen Sie sich zwei Materialprüfer in einem Betrieb der Massenfertigung vor. Der eine Prüfer arbeitet rascher als der andere. Wir geben die Wahrscheinlichkeit, dass ein zufällig herausgegriffenes Objekt vom ersten Prüfer behandelt wird, mit P A1 0,6 an. Dann ist P (A 2 )
0,4 .
Der Ereignisraum ist also durch A1 und A 2 ausgeschöpft. A1 und A 2 schließen sich gegenseitig aus. Das Zufallsereignis E enthalte nun die Fälle, in denen ein fehlerhaftes Objekt festgestellt wird. Unter den von Person 1 geprüften Objekten sind 20% fehlerhaft, unter den von Person 2 ge-
13
255
Wahrscheinlichkeitsverteilungen
prüften Objekten sind 25% fehlerhaft. Man kennt also die bedingten Wahrscheinlichkeiten P E A1 0,2 und P E A 2 0,25 . Gefragt ist nach der Wahrscheinlichkeit P E . Wie groß ist die Wahrscheinlichkeit, dass ein fehlerhaftes Stück bei der Materialprüfung gefunden wird? Diese Wahrscheinlichkeit finden wir mit dem Satz der totalen Wahrscheinlichkeit: PE
P E Ai P Ai
0,2 0,6 0,25 0,4
0,22
Bei Lichte besehen, werden die Zahlen 0,2 und 0,25 also nur gewichtet gemittelt.
13.5.2 Das Theorem von Bayes Unter Nutzung des gerade besprochenen Satzes der totalen Wahrscheinlichkeit und des allgemeinen Multiplikationssatzes können wir eine neue Beziehung herleiten: Satz der totalen Wahrscheinlichkeit: PE
P E Ai P Ai
Allgemeiner Multiplikationssatz: P (E
Ai )
P( E A i ) P( A i )
P (E ) P ( A i E )
Aus dem zweiten Satz ergibt sich: P Ai E
P E Ai PE
Daraus wiederum erhalten wir: P Ai E
P E Ai P Ai
P E Ai P Ai
Dies ist das so genannte Theorem von Bayes, das wir uns etwas näher anschauen wollen: Links steht eine bedingte Wahrscheinlichkeit für A i unter der Bedingung E. Auf der rechten Seite sind die Dinge gewissermaßen auf den Kopf gestellt; hier stehen bedingte Wahrscheinlichkeiten für E unter der Bedingung A i . Das Theorem von Bayes beleuchtet eine bislang nicht beachtete Problemstellung. Dies lässt sich am Beispiel der beiden Qualitätsprüfer verdeutlichen. Dort ging es um die Frage: Wie groß ist die Wahrscheinlichkeit, dass einer der beiden Prüfer ein fehlerhaftes Objekt entdeckt? Diese Wahrscheinlichkeit hatten wir zu 22% errechnet. Nun interessiert uns aber auch folgende Frage: Wie groß ist die Wahrscheinlichkeit, dass ein fehlerhaftes Objekt, das der Produktion entnommen wurde, vom ersten Prüfer gefunden wurde? Diese gesuchte Wahrscheinlichkeit ist P A1 E . Dies ist die Wahrscheinlichkeit, dass der erste Prüfer kontrolliert, unter der Bedingung, dass ein fehlerhaftes Stück auftritt. Es ist eine andere Wahrscheinlichkeit als die, die im Satz der
256
13.6
Zufallsvariable
totalen Wahrscheinlichkeit auftritt. Dort nämlich ging es um die bedingte Wahrscheinlichkeit P E A1 . Dies ist die Wahrscheinlichkeit, dass ein fehlerhaftes Stück auftritt unter der Bedingung, dass der erste Prüfer kontrolliert. Zur Beantwortung der gestellten Frage benötigen wir das Bayes‘sche Theorem. Es ergibt sich gemäß der zuletzt vorgestellten Berechnungsformel: P A1 E
0,2 0,6 0,2 0,6 0,25 0,4
0,546
Die Wahrscheinlichkeit also, dass ein fehlerhaftes, der Produktion entnommenes Objekt vom ersten Prüfer gefunden wurde, beträgt 0,546. Beachten Sie bitte: Obwohl die gesamte Argumentation auf dem Konzept von A-priori-Wahrscheinlichkeiten aufgebaut ist – also in Wirklichkeit kein einziges Experiment durchgeführt sein muss –, ist gleichwohl eine Frage gestellt, die ihren Sinn erst dadurch gewinnt, dass man sich vorstellt, dass etwas Bestimmtes geschehen ist. In unserem Beispiel wurde ein fehlerhaftes Stück gefunden, und man fragt nach der Wahrscheinlichkeit, dass dieses Stück vom ersten Prüfer entdeckt wurde. Aus diesem Grund bezeichnet man häufig den Ausdruck links vom Gleichheitszeichen als A-posteriori-Wahrscheinlichkeit. Also transformiert das Bayes‘sche Theorem A-priori-Wahrscheinlichkeiten in A-posteriori-Wahrscheinlichkeiten. Das Bayes‘sche Theorem lässt sich noch härter interpretieren: Das Ereignis E tritt nur auf, wenn eines der A i -Ereignisse vorangeht. A i wäre dann eine Ursache für die Wirkung E bzw. drückt eine Hypothese über Verursachungen aus. Dann beschreibt P A i die A-priori-Wahrscheinlichkeit der Ursache. P A i E ist die Wahrscheinlichkeit, dass A i die Ursache von E ist. P A i E kann als A-posteriori-Wahrscheinlichkeit der Ursache A i angesehen werden. Sie drückt deren Wahrscheinlichkeit nach der Beobachtung der Wirkung E aus. Dies weist auf die Bedeutung der Bayes‘schen Statistik im Rahmen sozialwissenschaftlicher Modellbildung und Hypothesenformulierung hin.
13.6
Zufallsvariable
Bevor wir diejenigen wahrscheinlichkeitsstatistischen Probleme aufgreifen können, die in der Praxis die bedeutendsten sind, müssen noch zwei ganz wesentliche Grundbegriffe geklärt werden. Wir müssen über Zufallsvariablen und über Wahrscheinlichkeitsverteilungen sprechen. Um den ersten dieser Begriffe, den der Zufallsvariablen, zu erörtern, wollen wir noch einmal an das überschaubare Beispiel des doppelten Würfelwurfs erinnern. Der Ereignisraum besteht aus 36 Elementarereignissen und sieht bekanntlich so aus, wie es Abbildung 13.12 zeigt.
13
Wahrscheinlichkeitsverteilungen
257
Abb. 13.12: Ereignisraum beim doppelten Würfelwurf (E13.XLS, Würfel2)
Wenden wir uns noch einmal speziell der Augensumme zu, so erkennen wir, dass diese die Werte 2, 3, 4 … 12 annehmen kann – und zwar zufallsabhängig. Deshalb kann man die Augensumme beim doppelten Würfelwurf als Variable auffassen, die zufallsabhängig unterschiedliche Werte (Ausprägungen) annehmen kann. Eine solche Variable wird Zufallsvariable genannt. Bezeichnet man eine Zufallsvariable mit X, so können ihre Ausprägungen mit x1 , x 2 , x 3 ,..., allgemein mit x i bezeichnet werden. Abbildung 13.13 zeigt am Beispiel von vier Elementarereignissen, dass jedem Elementarereignis e i , von denen es hier 36 gibt, eine reelle Zahl zugeordnet ist – wir haben als reelle Zahlen die jeweiligen Augensummen gewählt. Sie sehen, eine Zufallsvariable hat noch nichts mit Wahrscheinlichkeiten zu tun. Sie ist eine Variable, die den Ereignissen eines Zufallsexperiments reelle Zahlen zuordnet.
Abb. 13.13: Zufallsvariable Augensumme beim doppelten Würfelwurf (E13.XLS, ASumme)
Da sich der Anfänger mit dem Konzept der Zufallsvariablen erfahrungsgemäß etwas schwer tut, wollen wir noch ein zweites einfaches Beispiel erwähnen, das des dreifachen Münzwurfes. Der entsprechende Ereignisraum besteht aus Elementarereignissen, die wir nach dem Muster KKW abkürzen wollen. KKW bedeutet: Kopf im ersten Wurf, Kopf im zweiten Wurf und Wappen im dritten Wurf. Hier besteht der Ereignisraum aus den folgenden acht Elementarereignissen: KKK, KKW, KWK, WKK, KWW, WKW, WWK, WWW Nun interessiert uns zum Beispiel die Zufallsvariable Anzahl der Kopfwürfe beim dreifachen Münzwurf. Den acht Elementarereignissen werden also reelle Zahlen zugeordnet, hier die
258
13.7
Diskrete Wahrscheinlichkeitsverteilungen
Anzahlen 0 (für keinmal Kopf), 1 (für einmal Kopf), entsprechend 2 oder 3. Dies bringt Abbildung 13.14 zum Ausdruck.
Abb. 13.14: Zufallsvariable Anzahl der Kopfwürfe beim dreifachen Münzwurf (E13.XLS, Münzen)
13.7
Diskrete Wahrscheinlichkeitsverteilungen
Hat man die Werte einer Zufallsvariablen genannt, ist die Frage von Interesse, mit welchen Wahrscheinlichkeiten die einzelnen Werte realisiert werden können. Eine solche Zuordnung ist eine Funktion, die man Wahrscheinlichkeitsfunktion nennt. Beispielsweise könnten Sie beim doppelten Würfelwurf der Augensumme 2 die Wahrscheinlichkeit 1/36 zuordnen, denn die kennen Sie ja schon. Entsprechend würde man beim dreifachen Münzwurf dem Wert x 2 1 (einmal Kopf) die Wahrscheinlichkeit 3/8 zuordnen, wie sich aus Abbildung 13.14 ergibt. Diese Beispiele zeigen, dass der Definitionsbereich der Wahrscheinlichkeitsfunktion nichts anderes als der Wertebereich der jeweiligen Zufallsvariablen ist. Der Wertebereich der Wahrscheinlichkeitsfunktion wiederum liegt zwischen 0 und 1, weil es keine Wahrscheinlichkeiten geben kann, die kleiner als 0 oder größer als 1 sein können. Als Schreibweise für die Wahrscheinlichkeitsfunktion wählt man meist: PX
xi
P xi
a
Beim Beispiel des doppelten Würfelwurfs können Sie über das klassische Konzept der Bestimmung einer Wahrscheinlichkeit die einzelnen Wahrscheinlichkeiten für die Realisationen der Werte der Zufallsvariablen Augensumme herleiten (siehe Abbildung 13.15).
Abb. 13.15: Werte der Zufallsvariablen Augensumme beim doppelten Würfelwurf (E13.XLS, Würfel3)
13
259
Wahrscheinlichkeitsverteilungen
Für das Beispiel des dreifachen Münzwurfes ergeben sich entsprechend ( X Anzahl der Kopfwürfe beim dreifachen Münzwurf) die Angaben der Abbildung 13.16.
Abb. 13.16: Zufallsvariable Anzahl der Kopfwürfe beim dreifachen Münzwurf (E13.XLS, Münzen2)
In den Abbildungen 13.15 und 13.16 haben wir die Einzelwahrscheinlichkeiten in den letzten Spalten kumuliert. Diese kumulierten Werte sind Werte der so genannten Verteilungsfunktion, die mit dem Symbol F x i bezeichnet wird. Sie ordnet jedem Wert x i der Zufallsvariablen X die Wahrscheinlichkeit P X
x i zu.
Beispielsweise beträgt die Wahrscheinlichkeit, dass bei einem doppelten Würfelwurf eine Augenzahl von höchstens 8 erzielt wird, gerade 26/36. Und die Wahrscheinlichkeit, dass beim dreifachen Münzwurf mindestens einmal Wappen erzielt wird, ist 1
1 8
7 . 8
Die Übersichtlichkeit über die Wahrscheinlichkeitsfunktion und Verteilungsfunktion einer Zufallsvariablen wird meist durch eine entsprechende grafische Darstellung erhöht. Wenn man die Werte der Zufallsvariablen X auf der Abszisse eines Koordinatensystems abträgt und die den Werten zugeordneten Wahrscheinlichkeiten als Ordinaten aufzeichnet, erhält man eine Grafik für die Verteilung der betreffenden Variablen. Man nennt die Grafik der Wahrscheinlichkeitsfunktion die Wahrscheinlichkeitsverteilung. Die Wahrscheinlichkeitsverteilung für die Anzahl der Kopfwürfe K beim dreimaligen Münzwurf wird durch die Abbildung 13.17 gegeben.
Abb. 13.17: Wahrscheinlichkeitsverteilung der Zufallsvariablen aus Abbildung 13.16 (E13.XLS, Münzen2)
260
13.8
Stetige Wahrscheinlichkeitsverteilungen
Die grafische Darstellung der Verteilungsfunktion für dieses Beispiel sieht aus wie eine Treppe (siehe Abbildung 13.18).
Abb. 13.18: Verteilungsfunktion aus Abbildung 13.16 (E13.XLS, Münzen2)
Die bisher betrachteten Beispiele bezogen sich auf diskrete Wahrscheinlichkeitsverteilungen. Dieser Begriff wird Sie an die deskriptive Statistik erinnern, wo mit dem Begriff der diskreten (Häufigkeits-)Verteilung eine Variable angesprochen war, die nur endlich viele, streng voneinander getrennte Werte als Ausprägungen annehmen kann. So ist es auch hier, mit dem einzigen Unterschied, dass es jetzt um Zufallsvariablen geht. Die Wahrscheinlichkeitsfunktion ordnet diesen Werten eine endliche Anzahl – wenn auch noch so kleiner – Wahrscheinlichkeiten zu, deren Summe immer gleich 1 sein muss. Im nächsten Abschnitt wird ein anderer Typ von Zufallsvariablen betrachtet.
13.8
Stetige Wahrscheinlichkeitsverteilungen
Kann eine Zufallsvariable in einem Intervall beliebig viele (überabzählbar viele) Werte annehmen, so nennen wir sie stetig. Die zugehörige Verteilungsfunktion F x Fx
PX
x ist in Integralform darstellbar:
f x dx
Die Größe f x wird als Wahrscheinlichkeitsdichte oder kurz als Dichte der Verteilung von X benannt. Damit gelangen wir in einen etwas komplizierteren Bereich der Wahrscheinlichkeitsverteilungen, da er mit der Integralrechnung zu tun hat, was das Vorstellungsvermögen des möglicherweise nicht sonderlich mathematisch geschulten Lesers strapazieren könnte. Man erkennt diese Schwierigkeiten schon beim Versuch, sich die Realisationen einer stetigen Zufallsvariablen und ihre Wahrscheinlichkeiten vorzustellen. Geht man vom überschaubaren diskreten Fall aus (endliche Zahl der Ausprägungen einer Zufallsvariablen X, zuordenbare, positive Wahrscheinlichkeiten, die in ihrer Summe den Wert 1 ergeben müssen), so ist hier jetzt die folgende Überlegung notwendig: Stellen Sie sich eine diskrete Variable vor, die eine immer größere Anzahl von Ausprägungen annehmen kann.
13
Wahrscheinlichkeitsverteilungen
261
Dies bedeutet, dass die Wahrscheinlichkeiten für die einzelnen Ausprägungen immer kleiner werden müssen, denn ihre Summe muss ja nach wie vor 1 bleiben. Stellen Sie sich also beispielsweise einen sechsseitigen Würfel vor. Die Anzahl der Ausprägungen der Variablen X (Augenzahl) ist 6, die Einzelwahrscheinlichkeiten sind natürlich jeweils 1/6. Stellen Sie sich einen sechzigseitigen Würfel vor (er sieht schon fast aus wie eine Kugel). Die Variable X hat jetzt 60 diskrete Ausprägungen; die Einzelwahrscheinlichkeiten sind jeweils 1/60. Stellen Sie sich einen sechshundertseitigen Würfel vor … Stellt man sich nun gedanklich eine unendliche Anzahl von Ausprägungen vor, dann gehen die Einzelwahrscheinlichkeiten gegen null – gleichwohl bleibt ihre Summe immer noch 1. Unmöglich wird eine bestimmte denkbare einzelne Realisation im Definitionsbereich der Variablen nicht; aber jede Einzelwahrscheinlichkeit ist dennoch praktisch null. Dies lässt sich am Typus des jetzt zur Debatte stehenden Ereignisraumes für stetige Zufallsvariablen erläutern. Aus einer Fläche F soll zufällig ein Punkt ausgewählt werden. Die Wahrscheinlichkeit, dass dieser Punkt in der Teilfläche A liegt, ergibt sich zu A/F. Die Flächen F und A sind zwar abgeschlossen, enthalten aber beide mehr Punkte, die man auswählen könnte, als man abzählen kann – nämlich unendlich viele. Offenbar ist damit die Wahrscheinlichkeit dafür, einen ganz bestimmten Punkt (von unendlich vielen) zu treffen, gleich null. Der Versuch, allen einzelnen Punkten eine Trefferwahrscheinlichkeit zuzuordnen, ist sinnlos. Sinnvoll kann es dagegen sein, zu einem Intervall (oder zu A in Abbildung 13.19) eine Wahrscheinlichkeit zuzuordnen (A/F). Dies leistet die Verteilungsfunktion mit Hilfe der Integralrechnung. Wenn Sie sich an die Schulmathematik erinnern, dann wissen Sie, dass die Integralrechnung dazu dient, Flächen zu berechnen – und nichts anderes ist erforderlich, wenn wir A/F berechnen wollten. F A
Abb. 13.19: Ereignis A im Ereignisraum F (E13.XLS, Skizze2)
Gleichwohl ordnet die Funktion f x jedem der unzähligen Werte der stetigen Zufallsvariablen X einen nummerischen Wert zu. Dieser kann aber nicht mehr als Wahrscheinlichkeit interpretiert werden. Die Summe dieser Werte ist in jedem Fall größer als 1, weil es ja unendlich viele solcher Werte gibt. Diese Werte werden als Wahrscheinlichkeitsdichten bezeichnet, und wir merken uns:
262
13.8
Stetige Wahrscheinlichkeitsverteilungen
Wahrscheinlichkeitsdichten sind keine Wahrscheinlichkeiten! Erst eine Fläche, d. h., der Wert eines Integrals kann als Wahrscheinlichkeit interpretiert werden. Der Wert eines Integrals ist natürlich nichts anderes als ein Flächenbereich unter der Dichtekurve; zugleich ist er ein Punkt der Verteilungsfunktion. Ein kleines Beispiel soll das Problem Dichte versus Wahrscheinlichkeit noch einmal aufhellen. Wir wählen eine messbare Größe – die Körpergröße zufällig ausgewählter Personen. Eine erste, recht grobe Statistik sieht so aus, wie es Abbildung 13.20 zeigt.
Abb. 13.20: Körpergrößen (E13B.XLS, CM1)
Wir sehen in Abbildung 13.20, 50% der Personen sind kleiner als 170 cm, die übrigen 50% sind größer oder gleich 170 cm. Wir können dann folgendermaßen argumentieren: Die Wahrscheinlichkeit, dass eine einzige zufällig ausgewählte Person größer oder gleich 170 cm ist, beträgt 50% oder 0,5. Aufschlussreicher ist eine Übersicht mit vier Körpergrößenklassen, bei der nur die zweite Klasse der obigen Tabelle weiter aufgespalten wurde (siehe Abbildung 13.21).
Abb. 13.21: Körpergrößen – detaillierter (E13B.XLS, CM2)
Hier ergibt sich entsprechend, dass die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person 170 bis unter 175 cm groß ist, 10% oder P 0,1 beträgt. Gehen die Klassenbreiten schließlich gegen null, weil beliebig kleine Maßeinheiten für die Messung der Körpergröße gewählt werden können, so müssen auch die Wahrscheinlichkeiten für die betreffenden Klassen gegen Null gehen. Positiv ist nach wie vor aber die Wahrscheinlichkeit, dass z.B. eine Person eine Größe zwischen 170 und 175 cm besitzt. Durch ständige Verringerung von Klassenbreiten geht in der folgenden Abbildung das erste in das zweite Bild über. Dies ist Ihnen aus der deskriptiven Statistik geläufig (siehe Kapitel 7): Ein Histogramm geht in ein Häufigkeitspolygon über. Dort sind den Merkmalswerten auch keine Häufigkeiten zugeordnet, sondern Häufigkeitsdichten. Zwischen Verteilungs- und Dichtefunktion einer stetigen Zufallsvariablen besteht die Beziehung:
13
263
Wahrscheinlichkeitsverteilungen
Fx
dF x dx
f x
Die erste Ableitung der Verteilungsfunktion ist die Dichtefunktion. Damit die Verteilungsfunktion auch Wahrscheinlichkeiten und nichts anderes verteilt, muss gewährleistet sein, dass ihr größter Wert die Eins ist: f x dx 1
Abb. 13.22: Von der Wahrscheinlichkeitsverteilung zur Dichtefunktion (E13B.XLS, CM3)
Für die Berechnung von Wahrscheinlichkeiten gilt, dass P x1
X
x2 .
Wir berechnen also die Wahrscheinlichkeit dafür, dass die stetige Zufallsvariable X einen Wert zwischen x1 und x 2 annimmt. Diese Wahrscheinlichkeit wird gegeben durch die Fläche unter der Dichtekurve im Bereich zwischen x1 und x 2 . Diese Fläche erhält man, wie Abbildung 13.23 auf der folgenden Seite verdeutlicht, indem man den Wert der Verteilungsfunktion am Punkt x 2 ermittelt. Dies ist die Fläche unter der Dichtekurve von minus unendlich bis x 2 . Entsprechend berechnet man den Wert der Verteilungsfunktion am Punkt x1 . Es gilt dann: P x1
X
x2
F x2
F x1
Es versteht sich, dass bei einer stetigen Zufallsvariablen die Gesamtfläche unter der Dichtekurve den Wert 1 annehmen muss.
264
13.8
Stetige Wahrscheinlichkeitsverteilungen
Abb. 13.23: Wahrscheinlichkeit als Fläche unter der Dichtekurve (E13B.XLS, Skizze)
Die grafischen Veranschaulichungen stetiger Zufallsvariablen sehen glatter aus und haben keine Stäbe oder Treppen. Betrachten wir dazu ein besonders einfaches Beispiel, die Rechteckverteilung: Die stetige Zufallsvariable X folge einer Rechteckverteilung im Intervall von 0 bis 2. Dann muss die Höhe dieses Rechteckes gleich 0,5 sein, weil ja die Gesamtfläche unter der Dichtekurve gleich 1 sein muss. Die Dichtekurve hat dann die Form f x
0,5
Sie ist eine Parallele zur Abszisse, wie Abbildung 13.24 verdeutlicht.
Abb. 13.24: Rechteckverteilung (E13B.XLS, Skizze)
13
Wahrscheinlichkeitsverteilungen
265
Die zugehörige Verteilungsfunktion lautet: Fx
x 0
f x dx
x
0,5dx
0,5x
0
Sie ist in Abbildung 13.25 dargestellt. Es handelt sich um eine lineare Funktion, deren Achsenabschnitt 0 und deren Steigung 0,5 ist.
Abb. 13.25: Verteilungsfunktion der Rechteckverteilung (E13B.XLS, Skizze)
Sofort können wir zum Beispiel ablesen (siehe Abbildung 13.25), wie groß die Wahrscheinlichkeit dafür ist, dass die so verteilte stetige Zufallsvariable einen Wert annimmt, der zwischen 0 und 1 liegt. Diese Wahrscheinlichkeit muss gleich 0,5 sein.
13.9
Erwartungswert und Varianz von Zufallsvariablen
Wir haben gesehen, dass Zufallsvariablen und ihre Verteilung tabellarisch und grafisch so dargestellt werden können, wie dies schon für empirisch erhobene Variablen in der beschreibenden Statistik der Fall war. So wie dort können auch hier die für empirische Häufigkeitsverteilungen üblichen Maßzahlen berechnet werden, um Wahrscheinlichkeitsverteilungen oder Dichtefunktionen zusammenfassend zu charakterisieren. Sie werden später erkennen, dass einige der in der beschreibenden Statistik als besonders wichtig hervorgehobenen Maßzahlen in der Wahrscheinlichkeitsstatistik eine besondere Rolle als explizite Parameter von speziellen Verteilungsfunktionen spielen. Die einfachste und wichtigste Maßzahl einer Zufallsvariablen drückt aus, welchen Wert die Zufallsvariable im arithmetischen Durchschnitt realisieren wird. Man nennt dieses arithmetische Mittel den Erwartungswert der Zufallsvariablen X. Erwartungswert im diskreten Fall: Ex
xi P xi
266
13.9
Erwartungswert und Varianz von Zufallsvariablen
Erwartungswert im stetigen Fall: Ex
x f x dx
Der Buchstabe E steht dabei als Abkürzung für Erwartungswert. Historisch betrachtet hat dieses Symbol aber eine andere Bedeutung: Entsprechend der mit dem Spieltisch eng verknüpften Herkunft der Wahrscheinlichkeitstheorie verstand man zunächst unter E X die Hoffnung (Espérance) auf Gewinn eines Spielers. Bei einer diskreten Zufallsvariablen errechnet sich der Erwartungswert also über die Summe aus dem Produkt aller Werte mit den ihnen zugeordneten Wahrscheinlichkeiten. Die Formel entspricht derjenigen, mit der man das arithmetische Mittel einer empirischen Verteilung relativer Häufigkeiten berechnet. Dort war die Summe aller Merkmalswerte, multipliziert mit ihren relativen Häufigkeiten, zu bilden. Auch hier zeigt sich eine Entsprechung zwischen relativen Häufigkeiten und Wahrscheinlichkeiten, die wir bereits beim statistischen Wahrscheinlichkeitsbegriff kennen gelernt haben. Zum Erwartungswert einer diskreten Zufallsvariablen ein einfaches Beispiel, das des einfachen Wurfs eines Würfels: Wie groß ist im Durchschnitt die Augenzahl beim Wurf eines Würfels? Oder anders gefragt, welches ist der Erwartungswert beim einmaligen Wurf? Es ergibt sich: EX
xi P xi
1
1 6
2
1 6
3
1 6
4
1 6
5
1 6
6
1 6
21 6
3,5
Sie erkennen, dass der Erwartungswert eine Zahl ist, die gar nicht realisiert werden kann. Gleichwohl gilt: Wer sehr häufig würfelt, wird im Schnitt die Augenzahl 3,5 realisieren. Für stetige Zufallsvariablen erfolgt die Bildung des Erwartungswertes analog zum diskreten Fall; während dort für die Werte die Wahrscheinlichkeiten die Gewichte sind, werden jetzt die x mit den Wahrscheinlichkeiten gewogen, die sich als Fläche unter der Dichtekurve im Bereich dx (beliebig kleine Klassenbreite) darstellen; und das über den gesamten Bereich der Dichtefunktion. Als Beispiel für die Berechnung des Erwartungswertes einer stetigen Zufallsvariablen greifen wir auf die oben vorgestellte Rechteckverteilung zurück. Ihre Dichtefunktion war f x
0,5 im Definitionsbereich zwischen 0 und 2.
Als Erwartungswert erhalten wir mit Hilfe der Integralrechnung: EX
2
x f x dx
0
2
x 0,5dx
0
2 0
0,5xdx
0,25x 2
2 0
4 4
0 1
Die Streuung einer Zufallsvariablen charakterisiert die durchschnittliche Abweichung ihrer Werte von ihrem Erwartungswert. Sie kann mit der Standardabweichung (siehe Kapitel 5) oder mit ihrem Quadrat, der Varianz, bemessen werden. Varianz einer diskreten Zufallsvariablen: VAR X
xi
EX
2
P xi
2
13
267
Wahrscheinlichkeitsverteilungen
Varianz einer stetigen Zufallsvariablen: VAR X
x Ex
2
2
f x dx
Im diskreten Fall summieren wir also über alle Produkte aus den quadrierten Differenzen zwischen allen Werten der Zufallsvariablen X und ihrem Erwartungswert und den Wahrscheinlichkeiten für die einzelnen Werte. Auch hier ergibt sich wieder eine Entsprechung zur Varianz einer Häufigkeitsverteilung. Entsprechend ergibt sich durch Integrieren die Varianz einer stetigen Zufallsvariablen. Auch hier fügen wir zwei Rechenbeispiele an. Zunächst wieder der einfache Würfelwurf, wobei ja nun der Mittelwert dieser Wahrscheinlichkeitsverteilung mit 3,5 schon bekannt ist.
Abb. 13.26: Erwartungswert und Varianz (einfacher Würfelwurf) (E13B.XLS, EVAR)
Hier ergibt sich also als Varianz der Wert 2,92. Die Varianz der stetigen Rechteckverteilung im Intervall von 0 bis 2 (die Verteilung hatte die Dichtefunktion f x 0,5 und den Erwartungswert E X 1 ) erhalten wir wie folgt: VAR X
2
x Ex
2
0,5dx
0
1 3 x 6
0,5x 2
2
0,5x 2
xE X
0,5 E X
2
dx
0
0,5x
1 3
2 1
1 3
Erwartungswert und Varianz einer Verteilung werden auch als Funktionalparameter bezeichnet. Sie geben ja darüber Auskunft, wo und wie dicht die Werte der Zufallsvariablen auf der Zahlengeraden liegen. Hiervon unterscheidet man die expliziten Parameter einer Verteilung, worauf wir später zu sprechen kommen.
14
Spezielle Wahrscheinlichkeitsverteilungen
„Von führenden Millionären empfohlen.“ Lotto-Werbung, 1998
Fünf Kinder – und alles Mädchen! 14.1 14.2 14.3 14.4 14.5 14.6 14.7 14.8 14.9 14.10
14.1
Das neue Fahrrad Spezielle Wahrscheinlichkeitsverteilungen Binomialverteilung Normalverteilung Multinomialverteilung Hypergeometrische Verteilung Poisson-Verteilung Student-t-Verteilung Chi-Quadrat-Verteilung F-Verteilung
Das neue Fahrrad
„Ich hätte so gern ein neues Fahrrad“, sagte kürzlich meine Tochter zu mir. Ich ließ meine Zeitung sinken und wandte ein, dass ihres doch erst zwei Jahre alt sei. Aber das wollte sie nicht gelten lassen. „Das ist doch noch ein altmodisches Hollandrad“, beklagte sie sich. „Alle meine Freundinnen haben modernere Fahrräder, nur ich ...“ „Ich habe kein Geld für ein neues Rad“, behauptete ich, aber es war deutlich zu sehen, dass sie meinen Worten keinen Glauben schenkte. „Spiel doch mal im Lotto“, schlug sie vor. „Dann kannst du dir einen neuen Mercedes kaufen und mir ein modernes Fahrrad mit Siebengangschaltung.“ „So machen wir es“, antwortete ich erleichtert, weil natürlich ein Lottotipp wesentlich preiswerter ist als ein neues Fahrrad. „Wir füllen zusammen einen Lottoschein aus – alle zwölf Spiele, die maximal möglich sind. Allerdings musst du dann etwas über 22000 Jahre warten, bis wir mal sechs Richtige haben.“ „?“ „Das hat mit Wahrscheinlichkeiten zu tun“, fügte ich hinzu. „Die Chance für sechs Richtige bei einem Lottotipp liegt etwa bei 1:14 Millionen. Das kann man mit der hypergeometrischen Verteilung ausrechnen!“ „Ach du liebe Zeit“, antwortete sie, „darüber werde ich ja alt!“ Sie dachte einen Moment lang nach. „Wie wäre es mit einer Taschengelderhöhung?“, fragte sie dann.
270
14.2
14.2
Vorbemerkung
Vorbemerkung
Im vorangegangenen Kapitel haben wir uns in einer eher generellen Betrachtungsweise mit diskreten und stetigen Wahrscheinlichkeitsverteilungen befasst. In diesem Kapitel werden wir nun spezielle Verteilungen kennen lernen. Damit sind solche Verteilungen gemeint, mit deren Hilfe typische Fragen, die sich auf Wahrscheinlichkeiten richten, beantwortet werden können. Sie werden dabei erkennen, dass auch bei diesen Fragen der Einsatz von Excel zu wesentlichen Arbeitserleichterungen führt. Diejenigen diskreten Wahrscheinlichkeitsverteilungen, die wir bisher schon kennen gelernt haben, nämlich die Verteilungen für die Variablen einfacher Würfelwurf, Augensumme im doppelten Würfelwurf, Zahl der Kopf-Würfe beim dreifachen Münzwurf und die stetige Rechteckverteilung sind für den praktischen Einsatz wenig geeignet – es sei denn, Sie wären Berufswürfler. Deshalb werden jetzt Verteilungen besprochen, die Sie für konkrete Probleme der statistischen Praxis verwenden können. Es gibt sehr viele spezielle Wahrscheinlichkeitsverteilungen. Es genügen aber einige wenige, um wahrscheinlichkeitsbehaftete Aussagen zu formulieren und so Entscheidungen im sozialund wirtschaftswissenschaftlichen Bereich zu ermöglichen oder zu erleichtern. Wir beschränken uns zunächst auf die wichtigsten dieser Verteilungen, nämlich auf die Binomialverteilung und die Normalverteilung.
14.3
Binomialverteilung
Nehmen Sie einmal an, Sie sollten die folgende Frage beantworten: Wie groß ist die Wahrscheinlichkeit, dass in einer Packung mit zwölf Hühnereiern zwei defekt sind, wenn die Schadhaftigkeitsquote generell bei 10% liegt? Die Binomialverteilung gibt die Antwort. Es bedarf nun allerdings einiger vorbereitender Überlegungen, um Ihnen diese Verteilung vorstellen zu können. Die Binomialverteilung (auch binomische Verteilung genannt) ist eine der bedeutendsten diskreten Wahrscheinlichkeitsverteilungen. Man nennt sie nicht selten auch Bernoulli-Verteilung (nach dem Schweizer Mathematiker Jakob Bernoulli, 1654 – 1705), da sie sich aus einem speziellen Modell ergibt, das als Bernoulli-Modell bzw. Bernoulli-Versuchsanordnung bekannt ist. Das statistische Experiment, das zu dieser Verteilung führt, wird deshalb auch Bernoulli-Experiment genannt. Die Bernoulli-Versuchsanordnung weist die folgenden Charakteristika auf: 1.
Bei einem Experiment sind nur zwei Ergebnisse möglich. Wir können diese beiden Ergebnisse mit A und A bezeichnen. Die Wahrscheinlichkeiten für diese beiden Ergebnisse seien bekannt: P A und P A 1 .
2.
Es werden n Experimente durchgeführt. Bei jedem Einzelversuch muss gleich groß sein. Da man das Eintreffen von A auch als Erfolg bezeichnen kann, spricht man auch da-
14
Spezielle Wahrscheinlichkeitsverteilungen
271
von, dass bei jedem Einzelversuch dieselbe Erfolgswahrscheinlichkeit gewährleistet sein muss. 3. Die Ergebnisse der Einzelexperimente sollen sich nicht gegenseitig beeinflussen; d. h., die Einzelversuche sollen voneinander unabhängig sein. Erinnern Sie sich an den Behälter, in dem sich – für den Betrachter nicht sichtbar – verschiedenfarbige Kugeln befinden. Wenn die Einzelexperimente sich nicht gegenseitig beeinflussen sollen, bedeutet das, dass bei jedem Griff in den Behälter die gleichen Ausgangsbedingungen herrschen sollen. Dies kann nur gewährleistet werden, wenn nach jeder Ziehung die gerade gezogene Kugel vor dem nächsten Zug wieder in den Behälter zurückgelegt wird. Deshalb sprechen wir bei der Bernoulli-Versuchsanordnung von einer Versuchsanordnung mit Zurücklegen. Wird jedes Mal die entnommene Kugel nach der Ziehung wieder zurückgelegt, sind die Einzelversuche voneinander unabhängig. Die Binomialverteilung kann genutzt werden, um die folgende Frage zu beantworten: Wie groß ist die Wahrscheinlichkeit, dass Ereignis A in n Versuchen x i -mal realisiert wird? Stellen Sie sich einen Behälter vor, in dem sich 100 Kugeln befinden, 40 weiße und 60 rote Kugeln. Jedes Mal, wenn Sie in diesen Behälter greifen, um eine Kugel zu ziehen, kann eine weiße Kugel auftauchen oder eine rote Kugel. Bei jedem Zug sind also (nur) zwei Ergebnisse möglich (Punkt 1. bei der Beschreibung der Bernoulli-Versuchsanordnung). Nach jedem Zug wird die gezogene Kugel wieder zurückgelegt, so dass sich vor jedem nächsten Zug wieder die ursprünglichen 100 Kugeln im Behälter befinden. Dies bedeutet, dass die Wahrscheinlichkeit, bei einem der Züge eine weiße Kugel zu ziehen, immer bei 0,4 (oder 40%) liegt, unabhängig davon, welcher Zug gerade dran ist (Punkt 2.). Es bedeutet zugleich, dass die Züge voneinander unabhängig sind (Punkt 3.). Nun taucht die folgende Frage auf: Wie groß ist die Wahrscheinlichkeit, dass bei n 5 Ziehungen (mit Zurücklegen) drei weiße und damit notwendigerweise auch zwei rote Kugeln gezogen werden? Bezeichnen wir eine weiße Kugel mit W, eine rote Kugel mit R, so fragen wir also nach der Wahrscheinlichkeit für beispielsweise die folgende Anordnung: W
W
W
R
R
1. Zug 2. Zug 3. Zug 4. Zug 5. Zug Fangen wir mit der Ziehung der ersten Kugel (1. Zug) an. Offensichtlich beträgt die Wahrscheinlichkeit dafür, eine weiße Kugel zu ziehen: P W 0,4 . Für die zweite Kugel, die auch weiß sein soll, gilt entsprechend die gleiche Eintrittswahrscheinlichkeit, da es sich ja um ein Modell mit Zurücklegen handelt. Fragen wir jetzt zwischendurch einmal danach, wie groß die Wahrscheinlichkeit dafür ist, dass in der ersten Ziehung eine weiße Kugel auftaucht und dass auch in der zweiten Ziehung eine weiße Kugel auftaucht, so können wir unsere früher erworbenen Kenntnisse des Multiplikationssatzes für voneinander unabhängige Ereignisse verwenden – Sie sehen, es war gar nicht falsch, sich ein bisschen mit der Wahrscheinlichkeitsalgebra, mit dem Rechnen mit Wahrscheinlichkeiten, zu befassen.
272
14.3
P W und W
PW PW
0,4 0,4
Binomialverteilung
0,4 2
Da auch die dritte Kugel weiß sein soll, gilt auch für sie die Eintrittswahrscheinlichkeit 0,4, und für die drei ersten Kugel zusammen gilt: P W und W und W
PW PW PW
0,4 0,4 0,4
0,43
Die vierte Kugel soll rot sein. Dafür besteht eine Wahrscheinlichkeit von 0,6 1 0,4 ; allgemein von 1 . Für die ersten vier Kugeln zusammen ergibt sich somit: P W und W und W und R 0,4 0,4 0,4 1 0,4
PW PW PW PR
1
Schließlich erhalten wir für alle fünf Kugeln die folgende Berechnung: 1.Zug
2.Zug
3.Zug
4.Zug
5.Zug
W
W
W
R
R
0,4
0,4
0,4
0,6
0,6
p
p
p
1-
P WWWRR
3
1
2
10,4
3
0,6 2
0,02304
Die Wahrscheinlichkeit dafür, bei fünf mit Zurücklegen gezogenen Kugeln aus dem Behälter, wie er oben beschrieben wurde, zunächst drei weiße und dann zwei rote Kugeln zu ziehen, beträgt also 0,02304 oder rund 2,3%. Das ist eine bemerkenswert kleine Wahrscheinlichkeit. Diese Wahrscheinlichkeit ist aber noch nicht das gesuchte Ergebnis, weil bisher eine bestimmte Reihenfolge unterstellt worden ist, in der die Erfolge (drei weiße Kugeln) und Misserfolge (zwei rote Kugeln) realisiert werden, nämlich die Reihenfolge WWWRR. Im Sinne der ursprünglichen Frage (Wahrscheinlichkeit für drei weiße Kugeln bei fünf Ziehungen) wäre aber beispielsweise auch die Anordnung RRWWW als günstig anzusehen oder WRWRW oder ... Wir müssen also offenbar noch ermitteln, in wie vielen verschiedenen Reihenfolgen die drei Erfolge und zwei Misserfolge auftreten können. Die gesuchte Wahrscheinlichkeit finden wir nämlich, indem wir berücksichtigen, dass WWWRR oder RRWWW oder WRWRW oder ... günstig im Sinn der Fragestellung ist. Hier aktivieren Sie jetzt Ihre Kenntnisse der Kombinatorik und fragen danach, wie viele verschiedene Anordnungen es gibt, wenn fünf Elemente angeordnet werden sollen, von denen drei identisch sind (drei weiße Kugeln) und die übrigen zwei ihrerseits identisch sind (zwei rote Kugeln). Diesen Fall hatten wir als Permutation von teilweise identischen Elementen kennen gelernt (siehe Kapitel 12). Zusätzlich hatten wir hergeleitet, dass bei zwei Gruppen identischer Elemente diese Permutation identisch ist mit der Kombination (hier von drei aus fünf Elementen). Die Zahl der verschiedenen Anordnungsmöglichkeiten ergibt sich mithin zu: 3 C5
n k
n! k! n k !
5! 10 3! 5 3 !
14
273
Spezielle Wahrscheinlichkeitsverteilungen
Es gibt zehn verschiedene Anordnungsmöglichkeiten von drei weißen und zwei roten Kugeln. Alle diese Anordnungsmöglichkeiten sind bei der gegebenen Fragestellungen über das Wort oder jeweils miteinander verbunden, was uns auf den Additionssatz für sich gegenseitig ausschließende Ereignisse verweist. Also ergibt sich schließlich: WWWRR oder RRWWW oder WRWRW oder ... 0,02304 0,02304 0,02304 ... 10 0,02304
0,2304
Die letztlich gesuchte Wahrscheinlichkeit beträgt also rund 23%. Dies ist die Wahrscheinlichkeit, aus einem Behälter, in dem sich 100 Kugeln befinden, davon 40 weiße und 60 rote Kugeln, fünf Kugeln mit Zurücklegen zu ziehen, von denen drei weiß und zwei rot sind. Sie erkennen übrigens, dass die Zahl 100 (Gesamtzahl der Kugeln im Behälter) für die Berechnungen überhaupt keine Rolle spielt. Das hat natürlich damit zu tun, dass ein Modell mit Zurücklegen verwendet wurde. Der benutzte Rechenansatz sieht zusammengefasst so aus: P3
5 0,43 1 0,4 3
2
5 0,43 0,6 2 3
Allgemein gilt für n Versuche, bei denen x i -mal das günstige Ereignis eintreten soll, wenn die Eintrittswahrscheinlichkeit des günstigen Ereignisses bei einem Versuch ist: P xi
n k
xi
1
n xi
Dies ist die Wahrscheinlichkeitsfunktion der Binomialverteilung: Eine Zufallsvariable X mit obiger Funktion ist binomial verteilt. Wenn Sie sich diese Funktion anschauen, dann erkennen Sie sofort, dass es nicht nur eine einzige Binomialverteilung gibt, sondern sehr viele, je nachdem, wie groß der Wert für und der für n ist. Man bezeichnet und n deshalb auch als explizite Parameter der Binomialverteilung. Je größer n ist, desto breiter ist die betreffende Binomialverteilung, wie man mit grafischen Darstellungen leicht überprüfen kann. Die Zufallsvariable X hat dann mehr Ausprägungen, als dies bei kleinerem n möglich wäre, so dass es entsprechend mehr Punkte auf der Abszisse der Verteilung gibt. Dem entspricht es, dass es mehr einzelne Wahrscheinlichkeiten gibt – und da deren Summe den Wert 1 ergeben muss, werden die Einzelwahrscheinlichkeiten kleiner, wenn n wächst. Hinsichtlich des zweiten expliziten Parameters, der Eintrittswahrscheinlichkeit gilt, dass die Verteilung symmetrisch ist, wenn dieser Wert bei 0,5 liegt. Bei allen anderen Werten ist die Verteilung asymmetrisch. Als Funktionalparameter bezeichneten wir hingegen Mittelwert (Erwartungswert) und Varianz einer Zufallsvariablen. Für eine binomialverteilte Zufallsvariable X gilt: Erwartungswert: E X Varianz:
n
VAR X
n 1
Sie sehen, die Funktionalparameter der Binomialverteilung errechnen sich aus den beiden expliziten Parametern.
274
14.3
Binomialverteilung
Jetzt können wir uns wieder der Frage zuwenden, wie groß die Wahrscheinlichkeit dafür ist, dass von zwölf Hühnereiern zwei defekt sind. Gegeben sind hier die Parameter n 12 und 0,1 (10% Wahrscheinlichkeit dafür, dass ein beliebiges Ei defekt ist; oben als generelle Schadhaftigkeitsquote bezeichnet). Es ergibt sich also: P2
12 0,12 1 0,1 12 2
2
12! 0,12 0,910 2! 12 2 !
66 0,01 0,34867844
0,23
Die Wahrscheinlichkeit, in einer Zwölferpackung zwei defekte Eier zu finden, wenn die generelle Schadhaftigkeitsquote 10% beträgt, ist also rund 23%. Sie werden sich vorstellen können, dass solche und entsprechende Berechnungen für Statistiker, die sich mit der Qualitätskontrolle befassen, sehr wichtig sein dürften. Excel stellt für derartige Berechnungen die Funktion BINOMVERT zur Verfügung: 1. 2. 3. 4.
Wählen Sie EINFÜGEN/FUNKTION… Wählen Sie aus der Kategorie STATISTIK die Funktion BINOMVERT. Klicken Sie OK an. Geben Sie im zweiten Dialogfenster des Funktions-Assistenten die folgenden Argumente ein: bei ZAHL_ERFOLGE: 2 bei VERSUCHE: 12 bei ERFOLGSWAHRSCH: 0,1 bei KUMULIERT: 0 5. Klicken Sie OK an. Es ergibt sich der Wert, den wir oben schon zu Fuß ausgerechnet haben (siehe Abbildung 14.1).
Abb. 14.1: Anwendung der Binomialverteilung (E14.XLS, B1)
Bei diesem Zahlenbeispiel wollen wir uns das zweite Dialogfenster des Funktions-Assistenten noch etwas genauer anschauen (siehe Abbildung 14.2). 1. 2. 3.
Die Zahl der Erfolge liegt bei dieser Aufgabenstellung bei 2. Genau genommen sind es Misserfolge, nämlich defekte Eier, aber im Sinne der Fragestellung dieses Beispiels werden diese speziellen Ereignisse als Erfolge bezeichnet. Entsprechend gilt, dass mit dem Stichwort ERFOLGSWAHRSCH die Wahrscheinlichkeit gemeint ist, die Wahrscheinlichkeit dafür also, bei einem Versuch (Herausnahme von einem Ei aus der Packung) ein defektes Ei zu finden. Bei KUMULIERT ist der Wert 0 als Argument einzugeben, wenn wir einen Wert der Wahrscheinlichkeitsfunktion erhalten wollen. Geben wir den Wert 1 ein, wird der entspre-
14
Spezielle Wahrscheinlichkeitsverteilungen
275
chende Wert der Verteilungsfunktion berechnet. In diesem Fall würde also die Wahrscheinlichkeit dafür berechnet, dass bei zwölf Eiern zwei oder weniger (oder 1 oder 0) defekt sind (88,9%).
Abb. 14.2: Zweites Dialogfenster des Funktions-Assistenten
Bevor wir uns weitere realitätsnahe Beispiele anschauen, wenden wir uns noch ein letztes Mal einem Münzwurfbeispiel zu, weil es viel leichter überschaubar und nachvollziehbar ist als die dann folgenden Beispiele. Erinnern Sie sich an den Fall des dreifachen Münzwurfs. Sofort erkennen Sie, dass dieses statistische Experiment tatsächlich dem Bernoulli-Modell gehorcht: Bei nur einem Münzwurf sind die Alternativen Wappen oder Kopf realisierbar. Die Wahrscheinlichkeit für Kopf ( P K 0,5 ) ist bei der Münze bekannt. Sie entspricht dem klassischen Wahrscheinlichkeitskonzept. Demnach ist die Wahrscheinlichkeit für Wappen mit P( W ) 1 1 0,5 0,5 ebenfalls bekannt. Es werden n 3 Würfe (Experimente) durchgeführt. Bei jedem Wurf ist gewährleistet, dass 0,5 bestehen bleibt. Außerdem können wir davon ausgehen, dass die Ergebnisse der drei Einzelwürfe unabhängig voneinander zustande kommen. Kurz: Die Bedingungen sind für Versuche nach dem Bernoulli-Schema gegeben. Dann ist, wie gerade gezeigt wurde, die Zufallsvariable X (Anzahl der Kopfwürfe im dreifachen Münzwurf mit den möglichen Ausprägungen 0, 1, 2 und 3) binomialverteilt mit den beiden Parametern n 3 und 0,5 . Die Werte x i der Variablen X geben die Anzahlen der Kopfwürfe an. Wenn Sie die gesamte Wahrscheinlichkeitsverteilung erzeugen wollen, müssen Sie P 0 , P(1) , P 2 und P 3 berechnen. Andere Ausprägungen kann die hier interessierende Zufallsvariable nicht annehmen. Unter Nutzung der oben hergeleiteten Wahrscheinlichkeitsfunktion ergibt sich:
276
14.3
P(0)
3 0
0,50 (1 0,5)3
0
3! 0,50 0,53 0! (3 0)!
Mathematische Hinweise: 0! ist definiert als 1;
0
Binomialverteilung
1 1 0,125 0,125
1 (jede Zahl hoch 0 ist 1)
Mit Excel geht es leichter: 1. 2. 3.
4. 5.
Geben Sie in die Zellen A2 bis A5 die Werte 0, 1, 2 und 3 ein (siehe Abbildung 14.3). Klicken Sie B2 an, und rufen Sie, wie beim Beispiel zuvor, die Funktion BINOMVERT auf. Geben Sie als Argumente ein: bei ZAHL_ERFOLGE: A2 bei VERSUCHE: 3 bei ERFOLGSWAHRSCH: 0,5 bei KUMULIERT: 0 Klicken Sie OK an. Ziehen Sie mit der Maus die Berechnung aus B2 bis zur Zelle B5.
Abb. 14.3: Wahrscheinlichkeitsverteilung für Kopfwürfe beim dreifachen Münzwurf (E14.XLS, B2)
Den Erwartungswert dieser Verteilung können wir in der Arbeitstabelle der Abbildung 14.4 berechnen gemäß der Beziehung: EX
xi P xi
Abb. 14.4: Arbeitstabelle zur Errechnung des Erwartungswertes (E14.XLS, B3)
Als Erwartungswert ergibt sich also E X 1,5 . Diesen Wert hätten wir auch einfacher unter Nutzung der Formel für den ersten Funktionalparameter der Binomialverteilung ausrechnen können: EX
n
3 0,5 1,5
Dieser Wert bedeutet, dass im arithmetischen Durchschnitt die Zufallsvariable Anzahl der Kopfwürfe im dreifachen Münzwurf den Wert 1,5 realisieren wird, d. h., bei drei Münzwürfen wird im Durchschnitt 1,5 Mal Kopf erscheinen.
14
277
Spezielle Wahrscheinlichkeitsverteilungen
Als Varianz ergibt sich VAR X
n
1
3 0,5 0,5
0,75
Betrachten wir ein paar weitere praxisnahe Beispiele für diese wichtige Wahrscheinlichkeitsverteilung: Ein Ehepaar möchte vier Kinder bekommen. Wie groß ist die Wahrscheinlichkeit, dass dabei drei Knaben sind? Es handelt sich hier um eine Versuchsanordnung nach Bernoulli – wenn man das in diesem Zusammenhang so sagen darf: Die Versuche sind voneinander unabhängig, die Eintrittswahrscheinlichkeit des günstigen Ereignisses (Knabengeburt) bleibt von Versuch zu Versuch konstant ( 0,5 ; genau genommen ist die Knabengeburtswahrscheinlichkeit statistisch ein bisschen größer, davon soll hier aber einmal abgesehen werden), und bei jedem Versuch gibt es nur zwei Möglichkeiten. Es kann also zur Beantwortung der gestellten Frage eine Binomialverteilung mit n 0,5 verwendet werden, x i soll den Wert 3 annehmen: P3
4 3
0,53 1 0,5
4 3
4 0,54
4 und
0,25
Die Wahrscheinlichkeit, dass bei vier Kindern unter den genannten Bedingungen drei Knaben sind, beträgt also 0,25 oder 25%. Mit Excel erhalten Sie das gleiche Ergebnis, wenn Sie in eine Tabellenzelle eingeben: =BINOMVERT(3;4;0,5;0) Natürlich könnten Sie auch, wie es bei den vorangegangenen Beispielen schon gezeigt wurde, den Funktions-Assistenten bemühen, um dieses Ergebnis berechnen zu lassen. In der Ruhr-Universität Bochum gibt es 36000 Studierende, davon sind 12000 weiblichen Geschlechts. Wie groß ist die Wahrscheinlichkeit, dass von zwanzig zufällig ausgewählten Studierenden nur fünf Frauen sind? Handelt es sich bei dieser Fragestellung um eine Versuchsanordnung nach Bernoulli, so dass die Binomialverteilung verwendet werden kann? Offenbar gibt es bei jeder Auswahl einer Person nur zwei Möglichkeiten – Frau oder Mann. Die Eintrittswahrscheinlichkeit des im Sinne der Fragestellung günstigen Ereignisses (eine Frau wird ausgewählt) beträgt 1 / 3 und bleibt von Ziehung zu Ziehung konstant – dies allerdings nur, wenn eine ausgewählte Person vor der nächsten Auswahl wieder in die Grundgesamtheit aller Studierenden zurückgelegt wird (die Versuchsanordnung nach Bernoulli entspricht ja einem Modell mit Zurücklegen!). Dieses Zurücklegen kann in der Praxis aber nicht unterstellt werden. Bei der Auswahl einer nach der anderen Person wird die Grundgesamtheit immer ein bisschen kleiner. Nun kann allerdings argumentiert werden, dass sich bei der Auswahl von 20 aus 36000 Personen (ohne Zurücklegen) die Grundgesamtheit nur so wenig verändert, dass sich dies auf den Parameter kaum auswirkt bzw. dass diese eventuellen Veränderungen von als statistisch vernachlässigbar angesehen werden dürfen. Generell darf davon ausgegangen werden, dass bei sehr großer Grundgesamtheit das Modell ohne Zurücklegen sich so wenig von dem mit Zurücklegen unterscheidet, dass dies für die praktische statistische Arbeit vernachlässigbar ist. Wir gehen in diesem Beispiel also davon aus, dass praktisch konstant bleibt. Somit sind die Ziehungen auch praktisch voneinander
278
14.3
Binomialverteilung
unabhängig (wenn auch nicht ganz exakt), so dass auch diese Aufgabe mit der Binomialverteilung bearbeitet werden kann (die Aufgabe dieser Voraussetzungen führt zur hypergeometrischen Verteilung, die weiter unten angesprochen wird): 20 5
P5
1 3
5
1
1 3
20 5
20! 5! 20 5 !
1 3
5
2 3
15
Sie sehen, dass jetzt die Berechnungen unangenehm werden, wollte man sie per Hand durchführen. Allein schon die Fakultätenberechnungen führen, trotz der Kürzungsmöglichkeiten, die sich bieten, zu unangenehm großen Zahlen (zum Beispiel ist 20! eine neunzehnstellige Zahl), und auch die Berechnung von zum Beispiel 2 3
15
ist nicht ganz unproblematisch. In früheren Zeiten wurden die Anwender dann aufgefordert, logarithmisch zu rechnen. Das vereinfacht zwar viele Rechenprozeduren – aber ehrlich: Können Sie mit Logarithmen umgehen? Mit Excel ist das alles einfacher. Es genügt, in eine freie Tabellenzelle einzugeben: =BINOMVERT(5;20;0,333333;0) und Sie erhalten als Ergebnis den Wert 0,1457 (gerundet). Die Wahrscheinlichkeit dafür, aus den Studierenden der Ruhr-Universität Bochum (Frauenanteil: 1/3) zwanzig Personen auszuwählen, von denen fünf Frauen sind, beträgt also rund 14,57%. Sicherlich erkennen Sie an diesem Beispiel, warum eine solche Wahrscheinlichkeitsberechnung wichtig sein kann. Stellen Sie sich einen Studenten vor, der für seine Diplomarbeit eine kleine Befragung bei zwanzig Studierenden zum Thema Intelligenz und Studienleistungen durchführt. Um zu einem repräsentativen Ergebnis zu gelangen, wird er die zwanzig zu befragenden Studenten nach dem Zufallsprinzip auswählen. Dabei wären dann 1/3 Frauen zu erwarten, also sechs oder sieben Studentinnen. Tatsächlich aber sind in seiner Stichprobe nur fünf Studentinnen – weil das der Zufall so wollte. Es stellt sich die Frage, ob diese etwas zu geringe Frauenquote in der Stichprobe tatsächlich zufallsbedingt ist oder ob bei der Stichprobenziehung Fehler gemacht wurden – oder, was noch interessanter wäre, ob die Behauptung, ein Drittel der Studierenden in der Gesamtheit seien Frauen, vielleicht gar nicht stimmt. Vielleicht hat sich dieser Anteil ja seit der letzten Totalerhebung bis zu dem Zeitpunkt, zu dem sich unser Examenskandidat an die Arbeit macht, deutlich verringert – aus welchen Gründen auch immer. Hier hilft nun die berechnete Wahrscheinlichkeit weiter. Ist diese sehr gering, werden wir stutzig – nach dem Motto: Das hätte doch gar nicht passieren dürfen, das mit den fünf Frauen bei zwanzig ausgewählten Studierenden! Ist die Wahrscheinlichkeit hingegen hoch, könnten wir sagen: „Na ja, dieser Stichprobenbefund war zu erwarten.“ Was ist nun eine hohe, was ist eine geringe Wahrscheinlichkeit?
14
279
Spezielle Wahrscheinlichkeitsverteilungen
Wir wollen diese Frage in Kapitel 17 wieder aufgreifen und begnügen uns hier mit der Feststellung, dass die Berechnung von Wahrscheinlichkeiten etwa für die Beurteilung der Repräsentativität von Zufallsstichproben offensichtlich wichtig ist. Noch ein Beispiel: Erfahrungsgemäß sind 10% aller gekauften Schokoladen-Weihnachtsmänner zerbrochen, ohne dass man dies an der bunten Verpackung erkennt. Wie groß ist die Wahrscheinlichkeit, dass von fünf gekauften Weihnachtsmännern gar keiner kaputt ist? Auch hier liegt eine Versuchsanordnung nach Bernoulli vor: Bei jedem Weihnachtsmann gibt es zwei Möglichkeiten – kaputt oder nicht. Die Eintrittswahrscheinlichkeit des im Sinn der Fragestellung günstigen Ereignisses (man sieht, statistisch günstig ist manchmal in der Realität ein negatives Ereignis; in der Versicherungsstatistik beispielsweise ist der Tod des Versicherten ein günstiges Ereignis) – diese Eintrittswahrscheinlichkeit liegt von Kauf zu Kauf bei 0,1 (es sei einmal unterstellt, dass wir die fünf Weihnachtsmänner nicht aus einem einzigen Karton entnehmen, und zwar gerade aus dem, der beim Abladen vom Gabelstapler gefallen war), und die Ziehungen sind voneinander unabhängig (zumindest, wenn es den Gabelstapler-Unfall nicht gab). Also erhalten wir: P0
5 0
0,10 1 0,1 5
0
Mit Excel erhalten wir über =BINOMVERT(0;5;0,1;0) den Wert 0,59049. Es besteht also eine Wahrscheinlichkeit von knapp über 59% dafür, dass alle fünf Weihnachtsmänner in Ordnung sind. Und ein letztes Beispiel: Ausgehend vom ersten Beispiel könnten wir uns auch einmal der Frage zuwenden, wie viele Kinder ein Paar (mindestens) bekommen muss, damit die Wahrscheinlichkeit dafür, dass wenigstens ein Knabe dabei ist, mindestens 95% beträgt. Wenigstens ein Knabe ... bedeutet ein Knabe oder zwei Knaben oder drei oder vier oder ... oder n Knaben. Zu berechnen wäre also (die vielfache Verwendung des Wortes oder verweist auf den Additionssatz für sich ausschließende Ereignisse) P 1 oder 2 oder ... oder n
P1
P2
... P n
wobei wir aber noch nicht wissen, wie groß n ist (die Zahl der Versuche), denn gerade diese Größe ist es, die bei dieser Aufgabenstellung gesucht wird. Wir wissen deshalb auch nicht, wie viele Summanden die obige Summe aufweist. Deshalb wenden wir den folgenden Trick an: Das Ereignis wenigstens ein Knabe ist das Komplementärereignis zum Ereignis kein Knabe. Ereignis und Komplementärereignis schließen sich gegenseitig aus und füllen den Ereignisraum völlig aus, d. h.: P wenigstens ein Knabe P kein Knabe oder P 1 P 2 ... P n 1 P 0
1
280
14.3
Binomialverteilung
Da die genervten Eltern mit mindestens 95% Wahrscheinlichkeit wenigstens einen Knaben bei ihren n Kindern haben wollen, ergibt sich demnach: 1 P0
0,95 oder P 0
0,05
P(0) ist aber gemäß der binomischen Wahrscheinlichkeitsfunktion wie folgt definiert: P0
n 0
0,50 1 0,5
n 0
1 1 0,5n
Somit erhalten wir die folgende Bestimmungsgleichung für n: 0,5n
0,05
Hier hilft nun Excel zunächst nicht weiter – stattdessen müssen wir nun doch auf die Logarithmenrechnung ausweichen, denn es gilt: n log 0,5
log 0,05
und damit n
log 0,05 log 0,5
Jetzt aber kommt Excel wieder zum Zuge, denn dort gibt es in der Kategorie MATH.&TROGONOM. des Funktions-Assistenten die Funktion LOG10, die dazu dient, Zehnerlogarithmen zu berechnen Klicken Sie also eine freie Tabellenzelle an, und geben Sie ein: =LOG10(0,05)/LOG10(0,5) Es ergibt sich der Wert 4,32 (gerundet). Das Paar, das mit wenigstens 95%iger Wahrscheinlichkeit wenigstens einen Knaben unter seinen Kindern haben möchte, muss mindestens fünf Kinder bekommen (4,32 Kinder, das geht ja nicht gut; und vier Kinder wären zu wenig). Mit der Binomialverteilung haben wir erstmals eine Wahrscheinlichkeitsverteilung kennen gelernt, die für die Behandlung praktischer Probleme eine wichtige Rolle spielt. Viele Merkmale im sozial- und wirtschaftswissenschaftlichen Bereich lassen sich als binomialverteilte Zufallsvariable deuten, sofern sie sich auf das Bernoulli-Modell zurückführen lassen. Beispiele: Anteil der Raucher (Nichtraucher) an einer bestimmten Bevölkerungsgruppe Anteil der Frauen (Männer) Anteil der Menschen, die ein bestimmtes Produkt verbrauchen (oder nicht) Prüfungsaussichten für Studenten, einen bestimmten Notendurchschnitt zu erreichen (oder nicht) Anteil schadhafter bzw. nicht schadhafter Produkte in der Qualitätskontrolle Beantwortung von Fragen, die nur mit Ja oder Nein beantwortet werden sollen Sie bemerken: Diese kleine Aufzählung orientiert sich zunächst an der ersten Anforderung des Bernoulli-Modells: Bei einem Experiment – zum Beispiel bei der Auswahl einer Person aus
14
281
Spezielle Wahrscheinlichkeitsverteilungen
einer Personengruppe – darf nur die Ergebnisalternative, etwa Raucher versus Nichtraucher, realisierbar sein. Sonstige Merkmale der Personen bleiben hier außer Betracht. Ob sich aber in diesen konkreten Fällen tatsächlich eine binomialverteilte Zufallsvariable verwenden lässt, hängt, wie Sie wissen, noch von den beiden anderen wichtigen Anforderungen ab, von der gleichen Erfolgswahrscheinlichkeit bei jedem Versuch und der Unabhängigkeit der einzelnen Versuche. Ob und gegebenenfalls mit welchen Mitteln es erreicht werden kann, dass auch diese Anforderungen erfüllt sind, können Sie jetzt nur ahnen; konkreter werden wir hierauf in Kapitel 15 (Auswahlverfahren für Stichproben) eingehen.
14.4
Normalverteilung
Die wichtigste Wahrscheinlichkeitsverteilung ist die Normalverteilung. Man nennt sie auch Gauß’sche Verteilung oder Gauß’sche Fehlerkurve. Die Bedeutung der Normalverteilung liegt weniger in ihrem gelungenen Erscheinungsbild – sie ist in der Statistik schon die Göttliche genannt worden – als vielmehr darin, dass viele Variablen, die in der Stichprobenstatistik gebildet werden können, dieser Verteilung zumindest näherungsweise folgen. Darüber wird noch zu sprechen sein. Die Normalverteilung ist eine stetige Wahrscheinlichkeitsverteilung. Ihre Dichtefunktion sieht so aus: f x
1 2
e
1 2
x
2
Die Bedeutung der verwendeten Symbole ist: f x
Dichte des Wertes x der Zufallsvariablen X Kreiskonstante 3,1416 ... (kein Anteilswert wie bei der Binomialverteilung) Standardabweichung der Variablen X
e
Euler‘sche Zahl (2,718 ...)
x
Wert der Variablen X Erwartungswert von X
Im grafischen Bild sieht eine Normalverteilung so aus, wie es Abbildung 14.5 auf der folgenden Seite zeigt (hier wurde die Standardnormalverteilung gezeichnet, auf die wir noch zu sprechen kommen). Dieser Abbildung sieht man es an, und eine Kurvendiskussion (die Sie, um nicht die Schulmathematik zu verlernen, selbst durchführen könnten) würde es bestätigen, dass die Normalverteilung die folgenden Eigenschaften aufweist: Die Normalverteilung hat im Wert x
ihr einziges Maximum;
sie weist Wendepunkte in den beiden Punkten x1 sie ist symmetrisch zum Lot im Wert x
und x 2
auf;
;
die beiden Äste der Kurve nähern sich, wenn X gegen minus unendlich und plus unendlich geht, der Abszisse;
282
14.4
Normalverteilung
bereits im zweifachen zentralen Schwankungsintervall (zwischen x1 2 und x2 2 ) befindet sich von der Fläche unter der Gesamtkurve (die insgesamt selbstverständlich 1 ist) ein Anteil von 95,45%. Weitere Flächenangaben finden sich in der Tabelle der Abbildung 14.6.
Abb. 14.5: (Standard-)Normalverteilung
Sofort können Sie auch Folgendes erkennen: Da die Kreiskonstante und die Euler‘sche Zahl feste Werte sind, hängt die Größe jeder Dichte nur noch von der Höhe des Erwartungswertes und der Standardabweichung der normalverteilten Zufallsvariablen X ab. Diese beiden Funktionalparameter spielen im Falle der Normalverteilung also zugleich die Rolle der expliziten Parameter. Man charakterisiert eine normalverteilte Variable durch die Schreibweise N , . Die Normalverteilung N 75, 7 hat also den Mittelwert 75 und die Standardabweichung 7. Entsprechend wie bei der Binomialverteilung gibt es demnach nicht nur eine einzige Normalverteilung, sondern – entsprechend dieser Parameterwerte – eine beliebig große Familie von Normalverteilungen. Wenn der Mittelwert größer wird, wandert die Verteilung nach rechts im Achsenkreuz, wenn die Standardabweichung größer wird, rücken die Wendepunkte auseinander, d.h., die Verteilung wird breiter und zugleich flacher (die Fläche unter der Dichtekurve muss ja immer den Wert 1 aufweisen). Von besonderer Wichtigkeit ist nun diejenige Normalverteilung, die den Mittelwert 0 und die Standardabweichung 1 aufweist, also N 0,1 . Diese spezielle Normalverteilung wird als Standardnormalverteilung bezeichnet (siehe auch Abbildung 14.5 oben). Jede beliebige Normalverteilung kann in eine Standardnormalverteilung transformiert werden. Dazu müssen alle x-Werte auf der waagerechten Achse so verschoben werden, dass sich der Mittelwert der Ausgangsverteilung in den Ursprung des Koordinatenkreuzes verschiebt. Zu-
14
Spezielle Wahrscheinlichkeitsverteilungen
283
dem muss die waagerechte Achse in Einheiten der Standardabweichung der Ausgangsverteilung gemessen werden. Wir wandeln also die normalverteilte Zufallsvariable X mit dem Mittelwert und der Standardabweichung in eine Standardnormalvariable um, die mit K bezeichnet wird. Sie hat den Mittelwert 0 und die Standardabweichung 1. Ihre Dichtefunktion lautet demnach wie folgt: 1
f k
2
e
1 2 k 2
Zwischen jedem Wert x der nach N , verteilten Variablen X und dem Wert k der nach N 0,1 verteilten Variablen K besteht die Beziehung, die oben beschrieben wurde (Verschieben des Mittelpunktes und Neubemessung der waagerechten Achse): k
x
Somit gilt zum Beispiel die folgende Überlegung: Die Fläche unter der Normalverteilung N 75, 7 rechts vom Punkt x 82 (Mittelwert plus Standardabweichung) ist genauso groß wie die Fläche unter der Standardnormalverteilung N 0,1 rechts von k 1 . In der Tabelle der Abbildung 14.6 weisen wir weitere Flächenbereiche aus, die man entsprechenden statistischen Tabellenwerken entnehmen kann.
Abb. 14.6: Flächenanteile unter der Normalverteilung (E14.XLS, NV1)
Nun sollen mit Hilfe der Normalverteilung Wahrscheinlichkeiten berechnet werden. Dafür stellt Excel die Funktion NORMVERT zur Verfügung. Beispiel 1: Das Gewicht von Rekruten eines Jahrgangs sei normalverteilt mit dem Mittelwert 75 kg und der Standardabweichung 5 kg. Wie groß ist die Wahrscheinlichkeit, dass einer der Rekruten, der zufällig ausgewählt wird, schwerer als x 80 kg ist? 1. 2. 3.
Wählen SIE EINFÜGEN/FUNKTION… Wählen Sie im ersten Dialogfenster des Funktions-Assistenten die Kategorie STATISTIK und dort die Funktion NORMVERT. Klicken Sie OK an.
284 4.
5.
14.4
Normalverteilung
Im zweiten Dialogfenster (siehe Abbildung 14.7) machen Sie die folgenden Angaben: x: 80 MITTELWERT: 75 STANDABWN: 5 KUMULIERT: 1 Klicken Sie OK an.
Abb. 14.7: Funktions-Assistent, zweites Dialogfenster
Sie erhalten jetzt den Wert 0,8413. Dies ist der Wert der Verteilungsfunktion der Standardnormalverteilung (kumulierte Wahrscheinlichkeiten), der bis zum Wert k 1 erreicht wird. Dies ist also die Fläche links von k 1 bzw. x 80 . Da uns aber die Fläche rechts von k 1 bzw. x 80 interessiert, müssen wir diese von 1 subtrahieren. Entweder Sie lassen dies durch Excel erledigen, oder Sie rechnen im Kopf aus, dass dies zum Wert 0,1587 führt. Dies ist die gesuchte Wahrscheinlichkeit. Beispiel 2: Wir bleiben bei den Vorgaben des ersten Beispiels und fragen nach der Wahrscheinlichkeit, dass ein Rekrut zwischen 70 und 85 Kilogramm schwer ist. Es soll also die Wahrscheinlichkeit P 70 X 85 der nach N 75, 5 verteilten Variablen X bestimmt werden. Excel muss jetzt also zwei Werte der Verteilungsfunktion bestimmen. Der erste Wert ist die Fläche links von X 70 , der zweite der links von X 85 . Die gesuchte Fläche (Wahrscheinlichkeit) ist dann die Differenz zwischen beiden. 1. 2. 3.
Bestimmen Sie wie im ersten Beispiel in einer freien Tabellenzelle die Fläche links von X = 70. Bestimmen Sie entsprechend in der nächsten Zelle die Fläche links von X = 85. Lassen Sie durch Excel die Differenz der beiden Werte berechnen.
14
285
Spezielle Wahrscheinlichkeitsverteilungen
Es ergibt sich 0,8186 (gerundet). Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Rekrut zwischen 70 kg und 85 kg schwer ist, beträgt also rund 82%. Für den interessierten Leser hier noch einige Hinweise zu den Ursprüngen der Gauß’schen Normalverteilung: Diese Verteilung wurde zuerst von Abraham de Moivre (1667 – 1754) entwickelt und bereits 1733 veröffentlicht. Allerdings gerieten die Überlegungen von de Moivre wieder in Vergessenheit. Einhundert Jahre später entwickelten unabhängig voneinander zwei andere Mathematiker erneut die Normalverteilung, nämlich Laplace, der uns schon bei der klassischen Begriffsfassung der Wahrscheinlichkeit begegnete, und der Braunschweiger Mathematiker C. F. Gauß (1777 – 1855). De Moivre und später Laplace gingen von dem folgenden spannenden Problem aus: Gegeben ist eine Zufallsvariable X, die binomial verteilt ist mit den Parametern: Erwartungswert: Varianz:
n 2
n 1
Die expliziten Parameter der Verteilung sind, wie Sie ja schon wissen, n und . Sie erinnern sich ferner daran, dass die Binomialverteilung vom diskreten Typ ist und man den Werten der Zufallsvariablen Wahrscheinlichkeiten zuordnen kann. Die von de Moivre behandelte Fragestellung lautete: Was geschieht mit der binomischen Wahrscheinlichkeit, wenn n über alle Grenzen wächst, während fest bleibt? Die Lösung war folgende: Mit wachsender Zahl von Versuchen tendiert die Binomialverteilung zur Normalverteilung Nn ; n 1 und geht beim Grenzübergang n gegen unendlich in diese über. Bei Gauß war das anders: Gauß interessierte sich unter anderem für Astronomie. Er stellte fest: Werden für einen bestimmten Punkt in der Bahn eines Planeten mehrere Messungen durchgeführt, so variieren die Resultate von einem zum anderen Mal um ein gewisses, möglicherweise geringes Ausmaß. Schaltet man alle erkennbaren und beeinflussbaren Variationsquellen aus, dann verbleibt eine Variationskomponente, die als Zufallsvariation aufgefasst werden kann. Die Größe A sei die zu messende wahre Position eines Planeten. Man weiß um kleinste zufällige Messfehler, so genannte Elementarfehler a , die dazu zwingen, die Größe A wiederholt zu messen. Man darf annehmen, dass die beiden Vorzeichen von a im Durchschnitt gleich häufig vorkommen. Wirkt nun auf eine Messung nur ein Elementarfehler ein, so ist das Ergebnis der ersten Messung entweder A a oder A a . Wirken bei einer Messung gleichzeitig zwei Elementarfehler, so können – analog zur Ableitung der Binomialverteilung – die folgenden vier gleichmöglichen Ergebnisse unterschieden werden: A a a, A a a, A a a , A a a Hieraus ergibt sich die folgende Verteilung: mögliche Messungsergebnisse
A 2a
A
A 2a
relative Häufigkeiten
1/4
1/2
1/4
286
14.4
Normalverteilung
Bei n Messversuchen ergeben sich die relativen Häufigkeiten bzw. Wahrscheinlichkeiten für die verschiedenen Messergebnisse aus der Wahrscheinlichkeitsfunktion einer binomialverteilten Zufallsvariablen B n; 0,5 . Der Parameter ist 0,5 – bei Ausschaltung aller erkennbaren Fehlerquellen auf die dennoch fehlerbehafteten Messungen ist zu vermuten, dass sich der Elementarfehler a im Durchschnitt gleich häufig zur einen oder anderen Seite vom wahren Wert A auswirkt. Gauß stieß zunächst also auch auf eine binomialverteilte Zufallsvariable, für die er – ähnlich wie de Moivre und Laplace – bei n gegen unendlich vielen Messungen eine stetige Grenzverteilung entwickelte, die nach ihm später so benannte Gauß’sche Fehlerkurve. Dieser Aspekt der Genesis der Normalverteilung hat für praktische Fälle in den Erfahrungswissenschaften seine Bedeutung, denn er weist unmissverständlich auf den eingeschränkten Geltungsbereich hin. Eine Variable – so kann gefolgert werden – wird in den Erfahrungswissenschaften dann in etwa einer Normalverteilung folgen, wenn die Einzelwerte durch das Zusammenwirken vieler voneinander unabhängiger und gleich stark wirksamer Faktoren bestimmt sind und wenn eine ziemlich große Zahl von Messungen oder Beobachtungen vorliegt. Diese Voraussetzungen mögen selten erfüllt sein, wenn wir einmal von den oft zitierten technischen Beispielen der Qualitätskontrolle in Prozessen der Massengutproduktion absehen. Immerhin entdeckte auch z.B. Quetelet (1796 – 1874), dass die Körpergröße eines bestimmten Jahrgangs von Soldaten ungefähr einer Normalverteilung folgt. Dies wurde – in Einklang mit den Gauß’schen Elementarfehlern – so interpretiert, dass die vorgelegte empirische Verteilung die Häufigkeiten des Fehlers zeigt, den die Natur begeht, wenn sie den idealen durchschnittlichen Menschen reproduziert. Die Schule Quetelets sah in dem Fehlergesetz eine Art Naturgesetz. Grundsätzlich soll dem nicht widersprochen werden. Allerdings müssen wir mit Nachdruck darauf hinweisen, dass in aller Regel die im Bereich der Sozial- und Wirtschaftswissenschaften zu analysierenden Häufigkeitsverteilungen nicht besonders gut durch eine Normalverteilung nachgezeichnet werden können. Unser Lehrer Rolf Wagenführ bemerkte dazu, dass selbst er in seiner jahrzehntelangen Forschungsarbeit auf dem Gebiet der Wirtschafts- und Sozialstatistik außerordentlich wenige Beispiele für eine zufrieden stellende Anpassung einer Normalverteilung an eine Statistik seines Forschungsgebietes gefunden habe. In den ökonomischen und sozialen Phänomenen sind normalverteilte Merkmale die Ausnahme. Aber – und das sei schon jetzt besonders betont: Dieser Einwand beeinträchtigt in gar keiner Weise die Bedeutung, welche die Normalverteilung auch für einen Sozialwissenschaftler und Ökonomen hat. Im Rahmen der Stichprobentheorie wird sich dies herausstellen (siehe Kapitel 16). Zuvor aber wollen wir noch kurz auf die praktische Bedeutung des Satzes eingehen, dass mit wachsendem n eine Binomialverteilung durch eine Normalverteilung ersetzt werden kann. Dies ist die Aussage des so genannten lokalen Grenzwertsatzes von de Moivre und Laplace: Bei unendlich vielen Bernoulli-Experimenten entspricht im Punkt x i die Wahrscheinlichkeit P x i der binomisch verteilten diskreten Variablen der Wahrscheinlichkeitsdichte f x der
14
Spezielle Wahrscheinlichkeitsverteilungen
287
der Normalverteilung folgenden stetigen Variablen. Der Satz trägt den Zusatz lokal, da er sich auf die festen Stellen x i bezieht. Der allgemeine Grenzwertsatz von de Moivre und Laplace bezieht sich in entsprechender Weise auf die Verteilungsfunktionen: Die Verteilungsfunktion der binomisch verteilten Variablen nähert sich mit wachsendem n der Verteilungsfunktion der normalverteilten Variablen an. Diese beiden Grenzwertsätze mögen zunächst uninteressant erscheinen, da sie ja erst bei unendlich vielen Experimenten Gültigkeit haben. Erfreulicherweise ist aber der Annäherungsfehler nicht groß, wenn wir sie bereits bei endlichen Anzahlen n nutzen. Erfahrungsgemäß ist das immer dann möglich, wenn nur die folgende Faustregel eingehalten wird: Falls 9 1
n kann B n;
durch N n ; n 1
näherungsweise ersetzt werden.
Dazu ein Beispiel: Der Produzent eines Massenartikels weiß, dass der Ausschuss bei seinen Produkten bei 20% 0,2 liegt. Gefragt ist nach der Wahrscheinlichkeit, bei n 200 mit Zurücklegen zufällig ausgewählten Produkten zwischen 40 und 50 defekte zu finden. Sie sehen, die Bedingungen der Bernoulli-Versuchsanordnung sind gegeben. Deshalb folgt die Variable X (Anzahl defekter Stücke) einer Binomialverteilung mit n 200 und 0,2 . Berechnet werden müsste nun P 40
P 41
P 42
... P 50
Dies sind elf binomische Wahrscheinlichkeiten, in denen mit hohen Fakultätswerten und hohen Potenzen gerechnet werden müsste. Selbst unter Nutzung von Excel ist dies eine eher unangenehme Aufgabe. Wenn Sie sich dieser Aufgabe unterziehen möchten, dann werden Sie – wenn Sie alles richtig machen – einen Wert ausrechnen, der sehr nahe bei 0,5 liegt. Es besteht also eine Wahrscheinlichkeit von knapp 50% dafür, dass bei 200 Ziehungen 40 bis 50 defekte Stücke auftreten, wenn die Schadhaftigkeitsquote bei 20% liegt. Viel einfacher kommen Sie aber zum Ziel, wenn Sie den Grenzwertsatz von de MoivreLaplace bereits für endliche n nutzen, was im vorliegenden Fall zulässig ist, da ja die oben genannte Faustregel eingehalten ist. Sie müssen jetzt lediglich die Fläche unter der Dichtekurve der zuständigen Normalverteilung bestimmen. Diese Normalverteilung hat den Mittelwert n
200 0,2
40
und die Standardabweichung n 1
200 0,2 0,8
5,66
Die Grenzpunkte des zu bestimmenden Flächenbereiches liegen bei 40 0,5 und bei 50 0,5 . Das Subtrahieren der halben Klassenbreite 0,5 beim unteren Grenzpunkt bzw. ihr Addieren beim oberen Grenzpunkt hat damit zu tun, dass wir mit der Normalverteilung eine stetige
288
14.4
Normalverteilung
Verteilung an eine diskrete (binomische) Verteilung anpassen. Die diskreten Merkmalswerte 40, 41 … 50 werden dabei als (gedachte) Mittelpunkte von (gedachten) Klassen interpretiert, nämlich der Klassen 39,5 bis 40,5, 40,5 bis 41,5 … 49,5 bis 50,5. Der gesamte Flächenbereich erstreckt sich demnach von 39,5 bis 50,5. Die entsprechende Problemlösung mit Excel orientiert sich an den schon vorgestellten Beispielen: 1.
Berechnen Sie in einer neuen Tabelle in Zelle A1 die Fläche links von 39,5 unter der Normalverteilung mit dem Mittelwert 40 und der Standardabweichung 5,66 unter Nutzung der Funktion NORMVERT. 2. Berechnen Sie entsprechend in A2 die Fläche links von 50,5. 3. Berechnen Sie in A3: =A2-A1 Sie erhalten den Wert 0,5034. Sie werden bemerkt haben, dass wir für die Lösung des gestellten Problems den allgemeinen Grenzwertsatz nutzten, nicht den lokalen Grenzwertsatz. Stellen wir die Frage nach der Wahrscheinlichkeit, dass in diesem Beispiel nicht zwischen 40 und 50 defekte Stücke gefunden werden, sondern zum Beispiel genau 40 Stücke, so können wir das Problem – neben der exakten binomischen Lösung P 40 0,07037 – auf zwei Wegen angenähert lösen: Bei der Lösung mit dem allgemeinen Grenzwertsatz gehen Sie genauso vor, wie es gerade beschrieben wurde, um die Fläche zwischen 39,5 und 40,5 zu bestimmen. Es ergibt sich der Wert 0,0702. Sie sehen, dass sich die exakte Lösung von der angenäherten erst in der vierten Stelle nach dem Komma unterscheidet. Der lokale Grenzwertsatz würde zu dem folgenden Ergebnis führen: P 40
f 40
Dies besagt, dass die binomische Wahrscheinlichkeit für den Wert 40 identisch ist mit der Dichte der anzunähernden Normalverteilung im Punkt x 40 . Auch Dichten werden über Excel bereitgestellt – Sie müssen nur im zweiten Dialogfenster des Funktions-Assistenten an der Stelle KUMULIERT den Wert 0 eingeben (siehe Abbildung 14.7 oben). Bei den gegebenen Ausgangsdaten gibt Excel dann den Wert 0,0705 (gerundet) aus. Damit haben wir eine dritte Möglichkeit gefunden, die gesuchte Wahrscheinlichkeit für 40 defekte Stücke auszurechnen. Das eben zuletzt angewandte Verfahren nennt man aus einsichtigem Grunde auch Ordinatenmethode. Entsprechend lautet die allgemeine Bezeichnung für ein Verfahren, das sich auf die Verteilungsfunktion bezieht, Flächenmethode. In diesem Zusammenhang nennt man auch die Spanne 0,5 , die ja die Begrenzungen der Fläche unter der Dichtekurve zwischen zwei Werten der diskreten Variablen, die hier den Abstand 1 haben, festlegt, auch Kontinuitätsberichtigung (Stetigkeitskorrektur). In der Regel verwendet man als Kontinuitätsberichtigung die halbe Klassenbreite. Die Binomial- und die Normalverteilung sind zweifelsohne die wichtigsten Wahrscheinlichkeitsverteilungen. Insbesondere die Gauß'sche Normalverteilung wird uns deshalb noch mehrfach in den weiteren Darlegungen begegnen. Allerdings gibt es auch Problemstellungen aus der statistischen Praxis, die mit diesen Verteilungen nicht bearbeitet werden können. Es exis-
14
289
Spezielle Wahrscheinlichkeitsverteilungen
tiert nun eine ganze Reihe weiterer Verteilungen, von denen wir fünf vorstellen wollen. Dabei können wir uns kürzer fassen als bei den beiden bisher besprochenen Verteilungen.
14.5
Multinomialverteilung
Die Multinomialverteilung stellt eine Verallgemeinerung der Binomialverteilung dar, d. h., sie ist ebenfalls eine diskrete Wahrscheinlichkeitsverteilung. Die Bernoulli-Versuchsanordnung bleibt mit folgender Ausnahme bestehen: Bei jedem Experiment sind jetzt mehr als zwei Ereignisse realisierbar. Es können also k Ereignisse X1 , X 2 ,..., X k in den Häufigkeiten x1 , x 2 ,..., x k auftreten. 1,
2 ,...,
k
sind die Eintrittswahrscheinlichkeiten der Ereignisse bei einem Experiment.
Die multinomiale Verteilung hat dann folgende Wahrscheinlichkeitsfunktion: P( x1 , x 2 ,..., x k )
n! x1! x 2 ! ... x k !
1
x1
2
x2
...
k
xk
Diese Verteilung beantwortet also die folgende Frage: Wie groß ist die Wahrscheinlichkeit, dass bei n voneinander unabhängigen Versuchen x1 -mal das erste Ereignis und x 2 -mal das zweite Ereignis und ... und x k -mal das k-te Ereignis auftritt, wenn die Eintrittswahrscheinlichkeit des ersten günstigen Ereignisses bei einem Versuch mit 1 , die des zweiten mit 2 …, die des k-ten Ereignisses mit k gegeben ist? Betrachten wir dazu ein Beispiel aus der Wahlstatistik: Es sei als bekannt vorausgesetzt, wie die Präferenzen wahlberechtigter Bundesbürger hinsichtlich der im Deutschen Bundestag vertretenen Parteien aussehen. Nehmen wir an, 40% würden CDU wählen, wenn am nächsten Sonntag Wahlen wären, 30% würden SPD wählen, 5% würden FDP wählen, 10% würden die Grünen wählen, und 15% würden eine andere Partei wählen oder sich der Stimme enthalten (offensichtlich muss die Summe dieser Anteile 100% ergeben). Es gilt also: 1 2 3 4 5
0,4 0,3 0,05 0,1 0,15
Wie groß ist die Wahrscheinlichkeit, dass von zwölf zufällig ausgewählten Wahlberechtigten sich fünf für die CDU aussprechen, drei für die SPD, keiner für die FDP, zwei für die Grünen und zwei für die Restgruppe ( Sonstige Nichtwähler )? Offensichtlich ist also weiterhin: x1 5 x2 3 x3 0 x4 2 x5 2
290
14.6
Hypergeometrische Verteilung
Es gilt, dass die Summe aller x i -Werte der Gesamtzahl der Beobachtungen n entspricht. Die gesuchte Wahrscheinlichkeit ergibt sich wie folgt: P(5,3,0,2,2)
12! 0,45 0,33 0,050 0,12 0,152 5! 3! 0! 2! 2!
Leider bietet Excel keine fertige Funktion an, um die Multinomialverteilung einzusetzen. Gleichwohl können Sie das Programm verwenden, um wenigstens die Berechnung der Fakultäten und der Potenzen zu erleichtern. 1. 2. 3. 4. 5. 6. 7.
Geben Sie in die Zellen A1 bis A6 die Werte 12, 5, 3, 0, 2 und 2 ein Berechnen Sie in B1 die Fakultät für 12 mit der Berechnungsformel =FAKULTÄT(A1). Ziehen Sie diese Berechnung bis zur Zelle B6, um so auch die anderen Fakultäten zu berechnen. Geben Sie in C2 bis C6 die Werte 0,4; 0,3; 0,05; 0,1 und 0,15 ein. Berechnen Sie in D2 =C2^A2 Ziehen Sie diese Berechnung bis D6. Berechnen Sie in einer freien Zelle die gesuchte Wahrscheinlichkeit mit der Berechnungsformel: =(B1/(B2*B3*B4*B5*B6))*D2*D3*D4*D5*D6
Abb. 14.8: Beispiel zur multinomialen Verteilung (E14.XLS, MNV)
Das Ergebnis ist 0,0103 (gerundet). Die gesuchte Wahrscheinlichkeit beträgt also etwas mehr als 1%.
14.6
Hypergeometrische Verteilung
Ändert man die Bernoulli-Versuchsanordnung dahingehend, dass die Ergebnisse der Einzelexperimente sich in bestimmter Weise wechselseitig beeinflussen, gelangt man zur hypergeometrischen Verteilung. Im Gegensatz zum Bernoulli-Modell liegt jetzt ein Modell ohne Zurücklegen vor; d. h., einmal ausgewählte Einzelobjekte können bei einem weiteren Experiment nicht noch einmal gewählt werden. Natürlich ist auch die hypergeometrische Verteilung vom diskreten Typ. Die Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung wird durch die folgende Formel angegeben:
14
Spezielle Wahrscheinlichkeitsverteilungen
Px
M M N x n x N n
x
291
0,1, 2, ..., n
Die verwendete Symbolik ist die folgende: x
= Anzahl der im Sinn der Fragestellung günstigen Ergebnisse
n
Anzahl der Versuche
M
Anzahl der insgesamt vorhandenen günstigen Elemente
N
Anzahl der insgesamt vorhandenen Elemente
Zur Veranschaulichung folgendes Beispiel: In einem Behälter befinden sich zehn Kugeln, nämlich vier weiße und sechs rote. Gefragt ist nach der Wahrscheinlichkeit, drei Kugeln ohne Zurücklegen zu ziehen, von denen zwei weiß sein sollen (notwendigerweise muss dann eine der gezogenen Kugeln rot sein). Hier gilt also: xi
2
n
3
M
4
N
10
Somit ergibt sich die gesuchte Wahrscheinlichkeit wie folgt: P2
4 6 2 1 10 3
6
6 120
0,3
Sie sehen, dass hier der Umfang der Grundgesamtheit N auftaucht, aus der eine Auswahl des Umfangs n vorgenommen wird. Dies hat damit zu tun, dass hier ein Modell ohne Zurücklegen zugrunde liegt, was von Zug zu Zug eine Veränderung der Grundgesamtheit bewirkt. Damit diese Veränderung überhaupt mathematisch berücksichtigt werden kann, muss N bekannt sein. Für derartige Aufgabenstellungen können Sie die Excel-Funktion HYPGEOMVERT verwenden. Sie verlangt im zweiten Dialogfenster des Funktions-Assistenten – ausgehend von dem obigen Zahlenbeispiel – die folgenden Angaben (siehe Abbildung 14.9): Bei ERFOLGE_S:
2
Bei UMFANG_S:
3
Bei ERFOLGE_G:
4
Bei UMFANG_G:
10
292
14.6
Hypergeometrische Verteilung
Abb. 14.9: Eingaben für die Funktion HYPGEOMVERT (zweites Dialogfenster)
Abb. 14.10: Beispiel zur hypergeometrischen Verteilung (E14.XLS, HGV)
Die gesuchte Wahrscheinlichkeit ergibt sich zu 0,3. Für große Werte von N und nicht zu großer Auswahl n erhält man ungefähr die Ergebnisse der Binomialverteilung. Für praktische Zwecke kann die Faustregel N > 2000 und n/N < 0,1 genutzt werden. Die hypergeometrische Verteilung kann übrigens dafür verwendet werden, die Wahrscheinlichkeit für sechs Richtige im Lotto (6 aus 49) zu berechnen. Es handelt sich hier um eine Auswahl von n 6 aus N 49 Elementen ohne Zurücklegen, wobei x i 6 Zahlen am Freitagnachmittag angekreuzt werden sollen aus der Menge M 6 am Samstag als Gewinnzahlen gezogenen Kugeln und zugleich 0 aus den 43 Nieten. Der entsprechende Rechenansatz lautet: P6
6 43 6 0 49 6
1 13983916
Es ergibt sich also eine Wahrscheinlichkeit von rund 0,000072% für sechs Richtige im Lotto.
14
Spezielle Wahrscheinlichkeitsverteilungen
14.7
293
Poisson-Verteilung
Der französische Mathematiker S. D. Poisson (1781 – 1840) hat eine weitere, nach ihm benannte, diskrete Wahrscheinlichkeitsfunktion gefunden, die Grenzverteilung zur Binomialverteilung ist. Wenn in der Bernoulli-Versuchsanordnung n, die Zahl der Versuche, gegen unendlich geht und zugleich n konstant bleibt (was zugleich bedeutet, dass gegen null geht, also die Eintrittswahrscheinlichkeit des im Sinne der Fragestellung günstigen Ereignisses sehr klein wird), dann geht die Binomialverteilung in die Poisson-Verteilung über. Diese hängt nur von dem expliziten Parameter ab, und ihre Wahrscheinlichkeitsfunktion sieht folgendermaßen aus: Px
x
x!
e
x
0,1, 2, ..., n
Mit dem Symbol e ist wieder die Euler‘sche Zahl gemeint, die so genannte Wachstumskonstante, die den nummerischen Wert 2,718... aufweist und die von Excel unter dem Funktionsnamen EXP angesprochen werden kann. Die Variable X ist vom diskreten Typ, hat aber (abzählbar) unendlich viele Werte mit positiven Wahrscheinlichkeiten. Die Funktionalparameter sind die folgenden: Erwartungswert: E X Varianz:
VAR X
Bereits bei endlichem n unter Beachtung der Faustregel n 50 , 0,1 und 5 zeichnet die Poisson-Verteilung die Binomialverteilung mit hinreichender Güte nach. Damit wird schon klar, bei welchen Problemen sinnvollerweise mit der Poisson-Verteilung gearbeitet wird: Bei kleinem und großen Beobachtungszahlen (relativ große Stichprobenumfänge) approximiert die Poisson-Verteilung vorteilhaft – da sie wegen des einen expliziten Parameters einfach zu handhaben ist – die Binomialverteilung. Sie kann, wie man es auch manchmal ausdrückt, für seltene Ereignisse – soll ja klein sein – verwendet werden. Betrachten wir ein Beispiel: Die Wahrscheinlichkeit, dass ein Kind mit einer bestimmten seltenen Krankheit geboren wird, sei 0,001 (ein Promille). Wie groß ist die Wahrscheinlichkeit, dass von 2000 im Laufe eines Jahres in einer Gemeinde geborenen Kindern drei Kinder diese Krankheit haben? Im Grunde ist dies eine Frage, die mit der Binomialverteilung beantwortet werden kann, wenn man rechnet: P3
2000 3
0,0013 0,9991997
Sofort ist einsichtig, dass dies sehr umständlich zu berechnen wäre. Sie sehen aber, hier ist n 2000 recht groß, ist sehr klein und n 2 . Damit ist die Faustregel für die Verwendung der Poisson-Verteilung erfüllt, und wir rechnen: P3
23 e 3!
2
8 1 6 e2
0,18 (gerundet)
294
14.7
Poisson-Verteilung
Es besteht also eine Wahrscheinlichkeit von rund 18% dafür, dass drei von 2000 Kindern die besagte Krankheit haben. Auch für die Nutzung der Poisson-Verteilung stellt Excel eine Funktion bereit, nämlich die Funktion POISSON: 1. 2. 3.
Wählen Sie EINFÜGEN/FUNKTION… Wählen Sie aus der Kategorie STATISTIK die Funktion POISSON, und klicken Sie OK an. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: x: 3 MITTELWERT: 2 KUMULIERT: 0 4. Klicken Sie OK an. Excel berechnet den Wert 0,1804 (gerundet; siehe Abbildung 14.11). Die Poisson-Verteilung wird über das hinaus, was gerade besprochen wurde, immer dann eingesetzt, wenn nur die Häufigkeit oder der Durchschnitt von Häufigkeiten für das Eintreten eines Ereignisses während einer bestimmten Zeitspanne bekannt sind. Unbekannt ist dann, wie häufig pro Zeiteinheit ein Ereignis nicht auftritt. Man kann beispielsweise nur angeben, wie häufig es während eines Gewitters geblitzt hat, und nicht, wie häufig es nicht geblitzt hat.
Abb. 14.11: Anwendung der Poisson-Verteilung (E14.XLS, PV)
In solchen Fällen ist weder (Eintreten des günstigen Ereignisses bei einem Versuch) noch 1 (Nichteintreten) bekannt. Also selbst wenn Sie wollten, könnten Sie dann nicht mit der Binomialverteilung arbeiten. Wohl aber ist n als Durchschnitt gegeben ( ist ja, wie oben angegeben wurde, der Erwartungs- oder Durchschnittswert der poissonverteilten Zufallsvariablen und damit der explizite Parameter der Poisson-Verteilung). Beispiele für solche Fragestellungen sind die folgenden: Verkehrsdichten auf Straßenkreuzungen, Unfälle an Straßenkreuzungen pro Woche, Schadensfälle einer Versicherung pro Monat, Telefonanrufe in einer Telefonzentrale pro Minute, Anzahl der Kriegsausbrüche in der Welt pro Jahr etc. Berühmt geworden ist das klassische Musterbeispiel des deutschen Statistikers polnischer Abstammung L. v. Bortkiewicz, der die Häufigkeit ermittelte und per Poisson-Verteilung beschrieb, mit der in zehn Armeekorps über zwanzig Jahre hinweg Rekruten des preußischen Heeres durch Hufschlag getötet wurden.
14
295
Spezielle Wahrscheinlichkeitsverteilungen
14.8
Student-t-Verteilung
Der englische Statistiker W. S. Gosset (1876 – 1937) publizierte unter dem Pseudonym Student eine stetige Wahrscheinlichkeitsdichtefunktion, die Student-t-Verteilung. Auf die Darstellung der Dichtefunktion der Zufallsvariablen t (wir verwenden, da es sich für diese Variable in der Literatur so eingebürgert hat, für diese Zufallsvariable – abweichend vom bisherigen Gebrauch – einen kleinen Buchstaben) soll hier verzichtet werden. Erwähnt werden sollen aber die folgenden Besonderheiten: Die Dichtefunktion ist symmetrisch zum Lot in t
Et
0.
Sie hat eine ähnliche Gestalt wie die Normalverteilung, ist aber etwas flacher und deshalb breiter als jene. Unter nicht allzu gravierenden Bedingungen, nämlich bei Stichprobenumfängen, die größer als 30 werden (über diese Zusammenhänge und die Konsequenzen, die sich daraus ergeben, wird in einem späteren Kapitel gesprochen), geht die t-Verteilung in die Standardnormalverteilung über. Die praktische Bedeutung der t-Verteilung liegt darin,, dass einige wichtige Zufallsvariablen, die uns im Rahmen der Stichprobentheorie begegnen werden, t-verteilt sind. Dies werden Sie erst dann ermessen können, wenn wir explizit über Stichprobenstatistik sprechen, also über die Auswertung von Daten, die auf der Grundlage von Zufallsstichproben gewonnen werden. Deshalb soll hier auf Anwendungsbeispiele verzichtet werden. Nur so viel sei schon angemerkt: Auch bei der Nutzung dieser Verteilung unterstützt uns Excel und stellt sogar zwei Funktionen bereit, nämlich die Funktionen TVERT und TTEST.
14.9
Chi-Quadrat-Verteilung
Die nächste Verteilung, die hier angesprochen werden soll, ist die Chi-Quadrat-Verteilung. Allerdings wird auch ihre Nutzung, wie die der gerade angesprochenen t-Verteilung, erst in späteren Kapiteln besprochen (siehe Kapitel 15). Diese Verteilung ist stetig und kommt aufgrund der folgenden Überlegung zustande: Denken Sie sich eine Standardnormalvariable K. Dies ist also eine Zufallsvariable vom stetigen Typ, die einer Normalverteilung mit dem Mittelwert 0 und der Standardabweichung 1, also der Standardnormalverteilung N 0;1 folgt. Wenn man eine solche Variable K quadriert, entsteht eine neue Variable, die natürlich auch eine stetige Zufallsvariable ist. Demnach gibt es auch für sie eine Dichtefunktion. Bildet man schließlich eine Summe voneinander unabhängiger quadrierter Standardnormalvariablen, ergibt sich wiederum eine neue stetige Variable mit einer eigenen Dichtefunktion. Diese spezielle Dichtefunktion heißt Chi-Quadrat-Verteilung. Es handelt sich also um die Größe: 2 i 1
Ki2
Die Chi-Quadrat-Verteilung hat nur einen expliziten Parameter, nämlich die Anzahl der Summanden. Dieser Parameter wird mit (sprich nü) bezeichnet und Anzahl der Freiheitsgrade genannt. Es gibt also nicht nur eine Chi-Quadrat-Verteilung, sondern eine ganze Familie davon, je nachdem, welchen Wert hat.
296
14.10
F-Verteilung
Die Variable Chi2 kann nur positive Werte annehmen. Ab 2 ist die Verteilung unimodal und linkssteil. Mit wachsendem verlagert sie sich im Achsenkreuz nach rechts, ihre Streuung wird größer, und sie wird zunehmend symmetrisch. Die Funktionalparameter sind die folgenden: Erwartungswert: E Varianz:
2
VAR
2
2
Für große 30 kann die Chi-Quadrat-Verteilung durch die Gauß’sche Normalverteilung mit hinreichender Güte ersetzt werden. Auch im Zusammenhang mit dieser Verteilung stellt Excel zwei Funktionen zur Verfügung, deren Nutzung wir in einem späteren Kapitel besprechen werden, nämlich die Funktion CHIVERT und die Funktion CHITEST.
14.10
F-Verteilung
Bildet man den Quotienten aus zwei, jeweils durch die Anzahl ihrer Freiheitsgrade dividierten Chi-Quadrat-Variablen, entsteht eine weitere stetige Zufallsvariable. Sie wird in Erinnerung an den britischen Statistiker Fisher mit F bezeichnet. Es gilt also: 2
F
1,
2
1
1 2
2
2
Diese Variable F folgt der F-Verteilung. Die Gestalt der Dichtefunktion hängt von den beiden expliziten Parametern 1 und 2 ab. Auch hier besprechen wir weitere Einzelheiten erst dann, wenn in einem späteren Kapitel diese Verteilung benötigt wird (siehe Kapitel 18). Auch in diesem Zusammenhang stellt Excel zwei Funktionen zur Verfügung, nämlich die Funktionen FVERT und FTEST, die wir dann auch nutzen werden.
15
Stichproben und Stichprobenverteilungen
„579, 54, 946, 227, 721, 880, 960, 990, 802, 49 ...“ Auszug aus einer Zufallszahlentabelle
Das blinde Waisenkind 15.1 Zufall? 15.2 Auswahlverfahren für Stichproben 15.3 Bewusste Auswahlen 15.4 Zufällige Auswahlen 15.5 Stichprobenverteilungen 15.6 Das zentrale Grenzwerttheorem 15.7 Stichprobenverteilungen wichtiger Maßzahlen 15.8 Notationen
15.1
Zufall?
Wenn wir über Zufallsvariablen sprechen, dann meinen wir Variablen, deren Ausprägungen zufällig auftreten. Das klassische Beispiel ist der einfache Würfelwurf. Wird ein Würfel einmal geworfen, so hängt es vom Zufall ab, ob die Eins geworfen wird, die Zwei oder eine der anderen Augenzahlen. Was aber ist eigentlich der Zufall? Ist es wirklich Zufall, ob eine Eins geworfen wird oder eine Sechs? Oder hängt das nicht viel mehr von Größen ab wie Wurfgeschwindigkeit, Schwere des Würfels, Ausgangslage in der Hand des Werfenden, Beschaffenheit der Tischoberfläche, Radius der Kantenkrümmungen des Würfels, Ausmaß der Drehbewegung der werfenden Hand, Gesundheitszustand des Werfenden, Zeitspanne, die seit dem Abendessen vergangen ist, usw.? Wäre es vorstellbar, in einem Supercomputer alle denkbaren, das Wurfergebnis beeinflussenden Faktoren – gesetzt den Fall, wir würden sie alle kennen – so zu verrechnen, dass a priori prognostiziert werden kann, welche Augenzahl beim nächsten Wurf erscheinen wird? Vielleicht liegt ja die bekannte Nicht-Prognostizierbarkeit nur darin begründet, dass wir erstens keinen Supercomputer haben und dass wir zweitens nicht alle Einflussfaktoren kennen – und vielleicht auch nie kennen werden. So gesehen wäre aber der Zufall gar kein Zufall, sondern nur eine Größe, die das Ausmaß unseres Nichtwissens zum Ausdruck bringt.
15.2
Auswahlverfahren für Stichproben
Es wurde schon darauf aufmerksam gemacht: Die Nützlichkeit der Kenntnisse der Wahrscheinlichkeitsstatistik erweist sich dann, wenn wir mit Daten arbeiten, die auf der Grundlage von Zufallsstichproben gewonnen werden. Deshalb ist es nun an der Zeit, darüber zu sprechen, wie man Zufallsstichproben gewinnen kann und welche Alternativen es zur Zufallsauswahl gibt. Wenn eine Stichprobe nach dem Zufallsprinzip gezogen wird – über die Vorgehensweise wird gleich zu sprechen sein –, dann hängt es vom Zufall ab, welche Elemente (zu befragende Personen bei einer Marktforschungsstudie, zu überprüfende Produkte in der Qualitätskontrolle
298
15.2
Auswahlverfahren für Stichproben
usw.) in die jeweilige Stichprobe gelangen – und wer über Zufall spricht, der muss auch über Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen Bescheid wissen – so schließt sich dieses Kapitel an die vorangegangenen an. Was ist eine Zufallsstichprobe? Um diese Frage zu beantworten, wenden wir uns zunächst der Unterscheidung zwischen einer Totalerhebung und Stichprobenerhebung zu. Eine Totalerhebung bezieht sich auf die Grundgesamtheit. Die Grundgesamtheit wiederum ist die Menge von Elementen (Personen, produzierte Werkstücke usw.), die alle die gleichen Merkmale tragen. Man spricht deshalb auch von den Merkmalsträgern. Nicht nur Personen oder produzierte Werkstücke können Merkmalsträger sein, sondern auch Haushalte, Staaten, Rebstöcke, Straßenkreuzungen, Autos, Labormäuse oder was auch immer. In vielen praktischen Fällen wird es nicht möglich sein, alle Merkmalsträger, für die man sich im Rahmen einer gegebenen Forschungsfrage interessieren müsste, zu erfassen. Eine Totalerhebung scheidet zum Beispiel dann aus, wenn die Grundgesamtheit zu groß ist. Niemand wird daran interessiert sein, jeden einzelnen der deutschen Rebstöcke auf eventuellen Pilzbefall zu untersuchen; auch wird niemand auf die Idee kommen, dass alle erwachsenen Deutschen befragt werden müssen, wenn untersucht werden soll, wie der tagesdurchschnittliche Zigarettenkonsum aussieht oder welche Meinung die wahlberechtigten Bundesbürger vom Bundeskanzler haben. Aber selbst bei vergleichsweise kleinen Grundgesamtheiten scheiden Totalerhebungen zum Beispiel dann aus, wenn durch die durchzuführende Untersuchung Elemente der Grundgesamtheit zerstört werden. Denken Sie an das Beispiel von Crashtests bei Mercedes-Benz. Natürlich ist es wichtig zu wissen, in welchem Zustand die Insassen einer Mercedes-Limousine einen Unfall überstehen. Zu diesem Zweck werden ab und zu fabrikneue Wagen mit Tempo gegen eine Betonmauer gefahren, um herauszufinden, wie sich der Fahrgastraum verformt. Wollte man diesen Test der Sicherheit halber mit allen fabrikneuen Fahrzeugen durchführen – das wäre dann eine Totalerhebung –, hätte man kein Auto mehr für den Verkauf. Die gleiche Überlegung ist anzustellen, wenn Sie den von Ihrer Schwiegermutter gebackenen Weihnachtsstollen darauf untersuchen wollen, ob genügend Marzipan drin ist. In jedes der 25 Stücke hineinzubeißen – oder auch nur jedes in die Hand zu nehmen –, ist keine akzeptable Vorgehensweise. Eine Stichprobe von drei bis vier Stück sollte auch die gewünschten Informationen bieten – und Sie verderben sich nicht den Magen und auch nicht ihren guten Ruf dabei. Eine Auswahl von Elementen einer Grundgesamtheit wird als Stichprobe bezeichnet. Dieser Begriff entstammt angeblich der Berg- und Hüttensprache, in der es den Stich zur Probe in den Hochofen bedeuten könnte. Bei Blutentnahmen zur Bestimmung der roten Blutkörperchen oder der Feststellung anderer wichtiger Informationen wird eine echte Stichprobe mit einer eingestochenen Hohlnadel gezogen, was ja manchmal recht unangenehm sein kann. Genau genommen stammt sogar das meiste dessen, was wir wissen, aus Stichproben, und unsere Entscheidungen und Handlungen stützen sich weitgehend auf Stichprobeninformationen. Es gibt praktisch kein Wissensgebiet, in dem irgendjemand alles wüsste. Jeder – auch der Gelehrte, der Forscher, der Wissenschaftler – stützt sich auf Teilinformationen. Wüsste nämlich irgendjemand alles, bräuchte man keine empirischen Forschungen mehr durchzuführen. Dieser Umstand, dass auch Sie Ihr Wissen größtenteils auf Stichprobenbasis gewonnen haben, mithin also nur Teilbereiche der Realität kennen, braucht Sie aber nicht allzu sehr zu beunruhigen. Erstens geht es allen anderen auch nicht anders, und zweitens – und das soll im Folgen-
15
Stichproben und Stichprobenverteilungen
299
den beschrieben werden – sind Stichprobeninformationen gelegentlich sogar verlässlicher als die Ergebnisse von Totalerhebungen. Stichproben sind nicht nur viel billiger als Totalerhebungen, und sie haben natürlich eine viel kürzere Erhebungs- und Auswertungszeit als Letztere, sondern sie sind manchmal sogar genauer als Totalerhebungen. Das hat beispielsweise mit der Qualifikation und Zuverlässigkeit des Fachpersonals zu tun. Bei Totalerhebungen lässt sich nicht immer gut geschultes Personal einsetzen, allein deshalb, weil zu viel davon gebraucht wird. Zudem könnten sich, je umfangreicher eine Erhebung wird, Zähl- und Übertragungsfehler kumulieren, die bei einer kleineren Stichprobe in der Regel keine große Rolle spielen. Gleichwohl gibt es gewichtige Gründe, dass im Bereich der Wirtschafts- und Sozialstatistik in gewissen größeren zeitlichen Abständen auch Totalerhebungen wie zum Beispiel die Volkszählung durchgeführt werden. Zum einen lässt sich die Aussagefähigkeit einer Stichprobe erhöhen, wenn sich die Stichprobenerhebung an bekannten Strukturen der Grundgesamtheit orientiert, deren Gültigkeit allerdings hin und wieder überprüft werden muss. Zum anderen besteht gelegentlich ein derart hohes Bedürfnis an möglichst präzisen Informationen, dass der Umfang einer Stichprobe so groß angelegt sein müsste, dass er bereits in der Nähe einer Totalerhebung liegt. Drittens schließlich benötigt zum Beispiel die öffentliche Verwaltung für die Wahrnehmung hoheitlicher Aufgaben Informationen, die nur über Totalerhebungen zu beschaffen sind. Man denke etwa an die Unterlagen der Wahlämter. Wie gelangt man zu einer aussagefähigen Stichprobe? Die Auswahlverfahren für Stichproben können in unterschiedlicher Wiese gruppiert werden. Zunächst kann man bewusste und zufällige Auswahlen voneinander unterscheiden. Unter einem bewussten Auswahlverfahren versteht man einen Auswahlmodus für Elemente der Grundgesamtheit, bei dem Sie nicht angeben können, wie groß die Wahrscheinlichkeit dafür ist, eine bestimmte Auswahl zu realisieren. Demgegenüber ist bei einer zufälligen Auswahl die Berechnung der Wahrscheinlichkeit für die Realisation einer Stichprobe möglich. Diese Unterscheidung ist deshalb besonders wichtig, weil die Wahrscheinlichkeitstheorie und die noch zu erörternden statistischen Verfahren nicht auf Stichproben anwendbar sind, die durch ein bewusstes Auswahlverfahren gewonnen werden. Dies ist auch der Grund dafür, dass im folgenden Abschnitt bewusste Auswahlen nur sehr knapp angesprochen werden.
15.3
Bewusste Auswahlen
Obwohl also die Verfahren der bewussten Auswahl keine Schlussfolgerungen auf wahrscheinlichkeitstheoretischer Basis erlauben, sind sie aus der Markt- und Meinungsforschung nicht wegzudenken. Ein klassischer Vertreter bewusster Auswahlen ist die Monographie. Eine Monographie ist ein Grenzfall einer Stichprobe. Für Monographien (Fallstudien) werden nur wenige Merkmalsträger, oft nur ein einziger, ausgewählt. Der bewusst ausgewählte Merkmalsträger bzw. der Fall soll dabei typisch für die Gesamtheit und ein Stellvertreter der nicht ausgewählten Merkmalsträger sein. Das leistungsfähigste unter den bewussten Auswahlverfahren ist das Quotenauswahlverfahren. Es sind Problembereiche vorstellbar, wo seine Qualität sogar die von zufälligen Auswahlen (siehe Abschnitt 15.4.) übersteigt. Quotenauswahlverfahren werden bevorzugt von
300
15.4
Zufällige Auswahlen
Meinungsforschungsinstituten eingesetzt; sie haben beispielsweise bei Wahlprognosen teilweise ausgezeichnete Ergebnisse erzielt. Bei diesem Auswahlverfahren wird die Grundgesamtheit zunächst nach bestimmten Merkmalen strukturiert. Man erhält auf diese Weise ein so genanntes Quotenschema. Sind beispielsweise die politischen Ansichten erwachsener Deutscher Gegenstand einer Untersuchung, werden alle Erwachsenen z. B. nach den Merkmalen Geschlecht, Religion, Alter usw. (je nach vorliegenden Grundgesamtheitsinformationen) gruppiert. Man wählt gerade diese soziodemografischen Merkmale, weil man weiß, oder glaubt davon ausgehen zu dürfen, dass zwischen diesen Merkmalen und den eigentlichen Befragungsgegenständen Zusammenhänge bestehen könnten. Die Auswahl der Personen erfolgt dann in der Weise, dass man das für die Grundgesamtheit festgelegte Quotenschema auch in der Stichprobe zu realisieren versucht. Wenn Sie also zum Beispiel wissen, dass 52% aller Erwachsenen, die Ihre Grundgesamtheit bilden, Frauen sind, dass davon wiederum die Hälfte evangelisch ist, und dass ein Viertel der evangelischen Frauen über 60 Jahre alt ist, dann müssten Sie versuchen, in einer Stichprobe vom Umfang n 2000 genau 0,52 0,5 0,25 2000 130 evangelische Frauen über 60 in Ihre Stichprobe aufzunehmen. Die beiden grundsätzlichen Probleme der Quotenauswahlverfahren sind die folgenden: Erstens: Die Festlegung des Quotenschemas kann nicht immer vor der Durchführung einer Erhebung eindeutig geklärt werden. Zweitens: Die Auswahl der Stichprobeneinheiten erfolgt nicht streng zufällig. Selbst wenn sich ein Interviewer strikt an das vorgegebene Quotenschema hält, können am Ende bestimmte und vielleicht wichtige Merkmale in der Stichprobe stark über- oder unterrepräsentiert sein. Eine weitere Form bewusster Auswahlen ist die Auswahl nach dem Konzentrationsprinzip. Diese Auswahl ist dadurch gekennzeichnet, dass nur jene Merkmalsträger der Grundgesamtheit in die Auswahl gelangen, die im Hinblick auf den Untersuchungsgegenstand besonders wichtig sind. Auf diese Weise ist es bisweilen möglich, durch die Auswahl nur weniger Untersuchungseinheiten eine fast vollständige Erfassung der Grundgesamtheit zu erreichen. Stellen Sie sich eine Befragung in Industrieunternehmen vor. Eine Erfassung der Betriebe mit 100 und mehr Beschäftigten hat zur Konsequenz, dass etwa 80 bis 90% aller Unternehmen nicht in die Stichprobe eingehen. Gleichwohl erreicht man, dass die ausgewählten Betriebe über 90% des gesamten Absatzes auf sich konzentrieren.
15.4
Zufällige Auswahlen
Für den Statistiker sind die Zufallsauswahlen weit bedeutsamer als die bewussten Auswahlverfahren. Sie erlauben es nämlich, dass man die Wahrscheinlichkeiten für die Realisationen von Stichproben berechnen kann – und das hat außerordentlich wichtige und positive Konsequenzen, wie wir noch sehen werden. Bei der Zufallsstichprobe haben die Merkmalsträger der Grundgesamtheit – wie die Kugeln in einem nicht einsehbaren Behälter – eine errechenbare Wahrscheinlichkeit, in die Stichprobe zu gelangen. Damit bieten sich uns alle Möglichkeiten, welche die Anwendung der Wahrscheinlichkeitstheorie bietet. Damit kein Zweifel aufkommt: Auch mit der Zufallsstichprobe wird das wichtige Ziel verfolgt, für die Grundgesamtheit repräsentative Auswahlen zu erhal-
15
Stichproben und Stichprobenverteilungen
301
ten. Auch hier gilt: Die Stichprobe soll gewissermaßen ein verkleinertes und möglichst strukturgetreues Abbild der Grundgesamtheit sein. Es gibt verschiedene Gruppen zufallsgesteuerter Auswahlen, die im Folgenden kurz angesprochen werden sollen: Die einfache Zufallsstichprobe kommt gemäß der Überlegung zustande, dass jede der denkbaren Stichproben vom Umfang n, die aus der vorher definierten Grundgesamtheit vom Umfang N gezogen werden könnten, die gleiche Realisierungschance hat. Sie wissen aus der Besprechung kombinatorischer Fragestellungen, dass die Anzahl unterschiedlicher Auswahlen vom Umfang n, die aus einer Menge von N Elementen gezogen werden können, sich als Kombinationen von n aus N Elementen darstellen lassen. Hat man beispielsweise eine Schulklasse mit 20 Schülern und will daraus nach dem Zufallsprinzip fünf Schüler auswählen, so ist dies das gleiche Problem, als wenn aus einem Behälter mit 20 verschiedenen Kugeln fünf Kugeln entnommen werden sollen. Es handelt sich dabei um ein Modell ohne Zurücklegen – der Schüler Pfeiffer kann nicht zweimal oder noch öfter in der Stichprobe auftauchen –, und die Anordnung in den Auswahlen ist kein Kriterium der Unterscheidung, also ob Schüler A, B, C, D und E oder E, A, B, D und C gewählt werden, bleibt sich gleich. Dies ist die Fragestellung der Kombinationen von 5 aus 20 Elementen. Es ergibt sich: 5 C 20
20! 15504 5! 20 5 !
Es gibt also 15504 verschiedene Möglichkeiten, 5 Schüler aus 20 auszuwählen – und besonders wichtig ist dabei: Jede dieser Möglichkeiten hat die gleiche Realisierungswahrscheinlichkeit, nämlich 1/15504. Wenn aber jede der denkbaren Auswahlen gleichwahrscheinlich ist, dann gilt auch der folgende wichtige Satz: Bei einer einfachen Zufallsstichprobe hat jedes Element der Grundgesamtheit die gleiche Chance (Wahrscheinlichkeit), in die Stichprobe aufgenommen zu werden. Diese wichtige Aussage kann sogar als Definition dessen, was eine einfache oder reine Zufallsstichprobe ist, verwendet werden. Von großer Bedeutung ist in diesem Zusammenhang, dass die Auswahl tatsächlich nach dem Zufallsprinzip erfolgt. Man kann sich das vielleicht so vorstellen, dass jeder der zwanzig Schüler durch einen zusammengefalteten Zettel mit seinem Namen in einem nicht einsehbaren Behälter repräsentiert wird. Ein blindes Waisenkind greift nun, nachdem der Behälter kräftig geschüttelt und die Zettel gut durchmischt wurden, fünf Mal ohne hinzuschauen in diesen Behälter und zieht jedes Mal einen Zettel heraus. Bei einem solchen Auswahlverfahren haben von Zug zu Zug die noch nicht ausgewählten Elemente eine gleiche (sich allerdings von Zug zu Zug verändernde) Auswahlwahrscheinlichkeit. Sicherlich überblicken Sie aber sofort, dass jede der Stichproben die gleiche Chance hat, realisiert zu werden. In der statistischen Praxis ist es nicht immer ganz einfach, das Zufallsprinzip, so wie es gerade skizziert wurde, zu verwirklichen. Am häufigsten geht man so vor, dass Zufallszahlen verwendet werden. Zufallszahlen (Random Numbers) sind Serien von Ziffern oder Zahlen, die derart gemischt sind, dass es (nach menschlichem Ermessen) kein Gesetz gibt, dem diese Serien gehorchen.
302
15.4
Zufällige Auswahlen
Solche Zufallszahlen finden sich in statistischen Tabellenwerken. Sie können auch über PCProgramme bereitgestellt werden. Beispielsweise bietet Excel mit der Funktion ZUFALLSZAHL aus der Kategorie MATH.& TRIGONOM. die Möglichkeit, Zufallszahlen zwischen 0 bis unter 1 zu produzieren (siehe Abbildung 15.1).
Abb. 15.1: Zehn Zufallszahlen zwischen 0 bis unter 1 (E15.XLS, Zufall1)
Wie kann man im konkreten Anwendungsfall vorgehen? Hat man beispielsweise eine Grundgesamtheit vom Umfang N 100 , aus der zufällig n 10 Elemente gezogen werden sollen, so erzeugt man zehn Zufallszahlen zwischen 1 und 100. Mit Excel geht dies folgendermaßen: 1. Geben Sie in die Zellen A1 bis A10 die Zahlen 1 bis 10 ein. 2. Klicken Sie B1 an, und wählen Sie EINFÜGEN/FUNKTION… 3. Wählen Sie aus der Kategorie MATH.&TRIGONOM. die Funktion ZUFALLSZAHL. 4. Klicken Sie die Schaltfläche OK an. Sie erkennen, dass diese Funktion keine Argumente benötigt, d. h., im zweiten Dialogfenster des Funktions-Assistenten sind jetzt keine Eingaben erforderlich, d.h., Sie können direkt OK anklicken. Sie haben jetzt in der Zelle B1 eine erste Zufallszahl erzeugt. Jetzt sind noch die folgenden Schritte erforderlich: 5. Ziehen Sie die Berechnung von B1 nach unten bis zur Zelle B10. 6. Berechnen Sie in C1: =GANZZAHL(B1*100+1) Mit dieser Berechnung erreichen Sie, dass die zwischen 0 bis unter 1 liegende Zufallszahl zunächst mit 100 multipliziert wird (sie liegt dann zwischen 0 bis unter 100), dann wird 1 addiert (sie liegt dann zwischen 1 bis unter 101), und dann werden die Nachkommastellen mit der Funktion GANZZAHL abgeschnitten (sie liegt dann – ganzzahlig – zwischen 1 und 100, und genau das wollten wir erreichen). Wenn Sie nun die Berechnung in der Zelle C1 nach unten ziehen, erhalten Sie zehn Zufallszahlen zwischen 1 und 100. Das Ergebnis zeigen wir in der Abbildung 15.2 auf der folgenden Seite.
15
Stichproben und Stichprobenverteilungen
303
Abb. 15.2: Zehn Zufallszahlen zwischen 1 und 100 (E15.XLS, Zufall2)
Anmerkung am Rande: Erzeugen Sie nach diesem Muster sechs Zufallszahlen zwischen 0 bis unter 49, so haben Sie einen Zufalls-Lottotipp für das kommende Wochenende (wir möchten, wenn Sie gewinnen, beteiligt werden).
Abb. 15.3: Lottotipp mit Excel (E15.XLS, Lotto)
Verwenden Sie jetzt die erste erzeugte Zufallszahl a aus Abbildung 15.2, um das Element mit der Nummer a aus der Grundgesamtheit auszuwählen, wählen Sie dann das Element mit der Nummer b (zweite Zufallszahl) usw. Sollte eine bestimmte Zufallszahl doppelt oder sogar noch öfter auftauchen, wählen Sie das nächstfolgende Element aus der Grundgesamtheit aus. In der Praxis hat diese Vorgehensweise allerdings keine allzu große Bedeutung erlangt, weil die Grundgesamtheiten meist zu groß sind und ihre Durchnummerierung unnötig aufwändig ist. Von größerer Bedeutung sind deshalb Ersatzverfahren zur Realisation einfacher Zufallsstichproben. Man nennt sie auch systematische Auswahlverfahren. Dabei handelt es sich um eine Gruppe von Auswahlverfahren, die das Originalverfahren prinzipiell beibehalten, allerdings technisch modifizieren. Noch am engsten hängt das Schlussziffernverfahren mit dem oben beschriebenen Verfahren der Zufallszahlen zusammen. Auch hier sind die Elemente der Grundgesamtheit durchnummeriert. Entsprechend dem vorgesehenen Stichprobenumfang werden all jene Elemente in die Stichprobe aufgenommen, deren Nummerierung auf eine bestimmte Ziffer oder Ziffernfolge endet. Wie das Schlussziffernverfahren setzen auch die systematischen Auswahlen mit Zufallsstart eine Nummerierung der Grundgesamtheit voraus. Die n Stichprobenelemente werden in diesem Fall aus den N Elementen der Grundgesamtheit in der Weise gezogen, dass aus den ersten N/n Elementen ein Element zufällig ausgewählt wird. Von diesem Element ab ist jedes N/n-te Element automatisch gewählt. Durch dieses Verfahren wird der Aufwand für das Durchmischen der Elemente verringert.
304
15.4
Zufällige Auswahlen
Die Auswahl nach dem Namensanfang oder das Buchstabenverfahren ist eine weitere Möglichkeit. Aufgrund der Auszählung von Adress- und Telefonbüchern hat man die Häufigkeit der Anfangsbuchstaben des Familiennamens im Bundesgebiet abgeschätzt. 14,97% der Familiennamen fangen mit S an, 10,09% mit B, 9,04% mit H, aber nur 0,01% mit X bzw. Y, nur 0,12% mit Q usw. Aus der vollständigen Liste für das ganze Alphabet kann man sich die gewünschten Auswahlprozentsätze zusammensetzen, wobei man es freilich vermeiden sollte, nur einen Buchstaben zu nehmen, weil hier regionale Häufigkeitseffekte auftreten können (z. B. der Name Schmitz in Köln). Abschließend sei das so genannte Geburtstagsverfahren erwähnt. Es lässt sich bei der Auswahl von Personen nutzen, deren Geburtstag bekannt ist. Entsprechend dem gewünschten Stichprobenumfang werden all jene Personen in die Auswahl genommen, die zum Beispiel am Ersten eines Monats Geburtstag haben (ca. 1/30 aller Personen kämen hier in die Auswahl). Die einfache Zufallsstichprobe wird in sämtlichen folgenden Kapiteln dieses Buches zugrunde gelegt. Es muss aber darauf hingewiesen werden, dass in vielen praktischen Fällen andere und kompliziertere Modelle benutzt werden. Häufig werden auch unterschiedliche Verfahren gemischt eingesetzt. Eine erste beträchtliche Abweichung vom Modell der einfachen Zufallsstichprobe ist das häufig praktizierte Verfahren der geschichteten Auswahl. Bei geschichteten Stichproben werden die N Elemente der Grundgesamtheit in sich gegenseitig ausschließende Teilgesamtheiten der Umfänge N i gruppiert. Diese Teilgesamtheiten werden Schichten genannt. Dieser Begriff stammt aus der Geologie, wo man von Formationen oder Schichtfolgen spricht, die sich untereinander deutlich durch bestimmte in ihnen versteinerte Tiere und Pflanzen unterscheiden. Aus jeder Schicht wird dann eine unabhängige Stichprobe vom Umfang n i gezogen. Bei der geschichteten Auswahl geht man von der Überlegung aus, die Variabilität des Untersuchungsvariablen in der Grundgesamtheit (d. h. die Streuung der Einzelwerte, zum Beispiel gemessen mit der Varianz, die sich – wie wir noch sehen werden – auf die Genauigkeit und die Aussagekraft der Stichprobe auswirken wird) zu verkleinern und ihre Bedeutung für die Genauigkeit der Stichprobe zu mindern. Dies erfolgt zunächst durch die Schichtung der Grundgesamtheit in Teilgesamtheiten, die bezüglich des Untersuchungsgegenstandes relativ homogen sein sollen. Sollte diese Homogenität nicht gegeben sein, könnte der gewünschte Effekt nicht auftreten. Die Gesamtvarianz der Grundgesamtheit wird also zerlegt in Komponenten, wobei die erste Komponente durch die Varianz innerhalb der Schichten (Teilgesamtheiten) gegeben wird. Anzustreben ist, dass die einzelnen Schichten in sich homogener sind als die Grundgesamtheit. Dann ergeben wahrscheinlichkeitstheoretische Überlegungen: Je größer die Streuung zwischen den Schichten ist (d. h., je homogener die Teilgesamtheiten sind), desto vorteilhafter ist es, von einer einfachen Zufallsstichprobe zu einem geschichteten Auswahlverfahren überzugehen. Dazu folgendes Beispiel: Sie wollen eine umfassende Untersuchung über die Konsumgewohnheiten in Deutschland durchführen. Die entsprechende Grundgesamtheit ist, wie jedermann weiß, recht heterogen. Homogenere Teilgruppen stellen bereits die Land- und Stadtbevölkerung dar. Innerhalb der Stadt- und/oder Landbevölkerung wird man weiter nach sozialen Gruppen differenzieren, dem Alter, dem Geschlecht usw.
15
Stichproben und Stichprobenverteilungen
305
Bei geschichteten Stichprobenverfahren muss nicht mehr jedes Element der Grundgesamtheit die gleiche Wahrscheinlichkeit haben, in die Stichprobe zu gelangen, sondern diese Wahrscheinlichkeit kann von Schicht zu Schicht variieren. Gleichwohl ist die Wahrscheinlichkeit berechenbar, sofern bei der Auswahl aus den Schichten das Zufallsprinzip gewahrt bleibt. Insoweit können hier auch immer noch, wenn auch auf etwas mathematisch anspruchsvollere Art, die Möglichkeiten der Wahrscheinlichkeitstheorie und der Wahrscheinlichkeitsstatistik genutzt werden. Sie erkennen, dass dies der Punkt ist, der das geschichtete Auswahlverfahren vom weiter oben besprochenen Quotenauswahlverfahren unterscheidet. Ein gewähltes Quotenschema mag sich sogar mit den Ausprägungen der Schichtenmerkmale decken; dennoch besteht (wegen des sich anschließenden Auswahlmodus der Untersuchungselemente) der gravierende Unterschied, dass das eine zu den bewussten, das andere zu den zufälligen Auswahlen gerechnet wird. Statt einer einfachen Zufallsstichprobe kann man auch geschlossene Erfassungsgruppen erfassen. Dieses Verfahren ist unter dem Namen Klumpenauswahl (Cluster Sampling) bekannt und wird in einem besonderen Fall als Flächenstichprobenverfahren (Area Sampling) bezeichnet. Bei der Klumpenauswahl werden die zu untersuchenden Elemente einer Grundgesamtheit nicht einzeln und Zug um Zug erhoben, sondern sie gelangen in Gruppen in die Auswahl. Warum geht man so vor? Häufig steht man vor der Schwierigkeit, dass die Elemente der Grundgesamtheit, die man untersuchen möchte (die Untersuchungseinheiten), nicht direkt fassbar sind. Der Grund dafür kann darin liegen, dass es für die zu untersuchenden Elemente keine verfügbaren Unterlagen gibt. Oft liegt die Grundgesamtheit zum Beispiel der zu befragenden Personen nicht in einer Form vor, die es uns erlaubt, eine reine oder eine geschichtete Stichprobe zu ziehen. Stellen Sie sich beispielsweise vor, aus den Konsumenten einer Stadt sollte eine Stichprobe gezogen werden. Da es kein durchnummeriertes Konsumentenverzeichnis gibt, kann eine reine Zufallsstichprobe nicht verwirklicht werden. Wie kann man jetzt verfahren, um eine repräsentative Stichprobe zu verwirklichen? Man gliedert die Gesamtfläche der interessierenden Stadt in eine große Zahl von Teilflächen. Beispielsweise könnten die kleinsten Flächen jene Stücke sein, die von Straßen begrenzt sind, aber von keiner Straße durchkreuzt werden (Erhebungseinheit). Nun kann man die Flächen durchnummerieren. Sie bilden jetzt eine Gesamtheit, aus der eine gewisse Anzahl zufällig entnommen wird. Die zu befragenden Personen der Grundgesamtheit gelangen also indirekt und in geografischen Flächen geklumpt in die Auswahl. In jedem Klumpen werden dann alle Personen interviewt. Vom Modell der einfachen Zufallsstichprobe kann man auch durch so genannte mehrstufige Auswahlen abweichen. Diese Art der Stichprobenziehung dürfte Ihnen vertraut sein, ohne dass Sie sich dessen vielleicht bewusst sind. Um zum Beispiel die Qualität von Erdbeeren zu prüfen, die in kleinen Körbchen in der Auslage des Obstgeschäftes angeboten werden, können Sie ein Körbchen zufällig auswählen und daraus einige Früchte entnehmen. Die Mehrstufigkeit der Auswahl ist also dadurch gekennzeichnet, dass eine Grundgesamtheit zunächst in Teile getrennt ist. Jeder Teil wird als Primäreinheit bezeichnet. Jede Primäreinheit wird wiederum in Teile zergliedert, wobei sich der Typ der Erhebungseinheit ändert. Man nennt jeden dieser Teile Sekundäreinheit. Entsprechend lassen sich Tertiäreinheiten bilden etc. Es versteht
306
15.5
Stichprobenverteilungen
sich von selbst, dass die Auswahlmodi für Primär- und Sekundäreinheiten unter den Gesichtspunkten der Zufallsstichprobe erfolgen sollten, wenn Sie auf Repräsentativität Wert legen. Eine letzte Modifikation der einfachen Zufallsstichprobe sieht so aus, dass eine mehrphasige Auswahl durchgeführt wird. Bei mehrphasigen Auswahlen werden aus bereits ausgewählten Erhebungseinheiten erneut Stichproben gezogen. Im Gegensatz zur mehrstufigen Auswahl ändert sich also nicht die Erhebungseinheit. Die erste Hauptstichprobe wäre in dieser Terminologie die erste Phase der Auswahl etc. Eine mehrphasige Auswahl ist sinnvoll, wenn sich die Informationen aus den Ergebnissen der ersten Phase (Vorabinformation) bei der Planung und Durchführung der zweiten Phase verwerten lassen. Mehrphasige Auswahlen sind ferner in allen Fällen vorteilhaft, in denen die Fragen sehr unterschiedliche Schwierigkeitsgrade aufweisen, in denen die Anforderungen an die Genauigkeit der Antworten für die einzelnen Fragengruppen sehr verschieden groß sind, oder in den Fällen, in denen über bestimmte Sachverhalte laufend Ergebnisse benötigt werden. Selbstverständlich werden erst in die späteren Phasen (dann, wenn die Stichprobenumfänge geringer sind) erhebungstechnisch schwierige Fragestellungen benutzt, die einen besonderen Aufwand erfordern.
15.5
Stichprobenverteilungen
Die Überlegungen, die wir der Frage gewidmet haben, in welcher Weise man Zufallsstichproben realisieren kann, zielen letztendlich auch auf die Frage, welche Möglichkeiten sich dem Statistiker bieten, ausgehend von Stichprobenbefunden Aussagen über die Grundgesamtheit zu machen, aus der die Stichprobe entnommen wurde. Dies dürfte eine der zentralen Aufgaben der Stichprobenstatistik überhaupt sein: Wir ziehen eine repräsentative Stichprobe, um zu Informationen nicht nur über eben diese Stichprobe, sondern natürlich über die meistenteils unbekannte Grundgesamtheit zu gewinnen, aus der die Stichprobe gezogen wurde. Wer eine Befragung von 100 zufällig ausgewählten Studierenden der Ruhr-Universität Bochum durchführt, der will Informationen auch und vor allem für die Gesamtheit aller Studierenden dieser Universität bereitstellen. Wer der Serienproduktion eines Gutes eine Stichprobe entnimmt, um die Qualität der Produkte zu kontrollieren, der will über die Qualität der gesamten Produktion eine Aussage machen können. Wer zufällig ausgewählte Hausfrauen nach ihren Einkaufsgewohnheiten befragt, der will in der Regel seine Ergebnisse auf die Gesamtheit aller Hausfrauen hochrechnen können. Wir stehen deshalb vor der Frage, wie solche Übertragungsmöglichkeiten aussehen. Dabei stützen wir uns in den folgenden Ausführungen ausschließlich auf einfache (reine) Zufallsstichproben, wobei der jeweilige Stichprobenumfang nicht zu klein sein soll – wir sprechen der Einfachheit halber von großen (einfachen) Zufallsstichproben. Um die gewünschten Übertragungen von der Stichprobe auf die Grundgesamtheit vornehmen zu können, muss man sich zunächst mit einem der zentralen Begriffe der Stichprobenstatistik vertraut machen, nämlich mit dem Begriff der Stichprobenverteilung. Um diesen wichtigen Begriff zu klären, wollen wir zunächst den weiteren Ausführungen eine Definition voranstellen:
15
Stichproben und Stichprobenverteilungen
307
Eine Stichprobenverteilung ist die Wahrscheinlichkeitsverteilung einer speziellen Zufallsvariablen. Der Definitionsbereich dieser speziellen Variablen besteht aus Elementarereignissen, die Maßzahlen von einzelnen Zufallsstichproben sind. Stellen Sie sich gedanklich vor, dass aus einer Grundgesamtheit alle verschiedenen (einfachen) Zufallsstichproben gleichen Umfangs (n) gezogen werden (kein Mensch wird das wirklich tun, aber vorstellen kann man sich das ja einmal). Stellen Sie sich weiter vor, dass aus den Werten jeder dieser Zufallsstichproben das jeweilige arithmetische Mittel x berechnet wird. Erinnern Sie sich an das Beispiel der Schulklasse mit zwanzig Schülern, aus denen zufällig fünf ausgewählt werden sollen. Wir hatten festgestellt, dass es 15504 verschiedene, gleichwahrscheinliche Zufallsstichproben vom Umfang n 5 gibt. Dies bedeutet, dass wir in unserem gedanklichen Experiment 15504 Stichprobenmittelwerte ausrechnen könnten. Nun ist die folgende Überlegung sehr wichtig: Jeder einzelne Mittelwert aus einer Zufallsstichprobe kann interpretiert werden als eine Ausprägung einer Zufallsvariablen. Diese könnten wir mit X bezeichnen (wir vereinbarten Großbuchstaben für Variablen, Kleinbuchstaben für ihre Ausprägungen). Weil es bei einer reinen Zufallsstichprobe vom Zufall abhängt, welcher Merkmalsträger in die jeweilige Stichprobe gelangt, hängt auch der Stichprobenmittelwert vom Zufall ab – er ist Ausprägung einer Zufallsvariablen. Wie jede andere Zufallsvariable auch, folgt auch diese Zufallsvariable einer Wahrscheinlichkeitsverteilung (sonst wäre sie ja keine Zufallsvariable). Und diese Wahrscheinlichkeitsverteilung wird Stichprobenverteilung genannt. Bitte beachten Sie: Die Stichprobenverteilung ist nicht etwa die Verteilung von Merkmalswerten in einer Stichprobe, wie diese Bezeichnung vielleicht nahelegen könnte, sondern es handelt sich (im erwähnten Beispiel) um die Wahrscheinlichkeitsverteilung des Stichprobenmittelwertes in seiner Eigenschaft als Zufallsvariable. Zur Stichprobenverteilung einer bestimmten Maßzahl (wie etwa des Stichprobenmittelwertes) gelangt man also, wenn man sämtliche verschiedenen Stichproben gleichen Umfangs (gedanklich) zieht und die Verteilung der diversen Ausprägungen der betreffenden Maßzahl bestimmt. Damit ist auch klar, dass man mit dem Ziehen nur einer einzigen einfachen Zufallsstichprobe und der Berechnung einer Maßzahl (zum Beispiel des arithmetischen Mittels) aus den Stichprobenwerten nur einen einzigen Wert der Zufallsvariablen einer Stichprobenverteilung realisiert hat. Diese Überlegungen wollen wir durch ein Zahlenbeispiel durchschaubarer machen. Stellen Sie sich eine Grundgesamtheit vor, die nur aus den sechs Augenzahlen eines Würfels besteht. Aus dieser simplen Gesamtheit sollen alle verschiedenen Zufallsstichproben vom Umfang n 2 gezogen werden (d.h., wir führen doppelte Würfelwürfe durch). Bei den Ziehungen muss Wiederholung zugelassen sein (d. h., eine bestimmte Augenzahl kann zweimal auftreten), und die Reihenfolge der Augenzahlen soll als Kriterium der Unterscheidung gelten (mit dem roten Würfel eine Eins und mit dem grünen Würfel eine Zwei zu werfen ist dann etwas anderes als mit dem roten Würfel die Zwei und mit dem grünen die Eins). Bevor nun tatsächlich die Zufallsstichproben gezogen werden, eine wichtige Anmerkung: Da nacheinander n 2 Elemente (mit Zurücklegen) zufällig gezogen werden sollen, können wir jedem Einzelzug eine eigene Zufallsvariable zuordnen: X1
jeweils als erste geworfene Augenzahl (grüner Würfel);
308
15.5
X2
Stichprobenverteilungen
jeweils als zweite geworfene Augenzahl (roter Würfel).
Diese zwei (neuen) Zufallsvariablen besitzen als Wertevorrat jeweils ebenfalls die Augenzahlen 1 bis 6, ihre Wahrscheinlichkeitsfunktionen sind gleich: PX
1 6
xi
Man bezeichnet diese neuen Variablen als Stichprobenvariablen. Den n 2 Einzelwürfen lassen sich also n 2 Stichprobenvariablen zuordnen. Bei jedem Einzelwurf wird von jeder dieser Stichprobenvariablen ein Wert realisiert. Betrachten wir zunächst unsere simple Grundgesamtheit, so können wir, wie es an anderer Stelle schon geschehen war, Mittelwert und Varianz (bzw. Standardabweichung) dieser Grundgesamtheit berechnen. Für die Variable Augenzahl beim Würfelwurf gilt in der Grundgesamtheit (die, nebenbei bemerkt, unendlich groß ist): Mittelwert:
EX
3,5
Varianz:
VAR X
Standardabweichung:
1,708 (gerundet)
2,92 (gerundet)
Die zwei neu eingeführten Stichprobenvariablen besitzen, wie leicht einsichtig ist, den gleichen Erwartungswert und die gleiche Streuung. Das gewählte Auswahlverfahren bringt es darüber hinaus mit sich, dass die Stichprobenvariablen voneinander stochastisch unabhängig sind (der eine Würfel hat nichts mit dem anderen zu tun). Diese Information erlaubt es, den Erwartungswert und die Varianz der Variablen X zu berechnen: EX
E
VAR X
1 n
Xi
VAR
1 n
1 E n
Xi
1 n
Xi
1 VAR n2
E Xi
1 n
Xi
1 n2
1 n n VAR X i
1 n n2
2
2
n
Damit kennen wir bereits zwei wichtige Parameter der Stichprobenverteilung von X . Ihr Mittelwert entspricht dem der Grundgesamtheit, die Standardabweichung ergibt sich aus der Standardabweichung der Grundgesamtheit dividiert durch die Wurzel aus dem Stichprobenumfang. Den Verteilungstyp kennen wir allerdings noch nicht. Er lässt sich aber – ausgehend von dem gegebenen Beispiel – näherungsweise bestimmen: Offensichtlich ist es so, dass 36 verschiedene Stichproben gezogen werden können, wenn wir zufällig zwei Ziffern aus den sechs Ziffern 0, 1 … 6 mit Beachtung der Reihenfolge und bei Zulassung von Wiederholungsmöglichkeiten auswählen (doppelter Würfelwurf). Es gibt nämlich für den ersten Wurf sechs Möglichkeiten (grüner Würfel) und für den zweiten Wurf sechs Möglichkeiten (roter Würfel), insgesamt also 6 6 36 Möglichkeiten. Jede dieser 36 Zufallsstichproben hat die Realisierungswahrscheinlichkeit 1/36. Der Wertevorrat der Variablen X beginnt bei 1 (zweimal wird die Augenzahl 1 geworfen); der nächstgrößere denkbare Mittelwert ist 1,5 (einmal die Eins, einmal die Zwei); der nächstgrößere ist 2 usw.; der größte denkbare Mittelwert ist die Sechs (zweimal wird die Augenzahl 6 geworfen).
15
309
Stichproben und Stichprobenverteilungen
Die entsprechenden Wahrscheinlichkeiten sind in der Tabelle in Abbildung 15.4 dargestellt, die in Abbildung 15.5 auch grafisch präsentiert wird.
Abb. 15.4: Wahrscheinlichkeiten für Stichprobenmittelwerte (E15.XLS, SPV1)
0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 1
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
Abb. 15.5: Stichprobenverteilung (Daten aus Abbildung 15.4) (E15.XLS, SPV2)
Welche Parameter hat nun diese spezielle Verteilung, die Stichprobenverteilung? Was ist ihr Mittelwert, und was ist ihre Standardabweichung? Wir verwenden die Tabelle in Abbildung 15.6, um diese Parameterwerte zu berechnen.
310
15.5
Stichprobenverteilungen
Abb. 15.6: Arbeitstabelle zur Berechnung der Parameter der Stichprobenverteilung (E15.XLS, SPV3)
In dieser Tabelle der Abbildung 15.6 finden sich in der ersten Spalte die Mittelwerte, die in Zweierstichproben (doppelter Würfelwurf) auftreten können, also die Werte 1, 1,5, 2 ... In der zweiten Spalte stehen die zugeordneten Wahrscheinlichkeiten (1/36, 2/36 ...), jetzt schon als Dezimalzahlen ausgerechnet. In der Spalte C haben wir die Mittelwerte mit der Wahrscheinlichkeit ihres Auftretens multipliziert. Die Summe dieser Werte (Zelle C13) ist das arithmetische Mittel dieser Stichprobenverteilung. Sie erkennen, dass es den Wert 3,5 hat, also identisch ist mit dem arithmetischen Mittel der Grundgesamtheit (siehe oben). In Spalte D haben wir die Abweichungen der Merkmalswerte (es handelt sich hier ja um Stichprobenmittelwerte) von ihrem eigenen Mittelwert (3,5) gebildet, die dann in Spalte E quadriert und in Spalte F mit den Wahrscheinlichkeiten der Spalte B multipliziert (gewichtet) wurden. Dies ergibt in Zelle F13 die Varianz der Stichprobenmittelwerte. In Zelle F14 haben wir daraus noch die Wurzel gezogen, so dass sich hier die Standardabweichung der Stichprobenmittelwerte zu 1,2076 ergibt. Diese Standardabweichung ist kleiner als die der Grundgesamtheit, die weiter oben genannt wurde (1,708). Es gilt folgende Beziehung zwischen diesen beiden Standardabweichungen: X
1,2076
1,7078 2
Die Standardabweichung der Stichprobenverteilung ergibt sich also aus der der Grundgesamtheit dividiert durch die Wurzel aus dem Stichprobenumfang n 2 . Wenn man nun den Stichprobenumfang erhöht (in dem gerade besprochenen Beispiel war n ja nur n 2 ), wenn man also beispielsweise den zehnfachen oder den hundertfachen Würfelwurf ausprobiert und dann ausrechnet, welche Mittelwerte (mittlere Augenzahlen) mit welchen Wahrscheinlichkeiten auftreten, dann erhält man bemerkenswerterweise für die Zufallsvariable Stichprobenmittelwert eine Verteilung, die umso mehr an die Gauß’sche Normalverteilung erinnert, je größer n ist. Zudem wird immer deutlicher, dass in der Tat die oben genannte Beziehung zwischen der Standardabweichung der Grundgesamtheit und derjenigen der Stichprobenverteilung gilt. Dies führt zum so genannten zentralen Grenzwerttheorem, dem ein eigener Abschnitt gewidmet werden soll.
15
Stichproben und Stichprobenverteilungen
15.6
311
Das zentrale Grenzwerttheorem
Das zentrale Grenzwerttheorem, auch zentraler Grenzwertsatz genannt, ist ein Hauptsatz der theoretischen Statistik. Er begründet die hervorragende Bedeutung der Normalverteilung für die praktische Statistik. Dieses Grenzwerttheorem ist in einigen Varianten bekannt und auf unterschiedlichen Wegen bewiesen worden. Erstmalig gelang dies vollständig durch Ljapunoff im Jahre 1901. Danach gilt unter ziemlich allgemeinen Bedingungen: Die Summe von stochastisch unabhängigen Zufallsvariablen ist angenähert normalverteilt. Was bedeutet dieser Satz für unsere Arbeit? Sie erinnern sich, wir hatten das arithmetische Mittel aus einer Zufallsstichprobe als Ausprägung einer Zufallsvariablen erkannt. Mehr noch: Wir haben auch festgestellt, dass sie sich erklären lässt als eine (durch den Stichprobenumfang n dividierte) Summe voneinander unabhängiger Einzelvariablen X i . Damit wird deutlich, dass das zentrale Grenzwerttheorem zum Beispiel auch für den Zufallsstichprobenmittelwert in seiner Eigenschaft als Zufallsvariable Gültigkeit besitzt. Darauf bezogen können wir dieses Theorem wie folgt formulieren: Der Zufallsstichprobenmittelwert in seiner Eigenschaft als Zufallsvariable folgt unter nicht allzu gravierenden einschränkenden Bedingungen (dazu gleich mehr) einer Gauß’schen Normalverteilung. Oder noch anders formuliert: Wer wahrscheinlichkeitsbehaftete Aussagen über das arithmetische Mittel einer Zufallsstichprobe machen möchte, kann sich auf die Normalverteilung stützen. Die bemerkenswerte Tragweite dieses Satzes ergibt sich aus zwei Umständen: 1. Die Zahl n der zu summierenden Zufallsvariablen muss nicht sehr groß sein, damit die Summenvariable bereits als so gut wie normalverteilt angesehen werden kann. Eine sehr grobe Faustregel besagt, dass n mindestens 30 sein sollte. Das heißt: Stichprobenumfänge der Größe 30 reichen meist bereits dafür aus, dass bei Wahrscheinlichkeitsrechnungen, die sich auf den Stichprobenmittelwert beziehen, auf die Normalverteilung zurückgegriffen werden darf (erinnern Sie sich bitte in diesem Zusammenhang auch daran, dass die Anzahl der Stichprobenvariablen mit dem Umfang einer Stichprobe übereinstimmt). Dieser Mindestumfang schwankt allerdings von Maßzahl zu Maßzahl und von Grundgesamtheit zu Grundgesamtheit. Die genannte Faustregel gilt zunächst nur für den Zufallsstichprobenmittelwert und für nicht allzu absonderliche Grundgesamtheiten. 2. Der Verteilungstyp der Stichprobenvariablen und damit die Grundgesamtheitsverteilung müssen nicht bekannt sein; sie muss beispielsweise nicht normalverteilt sein, was ja für wirtschafts- und sozialstatistische Grundgesamtheiten ohnehin selten der Fall wäre. Die Stichprobenvariablen müssen nicht symmetrisch verteilt sein, sie müssen nicht unimodal sein etc. Zu fordern ist eigentlich nur, dass ihre Varianz existiert und dass die Verteilung nicht absurd ist, etwa die Form einer Arcustangensverteilung besitzt, worauf v. d. Waerden (v. d. Waerden, B. L.: Mathematische Statistik, 3. Aufl., Berlin/Heidelberg/New York 1971, S. 99) genüsslich aufmerksam macht. Gewiss ist dies im Bereich der sozialstatistischen Massenerscheinungen nicht an der Tagesordnung. 3. Der Vollständigkeit wegen fügen wir einen dritten Punkt hinzu: Die Stichprobenvariablen müssen noch nicht einmal voneinander stochastisch unabhängig sein. Die Behauptung des
312
15.7
Stichprobenverteilungen wichtiger Maßzahlen
zentralen Grenzwerttheorems bleibt unter Umständen auch dann erhalten, wenn eine schwache Abhängigkeit der Zufallsvariablen zugelassen wird. Zurück zu unserem Mittelwertbeispiel: In einer Zufallsstichprobe, deren Umfang größer als 30 ist (das ist in der Praxis wahrlich nicht viel und deshalb sicher sehr häufig der Fall), können Wahrscheinlichkeitsaussagen, die den Zufallsstichprobenmittelwert betreffen, unter Nutzung der Gauß’schen Normalverteilung gemacht werden – und zwar praktisch unabhängig davon, wie die eigentlich interessierende Untersuchungsvariable in der Grundgesamtheit verteilt ist, aus der die Zufallsstichprobe gezogen wurde.
15.7
Stichprobenverteilungen wichtiger Maßzahlen
Als erste wichtige Maßzahl schauen wir uns noch einmal den Mittelwert einer Zufallsstichprobe an.
15.7.1 Stichprobenverteilung des arithmetischen Mittels Das zentrale Grenzwerttheorem macht eine Aussage über die Verteilung einer Summe von Zufallsvariablen. Wir können nun die n Realisationen x i einer einfachen Zufallsstichprobe als je eine Realisation von n Stichprobenvariablen X i auffassen, die alle die gleiche Verteilung haben. Dann besagt das zentrale Grenzwerttheorem, dass die durch n dividierte Summe der Merkmalswerte einer einfachen Zufallsstichprobe eine Zufallsvariable ist, die der Gauß’schen Normalverteilung folgt. Weiter oben haben wir auch schon die Parameter (Mittelwert und Standardabweichung) dieser speziellen Normalverteilung hergeleitet, wobei sich ergeben hatte: X X
n
Dieses Ergebnis besagt in anderer Formulierung: Praktisch unabhängig vom Verteilungsgesetz einer Grundgesamtheit folgt die Stichprobenverteilung des arithmetischen Mittels ab einem Stichprobenumfang von n 30 angenähert einer Normalverteilung N
X
;
X
n
Der Erwartungswert von X (das arithmetische Mittel der Stichprobenmittelwerte) ist also gleich dem arithmetischen Mittel der Grundgesamtheit; die Standardabweichung von X (die Standardabweichung der Stichprobenmittelwerte) ist gleich der Standardabweichung der Grundgesamtheit, dividiert durch die Wurzel aus dem Stichprobenumfang. Man nennt n
15
Stichproben und Stichprobenverteilungen
313
auch den durchschnittlichen Stichprobenfehler oder kurz: Stichprobenfehler. Es gilt: Je größer der Stichprobenumfang ist, desto kleiner ist der Stichprobenfehler. Durch Erhöhung von n kann man also den so definierten Stichprobenfehler verringern. Dieser Zusammenhang hat, wie Sie sich gewiss denken können, für die praktische Statistik große Bedeutung. Außerdem ist bemerkenswert, dass der Stichprobenfehler nicht vom Umfang N der Grundgesamtheit abhängt, sondern von der Streuung der Grundgesamtheit und vom Stichprobenumfang. Sie erkennen, dass bei großen Zufallsstichproben der Stichprobenfehler sehr klein wird. Wir brauchen uns deshalb nicht zu verwundern, wenn man auf der Grundlage nicht zu kleiner Zufallsstichproben zu sehr präzisen Aussagen gelangen kann. Allerdings erscheint der Stichprobenumfang im Nenner des Stichprobenfehlers in einer Quadratwurzel. Das bedeutet, dass man den Stichprobenumfang vervierfachen muss, wenn man den Stichprobenfehler halbieren möchte. Ein Beispiel für die Stichprobenverteilung des arithmetischen Mittels haben wir bereits kennen gelernt, die simulierte Verteilung der Mittelwerte aus doppelten Würfelwürfen (siehe Abbildung 15.5 oben). Der Stichprobenumfang betrug dort nur n 2 und nicht mindestens 30, wie die grobe Faustregel fordert. Trotzdem erinnert die Abbildung 15.5 schon entfernt an die vertraute Gestalt der Gauß’schen Glockenkurve. Und die Parameterwerte entsprachen den mathematisch zu erwartenden Werten. Betrachten wir dazu einmal ein Beispiel aus der täglichen Praxis des Stichprobenstatistikers: Nehmen wir an, die mittlere Größe der deutschen Männer sei mit 178 cm bekannt. Auch die Streuung, gemessen mit der Standardabweichung, sei mit 8 cm gegeben. Eine Frage, die wir mit den jetzt erworbenen Kenntnissen beantworten können, lautet beispielsweise wie folgt: Wie groß ist die Wahrscheinlichkeit, dass der Mittelwert einer Zufallsstichprobe vom Umfang n 100 zwischen 179 cm und 180 cm liegt? Von den gegebenen Werten der Grundgesamtheitsparameter ausgehend, können wir nun unter Nutzung des zentralen Grenzwerttheorems folgendermaßen argumentieren: Wahrscheinlichkeitsaussagen über den Stichprobenmittelwert setzen an der Überlegung an, dass dieser Ausprägung einer Zufallsvariablen ist. Diese Zufallsvariable folgt einer Wahrscheinlichkeitsverteilung – und diese benötigen wir, um die gestellte Frage beantworten zu können. Diese Wahrscheinlichkeitsverteilung heißt Stichprobenerteilung des Zufallsstichprobenmittelwertes und ist approximativ (näherungsweise) eine Gauß’sche Normalverteilung mit dem Mittelwert 178
X
und der Standardabweichung X
n
8 10
0,8
Die gesuchte Wahrscheinlichkeit ist also die Fläche unter der Normalverteilung mit dem Mittelwert 178 und der Standardabweichung 0,8 im Bereich zwischen 179 und 180. Diese Fläche bestimmen wir mit Excel, so wie es in Kapitel 14, Abschnitt 4, schon geübt wurde. Zur Wiederholung hier noch einmal die Vorgehensweise im Einzelnen (vergleichen Sie auch Abbildung 15.7 auf der folgenden Seite, wo wir den Sachverhalt, um den es hier geht, skizziert
314
15.7
Stichprobenverteilungen wichtiger Maßzahlen
haben; es empfiehlt sich generell, bei Aufgabenstellungen dieser Art, sich die Zusammenhänge, um die es geht, mit einer Skizze zu verdeutlichen). 1. 2. 3. 4. 5.
6.
Tragen Sie in der Zelle A1 einer neuen Arbeitstabelle den Wert 179, in A2 den Wert 180 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. Wählen Sie aus der Kategorie STATISTIK die Funktion NORMVERT. Klicken Sie OK an. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: A1 bei MITTELWERT: 178 bei STANDABWN: 0,8 bei KUMULIERT: 1 Klicken Sie OK an.
Abb. 15.7: Stichprobenverteilung für den Zufallsstichprobenmittelwert (E15.XLS, SPVX)
In der Zelle B1 erscheint jetzt der Wahrscheinlichkeitswert 0,894 (gerundet). Dies ist die Wahrscheinlichkeit für einen Stichprobenmittelwert kleiner als 179 cm. Wenn Sie diese Berechnung in die Zelle B2 ziehen, erscheint dort der Wert 0,994 (gerundet). Dies ist die Wahrscheinlichkeit für einen Stichprobenmittelwert kleiner als 180 cm. Bilden Sie schließlich die Differenz aus beiden Werten, so erhalten Sie die gesuchte Wahrscheinlichkeit. Sie liegt bei 0,099 (gerundet). Dies ist die Wahrscheinlichkeit dafür, einen Stichprobenmittelwert zwischen 179 und 180 cm zu erhalten. Noch schneller wären Sie zu diesem Ergebnis gekommen, wenn Sie einfach in eine freie Tabellenzelle die folgende Rechenanweisung eingegeben hätten: =NORMVERT(180;178;0,8;1) – NORMVERT(179;178;0,8;1)
15
315
Stichproben und Stichprobenverteilungen
Wir können jetzt dieses Rechenbeispiel so abwandeln, dass wir die Frage beantworten können, wie groß der Umfang einer einfachen Zufallsstichprobe sein sollte. Gesucht ist beispielsweise derjenige Stichprobenumfang n, der gewährleistet, dass mit einer Wahrscheinlichkeit von 90% der Stichprobenmittelwert im Intervall 178 2 liegt, also zwischen 176 und 180. Dies ist allerdings eine Aufgabe, die mit Excel nicht gelöst werden kann – und sie erfordert einiges Nachdenken. Offensichtlich ist es so, dass auch hier als Stichprobenverteilung die Normalverteilung verwendet werden kann. Bei der Standardnormalverteilung liegt der gewünschte 90%-Bereich zwischen –1,645 und +1,645 (darüber wurde in Kapitel 14 gesprochen; siehe Abbildung 14.6). Aus der Standardisierungsformel wissen wir (siehe Abschnitt 14.4), dass zum Beispiel für den rechten Grenzpunkt gelten muss: 1,645
180 178 8 n
Damit können Sie eine Bestimmungsgleichung für n herleiten: 1,645
180 178 oder 13,16 8
2
n oder 6,58
n
n Daraus ergibt sich: n
6,582
43,3
Der Stichprobenumfang muss also mindestens n 44 betragen, damit mit einer Wahrscheinlichkeit von 90% der Stichprobenmittelwert zwischen 176 und 180 auftritt.
15.7.2 Stichprobenverteilung des Anteilswertes Anteilswerte sind besonders dann von statistischem Interesse, wenn Merkmale betrachtet werden, die nur in zwei Ausprägungen auftreten. Denken Sie an das Merkmal Rauchgewohnheit, das vielleicht nur mit den Ausprägungen Raucher oder Nichtraucher erfasst wird. Oder denken Sie an die Variable Geschlecht, die nur die Ausprägungen männlich oder weiblich aufweist. Derartige Merkmale nennt man dichotome Merkmale. Sie sind uns bei der Behandlung der Binomialverteilung (siehe Kapitel 14, Abschnitt 14.3) begegnet. Hier nun geht es um die Stichprobenverteilung von Anteilswerten, wobei dichotome Merkmale (Variablen) unterstellt werden sollen. Wenn man aus der Bevölkerung eines Landes alle verschiedenen (reinen) Zufallsstichproben vom Umfang n ziehen und in jeder dieser fast unendlich vielen Stichproben den Frauenanteil bestimmen würde, dann würde man erkennen, dass der Anteilswert einer Zufallsstichprobe eine Zufallsvariable ist. Somit ist der Anteilswert in einer einzigen Zufallsstichprobe Ausprägung dieser Zufallsvariablen. Diese Zufallsvariable folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für Zufallsstichprobenanteilswerte – und auch diese Stichprobenverteilung ist approximativ (näherungsweise) eine Gauß’sche Normalverteilung. Das hatten Sie sicherlich schon erwartet.
316
15.7
Stichprobenverteilungen wichtiger Maßzahlen
Ohne auf die nicht uninteressanten mathematischen Hintergründe einzugehen, stellen wir fest, dass diese Normalverteilung die folgenden Parameter aufweist:
Mit
p
Mittelwert:
P
Standardabweichung:
P
1 n
ist der Mittelwert aller Stichprobenanteilswerte bezeichnet, d. h. der Erwartungswert
der Zufallsvariablen P, mit
p
die entsprechende Standardabweichung.
An dieser Stelle ist die folgende Anmerkung angebracht: Im vorliegenden Fall einer dichotomen Grundgesamtheit und einer einfachen Zufallsstichprobe müssen wir nicht die gerade besprochene Normalverteilung benutzen, wenn wir Wahrscheinlichkeitsaussagen über den Stichprobenanteilswert machen wollen. Wir können jederzeit die exakte Verteilung der Stichprobenfunktion P
X n
(X ist beispielsweise die absolute Anzahl von Frauen in einer Zufallsstichprobe vom Umfang n) benutzen, da ja die Variable X einer Binomialverteilung mit den Parametern und n folgt. Jetzt aber ein Anwendungsbeispiel: Der Anteilswert von Knaben an den Geburten sei 0,5 . Aus der hypothetisch unendlichen Grundgesamtheit ziehen wir eine Stichprobe vom Umfang n 100 . Wie groß ist die Wahrscheinlichkeit, dass der Anteil der Knabengeburten in dieser Zufallsstichprobe größer als 0,6 ist? Zur Beantwortung dieser Frage stellen wir die folgenden Überlegungen an: Der Anteilswert der Stichprobe p 0,6 ist Ausprägung einer Zufallsvariablen P. Diese Zufallsvariable folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für Zufallsstichprobenanteilswerte. Diese ist approximativ eine Gauß’sche Normalverteilung mit dem Mittelwert 0,5 und der Standardabweichung 0,05 (die entsprechenden Formeln hatten wir ja weiter oben schon vorgestellt). Gesucht ist die Fläche unter der Normalverteilung N 0,5; 0,05 rechts von p
0,6 .
Sie entspricht der Wahrscheinlichkeit dafür, dass ein Zufallsstichprobenanteilswert auftritt, der größer als 0,6 ist. Die Lösung mit Excel sieht so aus: 1. 2. 3. 4. 5.
Geben Sie in die Zelle A1 einer neuen Tabelle den Wert 0,6 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. Wählen Sie aus der Kategorie STATISTIK die Funktion NORMVERT. Klicken Sie die Schaltfläche OK an. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: A1 bei MITTELWERT: 0,5 bei STANDABWN: 0,05 bei KUMULIERT: 1
15
Stichproben und Stichprobenverteilungen
317
6. Klicken Sie OK an. Es ergibt sich der Wert 0,977 (gerundet). Aber Achtung: Dies ist der Flächenanteil unter der Dichtekurve links vom Wert p 0,6 . Der interessiert uns nicht, sondern wir benötigen die Fläche rechts von p 0,6 . Da die Gesamtfläche unter der Kurve 1 ist, ergibt sich die gesuchte Wahrscheinlichkeit demnach zu 1 0,977 0,023 (gerundet). Die folgenden vier Stichprobenverteilungen werden gewöhnlich im Rahmen der Theorie und Praxis kleiner Stichprobenumfänge bei der so genannten exakten Stichprobentheorie behandelt. In einigen Fällen handelt es sich sogar um Musterfälle für die Nutzung bestimmter Wahrscheinlichkeitsverteilungen, wie z. B. der Student-t-Verteilung oder der Chi-Quadrat-Verteilung. Gleichwohl ist es möglich, auch für die folgenden Stichprobenverteilungen Normalverteilungen anzunehmen, wenn die Stichprobenumfänge relativ groß sind (z.B. n 100 ). Bei Stichprobenumfängen dieser Größenordnung kann die Normalverteilung auch die t- oder die Chi-Quadrat-Verteilung mit hinreichender Güte ersetzen. Zudem verringert sich die Bedeutung der Verteilungsverhältnisse in der Grundgesamtheit mit wachsendem Stichprobenumfang.
15.7.3 Stichprobenverteilung der Standardabweichung Die Stichprobenverteilung der Stichprobenfunktion S (Standardabweichung der Zufallsstichprobe in ihrer Eigenschaft als Zufallsvariable) folgt für n gegen unendlich einer Normalverteilung mit den Parametern: Mittelwert:
S
Standardabweichung:
S
2n
Vorausgesetzt wird dabei, im Gegensatz zu den bisher besprochenen Stichprobenverteilungen, dass die Grundgesamtheit normalverteilt ist. Der Mittelwert der Variablen S (ihr Erwartungswert) ist also die Standardabweichung der Grundgesamtheit, die Streuung von S nimmt sehr rasch ab, wenn n steigt. Deshalb kann bei großen Stichproben die Streuung in der Grundgesamtheit recht gut durch die der Einzelstichprobe repräsentiert werden. Wir werden auf diesen Umstand in einem späteren Kapitel dankbar zurückgreifen. Ein Rechenbeispiel: Angenommen sei, dass die monatlichen Nettoeinkommen in einer bestimmten Berufsgruppe normalverteilt seien mit einem Mittelwert von 3500 Euro bei einer Standardabweichung von 500 Euro. Wie groß ist die Wahrscheinlichkeit, dass in einer Zufallsstichprobe vom Umfang n 200 eine Streuung auftritt, die zwischen 490 und 510 Euro liegt? Zur Beantwortung dieser Frage greifen wir auf die inzwischen schon gut bekannten Überlegungen zurück: Die Standardabweichung der Stichprobe s ist Ausprägung einer Zufallsvariablen S. Diese folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für Zufallsstichprobenstandardabweichungen. Diese Verteilung ist unter den gegebenen Be-
318
15.7
Stichprobenverteilungen wichtiger Maßzahlen
dingungen approximativ eine Gauß’sche Normalverteilung mit den oben angegebenen Parametern. Hier ergibt sich ein Verteilungsmittelwert von 500 bei einer Streuung von 25. Die Lösung mit Excel sieht folgendermaßen aus: 1. 2.
Geben Sie in Zelle A1 einer neuen Tabelle den Wert 490 und in A2 den Wert 510 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. 3. Wählen Sie aus der Kategorie STATISTIK die Funktion NORMVERT. 4. Klicken Sie die Schaltfläche OK an. 5. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: A1 bei MITTELWERT: 500 bei STANDABWN: 25 bei KUMULIERT: 1 6. Klicken Sie OK an. 7. Ziehen Sie das Berechnungsergebnis von B1 nach B2. 8. Rechnen Sie in B3 =B2-B1. Es ergibt sich der Wert 0,3108 (gerundet). Es besteht also eine Wahrscheinlichkeit von etwas über 31% dafür, dass in einer Zufallsstichprobe vom Umfang n 200 eine Standardabweichung auftritt, die zwischen 490 und 510 Euro liegt.
15.7.4 Stichprobenverteilung der Differenz zweier Mittelwerte Nicht selten steht man in der Statistik vor der Aufgabe, dass zwei Mittelwerte miteinander verglichen werden sollen. Die Stichprobenverteilung der Differenz zweier Mittelwerte DX
X1
X2
geht von zwei Grundgesamtheiten mit Mittelwerten
1
,
2
und Streuungen
1
,
2
aus.
Man zieht unabhängig voneinander Stichproben der Umfänge n1 und n 2 . Die jeweiligen Differenzen dx
x1
x2
der Stichprobenmittelwerte sind Werte der Stichprobenvariablen DX
Bei hinreichend großen Stichprobenumfängen folgt diese Zufallsvariable einer Gauß’schen Normalverteilung mit den Parametern: Mittelwert:
DX
Standardabweichung:
DX
1
2 2 1
n1
2
2
n2
Auch hierzu ein Rechenbeispiel. Aus zwei Grundgesamtheiten (Mittelwert der ersten Grundgesamtheit: 70; Mittelwert der zweiten Grundgesamtheit: 67; Standardabweichung der ersten Grundgesamtheit: 6; Standardabweichung der zweiten Grundgesamtheit: 7) werden unabhängig voneinander einfache Zufallsstichproben der Umfänge n1 400 und n 2 600 gezogen.
15
319
Stichproben und Stichprobenverteilungen
Stellen Sie sich beispielsweise vor, es soll untersucht werden, ob sich die Körpergewichte bayrischer Männer von denen der Männer aus dem Saarland typisch voneinander unterscheiden. Die obigen Zahlenwerte sind dann als Kilogrammangaben zu verstehen. Wie groß ist die Wahrscheinlichkeit, dass die Differenz der Stichprobenmittelwerte größer als 4 ist? Auch hier stellen wir wieder die bekannten Überlegungen an: Die Differenz der Stichprobenmittelwerte ist Ausprägung einer Zufallsvariablen. Diese folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für Differenzen aus Zufallsstichprobenmittelwerten. Diese Verteilung ist approximativ eine Gauß’sche Normalverteilung mit Parametern (Mittelwert und Standardabweichung), wie sie aus den oben angegebenen Formeln berechnet werden können. Hier ergibt sich: Mittelwert der Stichprobenverteilung: DX
D
70 67
3
Standardabweichung der Stichprobenverteilung: DX
2 1
n1
2
2
n2
0,4143
Gesucht ist also die Fläche unter der Normalverteilung N 3; 0,4143 rechts vom Wert 4. Die Lösung mit Excel sieht folgendermaßen aus: 1. 2.
Geben Sie in Zelle A1 einer neuen Tabelle den Wert 4 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. 3. Wählen Sie aus der Kategorie STATISTIK die Funktion NORMVERT. 4. Klicken Sie die Schaltfläche OK an. 5. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: A1 bei MITTELWERT: 3 bei STANDABWN: 0,4143 bei KUMULIERT: 1 6. Klicken Sie OK an. 7. Rechnen Sie in B2 =1-B1. Es ergibt sich der Wert 0,0079 (gerundet). Es besteht also nur eine Wahrscheinlichkeit von knapp 0,8% dafür, dass die Differenz der Stichprobenmittelwerte größer als 4 wird.
15.7.5 Stichprobenverteilung der Differenz zweier Anteilswerte Hier liegt eine ähnliche Problemstellung vor wie im vorhergehenden Abschnitt. Die Differenz der Anteilswerte aus zwei Zufallsstichproben ist in ihrer Eigenschaft als Zufallsvariable approximativ normalverteilt mit den folgenden Parametern (diese Differenz bezeichnen wir mit d p ): Mittelwert:
dP
D
1
2
320
15.7
Standardabweichung:
Stichprobenverteilungen wichtiger Maßzahlen
1
dP
1 n1
1
2
1 n2
2
Rechenbeispiel: Der Frauenanteil bei den Studierenden der Ruhr-Universität Bochum liegt bei 0,3; der entsprechende Anteil liegt in der Universität München bei 0,4. In beiden Universitäten wird je eine Zufallsstichprobe vom Umfang 100 gezogen. Wie groß ist die Wahrscheinlichkeit, dass die Differenz der Stichprobenanteilswerte größer als 0,15 ist? Auch hier stellen wir wieder die bekannten Überlegungen an: Die Differenz der Stichprobenanteilswerte d p ist Ausprägung einer Zufallsvariablen D P . Diese folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für Differenzen aus Zufallsstichprobenanteilswerten. Diese Verteilung ist approximativ eine Gauß’sche Normalverteilung mit dem Mittelwert 0,4 0,3 0,1 und der Standardabweichung 0,0608 (gerundet; siehe obige Berechnungsformel). Gesucht ist also die Fläche rechts von 0,15 unter der Normalverteilung N(0,1;0,0608). Die Lösung mit Excel sieht folgendermaßen aus: 1. 2.
Geben Sie in Zelle A1 einer neuen Tabelle den Wert 0,15 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. 3. Wählen Sie aus der Kategorie STATISTIK die Funktion NORMVERT. 4. Klicken Sie die Schaltfläche OK an. 5. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: A1 bei MITTELWERT: 0,1 bei STANDABWN: 0,0608 bei KUMULIERT: 1 6. Klicken Sie OK an. 7. Rechnen Sie in B2 =1-B1. Es ergibt sich der Wert 0,2054 (gerundet). Es besteht also eine Wahrscheinlichkeit von knapp über 20% dafür, dass die Differenz der Stichprobenanteilswerte größer als 0,15 wird.
15.7.6 Stichprobenverteilung der Differenz zweier Standardabweichungen Bei sehr großen Stichprobenumfängen (empfohlen werden n-Werte, die über 100 liegen) und möglichst normalverteilten Grundgesamtheiten folgt die Stichprobenverteilung der Differenz zweier Standardabweichungen DS S1 S2 angenähert einer Gauß’schen Normalverteilung. Ihre Parameter sind die folgenden: Mittelwert: Standardabweichung:
DS DS
D
1 1
2
2n1
2 2
2
2n 2
Auch dazu ein abschließendes Rechenbeispiel: Es sei bekannt, dass die Einkommen für eine bestimmte Berufsgruppe sowohl in den alten als auch in den neuen Bundesländern normal-
15
Stichproben und Stichprobenverteilungen
321
verteilt sind. In den alten Bundesländern liegt die Streuung dieser Einkommen bei 500 Euro, in den neuen Bundesländern bei 400 Euro (gemessen mit den jeweiligen Standardabweichungen). Sowohl in den alten als auch in den neuen Bundesländern wird je eine Zufallsstichprobe vom Umfang 200 gezogen. Wie groß ist die Wahrscheinlichkeit, dass eine Differenz der Stichprobenstreuungen beobachtet wird, die größer ist als 120 Euro? Noch einmal greifen wir zur Beantwortung dieser Frage auf nun schon eingeübte Überlegungen zurück: Die Differenz der Stichprobenstandardabweichungen ist Ausprägung einer Zufallsvariablen. Diese Zufallsvariable folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für Differenzen aus Zufallsstichprobenstandardabweichungen. Diese Verteilung ist approximativ eine Gauß’sche Normalverteilung mit dem Mittelwert 500 400 100 und der Standardabweichung 32 (gerundet; siehe obige Formel). Gesucht ist also die Fläche unter der Normalverteilung N 100; 32 rechts vom Wert 120. Die Lösung mit Excel sieht folgendermaßen aus: 1. 2.
Geben Sie in Zelle A1 einer neuen Tabelle den Wert 120 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. 3. Wählen Sie aus der Kategorie STATISTIK die Funktion NORMVERT. 4. Klicken Sie die Schaltfläche OK an. 5. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: A1 bei MITTELWERT: 100 bei STANDABWN: 32 bei KUMULIERT: 1 6. Klicken Sie OK an. 7. Rechnen Sie in B2 =1-B1. Es ergibt sich der Wert 0,266 (gerundet). Es besteht also eine Wahrscheinlichkeit von 26,6% dafür, dass die Differenz der Stichprobenstandardabweichungen größer als 120 Euro wird.
15.8
Notationen
Möglicherweise haben die vielen verschiedenen Symbole, die in der Besprechung des Konzeptes der Stichprobenverteilung aufgetaucht sind, etwas für Verwirrung gesorgt. Die wichtigsten dieser Symbole sollen deshalb hier noch einmal tabellarisch einander gegenübergestellt werden. Generell werden mit griechischen Buchstaben die Parameter der Grundgesamtheit bezeichnet, entsprechend mit lateinischen die der Zufallsstichprobe. Gemäß dem zentralen Grenzwerttheorem haben wir bei großen Zufallsstichproben für die einzelnen Stichprobenparameter als Stichprobenverteilungen Normalverteilungen unterstellen dürfen. Jede dieser Normalverteilungen ist ihrerseits durch Mittelwert und Standardabweichung charakterisiert. Somit gelangen wir zu der folgenden Übersicht:
322 Maßzahl
15.8
GG
Mittelwert
SP x
Standardabweichung
s
Anteilswert
p
Differenz zweier Mittelwerte
D
Differenz zweier Standardabweichungen
D
Differenz zweier Anteilswerte
D
dX dS
Mittelwert X
S
P
dX
dS
Standardabweichung X
n
S
2n
dP
1 n
P
D
1
dX
D
dP
2
2
n1
D dS
dP
Notationen
1
n2
2
2
2n1 1
1 n1
2
2
2n 2 1
2
1 n2
2
16
Der parametrische Hypothesentest
„Das also ist des Pudels Kern!“ J.W. von Goethe, Dichter, 1817
Sag die Wahrheit! 16.1 An der Theke 16.2 Beispiel: Der Zigarettentest 16.3 Mittelwerttest 16.4 Entscheidungsfehler 16.5 Weitere Parametertests 16.6 Die Güte eines Tests
16.1
An der Theke
Kürzlich traf ich beim Bier meinen alten Freund Bernd, und wir unterhielten uns über dieses und jenes. Als ich bei Marie mein drittes Bier bestellte, meinte er: „Du trinkst zu viel!“ „Und du rauchst zu viel“, antwortete ich, denn er zündete sich gerade schon wieder eine Zigarette an. „Keineswegs“, protestierte er. „Es ist statistisch erwiesen – das müsstest du als Statistiker ja wissen –, der durchschnittliche Deutsche raucht pro Tag acht Zigaretten. Ich bin noch deutlich unter diesem Durchschnitt“, fügte er hinzu und inhalierte genüsslich den Tabakqualm. „Man kann überhaupt nichts beweisen, statistisch schon mal gar nicht“, antwortete ich. „Das mit den acht Zigaretten im Durchschnitt, das ist nur eine Hypothese!“ „Ja, und?“ „Wir Statistiker können nur untersuchen, zum Beispiel durch Befragungen, ob eine solche Hypothese bestätigt werden kann oder ob sie besser verworfen werden sollte.“ „Mach doch mal!“, sagte er und zog an seiner Zigarette. „Man müsste eine Zufallsstichprobe aus der Gesamtheit aller Männer ziehen – vielleicht hundert Männer – und diese nach ihrem tagesdurchschnittlichen Zigarettenkonsum befragen. Vorausgesetzt, sie antworten wahrheitsgemäß ...“, Bernd hüstelte vor sich hin, „... also wenn sie die Wahrheit sagen, hätten wir hundert Einzelangaben, aus denen wir den Durchschnitt ausrechnen könnten ...“ „... und dabei kommt acht raus, wetten? Und dann ist meine Hypothese bestätigt!“ „Richtig“, sagte ich. „Aber auch wenn der Durchschnittswert nicht acht ist, können wir die Hypothese bestätigen, vorausgesetzt, der Stichprobenmittelwert weicht nicht zu weit von acht ab. Ist die Abweichung zu groß, wird deine Hypothese verworfen!“ „Und was ist eine kleine Abweichung oder eine große?“, fragte Bernd. „Das sagt dir die Wahrscheinlichkeitsrechnung“, antwortete ich. „Ich kann dir das gern im Einzelnen erklären.“ „Trink lieber noch ein Bier“, sagte er.
324
16.2
16.2
Beispiel: Der Zigarettentest
Beispiel: Der Zigarettentest
Mein Freund Bernd hat also die Hypothese formuliert, der tagesdurchschnittliche Zigarettenkonsum läge in der Grundgesamtheit (erwachsene deutsche Männer) bei acht Zigaretten. Die Statistiker bezeichnen eine solche Ausgangshypothese als Nullhypothese (abgekürzt mit dem Symbol H 0 ). Bezeichnet man den Mittelwert der Grundgesamtheit mit , so gilt also H0 : 0
0
8
bezeichnet dabei den in der Nullhypothese behaupteten Mittelwert der Grundgesamtheit.
Es wird nun eine Zufallsstichprobe vom Umfang n 100 gezogen. Nachdem wir in dieser Stichprobe den Mittelwert ausgerechnet haben, finden wir den Wert von 7,0 Zigaretten im Tagesdurchschnitt. Auch die Standardabweichung rechnen wir aus. Sie liegt bei vier Zigaretten. Widerspricht der Stichprobenbefund der Aussage der Nullhypothese oder nicht? Auf den ersten Blick scheint zweifelsohne ein Widerspruch vorzuliegen, der uns veranlassen könnte, die Nullhypothese zu verwerfen. Allerdings muss berücksichtigt werden, dass – weil wir ja eine Zufallsstichprobe gezogen haben, zufälligerweise der Stichprobenmittelwert vom Hypothesenwert abweichen könnte. Wenn die Abweichung von einer Zigarette nur zufälliger Natur ist, würde der Stichprobenbefund nicht dazu taugen, die Nullhypothese zu verwerfen. Wäre die Abweichung aber so groß, dass sie nicht mehr als zufällig deklariert werden könnte, müsste die Nullhypothese sinnvollerweise verworfen werden. In diesem Fall würde man von einer signifikanten (nicht zufälligen) Abweichung sprechen. Daher hat übrigens das gesamte Verfahren seinen Namen – man spricht von einem Signifikanztest. Ob nun eine bestimmte Abweichung zwischen Hypothesenwert und Stichprobenbefund signifikant (groß) ist oder nicht (zufällig), entscheiden wir mit Hilfe der Wahrscheinlichkeitsstatistik. Wir formulieren die folgende zentrale Frage: Wie wahrscheinlich ist es, Gültigkeit der Nullhypothese einmal vorausgesetzt, dass der beobachtete Stichprobenbefund oder ein noch weiter von der Nullhypothese abweichender Befund (sieben oder weniger Zigaretten im Tagesdurchschnitt) in einer reinen Zufallsstichprobe vom Umfang n 100 auftauchen kann? Ist diese Wahrscheinlichkeit klein – war also der Stichprobenbefund eigentlich gar nicht zu erwarten, ist aber nun doch aufgetreten – nehmen wir dieses unerwartete Ergebnis (unerwartet bei Gültigkeit der Nullhypothese) zum Anlass, die Nullhypothese zu verwerfen. Ist hingegen die Wahrscheinlichkeit groß, ist also das aufgetreten, was (bei Gültigkeit der Nullhypothese) auch zu erwarten war, werden wir sie bestätigen. Üblicherweise gibt man sich eine kleine Wahrscheinlichkeit vor (zum Beispiel 5%), die man das Signifikanzniveau nennt. Die Nullhypothese wird dann verworfen, wenn die Wahrscheinlichkeit für den beobachteten Stichprobenbefund oder einen noch weiter von der Nullhypothese abweichenden Befund kleiner oder gleich diesem Signifikanzniveau ist. Ist sie größer, gilt die Nullhypothese als bestätigt. Wie berechnet man nun die fragliche Wahrscheinlichkeit? Wir wissen aus Kapitel 15, dass der Mittelwert der Zufallsstichprobe (7,0) Ausprägung einer Zufallsvariablen ist. Diese Zufallsvariable folgt einer Wahrscheinlichkeitsverteilung – und diese brauchen wir jetzt. Diese Wahrscheinlichkeitsverteilung heißt Stichprobenverteilung für
16
325
Der parametrische Hypothesentest
den Zufallsstichprobenmittelwert, und diese ist näherungsweise eine Gauß’sche Normalverteilung mit den folgenden Parametern: Mittelwert:
X
Standardabweichung:
X
0
n
Es ist klar: Wenn wir immer mit dem Halbsatz operieren „Gültigkeit der Nullhypothese vorausgesetzt“, dann muss der Mittelwert aller Stichprobenmittelwerte (es ist der Erwartungswert der Zufallsvariablen X ) mit dem behaupteten Mittelwert der Grundgesamtheit, also mit 8 , identisch sein. 0 Bei der Berechnung der Standardabweichung der zu verwendenden Normalverteilung benötigen wir (die Standardabweichung der Grundgesamtheit). Die ist aber in der Regel unbekannt. Wir werden weiter unten zeigen, dass man sie durch die Standardabweichung der Stichprobe s ersetzen darf. Nutzen wir diese Ersetzungsmöglichkeit, ergibt sich als Streuung der zu verwendenden Normalverteilung der Wert 0,4 (siehe Abbildung 16.1).
Abb. 16.1: Stichprobenverteilung für das Zigarettenbeispiel (E16.XLS, Zig1)
Zu berechnen ist also die Fläche links vom Wert 7 unter der Kurve N(8;0,4) der Abbildung 16.1. Sie gibt die Wahrscheinlichkeit dafür an, dass in einer Zufallsstichprobe vom Umfang n 100 ein Mittelwert von 7,0 oder kleiner auftritt – Gültigkeit der Nullhypothese vorausgesetzt. Um diese Wahrscheinlichkeit zu bestimmen, nutzen wir wieder die Excel-Funktion NORMVERT (siehe Abbildung 16.2 auf der folgenden Seite). 1. 2. 3. 4.
Geben Sie in Zelle A1 einer freien Tabelle den Wert 7 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. Wählen Sie aus der Kategorie STATISTIK die Funktion NORMVERT. Klicken Sie die Schaltfläche OK an.
326 5.
6.
16.3
Mittelwerttest
Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: A1 bei MITTELWERT: 8 bei STANDABWN: 0,4 bei KUMULIERT: 1 Klicken Sie OK an.
Abb. 16.2: Funktion NORMVERT, zweites Fenster des Funktions-Assistenten
Statt den Funktions-Assistenten zu bemühen, hätten Sie auch einfach in eine freie Tabellenzelle eingeben können: =NORMVERT(7;8;0,4;1) Um die Werte der Verteilungsfunktion der Normalverteilung zu bestimmen – und diese sind es, die wir hier brauchen –, muss bei KUMULIERT, also als viertes Argument, der Wert 1 eingegeben werden. Excel berechnet dann die Fläche links vom im ersten Argument angegebenen Wert – und die ist es, die wir hier suchen. Es ergibt sich also der Wert 0,0062 (gerundet). Es besteht demnach eine Wahrscheinlichkeit von 0,62% dafür, dass in einer Zufallsstichprobe vom Umfang 100 – Gültigkeit der Nullhypothese vorausgesetzt – ein Mittelwert auftritt, der 7 oder kleiner ist. Hätten wir uns als Signifikanzniveau 5% vorgegeben, müssten wir also zu folgendem Schluss gelangen: Weil die Wahrscheinlichkeit des Stichprobenbefundes oder eines noch weiter vom Nullhypothesenwert abweichenden Befundes kleiner ist als das Signifikanzniveau, also etwas passiert ist, was sehr unwahrscheinlich ist – Gültigkeit der Nullhypothese vorausgesetzt –, wird diese verworfen.
16.3
Mittelwerttest
Das Beispiel des vorangegangenen Abschnitts war ein Mittelwerttest. Die Vorgehensweise soll in diesem Abschnitt an einem weiteren Beispiel etwas detaillierter erörtert werden, damit
16
327
Der parametrische Hypothesentest
Sie auch eine Vorstellung über die Hintergründe dieses in der statistischen Praxis außerordentlich wichtigen Verfahrens gewinnen können. Dieses zweite Beispiel bezieht sich also ebenfalls auf das arithmetische Mittel Grundgesamtheit. Die zu prüfende Hypothese lautet folgendermaßen:
einer
Die durchschnittliche Körpergröße erwachsener deutscher Männer liegt bei 175 cm. Da dieser Mittelwert zum Gegenstand der zu prüfenden Nullhypothese wird, bezeichnen wir ihn wieder mit 0 . Der wahre Grundgesamtheitsmittelwert ist unbekannt. Allerdings setzen wir hier zunächst voraus (im Gegensatz zum Beispiel zuvor), dass die Standardabweichung der Grundgesamtheit (also ) bekannt sei. Sie möge 12 cm betragen. Um die formulierte Hypothese im Lichte des empirischen Befundes zu überprüfen, wird eine einfache Zufallsstichprobe zum Beispiel vom Umfang n 100 gezogen. Aus den Werten dieser Zufallsstichprobe berechnen wir ein arithmetisches Mittel. Es möge sich x 177 cm ergeben. Widerspricht dieses Ergebnis der Aussage der Nullhypothese, oder ist es damit vereinbar? Wer sich nie mit der Wahrscheinlichkeitsstatistik befasst hat, wird folgendermaßen argumentieren: Da der Stichprobenbefund (177 cm) von der Aussage der Nullhypothese abweicht (175), da also ein Unterschied von 2 cm beobachtet wurde, ist die Nullhypothese zu verwerfen. Wir haben aber gesehen, dass eine solche Schlussfolgerung etwas zu voreilig sein könnte. Würden wir die Hypothese auch verwerfen, wenn nur 1 cm Unterschied beobachtet wird oder vielleicht sogar nur 0,2 Millimeter? Sicherlich sind auch 0,2 Millimeter Anlass zur Feststellung, dass der Stichprobenbefund nicht mit der Aussage der Nullhypothese übereinstimmt – aber ist dies eine signifikante Abweichung? Wir wissen ja, dass die Informationen, auf die wir uns stützen, aus einer Zufallsstichprobe stammen. Kann es nicht einfach nur der Zufall mit sich gebracht haben, dass wir einen Unterschied von 0,2 Millimeter registrieren? Kann nicht auch ein Unterschied von einem oder sogar von zwei Zentimetern zufallsbedingt sein? Zweifelsohne werden wir einen Stichprobenbefund nicht zum Anlass nehmen, eine Nullhypothese zu verwerfen, wenn eventuelle Abweichungen zwischen Stichprobenergebnis und Aussage der Nullhypothese zufallsbedingt sind. Sehr wohl aber werden wir die Nullhypothese verwerfen, wenn Abweichungen auftreten, die nicht mehr als zufällig klassifiziert werden können, die also als signifikant einzustufen sind. Die Entscheidung über die Nullhypothese reduziert sich also auf die Frage, ob der (eventuelle) Unterschied zwischen Stichprobenergebnis und Aussage der Nullhypothese signifikant ist oder zufällig. Die Antwort auf diese Frage ist zugleich die Entscheidung über die Nullhypothese, und wir finden diese Antwort auf dem folgenden Wege: Wir fragen danach, wie wahrscheinlich es ist, dass – Gültigkeit der Nullhypothese vorausgesetzt – der beobachtete Stichprobenbefund oder ein noch weiter von der Nullhypothese abweichender Wert realisiert werden kann. Für unser Beispiel lautet diese Frage also wie folgt: Wie wahrscheinlich ist es, dass – wenn 175 der wahre Mittelwert ist (was wir aber wohlgemerkt nicht wissen) – ein Stichprobenmittelwert in einer Zufallsstichprobe vom Umfang n 100 auftritt, der 177 cm oder noch größer
328
16.3
Mittelwerttest
(noch weiter von 175 abweichend) ist? Die Hypothesenentscheidung kommt also dadurch zustande, dass wir berechnen: P X 177 H 0
?
Diese Wahrscheinlichkeit nennen wir Überschreitungswahrscheinlichkeit oder rechnerische Signifikanz. Wir müssen allerdings vor der Testdurchführung noch festlegen, was wir unter einer großen bzw. unter einer kleinen Wahrscheinlichkeit verstehen wollen. Üblicherweise gibt man sich eine kleine Wahrscheinlichkeit vor, zum Beispiel 1%, 5% oder 10%, die als Signifikanzniveau bezeichnet und mit dem Symbol abgekürzt wird. Ist die Überschreitungswahrscheinlichkeit kleiner oder gleich diesem vorgegebenen Signifikanzniveau, dann ist sie zu klein, d.h., die Nullhypothese wird dann verworfen. Ist sie hingegen größer als , gilt die Nullhypothese als bestätigt. Um die Überschreitungswahrscheinlichkeit zu berechnen, benötigen wir die zuständige Wahrscheinlichkeitsverteilung. Wir wissen schon aus dem ersten Beispiel, dies ist eine Normalverteilung mit dem Mittelwert x
0
175
und der Standardabweichung x
n
1,2
Abb. 16.3: Stichprobenverteilung des Mittelwerts (E16.XLS, SPVX1)
Gesucht ist die Fläche rechts von 177 unter N 175;1,2 in Abbildung 16.3. Verwenden wir Excel, so gewinnen wir die gesuchte Überschreitungswahrscheinlichkeit auf dem folgenden schon bekannten Weg:
16
Der parametrische Hypothesentest
329
1. 2.
Geben Sie in Zelle A1 einer freien Tabelle den Wert 177 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. 3. Wählen Sie aus der Kategorie STATISTIK die Funktion NORMVERT. 4. Klicken Sie die Schaltfläche OK an. 5. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: A1 bei MITTELWERT: 175 bei STANDABWN: 1,2 bei KUMULIERT: 1 6. Klicken Sie OK an. 7. Rechnen Sie in B2: =1-B1 Anmerkung: Der Schritt 7. ist – im Gegensatz zum ersten Beispiel – hier erforderlich, weil wir nicht die linksseitige Fläche (links von 177; sie wird über die Funktion NORMVERT bestimmt) benötigen, sondern die rechtsseitige Fläche. Es ergibt sich der Wert 0,0478 (gerundet), wie es Abbildung 16.4 zeigt. Es besteht also eine Wahrscheinlichkeit von 4,78% dafür, dass in einer Zufallsstichprobe vom Umfang 100 – Gültigkeit der Nullhypothese vorausgesetzt – ein Mittelwert auftritt, der 177 cm oder größer ist.
Abb. 16.4: Berechnung der Überschreitungswahrscheinlichkeit
Nun kann die Testentscheidung herbeigeführt werden: Nehmen wir einmal an, wir hätten als Signifikanzniveau 5% vorgegeben. Da die Überschreitungswahrscheinlichkeit kleiner ist als – wenn auch knapp –, wird die Nullhypothese verworfen. Der Stichprobenbefund (177 cm) weicht signifikant und nicht mehr im Rahmen des Zufälligen zulässig vom Wert der Nullhypothese ab (175 cm). Anmerkung: Es gibt noch einen zweiten Weg, diese Testentscheidung herbeizuführen. Dieser zweite Weg wird durch Abbildung 16.5 auf der folgenden Seite verdeutlicht, in die wir das Signifikanzniveau 5% eingetragen haben (dabei steht SN für Signifikanzniveau und ÜW für Überschreitungswahrscheinlichkeit). Sie sehen sofort: Wenn der Stichprobenbefund in den Bereich der waagerechten Achse unter dem Signifikanzniveau liegt – wir nennen diesen Bereich den Signifikanzbereich oder den Rückweisungsbereich –, dann ist seine Überschreitungswahrscheinlichkeit notwendigerweise kleiner als (oder höchstens gerade genauso groß). In diesem Fall wird die Nullhypothese verworfen. Liegt hingegen der Stichprobenbefund auf der waagerechten Achse außerhalb des Signifikanzbereichs (dies ist der so genannte Annahmebereich), wird die Nullhypothese angenommen, sie gilt dann als bestätigt.
330
16.3
Mittelwerttest
Abb. 16.5: Stichprobenverteilung mit Signifikanzniveau (E16.XLS, SPVX2)
Nun wissen Sie aus der Besprechung der Standardnormalverteilung, dass der Wert 1,645 der Standardnormalvariablen K einen rechtsseitigen Flächenbereich von 5% abgrenzt. Wir brauchen also nur den Stichprobenbefund (177) mit den Parametern der zuständigen Verteilung zu standardisieren. Ist der sich ergebende standardisierte Wert kleiner als 1,645, gilt die Hypothese als bestätigt (der Stichprobenbefund liegt dann im Annahmebereich; seine Überschreitungswahrscheinlichkeit ist größer als ); ist er hingegen 1,645 oder größer, liegt der Stichprobenbefund im Rückweisungsbereich, d. h. die Nullhypothese wird verworfen (die Überschreitungswahrscheinlichkeit ist dann nicht größer als ). Die Standardisierung des Stichprobenbefundes ergibt den folgenden Wert: k
177 175 1,2
1,67
Da 1,67 1,645 liegt der Stichprobenbefund im Rückweisungsbereich. Die Nullhypothese wird verworfen. Es gibt sogar noch einen dritten Weg, der natürlich zur gleichen Testentscheidung führen muss: Wir könnten den standardisierten Rückweisungspunkt k r
1,645 entstandardisieren.
Dann kann der nicht standardisierte Rückweisungspunkt x r gefunden werden. Diesen können wir direkt mit dem Stichprobenbefund (177) vergleichen. Es ergibt sich: 1,645
x r 175 oder x r 1,2
175 1,2 1,645 176,974
16
Der parametrische Hypothesentest
331
Da 176,974 177 , liegt der Stichprobenbefund im Rückweisungsbereich. Die Nullhypothese wird verworfen.
16.4
Entscheidungsfehler
Nichts im Leben ist ohne Risiko, so auch Entscheidungen bei Signifikanztestverfahren. Um dies näher zu erläutern, zunächst noch einmal zum Begriff der Hypothese. Einfach formuliert, handelt es sich bei einer Hypothese um eine Aussage, deren Wahrheitsgehalt wir nicht kennen: Die durchschnittliche Körpergröße deutscher erwachsener Männer beträgt 175 cm; das mittlere monatliche Nettoeinkommen abhängig Beschäftigter in der Bundesrepublik Deutschland liegt bei 3450 Euro; die Streuung dieser Einkommen kann mit 580 Euro bemessen werden (Standardabweichung der Einkommen); der Anteilswert weiblicher Studierender an den deutschen Hochschulen liegt bei 33%; im Schnitt rauchen die deutschen Männer acht Zigaretten pro Tag. Das sind Beispiele für Hypothesen. Wir haben sie so gewählt, dass Sie sofort erkennen, dass diese Hypothesen sich auf Parameter (Mittelwerte, Standardabweichungen, Anteilswerte) beziehen. Sie werden auch deshalb parametrische Hypothesen genannt. Natürlich können sich Hypothesen auch auf Differenzen von Parametern beziehen: Das Durchschnittsgewicht bayrischer Männer ist um 3 kg höher als das der Männer aus dem Saarland; die Streuung der Einkommen ist in den neuen Bundesländern geringer als im alten Bundesgebiet; der Anteil weiblicher Studierender an der Ruhr-Universität Bochum unterscheidet sich nicht von dem an der Universität München. Auch andere Parameter können in Hypothesen angesprochen werden, beispielsweise in Zusammenhangshypothesen: Es besteht ein starker statistischer Zusammenhang zwischen dem tagesdurchschnittlichen Zigarettenkonsum und der Gefahr, an Bronchialkrebs zu erkranken; es besteht kein Zusammenhang zwischen dem Geschlecht und der bevorzugten politischen Partei. Schließlich sind auch ganz andere Hypothesen vorstellbar, die sich nicht auf Parameter beziehen: Intelligenzquotienten sind normalverteilt; die Abfolge der Zahlen beim Roulettespiel ist rein zufällig. Derartige nichtparametrische Hypothesen sollen allerdings zunächst nicht betrachtet werden. Gemeinsam ist allen Hypothesen, dass sie Aussagen über die Realität (oder über bestimmte Ausschnitte der Realität) darstellen, wobei wir in aller Regel nicht wissen, ob eine bestimmte Aussage zutrifft oder nicht. Genau genommen sind alle Aussagen Hypothesen, denn niemand
332
16.4
Entscheidungsfehler
kennt die Realität wirklich hundertprozentig. Wenn man sich nun mit einer solchen Hypothese beschäftigt, dann ja eigentlich nur deshalb, weil man erfahren möchte, ob sie wahr ist oder falsch. Und da helfen nun die empirische Forschung und die Statistik weiter. Speziell die Statistik gibt uns Methoden an die Hand, mit deren Hilfe wir darüber entscheiden können, ob eine Hypothese akzeptiert werden kann oder ob sie besser verworfen werden sollte. Wohlgemerkt: Auch der Statistiker mit all seinen mehr oder weniger anspruchsvollen Instrumenten ist nicht in der Lage zu erkennen, ob eine Hypothese wahr ist oder falsch – das kann nur ein Allwissender –, aber er kann Regeln entwickeln, die darüber entscheiden, ob es sinnvoll ist, eine Hypothese zu verwerfen oder nicht. Diese Situation – Wahrheit einer Hypothese einerseits und statistische Entscheidung über ihre Bestätigung – kann schematisch so skizziert werden, wie es Abbildung 16.6 zeigt.
Abb. 16.6: Hypothesen (E16.XLS, HYp)
Wenn wir eine Hypothesenentscheidung mit den zuständigen statistischen Methoden herbeiführen, dann kann dies eine korrekte Entscheidung sein, dann nämlich, wenn eine wahre Hypothese bestätigt oder wenn eine falsche Hypothese verworfen wird. Es kann uns aber auch eine Fehlentscheidung unterlaufen: Wenn wir eine wahre Hypothese (zu Unrecht) verwerfen, begehen wir den so genannten -Fehler (auch Fehler vom Typ I oder Fehler erster Art genannt), wenn wir eine falsche Hypothese (zu Unrecht) bestätigen oder beibehalten, begehen wir den -Fehler (Fehler vom Typ II oder Fehler zweiter Art). Derartige Fehlentscheidungen lassen sich nicht ausschließen, weil wir ja eben nicht wissen, was wahr und was falsch ist – und das auch nie mit letzter Gewissheit wissen werden. Deshalb stellt sich die Frage, wozu solche Hypothesenentscheidungen gut sein sollen, wenn dabei immer das Risiko von Fehlentscheidungen besteht. Die Antwort ist einfach: Geeignete statistische Methoden erlauben es, die Wahrscheinlichkeit dafür, solche Fehlentscheidungen zu begehen, klein zu halten – mehr noch, sie erlauben es auch, diese Wahrscheinlichkeiten zu quantifizieren. Wir werden also Aussagen formulieren von der folgenden Art: Die zu prüfende Hypothese verwerfen wir, wobei das Risiko (die Wahrscheinlichkeit), dass dies eine Fehlentscheidung ist, 5% beträgt – und 5% Risiko ist nicht viel. Dabei erfolgt die Entscheidung über die zu prüfende Hypothese im Lichte empirischer Befunde – man darf dies als den generellen Weg des Erkenntnisgewinns in den empirisch orientierten Wissenschaften bezeichnen. Wir nutzen dabei den so genannten direkten Schluss, wobei dieser Begriff wie folgt erläutert werden kann: Die expliziten Parameter der Stichprobenverteilungen, die wir besprochen haben, lassen sich nummerisch nur angeben, wenn man weiß, wie groß gewisse Parameter der Grundgesamtheit
16
Der parametrische Hypothesentest
333
sind, zum Beispiel oder . Dies ist bei den vorangegangenen Beispielen sehr deutlich geworden. Beispielsweise ist die Stichprobenverteilung des arithmetischen Mittels aus einer großen Zufallsstichprobe approximativ eine Gauß’sche Normalverteilung mit dem Mittelwert: X
0
und der Standardabweichung X
n
Da haben wir den Salat! und , die Parameter der Grundgesamtheit, aus der die Stichprobe gezogen wird, müssen bekannt sein, wenn man überhaupt Wahrscheinlichkeiten zum Beispiel für den Stichprobenmittelwert berechnen will. Kennt man aber diese Parameter der Grundgesamtheit, so kennt man die Grundgesamtheit selbst – dann aber ist das Ziehen von Stichproben im Grunde überflüssig. Man kann dann zwar zum Beispiel berechnen, wie groß die Wahrscheinlichkeit ist, dass der Stichprobenmittelwert einen Wert annimmt, der größer ist als der Mittelwert der Grundgesamtheit, aber ist das interessant? Das Vorgehen, von bekannten Grundgesamtheitsparametern auf die nummerische Ausprägung entsprechender Stichprobengrößen zu schließen, wird in der theoretischen Statistik gewöhnlich als direkter Schluss oder Inklusionsschluss (oder als Deduktion) bezeichnet. Dieser Inklusionsschluss ist deshalb besonders wichtig, weil er es erlaubt, die für weitere Berechnungen erforderlichen Parameter der Stichprobenverteilungen zu ermitteln, wie wir das bisher auch getan haben, aber ist das interessant? In der Realität ist es doch so, dass die nummerischen Werte der Parameter einer Grundgesamtheit in aller Regel unbekannt sind – und damit sind wir nun in einer Sackgasse. Nun liegt aber der außerordentlich fruchtbare Gedanke nahe, hierfür hypothetische Werte vorzugeben und aufgrund einer Zufallsstichprobe zu überprüfen, ob die hypothetischen Werte mit den Stichprobenbefunden in Widerspruch stehen. Das ist der Kerngedanke des parametrischen Hypothesentests. Wir benutzen dabei die Stichprobenverteilungen, die wir schon besprochen haben. Es ändert sich an ihrer Herleitung nichts – nur haben die Grundgesamtheitsparameter jetzt keine bekannten (oder wahren) Werte mehr, sondern sie werden ersetzt durch hypothetische Werte. Dies sind Werte, die durch eine statistische Hypothese vorgegeben werden. Unter diesem Begriff der Hypothese versteht man – allgemein gesprochen – eine Annahme oder Behauptung über die unbekannte Verteilung einer Zufallsvariablen in der Grundgesamtheit. Bezieht sich die statistische Hypothese nur auf den Wert eines oder mehrerer Parameterwerte der Zufallsvariablen, so bezeichnet man sie als Parameterhypothese (oder weniger schön: parametrische Hypothese). Hypothesen dieser Art waren Gegenstand der bisher besprochenen beiden Rechenbeispiele. Von besonderer Wichtigkeit ist jetzt die Unterscheidung statistischer Hypothesen in Null- und Alternativhypothesen. Die zu prüfende Hypothese wird Nullhypothese genannt. Alle übrigen Hypothesen im gleichen Sachzusammenhang werden als Alternativhypothesen bezeichnet. Natürlich setzt niemand eine statistische Hypothese in die Welt, um es dann dabei zu belassen. Hypothesen werden formuliert, damit sie im Lichte des empirischen Befundes überprüft wer-
334
16.4
Entscheidungsfehler
den können. Dies ist das Anliegen eines statistischen Tests. Wir verstehen ihn als ein Verfahren, das aufgrund von Stichprobenergebnissen darüber entscheidet, ob eine statistische Hypothese akzeptiert oder verworfen wird. Bezieht sich der Test auf eine Parameterhypothese, sprechen die Statistiker von einem Parametertest (oder parametrischer Hypothesentest). Bezieht sich der Test auf eine Verteilungshypothese, so wird er – vielleicht zu Ihrer Verblüffung – nicht etwa Verteilungstest genannt, sondern er wird als Anpassungstest (Goodness-of-Fit-Test) bzw. nichtparametrischer Test bezeichnet (siehe dazu Kapitel 19). Doch nun zurück zum Risiko des Entscheidungsfehlers. Sie erinnern sich: Die Verwerfung einer Nullhypothese kann falsch sein (Fehler vom Typ I), dann nämlich, wenn die Nullhypothese in Wirklichkeit doch zutrifft. Wie groß ist die Wahrscheinlichkeit dafür, diesen Fehler zu begehen? Eine leicht nachvollziehbare Überlegung lässt uns die Antwort finden. Stellen Sie sich vor, der Hypothesentest unseres letzten Beispiels (die Sache mit der durchschnittlichen Körpergröße) würde als Übungsaufgabe an 500 Studenten verteilt. Fünfhundert Mal also soll mit jeweils einer Zufallsstichprobe vom Umfang n 100 die Hypothese geprüft werden, dass der Durchschnittswert der Grundgesamtheit den Wert 175 hat. Wenn jeder der Studenten sich ein Signifikanzniveau von 5% vorgibt, dann geschehen merkwürdige Dinge: Wenn die Nullhypothese zutrifft, gerade wenn sie zutrifft, dann gilt als Stichprobenverteilung für den Zufallsstichprobenmittelwert die oben skizzierte Gauß’sche Normalverteilung. Das bedeutet aber, dass 5% der 500 Zufallsstichprobenmittelwerte so groß sein werden, dass sie im Rückweisungsbereich liegen müssen. Das bedeutet weiterhin, dass von den 500 Studenten – Gültigkeit der Nullhypothese vorausgesetzt – 25 die Nullhypothese (fälschlicherweise) verwerfen werden. Für den praxisüblichen Fall einer einzigen Zufallsstichprobe bedeutet dies: Es besteht eine Wahrscheinlichkeit von 5% ( ) dafür, die Nullhypothese zu verwerfen, obwohl sie zutrifft. Die Wahrscheinlichkeit des Fehlers erster Art ist also gerade genauso groß wie das vom Teststatistiker vorgegebene Signifikanzniveau . Sicherlich wird man daran interessiert sein, dieses Fehlerrisiko möglichst klein zu halten. Bedenken Sie aber: Je kleiner Sie das Signifikanzniveau wählen, desto geringer ist diese Fehlerwahrscheinlichkeit – aber: Je kleiner ist, desto schwieriger wird es, eine Nullhypothese überhaupt zu verwerfen – auch dann, wenn sie tatsächlich verworfen werden sollte. Dies bedeutet, dass mit der erwünschten Verkleinerung von die Fehlerwahrscheinlichkeit zunimmt, eine Nullhypothese beizubehalten, obgleich sie eigentlich verworfen werden sollte (das ist jetzt der -Fehler). Die Verringerung der Wahrscheinlichkeit des einen Fehlers erhöht die des anderen. Wie man sich aus diesem unangenehmen Dilemma befreien kann, wird weiter unten besprochen. An dieser Stelle beschränken wir uns auf den Ratschlag, als Signifikanzniveau (Wahrscheinlichkeit des Fehlers erster Art; Fehler vom Typ I) eine kleine Wahrscheinlichkeit vorzugeben. Wie gesagt, üblicherweise wählt man 1%, 5% wie im Beispiel oder 10%. Dazu noch eine zusätzliche Anmerkung: Wenn Sie noch nicht wissen, ob der Stichprobenbefund größer als der Nullhypothesenwert ist (wie im Beispiel) oder kleiner – also vor der Stichprobenerhebung selbst –, gibt man sich ein zweiseitiges Signifikanzniveau vor und nicht
16
Der parametrische Hypothesentest
335
– wie wir – ein einseitiges Signifikanzniveau. Wir wollen ja die Nullhypothese auch dann verwerfen, wenn ein zu kleiner Stichprobenmittelwert auftritt, zum Beispiel 171 cm. Es gibt dann zwei Rückweisungs- oder Entscheidungspunkte, weil das zweiseitige Signifikanzniveau üblicherweise jeweils zur Hälfte auf beiden Seiten der zuständigen Stichprobenverteilung angeordnet wird. Bei einem zweiseitigen Signifikanzniveau von zum Beispiel jeder Seite der Verteilung 5% an.
10% ordnet man also auf
Es wird also deutlich, wie wichtig die Wahl des Signifikanzniveaus für den Ausgang des Tests ist. Wenn das Risiko des Fehlers erster Art (eine Nullhypothese zu Unrecht zu verwerfen) verkleinert wird – dies bedeutet ja die Verkleinerung des Signifikanzniveaus –, dann muss in der Zufallsstichprobe eine größere Abweichung zum Nullhypothesenwert auftauchen, bevor wir es wagen, die Nullhypothese zu verwerfen. Sie wird quasi länger geschützt! Wie groß sollte man also das Signifikanzniveau ansetzen? Doch wohl nicht so, dass die Testentscheidung so ausfällt, wie man es sich wünscht. Über diesen Punkt müssen wir jetzt noch sprechen. Wie gerade erwähnt, ergibt sich der Fehler erster Art, wenn eine zutreffende Nullhypothese (fälschlicherweise) verworfen wird. Damit ist selbstverständlich nicht gesagt, dass mit der Annahme einer Nullhypothese kein Fehler begangen werden kann. Die Annahme einer nicht zutreffenden Nullhypothese ist natürlich auch ein Fehler! Diesen Fehler hatten wir als Fehler vom Typ II oder -Fehler bezeichnet (Fehler zweiter Art). Dieser Fehler wird also immer dann begangen, wenn eine unzutreffende Nullhypothese (fälschlicherweise) bestätigt oder akzeptiert wird. Die Annahme einer Nullhypothese bedeutet insofern nichts anderes, als dass sämtliche (zulässigen) Alternativhypothesen H a abgelehnt werden. Wie groß sind die Wahrscheinlichkeiten für die einzelnen Fehler bzw. für richtige Schlussfolgerungen? Die Wahrscheinlichkeit für den Fehler erster Art haben wir schon genannt: Es ist die Wahrscheinlichkeit, eine zutreffende Nullhypothese abzulehnen – und diese ist gerade genauso groß wie das vorgegebene Signifikanzniveau . Wie groß ist nun die Wahrscheinlichkeit für die eine Art der richtigen Schlussfolgerung, also für die Bestätigung der Nullhypothese, wenn sie tatsächlich auch zutrifft? Offensichtlich beträgt diese Wahrscheinlichkeit 1 . In unserem Zigarettenbeispiel betrug die Wahrscheinlichkeit für eine richtige Schlussfolgerung dieser Art 95% (oder 0,95, was dasselbe bedeutet) – falls der durchschnittliche Zigarettenverbrauch pro Kopf und Tag tatsächlich acht ist (was wir aber nicht wissen, auch nicht nach Durchführung des Tests – das sei noch einmal betont). Wie groß ist die Wahrscheinlichkeit für einen Fehler zweiter Art? Die Wahrscheinlichkeit, eine unzutreffende Nullhypothese beizubehalten, also zu bestätigen bzw. nicht zu verwerfen, obwohl sie falsch ist, hängt davon ab, wie groß der wahre (und uns unbekannte) nummerische Wert des Mittelwerts (durchschnittlicher Zigarettenkonsum) in der Grundgesamtheit ist. Um nun weiter zu kommen, ist es erforderlich, der Nullhypothese eine bestimmte Alternativhypothese H a gegenüberzustellen. Wenn wir uns Gedanken darüber machen, dass die Nullhypothese fälschlicherweise bestätigt werden könnte, dann heißt das ja, dass statt der Nullhypothese eine Alternativhypothese zu-
336
16.4
Entscheidungsfehler
treffend sein muss. Stellen Sie sich einmal vor, nicht der Mittelwert, den die Nullhypothese behauptet (8), sei der wahre Wert, sondern der (wahre) Alternativwert sei 7,5 (Zigaretten im Schnitt). Wenn das nun wahr sein sollte, dann ist die Stichprobenverteilung für den Zufallsstichprobenmittelwert nicht die Gauß’sche Normalverteilung mit dem Mittelwert 8 , sondern diejenige Normalverteilung, deren Mittelwert bei a 7,5 liegt. 0 X Erinnern Sie sich an folgenden Gedankengang: Wenn man alle verschiedenen Zufallsstichproben gleichen Umfangs ziehen würde, die man ziehen kann, und wenn man in all diesen Zufallsstichproben das arithmetische Mittel ausrechnen würde und wenn man alle diese Mittelwerte ihrerseits mitteln würde, dann muss der wahre Mittelwert der Grundgesamtheit herauskommen; der Mittelwert aller Mittelwerte entspricht dem wahren Wert der Grundgesamtheit – und wenn 7,5 der wahre Wert ist, dann muss der Mittelwert der zuständigen Wahrscheinlichkeitsverteilung also bei 7,5 liegen. Genau genommen haben wir es nun – wie es die Abbildung 16.7 auf der folgenden Seite verdeutlicht – mit zwei Stichprobenverteilungen zu tun, also mit zwei Normalverteilungen. Beide haben die gleiche Streuung: X
n
Sie liegen aber an unterschiedlichen Stellen des Achsenkreuzes, denn die erste hat den Mittelwert 8 (bei ihr wird die Gültigkeit der Nullhypothese unterstellt), die andere hat den Mittelwert 7,5 (bei ihr wird die Gültigkeit der Alternativhypothese unterstellt). Sofort wird deutlich, wie die Wahrscheinlichkeit des -Fehlers bestimmt werden kann – das ist ja das Ziel dieser ganzen Überlegungen: Die Wahrscheinlichkeit des -Fehlers entspricht der Fläche unter der linken Verteilung (Mittelwert 7,5) im Bereich der Annahme der Nullhypothese. Anders formuliert: Immer dann, wenn ein Stichprobenbefund im Annahmebereich der Nullhypothese auftaucht, wird die Nullhypothese bestätigt. Ist aber die linke Verteilung gültig, ist also die Alternativhypothese (7,5) zutreffend, ist diese Bestätigung ein Entscheidungsfehler – es ist uns der -Fehler unterlaufen. Um die Wahrscheinlichkeit dieses Fehlers zu berechnen, müssen wir die Entscheidungspunkte mit den Parametern der linken Verteilung standardisieren, um dann die Fläche zwischen diesen beiden k-Werten unter Nutzung von Excel zu bestimmen. Dies setzt allerdings zunächst voraus, dass wir die Entscheidungspunkte (Rückweisungspunkte) kennen (siehe Abbildung 16.7). Es sei für die folgenden Berechnungen ein zweiseitiges Signifikanzniveau von 5% unterstellt (2,5% auf jeder Seite). Bei diesem Signifikanzniveau liegen die standardisierten Rückweisungspunkte bei 1,96 und 1,96 . Wenn wir diese Punkte entstandardisieren, erhalten wir zum Beispiel für den rechtsseitigen Wert: 1,96
x r2
0,4
8
oder x r2
8 1,96 0,4 8,78
Entsprechend ist wegen der Symmetrie der linksseitige entstandardisierte Rückweisungspunkt x r1 7,22 .
16
337
Der parametrische Hypothesentest
Abb. 16.7: Stichprobenverteilungen für die Null- oder die Alternativhypothese (E16.XLS, Zig2)
Sollte also ein Stichprobenmittelwert auftauchen, der größer als 7,22 ist oder kleiner als 8,78, wird die Nullhypothese bestätigt (und der Stichprobenmittelwert 7 führte zu ihrer Verwerfung). Wenn wir diese beiden Rückweisungspunkte mit den Parametern der linken Verteilung (Alternativhypothese trifft zu) standardisieren, so ergeben sich die folgenden beiden k-Werte: k1
7,22 7,5 0,4
0,70
8,78 7,5 0,4
k2
3,20
Damit ist die Bestimmung des -Fehlers (ausführlicher gesprochen: die Bestimmung der Wahrscheinlichkeit des -Fehlers – beide Ausdrucksweisen sind üblich) möglich: P 7,22
X
8,78 H a
P
0,7
K
3,2
0,758
Die Lösung mit Excel sieht so aus: 1. 2. 3. 4. 5.
6.
Geben Sie in Zelle A1 einer freien Tabelle den Wert 7,22 und in A2 den Wert 8,78 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. Wählen Sie aus der Kategorie STATISTIK die Funktion NORMVERT. Klicken Sie die Schaltfläche OK an. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: A1 bei MITTELWERT: 7,5 bei STANDABWN: 0,4 bei KUMULIERT: 1 Klicken Sie OK an.
338
16.4
Entscheidungsfehler
7. Ziehen Sie die Berechnung von B1 nach B2. 8. Rechnen Sie in B3: =B2-B1 Es ergibt sich der Wert 0,757 (gerundet). Die Wahrscheinlichkeit, auf der Grundlage einer Zufallsstichprobe vom Umfang 100 die Nullhypothese (fälschlicherweise) zu bestätigen, obwohl nicht 8, sondern 7,5 der wahre Mittelwert der Grundgesamtheit ist, beträgt fast 76%. Wir haben hier eine vergleichsweise hohe Irrtumswahrscheinlichkeit berechnet, die Sie zunächst vielleicht sehr irritiert. Was ist von einem Verfahren zu halten, das mit derartigen Risiken behaftet ist? Ist es da nicht besser, die Hypothesenentscheidung durch Münzwurf und ohne empirische Untersuchungen herbeizuführen? Immerhin wäre doch beim Münzwurf die Fehlerwahrscheinlichkeit allenfalls 50%, aber doch nicht 76%. Oder versteckt sich da irgendwo ein Denkfehler? Schauen wir uns noch einmal die obige Abbildung 16.7 mit den beiden deckungsgleichen, aber verschobenen Stichprobenverteilungen an. Diese Abbildung verdeutlicht, dass die Wahrscheinlichkeit für den Fehler zweiter Art ceteris paribus (unter ansonsten unveränderten Bedingungen, heißt das) größer wird, sofern die Alternativhypothese näher an die Nullhypothese heranrückt. Weiter ist erkennbar, dass kleiner wird (ceteris paribus), wenn der Stichprobenumfang n erhöht wird: Vergrößerung des Stichprobenumfangs bedeutet Verkleinerung von X
n
also Verkleinerung der Streuung beider Stichprobenverteilungen. Mithin wird die Fläche unter der linken Verteilung über dem Annahmebereich (und das ist ) kleiner. Schließlich wird ceteris paribus aus dem gleichen Grund kleiner, wenn es gelingen könnte, die Streuung der Grundgesamtheit ( ) zu verkleinern. Die Wahrscheinlichkeit, keinen -Fehler zu begehen, beträgt offensichtlich 1 . Das ist demnach die Wahrscheinlichkeit für eine (weitere) richtige Schlussfolgerung – Verwerfung einer an sich falschen Nullhypothese. Was aber hat es nun auf sich mit der unangenehm hohen Wahrscheinlichkeit, den -Fehler zu begehen, wenn die Alternativhypothese (7,5 Zigaretten als Grundgesamtheitsdurchschnitt) zutreffen sollte? Wir kommen dieser Frage näher, wenn wir uns überlegen, was mit passiert, wenn andere Alternativhypothesen einmal als zutreffend unterstellt werden. Stellen Sie sich einmal vor, nicht 7,5 Zigaretten, sondern 7,6 oder 7,7 Zigaretten seien wahre Durchschnittswerte der Grundgesamtheit. Offensichtlich wird – das haben wir oben schon festgestellt – der -Fehler (noch) größer, wenn die Alternativhypothese immer näher an die Nullhypothese heranrückt. Im (trivialen) Grenzfall, in dem die Alternativ- mit der Nullhypothese zusammenfällt (die zweite fällt mit der ersten Stichprobenverteilung zusammen), wird sogar 95% ( , wenn H a H 0 ). max 1 Konkret bedeutet dies: Die Gefahr, die Nullhypothese beizubehalten, wenn für die (zutreffende) Alternativhypothese die Werte 7,6 oder 7,7 oder 7,8 oder 7,9 oder 7,999 unterstellt werden, wird immer größer. Aber – und das soll Sie trösten – dies ist eigentlich gar keine Gefahr im Wortsinne mehr. Es handelt sich um Wahrscheinlichkeiten, nicht um Gefahren. Das soll bedeuten: Die Nullhypothese (Mittelwert = 8) zu bestätigen, wenn in Wirklichkeit der Alternativwert 7,999 zutrifft – das ist ja überhaupt kein Unglück. Einen Wert für wahr zu
16
339
Der parametrische Hypothesentest
halten, obwohl dieser um ein Zehntel Promille neben der Wahrheit ist – das soll uns nicht stören. Oder anders formuliert: Die Wahrheit (7,999) nicht zu erkennen, wenn sie haarscharf neben der Behauptung (8) liegt – das kann jedem passieren und ist nicht tragisch. Wir wissen ja: Je weiter die (zutreffende) Alternativhypothese von der Nullhypothese wegrückt, desto kleiner wird , d. h., die Wahrscheinlichkeit dafür, eine unzutreffende Nullhypothese beizubehalten, obwohl die Wirklichkeit ganz anders aussieht – die wird immer kleiner, je weiter die Wirklichkeit von der Nullhypothesenbehauptung tatsächlich entfernt ist. Und wer jetzt immer noch beunruhigt ist – schließlich kann mit einer Vergrößerung des Stichprobenumfangs n bei gegebenen Bedingungen verkleinert werden. Auch darüber wurde oben schon gesprochen. Dies bedeutet: Je größer unser Informationshintergrund ist, desto eher werden wir eine nicht zutreffende Nullhypothese auch als solche erkennen, also den -Fehler nicht begehen – seine Wahrscheinlichkeit wird mit wachsendem n kleiner.
16.5
Weitere Parametertests
Bei dem ausführlich besprochenen zweiten Beispiel hatten wir unterstellt, dass die Standardabweichung der Grundgesamtheit bekannt sei. Was zu tun ist, wenn diese nicht sehr realistische Voraussetzung aufgegeben werden muss, hatten wir schon beim ersten Beispiel gesehen. Es soll hier noch einmal im Detail auf dieses Problem eingegangen werden.
16.5.1 Test für das arithmetische Mittel bei unbekannter Standardabweichung Wenn die Standardabweichung der Grundgesamtheit nicht bekannt ist – und davon müssen Sie in der Regel ausgehen –, ist bei großen Stichprobenumfängen der Fehler nicht groß, wenn wir durch s, die Standardabweichung der Stichprobe, abschätzen, also durch s ersetzen. Dazu ein Beispiel: Die Firma Immergrün wirbt für ein neues Düngemittel für Erdbeeren mit der Behauptung, dass es die Erträge um durchschnittlich 20% steigert. Ein landwirtschaftliches Forschungsinstitut überprüft diese Behauptung durch die Düngung von 100 kleinen Versuchsparzellen. Es ergibt sich eine durchschnittliche Ertragssteigerung um 16%, wobei die Streuung 15 Prozentpunkte beträgt. Die Behauptung der Firma soll durch einen statistischen Test geprüft werden. Zugrunde gelegt wird ein Signifikanzniveau von 5%. Wir können also von folgenden Informationen ausgehen: n 100 x 16% s 15% 5% (Achtung: Obwohl hier Prozentzahlen auftauchen, handelt es sich um Werte der Stichprobenfunktion X ). Die Nullhypothese lautet: H 0 :
0
20% . Als Alternativhypothese wählt man H a :
Damit ist bereits festgelegt, dass der Test einseitig durchgeführt wird.
a
0
.
340
16.5
Weitere Parametertests
Wie in den Beispielen zuvor, bestimmen wir die Überschreitungswahrscheinlichkeit für x 16 und benötigen dafür die Stichprobenverteilung für Stichprobenmittelwerte. Diese ist approximativ die Normalverteilung mit X
0
20 und
X
n
.
Nun ist aber unbekannt und muss möglichst gut abgeschätzt werden. Angesichts des großen Stichprobenumfangs ist eine Ersetzung durch s 15 vertretbar. Warum? Erinnern Sie sich an die Stichprobenverteilung für die Zufallsstichprobenstandardabweichung S in ihrer Eigenschaft als Zufallsvariable? Wir hatten festgestellt, dass unter bestimmten Voraussetzungen diese Stichprobenverteilung eine Gauß’sche Normalverteilung ist mit dem Mittelwert S
und der Standardabweichung S
2n
Dies bedeutet: In nicht zu kleinen Zufallsstichproben kann erwartet werden, dass die Stichprobenstandardabweichung s nahe bei der Standardabweichung der Grundgesamtheit liegt oder sogar damit zusammenfällt. Die Wahrscheinlichkeit dafür, dass s weit von entfernt ist, ist sehr gering, da ja auch die zuständige Stichprobenverteilung mit S
2n
relativ eng streut – und umso enger, je größer der Stichprobenumfang n wird. Deshalb ist bei großen Zufallsstichproben die Ersetzung von durch s zweckmäßig und erlaubt. Weiter im Beispiel: Wir können also festhalten, dass der Stichprobenmittelwert ungefähr einer Normalverteilung mit dem Mittelwert 20 und der Standardabweichung 1,5 folgt. Mit Excel berechnen wir jetzt die Wahrscheinlichkeit dafür, dass unter dieser Normalverteilung ein Wert auftritt, der kleiner oder gleich 16 ist: 1. 2.
Geben Sie in Zelle A1 einer freien Tabelle den Wert 16 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. 3. Wählen Sie aus der Kategorie STATISTIK die Funktion NORMVERT. 4. Klicken Sie die Schaltfläche OK an. 5. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: A1 bei MITTELWERT: 20 bei STANDABWN: 1,5 bei KUMULIERT: 1 6. Klicken Sie OK an. Es ergibt sich der Wert 0,0038 (gerundet). Die Wahrscheinlichkeit, dass ein Mittelwert auftritt, der kleiner oder gleich 16 ist, Gültigkeit der Nullhypothese vorausgesetzt, ist nur 0,38%, also viel kleiner als das Signifikanzniveau. Die Nullhypothese ist zu verwerfen, die Firma
16
341
Der parametrische Hypothesentest
Immergrün stapelt mit hoher Wahrscheinlichkeit zu hoch, ihre Behauptung über die Qualität ihres Düngers ist statistisch widerlegt. An dieser Stelle ist schon ein Hinweis auf ein Problem angebracht, das in einem späteren Kapitel noch einmal ausführlicher angesprochen wird (siehe Kapitel 18), nämlich auf das Problem kleiner Stichprobenumfänge. Ein Test für das arithmetische Mittel bei unbekannter Standardabweichung, wenn also die Standardabweichung der Grundgesamtheit durch die der Zufallsstichprobe ersetzt wird, lässt sich bei kleinem Stichprobenumfang nicht mehr in der beschriebenen Weise durchführen. Dann nämlich wird die Variabilität von s zu groß (S, die Stichprobenstandardabweichung ist ja ihrerseits eine Zufallsvariable), als dass man diese Ersetzung problemlos vornehmen dürfte. In einem solchen Fall nutzt man den Umstand, dass X
s n
(bei normal verteilter Grundgesamtheit) seinerseits eine Zufallsvariable, einer t-Verteilung mit n 1 Freiheitsgraden folgt. Näheres dazu wird in Kapitel 18 besprochen. Anzumerken ist weiterhin, dass ähnliche Einschränkungen und Ergänzungen bei sämtlichen folgenden Stichprobenfunktionen angebracht sind.
16.5.2 Test für den Anteilswert Es soll nun ein Test für Anteilswerte betrachtet werden, d. h., wir nutzen die Stichprobenfunktion P. Auch dazu gleich ein Beispiel: Eine vor wenigen Jahren durchgeführte Hochschulstatistik wies aus, dass 40% aller Studierenden während ihres Studiums im Elternhaus wohnen. Eine Forschergruppe möchte mit Hilfe einer Stichprobe vom Umfang n 100 und einer Irrtumswahrscheinlichkeit (mit diesem Begriff der Irrtumswahrscheinlichkeit wird in der statistischen Praxis oft das Signifikanzniveau bezeichnet) von 10% zweiseitig feststellen, ob dieser Wert auch heute noch zutreffend ist. In dieser Zufallsstichprobe ergibt sich ein Anteilswert von Studierenden, die bei ihren Eltern wohnen, von 35%. Die Lösung dieses Problems entspricht genau den bisher angestellten Überlegungen: Der Stichprobenanteilswert p
0,35 ist Ausprägung einer Zufallsvariablen P.
Diese Zufallsvariable folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für den Zufallsstichprobenanteilswert. Diese Stichprobenverteilung ist approximativ eine Normalverteilung mit den folgenden Parametern: Mittelwert:
p
Standardabweichung:
p
0 0
1 n
0
Als Mittelwert der zu verwendenden Normalverteilung ergibt sich also der Wert 0,4, als Standardabweichung 0,049 (gerundet). Gesucht ist P P 0,35 H 0 .
342
16.5
Weitere Parametertests
Auch dazu noch einmal eine Skizze (siehe Abbildung 16.8). 9 8 7 6 5 4 3 2 1 0
Abb. 16.8: Stichprobenverteilung für den Anteilswert (E16.XLS, SPVP)
Mit Excel erhalten Sie die Lösung, wenn Sie in eine freie Tabellenzelle die folgende Berechnung eingeben: =NORMVERT(0,35;0,4;0,049;1) Es ergibt sich der Wert 0,154 (gerundet). Wir haben hier wieder von der Möglichkeit Gebrauch gemacht, anstelle des Aufrufs des Funktions-Assistenten, der im zweiten Dialogfenster die vier Argumente x; MITTELWERT; STANDABWN; KUMULIERT benötigt, diese vier Argumente direkt in der obigen entsprechenden Berechnungsformel einzugeben. Es zeigt sich also, dass die Wahrscheinlichkeit dafür, unter den gegebenen Bedingungen einen Stichprobenanteilswert zu erhalten, der 35% oder noch kleiner ist (noch weiter von der Nullhypothese abweicht), 15,4% beträgt. Diese Überschreitungswahrscheinlichkeit (eigentlich sollte man hier von Unterschreitungswahrscheinlichkeit sprechen, aber dieser Begriff hat sich nicht eingebürgert) ist größer als das vorgegebene Signifikanzniveau (5% auf der einen Seite der Verteilung) – mithin kann die Nullhypothese nicht verworfen werden. Dieses Beispiel soll durch eine häufig interessierende Problemstellung ergänzt werden: Wie ist vorzugehen, wenn – bei gleichem Signifikanzniveau wie oben – nur Abweichungen von maximal 5 Prozentpunkten als noch vereinbar mit dem Nullhypothesenwert 40% angesehen werden sollen? Vorgegeben ist jetzt also: 0
0,4
und der Annahmebereich der Nullhypothese, der zwischen den Rückweisungspunkten 0,35 und r2 0,45 liegen soll. r1
16
343
Der parametrische Hypothesentest
Gesucht ist jetzt der Umfang der Stichprobe, die es erlaubt, mit Stichprobenanteilswert von p1 0,35 oder p 2 0,45 die Nullhypothese zu verwerfen. Also müssen die zu den Werten 0,35 und 0,45 gehörenden standardisierten Werte der Standardnormalvariablen K, die standardisierten Rückweisungspunkte k r1 und k r2 sein. Bei dem vorgegebenen zweiseitigen Signifikanzniveau sind dies die standardisierten Punkte k r1 1,645 und k r2 1,645 . Es muss also beispielsweise gelten: 1,645
0,45 0,4 0,4 0,6 n
Daraus können wir n ausrechnen, wobei sich ergibt: n
259,7784 .
Die Stichprobe muss also mindestens den Umfang n 260 haben, damit die Nullhypothese verworfen werden kann, wenn ein Stichprobenanteilswert auftaucht, der 35% oder kleiner bzw. 45% oder größer ist. Sie erkennen an diesem Ergebnis wieder, dass – was weiter oben schon einmal erörtert wurde – mit zunehmendem Stichprobenumfang die Nullhypothese eher verworfen werden kann. Im ersten Beispiel hatte ein Stichprobenanteilswert von 35%, also die Abweichung vom Nullhypothesenwert um 5 Prozentpunkte, nicht ausgereicht, die Nullhypothese zu verwerfen. Ab einem Stichprobenumfang von n 260 aufwärts wird die 5%-Abweichung aber zur Verwerfung der Nullhypothese führen. Es kann nun auch noch ausgerechnet werden, welche Mindestabweichung erforderlich wäre, damit auch beim ursprünglichen Stichprobenumfang von n 100 die Nullhypothese verworfen werden könnte. Dazu brauchen wir nur den standardisierten Rückweisungspunkt ( k r1 1,645 ) zu entstandardisieren. Wir erhalten:
1,645
p r1
0,4
0,049
oder p r1
0,4 0,081 0,319
Bei n 100 muss also der Stichprobenanteilswert 31,9% oder kleiner werden, bevor die Nullhypothese verworfen werden kann.
16.5.3 Test für die Standardabweichung Zum Test der Standardabweichung auch wieder gleich ein nummerisches Beispiel: Die Behauptung, die Streuung der (normalverteilten) Einkommen der Arbeiter einer relativ einheitlichen Qualifikationsstufe könnte durch 200 (Euro) nummerisch bemessen werden, soll mit einer Stichprobe vom Umfang n 200 geprüft werden. In der Zufallsstichprobe ergibt sich eine Standardabweichung von s 220 (Euro). Der Test soll mit einem einseitigen Signifikanzniveau von 5% erfolgen. Und wieder greifen wir auf die bekannten Überlegungen zurück: Die Stichprobenstandardabweichung s 220 ist Ausprägung einer Zufallsvariablen S. Diese Zufallsvariable folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung
344
16.5
Weitere Parametertests
für die Zufallsstichprobenstandardabweichung. Diese Stichprobenverteilung ist approximativ eine Normalverteilung mit den folgenden Parametern: Mittelwert:
S
0
Standardabweichung:
S
2n
Hier ergibt sich also als Mittelwert der zuständigen Wahrscheinlichkeitsverteilung der Wert 200, als Streuung der Wert 10. Gesucht ist P S
200 H 0 , also die Fläche rechts von 220 unter N 200;10 .
Mit dem Programm Excel (bei diesem und bei den folgenden Beispielen glauben wir, auf grafische Veranschaulichungen verzichten zu können) berechnen wir diese Wahrscheinlichkeit über =NORMVERT(220;200;10;1) Es ergibt sich der Wert 0,977 (gerundet). Die gesuchte Wahrscheinlichkeit erhält man, indem man diesen Wert von 1 subtrahiert. Es ergibt sich 0,023. Es besteht also eine Wahrscheinlichkeit von 2,3% dafür, dass in einer Zufallsstichprobe vom Umfang n 200 eine Standardabweichung von 220 oder noch größer auftaucht. Diese Wahrscheinlichkeit ist kleiner als das Signifikanzniveau, mithin ist die Nullhypothese zu verwerfen.
16.5.4 Test für die Differenz zweier Mittelwerte Bei einer Zufallsstichprobe vom Umfang 100 aus abhängig Beschäftigten in Nordrhein-Westfalen ergab sich ein durchschnittliches Monatseinkommen von 3200 Euro bei einer Standardabweichung von 500 Euro. Eine zweite Zufallsstichprobe vom Umfang 400 in Bayern ergab bei einer entsprechenden Personengruppe ein Durchschnittseinkommen von 3300 Euro bei einer Standardabweichung von 750 Euro. Widerspricht dieser Befund der Hypothese, dass die Durchschnittseinkommen überall (d. h. in beiden Bundesländern) gleich seien? Getestet werden soll mit einem zweiseitigen Signifikanzniveau von 10%. Häufig wird eine solche Nullhypothese etwas vereinfachend umformuliert in der Weise, dass man behauptet, es gäbe nur eine einzige Grundgesamtheit. Hier die erforderlichen Überlegungen, die Sie inzwischen wohl schon auswendig herbeten können: Die Differenz aus Stichprobenmittelwerten dX
x1
x2
3300 3200 100
ist Ausprägung einer Zufallsvariablen D X . Diese Zufallsvariable folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für die Differenz aus Zufallsstichprobenmittelwerten. Diese Stichprobenverteilung ist approximativ eine Normalverteilung mit den folgenden Parametern: Mittelwert: Standardabweichung:
DX DX
D
1 2 1
n1
2 s
2
n2
0
16
345
Der parametrische Hypothesentest
Da die Streuungen der Grundgesamtheiten unbekannt sind, werden sie wieder durch die entsprechenden Werte aus den Stichproben abgeschätzt, so dass wir erhalten: 1
DX
2
n1
2
2
n2
500 2 100
750 2 400
62,5
Hinweis: Wenn man die unbekannten Grundgesamtheitsstreuungen durch die bekannten Stichprobenstandardabweichungen ersetzt – wie es hier geschehen ist –, dann verstößt man eigentlich gegen die Behauptung der Nullhypothese, die ja von der Identität der Grundgesamtheiten ausgeht bzw. davon, dass es nur eine einzige Grundgesamtheit gibt. Man kann diesem Umstand, der ja auch in dem immer mitgeführten Halbsatz zum Ausdruck kommt, Gültigkeit der Nullhypothese vorausgesetzt, dadurch Rechnung tragen, dass man aus den beiden Stichprobenvarianzen eine gemeinsame Varianz erzeugt, und zwar als mit den Stichprobenumfängen gewichtetes arithmetisches Mittel aus s12 und s 2 2 .
Man spricht von einer so genannten gepoolten Varianz. Darauf soll hier aber nicht näher eingegangen werden, zudem sich am Rechenergebnis dadurch in der Regel nur sehr wenig ändert. Gesucht ist: P Dx
100 H 0
Mit Excel erhalten wir die Lösung mit folgendem Befehl: =NORMVERT(100;0;62,5;1) Es ergibt sich der Wert 0,9452 (gerundet). Die gesuchte Wahrscheinlichkeit ist demnach (gesucht ist die rechts von 100 liegende Fläche) 1 0,9452 0,0548 . Da diese Überschreitungswahrscheinlichkeit größer ist als / 2 , kann die Nullhypothese bestätigt werden.
16.5.5 Test für die Differenz zweier Anteilswerte Eine Statistik der Geburten in einer bayrischen Kleinstadt ergab, dass bei 225 Geburten 120 Knabengeburten auftraten. Eine entsprechende Zählung in Hamburg ergab bei 900 Geburten 442 Knabengeburten. Die Frage ist zu prüfen, ob diese Unterschiede nur zufällig oder wesentlich sind. (10% Signifikanzniveau zweiseitig.) Prüfhypothese ist H 0 : 1 0. 2 Den empirischen Befunden können die folgenden Angaben entnommen werden: n1
225
p1
0,5333
n2
900
p2
0,4911
dp
0,0422
Diese zuletzt genannte Differenz aus Stichprobenanteilswerten (0,0422) ist Ausprägung einer Zufallsvariablen D P . Diese Zufallsvariable folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für die Differenz aus Zufallsstichprobenanteilswerten. Diese Stichprobenverteilung ist approximativ eine Normalverteilung mit den folgenden Parametern: Mittelwert:
DP
D
1
2
0
346
16.5
Standardabweichung:
1
DP
1 n1
1
2
1 n2
Weitere Parametertests
2
Auch hier verwenden wir ersatzweise die Stichprobenanteilswerte (siehe auch obigen Hinweis zum Poolen), wobei sich ergibt: DP
p1 1 p1 n1
Gesucht ist also P D p
p2 1 p2 n2
0,03646
0,0422 H 0
Mit Excel berechnen wir über =NORMVERT(0,0422;0;0,03646;1) den Wert 0,8765 (gerundet). Die gesuchte Wahrscheinlichkeit ist wieder die Komplementärwahrscheinlichkeit, also 1 0,8765 0,1235 (gerundet). Die Wahrscheinlichkeit dafür, dass eine Anteilswertdifferenz in den gegebenen Zufallstichproben auftritt, die 0,0422 ist oder größer, beträgt also 12,45%. Damit kann die Nullhypothese nicht verworfen werden.
16.5.6 Test für die Differenz zweier Standardabweichungen Einer Gruppe von empirischen Wirtschaftsforschern ist bekannt, dass die Verteilung der Beschäftigten auf die Unternehmen eines bestimmten Wirtschaftszweiges angenähert durch eine Normalverteilung dargestellt werden kann. Bei der Untersuchung von Strukturveränderungen im Zeitablauf mit Hilfe von zwei zeitlich versetzten Studien interessieren neben den durchschnittlichen Beschäftigungszahlen pro Unternehmen auch deren Streuungen zu den beiden Zeitpunkten. Bei der zufälligen Auswahl von je 50 Unternehmen ergab sich für einen ersten Stichtag eine Standardabweichung von 20, für einen zweiten Stichtag von 15 Beschäftigten. Kann bei einem Signifikanzniveau von 5% behauptet werden, die Streuungsverhältnisse hätten sich verändert? Die Differenz aus Stichprobenstandardabweichungen d s gung einer Zufallsvariablen DS .
s1 s 2
20 15
5 ist Ausprä-
Diese Zufallsvariable folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für die Differenz aus Zufallsstichprobenstandardabweichungen. Diese Stichprobenverteilung ist approximativ eine Normalverteilung mit den folgenden Parametern: Mittelwert: Standardabweichung:
DS DS
D
1 1
2
2n1
2 2
0
2
2n 2
Da die Streuungen der Grundgesamtheiten unbekannt sind, werden sie wieder durch die entsprechenden Werte aus den Stichproben abgeschätzt, so dass wir erhalten:
16
Der parametrische Hypothesentest
DS
s12 2n1
Gesucht ist also P DS
s22 2n 2
347
3,54 (gerundet).
5 H0
Mit Excel berechnen wir über =NORMVERT(5;0;3,54;1) den Wert 0,921 (gerundet). Die gesuchte Wahrscheinlichkeit ist 1 0,921 0,079 (gerundet). Es besteht also eine Wahrscheinlichkeit von 7,9% dafür, dass eine Differenz von Stichprobenstandardabweichungen auftritt, die 5 oder größer ist. Die Nullhypothese wird damit bestätigt.
16.6
Die Güte eines Tests
Die vorangegangenen Beispiele haben Ihnen verdeutlicht, dass statistische Tests Verfahren sind, die auf die Widerlegung einer statistischen Hypothese (Nullhypothese) abstellen. Um nun zu beurteilen, wie brauchbar ein statistischer Test ist, wird man sich im konkreten Fall dafür interessieren, mit welcher Wahrscheinlichkeit eine nicht zutreffende Nullhypothese auch als falsch erkannt wird. Diese Wahrscheinlichkeit haben wir weiter oben schon mit 1 quantifiziert. Je größer 1 ist, desto besser ist der Test, desto größer ist die Güte des Tests. In anderer Formulierung: Unter der Güte eines Tests (man spricht auch von der so genannten Trennschärfe) versteht man die Wahrscheinlichkeit, keinen Fehler zweiter Art zu begehen, also den -Fehler zu vermeiden. Da die Wahrscheinlichkeit für den Fehler zweiter Art ( -Fehler), wie wir schon gesehen haben, vom wahren und unbekannten nummerischen Wert des Grundgesamtheitsparameters abhängt, ist gewöhnlich nicht angebbar, wie es im konkreten Fall mit der Güte eines Tests bestellt ist. Zwar ist die Angabe der maximalen Wahrscheinlichkeit für den -Fehler möglich. Sie nähert sich dem Wert 1 , wenn der wahre Wert des Grundgesamtheitsparameters in unmittelbarer Nähe des Nullhypothesenwertes liegt. Damit kann man aber nicht viel anfangen. Dieser Wert zeigt eigentlich nur, dass dem Signifikanzniveau für die Beurteilung der Güte eines Tests nur eine untergeordnete Bedeutung zukommt. Zudem dürfte es für die meisten praktischen Fälle auch gleichgültig sein, ob man den -Fehler begeht oder nicht, wenn der wahre Grundgesamtheitsparameter nur ziemlich nahe am Prüfhypothesenwert liegt. Aufmerksamer und gelegentlich besorgter wird man die Güte eines Tests zur Kenntnis nehmen, wenn man sich den wahren Grundgesamtheitsparameter schon deutlicher vom Nullhypothesenwert entfernt vorstellt und dann feststellen muss, dass die Wahrscheinlichkeit für das Nichtverwerfen der Prüfhypothese beträchtlich ist. Was man benötigt, ist klar: Um die Qualität eines Tests beurteilen zu können, sollte man den Verlauf der Funktion kennen, die jedem denkbaren alternativen wahren Wert des Grundgesamtheitsparameters die Wahrscheinlichkeit für das Nichtbegehen des -Fehlers zuordnet. Diese Funktion wird als Gütefunktion (auch als Power Function, Teststärkefunktion, Trennschärfefunktion) bezeichnet. Um eine solche Gütefunktion einmal herzuleiten, berechnet man denkbare -Fehlerwahrscheinlichkeiten in Abhängigkeit von verschiedenen Alternativhypothesen. Die Wahrscheinlichkeit zeigt sich ja in funktionaler Abhängigkeit von verschiedenen Alternativhypothesen
348
16.6
Die Güte eines Tests
H a . Die entsprechende grafische Abbildung wird Operationscharakteristik (OC-Kurve) genannt. Wir greifen noch einmal auf das Beispiel mit dem tagesdurchschnittlichen Zigarettenkonsum zurück und unterstellen die Standardabweichung der Grundgesamtheit als bekannt mit 4. (Behaupteter) Mittelwert der Grundgesamtheit:
H0
Stichprobenumfang:
n 100
Signifikanzniveau:
0
8
5% (beidseitig)
Die zuständige Stichprobenverteilung ist die Normalverteilung mit dem Mittelwert x
0
8
und der Standardabweichung x
n
Gemäß der Berechnung des ß-Fehlers, die wir für das Zutreffen des Alternativwertes 7,5 durchgeführt haben (siehe Abschnitt 16.4), stellen wir in Abbildung 16.9 für verschiedene Alternativhypothesen die Ergebnisse derartiger Berechnungen vor (wir empfehlen Ihnen, übungshalber zu versuchen, diese Rechenergebnisse selbst zu erzeugen).
Abb. 16.9: Gütefunktion eines zweiseitigen Signifikanztests (E16.XLS, OC)
Die tabellarische Übersicht in Abbildung 16.9 und die Abbildung 16.10 zeigen, dass die Gütefunktion in der Nähe des Nullhypothesenwertes 0 8 relativ kleine Werte aufweist. Mit wachsender Entfernung der als zutreffend unterstellten Alternativhypothese steigt die Güte des Tests zunächst stark und später nur noch geringfügig. Dies gilt für beide Seiten der Verteilung. Grafisch dargestellt erhält man den typischen u-förmigen Verlauf der Gütefunktion (siehe Abbildung 16.10).
16
Der parametrische Hypothesentest
349
Abb. 16.10: Grafische Darstellung der Gütefunktion (E16.XLS, OC)
Ein einseitiger Test übrigens hat eine Gütefunktion, die der in der obigen Abbildung entspricht, wenn man nur eine Seite der Funktion links oder rechts vom Lot in 0 betrachtet. Es taucht nun die Frage auf, wie sich die Gütefunktion eines Tests verbessern lässt. Offenkundig ist es so, dass mit der Verringerung des ß-Fehlers (bei jedem Wert der Alternativhypothese) die Güte eines statistischen Tests ansteigt. Der ß-Fehler wiederum (bzw. seine Wahrscheinlichkeit, was dasselbe bedeutet) lässt sich verringern, wenn man ceteris paribus das Signifikanzniveau erhöht. Am wirksamsten lässt sich die Gütefunktion eines Tests jedoch durch eine Erhöhung des Stichprobenumfanges verbessern. Unter sonst gleichen Umständen verringert sich mit höherem Stichprobenumfang die Streuung der Stichprobenverteilung. Die Rückweisungspunkte der Nullhypothese rücken näher an den Nullhypothesenwert heran, so dass dann sämtliche -Fehler kleiner werden.
17
Hochrechnungen
„Die Lage war noch nie so ernst.“ K. Adenauer, Bundeskanzler, 1961
Wahlsonntagabend 17.1 Modifizierte Bundestagswahl 17.2 Aufgaben der Schätzstatistik 17.3 Punktschätzverfahren 17.4 Intervallschätzungen
17.1
Modifizierte Bundestagswahl
„Eigentlich“, so sagte eines Tages mein Freund Bernd zu mir, „eigentlich müsste es genügen, sagen wir einmal rund hunderttausend wahlberechtigte Bundesbürger nach dem Zufallsprinzip auszuwählen und diese dann um ihre Stimmabgabe für die nächste Bundestagswahl zu bitten.“ „In der Tat“, war meine Antwort. „Wenn man von den Ergebnissen von hunderttausend zufällig ausgewählten Wahlberechtigten ausgeht, müsste sich ein außerordentlich repräsentatives Ergebnis zeigen, das sich höchstens in der zweiten Stelle nach dem Komma von dem Ergebnis unterscheidet, das man erhalten würde, wenn alle 50 Millionen wahlberechtigten Bundesbürger ihre Stimme abgäben.“ „Und was man da alles sparen könnte“, fügte Bernd hinzu. „Nur eine einzige Wahlparty – vielleicht in der Dortmunder Westfalenhalle! Einen Abend in einer Halle statt wochenlanger, langweiliger und bundesweit durchgeführter Wahlkämpfe. Alle Kandidaten stellen sich kurz vor, die Parteien erläutern ihre Ziele und Verdienste und warum die anderen nichts taugen. Dazwischen spielt James Last, und Thomas Gottschalk übernimmt die Moderation – und dann wird kurz vor Mitternacht gewählt. Ich garantiere dir, der Bundestag würde sich nicht anders zusammensetzen, als wenn alle Wahlberechtigten zur Urne gingen!“
17.2
Aufgaben der Schätzstatistik
Eines der interessantesten Anwendungsprobleme der Statistik besteht darin, Aussagen über die unbekannte Grundgesamtheit zu machen, aus der eine Stichprobe gezogen wurde; genauer: es sollen Aussagen über nummerische Werte von Grundgesamtheitsparametern möglich werden. Beim statistischen Test einer Hypothese werden Grundgesamtheitsparameter nummerisch (hypothetisch) vorgegeben und über eine Entscheidungsregel verworfen oder akzeptiert. Demgegenüber liegt das Problem der Parameterschätzung darin, dass keine Informationen und auch keine Hypothesen über die Werte von Grundgesamtheitsparametern vorliegen. Es liegt lediglich eine Stichprobenrealisation vor. Das Problem ist jetzt, den wahren und unbekannten Wert des Grundgesamtheitsparameters abzuschätzen. Hier wie beim Testen von Hypothesen wird also versucht, den induktiven Schluss von einer Stichprobenrealisation auf die unbekannte Grundgesamtheit zu ziehen. Das Testen von Hypothesen und die Parameterschätzung sind beides Verfahren des Rückschlusses.
352
17.3
Punktschätzverfahren
Die Parameterschätzung hat eine ungewöhnlich große praktische Bedeutung und wird täglich von jedermann vollzogen, ohne dass man sich dessen vielleicht stets gewahr ist. Im Folgenden einige Beispiele für entsprechende Fragestellungen: Für das Jahr 2003 gaben 200 Haushalte von abhängig Beschäftigten an, ihre durchschnittlichen Nettoeinkommen hätten monatlich 3215 Euro betragen. Wie groß ist das durchschnittliche Monatseinkommen aller entsprechenden Haushalte in der Grundgesamtheit? Im Herbst 2004 wurde 1% der Wahlberechtigten eines bestimmten Wahlkreises nach ihrer Wahlentscheidung gefragt, falls bereits am nächsten Tag Bundestagswahl wäre. Wie sieht die Wahlentscheidung sämtlicher Wahlberechtigten aus? Bei der Untersuchung von 40 zufällig ausgewählten Schokoladen-Weihnachtsmännern zeigte sich, dass drei davon zerbrochen waren. Wie hoch liegt die Schadhaftigkeitsquote insgesamt? Solche Fragen erlauben grundsätzlich zwei Antworten. Erste Antwort: Der unbekannte Parameter der Grundgesamtheit hat den Wert a. Man spricht bei einer solchen Antwort von einer Punktschätzung. Beim zuerst genannten Beispiel könnte eine Punktschätzungen etwa wie folgt formuliert werden: Das durchschnittliche Monatsnettoeinkommen der abhängig Beschäftigten in der Bundesrepublik Deutschland liegt bei 3215 Euro (nicht mehr und nicht weniger). Zweite Antwort: Der unbekannte Parameter der Grundgesamtheit liegt in einem Bereich um a. Immer wenn unsere Ausgangsinformationen auf der Basis einer Zufallsstichprobe bereitgestellt werden, kann der wahre Grundgesamtheitsparameterwert mehr oder weniger weit von der Punktschätzung entfernt liegen. Diesem Umstand kann man durch die Angabe eines Bereiches Rechnung tragen, innerhalb dessen der unbekannte Wert mit mehr oder minder großer Sicherheit liegt. Eine derartige Aussage ist das Ergebnis einer so genannten Intervallschätzung. Dabei ist die Punktschätzung das Primäre, die jedoch jetzt durch eine Intervallschätzung ergänzt wird.
17.3
Punktschätzverfahren
17.3.1
Momentenmethode
Subtrahiert man von einer Zufallsvariablen X eine Konstante c und bildet man den Erwartungswert der mit k potenzierten Differenzen, so erhält man das k-te Moment einer Zufallsvariablen X c : mk c
E X c
k
Setzt man c 0 , so spricht man vom k-ten Anfangsmoment. Für c das arithmetische Mittel. Setzt man hingegen c Für k
EX
0 und k 1 erhält man
, so spricht man vom zentralen Moment.
2 ergibt sich dabei die Varianz.
17
353
Hochrechnungen
Die Momentenmethode besteht nun darin, dass man die Momente der Grundgesamtheit mit den entsprechenden Momenten der Stichprobe abschätzt. Man schätzt also das arithmetische Mittel der Grundgesamtheit über ' (mit ' sei der Schätzwert für bezeichnet) x , also über das arithmetische Mittel aus der Zufallsstichprobe. Entsprechend schätzt man die Grundgesamtheitsvarianz 2 über s 2 , bzw. die Standardabweichung der Grundgesamtheit über die der Stichprobe s. Sie erkennen, die Momentenmethode ist erfreulicherweise wenig anspruchsvoll, und es muss nicht vorausgesetzt werden, dass man die Verteilung der Grundgesamtheit kennt.
17.3.2 Maximum-Likelihood-Schätzungen Auf R.A. Fisher geht die sog. Maximum-Likelihood-Schätzung zurück. Eine deutsche Übersetzung dieses Ausdruckes hat sich noch nicht durchgesetzt; gelegentlich übersetzt man mit Methode der maximalen Mutmaßlichkeit oder Größte-Dichte-Methode. Im Gegensatz zur Momentenmethode setzt die Maximum-Likelihood-Methode voraus, dass der Verteilungstyp der Grundgesamtheit bekannt ist. Ihr Grundgedanke ist klar und einfach: Man sollte den Grundgesamtheitsparameter so schätzen, dass die Stichprobe, von der man ausgeht, die größte Chance hatte, realisiert zu werden. Dieser Gedanke ist naheliegend, denn welchen Sinn könnte es haben, davon auszugehen, dass man in der Stichprobe ausgerechnet das Ungewöhnliche, Unwahrscheinliche beobachtet hat? Das Verlaufsmuster der Maximum-Likelihood-Methode kann man für eine diskrete Variable auf dem folgenden Wege verdeutlichen: Sicherlich ist einsichtig, dass die Wahrscheinlichkeit dafür, dass in einer Zufallsstichprobe vom Umfang n die interessierende Zufallsvariable X den Wert x i annimmt, davon abhängt, wie groß der Parameterwert der Grundgesamtheit ist: Die Wahrscheinlichkeit dafür, in einer Zufallsstichprobe bei zufällig ausgewählten Erwachsenen die Körpergröße 175 cm zu finden, hängt vom Mittelwert der Grundgesamtheit ab, also von . Nennen wir einmal den unbekannten und zu schätzenden Parameter der Grundgesamtheit der Einfachheit halber U. Dann ist P x i U die Wahrscheinlichkeit für die Realisierung eines bestimmten Wertes der diskreten Zufallsvariablen X, unter der Bedingung, dass in der Grundgesamtheit der Wert des expliziten Parameters U ist. Dieser Parameter charakterisiert die Verteilung einer Grundgesamtheit. Bei einer einfachen Zufallsstichprobe vom Umfang n beträgt die Wahrscheinlichkeit für die Realisation x1 , x 2 , ..., x n demnach entsprechend dem Multiplikationssatz: P x1 , x 2 , ..., x n
P x1 U P x 2 U ... P x n U
xi U
Nun ist aber ausgerechnet U unbekannt, so dass man auch nicht den Wert für obige Wahrscheinlichkeit angeben kann. Man kann aber eine Reihe unterschiedlicher Werte U'i für U vorgeben und jeweils die Wahrscheinlichkeit für die Stichprobenrealisation x1 , x 2 , ..., x n berechnen.
354
17.3
Punktschätzverfahren
Man berechnet also die Wahrscheinlichkeit für die tatsächlich realisierte Stichprobe unter der Bedingung, dass U'1 der wahre Grundgesamtheitsparameter ist, ... dass U'2 der wahre Wert ist, ... dass U'3 der wahre Wert ist usw. Als Schätzung für den unbekannten Grundgesamtheitsparameter wählt man dann jenen Wert U'i , für den die obige Wahrscheinlichkeit P x1 , x 2 , ..., x n maximal ist. Diese zu maximierende Funktion trägt den Namen Likelihood-Funktion des Parameters U. Als Abkürzung schreibt man meist L U ' x1 , x 2 , ..., x n
L U' x
um zum Ausdruck zu bringen, dass die Realisationen der Stichprobenbefunde vorgegeben sind und U' (gedanklich) veränderlich ist. Was nun zu tun ist, dürfte klar sein, wenn man noch einmal an den Grundgedanken der Maximum-Likelihood-Schätzung denkt, wonach jener Parameterwert als Schätzwert verwendet werden soll, der die Wahrscheinlichkeit für die Stichprobenrealisation maximiert: Man suche das Maximum der Likelihood-Funktion! (In vielen Fällen maximiert man ln L, also den Logarithmus der Likelihood-Funktion, da L und 1n L ihr Maximum beim gleichen Wert haben und die Extremwertbestimmung bei ln L meist einfacher vonstatten geht.) Dazu das Beispiel einer binomialverteilten (diskreten) Variablen. Eine Zufallsstichprobe vom Umfang n 500 aus einer dichotomen Grundgesamtheit ergibt, dass ein Stichprobenanteilswert von p 0,754 realisiert wurde. 75,4% der Personen in dieser Zufallsstichprobe sprechen sich dagegen aus, dass mehr Asylsuchende nach Deutschland einreisen dürfen. Man schätze , den entsprechenden Anteilswert in der Grundgesamtheit. Die Likelihood-Funktion lautet folgendermaßen: L '
500 377
'377 1
' 123
oder ln L '
ln
500 377
377 ln ' 123 ln 1
'
Man differenziert nach ' und ermittelt ' für d ln L d
0
(erste Ableitung der Funktion ln L wird null gesetzt). Dabei ergibt sich: d ln L d
377 '
123 1 '
0
und daraus ' 0,754 In diesem Falle lautet die Punktschätzung für den Grundgesamtheitsparameter genauso wie die, die man mit der Momentenmethode erhalten würde.
17
Hochrechnungen
355
Selbstverständlich lassen sich auch Maximum-Likelihood-Schätzungen bei stetigen Zufallsvariablen durchführen, sofern der Verteilungstyp bekannt ist. Darauf soll hier aber nicht eingegangen werden. Beispielsweise ist der Maximum-LikelihoodSchätzwert für den unbekannten Mittelwert einer normalverteilten Grundgesamtheit das arithmetische Mittel der Stichprobe. Der Maximum-Likelihood-Schätzwert für die unbekannte Varianz einer normalverteilten Grundgesamtheit ist entsprechend die Varianz der Stichprobe. Auch hier findet man keinen Unterschied zur Momentenmethode, was aber nicht bedeutet, dass dem immer so ist.
17.3.3 Kriterien für die Güte der Punktschätzung Im Folgenden sollen einige allgemein akzeptierte Kriterien für die Güte einer Punktschätzung vorgestellt werden. Zuvor ist es notwendig, einen neuen Begriff einzuführen und zu erläutern, nämlich den Begriff der Schätzfunktion. Erinnern Sie sich bitte an das Konzept der Stichprobenvariablen, wonach sich bei einer einfachen Zufallsstichprobe jede Stichprobenrealisation als je eine Realisation der Stichprobenvariablen X i auffassen lässt. Alle diese Stichprobenvariablen weisen die gleiche Verteilung auf. Um nun den unbekannten Grundgesamtheitsparameter U aus den gegebenen Stichprobenwerten zu schätzen, muss man sich überlegen, wie man den entsprechenden Schätzwert U' bestimmt (hierfür lernten wir gerade zwei Verfahren kennen). U' hängt von den Variablen X i ab, so dass man formal eine Funktion bilden kann: U' U' X1 , X 2 , ... , X n Diese Funktion wird Schätzfunktion oder Schätzer genannt (eine Schätzung ist entweder der Vorgang des Schätzens oder das Endergebnis). Inhaltlich handelt es sich bei der Schätzfunktion um die Vorschrift, wie der Schätzwert U ' aus den Realisationen der Stichprobenvariablen X i berechnet wird. Im Falle des arithmetischen Mittels z.B. lautet die Schätzfunktion '
1 n
Xi
Im Folgenden werden einige wünschenswerte Eigenschaften von Schätzfunktionen aufgeführt. Erwartungstreue Bei der Vorschrift, nach der U' aus den Stichprobenvariablen gebildet wird, sollte gewährleistet sein, dass sich im Durchschnitt aller möglichen verschiedenen Stichprobenrealisationen die vorzügliche Schätzung U' U ergibt; d. h., man wird sich wünschen, dass der Erwartungswert der Schätzfunktion gleich dem wahren Parameterwert ist: E U'
U
Eine Schätzfunktion, die dieser Forderung genügt, nennt man erwartungstreu oder unverzerrt. Sollte eine Schätzfunktion bei endlichem Stichprobenumfang zwar nicht erwartungstreu sein, dieser Anforderung aber für n gegen unendlich genügen, so ist sie asymptotisch erwartungstreu.
356
17.3
Punktschätzverfahren
Man sieht sofort ein, dass die Punktschätzung '
x
erwartungstreu ist: E '
E
1 n
1 n
Xi
E Xi
1 n n
Sie irren aber, wenn Sie glauben, dass sämtliche Schätzungen, die wir bislang durchführten, erwartungstreu seien. Ein bemerkenswertes Beispiel ist die folgende Schätzung, der wir uns bisher fleißig bedienten: '2
2
s2
Wenn man die Stichprobenvarianz über die Formel s2
1 n
xi
x
2
berechnet, erhält man eine systematische Unterschätzung der Grundgesamtheitsvarianz. Anders formuliert: Wenn man alle verschiedenen Zufallsstichproben vom Umfang n ziehen und wenn man in allen diesen Stichproben Varianzen berechnen und wenn man alle diese Varianzen mitteln würde, kommt keineswegs, wie man vielleicht erwarten würde, die Varianz der Grundgesamtheit heraus, sondern bemerkenswerterweise n 1 n Nur wenn man zur Schätzung s2
1
n 1
xi
x
2
verwendet, gelangt man zu einer erwartungstreuen Schätzung der Varianz der Grundgesamtheit. Dies ist auch ein Grund dafür, dass Excel zwei Funktionen für die Berechnung der Varianz (und auch der Standardabweichung) bereitstellt, einmal die Funktion VARIANZEN (bzw. STABWN; bei ihr wird durch n dividiert), zum anderen die Funktion VARIANZ (bzw. STABW; bei der durch n 1 dividiert wird). VARIANZEN ist demnach bei Zufallsstichprobendaten eine erwartungstreue Schätzung für die Varianz der Grundgesamtheit. Man kann nachweisen, dass die Schätzfunktionen nach der Momentenmethode und Maximum-Likelihood-Methode in vielen Fällen erwartungstreu oder zumindest asymptotisch erwartungstreu sind. Effizienz und Konsistenz Zwei erwartungstreue Schätzfunktionen U'1 und U'2 können sich darin unterscheiden, dass ihre Varianzen verschieden groß sind. Falls VAR U '1
VAR U' 2 ,
17
Hochrechnungen
357
bezeichnet man die erste als effizientere (wirksamere) Schätzfunktion. Die effizientere Schätzfunktion wird man selbstverständlich vorziehen, weil die einzelnen Schätzungen im Durchschnitt näher am wahren Parameterwert U liegen. Besondere Probleme ergeben sich natürlich dann, falls die erste die effizientere Schätzfunktion, aber im Gegensatz zur zweiten Schätzfunktion nicht erwartungstreu ist. Bei den beiden bisher erwähnten Gütekriterien spielte der Stichprobenumfang keine Bedeutung. Nun ändert sich das: Eine Schätzfunktion sollte so beschaffen sein, dass ihre Varianz mit steigendem Stichprobenumfang abnimmt. Schätzer mit dieser Eigenschaft sind konsistent. Es lässt sich zeigen, dass Punktschätzungen nach der Momentenmethode in jedem Falle konsistent sind (dass sie zumindest auch asymptotisch erwartungstreu sind, haben wir bereits erwähnt). Maximum-Likelihood-Schätzer sind in den meisten Fällen konsistent. Bezüglich der Effizienz jedoch bestehen in einigen Fällen deutliche Unterschiede, welche die Bevorzugung der Maximum-Likelihood-Methode im Wesentlichen begründen.
17.4
Intervallschätzungen
Eine Punktschätzung, mag sie auch noch so viele Gütesiegel tragen, hat einen nur begrenzten Aussagewert. Sie sagt nichts darüber aus, wie groß die Wahrscheinlichkeit ist, dass der entsprechende wahre Grundgesamtheitsparameter in Nähe der Punktschätzung liegt. Man könnte nun daran denken, die Punktschätzung zunächst durch die Angabe der Streuung der Schätzfunktion VAR U' zu ergänzen. Damit könnte man ein Intervall bestimmen, das mit vorgegebener Wahrscheinlichkeit eine derartige Lage und Ausdehnung hat, dass es den unbekannten Parameter einschließt bzw. enthält bzw. überdeckt. Gedanken dieser Richtung führen zum Konzept der Intervallschätzung, das wir in der am häufigsten benutzten Form des auf Neyman zurückgehenden Konfidenzintervalls behandeln wollen. Um den vielleicht zunächst etwas ungewohnt erscheinenden Grundgedanken der Intervallschätzung durchschaubar zu machen, betrachten wir zur Schätzung des Mittelwertes ein einfaches Beispiel, dem Sie in anderem Zusammenhang schon begegnet sind: Es sei zunächst als bekannt unterstellt, dass deutsche erwachsene Männer im Tagesdurchschnitt 8 Zigaretten rauchen. Es werde eine Zufallsstichprobe vom Umfang n 100 gezogen. In dieser Stichprobe erhalten wir einen Mittelwert von x 7,5 Zigaretten bei einer Standardabweichung von s 4 Zigaretten. Fragen Sie an dieser Stelle nicht danach, warum wir eine Stichprobe ziehen, wenn doch der Grundgesamtheitsmittelwert schon bekannt ist. Wir werden gleich diese Voraussetzung, dass der interessierende Grundgesamtheitsparameter bekannt sei, wieder aufgeben. Sie wissen nun aus den bisherigen Überlegungen zur Wahrscheinlichkeitsstatistik der Zufallsstichproben, dass der Stichprobenmittelwert x Ausprägung einer Zufallsvariablen X ist, die approximativ der Normalverteilung mit dem Mittelwert X
8
und der Standardabweichung
358
17.4
X
s n
n
Intervallschätzungen
0,4
folgt. Diese Normalverteilung N 8; 0,4 zeigt Abbildung 17.1, in die wir auch einen symmetrischen 90%-Flächenbereich (Wahrscheinlichkeit) bzw. links und rechts je einen Flächenbereich von 5% eingetragen haben. Zudem ist auch die K-Achse gezeichnet, also die waagerechte Achse der Standardnormalverteilung.
Abb.17.1: Stichprobenverteilung des Zufallsstichprobenmittelwertes (E17.XLS, SPVX1)
Sofort erkennen Sie, und das ist ja auch nichts Neues, dass der 90%-Bereich auf der K-Achse von 1,645 bis 1,645 reicht; das entsprechende Intervall hat die Länge 2 1,645 3,29 . Daraus kann auch das entsprechende Intervall auf der X -Achse bestimmt werden: Es reicht von 8 1,645 0,4
7,342 bis 8 1,645 0,4 8,658
Seine Länge ist demnach 2 0,658 1,316 (Zigaretten im Tagesdurchschnitt). Jetzt ist der Zeitpunkt gekommen, die Kenntnisse über die Grundgesamtheit wieder aufzugeben. Was ist los, wenn wir aus der Grundgesamtheit, deren Mittelwert wir nicht kennen, eine Zufallsstichprobe vom Umfang n 100 ziehen? Mit Blick auf die obige Abbildung können wir jetzt Folgendes sagen: Die Stichprobenverteilung ist (selbstverständlich auch jetzt) eine Normalverteilung – wir kennen aber nicht ihre Lage im Achsenkreuz ( ist ja bedauerlicherweise jetzt unbekannt).
17
359
Hochrechnungen
Sie sieht aber so aus wie die Kurve in Abbildung 17.1, nur ihre Lage kennen wir nicht. Aber wir kennen – auch jetzt – die Länge des Intervalls, über dem sich der 90%-Bereich befindet. Diese Länge ist nach wie vor 1,316, oder 0,658 . Noch einmal soll die oben schon vorgestellte Stichprobenverteilung gezeichnet werden (siehe Abbildung 17.2) und darunter – auf einer dritten waagerechten Achse mit der Bezeichnung erste Stichprobe – der Mittelwert unserer Stichprobe x 7,5 . Zudem haben wir um diesen Wert 7,5 herum das Intervall 0,658 aufgebaut.
Stichprobenverteilung 1,2 1 0,8 0,6 0,4 0,2 0
6,5 6,7 6,9 7,1 7,3 7,5 7,7 7,9 8,1 8,3 8,5 8,7 8,9 9,1 9,3 9,5
Mittelwert K erste Stichprobe
Abb. 17.2: Stichprobenverteilung und erste Stichprobe (E17.XLS, SPVX2)
Beachten Sie bitte bei der Betrachtung dieser Skizze Folgendes: Da wir die Lage der Stichprobenverteilung nicht kennen, ist die gedankliche (optische) Verbindung, die Sie zwischen dem Fußpunkt der Symmetrieachse der Normalverteilung und dem Stichprobenmittelwert herstellen können, eigentlich nicht vorhanden. Die Kurve schwebt gewissermaßen unverbunden über der untersten waagerechten Achse. Stellen Sie sich vor, es würden weitere Zufallsstichproben vom Umfang n = 100 gezogen; in jeder würde der Stichprobenmittelwert berechnet; jeder dieser Werte würde auf einer eigenen waagerechten Achse der Grafik hinzugefügt, und um jeden dieser Werte würde das Intervall der Länge 0,658 aufgebaut. Dann würde sich – für die ersten sieben Stichproben – Abbildung 17.3 ergeben.
360
17.4
Intervallschätzungen
Abb. 17.3: Stichprobenverteilung und sieben Stichproben (E17.XLS, SPV3)
Sie erkennen: Einige der Intervalle, die um die jeweiligen Stichprobenmittelwerte aufgebaut werden, können den unbekannten Mittelwert der Grundgesamtheit (Fuß der Symmetrieachse der Normalverteilung) erfassen, andere hingegen nicht – egal wo eigentlich die Kurve im Achsenkreuz liegt. Auf lange Sicht, d. h. nach vielen, vielen Zufallsstichproben, muss sich logischerweise Folgendes ergeben: In 90% aller Stichproben wird der Stichprobenmittelwert so liegen, dass das darum aufgebaute Intervall den wahren Grundgesamtheitsmittelwert mit erfassen kann. In 5% der Stichproben wird der Stichprobenmittelwert so klein sein, dass das darum aufgebaute Intervall den wahren Grundgesamtheitsmittelwert von links her nicht erfassen kann. In weiteren 5% der Stichproben wird der Stichprobenmittelwert so groß sein, dass das darum aufgebaute Intervall den wahren Grundgesamtheitsmittelwert von rechts her nicht erfassen kann. Niemand zieht viele, viele Zufallsstichproben! Aber diese gedankliche Häufigkeitsbetrachtung lässt sich im Einzelfall (nur eine einzige Zufallsstichprobe wird gezogen) als Wahrscheinlichkeitsbetrachtung wie folgt formulieren:
17
361
Hochrechnungen
Bei einer einzigen Zufallsstichprobe ist zu erwarten, dass der Stichprobenmittelwert mit einer Wahrscheinlichkeit von 90% so liegt, dass das darum aufgebaute Intervall den wahren Grundgesamtheitsmittelwert mit erfasst. Mit 5% Wahrscheinlichkeit wird er zu klein sein, um den Grundgesamtheitsmittelwert erfassen zu können; mit weiteren 5% wird er zu groß dazu sein. Für unsere (erste und jetzt einzige) Zufallsstichprobe gilt also: Der Stichprobenmittelwert von x 7,5 liegt mit 90% Wahrscheinlichkeit so, dass das darum aufgebaute Intervall – es reicht von 7,5 0,658 6,842 bis 7,5 0,658 8,158 – den wahren (unbekannten) Grundgesamtheitsmittelwert erfasst. Kurz gesagt: Mit einem Vertrauen von 90% liegt der Grundgesamtheitsmittelwert zwischen 6,842 und 8,158. Wir sprechen in diesem Zusammenhang von Vertrauen und nennen den entsprechenden Bereich Vertrauensbereich oder Vertrauensintervall (Konfidenzbereich oder Konfidenzintervall sind entsprechende Begriffe) und die Wahrscheinlichkeitsangabe (90%) das Vertrauensniveau (Konfidenzniveau). Damit soll verdeutlicht werden, dass es keine Wahrscheinlichkeit dafür gibt, dass der unbekannte Mittelwert der Grundgesamtheit im angegebenen Intervall liegt (er liegt entweder drin, dann ist seine Wahrscheinlichkeit 1, oder nicht, dann hat sie den Wert 0). Zwar sagen wir, dass der Stichprobenmittelwert mit einer Wahrscheinlichkeit von 90% so liegt, dass ..., aber wir sagen zugleich, dass der Mittelwert der Grundgesamtheit mit einem Vertrauen von 90% im angegebenen Intervall liegt. Damit ist die Intervallschätzung für den Grundgesamtheitsmittelwert durchgeführt. Fassen wir die Vorgehensweise noch einmal zusammen: 1. 2. 3. 4.
Ziehen Sie eine Zufallsstichprobe vom Umfang n. Berechnen Sie den Stichprobenmittelwert x und die Stichprobenstandardabweichung s. Geben Sie sich ein Vertrauensniveau für Ihre Schätzung vor (zum Beispiel VN 90% ). Ermitteln Sie aus der Tabelle der Normalverteilung die standardisierten Grenzpunkte des Vertrauensintervalls k1 und k 2 (bei 90% ist k1 1,645 und k 2 1,645 ). 5. Berechnen Sie durch Entstandardisierung die Grenzpunkte des Vertrauensintervalls für die Intervallschätzung: Bei der Mittelwertschätzung gilt: '1, 2
x
k1, 2
s n
Sofort erkennen Sie, dass die Schätzung präziser wird – das Vertrauensintervall wird enger –, wenn: a)
das Vertrauensniveau gesenkt wird (80% statt 90%, k-Werte werden kleiner) oder
b) die Streuung kleiner wird (kleinerer Wert für s) oder c)
der Stichprobenumfang n größer wird.
Andererseits wird Ihr Vertrauen in die Schätzaussage höher, wenn Sie beispielsweise ein größeres Schätzintervall zulassen. Die sicherlich gewünschte Erhöhung des Vertrauens bei gleichzeitiger Verkleinerung des Intervalls (Erhöhung der Präzision) ist nur möglich, wenn der Stichprobenumfang n erhöht wird. Es ist jetzt an der Zeit, darauf hinzuweisen, dass Excel die Funktion KONFIDENZ bereitstellt, um Schätzintervalle zu bestimmen.
362
17.4
Intervallschätzungen
1. 2. 3. 4.
Rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. Wählen Sie aus der Kategorie STATISTIK die Funktion KONFIDENZ. Klicken Sie OK an. Geben Sie im zweiten Dialogfenster des Funktions-Assistenten folgende Informationen ein: bei ALPHA: 0,1 bei STANDABWN: 4 bei UMFANG_S: 100 5. Klicken Sie OK an. ALPHA steht für 1 Vertrauensniveau ( 1 0,9 bei 90% Vertrauensniveau); STANDABWN ist die Standardabweichung der Grundgesamtheit, ersatzweise die der Stichprobe; UMFANG_S ist der Stichprobenumfang. Es ergibt sich der Wert 0,6579 (gerundet), also offensichtlich das halbe Vertrauensintervall. Die dargelegten Überlegungen zur Intervallschätzung lassen sich auf andere Maßzahlen übertragen. Beispielsweise gewinnen Sie die Grenzpunkte des Schätzintervalls für die Schätzung des Anteilswertes der Grundgesamtheit wie folgt: '1,2
p k1, 2
p1 p n
Beispiel: In einer Zufallsstichprobe vom Umfang n 400 bei Studierenden der Ruhr-Universität Bochum ergibt sich ein Anteil weiblicher Studierender von p 30% . In welchen Grenzen liegt der unbekannte Anteilswert der Grundgesamtheit mit einem Vertrauen von 95%? Es ergibt sich als Lösung dieser Aufgabe: '1,2
p k1,2
p1 p n
0,3 1,96
0,3 0,7 400
0,3 0,023
Das Schätzintervall reicht also von 0,277 bis 0,323. Mit einem Vertrauen von 95% liegt der Anteil weiblicher Studierender in der Grundgesamtheit zwischen 27,7% und 32,3%.
18
Tests bei kleinen Stichprobenumfängen
„Wer wenig weiß, entscheidet schnell.“ Statistische Lebensweisheit
Statistik für Geizhälse 18.1 Die sparsamste Lösung 18.2 Ausgangslage 18.3 Anteilswerttest 18.4 Anteilwertdifferenzentest (Fisher-Test) 18.5 Mittelwerttest 18.6 Mittelwertdifferenzentest 18.7 Varianzquotiententest 18.8 Mittelwerte aus mehr als zwei Stichproben (Varianzanalyse)
18.1
Die sparsamste Lösung
Kürzlich bat man mich um einen statistischen Ratschlag. Der Leiter einer empirischen Forschungsgruppe, befasst mit einer statistischen Erhebung zu den Auswirkungen des Schichtdienstes bei einer bestimmten Berufsgruppe des öffentlichen Dienstes, schilderte mir folgendes Problem: Er habe bei der Auswertung seiner 500 Fragebögen festgestellt, dass die Gruppe der Dreißig- bis Vierzigjährigen in seiner primärstatistischen Untersuchung bedauerlicherweise unterrepräsentiert sei. Eigentlich hätten 34% der Befragten – verglichen mit entsprechenden Daten der Grundgesamtheit, aus der er seine Stichprobe ziehen ließ – in dieser Altersklasse sein müssen. „Das wären ja dann 170 Personen“, rechnete ich flugs im Kopf aus. „Genau“, antwortete er. „Leider sind es aber nur 135. Warum, weiß ich auch nicht ganz genau. Was würden Sie mir raten, damit ich die Repräsentativität meiner Stichprobe sicherstellen kann?“ Ohne meine (zweifelsohne brauchbare und methodisch abgesicherte) Antwort abzuwarten, fuhr er fort: „Ich habe jetzt alle Ergebnisse, die diese Altersgruppe betreffen, mit dem Faktor 170/135 multipliziert, also auf die eigentlich zu erwartende Personenzahl von 170 hochgerechnet. Jetzt stimmt wieder alles!“ „Eine prächtige Idee“, sagte ich. „Aber eigentlich hätte es dann ja genügt, in dieser Altersgruppe nur eine einzige Person zu befragen und die dann gewonnenen Befunde mit 170 zu multiplizieren. Das wäre viel billiger geworden – vor allem wenn Sie auch in den anderen Altersklassen nach diesem Muster vorgegangen wären!“
18.2
Ausgangslage
In den vorangegangenen Kapiteln hatten wir es mit statistischen Verfahren zu tun, die sich ausschließlich auf Daten aus Zufallsstichproben stützten. Dabei wurde immer Sorge dafür getragen, dass der Umfang dieser Zufallsstichproben so groß war, dass wir auf die Gesetzmäßigkeiten des zentralen Grenzwerttheorems zurückgreifen konnten. Bei den beiden wichtigsten Einsatzgebieten der wahrscheinlichkeitsstatistischen Verfahren, nämlich beim parametri-
364
18.3
Anteilswerttest
schen Hypothesentest und bei den Intervallschätzungen, konnten wir deshalb angenehmerweise immer mit der Gauß’schen Normalverteilung arbeiten. Nun ist es aber in der Praxis leider nicht selten, dass nur kleine Stichproben vorliegen, vielleicht vom Umfang n 10 oder n 20 , so dass uns diese Möglichkeiten verbaut sind. Es soll deshalb am Beispiel des Anteilswerttests und des Mittelwerttests gezeigt werden, wie bei kleinen Stichprobenumfängen verfahren werden kann. Sicherlich sind der Anteilswert einerseits und das arithmetische Mittel andererseits die beiden wichtigsten Parameter. Ihnen gilt in der Regel das primäre Interesse des Statistikers – zumindest so weit die univariate Auswertung von Stichprobendaten betroffen ist (auf den Fall bivariater Maßzahlen, also zum Beispiel der Zusammenhangsmaße, kommen wir in Kapitel 20 zu sprechen), und sicherlich ist der Hypothesentest von zentraler Bedeutung – allein schon deshalb, weil das entsprechende Instrumentarium, wie wir ja schon in Kapitel 17 im Fall großer Zufallsstichproben gesehen haben, auch für Intervallschätzungen eingesetzt werden kann. Wenn Sie also in den folgenden Darlegungen erkennen, wie ein Anteilswerttest bei kleinem Stichprobenumfang abläuft, dann können Sie auch selbstständig die Lösung der Aufgabe in Angriff nehmen, ausgehend von einem Stichprobenanteilswert aus einer kleinen Zufallsstichprobe ein Konfidenzintervall für den unbekannten Anteilswert der Grundgesamtheit herzuleiten. Und wenn Sie gesehen haben, wie der Mittelwerttest bei kleinem Stichprobenumfang aussieht, dann können Sie auch für diesen Fall die Überlegungen herleiten, die es Ihnen erlauben, in diesem Fall eine Intervallschätzung für den unbekannten Mittelwert der Grundgesamtheit durchzuführen.
18.3
Anteilswerttest
Wir gehen sofort von einem Anwendungsbeispiel aus: Es soll die Hypothese getestet werden, der Anteil von Arbeiterkindern bei den Studierenden der deutschen Universitäten läge bei 0 20% 0, 2 . Es wird eine (kleine) Zufallsstichprobe vom Umfang n 10 gezogen, in der fünf der befragten Studierenden angeben, ihr Vater wäre Arbeiter. Der Stichprobenanteilswert liegt also bei 10% p 50% 0,5 . Die Nullhypothese soll mit einem einseitigen Signifikanzniveau von getestet werden. Die Testdurchführung erfordert im Prinzip die gleichen Überlegungen, wie sie schon im Kapitel 16 für die parametrischen Hypothesentests bei großen Zufallsstichproben mehrfach vorgeführt wurden, nämlich: Wenn der Stichprobenbefund oder ein noch weiter von der Nullhypothese abweichender Wert eine Realisationswahrscheinlichkeit hat – Gültigkeit der Nullhypothese unterstellt –, die kleiner oder gleich dem vorgegebenen Signifikanzniveau ist, wird die Nullhypothese verworfen, andernfalls gilt sie als bestätigt. Um diese Realisationswahrscheinlichkeit, wir hatten sie auch Überschreitungswahrscheinlichkeit genannt, auszurechnen, sind weiterhin die folgenden Überlegungen erforderlich – auch diese sind Ihnen schon längst bekannt: Der Anteilswert der (kleinen) Zufallsstichprobe p 0,5 ist Ausprägung einer Zufallsvariablen, die wir mit P bezeichnen können. Entsprechend ist der Wert 5 (fünf Studierende aus Arbeiterfamilien) Ausprägung einer Zufallsvariablen X. Die Zufallsvariable P folgt einer Wahrscheinlichkeitsverteilung, nämlich der Stichprobenverteilung für den Anteilswert der
18
365
Tests bei kleinen Stichprobenumfängen
Zufallsstichprobe. Diese Stichprobenverteilung ist nun allerdings nicht, auch nicht näherungsweise, die Gauß’sche Normalverteilung – dazu ist die Stichprobe zu klein! Die gesuchte Überschreitungswahrscheinlichkeit kann also nicht mit der Normalverteilung berechnet werden, sondern wir benötigen die exakte Stichprobenverteilung. Diese exakte Verteilung kennen Sie, und sicherlich fällt sie Ihnen ein, wenn Sie statt der Zufallsvariablen P die Zufallsvariable X betrachten: Ganz offenkundig folgt X einer Binomialverteilung mit n 10 und 0,2 – Gültigkeit der Nullhypothese vorausgesetzt. Gesucht ist also: PP
0,5 H 0
PX
5 H0
P5
P6
P7
P8
P9
P 10
Zu addieren sind also sechs binomische Wahrscheinlichkeiten, die ihrerseits mit Excel rasch berechnet werden können: 1. 2. 3. 4. 5.
6. 7. 8.
Tragen Sie in die Zellen A1 bis A6 die Werte 5 bis 10 ein. Klicken Sie B1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. Wählen Sie aus der Kategorie STATISTIK die Funktion BINOMVERT. Klicken Sie die Schaltfläche OK an. Geben Sie im zweiten Dialogfenster des Funktions-Assistenten die folgenden Werte ein: bei ZAHL_ERFOLGE: A1 bei VERSUCHE: 10 bei ERFOLGSWAHRSCH: 0,2 bei KUMULIERT: 0 Klicken Sie OK an. Ziehen Sie die Berechnung von B1 nach unten bis zur Zelle B6. Klicken Sie B7 an, und berechnen Sie über die Summenschaltfläche die Summe der sechs berechneten Wahrscheinlichkeiten
Abb. 18.1: Nutzung der Binomialverteilung (E18.XLS, B1)
Es ergibt sich der Wert 0,0328 (gerundet). Die Wahrscheinlichkeit, in einer Zufallsstichprobe vom Umfang n 10 fünf oder mehr Studierende aus Arbeiterfamilien zu haben, wenn der entsprechende Anteil tatsächlich bei 20% liegen würde, beträgt nur wenig mehr als 3%. Diese Wahrscheinlichkeit ist deutlich kleiner als das vorgegebene Signifikanzniveau, weshalb die Nullhypothese verworfen wird. Man nennt diesen gerade durchgeführten Test Binomialtest, und wir werden im folgenden Kapitel sehen, dass er der Klasse der so genannten Anpassungstests zugeordnet werden kann.
366
18.4
18.4
Anteilswertdifferenzentest
Anteilswertdifferenzentest (Fisher-Test)
Geht man von den Daten aus zwei voneinander unabhängigen Stichproben aus, so kann im Zusammenhang mit der Betrachtung von Anteilswerten die Frage aufgegriffen werden, ob sich zwei Stichprobenanteilswerte signifikant voneinander unterschieden. Damit wird die Nullhypothese geprüft, dass beide Stichproben aus einer einzigen Grundgesamtheit stammen. Der Vollständigkeit halber sei erwähnt, dass auch die Hypothese geprüft werden könnte, ob die Differenz der Stichprobenanteilswerte dp
p1 p 2
mit der Behauptung vereinbar ist, dass eine Differenz der Grundgesamtheitsanteilswerte in der Größenordnung D 1 2 vorliegt. Bei großen Zufallsstichproben wissen Sie, wie vorzugehen ist (vergleiche Kapitel 16, Abschnitt 5). Der Anteilswertdifferenzentest kann dann mit der Gauß’schen Normalverteilung durchgeführt werden. Bei kleinen Stichprobenumfängen funktioniert dies nicht mehr. In diesem Fall greifen wir auf den exakten Test von Fisher zurück, der nun beschrieben werden soll. Die Ausgangslage ist folgende: Es liegen zwei voneinander unabhängige Stichproben vor, in denen eine dichotome Variable untersucht wird, eine Variable also, die nur zwei Ausprägungen aufweist – deshalb geht es hier ja auch um Anteilswerte. Die Nullhypothese behauptet, dass beide Stichproben aus der gleichen Grundgesamtheit stammen. Um den Fisher-Test durchzuführen, wird üblicherweise eine Notation vereinbart, wie sie im folgenden Schema dargestellt ist. Ausprägung des dichotomen Merkmals
a
a
Summe
1
x1
n1
x1
n1
2
x2
n1
x2
n2
x
n
Nr. der Stichprobe
Summe
x
n
Gezogen wird also eine erste Stichprobe vom Umfang n1 , in der die erste Ausprägung a des dichotomen Merkmals X mit der Häufigkeit x1 auftritt. Damit tritt die andere Ausprägung mit der Häufigkeit n1 x1 auf. Entsprechendes gilt für die zweite Zufallsstichprobe, die den Umfang n 2 aufweist. Beide Stichproben können also unterschiedlich groß sein, wie auch das gleich folgende Zahlenbeispiel zeigt. Wenn nun die Nullhypothese bestätigt werden soll, dann dürfen sich die beiden Anteilswerte p1
x1 und p 2 n1
x2 n2
nur zufällig voneinander unterschieden.
18
Tests bei kleinen Stichprobenumfängen
367
Für die Beurteilung der eventuellen Anteilswertdifferenz genügt es, wenn wir uns nur noch mit x1 (oder mit x 2 ; eines von beiden) befassen. Dies lässt sich folgendermaßen begründen: Die Stichprobenumfänge n1 und n 2 sind ja bekannt. Die Nullhypothese behauptet, dass Damit ist auch x
1
n
2
n
1
2
.
n bekannt.
Daraus folgt, dass nur eine einzige Besetzungszahl in der oben skizzierten 2 2 -Tabelle frei besetzbar (variierbar) ist, zum Beispiel x1 . Üblicherweise wird diese Tabelle so aufgebaut, dass x1 kleiner oder höchstens so groß ist wie die anderen drei Häufigkeiten. Durch Umnummerierung der beiden Stichproben oder durch Vertauschen der beiden Ausprägungen der dichotomen Variablen kann das ja immer erreicht werden. Nimmt x1 einen relativ kleinen Wert an, folgt für x 2 ein relativ hoher Wert. Dies führt dann zu relativ großen Unterschieden zwischen p1 und p 2 . x1 ist demnach für die Überprüfung der Differenz der Stichprobenanteilswerte geeignet. Die Entscheidung über die zu prüfende Nullhypothese (beide Stichproben stammen aus der gleichen Grundgesamtheit) kommt nun nach altbekannter Weise so zustande, dass wir die Frage beantworten, wie groß die Wahrscheinlichkeit dafür ist, dass die Zufallsvariable X1 , von welcher der Wert x1 beobachtet wurde, eben diesen Wert oder einen noch kleineren Wert annimmt (0.1,2 ...) – Zutreffen der Nullhypothese vorausgesetzt. Um diese Wahrscheinlichkeit zu bestimmen, benötigen wir die Stichprobenverteilung der Zufallsvariablen X1 . Ohne dass hier im Detail darauf eingegangen wird, kann festgehalten werden, dass bei zutreffender Nullhypothese die Zufallsvariable der hypergeometrischen Verteilung folgt (siehe Kap. 14, Abschnitt 14.6):
P x1 x
n1 x1
n2 x x1 n x
n1!n 2 !x! n x ! x1!x 2 ! n1 x1 ! n 2 x 2 !n!
Hier sind also gegebenenfalls umfangreichere Berechnungen erforderlich, die bei größeren Stichprobenumfängen dadurch erleichtert werden, dass dann die Chi-Quadrat-Verteilung eingesetzt werden kann (Anpassungstest, siehe Kapitel 19, Abschnitt 19.3). Ist dies aber nicht möglich, soll also mit der angegebenen Wahrscheinlichkeitsfunktion gearbeitet werden, bedienen wir uns der Excel-Funktion HYPGEOMVERT. Dazu ein überschaubares Beispiel: Fünf zufällig ausgewählte Frauen und sechs zufällig ausgewählte Männer werden danach befragt, wie sie die wirtschaftliche Entwicklung in Deutschland für das kommende Jahr einschätzen. Zu prüfen ist mit einem Signifikanzniveau von 5%, dass die beiden Stichproben (die Frauen- und die Männerstichprobe) aus der gleichen Grundgesamtheit stammen. Damit wird also genau genommen die Hypothese geprüft, dass sich die Beurteilung der Wirtschaftslage durch die Frauen nicht von der durch die Männer unterscheidet, oder noch anders formuliert:
368
18.4
Anteilswertdifferenzentest (Fisher-Test)
Das Geschlecht hat keinen Einfluss auf die Ausprägungen der interessierenden Beurteilungsvariablen. Eine der fünf befragten Frauen erwartet eine Verschlechterung der Wirtschaftslage, vier erwarten eine Verbesserung. Bei den Männern ist es so, dass fünf der Befragten eine Verschlechterung erwarten, nur einer erwartet eine Verbesserung. Damit ist die Konstellation für einen Fisher-Test gegeben: Es liegen zwei voneinander unabhängige (kleine) Zufallsstichproben vor, und es wird ein dichotomes Merkmal untersucht, die Beurteilung der zukünftigen Wirtschaftslage mit den Ausprägungen Verbesserung und Verschlechterung. Mit Blick auf das obige allgemeine Schema sind also die folgenden Werte bekannt: n1 5 n2 6 x1 1
n1
x1
4
x2 5 n1 x 2 1 x 6 n x 5 n 11 5% Zu berechnen ist also mit der hypergeometrischen Verteilung P(1) + P(0). Berechnen Sie mit Excel zunächst P(1) auf folgende Weise: 1. 2. 3. 4.
Rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. Wählen Sie aus der Kategorie STATISTIK die Funktion HYPGEOMVERT. Klicken Sie OK an. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei ERFOLGE_S: 1 bei UMFANG_S: 5 bei ERFOLGE_G: 6 bei UMFANG_G: 11 5. Klicken Sie OK an. Es ergibt sich der Wert 0,0649 (gerundet). Die Berechnung von P(0) ist entbehrlich, weil schon mit P(1) das Signifikanzniveau überschritten wird. Die Hypothese, dass beide Stichproben aus der gleichen Grundgesamtheit stammen, kann also nicht verworfen werden – trotz des offensichtlichen Beurteilungsunterschieds zwischen Männern und Frauen. Dass dieser Unterschied nicht die Verwerfung der Nullhypothese erlaubt, hat natürlich damit zu tun, dass der Informationshintergrund zu dürftig ist – bedenken Sie, dass die Stichprobenumfänge nur n1 5 und n 2 6 sind (dass bei kleinen Stichprobenumfängen Hypothesen tendenziell gegen das eventuelle Verwerfen geschützt sind, haben wir schon in einem früheren Kapitel besprochen). Wir werden später erkennen, dass der Fisher-Test formal mit der Fragestellung eines ChiQuadrat-Anpassungstests übereinstimmt (siehe dazu Kapitel 19) und auch mit dem Chi-Quadrat-Unabhängigkeitstest (siehe Kapitel 20). Wegen der zuerst genannten formalen Überein-
18
Tests bei kleinen Stichprobenumfängen
369
stimmung taucht in manchen Lehrbüchern der Fisher-Test auch unter der Sammelüberschrift der Anpassungstestverfahren auf.
18.5
Mittelwerttest
Neben dem Anteilswert ist in der beschreibenden Statistik sicherlich das arithmetische Mittel die wichtigste charakterisierende Maßzahl. Metrische Daten werden praktisch nie veröffentlicht, ohne dass auch ihr arithmetisches Mittel angegeben wird. Deshalb ist es nicht verwunderlich, dass sowohl im Bereich des statistischen Hypothesentests wie auch bei den Intervallschätzungen dieser Maßzahl immer wieder besondere Aufmerksamkeit gewidmet wird. Wenn eine Mittelwerthypothese formuliert wird, etwa von der Art: der tagesdurchschnittliche Zigarettenkonsum erwachsener deutscher Männer liegt bei acht Zigaretten, wird der statistische Signifikanztest unter Nutzung der Gauß’schen Normalverteilung durchgeführt, wenn die Zufallsstichprobe, welche die Daten für die Hypothesenprüfung bereitstellt, nicht zu klein ist (Faustregel: n 30 ). Ist die Zufallsstichprobe aber zu klein, scheidet diese Vorgehensweise, die Sie ja in Kapitel 16, Abschnitt 5, kennen gelernt haben, aus. Die Ursache dafür liegt in dem folgenden Umstand begründet: Sicherlich erinnern Sie sich daran, dass beim Mittelwerttest auf der Grundlage einer großen Zufallsstichprobe die Normalverteilung verwendet wird, deren Parameter die folgenden sind: Mittelwert:
X
Standardabweichung:
X
0
n
Weiterhin erinnern Sie sich daran, dass wir bei unbekannter Standardabweichung der Grundgesamtheit (in der Regel ist sie ja tatsächlich unbekannt) diese durch die Stichprobenstandardabweichung s ersetzt haben. Sollte also der Stichprobenmittelwert standardisiert werden, um aus den Tabellen der Standardnormalverteilung die Überschreitungswahrscheinlichkeit herauszusuchen, wobei ja dann im Vergleich dieser mit dem vorgegebenen Signifikanzniveau die Testentscheidung herbeigeführt werden kann, so wurde die folgende Formel verwendet: K
x
s
0
n Bei kleinem Stichprobenumfang führt aber nun die Ersetzung von durch s zu einer Unschärfe, die nicht akzeptiert werden kann (nur bei großem Stichprobenumfang kann ja erwartet werden, dass die Stichprobenstandardabweichung s hinreichend nahe bei der unbekannten Standardabweichung der Grundgesamtheit liegt). Bei kleinem Stichprobenumfang ist die oben angegebene standardisierte Größe nicht mehr Ausprägung der Standardnormalvariablen K – somit scheidet der Einsatz der Normal- und der Standardnormalverteilung aus –, sondern sie folgt einer t-Verteilung mit n 1 Freiheitsgraden. Diese Verteilung haben Sie schon in Kapitel 14 kennen gelernt. Hier nun wird sie zum ersten Mal konkret eingesetzt, wie das folgende Beispiel verdeutlicht: Es soll mit einem zweiseitigen Signifikanzniveau von 10% die Hypothese getestet werden, dass der tagesdurchschnittliche Zigarettenkonsum bei acht Zigaretten liegt. In einer Zufalls-
370
18.6
Mittelwertdifferenzentest
stichprobe vom Umfang n 21 ergibt sich ein arithmetisches Mittel von x 7 bei einer Standardabweichung von s 3,6 Zigaretten. Wie lautet die Testentscheidung? Auch hier gehen wir nach altbewährter Weise vor, indem wir wie folgt argumentieren: Die Testentscheidung kann über die Beantwortung der Frage herbeigeführt werden, wie groß die Wahrscheinlichkeit dafür ist, dass in einer Zufallsstichprobe vom Umfang n 21 ein Stichprobenmittelwert auftritt, der den Wert 7 hat oder noch weiter vom Wert der Nullhypothese abweicht. Diese Wahrscheinlichkeit wird mit dem vorgegebenen Signifikanzniveau verglichen. Zur Berechnung dieser Wahrscheinlichkeit benötigen wir die zuständige Wahrscheinlichkeitsverteilung, die in diesem Fall keine Normalverteilung, sondern die t-Verteilung mit 20 Freiheitsgraden ist. Und wir benötigen den beobachteten t-Wert. Er ergibt sich zu: t
7 8 3,6
1,273
21 Für die t-Verteilung gibt es Tabellen, in denen für unterschiedliche zweiseitige Signifikanzniveaus die Rückweisungspunkte angegeben sind. Auf diese Tabellen greifen wir nicht zu, sondern wir verwenden die Excel-Funktion TVERT (siehe unten): Würde man die Tabellen benutzen, so würde sich zeigen, dass bei einem zweiseitigen Signifikanzniveau von 10% und bei 20 Freiheitsgraden die Rückweisungspunkte bei 1,73 liegen. Erinnern Sie sich, dass bei der Standardnormalverteilung die entsprechenden Rückweisungspunkte bei 1,645 lagen? Die t-Verteilung schützt also offenkundig etwas länger die Nullhypothese – Abweichungen vom Nullhypothesenwert, die bei Verwendung der Normalverteilung schon zur Verwerfung der Nullhypothese führen würden, reichen bei der t-Verteilung noch nicht – sie ist ja auch für kleinere Stichprobenumfänge gedacht, und bei bescheidenerem Informationshintergrund – das hatten wir auch schon an anderer Stelle festgestellt – wird die Nullhypothese tendenziell geschützt. Der Vergleich des oben berechneten t-Wertes mit den Rückweisungspunkten zeigt, dass die zu testende Nullhypothese angenommen wird. Die Verwendung der Excel-Funktion TVERT führt zu den folgenden Arbeitsschritten: 1. 2. 3. 4.
Rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. Wählen Sie aus der Kategorie STATISTIK die Funktion TVERT. Klicken Sie die Schaltfläche OK an. Geben Sie im zweiten Dialogfenster des Funktions-Assistenten die folgenden Informationen ein: bei x: 1,273 bei FREIHEITSGARDE: 20 bei SEITEN: 2 5. Klicken Sie OK an. Dies führt zum Wert 0,2176, d.h., die Nullhypothese wird bestätigt.
18.6
Mittelwertdifferenzentest
Bei großen Zufallsstichproben kann der Test des Unterschiedes zwischen zwei Zufallsstichprobenmittelwerten unter Nutzung der Gauß’schen Normalverteilung durchgeführt werden,
18
371
Tests bei kleinen Stichprobenumfängen
wie es schon in Kapitel 16, Abschnitt 5, gezeigt wurde. Bei kleinen Zufallsstichproben kommt wieder die t-Verteilung zum Zuge – zumindest wenn unterstellt werden darf, dass die beiden Grundgesamtheiten, aus denen die Stichproben gezogen werden, normalverteilt sind. Ist dies nicht der Fall, muss ein verteilungsfreies Verfahren benutzt werden, beispielsweise der Median-Test (siehe Kapitel 22). Wenn aber die Normalverteilungseigenschaft der Grundgesamtheiten unterstellt werden kann und wenn die beiden Grundgesamtheitsvarianzen gleich sind (dies kann gegebenenfalls mit dem so genannten Varianzquotiententest überprüft werden, den wir in Abschnitt 18.7 ansprechen), dann kann die t-Verteilung, selbst wenn die beiden Varianzen unbekannt sind, verwendet werden. Sollten die beiden Varianzen – unbekannt oder nicht – nicht identisch sein, gilt die t-Verteilung immer noch näherungsweise. Dazu gleich ein Beispiel: In zwei Schulklassen werden Schüler zufällig ausgewählt, um ein mehrseitiges Diktat zu schreiben. In der ersten der beiden Klassen wurden Diktate häufig geübt, in der zweiten aber nicht. Die Befunde (Anzahl der Fehler) sind die folgenden: Klasse 1:
13, 15, 17, 18
Klasse 2:
14, 16, 18, 22, 23
In der ersten der beiden Klassen wurden also vier, in der zweiten fünf Schüler zufällig für dieses Probediktat ausgewählt. Offenkundig liegt die durchschnittliche Fehleranzahl in Klasse 1 bei x1 15,75 (Standardabweichung s1 2,22 ). In der zweiten Klasse gilt entsprechend x 2
18,6 und s 2
3,85 .
Die Standardabweichungen wurden mit der Excel-Funktion STABW berechnet. Zu testen ist mit einem zweiseitigen Signifikanzniveau von 10% die Hypothese, dass die beiden Stichprobenmittelwerte nur zufällig voneinander abweichen bzw. dass beide Stichproben aus der gleichen Grundgesamtheit stammen. Die Prüfgröße t berechnet sich folgendermaßen: t
dX
D
s12 n1
s22 n2
Hier ergibt sich: t
2,85 4,92 4
14,8 5
1,39
Da die Entscheidungspunkte bei 1,89 liegen – zu verwenden ist die t-Verteilung mit n1 n 2 2 7 Freiheitsgraden. Deshalb kann die Hypothese der Gleichheit der Grundgesamtheiten nicht verworfen werden. Anders ausgedrückt: Das Ergebnis der beiden kleinen Stichproben ergibt keinen Hinweis darauf, dass die in den beiden Klassen unterschiedliche Vorbereitung einen statistisch signifikanten Einfluss hätte. Unter Nutzung von Excel können Sie dieses Testergebnis mit weniger Mühe bereitstellen:
372
18.7
Varianzquotiententest
1. 2. 3.
Geben Sie in die Zellen A1 bis A4 die Werte der ersten Stichprobe ein. Geben Sie in die Zellen B1 bis B5 die Werte der zweiten Stichprobe ein. Klicken Sie zum Beispiel C1 an, und rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. 4. Wählen Sie aus der Kategorie STATISTIK die Funktion TTEST. 5. Klicken Sie die Schaltfläche OK an. 6. Geben Sie im zweiten Dialogfenster des Funktions-Assistenten die folgenden Informationen ein: bei MATRIX1: A1:A4 bei MATRIX2: B1:B5 bei SEITEN: 2 bei TYP: 2 7. Klicken Sie OK an. Mit MATRIX1 und MATRIX2 sind die Zellbereiche gemeint, in denen die Ausgangsinformationen, Ihre Stichprobenbefunde, eingegeben wurden Bei TYP ist die Zahl 2 einzugeben, wenn die Grundgesamtheitsvarianzen als gleich unterstellt werden. Ist dies nicht der Fall, ist die Zahl 3 einzugeben. Excel berechnet den Wert 0,2325 (gerundet). Dies ist die Überschreitungswahrscheinlichkeit – die Wahrscheinlichkeit also für den empirischen Befund oder einen noch weiter von der Nullhypothese abweichenden Befund. Da diese Überschreitungswahrscheinlichkeit größer ist als das vorgegebene Signifikanzniveau, wird die Nullhypothese (es gibt nur eine Grundgesamtheit) bestätigt.
18.7
Varianzquotiententest
In diesem Abschnitt wenden wir uns der Frage zu, wie die Varianzen aus zwei unabhängigen Stichproben getestet werden können, nachdem wir uns in den vorangegangenen Abschnitten mit Anteilswert- und Mittelwertdifferenzentests befasst haben. Im Fall großer Zufallsstichproben kennen wir aus Kapitel 16, Abschnitt 16.5.3, schon den Test der Differenz zwischen zwei Zufallsstichprobenstandardabweichungen. Hier jedoch geht es wieder um den Fall kleiner Stichproben. Allerdings wird jetzt die Nullhypothese umformuliert. Sie bezieht sich nicht mehr auf die Differenz zweier Grundgesamtheitsvarianzen, sondern auf den Quotienten: H0 :
2 1 2 2
1 oder
2 1
2
2
2
Es kann nun gezeigt werden, dass die beiden zur Hypothesenüberprüfung verwendeten Stichprobenvarianzen s12 und s 2 2 , die ja bekanntlich Ausprägungen von zwei Zufallsvariablen sind, zu einer neuen Zufallsvariablen zusammengeführt werden können, nämlich zu S12
S2 2
18
Tests bei kleinen Stichprobenumfängen
373
Und diese Zufallsvariable folgt einer F-Verteilung (siehe Kapitel 14, Abschnitt 10) mit n1 1 und 2 n 2 1 Freiheitsgraden. 1 n1 und n 2 sind die Umfänge der beiden voneinander unabhängigen Zufallsstichproben. Damit kann der Varianzquotient aus den beiden Stichprobenvarianzen zur Überprüfung der Nullhypothese verwendet werden. Je weiter er von 1 abweicht – wobei sich eingebürgert hat, die größere der beiden Stichprobenvarianzen in den Zähler des Quotienten zu übernehmen –, desto eher wird die Nullhypothese verworfen. Dazu ein Beispiel mit kleinen Zufallsstichproben aus normalverteilten Grundgesamtheiten. Es geht um die Körpergröße erwachsener Männer aus zwei Bundesländern: Bayern
172, 166, 172, 169, 177
Nordrhein-Westfalen
181, 167, 185,177, 175, 188, 182
Aus diesen Daten berechnen wir die beiden Stichprobenvarianzen (erwartungstreu) zu: Varianz 1 16,7 Varianz 2
48,9
Der Quotient aus beiden, wenn man die größere Varianz vereinbarungsgemäß in den Zähler setzt, ergibt sich zu 2,93. Dieser Quotient ist Ausprägung einer Zufallsvariablen, die einer FVerteilung mit 4 und 6 Freiheitsgraden folgt. Es gibt Tabellen für die F-Verteilung, in denen in Abhängigkeit von den beiden jeweiligen Freiheitsgraden Rückweisungspunkte (meist für Signifikanzniveaus von 2,5% oder 5%) ausgewiesen sind. Schaut man in dieser Tabelle bei den angegebenen Freiheitsgraden nach, so findet man den Wert Fr 4,53 . Wenn also der Quotient aus den beiden Stichprobenvarianzen diesen Wert erreicht oder überschreitet, dann wird die Nullhypothese, dass beide Stichproben aus einer Grundgesamtheit stammen, sich die Stichprobenvarianzen also nur zufällig voneinander unterscheiden, verworfen. Dies ist hier nicht der Fall. Die Nullhypothese unseres Beispiels wird aufgrund der Stichprobenbefunde bestätigt. Mit der Excel-Funktion FVERT kann die Testentscheidung schneller herbeigeführt werden: 1. 2. 3. 4.
Rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. Wählen Sie aus der Kategorie STATISTIK die Funktion FVERT. Klicken Sie die Schaltfläche OK an Geben Sie im zweiten Dialogfenster des Funktions-Assistenten die folgenden Informationen ein: bei x: 2,93 bei FREIHEITSGRADE1: 6 bei FREIHEITSGRADE2: 4 5. Klicken Sie OK an. Excel berechnet den Wert 0,159 (gerundet). Dies ist die Überschreitungswahrscheinlichkeit für den gefundenen Wert des Varianzquotienten. Da diese Überschreitungswahrscheinlichkeit größer als das Signifikanzniveau ist, wird die Nullhypothese bestätigt. Statt die Funktion FVERT einzusetzen, können Sie auch auf die Funktion FTEST zurückgreifen, die, direkt von den Stichprobendaten ausgehend, die Testentscheidung herbeiführt.
374
18.8
Mittelwerte
1.
Geben Sie in A1 bis A5 die Werte der ersten, in B1 bis B7 die Werte der zweiten Stichprobe ein. 2. Rufen Sie über EINFÜGEN/FUNKTION… den Funktions-Assistenten auf. 3. Wählen Sie aus der Kategorie STATISTIK die Funktion FTEST. 4. Klicken Sie die Schaltfläche OK an 5. Geben Sie im zweiten Dialogfenster des Funktions-Assistenten die folgenden Informationen ein: bei MATRIX1: A1:A5 bei MATRIX2: B1:B7 6. Klicken Sie OK an. Excel berechnet den Wert 0,317 (gerundet). Bei einseitiger Betrachtungsweise ergibt sich entsprechend 0,317 / 2 0,159 . Dies entspricht dem oben mit der Funktion FVERT berechneten Wert. Also auch hier kommen wir – wie es auch zu erwarten ist – zu dem Ergebnis, dass die zu prüfende Nullhypothese nicht verworfen wird.
18.8
Mittelwerte aus mehr als zwei Stichproben
Nicht selten steht man vor der Aufgabe, dass mehr als zwei voneinander unabhängige Zufallsstichproben vorliegen, wobei die Mittelwertdifferenzen beurteilt werden sollen. Stellen Sie sich beispielsweise vor, in allen 16 Bundesländern würde je eine Zufallsstichprobe erhoben, um im Rahmen einer sozioökonomischen Bestandsaufnahme Informationen über die Einkommensverhältnisse zu gewinnen. In jeder Zufallsstichprobe können Sie dann zur zusammenfassenden Charakterisierung der Daten das arithmetische Mittel ausrechnen – Sie erhalten also 16 Stichprobenmittelwerte, die sich mehr oder weniger deutlich voneinander unterscheiden werden. Es interessiert nun die Frage, ob aufgrund des empirischen Befundes die Hypothese verworfen werden muss, alle 16 Stichproben stammen aus einer einzigen Grundgesamtheit. Mit den gerade oder den in Kapitel 16, Abschnitt 5, besprochenen Mittelwertdifferenzentests (je nach Stichprobengröße) könnten Sie diese Aufgabe in Angriff nehmen, müssten dann aber 120 paarweise Mittelwertvergleiche und damit 120 Differenzentests durchführen. 2 C16 Dies ist unangenehm und zudem mit einem prinzipiellen Problem behaftet, das sich folgendermaßen skizzieren lässt: Wenn Sie 120 Tests zur Beantwortung einer einzigen Frage durchführen (stammen die 16 Stichproben aus einer einzigen Grundgesamtheit oder nicht?), dann müssen bei einem Signifikanzniveau von zum Beispiel 10%, gerade dann, wenn die Nullhypothese zutrifft, zwölf der Testergebnisse im Rückweisungsbereich der Nullhypothese erwartet werden. Wie soll entschieden werden, wenn zwölf der Teiltests die Rückweisung, 108 aber die Annahme empfehlen? Um diesem Dilemma zu entgehen, greift man zu einem Verfahren, das mit einer einzigen Testprozedur anstatt mit 120 Teiltests die Testentscheidung herbeiführen kann. Dieses Verfahren findet sich unter dem Namen Varianzanalyse einfacher Klassifikation in den anspruchsvolleren Statistik-Lehrbüchern. Dieser Name weist darauf hin, dass es auch Varianzanalysen zweifacher oder mehrfacher Klassifikation gibt, worauf hier aber nicht eingegangen wird.
18
375
Tests bei kleinen Stichprobenumfängen
Der Name Varianzanalyse ist etwas irreführend, weil nicht Varianzen in der Aussage der zu prüfenden Nullhypothese auftauchen, sondern Mittelwertunterschiede. Darauf sollte besonders geachtet werden. Allerdings stützt sich die Vorgehensweise des Tests auf Varianzen, wie gleich erläutert wird – und daher stammt die Bezeichnung. Wie läuft dieses Verfahren ab? Es werden r voneinander unabhängige Stichproben der Umfänge n i gezogen. n1
Umfang der ersten Stichprobe; n i
Umfang der i-ten Stichprobe; i=1,2 ... r).
Dies zeigt das folgende Beispiel. In diesem Beispiel geht es um drei Bundesländer, in denen eine jeweils unterschiedliche Anzahl zufällig ausgewählter Haushalte danach befragt werden, wie viele Kinder unter 14 Jahren es in diesen Haushalten gibt. Die Ausgangsdaten finden sich in der Tabelle der Abbildung 18.2.
Abb. 18.2: Ausgangsdaten zur Varianzanalyse (E18.XLS, VA1)
Die erste Stichprobe hat also den Umfang 4, die beiden anderen jeweils den Umfang 6, r 3 , d. h., es liegen drei Stichproben vor. Berechnet man in einer Excel-Tabelle die arithmetischen Mittel in den Stichproben, so ergeben sich die folgenden Werte: x1 1,5 x2
2,5
x3
2,0
Die zu prüfende Nullhypothese lautet: Alle Stichproben stammen aus der gleichen Grundgesamtheit, oder anders formuliert: Die beobachteten Mittelwertunterschiede sind nur zufälliger Natur und statistisch nicht signifikant. Um diese Hypothese zu prüfen, greift man auf die so genannte Quadratsummenzerlegung zurück, die sich folgendermaßen darstellen lässt: i
j
x ij
x
2 i
ni xi
x
2 i
j
x ij
xi
Die Bezeichnungen sind die folgenden: x ij :
Merkmalswert Nr. j in der Stichprobe Nr. i
x:
Gesamtmittelwert (zugleich Mittelwert aller Stichprobenmittelwerte)
ni :
Umfang der Stichprobe Nr. i
xi :
Mittelwert der Stichprobe Nr. i
376
18.8
Mittelwerte aus mehr als zwei Stichproben
In Worten heißt das: Die Summe aller quadrierten Abweichungen der Merkmalswerte vom Gesamtmittelwert (Term links vom Gleichheitszeichen) lässt sich in zwei Teile zerlegen: 1.
Die Summe aller mit den Stichprobenumfängen gewichteten quadrierten Abweichungen der Stichprobenmittelwerte vom Gesamtmittelwert; 2. die Summe aller quadrierten Abweichungen der Merkmalswerte von ihren jeweiligen Stichprobenmittelwerten. In Kurzform schreibt man diese Quadratsummenzerlegung wie folgt: q
q1
q2
Man kann die erste Quadratsumme q als ein Maß der Variation aller Werte auffassen. Die Quadratsumme q1 zeigt die Streuungsverhältnisse zwischen den Stichproben (Ländern). Die Quadratsumme q 2 zeigt die Streuungsverhältnisse innerhalb der Stichproben. Excel stellt für die Varianzanalyse einfacher Klassifikation die Funktion ANOVA bereit. Folgende Schritte sind erforderlich: 1. 2. 3. 4.
Wählen Sie EXTRAS/ADD-INS… Wählen Sie die Position ANALYSE-FUNKTIONEN Sorgen Sie durch Anklicken für ein Häkchen bei ANALYSE-FUNKTIONEN (siehe Abbildung 18.3). Klicken Sie OK an.
Abb. 18.3: EXTRAS/ADD-IN…
5.
Wählen Sie dann EXTRAS/ANALYSE-FUNKTIONEN… (siehe Abbildung 18.4).
18
Tests bei kleinen Stichprobenumfängen
377
Abb. 18.4: EXTRAS/ANALYSE-FUNKTIONEN…
6.
Wählen Sie im Fenster der Abbildung 18.4 die Position EINFAKTORIELLE VARIANZANALYSE, und klicken Sie OK an (siehe Abbildung 18.5). 7. Im Dialogfenster der Abbildung 18.5 klicken Sie den Schalter im Eingabefeld beim Stichwort EINGABEBEREICH: an. 8. Markieren Sie dann Ihre Ausgangsdaten (Zelle B2:D7 in der Tabelle der Abbildung 18.2), und klicken Sie auf den Schalter rechts im Hilfsfenster, das sich am oberen Bildschirmrand geöffnet hatte. 9. Wählen Sie bei Ausgabe NEUES TABELLENBLATT. 10. Klicken Sie OK an.
Abb. 18.5: Einfaktorielle Varianzanalyse
Excel produziert die Ergebnisse der einfaktoriellen Varianzanalyse, wie sie in Abbildung 18.6 auf der folgenden Seite dargestellt sind. Im oberen Teil der Ausgabetabelle werden die drei Gruppen (Stichproben) beschrieben. In Spalte A werden die drei Stichproben genannt. In Spalte B stehen die Stichprobenumfänge. In Spalte C finden Sie die Summen der Merkmalswerte. In Spalte D stehen die arithmetischen Mittel (Stichprobenmittelwerte). In Spalte E stehen die Stichprobenvarianzen.
378
18.8
Mittelwerte aus mehr als zwei Stichproben
Interessanter ist der zweite Teil der Ausgabetabelle: Hier finden Sie die folgenden Informationen: In Spalte A stehen die Streuungsursachen. In Spalte B stehen die Quadratsummen q1 und q 2 (siehe oben). In Spalte C stehen die Freiheitsgrade (zwischen den Gruppen r 1 2 ; r Zahl der Stichproben; innerhalb der Gruppen n r 16 3 13 ; Gesamtzahl der Freiheitsgrade n 1 16 1 15 2 13 ). In Spalte D stehen die mittleren Quadratsummen (Quadratsumme dividiert durch die jeweilige Anzahl der Freiheitsgrade; dies sind Schätzer für die unbekannte Varianz der Grundgesamtheit). In Spalte E wird der Quotient aus beiden Varianzschätzungen gebildet, der – Gültigkeit der Nullhypothese vorausgesetzt – bei 1 liegen müsste, weil dann, wenn die Nullhypothese zutrifft (keine signifikanten Mittelwertunterschiede), die Schätzung der Grundgesamtheitsvarianz, ausgehend von der Streuung zwischen den Stichproben, zum gleichen Befund führen müsste wie die Schätzung, ausgehend von den Streuungsverhältnissen innerhalb der Stichproben.
Abb. 18.6: Ergebnisse der einfaktoriellen Varianzanalyse (E18.XLS, VA2)
Dieser Quotient kann mit der F-Verteilung geprüft werden (siehe oben, Abschnitt 18.7: Varianzquotiententest), wobei sich hier die Überschreitungswahrscheinlichkeit p 0,41 (gerundet) ergibt. Diese ist größer als das Signifikanzniveau, so dass die Hypothese der Gleichheit der Stichprobenmittelwerte nicht verworfen werden kann. Sie erkennen in diesen Berechnungen in der Tat das Prinzip der Quadratsummenzerlegung: q
q1
q2
2,44 16,5 18,94
Was hat es nun mit den beiden Varianzen auf sich, die wir berechnet haben? Sie wissen ja, dass die Varianz – allgemein gesprochen – definiert ist als die Summe quadrierter Abweichungen zwischen Merkmalswerten und arithmetischem Mittel, dividiert durch die Zahl der Freiheitsgrade (wenn man zu erwartungstreuen Schätzungen der Grundgesamtheitsvarianz gelangen will).
18
Tests bei kleinen Stichprobenumfängen
379
Bei der Varianz 1 wird die Quadratsumme q1 durch r 1 2 dividiert. Bei der Varianz 2 wird entsprechend q 2 durch n r 16 3 13 dividiert. Das ergibt die folgenden Werte: Varianz1: 1,22 (Varianz zwischen den Stichproben) Varianz2: 1,27 (Varianz innerhalb der Stichproben) Was bedeuten diese Werte? Offensichtlich ist es so, dass die Differenzierung zwischen den Stichproben zu einer etwas kleineren Streuung der Merkmalswerte führt, als sie innerhalb der Stichproben vorliegt. Wir können diesen Befund auch so formulieren: Die Differenzierung nach dem Bundesland führt zu weniger deutlich unterschiedlichen Werten der interessierenden Untersuchungsvariablen, als es Unterschiede innerhalb der Stichproben selbst gibt. Oder noch anders und kürzer: Die Variable Bundesland begründet keine besonderen Merkmalswertunterschiede (oder -variationen). Erinnern Sie sich an unsere zu prüfende Hypothese? Sie lautete: Die drei Stichproben stammen aus nur einer Grundgesamtheit, bzw. die Variable Bundesland übt keinen signifikanten Einfluss auf die Variable Kinderzahl aus. Eventuelle Mittelwertunterschiede zwischen den verschiedenen Stichproben aus mehreren Bundesländern sind zufälliger Natur. Der Vergleich der beiden Varianzen zeigt, dass diese Hypothese, weil sie beide nahe beieinander liegen, kaum verworfen werden kann. Um zu einem diesbezüglichen Urteil zu gelangen, ist zunächst noch die folgende Überlegung erforderlich: Wenn die Nullhypothese zutrifft, dann müssten beide berechneten Varianzen erwartungstreue Schätzfunktionen für die eine einzige Grundgesamtheitsvarianz 2 sein. Anders formuliert: Es wäre bei zutreffender Nullhypothese zu erwarten, dass Varianz1 = Varianz2. Je größer der eventuelle Varianzunterschied wird, je weiter der Quotient aus beiden demnach vom Wert 1 abweicht, desto eher muss die Nullhypothese verworfen werden. Dies zu überprüfen ist nun die Aufgabenstellung des im vorangegangenen Abschnitt besprochenen Varianzquotiententests unter Nutzung der F-Verteilung. Das Ergebnis haben wir oben schon vorgestellt. Sie sehen also, dass hier eine Hypothese überprüft wurde, die sich auf mehr als zwei Stichprobenmittelwerte richtete, wobei die Prüfung selbst auf dem Umweg über die Varianz zwischen den Stichproben und die Varianz innerhalb der Stichproben herbeigeführt wurde – daher der Name dieses Verfahrens.
19
Anpassungstestverfahren
„Intelligenz: Soziale Schicht, deren Angehörige … geistige Arbeit leisten.“ Kulturpolitisches Wörterbuch, Berlin (Ost), 1978
Eine Frage der Intelligenz 19.1 Total normal? 19.2 Aufgaben von Anpassungstests 19.3 Chi-Quadrat-Anpassungstest 19.4 Fisher-Test und Chi-Quadrat-Homogenitätstest 19.5 Kolmogoroff-Smirnow-Test
19.1
Total normal?
Die Gauß’sche Normalverteilung ist ja für den Statistiker ein so wichtiges Instrument geworden, dass sie in der Vor-Euro-Zeit sogar die Ehre erfahren hat, auf dem Zehn-DM-Schein verewigt zu werden. Dabei gibt es in der sozialwissenschaftlichen Praxis kaum irgendwelche Phänomene, die diesem Verteilungsgesetz folgen. Eine Ausnahme bilden allenfalls die Eierpreise in der Europäischen Union – und die so genannten Intelligenzquotienten. Mit bestimmten Messverfahren, die allerdings ihrerseits nicht unumstritten sind, hat man in der Vergangenheit in großer Zahl die Intelligenz von Menschen gemessen. Dabei gelangte man zu Datenbeständen, die als Häufigkeitsverteilungen dargestellt, tatsächlich dem bekannten optischen Bild der Normalverteilung sehr nahe kamen. Nicht zuletzt deshalb spricht man von normaler Intelligenz bei Personen, die sich nach entsprechenden Messungen im mittleren Bereich dieser Verteilung einordnen lassen. Größere Abweichungen nach oben oder unten von diesem mittleren Wert, der auf 100 festgesetzt ist, sind selten und werden umso seltener, je weiter man sich vom Wert 100 wegbewegt. Wenn nun allerdings jemand daherkommt und auf der Grundlage dieser mehr oder weniger bekannten Messergebnisse behauptet, dass Intelligenzquotienten normalverteilt seien, dann können wir dem entgegnen, dass auch dies nur eine Hypothese ist. Und Hypothesen – so haben wir das bisher gehandhabt – können im Lichte empirischer Befunde überprüft und gegebenenfalls auch verworfen werden ... was die Einschaltquoten bei G. Jauch vermutlich nicht beeinflussen wird.
19.2
Aufgaben von Anpassungstests
Wir haben es hier mit einer ganz anderen Art von Hypothese zu tun als bisher: Während bisher ausschließlich Hypothesen betrachtet wurden, die sich auf Grundgesamtheitsparameter bezogen (allenfalls auch auf Parameterdifferenzen oder auf Parameterquotienten), Hypothesen also, die immer einen bestimmten Zahlenwert im Auge hatten, besprechen wir jetzt so genannte Verteilungshypothesen. Eine solche Verteilungshypothese macht eine Aussage über die (faktisch unbekannte) Verteilung einer Grundgesamtheit, und die Hypothesenprüfung im Lichte der empirischen Befunde geht von der Frage aus, ob eine in einer Zufallsstichprobe gefundene Verteilung mit hinreichender Güte der in der Nullhypothese behaupteten Verteilung entspricht. Manchmal wird dies auch in der Weise formuliert, dass man danach fragt, ob
382
19.2
Aufgaben von Anpassungstests
die Verteilung in einer Stichprobe mit hinreichender Güte an eine (theoretisch) behauptete Verteilung (der Grundgesamtheit) angepasst werden kann. Ein überschaubares Beispiel soll diese Überlegung verdeutlichen: Erinnern Sie sich bitte an die Zufallsvariable Augenzahl beim einfachen Würfelwurf. Wir wissen, dass dies eine diskrete Variable ist, welche die Ausprägungen 1, 2, 3, 4, 5, 6 annehmen kann. Dabei gilt jeweils die Wahrscheinlichkeit 1/6. Zu Recht können wir deshalb behaupten, dass die Verteilung dieser Variablen in der Grundgesamtheit so aussieht, wie es Abbildung 19.1 zeigt (wir würden diese Verteilung auch erhalten, wenn wir die Grundgesamtheit komplett auszählen würden, d.h., wenn wir unendlich oft würfeln und dann die sich ergebenden Augenhäufigkeiten als relative Häufigkeiten darstellen würden):
Abb. 19.1: Einfacher Würfelwurf – Grundgesamtheit (E19.XLS, W1)
Mithin haben wir eine Hypothese formuliert: Die Variable Augenzahl beim einfachen Würfelwurf folgt in der Grundgesamtheit einer rechteckigen, kammähnlichen Verteilung. Wenn wir diese Verteilungshypothese überprüfen wollten, könnten wir uns die Mühe machen, vielleicht 60 Mal zu würfeln, um dann die beobachteten Augenzahlen denen gegenüberzustellen, die zu erwarten wären – Gültigkeit der zu prüfenden Hypothese (der Nullhypothese also) vorausgesetzt. Der Stichprobenbefund könnte beispielsweise so aussehen, wie es Abbildung 19.2 zeigt.
Abb. 19.2: Einfacher Würfelwurf – Stichprobe (E19.XLS, W2)
19
Anpassungstestverfahren
383
Stellt man diesen beobachteten Häufigkeiten jene gegenüber, die bei Gültigkeit der Nullhypothese zu erwarten wären – bei n 60 Würfen wäre für jede Augenzahl der Wert 10
60
1 6
zu erwarten –, so gelangt man zu der Gegenüberstellung in Abbildung 19.3.
Abb. 19.3: Beobachtete und erwartete Häufigkeiten (E19.XLS, W3)
Die interessierende Nullhypothese lässt sich jetzt auf unterschiedliche Weise formulieren: 1.
Die Variable Augenzahl beim einfachen Würfelwurf folgt einer so genannten Gleichverteilung.
2.
Die Verteilung der beobachteten (empirischen) Häufigkeiten (wir kürzen sie mit b i ab) entspricht mit hinreichender Güte der Verteilung der bei Gültigkeit der Nullhypothese zu erwartenden Häufigkeiten (abgekürzt mit e i ).
3.
Die empirische Häufigkeitsverteilung lässt sich mit hinreichender Güte an die theoretische Verteilung anpassen. 4. Die Differenzen zwischen beobachteten und theoretischen Häufigkeiten sind nur zufälliger Natur. Mit allen Formulierungen wird eigentlich immer wieder die gleiche Hypothese angesprochen, die überprüft werden soll. Diese Überprüfung setzt an den Differenzen bi
ei
an, gemäß der folgenden Überlegung: Bei zutreffender Nullhypothese wäre zu erwarten, dass die beobachteten und die erwarteten Häufigkeiten übereinstimmen bzw. dass die Differenzen in der letzten Spalte der obigen Tabelle alle null sind. Je weiter aber diese Differenzen von null abweichen, desto eher sind wir geneigt, die Nullhypothese zu verwerfen. Offensichtlich kommt es jetzt wieder darauf an auszurechnen, wie groß die Wahrscheinlichkeit für die beobachteten Differenzen (oder noch weiter von der Nullhypothese abweichender Werte, also noch größere Differenzen) ist. Ist diese Wahrscheinlichkeit kleiner oder gleich dem vorzugebenden Signifikanzniveau, wird die Nullhypothese verworfen – wir sagen dann auch, dass die Anpassung der beobachteten an die theoretische Verteilung nicht hinreichend gut gelungen sei. Bevor wir einen solchen Test jetzt durchführen, weisen wir zunächst darauf hin, dass es unterschiedliche Verfahren gibt. Gemäß ihrer Bedeutung in der statistischen Praxis sollen drei
384
19.3
Chi-Quadrat-Anpassungstest
davon in den folgenden Abschnitten betrachtet werden, nämlich der Chi-Quadrat-Anpassungstest, der Fisher-Test und der Kolmogoroff-Smirnow-Test.
19.3
Chi-Quadrat-Anpassungstest
Das wichtigste Anpassungstestverfahren ist zweifelsohne der Chi-Quadrat-Anpassungstest. Er soll deshalb als erstes Verfahren betrachtet werden. Seine praktische Relevanz rührt vor allem daher, dass er schon – wie ein späteres Beispiel zeigen wird – bei nominalskalierten Daten, also bei der informationsschwächsten Datenqualität eingesetzt werden kann. Um das Verfahren anschaulich zu demonstrieren, greifen wir aber zunächst auf das Würfelbeispiel von oben zurück, obwohl hier natürlich eine metrische Variable vorliegt. Wir sagten schon, dass Grundlage des Testverfahrens die Abweichungen zwischen beobachteten und erwarteten (theoretischen) Häufigkeiten sind, die in der Tabelle der Abbildung 19.4 in Spalte D notiert sind.
Abb. 19.4: Chi-Quadrat-Anpassungstest (E19.XLS, W4)
Zusätzlich haben wir in dieser Arbeitstabelle die Abweichungen zwischen beobachteten und theoretischen Werten quadriert. Damit wird zum einen verhindert, dass sich positive und negative Abweichungen gegenseitig aufheben, zum anderen wird erreicht, dass wir nach den nächsten beiden Arbeitsschritten eine Zufallsvariable erhalten, deren Verteilung bekannt ist. Im nächsten Arbeitsschritt werden die quadrierten Differenzen durch die Erwartungswerte dividiert. Damit wird eine Relativierung erreicht in dem Sinne, dass eine bestimmte quadrierte Abweichung, die sich auf eine kleine erwartete Häufigkeit bezieht, ein größeres Gewicht bekommt als etwa die gleiche quadrierte Abweichung, die sich auf eine größere erwartete Häufigkeit bezieht. Dieser Effekt ist in diesem Beispiel nicht zu erkennen, weil bei dieser sehr einfachen Problemstellung die Erwartungswerte alle gleich groß sind – bei den folgenden Beispielen wird dies aber anders sein. Schließlich wird in einem letzten Arbeitsschritt die Summe dieser relativierten, quadrierten Abweichungen bestimmt. Hier ergibt sich der Wert u 2,8 (in den Statistik-Lehrbüchern hat sich dafür der Buchstabe u eingebürgert). Was haben wir jetzt erreicht? Von vornherein ist deutlich, dass der kleinste Wert für u der Wert null ist. Dieser wird nur dann realisiert, wenn alle Abweichungen null sind, d.h., wenn die empirisch beobachtete Häufigkeitsverteilung perfekt mit der übereinstimmt, die bei Gültigkeit der Nullhypothese zu erwarten ist (theoretische Verteilung der zu erwartenden Häufigkeiten). Je weiter aber u von null abweicht, desto größer sind die Abweichungen zwischen beobachteten und erwarteten Häufigkeiten, oder anders formuliert: Je größer u wird, desto
19
Anpassungstestverfahren
385
eher sind wir geneigt, die Anpassung der empirischen an die theoretische Verteilung für misslungen zu halten. Oder noch mal anders: Je größer u ist, desto eher sind wir geneigt, die Nullhypothese zu verwerfen, dass die Augenzahlen beim einfachen Würfelwurf einer Gleichverteilung folgen. Diese Überlegungen verdeutlichen, dass die Testentscheidung jetzt wie folgt zustande kommt: Wir fragen danach, wie groß die Wahrscheinlichkeit für u 2,8 (oder einen noch weiter von der Nullhypothese abweichenden Wert, also für u 2,8 ) ist – Gültigkeit der Nullhypothese vorausgesetzt. Dies ist ja keine prinzipiell neue Frage; sie ist in entsprechender Weise bei allen bisher besprochenen Testverfahren gestellt worden und kann folgendermaßen beantwortet werden: Wir stellen fest, u ist Ausprägung einer Zufallsvariablen U (u hat zufälligerweise, nämlich in Abhängigkeit der von uns durchgeführten 60 Würfelwürfe, den Wert 2,8 angenommen). Diese Zufallsvariable U folgt einer Wahrscheinlichkeitsverteilung – und diese benötigen wir, um die Frage der Wahrscheinlichkeit dieses oder eines noch weiter von der Nullhypothese abweichenden Befundes beantworten zu können. Diese Wahrscheinlichkeitsverteilung ist näherungsweise die Chi-Quadrat-Verteilung mit 6 1 5 Freiheitsgraden (zur Chi-QuadratVerteilung siehe Kapitel 14, Abschnitt 14.9). Auch hier können Sie sich die Arbeit erleichtern, wenn Sie Excel einsetzen. Zum einen können Sie die Berechnungen der obigen Arbeitstabelle durch Excel erledigen lassen; zum anderen kann Excel auch unter Nutzung der Funktion CHIVERT die Testentscheidung herbeiführen: 1. 2. 3. 4.
Wählen Sie EINFÜGEN/FUNKTION… Wählen Sie aus der Kategorie STATISTIK die Funktion CHIVERT. Klicken Sie die Schaltfläche OK an. Geben Sie im zweiten Dialogfenster die folgenden Informationen ein: bei x: 2,4 bei FREIHEITSGRADE: 5 5. Klicken Sie OK an. Excel berechnet jetzt den Wert 0,7915 (gerundet). Die Überschreitungswahrscheinlichkeit ist also deutlich größer als das vorgegebene Signifikanzniveau, d.h., die Nullhypothese wird bestätigt. Sie erinnern sich sicherlich daran, dass die Chi-Quadratvariable definiert war als Summe voneinander unabhängiger Einzelvariablen. Eine solche Summe wird auch hier gebildet, wie Ihnen der Blick auf die obige Arbeitstabelle verdeutlicht: Es werden in der Spalte F sechs Summanden addiert, von denen jeder einzelne als Ausprägung einer Variablen interpretiert werden kann. Beispielsweise ist der erste Wert (0,4) Ausprägung der Variablen „quadrierte relativierte Abweichung der empirischen von der theoretischen Häufigkeit bei der Würfelaugenzahl 1“. Dass dies eine Zufallsvariable ist, wird klar, wenn Sie bedenken, dass schon b1 Ausprägung einer Zufallsvariablen ist. Sie könnte mit B1 = Häufigkeit der Augenzahl 1 beim 60fachen Würfelwurf bezeichnet werden und kann zufällig alle ganzzahligen Werte zwischen 0 und 60 annehmen (mit unterschiedlichen Wahrscheinlichkeiten, versteht sich). Bei uns hat diese eine Variable den Wert 8 angenommen, und deshalb war ja die relativierte quadrierte Abweichung dann 0,4. In entsprechender Weise sind auch die anderen b i zu interpretieren.
386
19.3
Chi-Quadrat-Anpassungstest
Allerdings – und jetzt gelangen wir an einen entscheidenden Punkt – nicht alle sechs b i sind Ausprägungen von Variablen Bi , sondern nur fünf davon. Wenn nämlich fünf dieser Variablen gemäß ihrer Variabilität – also im Wertebereich zwischen 0 und 60 – ihre Ausprägung angenommen haben, dann ist bei 60 Würfelwürfen die letzte dieser sechs Variablen nicht mehr frei beweglich, sondern sie ist in ihrer Ausprägung festgelegt: Ihr Wert muss dann 60 minus der Summe der anderen Häufigkeiten sein. Mithin ist sie keine Zufallsvariable mehr. Unsere Summenvariable U setzt sich demnach nicht aus sechs frei beweglichen Summanden, sondern nur aus fünf solcher Summanden zusammen. Wir sagen, dass ein Freiheitsgrad verloren gegangen ist bzw. dass U näherungsweise einer Chi-Quadrat-Verteilung mit nur fünf Freiheitsgraden folgt. Es soll nun ein realistischeres Beispiel für den Chi-Quadrat-Anpassungstest behandelt werden, wobei wir uns jetzt kürzer fassen können. Nehmen Sie einmal an, bei der letzten Wahl in einem Bundesland hätte sich die Stimmverteilung ergeben, wie sie Abbildung 19.5 zeigt.
Abb. 19.5: Parteienverteilung (E19.XLS, Partei1)
Es soll mit einem Signifikanzniveau von 10% die Hypothese geprüft werden, dass in diesem Bundesland zum gegenwärtigen Zeitpunkt noch die gleiche Verteilung von Parteipräferenzen vorliegt. Um diese Hypothese zu prüfen, erheben wir eine Zufallsstichprobe und fragen danach, welcher Partei man die Stimme geben würde, wenn jetzt Landtagswahlen stattfinden würden. Wir erhalten den Befund in Spalte C der Tabelle in Abbildung 19.6.
Abb. 19.6: Parteienverteilung und Stichprobenbefund (E19.XLS, Partei2)
Es sind also n 180 Leute zufällig befragt worden, wobei sich die Werte der Spalte C ergaben. Widersprechen diese Werte der formulierten Nullhypothese?
19
Anpassungstestverfahren
387
Um diese Frage zu beantworten, stellen wir den beobachteten Häufigkeiten diejenigen gegenüber, die bei zutreffender Nullhypothese zu erwarten wären. Für die CDU beispielsweise gilt, dass 44,5% CDU-Anhänger zu erwarten wären. Bezogen auf die n = 180 Befragten bedeutet dies, dass 180
44,5 100
80,1
CDU-Anhänger zu erwarten wären. Entsprechend erhalten wir die übrigen Erwartungswerte (siehe Spalte D der Tabelle in Abbildung 19.7).
Abb. 19.7: Anpassungstest (E19.XLS, Partei3)
In der Tabelle der Abbildung 19.7 haben wir auch die weiteren Arbeitsschritte für den ChiQuadrat-Anpassungstest erledigt. Excel berechnet für die U-Variable den Wert u 29,3113 , für den wir auf dem gleichen Arbeitsblatt auch die Überschreitungswahrscheinlichkeit ausgerechnet haben (Zelle G8), indem wir eingaben: =CHIVERT(G7;4) Der zu prüfende Wert steht in Zelle G7, die Zahl der Freiheitsgrade der zu verwendenden ChiQuadrat-Verteilung ist 4. Es ergibt sich der Wert 0,00000676. Dieser ist wesentlich kleiner als das Signifikanzniveau, d. h., die Hypothese, dass die beobachtete Verteilung der Wählerpräferenzen der Verteilung der letzten Landtagswahlergebnisse entspricht, wird verworfen. Und nun endlich wieder zur Frage der Intelligenz. Es wird behauptet, Intelligenzquotienten seien normalverteilt (Nullhypothese). Um diese Hypothese zu überprüfen (das Signifikanzniveau sei 10%), werden n 789 Erwachsene einem Intelligenztest unterzogen, wobei sich die Häufigkeitsverteilung (Verteilung beobachteter Häufigkeiten) ergab, die Sie in Abbildung 19.8 finden.
Abb. 19.8: Intelligenzquotienten (E19.XLS, IQ1)
388
19.3
Chi-Quadrat-Anpassungstest
Abb. 19.9: IQ-Verteilung (E19.XLS, IQ1)
In der Tat hat diese Häufigkeitsverteilung eine gewisse Ähnlichkeit mit der Gauß’schen Normalverteilung – gleichwohl ist die Frage offen, ob sie hinreichend gut einer Normalverteilung entspricht. Um diese Frage zu beantworten, stellen wir den empirisch beobachteten Häufigkeiten diejenigen gegenüber, die zu erwarten wären, wenn tatsächlich die Gauß’sche Normalverteilung zutreffen würde. Diese Gegenüberstellung erfordert allerdings einige Vorüberlegungen. Zunächst muss festgelegt werden, welche theoretische Normalverteilung angepasst werden soll. Sie wissen ja, es gibt beliebig viele, je nachdem, welche Werte für den Mittelwert der Verteilung und für ihre Standardabweichung vorgegeben werden. Es gibt zwei gedankliche Möglichkeiten, sich auf eine bestimmte Normalverteilung festzulegen: 1.
2.
Wir könnten diejenige wählen, die den gleichen Mittelwert und die gleiche Standardabweichung aufweist wie der empirische Datenbestand, d.h., wir würden dann aus x und aus s schätzen.
Wir könnten unsere Hypothese ergänzen, indem wir sagen: Anzupassen ist eine Gauß’sche Normalverteilung mit dem Mittelwert 100 und der Standardabweichung 12 . Dieser zweite Weg beinhaltet eine eher willkürliche Setzung der beiden Parameterwerte, aber selbstverständlich lassen sich Hypothesen denken, wo genau solche Vorgaben gemacht werden. Da hier in der Nullhypothese keine Vorgaben gemacht wurden, werden wir den ersten Weg beschreiten. (Nur am Rande sei darauf aufmerksam gemacht: Der erste könnte auch mit dem zweiten Weg gemischt werden, wenn nur einer der beiden expliziten Parameter in der Nullhypothese vorgegeben würde.)
19
Anpassungstestverfahren
389
In der Arbeitstabelle der Abbildung 19.10 haben wir zunächst den Mittelwert und die Standardabweichung berechnet – wie man dies bei einer derartigen Häufigkeitsverteilung macht, wurde schon in Kapitel 2, Abschnitt 2.6, besprochen.
Abb. 19.10: Berechnung von Mittelwert und Standardabweichung (E19.XLS, IQ2)
Der Mittelwert ergibt sich in D11 zu 99,7, die Standardabweichung in G11 zu 16,44. Sie sehen übrigens in Spalte A, dass wir die beiden zunächst offenen Flügelklassen künstlich geschlossen haben, weil sonst die Berechnung der beiden Maßzahlen nicht möglich wäre. Wenn nun an die empirische Verteilung die Verteilung derjenigen Häufigkeiten angepasst werden soll, die bei Gültigkeit der Nullhypothese (Intelligenzquotienten sind normalverteilt) zu erwarten sind, müssen zusätzlich die folgenden Überlegungen angestellt werden, bei deren Präsentation wir einmal von hinten anfangen wollen. Betrachten Sie bitte die Spalte F der Arbeitstabelle in Abbildung 19.11.
Abb. 19.11: Arbeitstabelle (E19.XLS, IQ3)
In der Spalte K der Tabelle in Abbildung 19.11 stehen die Erwartungswerte. Wie kommen diese Werte zustande? Wir haben in der Spalte J unter der Überschrift P(x) die Wahrscheinlichkeiten dafür berechnet, dass – Gültigkeit der Nullhypothese vorausgesetzt – eine zufällig ausgewählte Person mit ihrem Intelligenzquotienten in eine der in Spalte A angegebenen Klassen fällt. Beispielsweise steht in J3 der Wert 0,0799. Es besteht eine Wahrscheinlichkeit von 7,99% dafür, dass der Intelligenzquotient einer zufällig ausgewählten Person zwischen 70 bis unter 80 liegt, wenn Intelligenzquotienten normalverteilt sind mit dem Mittelwert 99,71 und der Standardabweichung 16,44. Multipliziert man diese Wahrscheinlichkeit mit der Gesamtzahl der Beobachtungen (n = 789; siehe Zelle B10), so ergibt sich die erwartete Häufigkeit in K3 zu 63,1.
390
19.3
Chi-Quadrat-Anpassungstest
Wie kommen nun aber die Wahrscheinlichkeiten in Spalte J zustande? Betrachten Sie zur Beantwortung dieser Frage die Spalte H: Dort haben wir unter der Überschrift Anfang alle Klassenanfangspunkte notiert. In Spalte I haben wir dann unter Nutzung der Excel-Funktion NORMVERT die Wahrscheinlichkeiten für X Anfang bestimmt, also die Werte der Verteilungsfunktion oder, wie man auch sagen könnte, die aufwärts kumulierten Wahrscheinlichkeiten (Flächen jeweils links vom Klassenanfangspunkt). Eingegeben wurde in I2: =NORMVERT(C2;99,71;16,44;1) Das erste Rechenergebnis wurde nach unten bis zur Zelle I10 gezogen. Die Wahrscheinlichkeiten der Spalte E ergeben sich dann durch Entkumulierung, d.h., wir haben in Zelle J2 gerechnet: =I3-I2 und auch diese Berechnung nach unten bis zur Zelle J9 gezogen. In J10 wurde der Vollständigkeit halber die Summe dieser Wahrscheinlichkeiten berechnet, die nahe bei 1 liegen muss. Dass sie in unserem Beispiel nur den Wert 0,9850 erreicht, hat mit folgendem Umstand zu tun: Wir passen an eine empirische Verteilung, die zwischen den Grenzen 60 und 140 Variablenausprägungen aufweist, eine theoretische Verteilung, nämlich die Normalverteilung an, die im Wertebereich zwischen und definiert ist. Dies bedeutet, dass Flächenbereiche (Wahrscheinlichkeiten) unter der Normalverteilung links von 60 und rechts von 140 nicht berücksichtigt werden. Diese sind zwar sehr klein (zusammen 0,015), aber nicht null – deshalb ist die sich ergebende Wahrscheinlichkeitssumme etwas kleiner als 1. Dem entspricht es übrigens, dass die Summe der Erwartungswerte (Zelle K10) nicht 789, sondern nur 777,2 ist. Damit stehen jetzt also in Spalte K die theoretischen Werte der angepassten Normalverteilung zur Verfügung. Lässt man diese durch Excel zusammen mit den beobachteten Häufigkeiten grafisch darstellen, ergibt sich Abbildung 19.12.
Abb. 19.12: Empirische und theoretische Verteilung (E19.XLS, IQ4)
19
Anpassungstestverfahren
391
Diese Abbildung 19.12 verdeutlicht eine gute Anpassungsgüte, beantwortet aber noch nicht die Frage, ob die Nullhypothese tatsächlich bestätigt werden kann oder nicht. Um diese erste und letzte Frage zu beantworten, haben wir in der Spalten G bis I der Arbeitstabelle in Abbildung 19.13 die Pearson’sche Prüfgröße U gebildet, die Summe aller relativierten, quadrierten Abweichungen zwischen empirischen und theoretischen Häufigkeiten.
Abb. 19.13: Berechnung der Prüfgröße U (E19.XLS, IQ5)
Es ergibt sich u 7,08 (gerundet; siehe Zelle I10). Die Testentscheidung führen wir herbei, indem wir die Excel-Funktion CHIVERT verwenden. Wir geben in Zelle I11 ein: =CHIVERT(N10;5) und erhalten dann den Wert 0,214 (gerundet), die Überschreitungswahrscheinlichkeit für u 7,08 . Da diese Überschreitungswahrscheinlichkeit größer als das Signifikanzniveau ist, wird die Nullhypothese bestätigt. Zwei statistische Hinweise: Die Zahl der Freiheitsgrade der zu verwendenden Chi-Quadrat-Verteilung ergibt sich generell wie folgt: Anzahl der Summanden-1-Anzahl der geschätzten Parameter In unserem Beispiel liegen acht Summanden vor, so dass die Anzahl der Freiheitsgrade zunächst bei 7 vermutet werden könnte. Es gehen aber zwei weitere Freiheitsgrade verloren, weil wir zwei Parameter der anzupassenden Normalverteilung (nämlich ihren Mittelwert und ihre Standardabweichung) aus dem empirischen Material geschätzt haben. Erinnern Sie sich bitte in diesem Zusammenhang an den folgenden Gedankengang: Wenn man alle verschiedenen Zufallsstichproben vom Umfang n 789 ziehen würde, dann müssen sich die Häufigkeiten in den einzelnen IQ-Klassen so anordnen, dass ihre Summe immer gleich 789 ist. Deshalb ist eine der acht Stichprobenvariablen im statistischen Sinn keine Variable mehr. Zugleich muss aber auch gelten, dass jedes Mal der Mittelwert bei 99,71 liegt. Dies bewirkt, wie geübte Mathematiker leicht überprüfen können, dass ein weiterer der acht Summanden nicht mehr frei beweglich ist. Entsprechendes gilt auch für die Standardabweichung. Deshalb hat die hier einzusetzende Chi-Quadrat-Verteilung nur noch fünf Freiheitsgrade. Die zweite Anmerkung bezieht sich auf folgenden Umstand: Die Prüfgröße U ist nur dann mit hinreichender Güte Ausprägung einer Zufallsvariablen, die der Chi-Quadrat-Verteilung folgt, wenn jeder der Erwartungswerte e i mindestens den Wert 5 hat.
392
19.3
Chi-Quadrat-Anpassungstest
Bei kleineren Erwartungswerten muss auf andere Testverfahren ausgewichen werden. Solange man diese Alternativen nicht kennt, kann man sich oft in der Weise behelfen, dass man Merkmalswertklassen zusammenlegt, bis sich mindestens der Wert 5 für den entsprechenden Erwartungswert ergibt. Noch ein Beispiel zum Chi-Quadrat-Anpassungstest: In Familien mit je vier Kindern gab es die in der Tabelle der Abbildung 19.14 dargestellten Häufigkeiten für die Variable Anzahl der Knaben in Familien mit vier Kindern.
Abb. 19.14: Ausgangsdaten (E19.XLS, Knaben1)
Es soll mit einem Signifikanzniveau von 10% die Hypothese geprüft werden, die Untersuchungsvariable folge der Binomialverteilung mit n 4 und 0,5 (Sie sehen, hier werden die expliziten Parameter der anzupassenden Verteilung in der Hypothese vorgegeben, während wir sie beim Beispiel zuvor aus dem empirischen Datenbestand geschätzt haben). Auch hier geht es jetzt in einem ersten Schritt wieder darum, den empirischen, beobachteten Häufigkeiten die theoretisch zu erwartenden Häufigkeiten (bei Gültigkeit der Nullhypothese zu erwartenden Häufigkeiten) gegenüberzustellen. Diese gewinnen wir gemäß der folgenden Überlegung: Wenn die Nullhypothese zutrifft, dann sind die Wahrscheinlichkeiten für 0, 1, 2, 3 oder 4 Knaben in Familien mit vier Kindern mit der Binomialverteilung wie folgt zu berechnen: P(0) = 0,0625 P(1) = 0,2500 P(2) = 0,3750 P(3) = 0,2500 P(4) = 0,0625 Wir haben diese Wahrscheinlichkeiten mit Excel in der Spalte C der Tabelle in Abbildung 19.15 ausgerechnet, indem wir in C2 eingegeben haben: =BINOMVERT(A2;4;0,5;0) Excel berechnet dann in C2 den Wert 0,0625 (die Wahrscheinlichkeit für keinen Knaben in einer Familie mit vier Kindern liegt bei 6,25%). Wenn Sie diese Berechnung bis zur Zelle C6 herunterziehen, erhalten Sie die übrigen Werte. Wenn Sie nun diese Wahrscheinlichkeiten mit n 157 multiplizieren (Zahl der befragten Familien), erhalten Sie die theoretisch zu erwartenden Häufigkeiten in Spalte D. Die übrigen Rechenschritte kennen Sie schon. Es ergibt sich der u-Wert 6,05 (gerundet), dessen Überschreitungswahrscheinlichkeit in Zelle G8 mit
19
Anpassungstestverfahren
393
=CHIVERT(G7;4) berechnet wird. Es ergibt sich der Wert 19,55% (gerundet), d.h., sie ist größer als das Signifikanzniveau. Wir können aus diesem Befund schließen, dass die empirische Häufigkeitsverteilung der Hypothese nicht widerspricht, dass die Knabenanzahl in Familien mit vier Kindern binomialverteilt ist mit 0,5 .
Abb. 19.15: Anpassungstest (E19.XLS, Knaben2)
Ein letztes Beispiel zum wichtigen Chi-Quadrat-Anpassungstest: In einem Test wird untersucht, wie viele Fehler von den Versuchspersonen gemacht werden. Es soll mit einem Signifikanzniveau von 10% die Hypothese geprüft werden, dass die Fehleranzahlen normalverteilt seien. Der empirische Befund sieht so aus, wie es Abbildung 19.16 zeigt.
Abb. 19.16: Fehler (E19.XLS, Fehler1)
Auch hier ist es zunächst wieder erforderlich, die Parameter der anzupassenden Normalverteilung zu schätzen, wobei wir wieder auf das empirische Material zurückgreifen. Insoweit unterscheidet sich dieses Beispiel nicht – auch nicht in der weiteren Vorgehensweise – vom obigen Beispiel mit den Intelligenzquotienten. Allerdings gibt es hier zwei Besonderheiten. Die erste hat mit dem schon erwähnten Umstand zu tun, dass bei zu kleinen theoretischen Werten Klassen zusammengelegt werden müssen. Hier wird das – wie die Arbeitstabelle in Abbildung 19.17 zeigt – notwendig. Die zweite Besonderheit betrifft den Umstand, dass hier an eine diskrete empirische eine stetige theoretische Verteilung angepasst wird. Dies bedeutet, dass wir die diskreten Werte (Fehlerzahlen) als Mittelpunkte gedachter (stetiger) Klassen interpretieren müssen, für die dann unter der theoretischen Verteilung, also unter der anzupassenden Normalverteilung, Flächenbereiche (Wahrscheinlichkeiten) bestimmt werden können. Die Fehleranzahl 3 zum Beispiel ist dem-
394
19.3
Chi-Quadrat-Anpassungstest
nach zu interpretieren als der Mittelpunkt der Klasse von 2,5 bis unter 3,5. Dies wird in der Arbeitstabelle auch deutlich.
Abb. 19.17: Arbeitstabelle (E19.XLS, Fehler2)
Sie sehen in Spalte H dieser Arbeitstabelle, dass die erste und die letzten beiden erwarteten Häufigkeiten zu klein sind. Deshalb haben wir die ersten beiden und die letzten drei Klassen zusammengelegt, was zur veränderten Arbeitstabelle in Abbildung 19.18 führt.
Abb. 19.18: Veränderte Arbeitstabelle (E19B.XLS, Fehler3)
Nachdem die ersten beiden und die letzten drei Klassen zusammengelegt wurden, ergibt sich als Wert der Prüfgröße U der Wert u 4,07 (gerundet). Seine Überschreitungswahrscheinlichkeit (Chi-Quadrat-Verteilung mit 8 1 2 5 Freiheitsgraden) beträgt 0,54 (gerundet). Diese Wahrscheinlichkeit ist größer als das gegebene Signifikanzniveau, d.h., auch bei diesem Beispiel wird die Nullhypothese bestätigt. Die beobachteten Fehleranzahlen folgen mit hinreichender Güte einer Normalverteilung.
19
Anpassungstestverfahren
19.4
395
Fisher-Test und Chi-Quadrat-Homogenitätstest
In Kapitel 18 wurde schon der exakte Test von Fisher besprochen, der dazu diente, auch bei kleinen Stichprobenumfängen zweier voneinander unabhängiger Stichproben die Hypothese zu prüfen, dass sie aus der gleichen Grundgesamtheit stammen. Dabei war eine dichotome Variable Gegenstand der Betrachtung, also eine Variable mit nur zwei Ausprägungen. Insoweit konnte der Fisher-Test als Test für die Differenz von Stichprobenanteilswerten aufgefasst werden, den wir – weil er als exakter Test auch bei kleinen Stichprobenumfängen eingesetzt werden kann – in das vorangegangene Kapitel aufgenommen haben. Nun muss aber gesehen werden, dass die Prüfung eines Anteilswertes bei einer dichotomen Variablen nichts anderes ist als die Anpassung zweier spezieller Verteilungen aneinander. Betrachten wir eine der beiden Verteilungen als theoretische Verteilung, liegt die gleiche Fragestellung vor – soweit eine dichotome Variable betroffen ist – wie bei den bisher in diesem Kapitel besprochenen Beispielen. Insoweit kann also auch der exakte Test von Fisher als Anpassungstest interpretiert werden. Dazu ein Beispiel: Es werden zwei unabhängige Stichproben jeweils vom Umfang 20 gezogen. In der ersten dieser beiden Stichproben sind sechs Frauen und 14 Männer, in der zweiten sind zehn Frauen und zehn Männer. Es soll über die Hypothese entschieden werden, dass der Frauenanteil in beiden Grundgesamtheiten gleich sei (10% Signifikanzniveau). Offensichtlich gibt es zwei Möglichkeiten, diese Testentscheidung herbeizuführen: Sie können einen ChiQuadrat-Test, oder Sie können einen Fisher-Test durchführen (Kapitel 18, Abschnitt 18.4). Beim Chi-Quadrat-Test ist jetzt aber die Ausgangslage ein bisschen von der verschieden, die bei den Anpassungstests des Abschnitts 19.3 zugrunde gelegt wurden. Hier geht es jetzt nämlich nicht um den Vergleich zwischen einer empirischen und einer theoretischen Verteilung, sondern um den direkten Vergleich zweier empirischer Verteilungen, wie es die Übersicht in Abbildung 19.19 zeigt.
Abb. 19.19: Zwei empirische Verteilungen (E19B.XLS, Homo1)
Auch hier werden den empirischen Häufigkeiten (davon gibt es hier vier Stück) theoretisch zu erwartende Werte gegenübergestellt. Wie gewinnt man diese Erwartungswerte? Betrachten Sie dazu die erste Tabellenzelle, in der die Zahl 14 steht: In der ersten Stichprobe, heißt das, gibt es 14 Männer. Wie viele wären aber in der ersten Stichprobe zu erwarten? Zur Beantwortung dieser Frage stellen Sie sich bitte eine Urne vor, in der sich 40 Kugeln befinden. Zwanzig davon tragen die Ziffer 1 (erste Stichprobe), zwanzig tragen die Ziffer 2 (zweite Stichprobe; 24 Kugeln sind schwarz (männlich), 16 sind weiß (weiblich). Wie groß ist nun die Wahrscheinlichkeit, dass eine zufällig ausgewählte Kugel die Aufschrift 1 (erste Stichprobe)
396
19.4
Fisher-Test und Chi-Quadrat-Homogenitätstest
trägt? Diese Wahrscheinlichkeit ist gemäß dem klassischen Wahrscheinlichkeitsbegriff (siehe Kapitel 12) offensichtlich: P1
20 40
Wie groß ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Kugel schwarz (männlich) ist? Pm
24 40
Wie groß ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Kugel die 1 trägt und schwarz ist? Gemäß des Multiplikationssatzes für voneinander unabhängige Ereignisse (siehe Kapitel 13) ergibt sich: P 1 und schwarz
P Stichprobe und männlich
P 1 P schwarz
20 24 40 40
0,3
Die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person männlichen Geschlechts ist und zugleich der ersten Stichprobe angehört, ist also 0,3. Wie viele der 40 Personen lassen nun diese Merkmalskombination erwarten? Dieser Erwartungswert ist offenbar 0,3 40 12 . Dort, wo in der obigen Tabelle die Zahl 14 steht, wäre also eine 12 zu erwarten, wenn die beiden Verteilungen aus einer Grundgesamtheit stammen würden. Allgemein ergibt sich diese erste erwartete Häufigkeit nach der folgenden Rechenregel: Erwartete Häufigkeit in Zeile i und Spalte j Summe Zeile i Hier also für die erste Zelle: e1,1
24 20 40
Summe Spalte j Anzahl der Elemente
12
Entsprechend ergibt sich e1,2 zu 12, e2,1 zu 8 und e2,2 auch zu 8. Diese erwarteten Häufigkeiten haben wir in der Arbeitstabelle der Abbildung 19.20 den beobachteten Häufigkeiten gegenübergestellt, um die Prüfgröße U für den Chi-Quadrat-Test zu bestimmen, der in diesem Zusammenhang den Namen Chi-Quadrat-Homogenitätstest trägt und auch leicht auf den Fall von mehr als zwei Stichproben ausgedehnt werden kann.
Abb. 19.20: Arbeitstabelle (E19B.XLS, Homo2)
Die erforderlichen Berechnungen führen zu der Prüfgröße u 1,67 (gerundet), die Ausprägung einer Zufallsvariablen ist, die einer Chi-Quadrat-Verteilung mit nur einem Freiheitsgrad folgt (nur eine der Zellen der Vierfeldertabelle ist frei besetzbar, die anderen drei Besetzungen
19
Anpassungstestverfahren
397
werden dann durch die Randsummen erzwungen). Es ergibt sich als Überschreitungswahrscheinlichkeit der Wert 19,67%, d.h., die Nullhypothese wird nicht verworfen. Beim Fisher-Test gehen wir von einer Arbeitstabelle nach dem Muster Abbildung 19.21 aus:
Abb. 19.21: Ausgangsdaten zum Fisher-Test (E19B.XLS, Fisher1)
Sie erinnern sich daran, dass hier die interessierende Überschreitungswahrscheinlichkeit mit der hypergeometrischen Verteilung berechnet wird (Excel-Funktion HYPERGEOMVERT). Dabei ergibt sich der Wert 11,4% (gerundet), also auch hier keine Verwerfung der Nullhypothese. Noch einmal sei daran erinnert, dass der exakte Test von Fisher auch bei kleinen Stichprobenumfängen eingesetzt werden kann, während dann der hier alternativ vorgestellte Chi-Quadrat-Homogenitätstest – spätestens wenn einzelne Erwartungswerte kleiner werden als 5 – nicht mehr verwendet werden kann.
19.5
Kolmogoroff-Smirnow-Test
Wenn ordinalskalierte Daten vorliegen und ebenfalls eine Anpassungshypothese geprüft werden soll, können wir den Chi-Quadrat-Anpassungstest verwenden, der aber die Rangordnungsinformationen der Daten nicht nutzt. Stattdessen kann der Kolmogoroff-Smirnow-Einstichproben-Anpassungstest eingesetzt werden. Er setzt streng genommen metrische Daten voraus, liefert aber, wie die Praxis zeigt, auch bei Ordinaldaten gute Ergebnisse. Mit diesem Test wird die Hypothese geprüft, dass die Verteilungsfunktion einer empirischen Variablen (aufwärts kumulierte Häufigkeiten) hinreichend gut mit einer theoretischen Verteilungsfunktion übereinstimmt, also Fb x entspricht hinreichend gut Fe x . Auch auf diese Weise kann also die Frage beantwortet werden, ob empirische Daten mit behaupteten Grundgesamtheitsverhältnissen übereinstimmen. Dabei konzentriert sich dieses Verfahren auf die maximale absolute Differenz zwischen den beiden Verteilungsfunktionen, wie es die Skizze in Abbildung 19.22 auf der folgenden Seite andeutet. Kolmogoroff zeigte, dass D
max Fb x
Fe x
eine Zufallsvariable ist, deren Wahrscheinlichkeitsverteilung bei zutreffender Nullhypothese nicht von der Verteilungsfunktion Fe x abhängt.
398
19.5
Kolmogoroff-Smirnow-Test
Abb. 19.22: Empirische und theoretische Verteilungsfunktion (E19B.XLS, KS1)
Für übliche Werte des Signifikanzniveaus liegen die Rückweisungspunkte für D in Abhängigkeit vom Stichprobenumfang n tabelliert vor (siehe Abbildung 19.23).
Abb. 19.23: Rückweisungspunkte für den Kolmogoroff-Smirnow-Test (E19B.XLS, KSTab)
Für größere n-Werte als in Abbildung 19.23 ausgewiesen gibt es Näherungsformeln: 10% : D 5% : D
1,22 n 1,36 n
19
Anpassungstestverfahren
2% : D
399
1,52 n
Dieses Testverfahren, das eigentlich Stetigkeit der Untersuchungsvariablen voraussetzt, kann auch bei gruppiertem Material eingesetzt werden, wenn die Faustregel n 20 eingehalten wird und wenn mehr als fünf Klassen vorliegen. Demonstrieren wir die Vorgehensweise gleich an einem Beispiel: Untersucht wird eine Zensurenverteilung bei zufällig ausgewählten examinierten Studenten. Es ergaben sich die Werte der Tabelle in Abbildung 19.24. Es soll mit diesen Daten die Hypothese geprüft werden, die Zensuren folgten dem Modell der Gleichverteilung – schlichter formuliert: In der Grundgesamtheit sind die Häufigkeiten für die einzelnen Noten gleich.
Abb. 19.24: Zensurenverteilung (E19B.XLS, Zensur1)
Um die obige Hypothese zu prüfen – das Signifikanzniveau sei 10% –, stellen wir der Verteilungsfunktion der empirischen Häufigkeiten diejenige gegenüber, die sich bei Unterstellung der Gleichverteilung (also Gültigkeit der Nullhypothese vorausgesetzt) ergeben würde. Zuvor muss aber mit Nachdruck darauf aufmerksam gemacht werden, dass es bei den beiden Verteilungsfunktionen immer um die Kumulation der relativen (dezimalen) und nicht um die der absoluten Häufigkeiten geht (siehe Abbildung 19.25).
Abb. 19.25: Kolmogoroff-Smirnow-Test (E19B.XLS, Zensur2)
In Spalte C der Arbeitstabelle der Abbildung 19.25 sind die relativen beobachteten Häufigkeiten berechnet worden, in Spalte D die entsprechenden Werte für die erwarteten Häufigkeiten (die Hypothese der Gleichverteilung sollte in diesem sehr einfachen Beispiel getestet werden). In Spalte E wurden die beobachteten relativen Häufigkeiten aufwärts kumuliert; entsprechend in Spalte F die erwarteten relativen Häufigkeiten. Schließlich wurden in der Spalte G die Absolutabweichungen zwischen den Werten der beiden Verteilungsfunktionen
400
19.5
Kolmogoroff-Smirnow-Test
(in E und F) unter Nutzung der Excel-Funktion ABS gebildet. Es zeigt sich, dass als maximale absolute Differenz der Wert 0,1138 auftritt. Dieser ist kleiner als der Rückweisungspunkt, der bei n 41 und 10% gemäß der oben angegebenen Formel bei etwa 0,19 liegt. Deshalb wird die Nullhypothese bestätigt. Anzumerken bleibt, dass für dieses Testverfahren keine unterstützende Funktion von Excel bereitgestellt wird.
20
Testen statistischer Zusammenhänge
„Das schöne Geschlecht hat ebensowohl Verstand als das männliche, nur es ist ein schöner Verstand.“ I. Kant, Philosoph, 1799
Geschlecht und Intelligenz 20.1 Die Streitfrage 20.2 Chi-Quadrat-Unabhängigkeitstest (Nominaldaten) 20.3 Unabhängigkeitstest bei Ordinaldaten 20.4 Test des Korrelationskoeffizienten (metrische Daten) 20.5 Test des Regressionskoeffizienten 20.6 Schätzen der Regressionsgeraden
20.1
Die Streitfrage
„Es wird hier behauptet“, sagte meine Frau, und ein gewisses Maß an Schadenfreude war ihrer sonst sehr freundlichen Stimme deutlich anzuhören, als sie die Zeitschrift sinken ließ, in der sie gerade gelesen hatte, „dass Frauen intelligenter seien als Männer ... Was sagst du dazu?“ Ich wollte gerade behaupten, dass dies ja nur eine Behauptung sei, aber mir war klar, dass dies zu einem mittelprächtigen Streit führen könnte. Mir fiel etwas Besseres ein. „Man könnte das ja testen“, sagte ich, „dann gibt es keinen Streit!“ „Es will sich doch niemand streiten. Außerdem, wer ist ›man‹?“ „Die Statistiker vielleicht“, erwiderte ich. „Ein Statistiker könnte eine größere Zahl weiblicher und männlicher Versuchspersonen bitten, an einem Intelligenztest unter gleichen Bedingungen teilzunehmen und dann die Ergebnisse miteinander vergleichen. Es würde sich dann beispielsweise anbieten, mit einem geeigneten statistischen Zusammenhangsmaß die Stärke des Zusammenhangs zwischen Intelligenz und Geschlecht auszurechnen.“ Meine Frau schien beeindruckt. „Allerdings“, fügte ich hinzu, „allerdings muss dann noch getestet werden, ob der eventuelle Zusammenhang statistisch signifikant ist oder ob er nur zufälliger Art ist. Es würde sich ein Chi-Quadrat-Unabhängigkeitstest anbieten ...“ „Ach du liebe Zeit“, meinte meine Frau und griff wieder nach ihrer Zeitschrift. „Du könntest uns freundlicherweise ein Kännchen Kaffee kochen.“
20.2
Chi-Quadrat-Unabhängigkeitstest (Nominaldaten)
In den vorangegangenen Kapiteln haben wir unterschiedliche Testverfahren besprochen. Zunächst standen die Parametertests im Vordergrund – ausgehend von großen Zufallsstichproben (Mittelwert- und Anteilswerttest, Test von Differenzen von Mittelwerten oder Anteilswerten), dann haben wir einige Verfahren für kleine Stichprobenumfänge kennen gelernt und schließlich im letzten Kapitel einige wichtige Verfahren zum Testen von Verteilungshypothe-
402
20.2
Chi-Quadrat-Unabhängigkeitstest (Nominaldaten)
sen. All diesen Verfahren war gemeinsam, dass jeweils nur eine einzige statistische Untersuchungsvariable zum Gegenstand der Betrachtungen gemacht wurde. Nun hatten wir aber schon in der deskriptiven Statistik als wichtigen Einsatzbereich statistischer Methoden die bivariate Statistik besprochen, nämlich die Regressions- und die Korrelationsrechnung. Es liegt deshalb natürlich der Gedanke nahe, auch für diesen Bereich einige wahrscheinlichkeitsstatistische Ergänzungen anzusprechen. Diese Ausweitung der Betrachtung ist allein schon deshalb erforderlich, weil natürlich auch bivariate Verteilungen letztlich auf der Basis von Zufallsstichproben gewonnen werden (oder gewonnen werden können), was dann wieder die Frage nach der Wahrscheinlichkeit beobachteter Stichprobenbefunde aufwirft. Stellt man beispielsweise bei der Befragung von zehn zufällig ausgewählten Personen fest, dass der Zusammenhang zwischen Körpergröße und Körpergewicht mit r 0,43 quantifiziert werden kann (Korrelationskoeffizient von Bravais/Pearson; siehe Kapitel 10), dann taucht natürlich die Frage auf, ob dieser nummerische Wert signifikant von null verschieden ist oder nur zufällig von null abweicht. Ist da ein Zusammenhang zwischen Körpergröße und Gewicht in der Grundgesamtheit, oder ist da kein Zusammenhang? Um diese Frage beantworten zu können, stellt die Statistik eine Reihe leistungsfähiger Testverfahren bereit. Bei ihrer Besprechung bietet es sich an, zwischen den unterschiedlichen Datenqualitäten zu unterscheiden, weil es ja auch gemäß dieser Unterscheidung verschiedene Zusammenhangsmaße gibt. Die schwächste Skalenqualität weisen Nominaldaten auf (siehe Kapitel 1). Ein geeignetes Zusammenhangsmaß ist hier zum Beispiel der Pearson’sche Koeffizient C, den wir in Kapitel 10 besprochen haben. Zum Testen der Hypothese, dass zwischen zwei nominalskalierten Variablen kein Zusammenhang besteht (das ist die übliche Nullhypothese bei bivariaten statistischen Auswertungen), eignet sich der Chi-Quadrat-Unabhängigkeitstest, der deshalb in diesem Kapitel als erstes Verfahren besprochen werden soll. Dabei gehen wir gleich von einem Beispiel aus: Beispiel: Es soll die Nullhypothese geprüft werden, dass es keinen Zusammenhang gibt zwischen Geschlecht und bevorzugter politischer Partei. Sie sehen, beide Variablen weisen (nur) Nominalskalenqualität auf. Das im Folgenden vorgestellte Verfahren ist hier also angemessen – es müsste übrigens auch dann verwendet werden, wenn nur eine der beiden betrachteten Variablen nominalskaliert wäre. Zur Hypothesenprüfung wird ein Datenbestand auf Zufallsstichprobenbasis bereitgestellt: n 1050 zufällig ausgewählte Erwachsene werden danach gefragt, welcher Partei sie ihre Stimme geben würden, wenn am kommenden Sonntag Wahlen zum Deutschen Bundestag stattfinden würden. Die Antworten werden nach Geschlecht getrennt ausgezählt. Es ergibt sich eine bivariate Häufigkeitsverteilung, die beispielsweise so aussehen könnte, wie es Abbildung 20.1 zeigt.
20
Testen statistischer Zusammenhänge
403
Abb. 20.1: Geschlecht und bevorzugte politische Partei (Zufallsstichprobe) (E20.XLS, C1)
Eine solche bivariate Häufigkeitsverteilung wird Kontingenztabelle genannt. Bildet man in dieser Kontingenztabelle die Zeilen- und die Spaltensummen, so ergibt sich Abbildung 20.2.
Ab. 20.2: Ausgangsdaten und Summen (E20.XLS, C2)
Wenn nun die Hypothese der Unabhängigkeit zwischen beiden Variablen – Geschlecht und bevorzugte politische Partei – geprüft werden soll, müssen wir den beobachteten Häufigkeiten, die in der obigen Tabelle auftauchen, diejenigen gegenüberstellen, die bei Gültigkeit der Nullhypothese, also bei Unabhängigkeit zu erwarten wären. Wie wir in anderem Zusammenhang in Kapitel 13 schon ausgeführt haben, ergibt sich der Erwartungswert für eine der Tabellenzellen, indem man für diese Zelle die Zeilensumme mit der Spaltensumme multipliziert und dieses Produkt durch die Gesamtzahl der Beobachtungen dividiert. Die Anzahl der bei Unabhängigkeit zu erwartenden männlichen CDU/CSU-Wähler ergibt sich also zum Beispiel wie folgt: e11
478
500 1050
227,62
Entsprechend erhalten wir die Zahl der (theoretisch) zu erwartenden weiblichen CDU/CSUWähler zu: e12
550
478 1050
250,38
Es versteht sich, dass die Summe dieser beiden Werte wieder 478 sein muss. Man hätte also auch e12 als 478 e11 berechnen können. Nach diesem Muster können alle anderen theoretisch zu erwartenden Häufigkeiten berechnet werden, was in der Excel-Tabelle der Abbildung 20.3 auch geschehen ist.
404
20.2
Chi-Quadrat-Unabhängigkeitstest (Nominaldaten)
Abb. 20.3: Beobachtete und theoretische Häufigkeiten (E20.XLS, C3)
Übrigens: Die theoretischen Werte könnten Sie auch in der Weise bestimmen, dass Sie beispielsweise in der Tabellenzeile für die CDU/CSU die insgesamt 478 CDU/CSU-Anhänger im Verhältnis 500:550 auf die beiden Geschlechter aufgeteilt hätten. Entsprechend ist in den übrigen Tabellenzeilen zu verfahren. Leicht nachvollziehbar ist nun die folgende Überlegung: Wenn die bei Unabhängigkeit zu erwartenden Werte mit den beobachteten Häufigkeiten übereinstimmen, kann die Hypothese der Unabhängigkeit als bestätigt angesehen werden. Je weiter aber die beobachteten von den erwarteten Häufigkeiten abweichen, desto größer ist die Abweichung von der Unabhängigkeit, d.h., desto eher sind die beiden Untersuchungsvariablen als voneinander abhängig anzusehen. Deshalb haben wir von Excel auch die Differenzen zwischen b ij und e ij ausrechnen lassen. Diese Differenzen wurden gleich quadriert, und die quadrierten Abweichungen wurden durch die Erwartungswerte dividiert. Dabei ergibt sich der Befund der Abbildung 20.4 in der unteren Hälfte der dort dargestellten Tabelle.
Abb. 20.4: Berechnung der Prüfgröße U (E20.XLS, C4)
Sie sehen, dass sich der Wert u 12,095 ergibt (Summe aller relativierten quadrierten Abweichungen zwischen beobachteten und erwarteten Häufigkeiten; siehe Zelle D16 der Tabelle in Abbildung 20.4). Dieser Wert u ist Grundlage des Kontingenzkoeffizienten C von Pearson (siehe Kapitel 10). Hier ergibt sich C (siehe Zelle D17) zu:
20
Testen statistischer Zusammenhänge
C
u
u
n
405
0,10671
Es ergibt sich also ein vergleichsweise schwacher Zusammenhang. (Der Maximalwert für C ist ja bekanntlich bei einer 2 5 -Tabelle C max 0,80077 ; siehe Kap. 10.) Gerade deshalb stellt sich jetzt die Frage, ob C 0,10671 signifikant oder nur zufällig von null abweicht, ob also die Nullhypothese betätigt oder verworfen wird. Immerhin ist die Stichprobe recht umfangreich – es wäre also durchaus vorstellbar, dass auch der relativ kleine Wert für C doch als signifikante Abweichung von C 0 erkannt wird. Der Chi-Quadrat-Unabhängigkeitstest setzt nun nicht am Stichprobenbefund C an, sondern an der Pearson’schen Prüfgröße U, von der u ein konkreter Wert ist. Sie können nachvollziehen, dass die Nullhypothese der Unabhängigkeit zwischen beiden Variablen umso eher zu verwerfen ist, je größer U ist. Anders formuliert: Wenn die Wahrscheinlichkeit für den beobachteten U-Wert oder einen noch weiter von der Nullhypothese abweichenden Wert, also für U 12,095 , kleiner oder gleich dem vorzugebenden Signifikanzniveau ist – es sei mit 10% gegeben –, wird die Nullhypothese verworfen. Um diese Wahrscheinlichkeit zu bestimmen, benötigen wir die Wahrscheinlichkeitsverteilung der Stichprobenvariablen U. Diese ist die Chi-Quadrat-Verteilung mit z 1 s 1 Freiheitsgraden ( z Zahl der Zeilen der Kontingenztabelle, s Zahl ihrer Spalten). Hier haben wir also 5 1
2 1
4 1 4 Freiheitsgrade.
Unter Nutzung der Excel-Funktion CHIVERT können wir die interessierende Überschreitungswahrscheinlichkeit bestimmen, indem wir in eine Tabellenzelle eingeben: =CHIVERT(12,095;4) Excel berechnet den Wert 0,017 (gerundet; siehe Zelle G16 in Abbildung 20.4): Dieser Wert ist kleiner als das vorgegebene Signifikanzniveau, d.h., die Nullhypothese, dass es keinen Zusammenhang zwischen Geschlecht und bevorzugter politischer Partei gibt, ist zu verwerfen. Anders ausgedrückt: Der mit C 0,10671 quantifizierte Zusammenhang zwischen beiden Variablen ist ein statistisch signifikanter (signifikant von null verschiedener) Zusammenhang. Das angegebene Beispiel eignet sich auch dafür, die Excel-Funktion CHITEST einzusetzen. Wenn nämlich die beobachteten Häufigkeiten gegeben sind (sie stehen in der obigen Tabelle im Zellbereich B3:C7) und wenn die theoretisch zu erwartenden Häufigkeiten berechnet (oder vielleicht im Rahmen einer anderen zu prüfenden Nullhypothese vorgegeben) sind (sie stehen in F3:G7), können Sie folgendermaßen vorgehen: 1. 2. 3. 4.
5.
Wählen Sie – ausgehend von einer freien Tabellenzelle – über EINFÜGEN/FUNKTION… den Funktions-Assistenten. Wählen Sie aus der Kategorie STATISTIK die Funktion CHITEST. Klicken Sie OK an. Geben Sie im zweiten Dialogfenster des Funktions-Assistenten die folgenden Informationen ein: bei BEOB_MEßWERTE: B3:C7 bei ERWART_WERTE: F3:G7 Klicken Sie OK an.
406
20.2
Chi-Quadrat-Unabhängigkeitstest (Nominaldaten)
Die Excel-Funktion CHITEST berechnet jetzt die Überschreitungswahrscheinlichkeit 0,017 (gerundet; siehe Zelle G10 der Tabelle in Abbildung 20.4), die wir ja auch schon oben gefunden hatten. Diese Funktion erspart uns also die Berechnung der Pearson’schen Prüfgröße U. Allerdings können wir dann nicht direkt den Wert des Kontingenzkoeffizienten C berechnen, falls dieser uns auch interessiert. Wir müssen in diesem Zusammenhang darauf aufmerksam machen, dass auch dieser Test unter Nutzung der Chi-Quadrat-Verteilung voraussetzt, dass jede der erwarteten Häufigkeiten e ij einen Wert aufweist, der mindestens größer als 5 ist. Hat man kleinere Erwartungswerte, kann die Chi-Quadrat-Verteilung als Prüfverteilung nicht mehr eingesetzt werden. Diese Voraussetzung kann man notfalls dadurch erfüllen, dass Merkmalswertklassen so lange zusammengelegt werden, bis die Mindestgröße für alle Erwartungswerte erreicht ist. Im Extremfall gelangt man dadurch zu dichotomen Variablen. Sollte aber auch dann die angegebene Voraussetzung nicht erfüllt werden können, muss das zuständige exakte Verfahren eingesetzt werden, in diesem Fall der schon besprochene exakte Test von Fisher (siehe Kapitel 18, Abschnitt 18.4). Jetzt zu unserem Ausgangsbeispiel: Was hat das Geschlecht mit der Intelligenz zu tun? Die Hypothese der Unabhängigkeit der beiden Variablen soll bei einem Signifikanzniveau von 10% mit dem Datenbestand der Abbildung 20.5, der auf einer Zufallsstichprobe basiert, überprüft werden.
Abb. 20.5: Geschlecht und Intelligenz – Stichprobenbefund (E20.XLS, SEX1)
Berechnen wir nach dem gleichen Muster wie im vorangegangenen Beispiel die bei Unabhängigkeit der beiden Variablen voneinander zu erwartenden theoretischen Häufigkeiten, ergeben sich die Werte in den Zellen F3:G10 der Tabelle in Abbildung 20.6.
Abb. 20.6: Beobachtete und theoretische Häufigkeiten (E20.XLS, SEX2)
20
407
Testen statistischer Zusammenhänge
Sie erkennen, dass in der ersten Zeile (F3, G3) zu kleine Erwartungswerte stehen, weshalb vor der weiteren Berechnung die ersten beiden Klassen zusammengelegt werden. (Excel nimmt bei der Anwendung der Funktion CHITEST diese erforderliche Korrektur, das Zusammenlegen zu schwach besetzter Klassen, nicht automatisch vor!). Die Ausgangswerte stehen im Bereich B15:C21, die Erwartungswerte im Bereich F15:G21 der Tabelle in Abbildung 20.7.
Abb. 20.7: Nach der Zusammenlegung der ersten beiden Klassen (E20.XLS, SEX3)
Der Einsatz der Funktion CHITEST führt dann zum Wert 0,96, d. h., die Überschreitungswahrscheinlichkeit ist außerordentlich hoch, die Nullhypothese, dass es keinen Zusammenhang zwischen Intelligenzquotienten und dem Geschlecht gibt, wird bestätigt.
20.3
Unabhängigkeitstest bei Ordinaldaten
Zur Bemessung der Stärke eines statistischen Zusammenhangs bei ordinalskalierten Daten haben wir den Rangkorrelationskoeffizienten von Spearman verwendet (Kapitel 10.3). Auch dieser Koeffizient kann gegen null getestet werden. Wenn sich also in einer Zufallsstichprobe ein bestimmter Wert für diesen Koeffizienten ergibt, kann mit dem geeigneten Testverfahren die Frage beantwortet werden, ob dieser Stichprobenbefund signifikant oder nur zufällig von null abweicht. Um den Test durchführen zu können, benötigen wir die Stichprobenverteilung dieses Koeffizienten. Es kann gezeigt werden, dass bei Stichprobenumfängen von n 10 der Ausdruck n 2 1
2
einer t-Verteilung mit
n 2 Freiheitsgraden folgt. Für n
n 1 approximativ der Standardnormalverteilung.
20 folgt
408
20.3
Unabhängigkeitstest bei
Betrachten wir gleich ein Anwendungsbeispiel. Es soll die Hypothese geprüft werden, dass es zwischen den Leistungen von Schülern in den beiden Fächern Mathematik und Deutsch keinen statistischen Zusammenhang gibt. Um diese Hypothese zu überprüfen, wird bei zwölf zufällig ausgewählten Schülern sowohl die eine als auch die andere Zeugniszensur notiert. Es ergibt sich der Datenbestand der Abbildung 20.8.
Abb. 20.8: Schulzensuren – Stichprobenbefund (E20.XLS, Schule1)
Mit der Excel-Funktion RANG haben wir in den Spalten D und E dieser Tabelle in Abbildung 20.8 die Rangpositionen der Werte bestimmt, die quadrierten Abweichungen dieser Ränge in Spalte F, und dann den Rangkorrelationskoeffizienten ausgerechnet. Es ergibt sich der Wert 0,4825 (gerundet). Ist dieser Wert 0,4825 signifikant von null verschieden oder nicht? Wir haben oben festgestellt, dass n 2 1 2
0,4825
einer t-Verteilung folgt mit
10 1 0,48252 n 2 12 2 10 Freiheitsgraden.
Hier ergibt sich t 1,7421 (gerundet). Mit der Funktion TVERT berechnen wir die Überschreitungswahrscheinlichkeit dieses t-Wertes zu 0,0561. Bei einem Signifikanzniveau von 5% würde dies bedeuten, dass der Stichprobenbefund nicht dazu ausreicht, die Hypothese der Unabhängigkeit zwischen den beiden Variablen (Schulzensuren in Deutsch und in Mathematik) zu verwerfen. Mit Blick auf den Ausgangsdatenbestand mag Ihnen dieses Ergebnis befremdlich erscheinen. Bedenken Sie aber bitte, dass der Stichprobenumfang mit n 12 vergleichsweise klein ist – und wir haben schon des Öfteren festgestellt, dass beim Vorliegen einer nur schmalen Informationsbasis Nullhypothesen geschützt werden. Erst ein etwas größerer Wert des Stichproben-Rangkorrelationskoeffizienten würde die Hypothese der Unabhängigkeit verwerfen können – bzw. ein gleich großer Wert, der dann aber aus einer etwas größeren Zufallsstichprobe stammen müsste.
20
Testen statistischer Zusammenhänge
20.4
409
Test des Korrelationskoeffizienten r
Bei metrischen Daten greifen wir zur Beschreibung der Stärke des statistischen Zusammenhangs zwischen zwei Variablen auf den Korrelationskoeffizienten r von Bravais/Pearson zurück (siehe Kapitel 10, Abschnitt 10.2.1). Auch dieser kann natürlich getestet werden, wenn er aus den Daten einer Zufallsstichprobe berechnet wurde. Wenn die Nullhypothese die Unabhängigkeit zweier metrischer Variablen voneinander behauptet, dann folgt die Größe t
r
n 2
1 r2
einer t-Verteilung mit n 2 Freiheitsgraden. Weiterhin gilt, dass für Stichprobenumfänge von n 25 die Variable Z approximativ einer Normalverteilung folgt. Diese neue Variable Z ist dabei wie folgt definiert: Z
0,5 ln
1 r 1 r
Die Parameter der einzusetzenden Normalverteilung sind die folgenden: Mittelwert:
0,5 ln
1 r0 1 r0
1 n 3
Standardabweichung:
r0 ist der durch die Nullhypothese behauptete Korrelationskoeffizient der Grundgesamtheit. Diese Normalverteilung mit den angegebenen Parametern erlaubt es übrigens, auch Hypothesen zu prüfen, die nicht auf die Unabhängigkeit der betrachteten Variablen zielen. Der Vollständigkeit halber sei angemerkt, dass für n 500 (so große Zufallsstichproben hat man allerdings recht selten) der Korrelationskoeffizient aus einer Zufallsstichprobe in seiner Eigenschaft als Zufallsvariable approximativ einer Gauß’schen Normalverteilung mit den folgenden Parametern folgt: Mittelwert: Standardabweichung:
r0 1 n
1 r0 2
Auch hier ist es also möglich, Hypothesen zu prüfen, die nicht auf die Unabhängigkeit der betrachteten Variablen zielen. Dazu nun einige Beispiele: Gegeben seien die Angaben zur Körpergröße und zum Körpergewicht zufällig ausgewählter erwachsener deutscher Männer in Tabelle der Abbildung 20.9.
410
20.4
Test des Korrelationskoeffizienten
Abb. 20.9: Körpergröße und Körpergewicht (Stichprobenbefund) (E20.XLS, CMKG1)
Als Wert des Korrelationskoeffizienten ergibt sich hier unter Nutzung der Excel-Funktion KORREL der Wert 0,763 (gerundet). Sie erhalten diesen Wert, wenn Sie in Zelle D1 eingeben: =KORREL(A2:A13;B2:B13) Widerspricht dieser Wert der Hypothese der Unabhängigkeit zwischen beiden Variablen? Um diese Frage zu beantworten, berechnen wir in Zelle D2 den zuständigen t-Wert (1,92 gerundet): t
r
n 2
1 r2
1,918
und nutzen dann die Excel-Funktion TVERT in Zelle D3, um die Überschreitungswahrscheinlichkeit für diesen t-Wert zu bestimmen: =TVERT(D2;10;1) Es ergibt sich der Wert 0,042 (gerundet). Die Überschreitungswahrscheinlichkeit ist also kleiner als zum Beispiel ein Signifikanzniveau von 5%, so dass unter dieser Voraussetzung die Hypothese der Unabhängigkeit zwischen Körpergröße und Körpergewicht verworfen werden kann. Ein zweites Beispiel: In einer Zufallsstichprobe vom Umfang n 30 wurde der Zusammenhang zwischen monatlichem Nettoeinkommen befragter Haushalte und ihren Ausgaben für Nahrungsmittel untersucht – ausgehend von der Überlegung, dass ein gleichgerichteter Zusammenhang vorliegen könnte. Es ergibt sich in dieser Stichprobe ein Korrelationskoeffizient von r 0, 28 . Widerspricht dieser Wert der Hypothese der Unabhängigkeit zwischen den beiden betrachteten Untersuchungsvariablen? Zur Beantwortung dieser Frage nutzen wir die Information, dass die transformierte Variable Z approximativ normalverteilt ist. Z ergibt sich hier zu: Z
0,5 ln
1,28 0,78
0,288
Diese Variable folgt approximativ einer Normalverteilung mit dem Mittelwert 0,5 ln 1
0
20
411
Testen statistischer Zusammenhänge
und der Standardabweichung 1 27
0,192
Die Überschreitungswahrscheinlichkeit erhalten Sie über =1-NORMVERT(0,288;0;0,192;1) zu ungefähr 0,067. Dies bedeutet, dass die Nullhypothese der Unabhängigkeit zwischen den beiden interessierenden Untersuchungsvariablen bei einem Signifikanzniveau von 5% einseitig noch nicht verworfen wird. Der sich in der Zufallsstichprobe zeigende gleichgerichtete Zusammenhang zwischen monatlichem Nettoeinkommen befragter Haushalte und ihren Ausgaben für Nahrungsmittel kann für die Grundgesamtheit nicht unterstellt werden. Wir ändern in einem dritten Beispiel die zu prüfende Hypothese. Sie möge lauten, dass der Zusammenhang zwischen monatlichem Nettoeinkommen befragter Haushalte und ihren Ausgaben für Nahrungsmittel mit r0 0,5 bemessen werden kann. In der Zufallsstichprobe vom Umfang n 30 hatte sich r 0,28 ergeben. Wieder nutzen wir die Z-Transformation, wobei sich wieder der Wert 0,288 ergibt. Die zugrunde zu legende Normalverteilung hat die gleiche Standardabweichung wie die eben verwendete Verteilung (0,192), nun aber einen anderen Mittelwert, nämlich 0,5 ln
1,5 0,5
0,549
Die Überschreitungswahrscheinlichkeit erhalten Sie über =NORMVERT(0,288;0,549;0,192;1) Es ergibt sich der Wert 0,087, d.h., die Nullhypothese des Zusammenhangs der Stärke r0 0,5 wird nicht widerlegt. Anmerkung: Bei dieser Berechnung der Überschreitungswahrscheinlichkeit wurde nicht von 1 subtrahiert, wie beim Beispiel zuvor, weil hier der zu prüfende Z-Wert links vom Mittelwert der Stichprobenverteilung liegt, so dass die Fläche unter der Verteilung links von Z 0,288 interessiert. Beim letzten Beispiel unterstellen wir eine große Zufallsstichprobe vom Umfang n 1000 , in der sich ein Korrelationskoeffizient von r 0,18 ergibt. Mit diesem Wert soll die Hypothese geprüft werden, dass in der Grundgesamtheit, aus der die Stichprobe stammt, der Zusammenhang zwischen den beiden Untersuchungsvariablen mit r0 0,15 bemessen werden kann. Wir nutzen bei der Beantwortung dieser Frage die Information, dass bei einem derartigen Stichprobenumfang der Stichproben-Korrelationskoeffizient Ausprägung einer Zufallsvariablen ist, die approximativ einer Gauß’schen Normalverteilung folgt mit den Parametern: Mittelwert:
R
und der Standardabweichung:
R
r0
0,15
1 n
1 r0 2
1 1000
1 0,152
0,0309
Benutzt man nun die Funktion NORMVERT, um die Überschreitungswahrscheinlichkeit für den Stichprobenbefund r 0,18 zu berechnen, ist einzugeben:
412
20.5
Test des Regressionskoeffizienten
=1-NORMVERT(0,15;0,18;0,0309;1) Es ergibt sich 0,1658, d.h., die Nullhypothese, dass der Zusammenhang durch r Grundgesamtheit beschrieben werden kann, wird bestätigt.
20.5
0,15 in der
Test des Regressionskoeffizienten
In der bivariaten Statistik geht es ja – in der Regel sogar vor der gerade besprochenen Zusammenhangsrechnung – um die Frage, wie der bivariate Zusammenhang zwischen zwei Untersuchungsvariablen zusammenfassend beschrieben werden kann. Dies ist die Aufgabe der Regressionsrechnung. Wenn man für diese Beschreibung eine lineare Funktion verwendet, kann man mit der Methode der kleinsten Quadrate den Steigungswinkel b (Regressionskoeffizient) und den Ordinatenabschnitt a der Regressionsfunktion bestimmen (siehe Kapitel 9, Abschnitt 9.5). Hier nun interessiert die Frage, wie man – ausgehend von den Befunden einer Zufallsstichprobe – die spezielle Hypothese beurteilen kann, der Regressionskoeffizient der Grundgesamtheit sei null. Dieser Test beruht darauf, dass die Größe t
b sb
einer t-Verteilung folgt mit zustande kommt:
n 2 Freiheitsgraden. Dabei ist s b eine Größe, die wie folgt
Es sei: Qx
x2
1 n
x
1 n
x
2
und Q y
y2
1 n
y
2
Weiterhin soll gelten: Q xy Q y.x
xy Qy
y
b Q xy
Dann ist Q y.x
sb
n 2 Qx
Wir greifen zurück auf die Ausgangsdaten der Abbildung 20.9. Die Steigung der Regressionsgeraden berechnen wir mit Excel wie folgt: =STEIGUNG(B2:B13;A2:A13) Beachten Sie, dass als erstes Argument die Y-Werte und erst als zweites Argument die XWerte eingegeben werden. Sie sehen dies sehr deutlich, wenn Sie die Funktion STEIGUNG über den Funktions-Assistenten aufrufen. Es ergibt sich der Wert b 0,844 (gerundet). Wider-
20
Testen statistischer Zusammenhänge
413
spricht dieser Wert der Hypothese, dass gar keine Steigung in der Grundgesamtheit vorliegt ( b 0 0 – mit wachsender Größe reagiert das Gewicht nicht oder völlig unregelmäßig)? Um diese Frage zu beantworten, berechnen wir in der Excel-Arbeitstabelle die oben angegebenen Quadratsummen ( Q x , Q y , Q xy und die Größe Q y.x ). Daraus wird dann s b und schließlich die Prüfgröße t ausgerechnet (siehe Abbildung 20.10).
Abb. 20.10: Größe und Gewicht, Ausgangsdaten und Zwischenrechnungen (E20.XLS, CMKG2)
Es ergibt sich also (gerundete Werte): Qx
636,7
Qy
778,9
Q xy
537,3
Q y.x
325,4
sb
0,226
Somit wird t zu
b sb
3,733 berechnet.
Die Überschreitungswahrscheinlichkeit dieses t-Wertes liegt einseitig bei 0,0019, wie mit der Funktion TVERT berechnet werden kann. Es zeigt sich also, dass die Hypothese, es gäbe in der Grundgesamtheit keine Steigung, aufgrund des Stichprobenbefundes zu verwerfen ist. Der Vollständigkeit halber sei darauf aufmerksam gemacht, dass man auch eine Hypothese über den Regressionskoeffizienten testen kann, wenn sie lautet b 0 0 . Weiterhin ist es möglich, auch die Regressionskonstante a (Ordinatenabschnitt) zu testen. Generell kann man auch – unter bestimmten Umständen – die Linearität einer bivariaten Beziehung testen. Man kann also die Frage beantworten, ob eine lineare Regressionsfunktion den Datenbestand angemessen beschreibt oder nicht. Da für diese zusätzlichen Testverfahren aber der mathematische Aufwand beträchtlich ist, sollen diese Verfahren hier nicht besprochen
414
20.6
Schätzen der Regressionsgeraden
werden (siehe z.B. L. Sachs: Statistische Auswertungsmethoden, 2. Auflage, Berlin u.a., 1969, Seite 421 ff.).
20.6
Schätzen der Regressionsgeraden
Mit dem Instrumentarium, das im vorangegangenen Abschnitt zum Testen des Regressionskoeffizienten verwendet wurde, kann auch die Regressionsgerade geschätzt werden, d.h., es kann ein Schätzkorridor angegeben werden, innerhalb dessen sich mit einem vorgegebenen Grad des Vertrauens die Regressionsgerade der Grundgesamtheit – ausgehend von der Geraden, wie sie sich in einer Zufallsstichprobe ergeben hat – befinden wird. Für gegebene y' Werte (Y-Werte auf der Regressionsgeraden, auch theoretische Y-Werte genannt) sind die Grenzpunkte dieses Korridors wie folgt gegeben: y'
2 F 2, n
2
Sy
Hier taucht also die F-Verteilung (siehe Kapitel 14, Abschnitt 14.10) mit 2 und n 2 Freiheitsgraden auf. Zudem wird eine Größe s y benutzt, die wie folgt definiert ist:
sy
s y.x
1 n
x
x
2
Qx
wobei wiederum: s y.x
Q y .x
n 2
Wir wollen diese Formeln verwenden, um aus den Angaben des vorangegangenen Abschnitts die Regressionsgerade der Grundgesamtheit mit einem Vertrauen von 90% zu schätzen. Bei diesem Vertrauensniveau ist der F-Wert der F-Verteilung mit 2 und 10 Freiheitsgraden zu 4,1 gegeben. Alle weiteren Daten finden sich in dem Arbeitsblatt der Abbildung 20.11.
Abb. 20.11: Größe und Gewicht, Schätzen der Regressionsfunktion (E20.XLS, CMKG3)
20
Testen statistischer Zusammenhänge
415
In den letzten beiden Spalten befinden sich die Schätzwerte des Regressionskorridors. Diese Angaben sind wie folgt zu lesen: Die erste Person in der Stichprobe hatte ein Gewicht von 72 kg bei einer Körpergröße von 172 cm. Der entsprechende Wert auf der Regressionsgeraden liegt bei 73,8 kg. Dies bedeutet, dass eine zufällig ausgewählte Person, deren Größe 172 cm beträgt, ein Gewicht von 73,8 kg erwarten lässt – vorausgesetzt, die durch die lineare Regressionsfunktion zum Ausdruck gebrachte Hypothese über den Zusammenhang zwischen Körpergröße und Gewicht (sie hatte die Form: Y ' 71,364 0,844 X ) trifft tatsächlich zu. Die Vertrauensschätzung der Regressionsgeraden besagt nun, dass mit einem Vertrauen von 90% eine derartige Person in der Grundgesamtheit ein Gewicht zwischen 67,83 und 79,78 kg erwarten lässt (der Wert 73,8 kg ist der Mittelpunkt dieses Schätzintervalls). In entsprechender Weise sind auch die übrigen Angaben zu interpretieren. Sie mögen unangenehm überrascht sein, wie groß diese Schätzintervalle sind. Dies hat natürlich damit zu tun, dass der Stichprobenumfang mit n 12 sehr klein ist. Bei Vergrößerung des Stichprobenumfangs werden die Intervalle kleiner. Sie sind übrigens in der Mitte der Punktwolke sowieso kleiner als an den Rändern. Bei dem Riesen mit 192 cm ist das Schätzintervall fast 21 kg breit, bei einer durchschnittlich großen Person (zum Beispiel 177 cm) sind es weniger als 10 kg. Weiterhin gilt, dass sie umso kleiner sind, je stärker der Zusammenhang zwischen X und Y ist. Schematisch sehen Regressionsgerade und Schätzkorridor so aus, wie in Abbildung 20.12 gezeigt.
Abb. 20.12: Regressionsgerade und Schätzkorridor (E20.XLS, CMKG4)
21
Multiple Regression und partielle Korrelation
„Storch, Storch, Guter, bring mir einen Bruder …“ Kinderreim
Die Geschichte vom Klapperstorch 21.1 Vom Sinn der Aufklärung 21.2 Drittvariablen 21.3 Partielle Korrelationsrechnung 21.4 Multiple lineare Regression 21.5 Multipler Determinationskoeffizient 21.6 Nicht-metrische Daten
21.1
Vom Sinn der Aufklärung
In welchen Zeiten leben wir denn? Natürlich habe ich meinen Töchtern nichts vom Klapperstorch erzählt! Aber eigentlich – so dumm ist die Geschichte ja nun doch nicht. Und Aufklärung darüber, mit welchen Fragen ihr Vater in seinem Statistikerberuf zu tun hat, kann ja auch nicht schaden. Also erzählte ich davon, als die beiden schon ein verständiges Alter erreicht hatten, dass es eine bemerkenswert hohe statistische Korrelation gäbe zwischen den Geburtenraten in verschiedenen Ländern dieser Erde einerseits und der Anzahl der Störche pro Quadratkilometer in diesen Ländern andererseits. „Also doch!“, meinte daraufhin Sabine. „Aber eines ist klar“, relativierte ich daraufhin meine Aussage. „Wer meint, aufgrund dieses deutlichen statistischen Zusammenhangs die Geburtenrate in Deutschland dadurch steigern zu können – vielleicht um mehr Rentenbeitragszahler in der weiteren Zukunft zu haben, welche die dann Alten versorgen können –, dass er sich um die Aufzucht und die Erhaltung der natürlichen Lebensbedingungen für Störche bemüht, der wird mit hoher Wahrscheinlichkeit keinen Erfolg erzielen.“ „Aber es gibt doch mehr Geburten, wenn mehr Störche da sind ...?“ „Entscheidend ist das Wörtchen ›wenn‹ in diesem Satz. Wenn du gesagt hättest ›weil‹ – aber dieses ›weil‹ ist in diesem Zusammenhang nicht richtig. Da versteckt sich ein kleiner Denkfehler.“ „?“ „Es ist einfach so: Wer nur zwei Variablen betrachtet, also zum Beispiel Geburtenrate und Storchanzahl, der übersieht, dass es dritte, vierte und weitere Variablen geben kann, die dafür verantwortlich sind, dass zwischen den ersten beiden ein starker statistischer Zusammenhang zutage tritt. Betrachte zum Beispiel die wirtschaftliche Entwicklung der einzelnen Länder. Jeder weiß, dass mit fortschreitender wirtschaftlicher Entwicklung in vielen Ländern, etwa im Zuge der Industrialisierung, die Geburtenraten sinken. Zugleich bedeutet die Industrialisierung auch, dass die natürlichen Lebensbedingungen der Störche stark beschnitten werden. Ihre Zahl geht drastisch zurück. Es braucht uns deshalb überhaupt nicht zu wundern, dass ein statistischer Zusammenhang zwischen Geburtenraten und Storchanzahlen auftritt. Dieser Zusam-
418
21.2
Drittvariablen
menhang kommt quasi automatisch zustande. Genau genommen haben die Störche nichts mit den Geburten zu tun!“ „Ist ja klar!“, sagte Sabine.
21.2
Drittvariablen
Bei der Betrachtung bivariater statistischer Zusammenhänge – sei dies nun im Rahmen der deskriptiven Statistik (siehe Kapitel 9) oder in der wahrscheinlichkeitsstatistischen Ausweitung (siehe Kapitel 20) ist es aus zwei Gründen empfehlenswert, immer auch den Blick darauf zu wenden, ob Drittvariablen im Spiel sind. Zum einen ist es wichtig, wie gerade ausgeführt wurde, dass der eigentlich interessierende bivariate statistische Zusammenhang durch den gemeinsamen Einfluss einer dritten (oder weiterer Variablen) nur vorgetäuscht wird und deshalb von diesem Drittvariableneinfluss befreit werden muss. Zum anderen können dritte (und weitere) Variablen gegebenenfalls auch dazu beitragen, die Prognosen über zu erwartende Werte einer Untersuchungsvariablen zu verbessern. Dazu ein Beispiel: Ein Statistiker interessiert sich für den oberen Blutdruckwert zufällig ausgewählter Bundeswehrsoldaten, die sich beim Truppenarzt einer Routineuntersuchung unterziehen. Erfasst wird unter anderem auch der tagesdurchschnittliche Zigarettenkonsum. Die Werte dieser beiden Variablen (X = Zigaretten; Y = Blutdruck) finden sich in der Tabelle der Abbildung 21.1.
Abb. 21.1: Zigarettenkonsum und Blutdruck – Ausgangsdaten (E21.XLS, Zblut1)
In der grafischen Präsentation zeigt uns diese bivariate Verteilung eine informative Gestalt: Mit zunehmendem tagesdurchschnittlichen Zigarettenkonsum steigt tendenziell der obere Blutdruckwert an. In Abbildung 21.2 findet sich auch die lineare Regressionsfunktion, deren Parameter sich zu a 112,06 und b 0,8624 ergeben. Der Statistiker (oder der Arzt unseres Beispiels) interessiert sich für die Frage, wie man die Blutdruckwerte senken kann. Dies impliziert die Frage, was die Faktoren sind, welche die Variationen dieser Variablen Y beeinflussen.
21
Multiple Regression und partielle Korrelation
419
Abb. 21.2: Streudiagramm zu den Daten der Abbildung 21.1 (E21.XLS, Zblut)
In einer ersten theoretischen Überlegung gelangt der empirische Forscher zu dem Schluss, dass der unterschiedliche Zigarettenkonsum verantwortlich sein könnte. Abbildung 21.2 dürfte ihn auch in dieser Vermutung bestärken, zeigt sich doch, dass die Regressionsgerade steigt (Regressionskoeffizient b 0,8624 , d.h., mit jeder Zigarette mehr im Tagesdurchschnitt steigt tendenziell der obere Blutdruckwert um 0,8624 Einheiten). Die Stärke des Zusammenhangs zwischen beiden Variablen kann mit dem Korrelationskoeffizienten von Bravais/Pearson berechnet werden (siehe Kapitel 10, Abschnitt 10.2.1), wobei sich r 0,90 ergibt (Excel-Funktion KORREL). Der in dieser kleinen Statistik vorgestellte Zusammenhang könnte nun aber – sowohl was seine Stärke als auch was die zusammenfassend beschreibende Regressionsfunktion betrifft – teilweise vorgetäuscht sein. Es ist ja nicht auszuschließen, dass beispielsweise die nicht erfasste Variable Alter sowohl den Zigarettenkonsum als auch den oberen Blutdruckwert beeinflusst. Sollte es so sein, dass mit zunehmendem Alter der Blutdruck steigt und dass zudem mit zunehmendem Alter tendenziell auch der tagesdurchschnittliche Zigarettenkonsum zunimmt, dann bräuchte es uns nicht zu wundern, wenn auch Zigarettenkonsum und Blutdruck positiv miteinander korrelieren. Was zu tun ist, liegt auf der Hand: Der eventuelle gemeinsame Einfluss der Variablen Alter müsste aus dem eigentlich interessierenden Zusammenhang zwischen Zigarettenkonsum und Blutdruck herauspartialisiert werden (tatsächlich spricht man vom Auspartialisieren des Drittvariableneinflusses). Dies setzt natürlich voraus, dass man Daten zum Alter der betrachteten Patienten hat. Wie dieses Auspartialisieren vor sich geht und welche Ergebnisse man bei dieser Art der so genannten Drittvariablenkontrolle erzielt, soll im folgenden Abschnitt besprochen werden. Wenn man aber schon einmal auch die Altersangaben erheben muss, um die Drittvariablenkontrolle durchführen zu können, bietet es sich an, auch der folgenden Überlegung nachzugehen: Die eigentlich interessierende Frage war die nach den Gründen für die unterschiedlichen Blutdruckwerte. In einem ersten gedanklichen Ansatz hatten wir gesagt, dass es der unterschiedliche Zigarettenkonsum ist, der mit den unterschiedlichen Blutdruckwerten positiv korreliert (positiv im statistischen Sinn: Zunahme von X bedeutet tendenzielle Zunahme von
420
21.3
Partielle Korrelationsrechnung
Y). Anders formuliert: Welche Blutdruckwerte sind zu erwarten, wenn die unabhängige Variable X (tagesdurchschnittlicher Zigarettenkonsum) bestimmte Werte annimmt? Sie erinnern sich daran, dass die Regressionsrechnung nicht nur die Aufgabe hat, einen interessierenden bivariaten Zusammenhang zusammenfassend zu beschreiben, sondern sie hat auch eine prognostische Aufgabe. Diese prognostische Aufgabe kann unter Rückgriff auf die Regressionsfunktion erledigt werden: Jemand, der im Tagesdurchschnitt 20 Zigaretten raucht, lässt einen Blutdruckwert erwarten, der sich wie folgt berechnen lässt: y' 112,06 0,8624 20 129,308 Der zu erwartende obere Blutdruckwert bei einem tagesdurchschnittlichen Zigarettenkonsum von 20 Zigaretten liegt bei 129,308 (unter der Voraussetzung, dass der durch die lineare Regressionsfunktion zum Ausdruck gebrachte Zusammenhang zwischen den beiden interessierenden Variablen in der Grundgesamtheit, der unsere kleine Zufallsstichprobe entnommen worden war, tatsächlich zutrifft). Die Qualität dieser Prognose kann wegen des hohen Wertes des Korrelationskoeffizienten als gut bezeichnet werden (bei einem gegebenen Stichprobenumfang ist die Treffsicherheit der Prognose – ceteris paribus – umso besser, je größer r ist). Es leuchtet jetzt aber sicherlich ohne weiteres ein, dass die Qualität der Prognose noch weiter erhöht werden kann, wenn auch das Alter einen maßgeblichen Einfluss auf den oberen Blutdruckwert haben sollte und wenn deshalb das Alter mit bei der Prognose berücksichtigt würde. Wir stehen also vor zwei ganz unterschiedlichen Aufgaben: Zum einen soll der eventuelle Einfluss des Alters auf die interessierenden Untersuchungsvariablen X (Zigarettenkonsum) und Y (Blutdruck) aus dem Zusammenhang zwischen X und Y herauspartialisiert werden, zum anderen soll genau diese Variable zur Verbesserung der Prognosequalität, was die Variable Y (Blutdruck) betrifft, mit in die Betrachtung aufgenommen werden. Diese zweite Aufgabe wird in Abschnitt 21.4 in Angriff genommen.
21.3
Partielle Korrelationsrechnung
In diesem Abschnitt geht es also um die Aufgabe, aus dem interessierenden bivariaten Zusammenhang zwischen zwei Variablen X und Y den Einfluss einer dritten Variablen (Z) herauszunehmen, um zu sehen, was von dem interessierenden Zusammenhang dann übrig bleibt. Um diese Frage zu beantworten, vereinbaren wir die folgenden Notationen: X
Unabhängige (beeinflussende) Variable
Y
Abhängige (interessierende) Variable
Z
Drittvariable
rxy
Bivariate Korrelation zwischen X und Y
rxz
Bivariate Korrelation zwischen X und Z
ryz
Bivariate Korrelation zwischen Y und Z
rxy.z
Partielle Korrelation zwischen X und Y
21
421
Multiple Regression und partielle Korrelation
Im Folgenden interessiert in erster Linie der zuletzt genannte Koeffizient. Der partielle Korrelationskoeffizient zeigt den (verbleibenden) Zusammenhang zwischen X und Y nach Herauspartialisierung des gemeinsamen Einflusses der Drittvariablen Z auf X und auf Y. Wir gehen vom Beispiel des vorangegangenen Abschnitts aus, wo nun zusätzlich die Altersangaben im Ausgangsdatenbestand zu finden sind (siehe Abbildung 21.3).
Abb. 21.3: Blutdruck, Zigaretten und Alter (E21.XLS, ZBA1)
Den partiellen Korrelationskoeffizienten (zwischen X und Y unter Ausschaltung von Z) erhält man gemäß der folgenden Berechnungsformel: rxy.z
rxy 1 rxz
rxz ryz 2
1 ryz 2
Benötigt werden also die drei einzelnen bivariaten Korrelationskoeffizienten, die wir mit der Excel-Funktion KORREL leicht berechnen können. Es ergeben sich die folgenden Werte: rxy
bivariate Korrelation zwischen X und Y
0,9017
rxz
bivariate Korrelation zwischen X und Z
0,8431
ryz
bivariate Korrelation zwischen Y und Z
0,8400
Setzt man diese Werte in die obige Berechnungsformel ein, so ergibt sich: rxy.z
0,6632
Während also die Stärke des Zusammenhangs in der ursprünglich interessierenden bivariaten Beziehung zwischen X und Y (tagesdurchschnittlicher Zigarettenkonsum und Blutdruck) mit r 0,9017 bemessen werden konnte, verbleibt nun – nach Auspartialisierung des Einflusses der Variablen Z (Alter) – ein deutlich kleinerer Wert von 0,6632. Wir erkennen, dass damit auch die Qualität unserer auf der bivariaten Regressionsgeraden aufbauenden Prognosen (siehe Abschnitt 21.2.) deutlich gemindert wird. Statistische Anmerkung zum Zustandekommen der Berechnungsformel für den partiellen Korrelationskoeffizienten: Man kann die zunächst recht undurchsichtig erscheinende Berechnungsformel gemäß der folgenden Überlegung herleiten: Man betrachte den bivariaten Zusammenhang zwischen X
422
21.3
Partielle Korrelationsrechnung
und Z: Wie beeinflusst die Variable Alter (Z) den tagesdurchschnittlichen Zigarettenkonsum (X)? Natürlich kann man auch hier eine bivariate Regressionsrechnung durchführen, d.h., eine lineare Regressionsfunktion und mit ihrer Hilfe die theoretisch zu erwartenden X'-Werte bei gegebenen Z-Werten berechnen. Welche Zigarettenwerte können bei den verschiedenen Altersangaben erwartet werden? Der Vergleich der X-Werte mit den X'-Werten zeigt Reste, weil nicht die gesamte Variabilität der Variablen X durch Variation der Variablen Z statistisch erklärt werden kann. Entsprechend die gleiche Überlegung gilt für die Variable Y (Blutdruck) in Abhängigkeit von Z (Alter). Auch hier bleiben nach der Berechnung einer linearen Regressionsfunktion Reste Y Y ' . Korreliert man nun nur die Reste, korreliert man also ( Y Y ' ) mit ( X X ' ), so erhält man den partiellen Korrelationskoeffizienten rxy.z . Beschreitet man diesen Weg, ist es also nicht erforderlich, zuerst alle drei bivariaten Korrelationskoeffizienten auszurechnen. Kehren wir noch einmal zum Beispiel mit den Geburten und Störchen zurück: Gehen Sie von den Daten der Tabelle in Abbildung 21.4 aus ( Y Geburtenrate pro Jahr Zahl der Geburten pro 100 Einwohner; X Zahl der Störche pro Quadratkilometer; Z Anteil der industriellen Produktion am Bruttosozialprodukt in Prozent – als Maß für den Status der wirtschaftlichen Entwicklung des betreffenden Landes). Übrigens, es handelt sich bei diesen Angaben um fiktive Daten.
Abb. 21.4: Störche, Geburten und wirtschaftliche Entwicklung (E21.XLS, SGW)
Berechnet man nun mit der Excel-Funktion KORREL den Korrelationskoeffizienten zwischen Störchen und Geburten, ergibt sich rxy 0,855 , also ein starker statistischer Zusammenhang. Die Auspartialisierung der Variablen Z (Anteil der Industrieproduktion am Sozialprodukt) verkleinert diesen Wert zu rxy.z 0,261 . Es bleibt also von dem ursprünglichen Zusammenhang zwischen Störchen und Geburten nicht allzu viel übrig. Anmerkung: Wenn Sie nun berücksichtigen, dass es vielleicht eine vierte Variable C gibt, die sowohl X (Störche) als auch Z (Wirtschaftslage) beeinflusst, so müsste auch die Korrelations-
21
Multiple Regression und partielle Korrelation
423
koeffizienten, die zum Auspartialisieren benötigt werden, korrigiert werden (also die Koeffizienten rxz und ryz ). Somit müsste also der interessierende Korrelationskoeffizient ryx doppelt korrigiert werden. Dieser Gedanke soll aber hier nicht weiter verfolgt werden. Es leuchtet ein, dass auf diese Weise beliebig große Beziehungsgeflechte zwischen immer mehr Variablen aufgebaut werden können, die zu immer komplizierteren, wenn auch gedanklich nachvollziehbaren Berechnungen führen.
21.4
Multiple lineare Regression
Wir hatten weiter oben ausgeführt, dass die Prognose der Y-Werte (zu erwartende Werte der abhängigen Variablen) verbessert werden kann, wenn nicht nur eine beeinflussende Variable, sondern mehrere solcher Variablen berücksichtigt werden – also wenigstens eine zusätzliche Variable. In diesem Sinn ist der Drei-Variablen-Fall die einfachste und noch halbwegs überschaubare Variante des generellen multiplen Falls. Betrachtet man beispielsweise den Blutdruck bei zufällig ausgewählten Bundeswehrsoldaten in Abhängigkeit vom tagesdurchschnittlichen Zigarettenkonsum und vom Alter, dann lässt sich jede der Versuchspersonen als Punkt in einem dreidimensionalen Achsenkreuz darstellen. In Analogie zum bivariaten Fall der einfachen linearen Regressionsfunktion steht die Regressionsrechnung hier nun vor der Aufgabe, eine Regressionsfläche zu bestimmen (im einfacheren und hier ausschließlich betrachteten Fall eine lineare Fläche), die sich den Punkten der dreidimensionalen Punktwolke möglichst gut anpassen soll. Diese zweidimensionale Regressionsfläche hat allgemein die folgende Form: y'i
a
b yx x i
b yz z i
Dabei bedeutet: y'i
theoretische, auf der Regressionsfläche liegende Y-Werte
a
Ordinatenabschnitt (Schnitt der Regressionsfläche mit der Y-Achse)
b yx
Steigung der Regressionsfläche in Richtung der X-Achse
b yz
Steigung der Regressionsfläche in Richtung der Z-Achse
Häufig wird die Regressionsfunktion auch wie folgt geschrieben: y 'i
b0
b1x1i
b 2 x 2i
Hier sind alle Parameter mit b bezeichnet: b0
Achsenabschnitt
b1
Steigung in die Richtung der ersten Unabhängigen
b2
Steigung in die Richtung der zweiten Unabhängigen
Die unabhängigen (beeinflussenden) Variablen heißen nicht X und Z, sondern X1 und X 2 . Diese Notationen erleichtern wesentlich den Übergang zum hier nicht betrachteten Mehrvariablenfall.
424
21.4
Multiple lineare Regression
Anmerkung: Dass die Variablen X und Z hier als Unabhängige bezeichnet werden, soll nicht bedeuten, dass sie ihrerseits voneinander unabhängig wären. Es muss vielmehr in der Regel unterstellt werden, dass sie miteinander korrelieren, also keineswegs voneinander unabhängig sind. Gemeint ist mit diesem Begriff der Unabhängigkeit, dass sie als beeinflussende Variablen hinsichtlich der Variablen Y (Blutdruck) angesehen werden. Man nennt die Parameter b1 und b 2 partielle Regressionskoeffizienten. Die Methode der kleinsten Quadrate führt zur Bestimmung der drei Parameter wie folgt: b1 b2 b0
ry1
ry 2 r12
1 r12 ry 2
2
var y var x1
ry1r12
1 r12
2
var y var x 2
y b1x1 b 2 x 2
Sie sehen, hier tauchen wieder die bivariaten Korrelationskoeffizienten auf, die ja auch bei der Auspartialisierung des Drittvariableneinflusses benötigt wurden (siehe Abschnitt 21.2.), zusätzlich werden hier die Standardabweichungen der einzelnen Variablen benötigt. Zur Demonstration der Vorgehensweise bei der multiplen Regressionsrechnung greifen wir auf das schon an anderer Stelle behandelte Beispiel mit den Variablen Y = Blutdruck, X X1 tagesdurchschnittlicher Zigarettenkonsum und Z X 2 Alter zurück. In den Zellen E3, F3 und G3 der Tabelle in Abbildung 21.5 haben wir die bivariaten Korrelationskoeffizienten mit der Excel-Funktion KORREL berechnet, darunter in F5, F6 und F7 gemäß der obigen Berechnungsformeln die partiellen Regressionskoeffizienten.
Abb. 21.5: Multiple Regression – Beginn (E21.XLS, ZBA2)
21
Multiple Regression und partielle Korrelation
425
Der erste Regressionskoeffizient (0,64) bedeutet, dass die abhängige Variable Y (Blutdruck) tendenziell um 0,64 Einheiten zunimmt, wenn die erste unabhängige Variable (tagesdurchschnittlicher Zigarettenkonsum) um eine Einheit (eine Zigarette) ansteigt. Entsprechend bedeutet der zweite Koeffizient (0,303) die Zunahme des Blutdrucks um 0,303 Einheiten bei Zunahme von X 2 (Alter) um eine Einheit (ein Jahr). Prognostiziert man nun die Werte der abhängigen Variablen ( y' ), berechnet man also die Blutdruckwerte, die aufgrund der Regressionsfunktion y'i 106,872 0,640 x1i
0,303 x 2i
bei den gegebenen Zigaretten-Alter-Kombinationen zu erwarten sind, ergeben sich die Werte der Spalte H der Tabelle in Abbildung 21.6.
Abb. 21.6: Multiple Regression – Prognose (E21.XLS, ZBA3)
Zur Beurteilung der Qualität der zweidimensionalen Regressionsfunktion haben wir zusätzlich in Spalte I die Summe der quadrierten Abweichungen zwischen beobachteten Y-Werten und den prognostizierten Y’-Werten berechnet, wobei sich der Wert 93,69 ergibt Zu Vergleichszwecken haben wir weiterhin in den Spalten J bis M die einfache bivariate Regression zwischen Y (Blutdruck) und X1 (Zigaretten) berechnet. Es ergibt sich die schon bekannte Regressionsfunktion y'i 112,06 0,8624 x i Prognostiziert man mit dieser Funktion die Y’-Werte, erhält man die Angaben der Spalte L. In Spalte M finden sich wieder quadrierte Abweichungen, deren Summe jetzt aber den Wert 106,18 erreicht. Sie erkennen beim Vergleich der beiden berechneten Quadratsummen (Zelle I19 und Zelle M19), dass die Einbeziehung der dritten Variablen (Alter) die Prognosequalität verbessert hat.
426
21.5
21.5
Multipler Determinationskoeffizient
Multipler Determinationskoeffizient
Wenn eine dritte Variable mit in die Betrachtung aufgenommen wird, in dem Sinn, dass sie die Prognose der abhängigen Variablen Y verbessern soll, dann ist es auch angezeigt, einen multiplen Determinationskoeffizienten zu berechnen. Er ist definiert als das Quadrat des multiplen Korrelationskoeffizienten, der die Stärke des Zusammenhangs zwischen Y einerseits und X1 und X 2 andererseits berechnet. Dafür ist die folgende Berechnungsformel maßgeblich: ry.12
2
var y' var y
ry12
ry 2 2
2ry1ry 2 r12
1 r12 2
Es wird hier also – wie schon in der bivariaten Betrachtungsweise (siehe Kapitel 9, Abschnitt 9.5) – die Beziehung hergestellt zwischen der Varianz der erklärten Werte (Y’-Werte) und der Gesamtvarianz der Y-Werte. Zur vereinfachten Berechnung kann man – wie die obige Formel verdeutlicht – auf die bivariaten Korrelationskoeffizienten zurückgreifen. Berechnen wir diesen multiplen Determinationskoeffizienten für unser Zahlenbeispiel (Blutdruck, Zigaretten, Alter), so können wir auf die Angaben in den Zellen E3, F3 und G3 der Tabelle in Abbildung 21.6 zurückgreifen: ry.12 2
0,902 2
0,84 2 2 0,902 0,84 0,843 1 0,8432
0,814 0,71 1,277 1 0,711
0,247 0,289
0,855
Sie erkennen, dass mehr als 85% der Varianz der interessierenden Variablen Y (Blutdruck) über die Variation der Variablen X1 und X 2 statistisch erklärt wird. Zugrunde liegt dabei die Hypothese der linearen (zweidimensionalen) Beziehung zwischen Y einerseits und X1 und X 2 andererseits. Wenn man sich auf die bivariate Beziehung zwischen Y und X1 beschränkt, ergibt sich: ry12
0,902 2
0,814
Dies ist auch ein hoher Wert (die bemerkenswerten Größenordnungen aller berechneten Werte haben damit zu tun, dass wir hier mit fiktiven Daten gearbeitet haben, die so gewählt wurden, dass die relevanten Zusammenhänge besonders deutlich zutage treten), aber er erreicht nicht den Wert des multiplen Determinationskoeffizienten. Also erkennen wir auch hier, dass die Einbeziehung der dritten Variablen (Alter) zu einer (zweidimensionalen) Regressionsfunktion führt, die bessere prognostische Qualitäten aufweist als der einfache bivariate Ansatz. Mit der zweidimensionalen Funktion wird ein höherer Anteil der Varianz der interessierenden abhängigen Variablen Y (Blutdruck) aufgeklärt (statistisch erklärt) als mit dem einfachen bivariaten Ansatz. Es kann erwartet werden, dass die Einbeziehung weiterer (vierter, fünfter ...) Variablen den Anteil der erklärten Varianz der Y-Werte weiter erhöht, oder anders formuliert: Wenn eine weitere Variable keinen Zuwachs im Anteil der erklärten Varianz von Y erbringt, dann ist sie
21
427
Multiple Regression und partielle Korrelation
bei der Beantwortung der Frage, welche Faktoren für die Variabilität der Blutdruckangaben (Y) von Bedeutung sind, als unbedeutsam auszuschließen.
21.6
Nichtmetrische Daten
Sie könnten bei den vorangegangenen Ausführungen den Eindruck gewonnen haben, dass die besprochenen Verfahren für viele statistische Einsatzbereiche gar nicht interessant sind, weil immer metrische Daten vorausgesetzt werden müssen. In vielen sozialwissenschaftlichen oder ökonomischen Einsatzbereichen, in der Markt- und Meinungsforschung, in der psychologischen Statistik, bei Wahlforschungen u.Ä. hat man aber häufig nur nominalskalierte oder ordinalskalierte statistische Daten vorliegen. Was dann? Zunächst sieht es ja so aus, dass die Verfahren der Regressions- und der Korrelationsstatistik – selbst schon für den einfachen bivariaten Fall – bei solchen Daten keinen Platz haben. Dieser erste Eindruck täuscht aber. Bedenken Sie, dass jede Untersuchungsvariable, ob sie nun nominal- oder ordinalskaliert ist, ob sie metrisch oder nichtmetrisch ist, dichotomisiert werden kann. Diese Dichotomisierung – die Variable hat dann nur noch zwei Ausprägungen – ist mit dem angenehmen Effekt verbunden, dass die beiden Ausprägungen der dichotomen Variablen mit den Ziffern 0 und 1 codiert werden können – und dann kann das gesamte besprochene Instrumentarium eingesetzt werden. Betrachten Sie zum Beispiel die Variable Geschlecht mit den Ausprägungen männlich und weiblich. Sie ist nominalskaliert und von sich aus schon dichotom. Wenn sich in einer statistischen Untersuchung 15 Männer und 25 Frauen befinden und wenn männlich mit 0 und weiblich mit 1 codiert wird, dann kann sogar ein arithmetisches Mittel berechnet werden, obwohl diese Maßzahl bei nominalskalierten Daten ja eigentlich nichts zu suchen hat. In diesem Fall würde sich ergeben: 1 n
x ifi
1 0 15 1 25 40
25 40
0,625
Obwohl also die Mittelwertberechnung eigentlich der Datenqualität nicht angemessen ist, erhalten wir ein sinnvolles und interpretierbares Ergebnis, nämlich die Zahl 0,625. Sie besagt in diesem Beispiel, dass 62,5% der befragten Personen weiblichen Geschlechts sind. Wenn diesem Vorschlag der Dichotomisierung gefolgt wird, dann gehen natürlich bei Variablen, die mehr als zwei Ausprägungen aufweisen, Detailinformationen verloren. Betrachten Sie die Variable bevorzugte politische Partei. Sie hat fünf oder noch mehr Ausprägungen (CDU, SPD, FDP usw.). Wird nun dichotomisiert, so dass sich zum Beispiel die beiden Ausprägungen CDU und Nicht-CDU ergeben, die wieder mit 0 und 1 codiert werden könnten, verschenken wir Detailinformationen. Das muss aber nicht sein. Es wäre ja auch denkbar, dass wir aus der Variablen bevorzugte politische Partei künstliche Variablen erzeugen, die jeweils dichotom sind, also nur je zwei Ausprägungen aufweisen: Variable K1
CDU
Nicht-CDU
Variable K2
SPD
Nicht-SPD
Variable K3
FDP
Nicht-FDP usw.
428
21.6
Nichtmetrische Daten
Solche künstlichen Variablen werden Dummy-Variablen genannt, und bei all diesen Variablen kann das besprochene regressions- und korrelationsstatistische Instrumentarium eingesetzt werden, so dass sich hier ein genereller Gültigkeitsbereich für diese Verfahren ergibt. Es wurde ja beispielsweise schon darauf aufmerksam gemacht (siehe Kapitel 10, Abschnitt 10.4), dass der Vierfelder-Phi-Koeffizent – ein Zusammenhangsmaß für Nominaldaten bei dichotomen Variablen – identisch ist mit dem Korrelationskoeffzienten r von Bravais/Pearson für metrische Daten, wenn die Ausprägungen der beiden dichotomen Variablen – zulässigerweise – mit 0 und 1 codiert werden. Wir werden auf diesen Umstand der generellen Gültigkeit regressions- und korrelationsstatistischer Verfahren auch noch einmal im folgenden Kapitel zu sprechen kommen.
22
Weitere Verfahren
„Oh, seht, wie alles sich zum Guten wendet.“ J.W. von Goethe, Dichter, 1813
Was der Statistiker sonst noch alles kann 22.1 Der Kollege 22.2 Was fehlt? 22.3 Zusätzliche Testverfahren 22.4 Multivariate Verfahren
22.1
Der Kollege
Als Gott die Erde erschaffen hatte und alle Pflanzen und alle Tiere und auch das erste Menschenpaar, da schaute er sich sein Werk zufrieden an, sinnierte eine Weile und empfand dann, dass die Krone der Schöpfung eigentlich doch noch fehle. Nachdem er die eine oder die andere Idee geprüft hatte, fiel ihm ein, was als Krone der Schöpfung dieser seiner Welt noch hinzuzufügen sei – und er schuf den deutschen Professor. Dieser nun – frisch angekommen im Paradies und mit einem schönen Dienststübchen ausgestattet (dort ungefähr, wo sich heute die Deutsche Weinstraße durch liebliche Rebenhänge windet) – hatte als Erstes nichts anderes zu tun, als am Schöpfungswerk herumzukritisieren. Manche Tiere schienen ihm nicht sonderlich gelungen – die Giraffe zum Beispiel, die Regenwürmer und insbesondere die Fische (was sollen die denn in Noahs Arche bei der Sintflut – ist doch unlogisch, das Ganze!), manche Pflanze schien ihm nutzlos, wie die Sumpfdotterblume und der gemeine Knöterich. Am meisten aber hatte er an den ersten Menschen auszusetzen. Sie erschienen ihm hässlich im Vergleich zur eleganten Gestalt des Leoparden, und fliegen konnten sie auch nicht. Auch gingen sie keiner sinnvollen Tätigkeit nach, sondern lungerten nur faul herum. Fix erstellte der Professor eine Mängelliste und legte diese dem lieben Gott vor. Der aber ärgerte sich mächtig über den nörgeligen Professor und beschloss, ihn gebührend zu bestrafen. Er dachte sich die härteste Strafe aus, die einen deutschen Professor zur Räson bringen könnte – er schuf ihm einen Kollegen. Warum wir diese Geschichte hier erzählen? Weil wir auf die Kritik an diesem Buch aus dem Kreise der Kollegen warten, die uns zweifelsohne in nicht allzu ferner Zukunft erreichen wird. Wir sind ziemlich sicher, dass insbesondere die Auswahl der hier behandelten Verfahren nicht den Beifall aller Leser finden wird. Man wird uns fragen, warum diese Methode behandelt wurde und jene nicht, warum wir keine mathematischen Hintergrundbeweise vorgestellt haben, die doch für das Verständnis mancher Zusammenhänge unentbehrlich sind, warum wir nicht noch mehr Übungsaufgaben präsentiert haben usw. Was soll man gegen diese Kritik, die in vielen Fällen sicherlich berechtigt sein wird, einwenden? Am besten nichts! Natürlich sammeln wir aber alle Einwände, Vorschläge, Fehlerhinweise etc., um sie dann in späteren Überarbeitungen dieses Buches angemessen berücksichtigen zu können.
430
22.2
22.2
Was fehlt?
Was fehlt?
In den vorangegangenen Kapiteln haben wir eine Reihe wichtiger statistischer Verfahren und Methoden vorgestellt und diese, soweit das irgend möglich war, unter Nutzung des Programms Excel eingesetzt. Dabei waren die Bereiche der deskriptiven Statistik wie auch die der induktiven (schlussfolgernden) Statistik angesprochen. Es muss aber mit Nachdruck darauf aufmerksam gemacht werden, dass angesichts des beschränkten Umfangs dieses Buches natürlich nicht alles besprochen werden kann, was die Statistik an Verfahren anbietet. Weder sind alle Verfahren der deskriptiven Statistik besprochen (Hinweise zum harmonischen Mittel werden Sie vergeblich suchen), noch haben wir alle Testverfahren besprochen – oder haben Sie den Run-Test oder den Wilcoxon-Test entdeckt? Insbesondere ist aber der Bereich der multivariaten Verfahren, der immer bedeutsamer geworden ist, unterrepräsentiert. Das hat zum einen damit zu tun, dass in diesem Bereich doch schon beträchtliche mathematische Vorkenntnisse erwartet werden müssen, die wir nicht voraussetzen wollten; zum anderen muss angemerkt werden, dass Excel sich für diese speziellen Verfahren kaum eignet. Wir wollen es aber nicht versäumen, einige derjenigen statistischen Verfahren, die – ähnlich wie die besprochenen – in der Praxis nicht ganz unwichtig sind, zu nennen und ihre Wirkungsweise kurz zu skizzieren. Auf Details wird dabei aber verzichtet. Bei diesen Verfahren geht es in erster Linie um zusätzliche Testverfahren und um die gerade angesprochenen multivariaten Verfahren.
22.3
Zusätzliche Testverfahren
Die Testverfahren, die hier noch zusätzlich zu den ausführlicher besprochenen Signifikanztestverfahren genannt werden sollen, sind die beiden folgenden: Test des Medians McNemar-Test
22.3.1 Test des Medians So wie es Testverfahren für Hypothesen über das arithmetische Mittel einer unbekannten Grundgesamtheit gibt (wie hatten den Fall großer Zufallsstichproben und auch den kleiner Zufallsstichproben besprochen; siehe Kapitel 16, Abschnitt 16.3, und Kapitel 18, Abschnitt 18.5), so kann es auch zweckmäßig oder gewünscht sein, eine Hypothese zu überprüfen, die den Median (Zentralwert) betrachtet. Spätestens dann, wenn Sie mit ordinalskalierten statt mit metrischen Daten arbeiten, kann die zentrale Tendenz einer Verteilung ja nur mit dem Median und nicht mehr mit dem arithmetischen Mittel charakterisiert werden – also spätestens dann stellt sich die Frage nach einem Median-Test. Es gibt verschiedene Verfahren, von denen hier der so genannte Vorzeichentest betrachtet werden soll. Die Nullhypothese, die mit dem Vorzeichentest geprüft wird, besagt, dass der Median der Grundgesamtheit einen bestimmten Wert c hat. Um diese Hypothese im Lichte empirischer Befunde zu prüfen, wird eine Zufallsstichprobe gezogen, und jeder Stichprobenwert wird mit dem hypothetischen Median c verglichen. Wenn der Stichprobenwert größer als der Median ist, wird ein Pluszeichen notiert, ist er kleiner,
22
431
Weitere Verfahren
wird ein Minuszeichen notiert. Entspricht der Stichprobenwert genau dem Wert c, wird nichts notiert, da ein solcher Stichprobenwert zur Hypothesenentscheidung nichts beiträgt. Dadurch verringert sich allerdings n, also der Umfang der Zufallsstichprobe. Betrachtet wird nun die Zufallsvariable A Anzahl der Pluszeichen. Es ist leicht einsichtig, dass bei zutreffender Nullhypothese diese Variable A einer Binomialverteilung mit den Parametern n (Anzahl der Werte minus Anzahl der mit c übereinstimmenden Werte) und 0,5 folgt. Dieser -Wert besagt, dass es gleich wahrscheinlich ist, ob ein Plus- oder ein Minuszeichen notiert wird, wenn ein Stichprobenwert mit c verglichen wird und falls die Nullhypothese zutrifft. Falls die Zahl der Pluszeichen (Ausprägung der Variablen A) im Vergleich zu der der Minuszeichen zu groß oder zu klein ist, wird man die Nullhypothese verwerfen müssen. Entscheidend ist also wieder die Frage, wie groß die Wahrscheinlichkeit dafür ist, dass die Variable A einen Wert annimmt, wie er in der Stichprobe beobachtet wurde oder noch weiter von der Nullhypothese abweicht. Dies entspricht der Aufgabenstellung des Binomialtests, der schon in Kapitel 16, Abschnitt 16.5.2, besprochen wurde. Dazu ein Beispiel: Es werde die Nullhypothese formuliert, die Hälfte aller abhängig Beschäftigten hätte ein monatliches Nettoeinkommen unter 2900 Euro, die andere Hälfte mithin ein höheres Einkommen. Dies ist eine Hypothese über den Median (obgleich hier metrische Daten vorliegen, kann natürlich trotzdem auch der Median interessieren), denn dieser ist als derjenige Merkmalswert definiert, der die der Größe nach geordnete Reihe aller Merkmalswerte genau halbiert (siehe Kapitel 4, Abschnitt 4.5). Also: H 0 : c0
2900
Diese Nullhypothese soll mit einem Signifikanzniveau von 10% getestet werden. In einer Zufallsstichprobe vom Umfang n 10 werden die folgenden Einkommenswerte ermittelt (der Größe nach geordnet): 1800
1900
2300
2350
2500
2700
2900
2950
3100
3700
-
-
-
-
-
-
nv
+
+
+
Wir stellen fest, drei der Werte liegen über dem behaupteten Median, also A = 3; ein Wert trägt zur Entscheidung nichts bei (deshalb haben wir den Wert 2900 mit nv versehen), weshalb sich n auf 9 verringert. Die Zufallsvariable A ist binomialverteilt mit n Überschreitungswahrscheinlichkeit: PA
3
P0
P1
P2
9 und
0,5 . Somit ist die gesuchte
P3
Diese Wahrscheinlichkeit rechnen wir mit der Excel-Funktion BINOMVERT aus, indem wir in eine Tabellenzelle eingeben =BINOMVERT(3;9;0,5;1) Das erste Argument war die Zahl der Erfolge, d.h. die Zahl der im Sinne der Fragestellung günstigen Ereignisse, hier A = 3; das zweite Argument ist die Zahl der Versuche, hier n 9 , das dritte Argument die Erfolgswahrscheinlichkeit bei einem Versuch, 0,5 ; das vierte Argument ergibt bei Einsetzen des Wertes 1 die hier erforderliche kumulierte Wahrscheinlichkeit.
432
22.3
Zusätzliche Testverfahren
Es ergibt sich der Wert 0,254 (gerundet), d.h., die Nullhypothese kann nicht verworfen werden. Die Überschreitungswahrscheinlichkeit ist größer als das vorgegebene Signifikanzniveau, d.h., der Stichprobenbefund (Wert der Variablen A) liegt im Annahmebereich der Nullhypothese. Da der Median eine für ordinalskalierte Daten geeignete Maßzahl ist, bei diesem Vorzeichentest aber die Ranginformationen nur in der Betrachtung der Relationen „Stichprobenwert größer als c“ oder „Stichprobenwert kleiner als c“ berücksichtigt wird, obwohl doch auch die Ränge eine Information darüber bieten, ob ein Wert weiter weg von c liegt als ein anderer, hat man ein effizienteres Verfahren entwickelt. Dies ist der Wilcoxon-Vorzeichen-Rangtest, der hier aber nicht besprochen werden soll (siehe Tiede/Voß: Schließen mit Statistik – Verstehen, München/Wien 2000, Kapitel 11.2).
22.3.2 McNemar-Test Kehren wir noch einmal zurück zum Test der Anteilswerte aus zwei voneinander unabhängigen Stichproben (siehe Kapitel 16, Abschnitt 16.5.5, und Kapitel 18, Abschnitt 18.4). Die in diesem Zusammenhang vorgestellten Verfahren können nicht verwendet werden, wenn die beiden Zufallsstichproben nicht voneinander unabhängig sind – wir sprechen dann von verbundenen Stichproben. Solche verbundenen Stichproben liegen zum Beispiel dann vor, wenn eine bestimmte Personengruppe zu einem interessierenden Sachverhalt zweimal befragt wird. Stellen Sie sich beispielsweise vor, es werden 60 zufällig ausgewählte Besucher einer Wahlveranstaltung der SPD vor Beginn der Veranstaltung befragt, ob sie die Politik des Bundeskanzlers für gut halten. In der Wahlveranstaltung tritt der Bundeskanzler auf und erläutert unter Beifall oder unter Missfallensbekundungen seine Politik. Danach werden die 60 Personen noch einmal befragt. Es könnte sich der Datenbestand der Abbildung 22.1 ergeben.
Abb. 22.1: Ausgangsdaten für den McNemar-Test (E22.XLS, MC1)
Wir erhalten hier die beiden Stichprobenanteilswerte p1
30 60
05 und p 2
35 60
0,583 .
Es soll wieder die Frage beurteilt werden, ob ein statistisch signifikanter Unterschied der Anteilswerte vorliegt. Der Test von McNemar verlangt zusätzliche Informationen, die wir so notieren können, wie es Abbildung 22.2 geschehen ist.
22
433
Weitere Verfahren
Abb. 22.2: Neu geordnete Daten für den McNemar-Test (E22.XLS, MC2)
Die oben gefundenen Stichprobenanteilswerte lassen sich hier aus den Werten der Randverteilungen berechnen. In den Zellen der Tabelle in Abbildung 22.2 stehen die Anzahlen der Personen, die ihre Einstellung geändert haben (10 und 5) bzw. die ihre Einstellung nicht geändert haben (25 und 20). Hier finden sich also die so genannten Wechsler und die NichtWechsler. Zur weiteren Beschreibung des Verfahrens soll die Notation gelten, die in Abbildung 22.3 dargestellt ist.
Abb. 22.3: Notation für den McNemar-Test (E22.XLS, MC3)
b und c sind also die Anzahlen der Wechsler. Es gilt hier, dass p1
a
n
b
und p 2
a c . n
Typisch für den Test von McNemar ist nun, dass diese beiden Stichprobenanteilswerte über die Zahl der Wechsler b und c miteinander verglichen werden. Wenn nämlich die Nullhypothese zutrifft (gleiche Stichprobenanteilswerte, oder anders formuliert: Die Wahlveranstaltung hat im Prinzip nichts bewirkt), dann wäre zu erwarten, dass sich b und c nur zufällig voneinander unterscheiden. Dann wäre auch zu erwarten, dass jeweils so viele der Besucher in die eine oder andere Richtung wechseln, wie durch 0,5 b c gegeben ist. Eine geeignete Prüfvariable ist somit zum Beispiel die Zahl der Wechsler B (von der b eine Ausprägung ist). Diese Zufallsvariable folgt bei zutreffender Nullhypothese einer Binomialverteilung mit n b c und 0,5 . Entsprechendes gilt für die Zufallsvariable C. Damit landen wir wieder beim schon bekannten Binomialtest (siehe Kapitel 16, Abschnitt 16.5.2). Zur Testentscheidung gelangt man – ausgehend von dem obigen Zahlenbeispiel – über die Frage, wie wahrscheinlich es ist, dass bei n b c 15 Versuchen fünf Mal ( b 5 ) oder seltener (weiter von der Nullhypothese abweichender, die den Wert 7,5 erwarten ließe) das günstige Ereignis auftritt. Mit Excel erhalten wir über =BINOMVERT(5;15;0,5;1) den Wert 15,1% (gerundet). Bei einem üblichen Signifikanzniveau von 5% oder 10% könnte also die Nullhypothese bestätigt werden. Die Anteilswerte der beiden verbundenen Stichpro-
434
22.4
Multivariate Verfahren
ben weichen nur zufällig voneinander ab, die Wahlveranstaltung hat zu keinen signifikanten Wechslerbewegungen geführt.
22.4
Multivariate Verfahren
Diejenigen Verfahren, die in diesem Buch sicherlich zu kurz gekommen sind, sind die multivariaten Verfahren. Im Kapitel 21 haben wir unter den Stichwörtern multiple Regression und partielle Korrelation eine erste Idee davon vermittelt, was die zentralen Fragestellungen dieser Verfahren sind, bei denen immer mehr als zwei statistische Untersuchungsvariablen gemeinsam betrachtet werden. Letztlich ging es darum – und dies wird auch bei den beiden Verfahrensgruppen so sein, die gleich genannt werden –, durch Einbeziehung dritter, vierter, fünfter und weiterer Untersuchungsvariablen zu informativeren Ergebnissen zu gelangen, als dies mit den Methoden der univariaten oder der bivariaten Statistik möglich ist, also um die Gewinnung zusätzlicher Erkenntnisse. Es ist im Bereich der multivariaten Statistik ein sehr leistungsfähiges Instrumentarium, ein Bündel unterschiedlicher Verfahren entwickelt worden, wobei insbesondere die so genannte Clusteranalyse und die Faktorenanalyse ganz besonders wichtig geworden sind. Es muss allerdings schon an dieser Stelle darauf hingewiesen werden, dass diese Verfahren den Rechnereinsatz erfordern – per Hand kann hier nicht mehr sinnvoll gerechnet werden, weil die mathematischen Schwierigkeiten und insbesondere der erforderliche Zeitaufwand alle vernünftigen Grenzen sprengen. Es verwundert deshalb nicht, dass diesen Verfahren der Durchbruch erst gelang, als die entsprechenden Rechnerkapazitäten bereitgestellt werden konnten. Hinzu kommt, dass Softwareprogramme benötigt werden – wenn man die entsprechenden mathematischen Algorithmen nicht selbst programmieren möchte, was aber auch einige Jahrzehnte kosten dürfte – welche die interessierenden Verfahren auch anbieten. Excel gehört beispielsweise nicht dazu, was für uns Grund genug ist, diese Verfahren nur skizzenhaft zu präsentieren. Ein geeignetes Programm für cluster- oder faktorenanalytische statistische Auswertungen ist zum Beispiel das Programm SPSS, das seit geraumer Zeit auch als WindowsVersion zur Verfügung steht. Man könnte nun einwenden, dass Verfahren, die so aufwändig sind, dass sie per Hand oder mit der üblichen Standardsoftware nicht verwendet werden können, für die Praxis nicht allzu interessant sein dürften. Vielleicht ist das nur etwas für Mathematiker oder für den gelangweilten Statistiker, der sonst schon alles hat und kennt. Doch dem ist nicht so. Cluster- und Faktorenanalyse können bei umfangreichen Befragungsaktionen oder im Bereich der psychologischen, der medizinischen oder der biologischen Forschung zu Ergebnissen und Erkenntnissen führen, die mit den bisher besprochenen, eher traditionellen Verfahren nicht gewonnen werden können.
22.4.1 Faktorenanalytische Verfahren Wir wollen die Komplexität der Verfahren, die unter dem Stichwort Faktorenanalyse zusammengefasst werden, dadurch verringern, dass wir zunächst ein überschaubares Beispiel vorstellen: Stellen Sie sich eine Schulklasse vor, in der mit verschiedenen Leistungstests die Leistungen der Schüler in unterschiedlichen Fächern gemessen werden. Der Einfachheit halber verwen-
22
Weitere Verfahren
435
den wir die Schulzensuren in diesen Fächern als Maßzahlen der Schülerleistungen. Diese Variablen sind zwar nur ordinalskaliert und genau genommen verlangt die Faktorenanalyse metrische Daten, weil sie letztlich auf den bivariaten Korrelationskoeffizienten von Bravais/Pearson aufbaut. Wir hatten aber schon in Kapitel 21, Abschnitt 21.6, darauf hingewiesen, dass es Möglichkeiten gibt, die korrelationsstatistischen Verfahren auch bei nichtmetrischen Daten einzusetzen. Wenn wir der Einfachheit halber und hilfsweise unterstellen, dass die Abstände zwischen Schulzensuren gleich seien (was sicherlich ab und zu bezweifelt werden kann), dann brauchen wir das dort besprochene Konzept der Dummy-Variablen aber nicht aufzugreifen. Stellen Sie sich also einen Datenbestand vor, der ausschnittsweise so aussehen könnte, wie es Abbildung 22.4 zeigt.
Abb. 22.4: Ausgangsdaten für eine Faktorenanalyse (E22.CLS, FA1)
Nehmen Sie an, wir hätten n 100 Schüler und v 14 Fächer, also Variablen V1, V2 ... V14. Jeder Schüler könnte nun als ein Punkt in einem 14-dimensionalen Achsenkreuz dargestellt werden (können Sie sich ein 14-dimensionales Achsenkreuz vorstellen? Wir nicht!). Die Faktorenanalyse verfolgt nun zwei Aufgaben, die – wie sich gleich zeigen wird – eng miteinander verbunden sind: Zunächst ist es ihr Anliegen, die eventuell recht hohe Dimensionalität des Datenbestandes zu reduzieren. So wie es ja schon Aufgabe der Methoden der deskriptiven Statistik war, Datenreduktion zu erreichen (die Berechnung eines arithmetischen Mittels ist nichts anderes als die Reduzierung der Ausgangsdaten auf einen einzigen, besonders wichtigen und aussagekräftigen Kennwert), so geht es auch hier darum, zu einem leichter überschaubaren Bild zu gelangen. Die Faktorenanalyse bestimmt zu diesem Zweck zusätzliche, gewissermaßen künstliche Variablen, Variablen also, die im Zuge des empirischen Datengewinnungsprozesses nicht erhoben worden waren, aus der Daten aber herausgerechnet werden können. Wie hat man das zu verstehen? Man kann sich bei dem gewählten Beispiel vorstellen, dass es vielleicht drei oder vier zusätzliche, nicht direkt erhobene Variablen gibt, welche die konkret beobachteten Ausprägungen der 14 gemessenen Variablen hinreichend gut erklären können. Vielleicht könnten diese zusätzlichen Variablen die folgenden sein: Sprachbegabung mathematisch-naturwissenschaftliche Fähigkeiten häuslicher Fleiß Diese zusätzlichen Variablen werden als Faktoren bezeichnet, und wir könnten uns vorstellen, dass die genannten drei Faktoren, die man vielleicht mit F1, F2 und F3 bezeichnen könnte, die
436
22.4
Multivariate Verfahren
konkret beobachteten Ausprägungen der 14 erhobenen Variablen ganz gut (statistisch) erklären würden. Wenn dem so ist, dann könnten die 100 Schüler auch als Punkte in einem dreidimensionalen F1-F2-F3-Achsenkreuz dargestellt werden, das Sie sich sicherlich schon sehr viel leichter vorstellen können. Damit hätte man durch Reduzierung der Dimensionalität des Datenbestandes zugleich eine sehr wesentliche Datenreduktion erreicht – die Informationen werden leichter zugänglich und überschaubarer. Man kann sich das so vorstellen, dass man mit einer dreidimensionalen Mistgabel (eine Forke mit drei Zinken, die aber nicht parallel angeordnet sind, sondern rechtwinklig aufeinander treffen) in einem 14-dimensionalen Heuhaufen hineinsticht (ist das nicht ein schönes Bild?), in der Hoffnung, dass möglichst viel von dem Heuhaufen an der Forke hängen bleibt. Anders formuliert: Die Zahl der Zinken der Forke und ihre Richtung zueinander sowie auch die Stoßrichtung der Forke werden so bestimmt, dass möglichst viel vom Heuhaufen (ein Maximum an Informationen aus der ursprünglichen 14-dimensionalen Punktwolke) hängen bleibt bzw. erfasst wird. Zusätzlich zur Informations- und Dimensionsreduktion wäre aber auch ein zweites Ziel erreicht: Wir hätten durch das faktorenanalytische Verfahren, das uns die Zinken unserer Forke bestimmt, zusätzliche Variablen erkannt, die Faktoren, die sich quasi hinter den erhobenen Variablen versteckten. Insoweit zählt die Faktorenanalyse zu den hypothesengenerierenden Verfahren, weil ihr Ergebnis beispielsweise lautet: Die Leistungen der Schüler werden zu soundsoviel Prozent durch Sprachbegabung, mathematisch-naturwissenschaftliche Fähigkeiten und durch häuslichen Fleiß bestimmt. Somit erhält man die Grundlage und den Anlass für weitere (hypothesengeleitete) empirische Untersuchungen. Wie sieht nun die eigentliche Vorgehensweise aus? Zur Beantwortung dieser Frage müssen wir uns auf eine sehr grobe und wenig detailgenaue Skizzierung beschränken. Basis der Faktorenanalyse ist die Matrix der bivariaten Pearson’schen Korrelationskoeffizienten, also rij
i 1, 2, ..., v
j 1, 2, ..., v
wobei rij der Korrelationskoeffizient zwischen der Variablen i und der Variablen j ist. Bei v 14 Variablen gibt es – wie Sie kombinatorisch leicht bestimmen können – 91 verschiedene bivariate Korrelationskoeffizienten. Es sei: vik ( i 1, 2, ..., v ; k 1, 2, ..., n ; v ik
Ausprägung der Variablen Nr. i bei Schüler Nr. k
Der Algorithmus der Faktorenanalyse unterstellt nun, dass jede Merkmalsausprägung jeder Variablen abhängt von den Ausprägungen der künstlichen Variablen (Faktoren) beim jeweiligen Schüler. Zum Beispiel: Die Deutschzensur des Schülers Meier hängt ab von seiner Sprachbegabung, von seinen mathematisch-naturwissenschaftlichen Fähigkeiten und von seinem häuslichen Fleiß. Beachten Sie aber: Die Faktorenanalyse wird erst noch die Faktorwerte und auch die Anzahl der Faktoren bestimmen. Wir haben mit dieser Aussage zur Deutschnote des Schülers Meier dem Algorithmus gewissermaßen vorgegriffen. Zunächst kann eigentlich nur gesagt werden,
22
Weitere Verfahren
437
dass die Deutschnote des Schülers Meier abhängt von seiner Ausprägung des Faktors 1 und der des Faktors 2 und der des Faktors 3 und der des ... Ausgehend von dieser Überlegung lassen sich theoretische Werte v ik ' errechnen. Ein solcher theoretischer Wert wäre zum Beispiel die Deutschnote des Schülers Meier, die zu erwarten wäre, wenn der Zusammenhang mit Faktor 1 und mit Faktor 2 und mit Faktor 3 usw. tatsächlich zutrifft. Ausgehend von diesen theoretischen Werten können nun wiederum 91 bivariate Korrelationskoeffizienten berechnet werden, die mit rij ' bezeichnet werden können. Die Faktorenanalyse – und damit sind wir beim Kern des Algorithmus – versucht nun die Zahl der Faktoren und die Faktorwerte für die einzelnen Merkmalsträger so zu bestimmen, dass die Matrix der empirischen Korrelationskoeffizienten möglichst gut mit der Matrix der so bestimmten theoretischen Korrelationskoeffizienten übereinstimmt. Regel:
rik soll also möglichst gut mit rik ' übereinstimmen.
Dabei werden so viele Faktoren bestimmt, bis ein Mindestprozentsatz der gesamten Streuung der interessierenden Ausgangsvariablen statistisch erklärt wird – zum Beispiel 70%. Wenn ein weiterer Faktor keine wesentliche Steigerung dieses erklärten Varianzanteils mehr erbringt, wird er nicht berücksichtigt. Auf diese Weise kann es also geschehen, dass der faktorenanalytische Ansatz aus dem Ausgangsdatenbestand drei Faktoren extrahiert. Leider gibt er uns keine Informationen darüber, wie diese Faktoren heißen (unsere Idee, dass die geeigneten Etiketten vielleicht Sprachbegabung, mathematisch-naturwissenschaftliche Fähigkeiten und häuslicher Fleiß sein könnten, war ja nur ein Vorgriff). Wir können aber im Nachhinein feststellen, mit welchen der 14 Ausgangsvariablen die einzelnen Faktoren hoch korrelieren und mit welchen nicht. Anzumerken ist in diesem Zusammenhang, dass die Algorithmen so angelegt sind, dass die Faktoren nicht miteinander korrelieren. Bei drei Faktoren und 14 Ausgangsvariablen gibt es 3 14 42 Korrelationskoeffizienten zwischen Variablen und Faktoren. In ihrer Gesamtheit werden sie als das so genannte Ladungsmuster bezeichnet. Wenn zum Beispiel der erste Faktor hoch und positiv korreliert mit den Variablen Englischzensur und Französischzensur (man sagt, der Faktor lädt hoch in Englisch und Französisch), zugleich aber nur niedrig oder gar nicht mit Mathematik und Physik (geringe Ladungen), dann liegt die Idee nahe, diesen Faktor mit Sprachbegabung zu etikettieren. Die Softwareprogramme, die sich für die Faktorenanalyse anbieten, geben das Ladungsmuster aus, so dass hier die interpretative Arbeit des empirischen Forschers ansetzen kann. Ohne hier auf weitere Details dieses Verfahrens einzugehen, muss angemerkt werden, dass es gegen diese Vorgehensweise einige gravierende Einwände gibt. Zunächst fällt natürlich auf, dass bei der Interpretation der Faktoren ein gewisses Maß an Willkür ins Spiel kommt. Nicht immer sind die konkreten Anwendungsbeispiele so überschaubar, wie unser Schüler-Zensurenbeispiel – und manchmal ist dann die Interpretation der Faktoren fast beliebig. Hinzu kommt, dass die verschiedenen faktorenanalytischen Ansätze mit unterschiedlichen Algorithmen arbeiten und somit – ausgehend vom gleichen Datenbestand – durchaus unterschiedliche Ladungsmuster und damit unterschiedliche Interpretations-
438
22.4
Multivariate Verfahren
möglichkeiten geboten werden. Dies ist sicherlich nicht ganz befriedigend. Immer dann, wenn – wie hier bei der Faktorenanalyse – aus Rechenergebnissen inhaltliche Interpretationen gewonnen werden sollen, ist Vorsicht geboten. Erinnern Sie sich daran, wie vorsichtig man vorgehen muss, wenn man die hohe statistische Korrelation zwischen Störchen und Geburten interpretieren will. Zudem ist nicht unproblematisch, dass bei der Faktorenanalyse von linearen Beziehungen zwischen den Untersuchungsvariablen ausgegangen werden muss. Sie basiert ja auf den Pearson’schen Korrelationskoeffizienten r, und diese unterstellen lineare Zusammenhänge zwischen je zwei Variablen. Die Linearitätshypothese taucht auch noch in einem zweiten Zusammenhang bei der Faktorenanalyse auf: Es wird nämlich in den Berechnungsalgorithmen unterstellt, dass die Faktoren (zum Beispiel Sprachbegabung, häuslicher Fleiß etc.) linear zur Erklärung der Ausprägungen der Untersuchungsvariablen zusammenwirken. Alles in allem gibt es einige Argumente, die zur Vorsicht beim Einsatz faktorenanalytischer Verfahren raten. Gleichwohl haben wir ein leistungsfähiges Instrument zur Datenreduktion und zur Datenerklärung in der Hand. Excel kann nur Vorarbeiten auf dem Weg zu einer Faktorenanalyse leisten – zum Beispiel die Berechnung der bivariaten Korrelationskoeffizienten. Für die Faktorenanalyse selbst ist zweckmäßigerweise auf ein Statistikprogramm zurückzugreifen, zum Beispiel auf das Programm SPSS.
22.4.2 Clusteranalyse Zentrales Ziel clusteranalytischer Verfahren ist die Beantwortung der Frage, ob sich die Merkmalsträger eines Datenbestandes in systematischer Weise gruppieren lassen. Diese Frage entspricht der theoretischen Überlegung, dass es typisch voneinander unterscheidbare Merkmalsträger gibt. Die vermutete klassifizierende Struktur aufzudecken (oder gegebenenfalls festzustellen, dass eine entsprechende Klassifikation nicht möglich ist), ist Aufgabe der Clusteranalyse. Aufgrund der eventuellen Klassifikationen, die mit diesem Verfahren gefunden werden können, ist es möglich, zu interpretierenden Aussagen über die Gründe zu kommen, die für die gefundenen Gruppenbildung maßgeblich sein könnten. Die Verfahren der Clusteranalyse können also als Methoden interpretiert werden, die für Zwecke der Gruppenbildung oder Klassifizierung von Objekten geeignet sind. Wie bei den faktorenanalytischen Verfahren auch, werden bei Clusteranalysen die Interdependenzen von mehr als zwei Variablen zugleich betrachtet. Während aber das Datenreduktionsziel der Faktorenanalyse sich eigentlich auf die erhobenen Variablen bezieht (korrelierende Variablen werden auf gemeinsam wirkende Faktoren zurückgeführt), verfolgen clusteranalytische Verfahren das Ziel, die Träger der Daten, d.h. die statistischen Einheiten oder Objekte, durch eine angemessene Zusammenfassung zu reduzieren. Die Clusteranalyse hat also die Bildung von Gruppen zum Ziel, die jeweils aus mehreren Merkmalsträgern (zum Beispiel befragte Personen) bestehen und die unter einem oder mehreren Gesichtspunkten untereinander ähnlicher sind, als es Ähnlichkeiten zu den Merkmalsträgern in anderen Gruppen gibt. Der Grundgedanke ist der folgende: Bei n Merkmalsträgern und v Untersuchungsvariablen lässt sich der empirische Datenbestand in grafischer Veranschaulichung als Punktwolke, be-
22
Weitere Verfahren
439
stehend aus n Punkten, in einem v-dimensionalen Achsenkreuz vorstellen. Weiterhin ist vorstellbar, dass sich Untermengen dieser Punkte in bestimmten Bereichen des v-dimensionalen Achsenkreuzes zusammenballen. Gibt es mehrere derartiger Ballungen (Klumpen = Cluster), so taucht die Frage auf, welche Größen für die relative Homogenität innerhalb der Klumpen bzw. für die Heterogenität zwischen den Klumpen maßgeblich sind. Die Clusteranalyse bestimmt unter Nutzung beispielsweise der Euklid’schen Abstände zwischen den einzelnen Punkten ein geeignetes Klumpungsschema (Klassifikationsschema), so dass dann – ausgehend von der Beobachtung, welche Merkmalsträger welchen Klumpen angehören – die inhaltliche Interpretation dieses klassifikatorischen Prozesses ansetzen kann. Jede Clusteranalyse besteht aus zwei Schritten: 1.
Die Messung der Ähnlichkeit oder Unähnlichkeit der Merkmalsträger hinsichtlich ihrer Merkmale setzt zunächst die Wahl eines Ähnlichkeitsmaßes (Proximitätsmaß) voraus. In Abhängigkeit der Messniveaus der Daten kommen verschiedenartige Maße in Betracht, beispielsweise die sog. L-Normen mit dem wichtigen Unterfall der Euklid’schen Distanz. Das ausgewählte Proximitätsmaß wird anschließend gewöhnlich zur Quantifizierung der Ähnlichkeit bzw. Unähnlichkeit der Merkmalsträger untereinander verwendet.
2.
Der zweite wichtige Schritt jeder Clusteranalyse betrifft die Wahl des Algorithmus zur Gruppenbildung (Klassifizierungsalgorithmus). Dafür stellt zum Beispiel das Programm SPSS geeignete Verfahren zur Verfügung.
In der Standardliteratur wird für den Einsatz clusteranalytischer Verfahren üblicherweise verlangt, dass die in den Algorithmus eingehenden Variablen voneinander statistisch unabhängig sind, also nicht miteinander korrelieren. Dies kann für die statistischen Ausgangsdaten in aller Regel nicht unterstellt werden – wohl aber für die in einem faktorenanalytischen Verfahren gefundenen Faktoren (siehe oben). Häufig wird deshalb so verfahren, dass den clusteranalytischen Verfahren eine Faktorenanalyse vorgeschaltet wird, und bei der Clusteranalyse als Ausgangsdatenbestand dann die Faktorwerte und nicht die Variablenausprägungen selbst verwendet werden. Beiden Verfahren, der Faktoren- und der Clusteranalyse, ist gemeinsam, dass auf der Grundlage der Rechenergebnisse inhaltliche Interpretationen möglich werden: Auf der Grundlage der Korrelationen der ursprünglichen Variablen mit den Faktoren, welche die Faktorenanalyse extrahiert hat, wird eine Interpretation des gesamten Beziehungsgefüges zwischen den interessierenden Variablen durch die Beantwortung der folgenden Frage möglich: Warum korrelieren die einzelnen Faktoren mit bestimmten Variablen und mit anderen nicht? Entsprechend kann man aufgrund der Beobachtung, welche Merkmalsträger (mit welchen Merkmalswertkombinationen) die Cluster konstituieren, welche die Clusteranalyse benannt hat, zu interpretierenden Ergebnissen durch Beantwortung der folgenden Frage gelangen: Warum bilden bestimmte Merkmalsträger (mit ihren spezifischen Merkmalswertkombinationen) ein Cluster und andere ein anderes Cluster? Stellt man beispielsweise fest, dass in Bezug auf schulische Leistungen fast alle untersuchten Schüler, die aus Akademiker-Elternhäusern stammen, sich in einem Cluster versammeln, hingegen fast alle Nichtakademiker-Kinder in einem anderen Cluster sind, so kann vermutet werden, dass der Status des Elternhauses einen signifikanten Einfluss auf die Leistungen der Schulkinder (präziser: auf die Bewertungen ihrer Leistungen) ausübt.
440
22.4
Multivariate Verfahren
Auch beim Einsatz dieser clusteranalytischen Verfahren bietet Excel bisher keine Hilfestellungen. Hier ist wieder zum Beispiel der Einsatz des Statistikprogramms SPSS angezeigt. Es gibt nun noch eine Großzahl weiterer statistischer Verfahren. Doch würde ihre Vorstellung etwa nochmals den Umfang des vorliegenden Buches beanspruchen. Deshalb haben wir uns das für einen eventuellen zweiten Band aufgespart.
441
Excel-Funktionen In der folgenden Übersicht werden die wichtigsten statistischen Excel-Funktionen in alphabetischer Reihenfolge genannt. Zudem wird angegeben, zu welchem Zweck sie dienen, welche Argumente erforderlich sind und in welchem Kapitel des Buches diese Funktion zum ersten Mal genutzt wird. Zur Verwendung einer Funktion ist generell einzugeben (die Großbuchstaben im Funktionsnamen werden hier nur zur Verdeutlichung genutzt; bei der Eingabe können Sie klein- oder großschreiben) =FUNKTIONSNAME(Argument1;Argument2;...) Ersatzweise kann man auch den Excel-Funktions-Assistenten verwenden, der über die Menüposition EINFÜGEN/FUNKTION… bereitgestellt wird. Die angesprochenen Funktionen finden sich in der Kategorie STATISTIK, die mit (*) gekennzeichneten in der Kategorie MATH.& TRIGONOM. Name: Zweck: Argument(e): Kapitel: Beispiel: Name: Zweck: Argument(e):
Kapitel: Beispiel: Name: Zweck: Argument(e): Kapitel: Beispiel:
ACHSENABSCHNITT Ordinatenabschnitt einer linearen Regressionsfunktion Y_WERTE: Zellbereich der Werte der abhängigen Variablen X_WERTE: ... der unabhängigen Variablen 9.5 =ACHSENABSCHNITT(B1:B10;A1:A10) BINOMVERT (Kumulierte) Wahrscheinlichkeit der Binomialverteilung ZAHL_ERFOLGE: Anzahl der günstigen Ereignisse VERSUCHE: Anzahl der Versuche ERFOLGSWAHRSCH: Erfolgswahrscheinlichkeit des günstigen Ereignisses bei einem Versuch KUMULIERT: 0 = Wahrscheinlichkeit 1 = kumulierte Wahrscheinlichkeit 14.3 =BINOMVERT(2;5;0,5;0) CHITEST Überschreitungswahrscheinlichkeit beim Chi-Quadrat-Unabhängigkeitstest BEOB_MEßWERTE: Zellbereich der beobachteten Häufigkeiten ERWARTET_WERTE: ... der bei Unabhängigkeit zu erwartenden Werte 20.2 =CHITEST(A1:B5;C1:D5)
442 Name: Zweck: Argument(e):
Excel-Funktionen
Kapitel: Beispiel:
CHIVERT 1 – Wert der Verteilungsfunktion der Chi-Quadrat-Verteilung Chi-Quadrat-Wert X: FREIHEITSGRADE: Freiheitsgrade der Chi-Quadrat-Verteilung 19.3 =CHIVERT(7,32;5)
Name: Zweck: Argument(e): Kapitel: Beispiel:
FAKULTÄT (*) Fakultät von n (Anzahl von Permutationen von n Elementen) ZAHL: Zahl, für welche die Fakultät berechnet wird 12.3.1 =FAKULTÄT(5)
NAME: Zweck: Argument(e): Kapitel: Beispiel:
FVERT 1 – Wert der Verteilungsfunktion der F-Verteilung Zu prüfender Wert der F-Verteilung X: FREIHEITSGRADE1: Erste Freiheitsgrade der F-Verteilung FREIHEITSGRADE2: Zweite Freiheitsgrade der F-Verteilung 18.7 =FVERT(4,78;3,4)
Name: Zweck: Argument(e): Kapitel: Beispiel:
GEOMITTEL Geometrisches Mittel ZAHL1: Zellbereich der zu mittelnden Werte 4.6 =GEOMITTEL(A1:A10)
Name: Zweck: Argument(e):
HÄUFIGKEIT Erzeugung einer Häufigkeitsverteilung DATEN: Zellbereich der Ausgangsdaten KLASSEN: Zellbereich der Klassenobergrenzen 3.3 =HÄUFIGKEIT(A1:A100;B1:B10)
Kapitel: Beispiel: Anmerkung:
Es handelt sich um eine Matrixfunktion, bei welcher der Zellbereich, der die Ergebnisse aufnehmen soll, zunächst zu markieren ist. Nach Anwendung der Funktion ist in der Editierzeile hinter die Funktion zu klicken, um dann die drei Tasten Strg, Shift und Return gemeinsam zu drücken.
443
Excel-Funktionen
Name: Zweck: Argument(e):
Kapitel: 14.7 Beispiel: Name: Zweck: Argument(e): Kapitel: Beispiel: Name: Zweck: Argument(e): Kapitel: Beispiel: Name: Zweck: Argument(e):
HYPGEOMVERT Wahrscheinlichkeit der hypergeometrischen Verteilung ERFOLGE_S: Anzahl der Erfolge in der Stichprobe UMFANG_S: Umfang der Stichprobe ERFOLGE_G: Zahl der günstigen Elemente in der Gesamtheit UMFANG_G: Umfang der Gesamtheit =HYPGEOMVERT(2;5;25;50) KOMBINATIONEN (*) Anzahl der Kombinationen von k aus n Elementen ohne Wiederholung N: Anzahl der Elemente K: Anzahl der ausgewählten Elemente 12.3.2 =KOMBINATIONEN(10;3) KONFIDENZ Konfidenzintervall für den Erwartungswert einer Zufallsvariablen ALPHA: Angabe für das Vertrauensniveau (1-Alpha) STANDABWN: Standardabweichung der zuständigen Verteilung UMFANG_S: Umfang der Zufallsstichprobe 17.4 =KONFIDENZ(0,1;1,2;100)
Kapitel: Beispiel:
KORREL Korrelationskoeffizient von Bravais/Pearson MATRIX1: Zellbereich der Werte der einen Variablen MATRIX2: Zellbereich der Werte der anderen Variablen 10.2 =KORREL(A1:A10;B1:B10)
NAME: Zweck: Argument(e): Kapitel: Beispiel:
MAX Größter Wert ZAHL1: Zellbereich der Zahlen, deren größte gesucht ist 5.2 =MAX(A1:A100)
Name: Zweck: Argument(e): Kapitel: Beispiel:
MEDIAN Zentralwert (Median) als Maß der zentralen Tendenz ZAHL1: Zellbereich der Zahlen, deren Median gesucht ist 4.5 =MEDIAN(A1:A100)
444
Excel-Funktionen
Name: Zweck: Argument(e): Kapitel: Beispiel:
MIN Kleinster Wert ZAHL1: Zellbereich der Zahlen, deren kleinste gesucht ist 5.2 =MIN(A1:A100)
Name: Zweck: Argument(e): Kapitel: Beispiel:
MITTELABW Mittlere lineare Abweichung als Streuungsmaß ZAHL1: Zellbereich der Zahlen, deren Streuung gefragt ist 5.3 =MITTELABW(A1:A100)
Name: Zweck: Argument(e): Kapitel: Beispiel:
MITTELWERT Arithmetisches Mittel als Maß der zentralen Tendenz ZAHL1: Zellbereich der Zahlen, die gemittelt werden 4.3 =MITTELWERT(A1:A100)
Name: Zweck: Argument(e): Kapitel: Beispiel:
MODALWERT Häufigster Wert (Modus) als Maß der zentralen Tendenz ZAHL1: Zellbereich der Zahlen, deren Modus gefragt ist 4.4 =MODALWERT(A1:A100)
Name: Zweck:
NORMVERT Wahrscheinlichkeitsdichte oder Wert der Verteilungsfunktion der Normalverteilung Wert, dessen Wahrscheinlichkeit interessiert X: MITTTELWERT: Arithmetisches Mittel der Normalverteilung STANDARDABWN: Standardabweichung der Normalverteilung KUMULIERT: 0 = Wahrscheinlichkeitsdichte 1 = Wert der Verteilungsfunktion 14.4 =NORMVERT(8;7;1,2;1)
Argument(e):
Kapitel: Beispiel: Name: Zweck: Argument(e):
Kapitel: Beispiel:
POISSON (Kumulierte) Wahrscheinlichkeit der Poisson-Verteilung Wert, dessen Wahrscheinlichkeit interessiert X: MITTELWERT: Mittelwert der Poisson-Verteilung KUMULIERT: 0 = Wahrscheinlichkeit 1 = Kumulierte Wahrscheinlichkeit 14.7 =POISSON(2;1;0)
445
Excel-Funktionen
Name: Zweck: Argument(e): Kapitel: Beispiel:
RANG Rangposition eines Wertes ZAHL: Wert, dessen Rangplatz interessiert BEZUG: Zellbereich aller Werte 10.3 =RANG(A1:A1:A100)
Name: Zweck: Argument(e): Kapitel: Beispiel:
STABW Standardabweichung aus Werten einer Zufallsstichprobe ZAHL1: Zellbereich der Zahlen, deren Streuung gefragt ist 5.4 =STABW(A1:A20)
Name: Zweck: Argument(e): Kapitel: Beispiel:
STABWN Standardabweichung aus Werten einer Grundgesamtheit ZAHL1: Zellbereich der Zahlen, deren Streuung gefragt ist 5.4 =STABWN(A1:A100)
Name: Zweck: Argument(e): Kapitel: Beispiel:
STEIGUNG Steigung einer linearen Regressionsfunktion Y_WERTE: Zellbereich der Werte der abhängigen Variablen X_WERTE: ... der unabhängigen Variablen 9.5 =STEIGUNG(B1:B10;A1:A10)
Name: Zweck: Argument(e): Kapitel: Beispiel:
SUMME (*) Summe von Zahlenwerten ZAHL1: Zellbereich der Zahlen, deren Summe gefragt ist 2.6 =SUMME(A1:A100)
Name: Zweck: Argument(e):
SUMMENPRODUKT (*) Berechnung einer Summe von Produkten MATRIX1: Zellbereich für den ersten Faktor der Produkte MATRIX2: Zellbereich für den zweiten Faktor der Produkte 4.3 =SUMMENPRODUKT(A1:A20;B1:B20)
Kapitel: Beispiel:
446 Name: Zweck: Argument(e): Kapitel: Beispiel:
Excel-Funktionen
TREND Trendwerte einer linearen Trendfunktion Y_WERTE: Zellbereich der Ausgangsdaten X_WERTE: Zellbereich der Zeitwerte NEUE_X_WERTE: Zellbereich der Prognose-Zeitwerte 11.4 =TREND(B1:B10;A1:A15)
Anmerkung:
Es handelt sich um eine Matrixfunktion, bei welcher der Zellbereich, der die Ergebnisse aufnehmen soll, zunächst zu markieren ist. Nach Anwendung der Funktion ist in der Editierzeile hinter die Funktion zu klicken, um dann die drei Tasten Strg, Shift und Return gemeinsam zu drücken.
Name: Zweck: Argument(e): Kapitel: Beispiel:
VARIANZ Varianz aus Werten einer Zufallsstichprobe ZAHL1: Zellbereich der Zahlen, deren Varianz gefragt ist 5.4 =VARIANZ(A1:A100)
Name: Zweck: Argument(e): Kapitel: Beispiel:
VARIANZEN Varianz aus Werten einer Grundgesamtheit ZAHL1: Zellbereich der Zahlen, deren Varianz gefragt ist 5.4 =VARIANZEN(A1:A100)
Name: Zweck: Argument(e): Kapitel: Beispiel:
WURZEL (*) Quadratwurzel aus einer Zahl ZAHL: Zahl (oder Zelle) 10.2 =WURZEL(A1)
Name: Zweck: Argument(e): Kapitel: Beispiel:
ZUFALLSZAHL (*) Zufallszahl zwischen 0 bis unter 1 keine 15.4 =ZUFALLSZAHL()
Anmerkung:
Die Klammern sind hinzuzufügen.
447
Glossar In diesem Glossar werden die wichtigsten statistischen Fachausdrücke kurz erläutert, um einen zusammenfassenden Überblick zu ermöglichen. Bei diesen sehr knappen Darlegungen wird zugunsten der Übersichtlichkeit auf Präzisierungen, mathematische Hintergründe und auf Details verzichtet werden. Deshalb wird jeweils angemerkt, in welchem der Kapitel die angesprochenen Sachverhalte vertiefend behandelt werden. Bei der Verwendung des Glossars können Sie bei denjenigen Begriffen, die kursiv geschrieben sind, weitere Informationen finden.
-Fehler (Kapitel 16.4) Irrtümliche Ablehnung einer an sich zutreffenden Nullhypothese bei der Testentscheidung (Signifikanztest, Hypothesentest), auch „Fehler vom Typ I“ genannt. Ausgehend von den Befunden einer Zufallsstichprobe, entspricht die Wahrscheinlichkeit, diesen Entscheidungsfehler zu begehen, der Höhe des beim Hypothesentest vorgegebenen Signifikanzniveaus. -Fehler (Kapitel 16.4) Irrtümliche Beibehaltung einer an sich nicht zutreffenden Nullhypothese bei der Testentscheidung, auch „Fehler vom Typ II“ genannt. Ausgehend von den Befunden einer Zufallsstichprobe, hängt die Wahrscheinlichkeit, diesen Entscheidungsfehler zu begehen, ab vom Signifikanzniveau, vom Umfang der vorliegenden Zufallsstichprobe, von den Streuungsverhältnissen und vom konkreten Wert der Alternativhypothese (siehe auch: Signifikanztest).
Alternativhypothese (Kapitel 16.4) Beim Hypothesentest (Signifikanztest) wird der zu prüfenden Nullhypothese eine Alternativhypothese gegenübergestellt. Annahmebereich (Kapitel 16.3) Beim Hypothesentest (Signifikanztest) wird unter der zuständigen Stichprobenverteilung bei vorgegebenem Signifikanzniveau der Annahmebereich definiert. Er gibt an, welche Werte der Prüfvariablen (zum Beispiel eines Parameters einer Zufallsstichprobe) zur Annahme (Bestätigung) der Nullhypothese führen.
448
Glossar
Anpassungstest (Kapitel 19.2, 19.3) Die zu prüfende Nullhypothese bezieht sich auf die Verteilung eines Merkmals (oder mehrerer Merkmale) in der Grundgesamtheit. Es wird geprüft, ob die sich in einer Zufallsstichprobe ergebende Verteilung mit hinreichender Güte an eine theoretische Verteilung (z.B. die von der Nullhypothese behauptete Verteilung) anpassen lässt (siehe auch: Signifikanztest). Arithmetisches Mittel (Kapitel 4.3) Das arithmetische Mittel ist das wichtigste Maß der zentralen Tendenz. Es ist geeignet für metrische Daten (metrische Skala) und definiert als die Summe aller Merkmalswerte geteilt durch ihre Anzahl.
Bernoulli-Experiment (Kapitel 14.3) Ein Bernoulli-Experiment ist ein Zufallsexperiment, das aus mehreren Versuchen (Zügen) besteht. Bei jedem Versuch gibt es zwei Ergebnismöglichkeiten mit konstanten Eintrittswahrscheinlichkeiten. Die Versuche sind voneinander unabhängig (siehe auch: Binomialverteilung). Beurteilende Statistik (Kapitel 1.5, 15 bis 20) Die beurteilende Statistik stellt diejenigen statistischen Methoden bereit, die geeignet sind, auf Grundlage der Wahrscheinlichkeitsrechnung Schlüsse von Zufallsstichprobenbefunden auf die Grundgesamtheit zu ziehen, aus der die Zufallstichprobe(n) entnommen wurde(n) (siehe auch: Hypothesentest, Signifikanztest, Schätzen). Binomialtest (Kapitel 18.3) Es handelt sich um einen Signifikanztest (Hypothesentest) für den Anteilswert aus einer kleinen Zufallsstichprobe (bzw. um einen Anpassungstest für eine dichotome Variable). Die in diesem Fall zuständige Stichprobenverteilung ist die Binomialverteilung. Binomialverteilung (Kapitel 14.3) Die Binomialverteilung beantwortet folgende Frage: Wie groß ist die Wahrscheinlichkeit, dass bei n voneinander unabhängigen Versuchen x-mal das im Sinn der Fragestellung günstige Ereignis eintritt, wenn dessen Eintrittswahrscheinlichkeit bei einem Versuch gegeben und für alle Versuche konstant ist (siehe Bernoulli-Experiment). Bivariate Statistik (Kapitel 9.2, 9, 10) Die bivariate Statistik stellt Methoden bereit, die zur Analyse der Zusammenhänge zwischen zwei Variablen geeignet sind. Wichtig sind die Regressionsrechnung (Art des Zusammenhangs) und die Korrelationsrechnung (Stärke des Zusammenhangs).
Glossar
449
Chi-Quadrat-Anpassungstest (Kapitel 19.3) Der Chi-Quadrat-Anpassungstest überprüft bei nominalskalierten Daten (siehe Nominalskala) die Nullhypothese, dass eine gegebene empirische Verteilung mit hinreichender Güte einer theoretischen Verteilung entspricht (siehe auch: Anpassungstest, Signifikanztest). Chi-Quadrat-Homogenitätstest (Kapitel 19.4) Der Chi-Quadrat-Homogenitätstest überprüft bei nominalskalierten Daten (siehe Nominalskala) die Nullhypothese, dass mehrere Stichproben aus der gleichen Grundgesamtheit stammen (siehe auch Signifikanztest). Chi-Quadrat-Unabhängigkeitstest (Kapitel 20.2) Der Chi-Quadrat-Unabhängigkeitstest überprüft bei nominalskalierten Daten (siehe Nominalskala) die Nullhypothese, dass zwei Variablen, für die Wertepaare in einer Zufallsstichprobe bereitgestellt wurden, voneinander unabhängig sind (siehe auch Signifikanztest). Chi-Quadrat-Verteilung (Kapitel 14.9) Eine Zufallsvariable, die als Summe voneinander unabhängiger quadrierter Standardnormalvariablen (sehe Standardnormalverteilung) definiert ist, folgt einer Chi-Quadrat-Verteilung. Diese Verteilung wird verwendet u.a. beim Chi-Quadrat-Anpassungstest, Chi-Quadrat-Homogenitätstest, Chi-Quadrat-Unabhängigkeitstest. Cluster-Analyse (Kapitel 22.4.2) Bei der Cluster-Analyse werden Merkmalsträger – unter Nutzung der Abstände zwischen ihnen – zu Klumpen (Clustern) zusammengefasst, um so auf dem Wege der inhaltlichen Interpretation der Cluster-Befunde eine Information darüber zu gewinnen, welche Größen für die Clusterbildung verantwortlich sein könnten (siehe auch: Multivariate Statistik).
Datenreduktion (Kapitel 4.2) Zum Beispiel wird durch die Berechnung charakterisierender Maßzahlen ein u.U. sehr umfangreicher statistischer Datenbestand auf seine wesentlichen Eigenschaften verdichtet. Deskriptive Statistik (Kapitel 1.5, 1, 3-11) Die Methoden der deskriptiven Statistik dienen dazu, Datenbestände zu präsentieren und zusammenfassend zu beschreiben (siehe auch: Datenreduktion). Determinationskoeffizient (Kapitel 10.2.3) Der Determinationskoeffizient ist das Quadrat des Korrelationskoeffzienten von Bravais/Pearson für metrische Daten (siehe metrische Skala). Er bemisst die Stärke des Zusammenhangs zwischen zwei metrischen Variablen und gibt zugleich an, wie hoch der Anteil der
450
Glossar
Varianz der abhängigen Variablen ist, der durch die Unabhängige statistisch erklärt (determiniert) wird (siehe auch: Zusammenhangsmaß). Dichotome Variable (Kapitel 10.4) Eine Variable, die nur zwei Ausprägungen (Merkmalswerte) aufweist, wird dichotome Variable genannt. Dichtefunktion (Kapitel 13.8) Die Dichtefunktion ist die Wahrscheinlichkeitsverteilung einer stetigen Zufallsvariablen. Diskrete Variable (Kapitel 1.6.1) Eine diskrete Variable kann nur eine abzählbare Anzahl streng voneinander getrennter Werte als Ausprägungen (Merkmalswerte) annehmen. Dummy-Variable (Kapitel 10.5) Eine Dummy-Variable ist eine künstlich dichotomisierte Variable, deren Merkmalswerte üblicherweise mit 0 und 1 codiert werden (siehe auch: Dichotome Variable).
Effizienz (Kapitel 17.3.3) Die Effizienz ist ein Gütekriterium für Schätzungen (siehe auch: Schätzen). Effizienz liegt bei einer Schätzfunktion dann vor, wenn diese eine geringere Streuung aufweist als alternative Schätzfunktionen. Einfache Zufallsstichprobe (Kapitel 15.4) Eine einfache Zufallsstichprobe liegt dann vor, wenn jedes Element der Grundgesamtheit die gleiche und von null verschiedene Chance hat, in die Stichprobe aufgenommen zu werden. Entscheidungsfehler (Kapitel 16.4) Ein Entscheidungsfehler liegt dann vor, wenn bei einem statistischen Signifikanztest die zu testende Nullhypothese irrtümlich verworfen ( -Fehler) oder wenn sie zu Unrecht beibehalten (bestätigt) wird ( -Fehler). Erwartungstreue (Kapitel 17.3.3) Die Erwartungstreue ist ein Gütekriterium für Schätzungen (siehe auch: Schätzen). Erwartungstreue liegt bei einer Schätzfunktion dann vor, wenn deren Erwartungswert dem wahren, zu schätzenden Wert entspricht.
Glossar
451
Erwartungswert (Kapitel 13.9) Der Erwartungswert einer Zufallsvariablen ist das arithmetische Mittel ihrer Wahrscheinlichkeitsverteilung. Man spricht auch von Erwartungswerten, wenn beobachteten Häufigkeiten diejenigen gegenübergestellt werden, die bei Gültigkeit der Nullhypothese zu erwarten sind (siehe auch Chi-Quadrat-Testverfahren).
Faktorenanalyse (Kapitel 22.4.1) Bei der Faktorenanalyse erfolgt eine Dimensionsreduktion des Datenbestandes durch Extraktion von Faktoren (künstlichen Variablen), die in der Lage sind, die Streuung des Ausgangsdatenbestandes maximal aufzuklären (siehe auch: Multivariate Statistik). Fakultät (Kapitel 12.3.1) Die Fakultät der natürlichen Zahl n ist definiert als das Produkt aller ganzen Zahlen von n, n-1, n-2 ... 2 und 1. Fisher-Test (Kapitel 18.4) Dieser Test prüft die Nullhypothese, dass sich zwei Anteile aus zwei kleinen Zufallsstichproben nicht signifikant voneinander unterscheiden (siehe auch: Binomialtest, Signifikanztest).
Gauß’sche Fehlerkurve (Kapitel 14.4) Die Gauß’sche Normalverteilung wird auch als Gauß’sche Fehlerkurve bezeichnet. Geometrisches Mittel (Kapitel 4.6) Das geometrische Mittel aus n Werten ist definiert als die n-te Wurzel aus dem Produkt aller Ausgangswerte. Grundgesamtheit (Kapitel 15.2) Die Grundgesamtheit ist die Gesamtheit aller bei einer bestimmten interessierenden Fragestellung relevanten Merkmalsträger; sie muss in zeitlicher, räumlicher und sachlicher Hinsicht präzise abgegrenzt sein, wenn aus ihr eine Stichprobe gezogen werden soll.
452
Glossar
Häufigkeitsverteilung (Kapitel 3.3) Ordnet man Merkmalswerten oder Klassen von Merkmalswerten die Häufigkeit ihres Auftretens zu (beobachtete Häufigkeiten), entsteht die Häufigkeitsverteilung. Häufigster Wert (Kapitel 4.4) Der häufigste Wert (Modus) ist ein lagetypischer Mittelwert. Er ist definiert als derjenige Merkmalswert des Ausgangsdatenbestandes, der am häufigsten aufgetreten ist. Sind mehrere Merkmalswerte gleich häufig (maximal) aufgetreten, wird auf die Angabe dieser Maßzahl verzichtet. Histogramm (Kapitel 7.4) Das Histogramm ist die geeignete Form zur Darstellung der Häufigkeitsverteilung einer stetigen Variablen. Die Häufigkeiten werden bei klassifiziertem Datenbestand durch die Flächen aneinander anstoßender Rechtecke dargestellt. Hochrechnung (Kapitel 17.4) Als Hochrechnung wird die Intervallschätzung bezeichnet (siehe dort). Homogenitätstest; siehe Chi-Quadrat-Homogenitätstest Hypergeometrische Verteilung (Kapitel 14.6) Die hypergeometrische Verteilung beantwortet die folgende Frage: Wie groß ist die Wahrscheinlichkeit, dass bei n Versuchen oder Zügen (ohne Zurücklegen) x-mal das günstige Ereignis eintritt, wenn in der Grundgesamtheit vom Umfang N die Zahl der Elemente mit der günstigen Eigenschaft bei M und die Zahl der Elemente, die nicht die günstige Eigenschaft aufweisen, bei N-M liegt. Hypothese (Kapitel 15.5) Eine Hypothese ist eine Aussage über einen Parameter (oder mehrere) oder über eine Verteilung (oder mehrere) – siehe auch: Häufigkeitsverteilung –, die im Lichte empirischer Befunde (in der Regel auf der Basis einer Zufallsstichprobe) überprüft wird (Signifikanztest, Hypothesentest). Ergebnis ist, dass die Hypothese bestätigt oder verworfen wird (siehe auch: Nullhypothese). Hypothesentest; siehe Hypothese
Glossar
453
Induktive Statistik; siehe beurteilende Statistik Intervallschätzung (Kapitel 17.4) Bei der Intervallschätzung wird, ausgehend von den Daten einer Zufallsstichprobe, einem daraus berechneten Parameter und gegebenem Vertrauensniveau, ein Bereich (Vertrauensintervall) angegeben, in dem der unbekannte Parameter der Grundgesamtheit mit dem angegebenen Grad an Vertrauen erwartet werden kann (siehe auch: Hochrechnung). Irrtumswahrscheinlichkeit (Kapitel 16.4, 16.6) Beim Hypothesentest (Signifikanztest) können bei der Entscheidung über die zu testende Nullhypothese Entscheidungsfehler begangen werden (siehe dort). Die Wahrscheinlichkeit des -Fehlers entspricht dem vorgegebenen Signifikanzniveau, die des -Fehlers kann bei gegebener Alternativhypothese berechnet werden.
Klassischer Wahrscheinlichkeitsbegriff (Kapitel 12.5.1) Beim klassischen Wahrscheinlichkeitsbegriff nach Laplace ist die Wahrscheinlichkeit eines Zufallsereignisses gegeben durch die Anzahl der günstigen Ergebnisse eines Zufallsexperiments dividiert durch die Anzahl der überhaupt möglichen Ergebnisse. Koeffizient von Spearman (Kapitel 10.3) Der Koeffizient von Spearman (Rangkorrelationskoeffizient) berechnet die Stärke des Zusammenhangs zwischen zwei ordinalskalierten Variablen (siehe: Ordinalskala). Kolmogoroff-Smirnow-Test (Kapitel 19.5) Dieser Signifikanztest (Hypothesentest) testet die Nullhypothese, dass zwei Verteilungsfunktionen mit hinreichender Güte aneinander angepasst werden können. Es handelt sich also um einen Anpassungstest. Kombination (Kapitel 12.3.2) Von Kombinationen spricht man, wenn die Zahl verschiedener Anordnungsmöglichkeiten von k aus n verschiedenen Elementen bestimmt werden soll, wobei die Reihenfolge der Elemente innerhalb der einzelnen Anordnungen kein Kriterium der Unterscheidung ist (siehe auch: Kombinatorik, Permutation). Kombinatorik (Kapitel 12.3) Die Kombinatorik befasst sich generell mit der Frage der Anordnungsmöglichkeiten von Elementen.
454
Glossar
Konfidenzbereich (Kapitel 17.4) Es handelt sich um das Vertrauensintervall bei der Intervallschätzung (Hochrechnung; siehe dort) Konfidenzintervall; siehe Konfidenzbereich Konfidenzniveau (Kapitel 17.4) Bei der Intervallschätzung (Hochrechnung) wird der Grad des Vertrauens, mit dem der unbekannte Parameter der Grundgesamtheit – ausgehend von den Daten und dem entsprechenden Parameter einer Zufallsstichprobe – geschätzt werden soll, vorgegeben und als Konfidenzniveau (Vertrauensniveau) bezeichnet. Konsistenz (Kapitel 17.3.3) Die Konsistenz ist ein Gütekriterium für Schätzungen (siehe: Schätzen). Von einer konsistenten Schätzfunktion spricht man, wenn ihre Varianz mit steigendem Stichprobenumfang abnimmt. Kontingenzkoeffizient von Pearson (Kapitel 10.4) Dieser Koeffizient ist ein Zusammenhangsmaß für zwei nominalskalierte Variablen (siehe: Nominalskala). Korrelationskoeffizient (Kapitel 10.2.1) Eine Maßzahl zur Bestimmung des statistischen Zusammenhangs zwischen zwei Variablen wird Korrelationskoeffizient genannt (siehe: Zusammenhangsmaß, Kontingenzkoeffizient von Pearson, Rangkorrelation, Determinationskoeffizient). Kumulation (Kapitel 3.3.4) Werden Häufigkeiten einer Häufigkeitsverteilung aufaddiert, spricht man von Kumulation.
Lorenzkoeffizient (Kapitel 6.6) Der Lorenzkoeffizient ist ein Maß zur Charakterisierung der Konzentration einer gegebenen Häufigkeitsverteilung. Lorenzkurve (Kapitel 6.5) Die Lorenzkurve ist die grafische Präsentation der Konzentration einer gegebenen Häufigkeitsverteilung (siehe auch: Lorenzkoeffizient).
Glossar
455
Maß der zentralen Tendenz; siehe Mittelwert Maximum-Likelihood-Schätzung (Kapitel 17.3.2) Bei der Maximum-Likelihood-Schätzung wird der interessierende unbekannte Parameter der Grundgesamtheit so geschätzt, dass die beobachtete Zufallsstichprobe eine maximale Realisationschance (Realisationswahrscheinlichkeit) hat. Median (Kapitel 4.5) Der Median (Zentralwert) ist ein lagetypischer Mittelwert. Es handelt sich um denjenigen Merkmalswert, der die der Größe nach geordnete Reihe der Merkmalswerte genau halbiert. Er kann bei Ordinaldaten (siehe Ordinalskala) bestimmt werden. Merkmal (Kapitel 1.6.1) Ein Merkmal (Variable) ist eine Eigenschaft eines Merkmalsträgers. Merkmalsträger (Kapitel 1.6.1) Ein Merkmalsträger ist ein Untersuchungselement (einer Grundgesamtheit oder einer Stichprobe). Merkmalswert (Kapitel 1.6.1) Ein Merkmalswert ist ein Wert, den eine Variable (ein Merkmal) als Ausprägung annehmen kann. Methode der kleinsten Quadrate (Kapitel 9.4) Die Methode der kleinsten Quadrate dient dazu, eine Regressionsfunktion (siehe Regressionsrechnung) in eine bivariate Häufigkeitsverteilung (betrachtet werden zwei Merkmale X und Y zugleich) hineinzulegen. Dabei wird die Summe der quadrierten senkrechten Abweichungen zwischen beobachteten Y-Werten und den auf der Funktion liegenden (theoretischen) YWerten minimiert. Metrische Skala (Kapitel 1.5.3) Eine metrische Skala liegt vor, wenn auch die Abstände zwischen zwei Merkmalswerten der betrachteten Variablen inhaltlich interpretiert werden können. Mittelwert (Kapitel 4) Ein Mittelwert ist ein Maß der zentralen Tendenz. Er charakterisiert in einer einzigen zusammenfassenden Maßzahl (Parameter) die Mitte einer gegebenen Häufigkeitsverteilung. Bekannte Mittelwerte sind das arithmetische Mittel, das geometrische Mittel, der Median (Zentralwert) und der Modus (häufigster Wert). Mittelwerttest (Kapitel 16.3) Beim Mittelwerttest bezieht sich die Nullhypothese, über die entschieden werden soll, auf das arithmetische Mittel der Grundgesamtheit. Anhand der entsprechenden Maßzahl (Parameter)
456
Glossar
aus einer Zufallsstichprobe wird entschieden, ob die Nullhypothese bestätigt oder verworfen werden soll (siehe auch: Signifikanztest). Mittlere lineare Abweichung (Kapitel 5.3) Die mittlere lineare Abweichung ist eine Maßzahl zur Bemessung der Streuung einer gegebenen Häufigkeitsverteilung. Sie ist definiert als die Summe der Absolutabweichungen der Merkmalswerte von ihrem arithmetischen Mittel, dividiert durch die Anzahl der Beobachtungen. Modus; siehe Häufigster Wert Momentenmethode (Kapitel 17.3.1) Die Momentenmethode ist ein Verfahren zur Punktschätzung unbekannter Parameter der Grundgesamtheit. Der entsprechende Wert (das entsprechende „Moment“) aus einer Zufallsstichprobe wird dabei zur Schätzung verwendet (siehe Schätzen). Multinomialverteilung (Kapitel 14.5) Die Multinomialverteilung beantwortet die folgende Frage: Wie groß ist die Wahrscheinlichkeit, dass von n gezogenen Elementen x1 die Eigenschaft 1, x2 die Eigenschaft 2, x3 die Eigenschaft 3 usw. aufweisen, wenn in der Grundgesamtheit der Anteil der Elemente mit der Eigenschaft 1 bei 1, mit der Eigenschaft 2 bei 2, mit der Eigenschaft 3 bei 3 usw. liegt. Multiple Regression (Kapitel 21.4) Die multiple Regression betrachtet die Art des Zusammenhangs zwischen einer abhängigen Variablen Y und mehreren unabhängigen (beeinflussenden) Variablen Xi (siehe Regressionsrechnung, Methode der kleinsten Quadrate). Multipler Determinationskoeffizient (Kapitel 21.5) Der multiple Determinationskoeffizient bemisst die Stärke des Zusammenhangs zwischen einer abhängigen Variablen Y und mehreren unabhängigen (beeinflussenden) Variablen Xi (siehe auch: Determinationskoeffizient). Multivariate Statistik (Kapitel 21, 22.4) Die multivariate Statistik betrachtet die Zusammenhänge zwischen mehr als zwei Variablen. Die Art des Zusammenhangs wird mit der multiplen Regressionsrechnung angesprochen, die Stärke des Zusammenhangs mit dem multiplen Determinationskoeffizienten und mit partiellen Korrelationskoeffizienten.
Glossar
457
Nichtparametrischer Test (Kapitel 19, 20) Ein nichtparametrischer Test überprüft anhand der Daten einer Zufallsstichprobe eine Nullhypothese nicht über einen Parameter der Grundgesamtheit, sondern z.B. eine Verteilungshypothese (siehe auch: Anpassungstest, Homogenitätstest, Unabhängigkeitstest, Signifikanztest, Hypothesentest). Nominalskala (Kapitel 1.5.3) Eine Nominalskala (nominalskalierte Variable) liegt vor, wenn ihre Werte (Ausprägungen, Merkmalswerte) nur eine Unterscheidungs- bzw. Identitätsinformation beinhalten. Sie weisen keine Rangordnung auf (siehe Ordinalskala), und die Abstände zwischen je zwei Werten sind inhaltlich nicht interpretierbar (siehe metrische Skala). Normalverteilung (Kapitel 14.4) Die Normalverteilung (Gauß’sche Fehlerkurve) ist die wichtigste Wahrscheinlichkeitsverteilung. Sie wird insbesondere beim parametrischen Signifikanztest (Hypothesentest) und beim Schätzen (Intervallschätzung; Hochrechnung) verwendet, weil nach Aussage des Zentralen Grenzwertsatzes die Parameter aus Zufallsstichproben in ihrer Eigenschaft als Zufallsvariablen mit hinreichender Güte normalverteilt sind, wenn die jeweilige Zufallsstichprobe(n) nicht zu klein ist (sind). Nullhypothese (Kapitel 16) Die Nullhypothese ist die Hypothese, die beim Signifikanztest (Hypothesentest) mit Hilfe der Daten aus einer Zufallsstichprobe überprüft wird, d.h., es wird entschieden, ob sie im Lichte der empirischen Befunde bestätigt oder verworfen wird.
Ogive (Kapitel 7.4.3) Die Kumulation von Häufigkeiten einer Häufigkeitsverteilung führt zur sog. Verteilungsfunktion. Ihre grafische Darstellung wird Ogive oder Summenkurve genannt. Ordinalskala (Kapitel 1.5.3) Eine Ordinalskala (ordinalskalierte Variable) liegt vor, wenn ihre Merkmalswerte in eine (empirisch begründbare) Rangordnung gebracht werden können, die Abstände zwischen je zwei Merkmalswerten aber nicht inhaltlich interpretiert werden können.
458
Glossar
Parameter (verschiedene Kapitel) Als Parameter bezeichnet man kennzeichnende (charakterisierende) Maßzahlen einer Häufigkeitsverteilung, wie z.B. das arithmetische Mittel, die Standardabweichung, den Korrelationskoeffizienten o.Ä. Partielle Korrelation (Kapitel 21.3) Bei der partiellen Korrelation wird der Zusammenhang zwischen zwei interessierenden Variablen vom Einfluss eventueller dritter Variablen befreit (siehe auch: Korrelationskoeffizient, Determinationskoeffizient, multiple Regression, multivariate Statistik). Permutation (Kapitel 12.3.1) Von einer Permutation spricht man im Rahmen der Kombinatorik, wenn man sich für die Anzahl verschiedener Anordnungsmöglichkeiten von Elementen mit Beachtung der Reihenfolge innerhalb der Anordnungen als Unterscheidungskriterium interessiert (siehe auch: Kombination, Kombinatorik). Poisson-Verteilung (Kapitel 14.7) Die Poisson-Verteilung beantwortet die Frage, wie groß die Wahrscheinlichkeit dafür ist, dass bei n Ziehungen x-mal das günstige Ereignis realisiert wird, wenn es generell im Durchschnitt -mal auftritt. Polygon (Kapitel 7.4.2) Verbindet man die oberen Klassenmittelpunkte in einem Histogramm (Mittelpunkte der oberen Recheckseiten) mit geraden Linienstücken, erhält man das Polygon. Es ist somit eine grafische Veranschaulichung einer Häufigkeitsverteilung. Punktschätzung (Kapitel 17.3) Der unbekannte Parameter der Grundgesamtheit wird über den entsprechenden Wert aus einer Zufallsstichprobe geschätzt (siehe Schätzen). Verfahren sind die Momentenmethode und die Maximum-Likelihood-Schätzung.
Quartil (Kapitel 5.5) Teilt man eine geordnete Reihe von Merkmalswerten (es wird also Ordinalskala vorausgesetzt) in vier gleich große Teile, erhält man die Quartile (die Quartilspunkte Q1, Q2 und Q3; Q2 ist identisch mit dem Median). Quartilskoeffizient (Kapitel 5.5) Der Quartilskoeffizient ist der Semiquartilsabstand geteilt durch den Median. Er ist ein dimensionsloses Maß der Streuung.
Glossar
459
Rangkorrelationskoeffizient (Kapitel 10.3) Die Stärke des Zusammenhangs zwischen zwei ordinalskalierten Variablen (siehe Ordinalskala) kann mit dem Rangkorrelationskoeffizienten von Spearman bemessen werden (siehe auch: Korrelationskoeffizient). Regressionsrechnung (Kapitel 9) Die Regressionsrechnung beschäftigt sich mit der Art des Zusammenhangs zwischen zwei (oder mehreren) Variablen (siehe auch: Methode der kleinsten Quadrate). Repräsentative Stichprobe (Kapitel 15.4) Eine repräsentative Stichprobe liegt vor, wenn die Strukturmerkmale der Grundgesamtheit in ihr strukturgetreu abgebildet werden. Für Zufallsstichproben gilt, dass mit zunehmendem Stichprobenumfang die Wahrscheinlichkeit dafür, dass sie repräsentativ sind, sehr hoch wird. Rückweisungsbereich (Kapitel 16.2) Der Rückweisungsbereich ist derjenige Bereich unter der Stichprobenverteilung, der zur Verwerfung der zu testenden Nullhypothese führt, wenn das Stichprobenergebnis (Zufallsstichprobe vorausgesetzt) in diesem Bereich zu finden ist (siehe auch: Alternativhypothese, Annahmebereich, Hypothesentest, Nullhypothese, Signifikanzniveau, Signifikanztest).
Schätzen (Kapitel 17) Beim Schätzen geht es um den (auf wahrscheinlichkeitsstatistischer Grundlage beruhenden) Schluss auf einen unbekannten Parameter der Grundgesamtheit, ausgehend von dem Wert des entsprechenden Parameters, wie er aus den Daten einer Zufallsstichprobe berechnet wurde. Man unterscheidet Punktschätzungen und Intervallschätzungen (Hochrechnungen). Schätzintervall (Kapitel 17.4, 20.6) Bei der Intervallschätzung wird ein Vertrauensbereich (um den Parameterwert aus der Zufallsstichprobe herum) angegeben, in dem mit einem angebbaren Grad des Vertrauens der unbekannte Parameter der Grundgesamtheit erwartet werden kann. Schließende Statistik; siehe beurteilende Statistik Semiquartilsabstand (Kapitel 5.5) Der Semiquartilsabstand ist eine lagetypische Maßzahl zur Bemessung der Streuung einer gegebenen Häufigkeitsverteilung. Er ist definiert als die halbierte Abweichung zwischen dem ersten und dem dritten Quartil (siehe auch: Quartilskoeffizient). Dieses Maß ist für Ordinaldaten geeignet (siehe Ordinalskala).
460
Glossar
Signifikanzbereich (Kapitel 16.3) Der Signifikanzbereich ist derjenige Bereich unter der bei einem Signifikanztest zu verwendenden Stichprobenverteilung, der zur Verwerfung der zu testenden Nullhypothese führt, wenn der Befund aus der Zufallsstichprobe in diesem Bereich liegt. Signifikanzniveau (Kapitel 16.3) Das Signifikanzniveau bestimmt den Signifikanzbereich unter der bei einem Signifikanztest zu verwendenden Stichprobenverteilung, Es ist üblicherweise eine kleine Wahrscheinlichkeit. Tritt der Zufallsstichprobenbefund oder ein noch weiter von der Nullhypothese abweichender Wert mit dieser kleinen Wahrscheinlichkeit auf (Gültigkeit der Nullhypothese vorausgesetzt), wird dies zum Anlass genommen, die Nullhypothese zu verwerfen. Das Signifikanzniveau entspricht der Wahrscheinlichkeit, eine an sich zutreffende Nullhypothese (zu Unrecht) zu verwerfen (Fehler erster Art oder -Fehler; siehe auch: Entscheidungsfehler, -Fehler). Signifikanztest (Kapitel 16, 18, 19, 20, 22) Beim Signifikanztest wird eine Nullhypothese, die sich auf einen Parameter oder die Verteilung der Grundgesamtheit bezieht, im Lichte empirischer Befunde, die auf der Basis einer Zufallsstichprobe bereitgestellt werden, überprüft, d.h., es wird eine Entscheidung darüber herbeigeführt, ob die Nullhypothese bestätigt oder ob sie verworfen wird (siehe auch: Entscheidungsfehler, -Fehler, ß-Fehler, Annahmebereich, Rückweisungsbereich, Signifikanzniveau). Spannweite (Kapitel 3.3.1, 5.2) Die Spannweite ist ein Maß der Streuung für metrische Daten (siehe metrische Skala). Sie ist definiert als der Abstand zwischen dem größten und dem kleinsten Merkmalswert. Standardabweichung (Kapitel 5.4) Die Standardabweichung ist eine Maßzahl zur Bemessung der Streuung einer gegebenen Häufigkeitsverteilung. Sie ist definiert als die Wurzel aus der durch die Anzahl der beobachteten Werte dividierten Summe der quadrierten Abweichungen der Merkmalswerte von ihrem arithmetischen Mittel (siehe auch: Varianz). Standardnormalverteilung (Kapitel 14.4) Die Standardnormalverteilung ist eine Normalverteilung mit dem Mittelwert 0 und der Standardabweichung 1. Statistischer Wahrscheinlichkeitsbegriff (Kapitel 12.5.2) Beim statistischen Wahrscheinlichkeitsbegriff ist die Wahrscheinlichkeit eines Ereignisses A definiert als der Quotient aus der Häufigkeit des Auftretens des Ereignisses A und der Anzahl der Beobachtungen n, wenn n gegen unendlich geht (siehe auch: Klassischer Wahrscheinlichkeitsbegriff).
Glossar
461
Stetige Variable (Kapitel 1.6.1) Eine stetige Variable kann, im Gegensatz zu einer diskreten Variablen, eine überabzählbar große Menge an Merkmalswerten als Ausprägungen annehmen (zwischen je zwei Werten sind weitere Werte vorstellbar). Stichprobe (Kapitel 1.6.2, 15.2, 15.3, 15.4) Eine Stichprobe ist eine Teilerhebung aus einer definierten Grundgesamtheit (siehe auch: Zufallsstichprobe). Stichprobenfehler (Kapitel 15.7) Der Stichprobenfehler ist die Standardabweichung der Stichprobenverteilung. Stichprobenverteilung (Kapitel 15.5) Die Stichprobenverteilung ist die Wahrscheinlichkeitsverteilung eines Parameters einer Zufallsstichprobe in seiner Eigenschaft als (Ausprägung einer) Zufallsvariable(n). Streuung (Kapitel 5) Mit dem Begriff der Streuung ist der Umstand angesprochen, dass die Merkmalswerte mehr oder weniger weit von ihrem Mittelwert liegen. Maße der Streuung sind z.B. die mittlere lineare Abweichung und die Standardabweichung. Summenkurve; siehe Ogive
Test; siehe Signifikanztest Trend (Kapitel 11.4) Der Trend ist die langfristige Entwicklungstendenz einer Zeitreihe. Er abstrahiert also von kurzfristigen (z.B. saisonalen) oder zufälligen Schwankungen der Zeitreihenwerte
Unabhängigkeitstest (Kapitel 20.2, 20.3, 20.4) Ein Unabhängigkeitstest überprüft die Nullhypothese, dass zwischen zwei Variablen kein statistischer Zusammenhang besteht (siehe auch: Chi-Quadrat-Unabhängigkeitstest).
462
Glossar
Univariate Statistik (Kapitel 4 bis 11) Die univariate Statistik stellt Methoden bereit zur Präsentation und beschreibenden Auswertung von Daten, wobei nur eine einzige Untersuchungsvariable interessiert (siehe auch: Bivariate Statistik, Multivariate Statistik). Urliste 95 (Kapitel 3.3) Die Urliste ist die Zusammenstellung der Ausgangsdaten einer statistischen Untersuchung.
Variable; siehe Merkmal Variablenausprägung; siehe Merkmalswert Varianz (Kapitel 5.4) Die Varianz ist das Quadrat der Standardabweichung, mithin auch ein Maß der Streuung für metrische Daten (siehe auch: metrische Skala, Streuung). Varianzanalyse (Kapitel 18.8) Die Varianzanalyse überprüft die Nullhypothese, dass sich die Mittelwerte (arithmetischen Mittel) aus mehreren Stichproben nicht signifikant voneinander unterscheiden (siehe auch: Signifikanztest). Variationskoeffizient (Kapitel 5.4) Der Variationskoeffizient ist definiert als der Quotient aus Standardabweichung und arithmetischem Mittel. Er ist somit ein dimensionsloses Maß der Streuung für metrische Daten (metrische Skala). Verteilungsfunktion (Kapitel 7.4.3) Die Verteilungsfunktion ist die Kumulation einer Häufigkeitsverteilung oder einer Wahrscheinlichkeitsverteilung. Vertrauensbereich (Kapitel 17.4) Der Vertrauensbereich ist derjenige Bereich, in dem bei einer Intervallschätzung (Hochrechnung) mit einem angebbaren Grad des Vertrauens der unbekannte Parameter der Grundgesamtheit erwartet werden kann – ausgehend vom entsprechenden Parameterwert, der auf der Grundlage der Daten einer Zufallsstichprobe berechnet wurde.
Glossar
463
Vertrauensintervall; siehe Vertrauensbereich Vertrauensniveau (Kapitel 17.4) Das Vertrauensniveau gibt den Grad des Vertrauens bei der Intervallschätzung (Hochrechnung) an (siehe auch: Vertrauensbereich).
Wahrscheinlichkeit (Kapitel 12.5) Die Wahrscheinlichkeit ist ein Maß für die Realisationschance eines Ergebnisses eines Zufallsexperiments. Wahrscheinlichkeitsdichte (Kapitel 13.8) Wahrscheinlichkeitsdichten sind die Ordinaten unter der Wahrscheinlichkeitsverteilung einer stetigen Variablen. Wahrscheinlichkeitsverteilung (Kapitel 13.7, 13.8) Die Wahrscheinlichkeitsverteilung ordnet den Merkmalswerten einer diskreten Zufallsvariablen die Wahrscheinlichkeiten ihres Auftretens zu (siehe auch: diskrete Variable). Bei einer stetigen Zufallsvariablen werden Wahrscheinlichkeitsdichten zugeordnet (siehe auch: stetige Variable).
Zeitreihe (Kapitel 3.4, 11) Bei einer Zeitreihe werden Zeitpunkten oder Zeitintervallen Merkmalswerte einer Variablen zugeordnet. Zeitreihentrend; siehe Trend Zentraler Grenzwertsatz (Kapitel 15.6) Der zentrale Grenzwertsatz besagt, dass die Summe voneinander unabhängiger Zufallsvariablen näherungsweise der Normalverteilung folgt. Daraus ergibt sich beispielsweise, dass ein Parameter aus einer Zufallsstichprobe in seiner Eigenschaft als Zufallsvariable näherungsweise normalverteilt ist, unabhängig von den Verteilungsverhältnissen in der Grundgesamtheit, wenn die Zufallsstichprobe nicht zu klein ist (Faustregel: n > 30). Dies begründet die überragende Bedeutung der Normalverteilung als Stichprobenverteilung beim Signifikanztest und bei der Intervallschätzung.
464
Glossar
Zentralwert; siehe Median Zufallsexperiment (Kapitel 13) Ein Zufallsexperiment liegt vor, wenn die Ergebnisse eines Experiments zufallsbeeinflusst realisiert werden (Würfelwurf, zufällige Auswahl von Merkmalsträgern bei der Ziehung einer Zufallsstichprobe etc.) Zufallsstichprobe (Kapitel 1.6.2, 15.4) Eine Zufallsstichprobe ist eine Teilerhebung, bei der jedes Element der Grundgesamtheit eine angebbare Wahrscheinlichkeit hat, in die Stichprobe aufgenommen zu werden. Sind die Auswahlwahrscheinlichkeiten alle gleich groß, spricht man von einer reinen (einfachen) Zufallsstichprobe. Zufallsvariable (Kapitel 13.6) Die Merkmalswerte (Ausprägungen) einer Zufallsvariablen treten zufallsbeeinflusst auf. Zusammenhangsmaß (Kapitel 10) Ein Zusammenhangsmaß bemisst die Stärke des Zusammenhangs zwischen zwei (oder mehreren) Variablen (siehe auch: Korrelationskoeffizient, Determinationskoeffizient, bivariate Statistik).
Register Begriffe in GROßBUCHSTABEN beziehen sich auf Excel-Menüpositionen oder auf Excel-Funktionen -Fehler 332 ß-Fehler 332 $-Zeichen 40 ?-Symbol 31 A posteriori 241 A priori 238 ABS 94, 400 Absolute Häufigkeit 65 Absoluter Bezug 38, 67 ACHSENABSCHNITT 173, 179, 190, 210 Achsenbeschriftung 120 Achsenmaßstab 137 Additionssatz 247 Additionssatz, allgemeiner 249 Ähnlichkeitsmaß 439 Allgemeiner Additionssatz 249 Allgemeiner Grenzwertsatz 287 Allgemeiner Multiplikationssatz 252 Alternativhypothese 333 Amtliche Statistik 55 Änderung des Dateinamens 29 Anfangsmoment 352 Annahmebereich 329 ANOVA 376 Anpassungstest 334, 365, 381 Anpassungstestverfahren 368, 381 ANSICHT/SYMBOLLEISTEN 130 Anteilswert 98, 315, 322, 341 Anteilswertdifferenzentest 345, 366 Anteilswerttest 364 A-posteriori-Wahrscheinlichkeit 241 A-priori-Wahrscheinlichkeit 240 Äquidistante Zeitreihe 204 Arbeitsbereich 26 Arbeitsmappe 25 Area Sampling 305 Argument 43 Arithmetisches Mittel 77, 312, 339
Arithmetisches Mittel, gewogenes 80 Arithmetisches Mittel, ungewogenes 77 Array-Funktion 45, 64 Auspartialisieren 419 Ausprägung 21 Ausrichtung 35 AUSRICHTUNG 140 Auswahl, bewusste 299 Auswahl, geschichtete 304 Auswahl, mehrstufige 305 Auswahl, zufällige 300 Auswahlverfahren 297, 299 Basisgewogener Preisindex 155 Bayes-Theorem 255 BEARBEITEN/AUSFÜLLEN/RECHTS 37 BEARBEITEN/AUSFÜLLEN/UNTEN 39 BEARBEITEN/AUSSCHNEIDEN 33 BEARBEITEN/EINFÜGEN 33 BEARBEITEN/INHALTE EINFÜGEN 33, 219 BEARBEITEN/KOPIEREN 51 BEARBEITEN/LÖSCHEN 32 BEARBEITEN/ZELLEN LÖSCHEN 32 Bearbeitungszeile 26 Bedingte Wahrscheinlichkeit 251 Begriff der Statistik 15 Beobachtung 57 Berechnung, mathematische 36 Bereich 26 Bernoulli-Experiment 270 Bernoulli-Versuchsanordnung 270 Bernoulli-Verteilung 270 Beschreibung 16 BESCHRIFTUNG DER RUBRIKEN ACHSE (X) 120 Betriebliche Statistik 18 Beurteilende Methoden 17 Beurteilung 16 Bevölkerungsbewegung 18 Bevölkerungsstatistik 18 Bewegung, saisonale 206 Bewegung, zyklische 206 Bewusste Auswahl 299 Bezug 26 Bezug, absoluter 38, 67 Bezug, relativer 38, 67 Binomialkoeffizient 236
466 Binomialtest 365, 431, 433 Binomialverteilung 270, 273 BINOMVERT 274, 365 Bivariate Statistik 19 Bivariate Regression 163 Bivariate Verteilung 192 Buchstabenverfahren 304 Bundesamt, statistisches 55 Chi-Quadrat-Anpassungstest 384 Chi-Quadrat-Homogenitätstest 395, 396 Chi-Quadrat-Unabhängigkeitstest 401 Chi-Quadrat-Verteilung 295, 367 Chi-Quadrat-Verteilung, Funktional parameter 296 CHITEST 296, 405, 407 CHIVERT 296, 385, 391, 405 Cluster 439 Cluster Sampling 305 Clusteranalyse 438 Covarianz 185 Codierte Variable 202 Darstellung, grafische 117, 246 DATEI/DRUCKEN 45 DATEI/SEITENANSICHT 46 DATEI/SPEICHERN 29 DATEI/SPEICHERN UNTER 28 Dateiname 29 Daten importieren 50 Daten, nichtmetrische 427 DATEN/PIVOT-TABELLENBERICHT 71 DATEN/SORTIEREN 92 Datenerhebung 58 Datengewinnung 54 Datenmatrix 73 Datenreduktion 77 de Moivre 285 Deduktion 333 Deflationierungen 158 Deskriptive Statistik 19 Determinationskoeffizient 189, 192 Determinationskoeffizient, multipler 426 Diagramm 46 Diagramm-Assistent 120 DIAGRAMMTITEL 140 Dialogfenster 28 Dichte 260, 262
Register
Dichtefunktion 263 Dichtekurve 262, 264 Dichotome Variable 196, 202 Differenz zweier Anteilswerte 319, 322 Differenz zweier Mittelwerte 318, 322 Differenz zweier Standardabweichungen 320, 322 Direkter Schluss 332 Diskrete Variable 21 Diskrete Verteilung 65 Diskrete Wahrscheinlichkeitsverteilung 258 Drei-Variablen-Fall 423 Drittvariablen 418 Drittvariableneinfluss 182, 419 Drittvariablenkontrolle 419 Drucken 45 Dummy-Variable 202, 428 Durchschnittswert 75 Effizienz 356 Einfache Zufallsstichprobe 301 Einfaktorielle Varianzanalyse 377 EINFÜGEN 32 EINFÜGEN/DIAGRAMM 47, 120, 124 EINFÜGEN/FUNKTION 43 EINFÜGEN/SPALTEN 32 EINFÜGEN/ZEILEN 32 Eingabezeile 26 Elementarereignis 227 Entscheidungsfehler 331, 334 Ereignis, sicheres 240 Ereignis, unmögliches 240 Ereignis, zusammengesetztes 227 Ereignisraum 227 Ereignisse 226 Erhebung, primärstatistische 57 Erklärter Varianzanteil 192 Erwartungstreue 98, 355 Erwartungstreue Schätzung 355 Erwartungswert von Zufallsvariablen 265 Euklid’sche Distanz 439 Euler‘sche Zahl 281, 293 Exakte Stichprobenverteilung 365 Excel-Hauptmenü 26 Explizite Parameter (Binomialvert.) 273 Explizite Parameter (Normalverteilung) 282 Exponentieller Trend 216 EXTRAS/ANALYSEFUNKTIONEN 376
467
Register
Faktorenanalytische Verfahren 434 FAKULTÄT 232 Fallstudie 299 Farben 36 Farbpalette 36 Fehler erster Art 332 Fehler vom Typ I 332 Fehler vom Typ II 332 Fehler zweiter Art 332 Fehlerkurve 281 Fisher 296 Fisher-Test 366, 395, 406 Flächenmethode 288 Flächenstichprobenverfahren 305 Flächentreue 130 FORMAT 35 FORMAT/BLATT/UMBENENNEN 49 FORMAT/MARKIERTE ACHSE 122, 135 FORMAT/MARKIERTE ACHSENBE SCHRIFTUNG 140 FORMAT/MARKIERTE DATENREIHEN 50, 125 FORMAT/MARKIERTER DATENPUNKT 134 FORMAT/ZELLEN 34, 35 Formatierung 34 FORMEL IM DIAGRAMM DARSTEL LEN 179, 181, 212 Fragebogen 57 Fragestellung, kombinatorische 230 Freiheitsgrade 295, 341, 405 FTEST 296, 374 Funktion 42, 43 Funktion, lineare 167, 169 Funktion, nichtlineare 167 Funktionalparameter 267 Funktionalparameter (Binomialverteilung) 273 Funktionalparameter (Chi-Quadrat-Vertei lung) 296 Funktionalparameter (Normalverteilung) 282 Funktionalparameter (Poisson-Verteilung) 293 Funktionsassistent 43, 284 Funktionsname 43 FVERT 296, 373 F-Verteilung 296, 373, 414
GANZZAHL 302 Gauß 285 Gauß’sche Fehlerkurve 281 Gauß’sche Verteilung 281 Geburtstagsverfahren 304 Geometrisches Mittel 88, 149 GEOMITTEL 89, 150 Geschichtete Auswahl 304 Geschichtete Stichproben 304 Gesetz der großen Zahl 240 Gewogenes arithmetisches Mittel 80 Glättung 206 Gleichheitszeichen 31 Gleichmöglichkeitsmodell 238 Gleichverteilung 111 Gliederungszahl 147 Goodness-of-Fit-Test 334 Gosset 295 Grafische Darstellung 117, 246 Grenzwertsatz, allgemeiner 286 Grenzwertsatz, lokaler 286 Grenzwerttheorem, zentrales 3 11 GRÖßENACHSE (Y) 140 Größte-Dichte-Methode 353 Grundgesamtheit 21 Gruppieren 63 Güte der Punktschätzung 355 Güte eines Tests 347 HÄUFIGKEIT 65, 107, 213 Häufigkeit, absolute 65 Häufigkeit, relative 65 Häufigkeitsverteilung 60 Häufigkeitsverteilung, univariate 119 Häufigkeitsverteilung, stetige 127 Häufigster Wert 84 Herfindahl-Index 104 Hilfe 31 HILFE 31 Hilfsinformationen 26 Histogramm 124 Hochrechnungen 351 Homogenitätstest 395, 396 Hypergeometrische Verteilung 290, 367 HYPERGEOMVERT 291, 367, 397 Hypothese 16 Hypothesen, nichtparametrische 331 Hypothesen, parametrische 331, 333
468 Hypothesentest 323 Hypothesentest, parametrischer 323, 334 Icons 26 Import von Daten 50 Index der industriellen Nettoproduktion 162 Induktive Methoden 19 Informationsgehalt 20 Inklusionsschluss 333 Intervallschätzung 352, 357 Jahrbuch, statistisches 55 Jahresdurchschnittliche Wachstumsrate 89 Jahresdurchschnittliche Zuwachsrate 149 Klassenbreite 67, 68 Klassifizieren 67 Klassischer Wahrscheinlichkeitsbegriff 238 Kleiner Stichprobenumfang 364 Klumpen 439 Klumpenauswahl 305 Kolmogoroff-Smirnow-Test 397 Kombinationen 235 Kombinatorik 228, 272 Kombinatorische Fragestellung 230 Komplementärereignis 240 KONFIDENZ 361, 362 Konfidenzbereich 361 Konfidenzintervall 357, 361 Konfidenzniveau 361 Konsistenz 356 Kontingenzkoeffizient 197, 200, 404 Kontingenztabelle 200, 403 Kontinuitätsberichtigung 288 Konzentration 103 Konzentrationsmaß 103 Konzentrationsprinzip 300 Koordinaten 26 Kopieren 32, 33 KORREL 187, 201, 410 Korrelation, partielle 417, 420 Korrelationskoeffizient von Bravais/Pearson 184, 187, 202 Korrelationskoeffizient, multipler 426 Korrelationskoeffizient, partieller 421 Korrelationskoeffizienten-Test 409 Korrelationsrechnung 165, 184 KOVAR 186
Register
Kreiskonstante 281 Kreuztabellen 70 Kumulation 69, 128 Ladungsmuster 437 Lagetypisches Maß 98 Laplace 239, 285 Laspeyres-Mengenindex 160 Laspeyres-Preisindex 155 Laufrahmen 33 Laufwerk 28 Lebenshaltungskostenindex 153 Leerzeichen 31 LEGENDE 48, 120 Likelihood-Funktion 354 Limesdefinition der Wahrscheinlichkeit 242 Lineare Funktion 167, 169 Lineare Regression, multiple 423 Linearer Zeitreihentrend 209 Liniendiagramm 134 Löschen 32 LOG10 280 Lokaler Grenzwertsatz 286 Lorenz/Münzner-Maß 106 Lorenzfläche 112 Lorenzkoeffizient 112 Lorenzkurve 107, 111 Mappe1 26 Marktforschungsstudien 226 Maß von Lorenz/Münzner 106 Maß, lagetypisches 98 Massenerscheinungen 16 MATH.&TRIGONOM. 44, 232, 280 Mathematische Berechnung 36 Matrixfunktion 45, 213 Mauszeiger 25, 27 Maximum-Likelihood-Schätzung 353 McNemar-Test 432 Median 87, 98, 129, 430 MEDIAN 87 Median-Test 430 Mehrstufige Auswahl 305 Mengenindex 159 Mengenindex vom Typ Laspeyres 160 Mengenindex vom Typ Paasche 160 Menüzeile 26 Merkmal 21
469
Register
Merkmalsträger 21, 298 Messziffer 145 Methode der gleitenden Durchschnitte 207 Methode der kleinsten Quadrate 171 Methode der maximalen Mutmaßlichkeit 353 Methoden, beurteilende 17 Methoden, induktive 19 Methoden, statistische 16 Metrische Skala 20 Mittel, arithmetisches 77, 312 Mittel, geometrisches 88, 149 MITTELABW 94 MITTELWERT 44, 80, 177, 185 Mittelwert 75, 322 Mittelwertdifferenzentest 370 Mittelwerttest 326, 339, 369 Mittlere lineare Abweichung 93 MODALWERT 85 Modell mit Zurücklegen 230 Modell ohne Zurücklegen 230 Modus 84 Moment, zentrales 352 Momentenmethode 352 Monographie 299 Multinomialverteilung 289 Multiple lineare Regression 423 Multiple Regression 417 Multipler Determinationskoeffizient 426 Multipler Korrelationskoeffizient 426 Multiplikationssatz 250 Multiplikationssatz, allgemeiner 252 Multivariate Statistik 20 Multivariate Verfahren 434 Neyman 357 Nichtlineare Funktion 167 Nichtmetrische Daten 427 Nichtparametrische Hypothesen 331 Nichtparametrischer Test 334 Nominalskala 20 Nominalskalierte Variable 33, 402 Normalverteilung 281 NORMVERT 283, 314, 325, 390 Nullhypothese 324, 333 OC-Kurve 348 Ogive 128, 129
Operationscharakteristik 348 Ordinalskala 20 Ordinalskalierte Variable 20, 98, 194, 407 Ordinatenabschnitt 169, 209, 412 Ordinatenmethode 288 Paasche-Mengenindex 160 Paasche-Preisindex 157 Parameter, explizite (Binomialverteilung) 273 Parameter, explizite (Normalverteilung) 282 Parameterhypothese 333 Parameterschätzung 351 Parametertest 334, 339 Parametrische Hypothesen 331, 333 Parametrischer Hypothesentest 323, 334 Partielle Korrelation 417, 420 Partielle Regressionskoeffizienten 424 Partieller Korrelationskoeffizient 421 Periodizität 208 Permutationen 230, 231, 232, 233 Pfad 29 Phi-Koeffizient 197 Physikstatistik 19 Poisson 293 POISSON 294 Poisson-Verteilung 293 Poisson-Verteilung (Funktionalparameter) 293 Polygon 127 Polytome Variable 202 Power Function 347 Preisindex 153 Preisindex vom Typ Laspeyres 155 Preisindex vom Typ Paasche 157 Preisindex, basisgewogener 155 Primärstatistische Erhebung 57 Prognosemethoden 204 Proximitätsmaß 439 Psychologie 19 Punktschätzung 352 Punktschätzung, Güte 355 Punktschätzverfahren 352 Punktwolke 141, 167, 178 Quadratsummenzerlegung 375 Qualitative Verfahren 16 Qualitätskontrolle 226
470 Qualitätsveränderungen 159 Quantifizierung 16 Quartil 98 QUARTILE 99 Quartilskoeffizient 99 Quartilspunkt 130 Quartilswert 98 Quelle, statistische 55 Quetelet 286 Quotenauswahlverfahren 299 Random numbers 301 RANG 195, 408 Rangkorrelation 194 Rangkorrelationskoeffizient 407 Rangkorrelationskoeffizient von Spearman 194 Rechteckverteilung 264 Regression, bivariate 163, 174 Regression, multiple 417 Regressionsfläche 423 Regressionsfunktion 175, 179, 412 Regressionsfunktion, lineare 192 Regressionsgeraden-Schätzung 414 Regressionskoeffizient 412 Regressionskoeffizienten, partielle 424 Regressionskoeffizienten-Test 412 Regressionsrechnung 163, 164, 174, 183, 412 Reihenfolge 230 Relative Häufigkeit 65 Relativer Bezug 38, 67 Relativer Zellbezug 38 Repräsentative Stichprobe 306 Repräsentativität 279 RUBRIKENACHSE (X) 47, 120, 140 Rückweisungsbereich 29 Saisonale Bewegung 206 Saisonale Schwankung 217 Saisonnormale 217, 221 Saisonprofil 217, 221 Satz der totalen Wahrscheinlichkeit 253 Schätzen der Regressionsgeraden 414 Schätzkorridor 414 Schätzstatistik 351 Schätzung, erwartungstreue 355 Schichten 304
Register
Schluss, direkter 332 Schlussfolgerungen 16 Schlussziffernverfahren 303 Schriftart 34 Schwankung, saisonale 217 Sekundärstatistik 55 Semiquartilsabstand 98, 129 Sicheres Ereignis 240 Signifikanzbereich 329 Signifikanzniveau 324, 335, 341 Signifikanztest 324 Sinnbilder 26 Sinnbildzeile 26 Skala, metrische 20 Skalenqualität 20 Skalierung 135 SKALIERUNG 136 Sortieren 61 Sozialstatistik 18 Spalte 26 Spaltenbreite 36 Spannweite 62, 91 Speichern 28 Spezielle Wahrscheinlichkeitsverteilung 269 Stabdiagramm 119, 121 STABW 97, 356 STABWN 95, 356 Standardabweichung 95, 317, 322, 343 Standardnormalverteilung 282 Startbildschirm 25 Statistik, amtliche 55 Statistik, betriebliche 18 Statistik, bivariate 20 Statistik, deskriptive 19 Statistik, multivariate 20 Statistik, univariate 19 Statistische Methoden 16 Statistische Quelle 55 Statistische Zeitreihe 70 Statistischer Wahrscheinlichkeitsbegriff 240 Statistischer Zusammenhang (Test) 401 Statistisches Bundesamt 55 Statistisches Jahrbuch 55 Statuszeile 26 Steigung 169, 209, 412 STEIGUNG 173, 179, 190, 210, 412 Stetige Häufigkeitsverteilung 127 Stetige Variable 21, 124
471
Register
Stetige Wahrscheinlichkeitsverteilungen 260 Stetigkeitskorrektur 288 Stichprobe 21, 297 Stichprobe, repräsentative 306 Stichproben, geschichtete 304 Stichproben, verbundene 432 Stichprobenbasis 226 Stichprobendaten 19 Stichprobenelemente 226 Stichprobenfehler 313 Stichprobentheorie 286 Stichprobenumfang, kleiner 363 Stichprobenuntersuchung 17 Stichprobenvariable 308 Stichprobenverteilung 297, 306, 307, 312 Stichprobenverteilung, exakte 365 Stochastischer Unabhängigkeit 250 Streudiagramm 138, 166 Streuung 62 Streuung einer Zufallsvariablen 266 Streuungsmaß 92 Strichpunkt 43 Student-t-Verteilung 295, 369 Subjektiver Wahrscheinlichkeitsbegriff 243 SUMME 37 Summenbildung 36 Summenkurve 129 SUMMENPRODUKT 82 Summenschaltfläche 40
Teststärkefunktion 347 Theorem von Bayes 255 Titelzeile 26 Tortendiagramm 133 Totalerhebung 298 TRANSPONIEREN 220 Trend 206 TREND 212 Trend, exponentieller 216 Trendbereinigung 211 Trendfunktion 203, 209 TRENDLINIE HINZUFÜGEN 178, 181, 212 Trendprognose 203, 212 Trennschärfe 347 Trennschärfefunktion 347 TTEST 295 TVERT 295, 370, 408
t-Verteilung 295, 369 Tabellenkalkulationsprogramm 15 Tabellenzelle 26 Teilerhebung 21 Tendenz, zentrale 77 Test der Mittelwertdifferenz 344, 370 Test des Anteilswertes 364 Test des Korrelationskoeffizienten 409 Test des Medians 430 Test des Mittelwertes 326, 339, 369 Test des Regressionskoeffizienten 412 Test nach Kolmogoroff/Smirnow 397 Test statistischer Zusammenhänge 401 Test von Anteilswertdifferenzen 345, 366 Test von Fisher 366, 395, 406 Test von McNemar 432 Test, nichtparametrischer 334 Testgüte 347
Variable 21 Variable, codierte 202 Variable, dichotome 196 Variable, diskrete 21 Variable, nominalskalierte 20, 196 Variable, metrische 20, 184 Variable, ordinalskalierte 20, 194 Variable, polytome 202 Variable, stetige 21, 124 Variablenausprägung 21 VARIANZ 97, 356 Varianz 95, 185, 191 Varianz von Zufallsvariablen 265 Varianzanalyse 374 Varianzanalyse, einfaktorielle 377 Varianzanteil, erklärter 192 VARIANZEN 96, 185, 356 Varianzquotiententest 371, 372
Überschreitungswahrscheinlichkeit 328 Umbasierung 150 Unabhängigkeit, stochastische 250 Unabhängigkeitstest 401 Unabhängigkeitstest bei Ordinaldaten 407 Ungewogenes arithmetisches Mittel 77 Univariate Häufigkeitsverteilung 119 Univariate Statistik 19 Unmögliches Ereignis 240 Urliste 61
472 Varianzzerlegung 191 VARIATION 216 Variationskoeffizient 96 verbundenen Stichproben 432 Verfahren, faktorenanalytische 434 Verfahren, multivariate 434 Verfahren, qualitative 16 Verkettung 151 Verschieben 32, 33 Versuchsanordnung mit Zurücklegen 271 Verteilung, bivariate 192 Verteilung, diskrete 65 Verteilung, hypergeometrische 290, 367 Verteilungsfunktion 259 Verteilungshypothese 334, 381 Vertrauensbereich 361 Vertrauensintervall 361 Vertrauensniveau 361 Vierfelder-Koeffizient 196 Vierfelder-Phi-Koeffizient 197, 202 Vierfelder-Tabellen 196 Wachstumsrate 149 Wachstumsrate, jahresdurchschnittliche 89 Wagenführ 286 Wahrscheinlichkeit 17, 226, 238, 242 Wahrscheinlichkeit, a priori 240 Wahrscheinlichkeit, a posteriori 241 Wahrscheinlichkeit, bedingte 251 Wahrscheinlichkeit, Limesdefinition 242 Wahrscheinlichkeitsalgebra 253 Wahrscheinlichkeitsbegriff, klassischer 238 Wahrscheinlichkeitsbegriff, statistischer 240 Wahrscheinlichkeitsbegriff, subjektiver 243 Wahrscheinlichkeitsdichten 261 Wahrscheinlichkeitsfunktion 258 Wahrscheinlichkeitsrechnung 226 Wahrscheinlichkeitstheorie 225 Wahrscheinlichkeitsverteilung 245, 258, 259 Wahrscheinlichkeitsverteilung, spezielle 269 Wahrscheinlichkeitsverteilung, stetige 260 Warenkorb 145 Wechsel des Laufwerks 28 Wert 21 Wert, häufigster 84 Wertindex 162 Wilcoxon-Vorzeichen-Rangtest 432
Register
Windows-Zwischenablage 33 Wirtschaftsstatistik 17 Zehnerlogarithmen 280 ZEICHNEN 130 Zeile 26 Zeilemhöhe 36 Zeitreihe 70, 134, 206 Zeitreihe, äquidistante 204 Zeitreihe, statistische 70 Zeitreihenprognosen 216 Zeitreihentrend, linearer 209 Zellbezug 67 Zellbezug, absoluter 38 Zellbezug, relativer 38 Zellinhalt 34 Zentrale Tendenz 77 Zentrales Grenzwerttheorem 311 Zentrales Moment 352 Zentralwert 87, 129 Zufall 226 Zufällige Auswahl 300 Zufallsereignis 226, 228, 247 Zufallsexperiment 226 Zufallsprinzip 297 Zufallsstart 303 Zufallsstichprobe 297, 300 Zufallsstichprobe, einfache 301 Zufallsstichprobenanteilswert 316 Zufallsstichprobenmittelwert 311 Zufallsstichprobenstandardabweichung 317 Zufallsvariable 256, 265 Zufallsvariable, Erwartungswert 265 Zufallsvariable, Varianz 265 ZUFALLSZAHL 302 Zusammengesetztes Ereignis 227 Zusammenhang, statistischer (Test) 401 Zusammenhangshypothesen 331 Zusammenhangsrechnung 183, 184 Zuwachsrate, jahresdurchschnittliche 149 Zwischenablage 33 Zyklenlänge 208 Zyklische Bewegung 206