Einführung in die nichtparametrische Statistik mit SAS und R: Ein anwendungsorientiertes Lehr- und Arbeitsbuch [1 ed.] 3790820598, 9783790820591 [PDF]

Christine Duller (Universität Linz) gibt in diesem Buch eine leicht verständliche Einführung in die nichtparametrische S

163 73 3MB

German Pages 414 [419] Year 2008

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Front Matter....Pages I-XII
Statistische Grundbegriffe....Pages 1-19
Einführung in SAS....Pages 21-53
Einführung in R....Pages 55-80
Geordnete Statistiken und Rangstatistiken....Pages 81-105
Einstichprobenprobleme....Pages 107-149
Zweistichprobenprobleme für unabhängige Stichproben....Pages 151-194
Zweistichprobenprobleme für verbundene Stichproben....Pages 195-211
c -Stichproben-Problem....Pages 213-242
Unabhängigkeit und Korrelation....Pages 243-272
Nichtparametrische Dichteschätzung und Regression....Pages 273-308
Back Matter....Pages 309-414
Papiere empfehlen

Einführung in die nichtparametrische Statistik mit SAS und R: Ein anwendungsorientiertes Lehr- und Arbeitsbuch [1 ed.]
 3790820598, 9783790820591 [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Physica-Lehrbuch

Physica-Lehrbuch Bannier, Christina E. Vertragstheorie Eine Einführung mit finanzökonomischen Beispielen und Anwendungen 2005, XVI, 218 S. Büter, Clemens Außenhandel Grundlagen globaler und innergemeinschaftlicher Handelsbeziehungen 2007, XVI, 389 S. Duller, Christine Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch 2. Aufl. 2007, XII, 285 S. Farmer, Karl · Wendner, Ronald Wachstum und Außenhandel Eine Einführung in die Gleichgewichtstheorie der Wachstumsund Außenhandelsdynamik 2. Aufl. 1999, XVIII, 423 S. Fink, Andreas Schneidereit, Gabriele · Voß, Stefan Grundlagen der Wirtschaftsinformatik 2. Aufl. 2005, XVIII, 316 S. Göcke, Matthias · Köhler, Thomas Außenwirtschaft Ein Lern- und Übungsbuch 2002, XIII, 359 S. Graf, Gerhard Grundlagen der Volkswirtschaftslehre 2. Aufl. 2002, XIV, 335 S. Graf, Gerhard Grundlagen der Finanzwissenschaft 2. Aufl. 2005, XII, 334 S. Heiduk, Günter S. Außenwirtschaft Theorie, Empirie und Politik der interdependenten Weltwirtschaft 2005, XII, 429 S. Heno, Rudolf Jahresabschluss nach Handelsrecht, Steuerrecht und internationalen Standards (IAS/IFRS) 5. Aufl. 2006, XX, 560 S. Hofmann, Ulrich Netzwerk-Ökonomie 2001, X, 242 S. Huch, Burkhard u.a. Rechnungswesen-orientiertes Controlling Ein Leitfaden für Studium und Praxis 4.Aufl. 2004, XX, 510 S.

Kistner, Klaus-Peter Produktions- und Kostentheorie 2. Aufl. 1993, XII, 293 S. Kistner, Klaus-Peter Optimierungsmethoden Einführung in die Unternehmensforschung für Wirtschaftswissenschaftler 3. Aufl. 2003, XII, 293 S. Kistner, Klaus-Peter Steven, Marion Produktionsplanung 3. Aufl. 2001, XIII, 372 S. Kistner, Klaus-Peter Steven, Marion Betriebswirtschaftslehre im Grundstudium Band 1: Produktion, Absatz, Finanzierung 4. Aufl. 2002, XIV, 510 S. Band 2: Buchführung, Kostenrechnung, Bilanzen 1997, XVI, 451 S. König, Rolf · Wosnitza, Michael Betriebswirtschaftliche Steuerplanungsund Steuerwirkungslehre 2004, XIV, 288 S. Kortmann, Walter Mikroökonomik Anwendungsbezogene Grundlagen 4. Aufl. 2006, XVIII, 674 S. Marti, Kurt · Gröger, Detlef Einführung in die lineare und nicht lineare Optimierung 2000, VII, 206 S. Marti, Kurt · Gröger, Detlef Grundkurs Mathematik für Ingenieure, Naturund Wirtschaftswissenschaftler 2. Aufl. 2003, X, 267 S. Michaelis, Peter Ökonomische Instrumente in der Umweltpolitik Eine anwendungsorientierte Einführung 1996, XII, 190 S. Nissen, Hans-Peter Einführung in die makroökonomische Theorie 1999, XVI, 341 S. Nissen, Hans-Peter Das Europäische System Volkswirtschaftlicher Gesamtrechnungen 5. Aufl. 2004, XVI, 362 S. Risse, Joachim Buchführung und Bilanz für Einsteiger 2. Aufl. 2004, VIII, 296 S.

Rothengatter, Werner Schaffer, Axel Makro kompakt Grundzüge der Makroökonomik 2006, X, 234 S. Schäfer, Henry Unternehmensfinanzen Grundzüge in Theorie und Management 2. Aufl. 2002, XVIII, 522 S. Schäfer, Henry Unternehmensinvestitionen Grundzüge in Theorie und Management 2. Aufl. 2005, XVI, 439 S. Schüler, Mirja Einführung in das betriebliche Rechnungswesen Buchführung für Industrieund Handelsbetriebe 2006, XII, 216 S. Sesselmeier, Werner Blauermel, Gregor Arbeitsmarkttheorien 2. Aufl. 1998, XIV, 308 S. Steven, Marion Hierarchische Produktionsplanung 2. Aufl. 1994, X, 262 S. Steven, Marion Kistner, Klaus-Peter Übungsbuch zur Betriebswirtschaftslehre im Grundstudium 2000, XVIII, 423 S. Swoboda, Peter Betriebliche Finanzierung 3. Aufl. 1994, 305 S. Tomann, Horst Volkswirtschaftslehre Eine Einführung in das ökonomische Denken 2005, XII, 186 S. Weigand, Christoph Statistik mit und ohne Zufall Eine anwendungsorientierte Einführung 2006, XIII, 421 S. Weise, Peter u.a. Neue Mikroökonomie 5. Aufl. 2005, XI, 645 S. Zweifel, Peter Heller, Robert H. Internationaler Handel Theorie und Empirie 3. Aufl. 1997, XXII, 418 S.

Christine Duller

Einführung in die nichtparametrische Statistik mit SAS und R Ein anwendungsorientiertes Lehr- und Arbeitsbuch

Physica-Verlag Ein Unternehmen von Springer

Dr. Christine Duller IFAS - Institut für Angewandte Statistik Johannes Kepler Universität Linz Altenberger Straße 69 4040 Linz Österreich [email protected]

ISBN 978-3-7908-2059-1

e-ISBN 978-3-7908-2060-7

DOI 10.1007/978-3-7908-2060-7 Physica-Lehrbuch ISSN 1431-6870 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © 2008 Physica-Verlag Heidelberg Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Herstellung: le-tex publishing services oHG, Leipzig Umschlaggestaltung: WMXDesign GmbH, Heidelberg Gedruckt auf s¨ aurefreiem Papier 987654321 springer.de

Vorwort

Dieses Buch soll auf allgemein verst¨andlichem Niveau die Grundlagen der nichtparametrischen Statistik vermitteln. Die LeserInnen sollen die F¨ ahigkeit erwerben, die vorgestellten statistischen Verfahren korrekt anzuwenden und die daraus resultierenden Ergebnisse richtig und verst¨ andlich interpretieren zu k¨ onnen. Voraussetzungen sind Mathematik auf Maturaniveau, Grundkenntnisse im Umgang mit dem Computer und Basiswissen in Statistik. Um das Verst¨ andnis zu erleichtern werden zahlreiche Beispiele mit L¨ osungen angef¨ uhrt, wobei viele Beispiele mit den Programmen SAS und R gel¨ost werden. Im ersten Teil des Buches werden Grundbegriffe der Statistik, sowie kurze Einf¨ uhrungen in SAS und R geboten. In Kapitel 4 beginnt die nichtparametrische Statistik mit ihren Grundlagen. Es folgen die Betrachtung von Einstichprobenproblemen, unabh¨angigen und abh¨ angigen Zweistichprobenproblemen, sowie von unabh¨ angigen und abh¨ angigen Mehrstichproben-Problemen. Abgerundet wird das Bild durch nichtparametrische Verfahren zur Messung von Zusammenh¨angen, zur Dichtesch¨atzung und die Grundlagen der nichtparametrischen Regression. Unter http://www.ifas.jku.at/personal/duller/duller.htm wird ein Link zu diesem Buch angeboten, wo man Erg¨anzungen und ausf¨ uhrlichere L¨ osungen zu den Beispielen findet. Mein Dank gilt den Studierenden der Lehrveranstaltung Nichtparametrische Verfahren, die wertvolle Vorarbeiten f¨ ur dieses Buch geleistet haben: Michaela Dvorzak, Thomas Forstner, Christoph Freudenthaler, Christina Hadinger, Bernhard Kaiser, Karin Kepplinger, Wolfgang Pointner, Birgit Rauchenschwandtner, Mario Schnalzenberger, Nadine Schwerer, Christine Sickinger und Julia Szolga. F¨ ur die m¨ uhevolle Erstellung und Korrektur der Tabellen danke ich unseren Institutsmitarbeiterinnen Agnes Fussl und Margarete Wolfesberger. Meinem Kollegen Herrn Dr. Christoph Pamminger danke ich f¨ ur das Korrekturlesen des Manuskriptes.

VI

Vorwort

Dem Physica-Verlag aus dem Hause Springer m¨ ochte ich danken f¨ ur die Erstellung dieses Lehrbuches und die gute und problemlose Zusammenarbeit, insbesondere gilt mein Dank Frau Dipl.-Math. Lilith Braun und Frau Christiane Beisel, die durch ihre Unterst¨ utzung dieses Buch erst erm¨oglicht haben. ¨ Uber Anregungen meiner Leserinnen und Leser w¨ urde ich mich sehr freuen ([email protected]). Ich w¨ unsche allen viel Spaß mit der nichtparametrischen Statistik.

Linz, Juli 2008

Christine Duller

Inhaltsverzeichnis

1

Statistische Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.1 Skalenniveaus von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2 Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

1.3 Eindimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.4 Mehrdimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

1.5 Momente, Quantile und weitere Maßzahlen . . . . . . . . . . . . . . . . . 10 1.6 Induktive Statistik: Sch¨ atzen von Parametern . . . . . . . . . . . . . . . 12 1.7 Grundbegriffe der Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2

Einf¨ uhrung in SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.1 BenutzerInnen-Oberfl¨ ache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2 Programmaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.3 Der DATA-Step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.1 Tempor¨ are und permanente Datens¨atze . . . . . . . . . . . . . . 25 2.3.2 Aufbau eines Datensatzes . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.3 Datenerzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3.4 Einlesen von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.3.5 Einlesen von externen Daten . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.6 Transformieren von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3.7 Erzeugen von Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4 Der PROC-Step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.1 Optionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.2 Anweisungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

VIII

Inhaltsverzeichnis

2.4.3 Hilfsprozeduren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.5 Globale Anweisungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.6 Aufbereitung der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.6.1 Textausgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.6.2 Grafikprozeduren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.6.3 Grafiken gestalten und exportieren . . . . . . . . . . . . . . . . . . 45 2.6.4 Das Output-Delivery-System (ODS) . . . . . . . . . . . . . . . . . 48 2.7 Grundlagen der Statistik mit SAS . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.7.1 Eindimensionale Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.7.2 Kontingenztafeln und Zusammenhangsmaße . . . . . . . . . . 52 3

Einf¨ uhrung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.1 Installation und Konfiguration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.2 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.2.1 Zuweisungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.2.2 Objekte und Workspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.2.3 Datentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.2.4 Hilfesystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.2.5 Pakete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.3 Datenstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.3.1 Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.3.2 Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.3.3 Arrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.3.4 Listen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.3.5 Data Frames, Datens¨atze . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4 Konstrukte f¨ ur den Programmablauf . . . . . . . . . . . . . . . . . . . . . . . 66 3.4.1 Verzweigungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.4.2 Schleifen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.5 Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.6 Datenimport und -export . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.7 Statistik mit R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.8 Grafiken in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.9 Editoren und grafische Benutzeroberfl¨ achen (GUIs) . . . . . . . . . . 79

Inhaltsverzeichnis

4

IX

Geordnete Statistiken und Rangstatistiken . . . . . . . . . . . . . . . . 81 4.1 Bindungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.2 Empirische und theoretische Verteilungsfunktion . . . . . . . . . . . . 87 4.3 Verteilung der R¨ ange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.4 Verteilung der Ordnungsstatistiken . . . . . . . . . . . . . . . . . . . . . . . . 93 4.5 Verteilung des Medians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.6 Konfidenzintervalle f¨ ur Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5

Einstichprobenprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.1 Tests auf Verteilungsanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.1.1 Kolmogorov-Smirnov-Test . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.1.2 Lilliefors-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.1.3 Chi-Quadrat-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.1.4 Anderson-Darling-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 5.1.5 Cram´er-von-Mises-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 5.1.6 Shapiro-Wilk-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 ¨ 5.1.7 Ubersicht Tests auf Verteilungsanpassung . . . . . . . . . . . . 122 5.1.8 Test auf Verteilungsanpassung in SAS . . . . . . . . . . . . . . . . 124 5.1.9 Test auf Verteilungsanpassung in R . . . . . . . . . . . . . . . . . . 126 5.2 Binomialtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.3 Lineare Rangtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 5.3.1 Das allgemeine Prinzip linearer Rangstatistiken . . . . . . . 134 5.3.2 Der Vorzeichentest (Sign-Test) . . . . . . . . . . . . . . . . . . . . . . 135 5.3.3 Wilcoxon-Vorzeichen-Rangtest . . . . . . . . . . . . . . . . . . . . . . 138 5.4 Test auf Zuf¨ alligkeit - Wald-Wolfowitz-Test . . . . . . . . . . . . . . . . . 141 ¨ 5.5 Ubersicht Tests f¨ ur Einstichprobenprobleme . . . . . . . . . . . . . . . . 144 5.6 Konfidenzbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 5.6.1 Konfidenzbereich f¨ ur die Verteilungsfunktion . . . . . . . . . . 146 5.6.2 Konfidenzintervall f¨ ur einen Anteil (bzw. Wahrscheinlichkeit) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

X

6

Inhaltsverzeichnis

Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben . . . . 151 6.1 Tests auf Verteilungsanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.1.1 Iterationstest von Wald-Wolfowitz . . . . . . . . . . . . . . . . . . . 152 6.1.2 Kolmogorov-Smirnov-Test . . . . . . . . . . . . . . . . . . . . . . . . . . 156 6.1.3 Cram´er-von-Mises-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 6.2 Die Lineare Rangstatistik (Zweistichprobenfall) . . . . . . . . . . . . . 163 6.3 Lineare Rangtests f¨ ur Lagealternativen . . . . . . . . . . . . . . . . . . . . . 165 6.3.1 Wilcoxon-Rangsummentest . . . . . . . . . . . . . . . . . . . . . . . . . 165 6.3.2 Mann-Whitney-U-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 6.3.3 Van der Waerden-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 6.3.4 Median-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 6.4 Lineare Rangtests f¨ ur Variabilit¨ atsanalysen . . . . . . . . . . . . . . . . . 181 6.4.1 Siegel-Tukey-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 6.4.2 Mood-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 6.4.3 Ansari-Bradley-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 6.5 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 6.5.1 Konfidenzintervall f¨ ur die Lageverschiebung θ . . . . . . . . . 189 6.5.2 Konfidenzintervall f¨ ur den Variabilit¨ atsunterschied θ . . . 191 ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

7

Zweistichprobenprobleme f¨ ur verbundene Stichproben . . . . . 195 7.1 Problembeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 7.2 Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 7.3 Wilcoxon-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 7.4 McNemar-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 7.5 Konfidenzintervalle f¨ ur den Median der Differenz . . . . . . . . . . . . 207 7.5.1 Basis Ordnungsreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 7.5.2 Basis Wilcoxon-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

8

c-Stichproben-Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 8.1 Unabh¨ angige Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 8.1.1 Kruskal-Wallis-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 8.1.2 Mediantest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

Inhaltsverzeichnis

XI

8.1.3 Jonckheere-Terpstra-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 8.2 Abh¨ angige Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 8.2.1 Friedman-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 8.2.2 Kendall-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 8.2.3 Q-Test von Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 8.2.4 Durbin-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 8.2.5 Trendtest von Page . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 8.2.6 Quade-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 9

Unabh¨ angigkeit und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 9.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 9.2 Chi-Quadrat-Test auf Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . 245 9.3 Fisher-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 9.4 Rangkorrelation nach Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 9.5 Korrelationskoeffizient von Kendall . . . . . . . . . . . . . . . . . . . . . . . . 257 9.6 Korrelationskoeffizient nach Bravais-Pearson . . . . . . . . . . . . . . . . 262 9.7 Grafische Darstellung zweier metrischer Merkmale . . . . . . . . . . . 267 9.8 Korrelation und Kausalit¨ at . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 9.9 Tipps und Tricks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271

10 Nichtparametrische Dichtesch¨ atzung und Regression . . . . . . . 273 10.1 Nichtparametrische Dichtesch¨atzung . . . . . . . . . . . . . . . . . . . . . . . 273 10.1.1 Das Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 10.1.2 Kerndichtesch¨ atzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 10.1.3 Eigenschaften von Kerndichtesch¨ atzer . . . . . . . . . . . . . . . . 285 10.1.4 Wahl der optimalen Bandbreite . . . . . . . . . . . . . . . . . . . . . 287 10.2 Nichtparametrische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 10.2.1 Lineare Regression - Kleinst-Quadrat-Sch¨ atzung . . . . . . . 292 10.2.2 Lineare Regression - Verfahren von Theil . . . . . . . . . . . . . 297 10.2.3 Nichtlineares Regressionsmodell . . . . . . . . . . . . . . . . . . . . . 305 ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308

XII

Inhaltsverzeichnis

¨ L¨ osungen zu den Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 11.1 Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 11.2 Student-Verteilung (t-Verteilung) . . . . . . . . . . . . . . . . . . . . . . . . . 351 11.3 Chi-Qudrat-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 11.4 Kolmogorov-Smirnov-Anpassungstest . . . . . . . . . . . . . . . . . . . . . 354 11.5 Lilliefors-Test auf Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . 355 11.6 Wilcoxon-Vorzeichen-Rangtest . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 11.7 Wald-Wolfowitz-Iterationstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 11.8 Kolmogorov-Smirnov-Zweistichprobentest (m = n) . . . . . . . . . . 358 11.9 Kolmogorov-Smirnov-Zweistichprobentest (m = n) . . . . . . . . . . 359 11.10 Cram´er Zweistichprobentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 11.11 Wilcoxon-(Rangsummen-)Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 11.12 Van der Waerden-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 11.13 Mood-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376 11.14 Kruskal-Wallis-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383 11.15 Jonckheere-Terpstra-Test ni = nj . . . . . . . . . . . . . . . . . . . . . . . . . 385 11.16 Jonckheere-Terpstra-Test ni = nj . . . . . . . . . . . . . . . . . . . . . . . . . 388 11.17 Friedman-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390 11.18 Hotelling-Pabst-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395 11.19 Kendalls S-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407

1 Statistische Grundbegriffe

In diesem Kapitel werden jene statistische Grundbegriffe kurz erl¨autert, die in diesem Buch verwendet werden. Es dient ausschließlich der Auffrischung von bereits erworbenen Basiswissen in Statistik. F¨ ur den Erwerb des Basiswissens sei an dieser Stelle auf einf¨ uhrende Werke verwiesen, welche die ersten Schritte in die Statistik erleichtern (z.B. Fahrmeir, L. und Tutz (2001), Fahrmeir, L., K¨ unstler, Pigeot und Tutz (2004), Fahrmeir, L., K¨ unstler, Pigeot, Tutz, Caputo und Lang (2005) oder Hartung, J., Elpelt und Kl¨ osner (2005)).

1.1 Skalenniveaus von Merkmalen Hinsichtlich des Skalenniveaus werden metrische, ordinale und nominale Merkmale unterschieden. Ein Merkmal heißt metrisch (= quantitativ, kardinalskaliert), wenn seine Auspr¨ agungen Vielfache einer Einheit sind (z.B. L¨ ange, Einkommen). Die Auspr¨ agungen sind voneinander verschieden, haben eine eindeutige Anordnung und einen eindeutig definierten Abstand. Bei metrischen Merkmalen kann man zwischen intervallskalierten und verh¨ altnisskalierten Merkmalen unterscheiden. Bei verh¨ altnisskalierten Merkmalen gibt es einen nat¨ urlichen Nullpunkt (z.B. Preis) und das Verh¨altnis zweier Auspr¨ agungen l¨asst sich sinnvoll interpretieren (Produkt A ist doppelt so teuer wie Produkt B). Intervallskalierte Merkmale haben keinen nat¨ urlichen Nullpunkt, daher k¨ onnen auch Verh¨ altnisse nicht sinnvoll interpretiert werden (z.B. Temperatur in Grad Celsius). Ein Merkmal heißt ordinal, wenn die Auspr¨ agungen nur in einer Ordnungsbeziehung wie gr¨ oßer, kleiner, besser oder schlechter zueinander stehen

2

1 Statistische Grundbegriffe

(z.B. Schulnoten, G¨ uteklassen). Die Auspr¨agungen sind voneinander verschieden und haben eine eindeutige Anordnung. Der Abstand zweier Merkmalsauspr¨ agungen ist hingegen nicht klar definiert und daher auch nicht interpretierbar. Ein Merkmal heißt nominal, wenn seine Auspr¨ agungen nicht in eindeutiger Weise geordnet werden k¨onnen, sondern nur durch ihre Bezeichnungen unterschieden sind (z.B. Geschlecht, Familienstand, Beruf). Die Auspr¨ agungen sind voneinander verschieden, es gibt keine eindeutige Anordnung, der Abstand zweier Merkmalsauspr¨ agungen ist nicht definiert. Diese Merkmale werden auch als qualitative oder kategoriale Merkmale bezeichnet. Das Skalenniveau eines Merkmals bestimmt, welche Verfahren und Berechnungen im Umgang mit dem Merkmal zul¨ assig sind.

Stetige und diskrete Merkmale Ein Merkmal heißt stetig, wenn seine Auspr¨ agungen beliebige Zahlenwerte aus einem Intervall annehmen k¨ onnen (z.B. L¨ ange, Gewicht). Ein Merkmal heißt diskret, wenn seine Auspr¨ agungen bei geeigneter Skalierung (bzw. Kodierung) nur ganzzahlige Werte annehmen k¨ onnen (z.B. Fehlerzahlen, Schulnoten, Geschlecht). Diskrete Merkmale haben abz¨ahlbar viele Auspr¨ agungen. Dichotome Merkmale sind eine Sonderform von diskreten Merkmalen und besitzen nur zwei Auspr¨agungen (z.B. Geschlecht). Von quasistetigen Merkmalen spricht man bei Merkmalen, die aufgrund der Definition diskret sind, gleichzeitig aber u ¨ber eine so feine Abstufung verf¨ ugen, dass man sie als stetige Merkmale behandeln kann. Insbesondere z¨ahlen hierzu alle monet¨aren Merkmale (Preis, Kredith¨ohe, Miete, . . .). Die Bezeichnung diskretisierte Merkmale wird verwendet, wenn stetige Merkmale nur in diskreter Form erfasst werden, beispielsweise die Frage nach dem Alter in ganzen Jahren. Die Zusammenfassung von Auspr¨ agungen eines Merkmals in Gruppen wird als Gruppieren bezeichnet.

1.2 Wahrscheinlichkeitsrechnung In der Wahrscheinlichkeitsrechnung betrachtet man Experimente mit ungewissem Ausgang und versucht, ihre Gesetzm¨aßigkeiten zu beschreiben.

1.2 Wahrscheinlichkeitsrechnung

3

Zufallsexperiment Ein Zufallsexperiment ist ein Vorgang, bei dem ein nicht vollst¨andig vorhersehbarer Ausgang aus einer Menge prinzipiell m¨ oglicher Ausg¨ange realisiert wird. Weiters muss ein Zufallsexperiment unter gleichen Bedingungen wiederholbar sein. Zur mathematischen Beschreibung solcher Zufallsexperimente bedient man sich h¨ aufig der Mengenlehre. Zufallsvariable Das Merkmal X, das den Ausgang eines Zufallsexperimentes beschreibt, nennt man zuf¨ alliges Merkmal oder Zufallsvariable. Wertebereich Die Gesamtheit der f¨ ur diese Zufallsvariable X m¨oglichen Auspr¨agungen ist der Wertebereich ΩX . Ereignis Jede Teilmenge E des Wertebereiches ΩX entspricht einem Ereignis. Disjunkte Ereignisse Zwei Ereignisse E1 und E2 heißen disjunkt oder elementfremd, wenn der Durchschnitt der beiden Mengen die leere Menge ist (E1 ∩ E2 = {}). Paarweise disjunkte Ereignisse Mehrere Ereignisse Ei heißen paarweise disjunkt, wenn alle m¨oglichen Paare von Ereignissen disjunkt sind. Komplement¨ arereignis Das Komplement¨arereignis E C tritt genau dann ein, wenn das Ereignis E nicht eintritt. Zerlegung Mehrere Ereignisse Ei heißen Zerlegung des Wertebereiches ΩX , wenn die Ereignisse Ei paarweise disjunkt sind und die Vereinigung aller Ereignisse wieder den Wertebereich ergibt. Grundlage f¨ ur das Rechnen mit Wahrscheinlichkeiten sind die Axiome von Kolmogorov. Das Wort Axiom bedeutet Grundwahrheit, in der Mathematik meint man damit Aussagen, die keinen Beweis ben¨otigen. Aus diesen Axiomen lassen sich dann weitere Aussagen ableiten, deren G¨ ultigkeit allerdings zu beweisen ist.

Axiome von Kolmogorov Die Axiome von Kolmogorov beschreiben in mathematischer Form die Eigenschaften einer Wahrscheinlichkeitsverteilung. Alle Wahrscheinlichkeitsverteilungen erf¨ ullen diese drei Axiome.

4

1 Statistische Grundbegriffe

Axiome von Kolmogorov 1. 0 ≤ P r(E) ≤ 1 f¨ ur alle Ereignisse E ⊆ Ω 2. P r({}) = 0 und P r(Ω) = 1 3. P r(E1 ∪ E2 ) = P r(E1 ) + P r(E2 ) f¨ ur disjunkte Ereignisse E1 ⊆ Ω und E2 ⊆ Ω Verbal ausgedr¨ uckt bedeuten diese Axiome Folgendes: 1. F¨ ur alle Ereignisse liegt die Wahrscheinlichkeit des Eintreffens immer zwischen 0 und 1. 2. Das unm¨ogliche Ereignis tritt mit der Wahrscheinlichkeit null ein, und das sichere Ereignis tritt mit der Wahrscheinlichkeit 1, also 100%, ein. 3. Sind zwei Ereignisse disjunkt, so kann die Wahrscheinlichkeit daf¨ ur, dass das Ereignis 1 oder das Ereignis 2 eintritt, als Summe der beiden Einzelwahrscheinlichkeiten berechnet werden. Aus den Axiomen von Kolmogorov lassen sich weitere Rechenregeln ableiten: Rechenregeln 1. P r(E C ) = 1 − P r(E) 2. P r(E1 ∪ E2 ) = P r(E1 ) + P r(E2 ) − P r(E1 ∩ E2 ) 3. P r(

k 

i=1

Ei ) =

k 

P r(Ei ) f¨ ur k paarweise disjunkte Ereignisse Ei .

i=1

4. P r(E1 \E2 ) = P r(E1 ) − P r(E1 ∩ E2 ) Anmerkungen zu diesen Rechenregeln: 1. P r(E C ) wird als Gegenwahrscheinlichkeit des Ereignisses E bezeichnet. 2. Dieser Additionssatz ist eine Erweiterung des dritten Axioms auf beliebige (disjunkte und nicht disjunkte) Ereignisse. 3. Dies ist eine Erweiterung des dritten Axioms auf eine beliebige Anzahl von disjunkten Ereignissen. 4. Dies ist eine Erweiterung der Gegenwahrscheinlichkeit, f¨ ur E1 = Ω erh¨alt man die erste Rechenregel.

1.2 Wahrscheinlichkeitsrechnung

5

Bedingte Wahrscheinlichkeiten Mit P r(A|B) bezeichnet man die Wahrscheinlichkeit f¨ ur das Ereignis A unter der Bedingung, dass B bereits eingetreten ist. Durch die zus¨ atzliche Information kann sich die Wahrscheinlichkeit f¨ ur das interessierende Ereignis ver¨ andern. Bedingte Wahrscheinlichkeit F¨ ur Ereignisse A, B ⊆ Ω mit P r(B) > 0 gilt: P r(A|B) =

P r(A ∩ B) P r(B)

Aus der Definition der bedingten Wahrscheinlichkeit l¨ asst sich durch Umformung die Produktregel ableiten. Produktregel F¨ ur Ereignisse A, B ⊆ Ω mit P r(B) > 0 gilt: P r(A ∩ B) = P r(A|B) · P r(B)

Stochastisch unabh¨ angige Ereignisse Zwei Ereignisse sind stochastisch unabh¨ angig, wenn der Ausgang des einen Ereignisses die Wahrscheinlichkeit f¨ ur das Eintreten des anderen Ereignisses nicht beeinflusst. Multiplikationsregel F¨ ur stochastisch unabh¨angige Ereignisse A, B ⊆ Ω gilt: P r(A ∩ B) = P r(A) · P r(B) Von einem unm¨ oglichen Ereignis ist per Definition jedes Ereignis unabh¨ angig. Aus der Multiplikationsregel folgt f¨ ur stochastisch unabh¨ angige Ereignisse A und B auch P r(A|B) = P r(A) und P r(B|A) = P r(B).

6

1 Statistische Grundbegriffe

Das Theorem von Bayes In manchen Aufgabenstellungen kann es passieren, dass man Informationen u ¨ ber bedingte Ereignisse hat, aber die Wahrscheinlichkeit f¨ ur das Eintreten des Ereignisses ohne Bedingung vorerst unbekannt ist. Um diese zu berechnen, ben¨ otigen wir den Begriff der Zerlegung und den Satz von der totalen Wahrscheinlichkeit. Satz von der totalen Wahrscheinlichkeit Die Ereignisse E1 , . . . , Er seien eine Zerlegung des Wertebereiches Ω. Dann gilt f¨ ur A ⊆ Ω P r(A) =

r 

P r(A|Ei ) · P r(Ei )

i=1

Unser n¨ achstes Ziel ist es, in der bedingten Wahrscheinlichkeit Bedingung und bedingtes Ereignis quasi zu tauschen. Zur Beantwortung dieser Frage ben¨ otigen wir die Definition der bedingten Wahrscheinlichkeit P r(E1 |A) =

P r(E1 ∩ A) P r(A)

Stellt man den Z¨ ahler mit dem Produktsatz dar und verwendet f¨ ur den Nenner den Satz der totalen Wahrscheinlichkeit, so erh¨alt man einen Zusammenhang, der als Satz von Bayes bezeichnet wird: Satz von Bayes Die Ereignisse E1 , . . . , Er seien eine Zerlegung des Wertebereiches Ω. F¨ ur mindestens ein i gilt P r(Ei ) > 0 und P r(A|Ei ) > 0. Dann gilt:

P r(Ei |A) =

P r(A|Ei ) · P r(Ei ) P r(A|Ei ) · P r(Ei ) =  r P r(A) P r(A|Ei ) · P r(Ei ) i=1

P r(Ei )

a-priori Wahrscheinlichkeit

P r(Ei |A)

a-posteriori Wahrscheinlichkeit

1.3 Eindimensionale Verteilungen

7

1.3 Eindimensionale Verteilungen Gegeben sei eine diskrete Zufallsvariable X mit dem Wertebereich Ω. Man nennt jene Funktion f (x), die jedem Elementarereignis i ∈ Ω seine Wahrscheinlichkeit P r(X = i) zuordnet, die Dichte einer diskreten Zufallsvariable. Dichte einer diskreten Zufallsvariable  P r(X = i) f¨ ur x = i f (x) = 0 sonst

(∈ Ω)

Eigenschaften der Dichte f (i) = P r(X = i) ≥ 0  i∈Ω



f (i) =

Nichtnegativit¨ at

P r(X = i) = 1

Normierung

i∈Ω

Jene Funktion F (i), die jedem Elementarereignis i die Wahrscheinlichkeit daf¨ ur zuordnet, dass bei einem Versuch ein Ausgang x ≤ i beobachtet wird, nennt man die Verteilungsfunktion der Wahrscheinlichkeitsverteilung. Die Verteilungsfunktion ist stets nichtnegativ und monoton steigend. Verteilungsfunktion einer diskreten Zufallsvariable F (i) = P r(X ≤ i) =

i 

P r(X = j)

j=1

Eigenschaften der Verteilungsfunktion F (i) = P r(x ≤ i) F (i) ≤ F (i + 1)

≥0

∀i∈Ω

Nichtnegativit¨ at monoton steigend

Bei stetigen Zufallsvariablen entspricht die Dichte an der Stelle x nicht der Wahrscheinlichkeit des Ereignisses x, wie es bei diskreten Zufallsvariablen der Fall ist. Die Wahrscheinlichkeit von Ereignissen kann bei stetigen Zufallsvariablen nur u ¨ber das Integral der Dichte berechnet werden.

8

1 Statistische Grundbegriffe

Dichte einer stetigen Zufallsvariable Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f (x) ≥ 0 gibt, sodass f¨ ur jedes Intervall [a, b] b P r(a ≤ x ≤ b) =

f (x)dx a

gilt. Die Funktion f (x) wird als Dichte bezeichnet. Ein einzelner Versuchsausgang besitzt eine Dichte, aber keine von Null verschiedene Wahrscheinlichkeit. F¨ ur stetige Zufallsvariablen gilt: •

P r(a ≤ x ≤ b) = P r(a ≤ x < b) = P r(a < x ≤ b) = P r(a < x < b)



P r(X = x) = 0

f¨ ur alle x ∈ R

Eigenschaften der Dichte •

Nichtnegativit¨ at:



Normierung:

f (x) ≥ 0 +∞ 

f¨ ur alle x ∈ R

f (x)dx = 1

−∞

Verteilungsfunktion einer stetigen Zufallsvariable Die Funktion F (a) = P r(x ≤ a) nennt man die Verteilungsfunktion der Wahrscheinlichkeitsverteilung von X a F (a) = P r(x ≤ a) =

f (x)dx −∞

F (a) gibt die Wahrscheinlichkeit an, eine Auspr¨ agung kleiner oder gleich a zu beobachten. Eigenschaften einer stetigen Verteilungsfunktion: • •

F (a) ist stetig und monoton wachsend mit Werten im Intervall [0, 1] lim F (x) = 0 und lim F (x) = 1

x→−∞

x→∞

1.4 Mehrdimensionale Verteilungen

9



P r(a ≤ x ≤ b) = F (b) − F (a) und P r(x ≥ a) = 1 − F (a)



F¨ ur alle Werte x, f¨ ur die f (x) stetig ist, ist die Dichte die Ableitung der Verteilungsfunktion F  (x) = f (x)

Eine Zufallsvariable X heißt symmetrisch verteilt um den Punkt x0 , wenn f¨ ur alle x gilt P r(X ≤ x0 − x) = P r(X ≥ x0 + x)

Eine Zufallsvariable X heißt stochastisch gr¨ oßer als eine Zufallsvariable Y , wenn f¨ ur alle z gilt FX (z) ≤ FY (z) wenn also f¨ ur beliebige Werte die Verteilungsfunktion von X h¨ ochstens so groß ist wie die Verteilungsfunktion von Y .

1.4 Mehrdimensionale Verteilungen Sind X und Y zwei Zufallsvariablen, so ist die gemeinsame Verteilungsfunktion FX,Y definiert durch FX,Y (x, y) = P r ((X ≤ x) ∩ (Y ≤ y)) und gibt die Wahrscheinlichkeit daf¨ ur an, dass die Zufallsvariable X h¨ ochstens die Auspr¨agung x und die Zufallsvariable Y h¨ ochstens die Auspr¨agung y annimmt. Dem entsprechend ist FX1 ,...,Xn (x1 , . . . , xn ) = P r ((X1 ≤ x1 ) ∩ . . . ∩ (Xn ≤ xn )) die gemeinsame Verteilungsfunktion der Zufallsvariablen X1 , . . . , Xn . Die Zufallsvariablen X1 , . . . , Xn haben eine gemeinsame stetige Verteilung, wenn es eine Funktion fX1 ,...,Xn gibt, so dass f¨ ur alle (x1 , . . . , xn ) gilt  x1  xn FX1 ,...,Xn (x1 , . . . , xn ) = ... fX1 ,...,Xn (t1 , . . . , tn )dt1 . . . dtn −∞

−∞

Bei gemeinsamer stetiger Verteilung ergibt sich die Dichte der (stetigen) Randverteilungen aus  ∞  ∞ fXi (xi ) = ... fX1 ,...,Xn (x1 , . . . , xn )dx1 . . . dxi−1 dxi+1 . . . dxn −∞

−∞

10

1 Statistische Grundbegriffe

Bei Unabh¨ angigkeit entspricht die gemeinsame Dichte (Verteilungsfunktion) dem Produkt der einzelnen Dichten (Verteilungsfunktionen), also FX1 ,...,Xn (x1 , . . . , xn ) = FX1 (x1 )FX2 (x2 ) · · · FXn (xn ) fX1 ,...,Xn (x1 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn )

1.5 Momente, Quantile und weitere Maßzahlen Verteilungen werden oft durch Maßzahlen der Position (Erwartungswert, Median, Quantile) oder der Variabilit¨ at (Varianz, Standardabweichung) beschrieben. Der Zusammenhang zweier Zufallsvariablen wird durch Kovarianz und Korrelationskoeffizient beschrieben. Erwartungswert und Varianz X diskret

E(X) =

r 

xi P r(xi )

i=1

V ar(X) =

r 

(xi − E(X))2 P r(xi )

i=1

∞ X stetig

xf (x)dx

E(X) = −∞

∞ V ar(X) =

(x − E(X))2 f (x)dx

−∞

Es gilt: •

E(X + Y ) = E(X) + E(Y ), E(cX) = cE(X)



V ar(cX) = c2 V ar(X), V ar(X + c) = V ar(X)



X und Y unkorreliert ⇔ E(XY ) = E(X)E(Y )



X und Y unabh¨ angig ⇒ X und Y unkorreliert (Umkehrung muss nicht gelten)



Sind X und Y unkorreliert, so ist V ar(X + Y ) = V ar(X) + V ar(Y )  V ar(X) heißt Standardabweichung



1.5 Momente, Quantile und weitere Maßzahlen

11

Quantile unterteilen die Daten in Gruppen, so dass ein bestimmter Prozentsatz u ¨ ber und ein bestimmter Prozentsatz unter dem Quantil liegt.

fx

p

1p

x0,5 x p

x

Fx 1 p 0,5

x 0,5 x p

x

Abb. 1.1. Dichte und Verteilungsfunktion, jeweils mit Median und p-Quantil

Das p-Quantil ist somit jeder Wert xp , f¨ ur den mindestens der Anteil p der Daten kleiner oder gleich xp und mindestens der Anteil 1 − p der Daten gr¨oßer oder gleich xp ist. Das 0.5-Quantil wird als Median (= 2. Quartil) bezeichnet, weitere wichtige Quantile sind das untere Quartil x0.25 (= 1. Quartil) und das obere Quartil x0.75 (= 3. Quartil). F¨ ur das p-Quantil xp einer quantitativen Variablen gilt (mit 0 < p < 1) P r(x < xp ) ≤ p ≤ P r(x ≤ xp )

Erwartungswert und Varianz sind Spezialf¨ alle der so genannten Momente einer Verteilung. Es seien X eine Zufallsvariable, k eine nat¨ urliche und r eine reelle Zahl. Dann bezeichnet mk (r) = E((X − r)r ) das Moment k-ter Ordnung bez¨ uglich r. Den Spezialfall r = 0 bezeichnet man als gew¨ ohnliches Moment, f¨ ur r = E(X) erh¨alt man die zentralen Momente.

12

1 Statistische Grundbegriffe

F¨ ur zwei Zufallsvariablen X und Y ist die Kovarianz von X und Y definiert als Cov(X, Y ) = E ( [X − E(X)] [Y − E(Y )] ) und der Korrelationskoeffizient durch Cov(X, Y )  ρXY = Corr(X, Y ) =  V ar(X) V ar(Y ) Es gilt: •

Cov(X, Y ) = E(XY ) − E(X)E(Y )

• •

X und Y unkorreliert ⇔ Cov(X, Y ) = 0  Ungleichung von Cauchy-Schwarz |Cov(X, Y )| ≤ V ar(X)V ar(Y )



X und Y unkorreliert ⇔ ρ = 0



V ar(X + Y ) = V ar(Y ) + V ar(Y ) + 2 Cov(X, Y )

1.6 Induktive Statistik: Sch¨ atzen von Parametern Die schließende Statistik umfasst die beiden Teilbereiche Sch¨ atzen und Testen. Grundlage der Analyse ist in beiden F¨ allen eine Zufallsstichprobe aus der Grundgesamtheit. Alle hier vorgestellten Formeln und Verfahren beruhen auf dem Vorliegen einer einfachen Zufallsauswahl. Schließende Statistik Wesentliche Voraussetzung f¨ ur die Verfahren der schließenden Statistik ist das Vorliegen einer Zufallsstichprobe. Die schließende Statistik stellt Methoden bereit, die einen R¨ uckschluss von einer Stichprobe auf die Grundgesamtheit zulassen.

Parametersch¨ atzung Fast alle Wahrscheinlichkeitsverteilungen haben einen oder mehrere Parameter als Bestimmungsgr¨ oßen, die in den Verteilungs- bzw. Dichtefunktionen als Konstanten auftreten (z.B. f¨ ur die Normalverteilung µ und σ 2 ). Zus¨ atzlich werden auch Erwartungswert, Varianz, Momente etc. als Parameter bezeichnet, auch wenn sie nicht explizit in der Dichte- oder Verteilungsfunktion verwendet werden. Ein Parameter θ wird als Lageparameter der Zufallsvariablen X bezeichnet, wenn die Verteilung X − θ nicht mehr von θ abh¨ angt. Ein

1.6 Induktive Statistik: Sch¨ atzen von Parametern

13

Parameter θ wird als Variabilit¨ atsparameter (Skalenparameter) der Zufallsvariablen X bezeichnet, wenn die Verteilung Xθ nicht mehr von θ abh¨ angt. Ist X eine Zufallsvariable mit Erwartungswert E(X) = µ und Varianz V ar(X) = σ 2 , dann erh¨ alt man durch Transformation Z = X−µ eine stanσ dardisierte Zufallsvariable mit E(Z) = 0 und V ar(Z) = 1. Ist der Parameter θ nicht bekannt, so muss er mit Hilfe eines Sch¨ atzers θˆ bestimmt werden. Diese Sch¨ atzer sollen gewisse G¨ utekriterien erf¨ ullen. G¨ utekriterien f¨ ur Sch¨ atzer •

Erwartungstreue Der Erwartungswert des Sch¨ atzers entspricht dem gesuchten Parameter.  ˆ = ˆ r(θ) ˆ =θ E(θ) θP



Konsistenz Mit zunehmendem Stichprobenumfang wird die Varianz des Sch¨ atzers kleiner. lim V ar(θˆn ) = 0 n→∞



Effizienz Ein effizienter Sch¨ atzer ist erwartungstreu und es gibt keinen erwartungstreuen Sch¨atzer mit kleinerer Varianz (erwartungstreu und minimal variant).



Suffizienz Ein suffizienter Sch¨ atzer enth¨ alt alle Informationen (aus den Daten) u ¨ ber den gesuchten Parameter (ersch¨opfend).



Vollst¨ andigkeit Ein vollst¨andiger Sch¨ atzer enth¨ alt ausschließlich Informationen u ¨ ber den gesuchten Parameter.

Sch¨ atzer werden oft mit der Maximum-Likelihood-Methode bestimmt. Als Sch¨atzer θˆ wird dabei jener Wert bestimmt, der die Likelihoodfunktion L(x1 , . . . , xn ; θ) = f (x1 ; θ)f (x2 ; θ) . . . f (xn ; θ) bez¨ uglich θ bei gegebener Stichprobe x1 , . . . , xn maximiert. Die Likelihoodfunktion kann im diskreten Fall als Wahrscheinlichkeit f¨ ur das Auftreten der konkreten Stichprobe x1 , . . . , xn interpretiert werden. Damit bestimmt die Maximum-Likelihood-Methode den Sch¨ atzer f¨ ur den Parameter so, dass die Wahrscheinlichkeit f¨ ur die konkrete Stichprobe m¨ oglichst groß wird.

14

1 Statistische Grundbegriffe

F¨ ur die Bestimmung des Sch¨atzers wird die Likelihoodfunktion (oder aus mathematischen Gr¨ unden auch die logarithmierte Likelihoodfunktion) bez¨ uglich θ differenziert und gleich Null gesetzt. Aus der Umformung ergibt sich dann der Sch¨ atzer f¨ ur den Parameter. Beispiel 1.1. Maximum-Likelihood-Sch¨ atzer Binomialverteilung Gegeben ist ein Urnenmodell mit Zur¨ ucklegen, die konkrete Ziehung von n Kugeln ergab h markierte Kugeln ( Erfolge“). Gesucht ist ein Sch¨ atzer f¨ ur ” den Parameter p der Binomialverteilung.  n h L(n, h; p) = p (1 − p)n−h h In diesem Fall wird die logarithmierte Likelihoodfunktion verwendet, weil das Differenzieren dadurch wesentlich einfacher wird:  n ln L(n, h; p) = ln + h ln p + (n − h) ln(1 − p) h ∂ ln L h n−h = + (−1) = 0 ∂p p 1−p h − hp − np + hp = 0 und damit

h n Die relative H¨ aufigkeit ist demnach der ML-Sch¨atzer f¨ ur den Parameter p einer Binomialverteilung. pˆ =

Der Nachteil von Punktsch¨ atzern (also Sch¨ atzern, die aus einer einzelnen Zahl bestehen) liegt darin, dass man wenig Informationen u ¨ ber die Qualit¨ at der Sch¨ atzung hat. Mehr Information bieten Intervalle, welche den gesuchten Parameter mit einer vorgegebenen Wahrscheinlichkeit 1 − α u ¨ berdecken. Solche Intervalle bezeichnet man als Bereichsch¨atzer oder Konfidenzinterval¨ le. Ubliche α-Werte f¨ ur die Konstruktion von Konfidenzintervallen sind 0.01, 0.05 oder 0.10.

1.7 Grundbegriffe der Testtheorie Ein statistischer Test ist eine Regel zur Entscheidung bei Unsicherheit. Diese Unsicherheit liegt vor, weil man keine Kenntnisse u ¨ ber die Grundgesamtheit hat, sondern nur u ¨ ber eine Stichprobe. Die Entscheidung ist zwischen zwei

1.7 Grundbegriffe der Testtheorie

15

Behauptungen zu treffen, die als Hypothesen bezeichnet werden. Beim statistischen Testen bezeichnet man mit H0 die Nullhypothese und mit H1 die Alternativhypothese. Beide Hypothesen beinhalten eine Behauptung u ¨ ber die Grundgesamtheit, wobei die beiden Hypothesen einander ausschließen und erg¨ anzen. Diese Hypothesen k¨ onnen sich beispielsweise auf den Parameter θ einer Verteilung eines Merkmales aus der Grundgesamtheit beziehen. Statistisches Testen Statistischer Test Hypothesen

Entscheidungsregel zwischen zwei Hypothesen Behauptungen u ¨ ber die Grundgesamtheit H0 Nullhypothese, H1 Alternativhypothese schließen einander aus und erg¨ anzen sich

Die Entscheidung f¨ ur eine der beiden Hypothesen ist aufgrund eines Stichprobenergebnisses zu treffen. Damit wird die Entscheidung unter Unsicherheit getroffen und kann daher richtig oder falsch sein. Als Ergebnis eines statistischen Tests formuliert man daher Entscheidung f¨ ur die Nullhypothese“ oder ” Entscheidung f¨ ur die Alternativhypothese“. ” F¨ allt die Entscheidung zugunsten der Alternativhypothese H1 , obwohl in der Grundgesamtheit H0 richtig ist, dann begeht man einen Fehler 1. Art oder α-Fehler. Ein Fehler 2. Art oder β-Fehler entsteht bei der Entscheidung f¨ ur H0 , obwohl in der Grundgesamtheit H1 richtig ist. Entscheidung auf H0 H1 wahr ist

H0 H1

kein Fehler β-Fehler

α-Fehler kein Fehler

Tabelle 1.1. Fehler beim statistischen Testen

Nat¨ urlich sollten diese Fehler so gering wie m¨oglich sein. Allerdings sind die Fehler nicht unabh¨ angig voneinander, ein kleinerer α-Fehler f¨ uhrt zu einem gr¨ oßeren β-Fehler und umgekehrt. Der β-Fehler ist aber nicht als Gegenwahrscheinlichkeit zum α-Fehler anzusetzen, es gilt also im Allgemeinen nicht α + β = 1. Das Ausmaß des α-Fehlers nennt man das Signifikanzniveau des Tests (¨ ublich sind α = 0.10, α = 0.05 oder α = 0.01). Dieses Signifikanzniveau wird vor Durchf¨ uhrung des Tests festgelegt. Signifikanztests sind so konstruiert, dass der Fehler 1. Art maximal 100α% betr¨agt. Damit hat man den α-Fehler unter Kontrolle, den β-Fehler u ¨ blicherweise aber nicht.

16

1 Statistische Grundbegriffe

Fehler beim statistischen Testen α-Fehler

Verwerfen von H0 , obwohl H0 richtig ist Signifikanzniveau des Tests u ¨ blich sind α = 0.10, α = 0.05 oder α = 0.01

β-Fehler

Beibehalten von H0 , obwohl H1 richtig ist

Nun sind die Hypothesen formuliert und wir sind informiert u ¨ber m¨ogliche Fehlentscheidungen. Der n¨ achste Schritt ist die Entscheidung selbst. Ausgangspunkt ist eine m¨oglichst unvoreingenommene Haltung in Form der Nullhypothese. In der Folge wird versucht, in der Stichprobe Indizien daf¨ ur zu finden, dass dieser Ausgangspunkt falsch ist und daher verworfen werden muss. Findet man in der Stichprobe genug Indizien, um die Nullhypothese zu verwerfen, dann entscheidet man sich f¨ ur die Alternativhypothese, ansonsten muss die Nullhypothese beibehalten werden. Arbeitsweise eines statistischen Tests Ausgangspunkt ist immer die Nullhypothese. In der Stichprobe wird nach ausreichenden Indizien gesucht, die eine Ablehnung der Nullhypothese erm¨oglichen. •

Gelingt dies, so kann die Nullhypothese mit Sicherheit 1−α verworfen werden. Man erh¨ alt ein signifikantes Ergebnis zum Niveau 1 − α.



Gelingt dies nicht, so muss (aus Mangel an Beweisen) die Nullhypothese beibehalten werden. Wir erhalten kein signifikantes Ergebnis.

Beim statistischen Testen entscheidet man sich im Zweifel immer f¨ ur die Nullhypothese. Die beiden Hypothesen sind daher in ihrer Konsequenz nicht gleichwertig. Lassen sich in der Stichprobe genug Indizien zur Verwerfung der Nullhypothese finden, dann konnte die Alternativhypothese mit Sicherheit 1 − α nachgewiesen werden. Entscheidungen f¨ ur die Alternativhypothese werden als signifikante Ergebnisse bezeichnet. Sind nicht genug Indizien in der Stichprobe zu finden, m¨ ussen wir uns f¨ ur die Beibehaltung der Nullhypothese entscheiden. Wir haben diese aber nicht nachgewiesen, sondern wir behalten diese nur wegen mangelnder Beweise bei. Damit l¨asst sich der allgemeine Ablauf eines statistischen Tests darstellen:

1.7 Grundbegriffe der Testtheorie

17

Ablauf eines statistischen Tests 1. Hypothesen formulieren. 2. Signifikanzniveau festlegen (α = 0.10, 0.05 oder 0.01). 3. Nach den vorliegenden Regeln aufgrund eines Stichprobenergebnisses eine Entscheidung f¨ ur eine der beiden Hypothesen treffen. 4. Entscheidung interpretieren. In der Statistik werden die Testverfahren nach verschiedenen Kriterien in Bereiche zusammengefasst. Eines dieser Kriterien unterscheidet parametrische und nichtparametrische Tests. Parametrische Tests ben¨ otigen als Voraussetzung Annahmen u ¨ ber den Verteilungstyp in der Grundgesamtheit, nichtparametrische Tests hingegen kommen ohne Verteilungsannahmen aus. Eine weitere wichtige M¨oglichkeit zur Unterscheidung ist aus der konkreten Formulierung der Hypothesen zu entnehmen: Einseitige und zweiseitige Tests Die Hypothesenformulierung H0 : =

H1 : =

wird als zweiseitiges Testproblem bezeichnet. Falls die Hypothesen H0 : ≤

H1 : >

H0 : ≥

H1 :
θ0 ). Die G¨ ute eines Tests wird f¨ ur jeweils einen bestimmten Parameter θ (> θ0 ) bestimmt. Ein gleichm¨ aßig bester Test zeichnet sich dadurch aus, dass dieser Test f¨ ur alle Parameter θ > θ0 der beste Test ist. Im Allgemeinen existieren gleichm¨aßig beste Tests f¨ ur einseitige Fragestellungen, aber nicht f¨ ur zweiseitige Probleme.

1.7 Grundbegriffe der Testtheorie

19

Zwei verschiedene Tests zum Signifikanzniveau α kann man u ¨ ber die G¨ ute vergleichen: je h¨oher die G¨ ute desto besser der Test. Die G¨ ute eines Tests ist aber auch vom Stichprobenumfang abh¨ angig. Daher k¨ onnte man die Qualit¨ at von zwei Tests auch vergleichen indem man f¨ ur gleiches Signifikanzniveau und gleiche G¨ ute das Verh¨ altnis der Stichprobenumf¨ange berechnet. Nehmen wir an es gibt einen Referenztest A mit Stichprobenumfang m und einer bestimmten G¨ ute. F¨ ur einen zweiten Test zum gleichen Signifikanzniveau k¨ onnte man jetzt berechnen wie hoch der Stichprobenumfang n f¨ ur den Test B sein muss, damit die Tests A und B bei gleichem Signifikanzniveau die gleiche G¨ ute aufweisen. Dieses Verh¨altnis m/n bezeichnet man als ”finite relative Effizienz”, das Grenzverh¨ altnis f¨ ur m → ∞ und n → ∞ bezeichnet man als asymptotische relative Effizienz oder kurz Effizienz. Der Kehrwert der Effizienz gibt damit einen Faktor an, um den die Stichprobengr¨oße bereinigt werden muss, damit die beiden Tests die gleiche G¨ ute aufweisen: Eine Effizienz von 0.80 = 80% bedeutet demnach, dass die Stichprobe f¨ ur den Test B 1/0.8 = 1.25 mal so groß sein muss wie f¨ ur den Test A um die gleiche G¨ ute aufzuweisen.

2 Einf¨ uhrung in SAS

SAS (Statistical Analysis System) ist ein sehr umfangreiches Softwarepaket zur Datenanalyse, das eine eigene Programmiersprache (SAS Language), vorgefertigte Unterprogramme (Prozeduren) und eine Windows-Schnittstelle bereitstellt. Das System umfasst verschiedene Module, die jeweils getrennt lizenziert werden und das Grundsystem erg¨anzen. Ausgangspunkt f¨ ur dieses Buch sind die Module SAS/BASE, SAS/STAT, SAS/QC, SAS/GRAPH und SAS/CORE. In diesem Kapitel werden zun¨ achst die BenutzerInnen-Oberfl¨ache und der allgemeine Programmaufbau behandelt, ehe die eigentlichen Schritte der Datenaufbereitung und der Datenanalyse beschrieben werden. Abschnitt 2.6 zeigt M¨ oglichkeiten zum Erstellen und Gestalten von Grafiken und Textausgaben und in Abschnitt 2.7 werden statistische Basisauswertungen besprochen. Die Ausf¨ uhrungen in diesem Buch beziehen sich auf die Version 9.1 unter Windows.

2.1 BenutzerInnen-Oberfl¨ ache Beim Starten von SAS zeigt sich unter Windows eine geteilte Arbeitsumgebung (vgl. Abbildung 2.1). Auf der linken Seite befinden sich der Explorer und die Ergebnisse, wobei der Explorer automatisch ge¨ offnet ist und der Verwaltung von Daten dient. Ganz oben im Explorer befinden sich die Bibliotheken, die zu den Verzeichnissen verweisen, in denen die Daten abgespeichert sind. Die Ergebnisse scheinen in einem Inhaltsverzeichnis in Form einer Baumstruktur auf, wenn ein Programm ausgef¨ uhrt wird. F¨ ur jede durchgef¨ uhrte Prozedur erscheint ein gesonderter Eintrag, dadurch wird die Ausgabe automatisch strukturiert.

22

2 Einf¨ uhrung in SAS

Abb. 2.1. BenutzerInnen-Ober߬ ache

Die rechte Seite dient zur Analyse der Daten. Hier findet man insgesamt drei Fenster (Ausgabe-Fenster, Log-Fenster und Editor-Fenster), wobei das LogFenster und das Editor-Fenster automatisch angezeigt werden und letzteres bereits aktiviert ist. Editor-Fenster In diesem Fenster werden SAS-Programme verfasst, geladen, gespeichert und ausgef¨ uhrt. Der Programmcode wird automatisch f¨ arbig dargestellt, was die Orientierung und die Fehlersuche erleichtert (falsche Syntax erscheint rot). Log-Fenster Das Log-Fenster zeigt von SAS erzeugte Ausgaben. Beim Start von SAS erscheinen Informationen zum Copyright und zur Lizenz. Insbesondere findet man in diesem Fenster Warnungen und Fehlermeldung, wobei unkritische Informationen mit dem Schl¨ usselwort Hinweis beginnen. Ausgabe-Fenster Das Ausgabe-Fenster zeigt die Ergebnisse eines Programmes. Beim Start von SAS befindet sich dieses Fenster im Hintergrund. Wird das Programm jedoch fehlerfrei durchlaufen, erscheint das Fenster automatisch im Vordergrund.

2.2 Programmaufbau

23

Die Men¨ u- und Symbolleiste enth¨alt wie bei jeder andere Windows-Anwendung die wichtigsten Funktionen, deren Aufgaben aus nachstehender Zusammenfassung entnommen werden k¨ onnen. Symbole der SAS-Men¨ uleiste Programmcode ausf¨ uhren Programmcode l¨oschen Programmausf¨ uhrung unterbrechen Hilfe o¨ffnen Neue Bibliothek erstellen In SAS sind die Tasten wie in jeder anderen Windows-Anwendung belegt (z.B. STRG-C f¨ ur Kopieren und STRG-V f¨ ur Einf¨ ugen). Mit F9 werden die aktuellen Tastenbelegungen aufgelistet und k¨onnen beliebig ge¨ andert werden.

2.2 Programmaufbau Jedes SAS-Programm besteht aus zwei Schritten, dem DATA-Step und dem PROC-Step. Im DATA-Step werden die Daten implementiert, im PROC-Step (PROCEDURE-Step) erfolgt die eigentlichen Analyse. Diese beiden Strukturen sind strikt voneinander zu trennen, da Aufrufe von Prozeduren innerhalb eines DATA-Steps Fehlermeldungen und Programmabbr¨ uche zur Folge haben. Eine Hintereinanderausf¨ uhrung von mehreren PROC-Steps, sowie von DATA-Steps nach PROC-Steps und umgekehrt, ist jedoch m¨oglich. Jeder einzelne Step muss mit der Anweisung RUN; beendet werden. Eine SAS-Anweisung beginnt mit einem Schl¨ usselwort (z.B. DATA) oder mehreren Schl¨ usselw¨ortern, auf die weitere Befehle bzw. Anweisungen und eventuell Optionen folgen. Jede Programmzeile muss mit einem Strichpunkt beendet werden. Groß- und Kleinschreibung spielt in SAS-Programmen keine Rolle, f¨ ur die bessere Lesbarkeit wird folgende Regelung vorgeschlagen bzw. in diesem Buch verwendet: Schl¨ usselw¨orter, Optionen und Anweisungen werden in Großbuchstaben angegeben, Variablen werden hingegen durch Groß- und Kleinbuchstaben gekennzeichnet. Weiters werden in der Syntaxbeschreibung notwendige Argumente in spitze Klammern (< >) und optionale Argumente in eckige Klammern ([ ]) gesetzt.

24

2 Einf¨ uhrung in SAS

Um die Lesbarkeit von Programmen zu erh¨ohen, werden Einr¨ uckungen und Abs¨atze empfohlen. Weiters sollte eine Beschr¨ ankung auf eine Anweisung pro Zeile erfolgen, auch wenn SAS mehrere Anweisungen in einer Zeile verarbeitet. Sinnvolle Kommentare erleichtern das Arbeiten mit l¨ angeren Programmcodes. SAS verf¨ ugt u ¨ ber zwei M¨oglichkeiten f¨ ur Kommentare: • •

Einzeiliger Kommentar: Der einzeilige Kommentar beginnt mit einem Stern (*) und endet mit einem Strichpunkt (;) Mehrzeiliger Kommentar: Ein mehrzeiliger Kommentar beginnt mit /* und endet mit */

SAS unterlegt den Programmcode f¨arbig: Korrekt eingegebene Schl¨ usselw¨orter f¨ ur Prozeduren erscheinen dunkelblau, Anweisungen und Optionen hellblau, Kommentare gr¨ un, Zahlenwerte t¨ urkis und Zeichenketten violett. Nicht erkannte Anweisungen, Optionen und Schl¨ usselw¨orter werden rot dargestellt. Auch im Log-Fenster sind die Informationen farbcodiert: Warnungen erscheinen gr¨ un, neutrale Hinweise blau und Fehlermeldungen rot. Programmaufbau •

Generelle Struktur: DATA-Step und PROC-Step



Genereller Aufbau: ¨ SCHLUSSELWORT Erg¨ anzungen < NOTWENDIGE ANGABEN > [ OPTIONALE ANGABEN ] ; RUN;



Groß- und Kleinschreibung wird nicht beachtet



* Einzeiliger Kommentar ;



/* Mehrzeiliger Kommentar /*

Farbkodierung im Editor-Fenster Korrekte Schl¨ usselw¨orter

Dunkelblau

Unkorrekte Schl¨ usselw¨orter

Rot

Anweisungen, Optionen

Hellblau

Zeichenketten

Violett

Zahlenwerte

T¨ urkis

Kommentare

Gr¨ un

2.3 Der DATA-Step

25

Farbkodierung im Log-Fenster Neutrale Hinweise

Blau

Fehlermeldungen

Rot

Warnungen

Gr¨ un

2.3 Der DATA-Step Als Grundlage jeglicher Datenanalyse erm¨oglicht der DATA-Step unter anderem die Erzeugung, das Einlesen sowie das Transformieren von Daten. Eingeleitet wird diese Struktur durch das Schl¨ usselwort DATA. Der Befehl DATA erzeugt einen Datensatz mit der Bezeichnung . Ein allgemeiner DATAStep weist dabei folgende Struktur auf: DATA ; ... RUN; Im Zuge dieses Abschnitts soll nun zun¨ achst der Aufbau eines Datensatzes in SAS beschrieben werden, ehe der eigentliche Schritt der Datenerzeugung behandelt wird. 2.3.1 Tempor¨ are und permanente Datens¨ atze Man unterscheidet zwei verschiedene Typen von Datens¨ atzen, tempor¨ are und permanente Datens¨atze. W¨ahrend tempor¨ are Datens¨atze am Ende einer Arbeitssitzung automatisch gel¨ oscht werden und somit nur f¨ ur die Dauer der SAS-Sitzung zur Verf¨ ugung stehen, existieren permanente Datens¨ atze auch nach Beendigung des SAS-Programmes weiter. Die Erzeugung eines permanenten Datensatzes erfolgt u ¨ ber das Schl¨ usselwort LIBNAME und einem , der SAS-intern auf ein bereits von BenutzerInnen erstelltes Verzeichnis verweist. Unter ’Verzeichnis’ ist der vollst¨andige Pfad dieses Verzeichnisses anzugeben. LIBNAME ’Verzeichnis’; DATA .; ... RUN; In der Standardinstallation von SAS sind vier Bibliotheken automatisch verf¨ ugbar: In MAPS sind Datens¨atze zur Erzeugung von Landkarten vorhanden, SASHELP enth¨ alt die Systemvoreinstellungen (z.B. Schriftarten, Ausgabeger¨ ate)

26

2 Einf¨ uhrung in SAS

und SASUSER die BenutzerInneneinstellungen wie Farbe und Gr¨ oße der Fenster. In der Bibliothek WORK sind die bereits erw¨ahnten tempor¨aren Datens¨atze gespeichert. Wird also ohne Angabe eines Bibliotheksnamens ein tempor¨ arer Datensatz erzeugt, so verwendet SAS intern diese Bibliothek. Nach jeder Arbeitssitzung wird der Name der Bibliothek gel¨ oscht, der erzeugte Datensatz bleibt jedoch im festgelegten Verzeichnis bestehen und man kann durch LIBNAME jederzeit wieder auf diesen zugreifen. Der Bibliotheksname darf bei einem neuen Aufruf ver¨ andert werden, gespeicherte Datens¨atze sind an der Dateiendung *.sas7bdat erkennbar. Neben der Syntax im DATA-Step kann eine neue Bibliothek auch u ¨ber die Men¨ uleiste erstellt werden. Daf¨ ur kann der Men¨ upunkt Datei→Neu oder das Symbol Neue Bibliothek aus der Symbolleiste verwendet werden (vgl. Seite 23). Der Name der Bibliothek ist in SAS auf acht alphanumerische Zeichen beschr¨ankt (manche Sonderzeichen werden akzeptiert, z.B. der Unterstrich).

2.3.2 Aufbau eines Datensatzes Jeder Datensatz setzt sich aus Variablen und Merkmalsauspr¨agungen zusammen, wobei eine Spalte genau einer Variablen entspricht. Eine Zeile entspricht einer Erhebungseinheit. Unter Verwendung des Schl¨ usselwortes INPUT und erfolgt die Benennung einer konkreten Variable in SAS: DATA ; INPUT ; DATALINES; ... ; RUN; Die Wahl von unterliegt dabei gewissen Einschr¨ankungen: • •

Ein Variablenname muss mit einem Buchstaben oder einem Unterstrich ( ) beginnen. Leerzeichen sowie in SAS benutzte Begriffe d¨ urfen nicht verwendet werden.

Zwischen Groß- und Kleinschreibung wird nicht unterschieden. F¨ ur jede eingelesene Zeile des Datensatzes bestimmt SAS automatisch eine konkrete Beobachtungsnummer (interne Bezeichnung N ), die bei der Datenausgabe als obs bezeichnet wird und lediglich im Zuge des DATA-Steps existiert. Die Dateneingabe erfolgt zeilenweise im Anschluss an das Schl¨ usselwort DATALINES; und wird durch einen Strichpunkt in einer separaten Zeile beendet. Die Anweisung RUN; beendet den DATA-Step.

2.3 Der DATA-Step

27

Um alphanumerische Variablen in einem Datensatz zu verwenden, ist nach dem Variablennamen die Eingabe eines Leerzeichens und des $-Symbols erforderlich. Das $-Symbol ist den in SAS zur Verf¨ ugung gestellten Informaten zuzuordnen, welche die eingegebenen Rohdaten aus dem Ursprungsformat in das gew¨ unschte Speicherformat umwandeln. Tabelle 2.1 enth¨alt gebr¨ auchliche alphanumerische (In-)Formate, eine vollst¨andige Auslistung ist im Hilfesystem zu finden.

Schl¨ usselwort

Format

Ausgabebeispiel

$

Zeichenkette

abc

$.

Zeichenkette der L¨ ange l

abc

$QUOTE[l].

Zeichenkette der L¨ ange l mit Anf¨ uhrungszeichen

$REVERJ[l].

Zeichenkette der L¨ ange l in umgekehrter Reihenfolge

abc“ ” cba

Tabelle 2.1. Alphanumerische (In-)Formate in SAS

Es besteht dar¨ uber hinaus die M¨ oglichkeit, auch den numerischen Variablen (In-)Formate zuzuweisen, die Form und L¨ange der Merkmalsauspr¨ agungen festlegen. Tabelle 2.2 f¨ uhrt h¨ aufig verwendete numerische (In-)Formate an. Auch hier wird auf eine vollst¨ andige Liste im Hilfesystem verwiesen. Vor dem Dezimalpunkt weist eine Zahl in SAS standardm¨aßig maximal 12 Ziffern auf (BEST12.).

Schl¨ usselwort

Format

.[m]

Zahl mit l Ziffern (inkl. Dezimalpunkt) und m Kommastellen Zahl mit l Ziffern, Nachkommastellen werden automatisch gew¨ ahlt Zahl in Worten Zahl mit l Ziffern, m Kommastellen und Komma statt Dezimalpunkt

BEST[l]. WORDS[l]. NUMX[l].[m]

Tabelle 2.2. Numerische (In-)Formate in SAS

Neben diesen kurz vorgestellten (In-)Formaten gibt es auch eine Reihe von Zeit- und Datumsformaten.

28

2 Einf¨ uhrung in SAS

Beispiel 2.1. Dateneingabe in SAS Der folgende Beispielcode legt eine Bibliothek mit dem Namen Bsp1 an, welche den Datensatz Daten1 enth¨ alt. Dieser besteht aus den beiden Variablen Zahl und Zeichen und zwei Datenzeilen. Vor dem Programmstart muss der Ordner C:\Eigene Dateien\Beispiel“ erstellt werden. ” LIBNAME Bsp1 ’C:\Eigene Dateien\Beispiel’; DATA Bsp1.Daten1; INPUT Zahl Zeichen $; PUT Zahl Zeichen; DATALINES; 1 Eins 2 Zwei ; RUN; Die Anweisung PUT zeigt die eingelesenen Werte im Log-Fenster und erm¨oglicht ¨ damit eine Uberpr¨ ufung der Dateneingabe. 2.3.3 Datenerzeugung F¨ ur die Erzeugung von Daten stellt SAS drei Schleifentypen zur Verf¨ ugung, im Zuge derer konkrete Befehle wiederholt werden: • • •

Z¨ ahlschleife DO...TO Abbruchschleife DO...UNTIL Bedingungsschleife DO...WHILE

Sollen Werte innerhalb einer DO-TO-Schleife berechnet werden, so ist die Angabe eines Startwertes erforderlich. Die Schleife selbst ist durch den Schleifenbeginn DO und das Schleifenende END definiert. Wird die Schrittweite nicht durch das Schl¨ usselwort BY festgelegt, erh¨ oht SAS den Wert der Schleifenvariable automatisch um Eins. Das folgende Programm zeigt einen allgemeinen DATA-Step zur Erzeugung von Daten mithilfe der Z¨ ahlschleife. DATA ; ... DO Variable= TO [BY ]; ... END; RUN; W¨ ahrend eine Z¨ ahlschleife immer vollst¨andig durchlaufen wird, bricht die im folgenden beschriebene DO-UNTIL-Schleife dann ab, wenn ein bestimmtes Abbruchkriterium erf¨ ullt ist. Die nachstehende Syntax zeigt die Verwendung einer DO-UNTIL-Schleife in einem DATA-Step.

2.3 Der DATA-Step

29

DATA ; ... i=1; DO UNTIL ; ... i=i+1; END; RUN; Sowohl die Initialisierung (i = 1) als auch das H¨ ohersetzen der Z¨ahlvariablen i innerhalb der Schleife ist notwendig, um eine Endlosschleife zu vermeiden. Eine dritte Schleifenvariante ist durch die DO-WHILE-Schleife gegeben, innerhalb derer Daten solange erzeugt werden, solange auch eine gewisse Bedingung erf¨ ullt ist. Wird dieses Kriterium verletzt, erfolgt ein Abbruch. DATA ; ... i=1; DO WHILE ; ... i=i+1; OUTPUT; END; RUN; Sollen Zwischenwerte aller Variablen f¨ ur jeden Schleifendurchlauf im Datensatz ausgegeben werden, ist die Anweisung OUTPUT vor dem Ende der Schleife erforderlich. Es besteht in SAS bei der Datenerzeugung unter der Verwendung von Z¨ahlschleifen zudem die M¨ oglichkeit, Wertelisten oder alphanumerische Listen zu durchlaufen, die dann mit der Anweisung OUTPUT in den Datensatz geschrieben werden. DATA ; DO i = Wert1, Wert2, Wert3,...; OUTPUT; END; RUN; Die Werte der Liste sind dabei durch Beistriche getrennt einzugeben.

30

2 Einf¨ uhrung in SAS

2.3.4 Einlesen von Daten Steuerbefehle in der INPUT-Zeile eines DATA-Steps erm¨oglichen das Einlesen von Daten (= direkte Dateneingabe) von verschiedenen Positionen des einzulesenden Datensatzes aus. Dabei zeigt der Lesezeiger in SAS auf eine beliebige Stelle im Datensatz. Ohne Steuerungsbefehle erfolgt das Einlesen der Merkmalswerte zeilenweise f¨ ur jede Beobachtung. Daten k¨ onnen listengesteuert, spaltengesteuert oder formatgesteuert eingelesen werden, wobei in dieser Einf¨ uhrung das formatgesteuerte Einlesen nicht beschrieben wird. Listengesteuertes Einlesen Beim listengesteuerten Einlesen werden die entsprechenden Werte gem¨aß der in der INPUT-Anweisung vorher definierten Reihenfolge der Variablen und deren Typ eingelesen. INPUT Variable1 $ Variable2 Variable3; Die Rohdaten sind dabei durch ein Leerzeichen voneinander getrennt und jede Zeile enth¨ alt die Merkmalsauspr¨agungen einer konkreten Erhebungseinheit. Spaltengesteuertes Einlesen Liegen die Rohdaten streng in Spalten angeordnet vor, so k¨ onnen die Daten durch Angabe der entsprechenden Spaltenbereiche in der INPUT-Anweisung eingelesen werden. INPUT Variable1 $ 1-8 Variable2 9-10 Variable3 $ 11; Diese Angabe erm¨ oglicht ein spaltenorientiertes Einlesen der Daten, die Merkmalswerte m¨ ussen dabei nicht strikt durch ein Leerzeichen getrennt sein. Die Spalten m¨ ussen allerdings so breit wie der l¨angste, einzulesende Wert definiert und die Datenwerte m¨ ussen exakt darin positioniert sein. Durch die Angabe Variable1 $ 1-8 werden dabei alphanumerische Werte aus den Spalten 1 bis 8 eingelesen. SAS stellt Optionen zur Verf¨ ugung, welche die Position des Lesezeigers beeinflussen. So bewirkt das Setzen von @i das Einlesen von Daten ab der i-ten Spalte. Bei +i bewegt sich der Zeiger um i Spalten nach rechts und bei #i um (i − 1) Zeilen nach unten. Im Rahmen des DATA-Steps erm¨oglicht die Anweisung LABEL ’’ die Zuweisung einer aussagekr¨aftigen Bezeichnung, die bei der Ausgabe des Datensatzes statt des Variablennamens aufscheint. Die Bezeichnung kann dabei bis zu 256 Zeichen lang sein und zudem Leerzeichen beinhalten.

2.3 Der DATA-Step

31

Um Variablen f¨ ur eine Analyse zu selektieren bzw. auszuschließen, k¨onnen die Anweisungen KEEP oder DROP an beliebiger Stelle im DATA-Step verwendet werden. Es besteht zudem die M¨oglichkeit, konkrete Variablen mithilfe der Optionen KEEP= und DROP= auszuw¨ ahlen oder aus einem Datensatz zu entfernen. In diesem Fall muss jedoch die Option direkt in der DATA-Zeile angef¨ uhrt werden. Im Gegensatz zur gleichnamigen Anweisung stehen Variablen, die nicht in den Datensatz eingef¨ ugt werden, in weiterer Folge f¨ ur keine Analyse mehr bereit. 2.3.5 Einlesen von externen Daten In der Praxis liegen meist große Datenmengen vor, die es zu analysieren gilt. Sie h¨ andisch einzugeben w¨ are schlichtweg zu aufw¨andig. Wir besch¨ aftigen uns in diesem Abschnitt daher mit dem Einlesen von Daten, die bereits in externen Dateien vorhanden sind. SAS erm¨oglicht dabei das Importieren externer Datens¨atze und konvertiert diese Daten in einen SAS-Datensatz. G¨angige Formate sind durch Excel-Dateien (.xls), Comma-Seperated-Values-Dateien (.csv) oder Tab-Delimited-Dateien (.txt) gegeben. SAS kann dar¨ uber hinaus noch eine F¨ ulle an weiteren Datenformaten (wie Access-Dateien, SQL) importieren. Das Einlesen von externen Daten kann im Rahmen eines DATA-Steps erfolgen oder unter Zuhilfenahme des Import Wizards. Einlesen von Daten im Rahmen des DATA-Steps Im Rahmen eines DATA-Steps erm¨oglicht die Anweisung INFILE das Einlesen externer Dateien. Die Anweisung INPUT legt dabei die Variablen fest, die tats¨achlich importiert werden sollen. Nachstehender Programmcode zeigt das Einlesen einer externen Datei. DATA ; INFILE ’Dateiverweis.Dateiformat’ [Optionen]; INPUT Variable1,Variable2,...; RUN; Die Merkmalsauspr¨ agungen in der einzulesenden Datei m¨ ussen dabei durch Leerzeichen voneinander getrennt sein. Da der externe Datensatz u ¨ blicherweise in den ersten Zeilen Variablennamen oder Variablenerkl¨ arungen beinhaltet, die nicht eingelesen werden sollen, kann mithilfe der Option FIRSTOBS= angegeben werden, ab welcher Zeilennummer die Eingabe der Daten zu erfolgen hat. Sind die Merkmalsauspr¨ agungen in der einzulesenden Datei nicht durch ein Leerzeichen voneinander getrennt, f¨ uhrt die oben dargestellte INFILEAnweisung zu einer Fehlermeldung. Das in der externen Datei verwendete Trennzeichen kann mit der Option DELIMITER= oder

32

2 Einf¨ uhrung in SAS

kurz DLM= in der INFILE-Anweisung spezifiziert werden. Die Verwendung von Trennzeichen unterliegt dabei kaum Einschr¨ ankungen. Sind die Werte durch einen Tabulator getrennt, muss die Option DLM=’09’x in der INFILE-Anweisung angef¨ uhrt werden. Durch Kombination mehrerer INFILE- und INPUT-Anweisungen k¨ onnen beliebig viele externe Dateien in einem DATA-Step eingelesen werden. Einlesen von Daten mithilfe des Import Wizards Eine weitere M¨ oglichkeit zum Einlesen von externen Daten ist durch den Import Wizard gegeben, der den grunds¨ atzlich komplexen Einlesevorgang schrittweise durchf¨ uhrt und somit vereinfacht. Der Import Wizard wird unter Datei → Daten importieren gestartet.

Abb. 2.2. Import Wizard zum Einlesen von externen Daten

Zuerst erfolgt die Auswahl des Dateityps der einzulesenden Datei. Liegt eine kommagetrennte (.csv), tabulatorgetrennte (.txt) oder eine Datei mit Trennzeichen vor, so kann unter Standard data source entweder das jeweilige Dateiformat oder das benutzerdefinierte Format ausgew¨ ahlt werden.

2.3 Der DATA-Step

33

Durch Tabulator getrennte Merkmalsauspr¨ agungen in einem .txt-Format werden u ¨ blicherweise durch die Auswahl Standard data source eingelesen (vgl. Abbildung 2.2). Im n¨ achsten Schritt ist u ¨ ber den Befehl Browse auf die einzulesende Datei zu verweisen. Unter Options besteht die M¨ oglichkeit, verschiedene Einstellungen zu ver¨ andern. Im darauf folgenden Fenster Choose the SAS destination ist der Name der Bibliothek anzugeben, in die der Datensatz Member in SAS gespeichert werden soll. Mit Finish wird der Einleseprozess schlussendlich beendet. Unter . kann der Datensatz sp¨ater ge¨offnet und kontrolliert werden. Entscheidet man sich zu Beginn des Einlesevorgangs f¨ ur ein benutzerdefiniertes Format, so ist eine bessere Kontrolle u ¨ ber den Einleseprozess gegeben. Die einzelnen Schritte sind dabei wie oben zu befolgen. Nach Beendigung des Importprozesses wird der External File Interface (kurz: EFI) gestartet, der es erm¨oglicht, zus¨atzliche Informationen u ¨ ber das vorliegende Dateiformat zu definieren. Im oberen Teil des EFI-Fensters werden dabei links der External File Viewer und rechts der SAS data viewer angezeigt. Unter Optionen k¨ onnen in weiterer Folge Importoptionen ausgew¨ ahlt werden (vgl. Abbildung 2.3).

Abb. 2.3. Optionen des External File Interface (EFI)

AnwenderInnen haben hier die M¨ oglichkeit, den Eingabestil, die Variablenerstellung oder den Typ der vorliegenden Trennzeichen festzulegen.

34

2 Einf¨ uhrung in SAS

2.3.6 Transformieren von Daten Nach dem Einlesen m¨ ussen Datens¨ atze oft noch geeignet transformiert werden, ehe sie einer Analyse unterzogen werden. Aus diesem Grund sollen nun einige Funktionen und Optionen angef¨ uhrt werden, welche f¨ ur die Transformation von Variablen verwendet werden k¨ onnen. Um Merkmalsauspr¨ agungen miteinander vergleichen zu k¨ onnen, ist die Verwendung von Vergleichsoperatoren notwendig. SAS stellt dabei zwei m¨ogliche Schreibweisen zur Verf¨ ugung (siehe Tabelle 2.3). Vergleichsoperatoren EQ NE LT GT LE GE IN

= ~= < > =

Bedeutung

Beispiel

gleich ungleich kleiner gr¨ oßer kleiner gleich gr¨ oßer gleich Element in

x x x x x x x

=1 ~= 1 lt 1 >1 le 1 >= 1 in (1,2,3)

Tabelle 2.3. Vergleichsoperatoren in SAS

¨ Zur Uberpr¨ ufung von Eingaben sowie zur Durchf¨ uhrung von Fallunterscheidungen werden bedingte Anweisungen verwendet. Nach der IF ist ein THEN obligatorisch, die Verwendung von ELSE ist optional: IF THEN [ELSE ] Neben der bedingten Anweisung stellt SAS im DATA-Step auch eine selektive IF-Anweisung zur Verf¨ ugung: IF Diese liest Daten nur so lange ein, wie die Bedingung erf¨ ullt ist. Tabelle 2.4 enth¨ alt h¨ aufig verwendete mathematische Operatoren und Funktionen, die bereits im DATA-Step verwendet werden k¨ onnen. Auch statistische Funktionen k¨ onnen bereits im DATA-Step verwendet werden. Alle Funktionen, die auf n gleichartige Argumente zugreifen weisen eine Besonderheit auf. Gleich lautende Variablennamen, welche sich nur durch eine nachgestellte Zahl unterscheiden, k¨ onnen durch den Befehl OF angesprochen werden. Demnach sind die beiden folgenden Befehle gleichwertig: MEAN(Variable1, Variable2, Variable3, Variable4) MEAN(OF Variable1-Variable4)

2.3 Der DATA-Step Befehle

Bedeutung

Befehle

Bedeutung

+ * / MOD ** AND, & OR, | FLOOR CEIL

Addition Subtraktion Multiplikation Division Modulo Division Potenz logisches und logisches oder abrunden aufrunden

MIN MAX ABS LOG LOG2 LOG10 SQRT ROUND INT LENGTH

Minimum Maximum Absolutbetrag nat¨ url. Logarithmus Logarithmus zur Basis 2 Logarithmus zur Basis 10 Wurzelfunktion kaufm¨ annisch runden ganzzahliger Teil L¨ ange einer Zeichenkette

35

Tabelle 2.4. Operatoren und mathematische Funktionen in SAS

Tabelle 2.5 listet insbesondere statistische Funktionen auf, die im DATA-Step verwendet werden k¨ onnen und die zudem den vereinfachten Variablenzugriff mit OF erm¨oglichen. Funktion

Bedeutung

SUM(,· · · ,) MEAN(,· · · ,) STD(,· · · , ) RANGE(,· · · , )

Summe Arithmetisches Mittel Standardabweichung Spannweite

Tabelle 2.5. Statistische Funktionen im DATA-Step

2.3.7 Erzeugen von Zufallszahlen Die Erzeugung von Zufallszahlen zu Simulationszwecken wird in der Statistik oft ben¨ otigt. SAS stellt zu diesem Zweck Befehle zur Erzeugung von Pseudozufallszahlen bereit, die in Tabelle 2.6 angef¨ uhrt werden. Durch Angabe eines Startwertes (SEED=) sind die erzeugten Zufallszahlen reproduzierbar. Wird SEED=0 gesetzt, so erfolgt die Initialisierung unter Zuhilfenahme der Systemzeit, die so erzeugten Pseudozufallszahlen sind nicht reproduzierbar. Mit der Funktion NORMAL(SEED=) k¨ onnen standardnormalverteilte Zufallszahlen generiert werden. Die Anzahl an zu erzeugenden Zufallszahlen kann durch eine Z¨ ahlschleife festgelegt werden, in der die Datenerzeugung schrittweise durchgef¨ uhrt wird.

36

2 Einf¨ uhrung in SAS Schl¨ usselwort

Verteilung

Argumente

NORMAL, RANNOR RANEXP RANGAM RANPOI RANBIN RANUNI, UNIFORM RANTRI RANTBL

Standardnormalverteilung Exponentialverteilung(λ = 1) Gammaverteilung(β = 1) Poissonverteilung Binomialverteilung Gleichverteilung auf [0,1] Dreiecksverteilung beliebige diskrete Verteilung

seed seed seed, seed, seed, seed seed, seed,

a (shape) m n,p h (mode) p1 , . . . , pn−1

Tabelle 2.6. Erzeugung von Pseudozufallszahlen in SAS

Eine alternative M¨ oglichkeit, Zufallszahlen in SAS zu erzeugen, ist durch die Anweisung RAND(’’,) gegeben. Tabelle 2.7 f¨ uhrt die Verteilungen DIST an, die im Rahmen der Zufallszahlenerzeugung verwendet werden k¨ onnen. Verteilung

DIST

Parameter

BernoulliBetaBinomialCauchyChi-QuadratErlangExponential(λ = 1)FGamma(β = 1)GeometrischeHypergeometrischeLog-NormalNegativ BinomialNormalPoissonStudent tDiskrete DreieckGleichWeibull-

BERNOULLI BETA BINOMIAL CAUCHY CHISQUARE ERLANG EXPONENTIAL F GAMMA GEOMETRIC HYPERGEOMETRIC LOGNORMAL NEGBINOMIAL NORMAL, ”GAUSS” POISSON T TABLE TRIANGLE UNIFORM WEIBULL

p a, b p, n df a ndf, ddf a p N, R, n p, k mean, sd lambda df p1 , . . . , pn−1 h (mode) a, b

Tabelle 2.7. Schl¨ usselw¨ orter f¨ ur Verteilungen im Befehl RAND

Bei manchen Verteilungen ist die Parametrisierung nicht eindeutig (d.h. es gibt mehrere M¨ oglichkeiten der Parameterangabe), daher sollte die inhaltliche Bedeutung der Parameter in der Hilfe nachgelesen werden.

2.4 Der PROC-Step

37

Nachstehendes Programm zeigt die Erzeugung von zehn N (µ, σ 2 )-verteilten Zufallszahlen. DATA ; DO i=1 TO 10; x=NORMAL(0) * sigma + mu; OUTPUT; END; RUN; Alternativ kann auch die Anweisung x=RAND(’NORMAL’, mu, sigma) verwendet werden.

2.4 Der PROC-Step Nach der Aufbereitung der Daten im Rahmen des DATA-Steps kann nun eine Analyse dieser Daten im PROC-Step durch in SAS vorhandene Prozeduren erfolgen. Der PROC-Step wird durch den Befehl PROC eingeleitet und weist im allgemeinen folgende Struktur auf: PROC [Optionen]; [Anweisungen;] ... RUN; Prozedurname bestimmt dabei die auszuf¨ uhrende Prozedur, die dar¨ uber hinaus durch Optionen und Anweisungen genauer spezifiziert werden kann. Die wichtigsten Optionen und Anweisungen werden in weiterer Folge beschrieben. 2.4.1 Optionen Das Anf¨ uhren von Optionen im PROC-Step legt die konkrete Durchf¨ uhrung der jeweiligen Prozedur in SAS fest. •

• •

DATA= Mit dieser Option kann ein konkreter Datensatz ausgew¨ahlt werden, der durch die jeweilige Prozedur bearbeitet werden soll. Wird kein Datensatz angegeben, so erfolgt die Analyse anhand des zuletzt erzeugten Datensatzes. OUT= Diese Option schreibt die Ergebnisse der jeweiligen Prozedur in einen neuen Datensatz. NOPRINT Diese Option unterbindet die Ausgabe der Ergebnisse auf dem Bildschirm.

38

2 Einf¨ uhrung in SAS

2.4.2 Anweisungen Neben Optionen k¨ onnen im Zuge eines PROC-Steps Anweisungen angef¨ uhrt werden. •





• •

• •

BY ; Diese Anweisung erm¨oglicht getrennte Analysen f¨ ur einzelne Gruppen, die durch die angegebenen Variablen gebildet werden. Dabei m¨ ussen allerdings die Daten gem¨ aß der BY-Variablen aufsteigend sortiert sein. Mit der Anweisung BY NOTSORTED kann auch ein unsortierter Datensatz gruppiert werden. CLASS ; Im Rahmen der Prozedur PROC MEANS bewirkt ¨ diese Anweisung Ahnliches wie die BY-Anweisung. Bei der Durchf¨ uhrung eines t-Tests fungiert die CLASS-Variable beispielsweise als Gruppenvariable, nach der klassifiziert wird. FREQ ; Durch diese Anweisung wird eine numerische Variable spezifiziert, welche die H¨aufigkeit der einzelnen Beobachtungen angibt. Damit ist eine Gewichtung der Eingabedaten m¨ oglich. LABEL =’’; Diese Anweisung f¨ ugt der angegebenen Variable eine genauere Variablenbezeichnung in der Ausgabe zu. OUTPUT ; Diese Anweisung erzeugt einen Datensatz in SAS, der die berechneten Statistiken enth¨ alt. Als Optionen k¨ onnen dabei der Name des Datensatzes sowie sein Inhalt spezifiziert werden. Durch die Option OUT= kann der Name des Datensatzes angegeben werden, sein Inhalt wird durch = festgelegt. Welche Schl¨ usselw¨orter m¨ oglich sind h¨ angt von der jeweiligen Prozedur ab. WEIGHT ; Mithilfe dieser Anweisung k¨ onnen den Beobachtungen in der Analyse Gewichte zugeordnet werden. VAR ; Diese Anweisung w¨ahlt diejenigen Variablen aus, die im Rahmen der Prozedur analysiert werden sollen. Wird diese Anweisung nicht angef¨ uhrt, so werden alle Variablen verwendet.

Eine genauere Erkl¨arung zu den einzelnen Anweisungen im PROC-Step sowie weitere Anweisungen sind in dem in SAS zur Verf¨ ugung gestellten Hilfesystem vorzufinden. 2.4.3 Hilfsprozeduren Das im Grundsystem vorhandene Modul SAS/BASE enth¨ alt Hilfsprozeduren, die unter anderem zur Datenaufbereitung oder zur einfachen Analyse der Daten dienen. PROC SORT Mithilfe der Prozedur PROC SORT k¨ onnen Merkmalsauspr¨ agungen gem¨aß der in der BY-Anweisung angef¨ uhrten Variable(n) aufsteigend sortiert werden. Hier

2.6 Aufbereitung der Ergebnisse

39

ist die BY-Anweisung somit unerl¨ asslich. Soll der Datensatz absteigend sortiert werden, so ist im BY-Statement zus¨atzlich die Option DESCENDING anzugeben. Die sortierten Daten k¨ onnen entweder in einen neuen Datensatz geschrieben werden oder den unsortierten Datensatz ersetzen. PROC FORMAT Die FORMAT-Prozedur erm¨oglicht es, eigene Informate und Formate zu definieren und Beschreibungen von Informaten und Formaten in einem SASDatensatz abzuspeichern. PROC OPTIONS Diese Prozedur listet die aktuellen Einstellungen der SAS-Systemoptionen auf und gibt diese im Log-Fenster aus. Mit der zus¨atzlichen Option DEFINE werden dar¨ uber hinaus Optionsbeschreibungen angef¨ uhrt. PROC PRINT Diese Prozedur gibt die Merkmalsauspr¨ agungen eines Datensatzes aus.

2.5 Globale Anweisungen Globale Anweisungen treten an beliebiger Stelle im Programm auf und sind wie alle anderen Anweisungen mit einem Strichpunkt abzuschließen. Einige wichtige globale Anweisungen sind: • • • • • •

ENDSAS; Beendet das SAS-Programm im Anschluss an den aktuellen Step. Nachfolgende Programmteile werden ignoriert. TITLE; Eingabe einer Kopfzeile. FOOTNOTE; Eingabe einer Fußzeile. OPTIONS; Setzt bzw. a¨ndert SAS-Systemoptionen. PAGE; F¨ ugt einen Seitenumbruch ein. SKIP; F¨ ugt eine Leerzeile ein.

2.6 Aufbereitung der Ergebnisse F¨ ur die Ergebnisaufbereitung wollen wir das Aufbereiten von Texten und Grafiken zun¨ achst getrennt betrachten und uns dann dem Output-DeliverySystem zuwenden, das f¨ ur die Verwaltung der Ergebnisse hilfreich ist.

40

2 Einf¨ uhrung in SAS

2.6.1 Textausgaben Nach einem fehlerfreien Prozedurdurchlauf werden die Ergebnisse automatisch in einem Textausgabefenster dargestellt. Die Variablen eines Datensatzes werden dabei zentriert und mit maximal vier Leerzeichen voneinander getrennt ausgegeben. Die zugeh¨origen Merkmalsauspr¨agungen einer numerischen Variablen erscheinen innerhalb der Spalte rechtsb¨ undig, alphanumerische Variablen im Gegensatz dazu linksb¨ undig. Globale Textausgabeoptionen Durch Optionen der (globalen) Anweisung OPTIONS k¨ onnen Textausgaben gestaltet werden. In Tabelle 2.8 sind einige Optionen f¨ ur diese Anweisung angef¨ uhrt. Option

Bedeutung

TOPMARGIN= BOTTONMARGIN= RIGHTMARGIN= LEFTMARGIN= NOCENTER NONUMBER NODATE

legt oberen Seitenrand fest legt unteren Seitenrand fest legt rechten Seitenrand fest legt linken Seitenrand fest unterdr¨ uckt zentrierte Ausgabe unterdr¨ uckt Ausgaben der Seitenzahl unterdr¨ uckt Datumsausgabe

Tabelle 2.8. Optionen f¨ ur die globale Anweisung OPTIONS

PROC TABULATE Die Prozedur TABULATE berechnet statistische Kennzahlen eines Datensatzes und stellt diese in Tabellenform dar. Allgemein sieht die Prozedur TABULATE folgendermaßen aus: PROC TABULATE [Optionen]; CLASS [/ Optionen]; TABLE [Seiten-, Zeilen-, ] [/ Optionen]; VAR [/ Optionen]; RUN; Die TABLE-Anweisung gibt an, welche Variablen verwendet werden und in welcher Form sie dargestellt werden. Bei dieser Prozedur ist darauf zu achten, dass zumindest die Anweisung TABLE und zus¨ atzlich mindestens eine der beiden Anweisungen VAR oder CLASS (vgl. Seite 38) notwendig sind. Wird nur eine Variable angegeben, wird f¨ ur jeden Merkmalswert dieser Variablen eine eigene Spalte ausgegeben.

2.6 Aufbereitung der Ergebnisse

41

DATA Beispiel; INPUT Alter Groesse; DATALINES; 20 180 30 180 40 200 ; RUN; PROC TABULATE; Class Alter; Table Alter; RUN; Dieses Programm erzeugt im Wesentlichen folgende Ausgabe: 20

Alter 30

40

Bei Verwendung mehrerer Variablen ist die Ausgabe unterschiedlich, je nachdem ob bzw. wie die Variablen miteinander verbunden werden. Stehen die Variablen getrennt durch ein Leerzeichen nebeneinander, werden die Tabellen der Variablen nebeneinander ausgegeben. Bei Verbindung mit einem Stern werden die Tabellen ineinander geschachtelt, bei Verbindung mit einem Beistrich werden Kreuztabellen erstellt. PROC TABULATE; Class Alter Groesse; Table Alter Groesse; Table Alter*Groesse; Table Alter,Groesse; RUN; erzeugt somit drei unterschiedliche Ausgabeformen. Die Prozedur TABULATE bietet zudem die M¨ oglichkeit, Variablen mit verschiedene statistischen Kennzahlen zu kombinieren. Dabei wird der Variablenname durch * mit einem Schl¨ usselwort verkn¨ upft. Es k¨ onnen unter anderem Extremwerte, Mittelwert oder Varianz berechnet werden (vgl. Tabelle 2.12, Seite 49). Wird kein Schl¨ usselwort explizit angegeben, so wird die Summe berechnet. PROC TABULATE; Var Alter; Table Alter; Table Alter*Mean ; RUN;

42

2 Einf¨ uhrung in SAS

2.6.2 Grafikprozeduren In SAS lassen sich mit der Prozedur GPLOT und GCHART zweidimensionale Grafiken erzeugen, f¨ ur dreidimensionale Darstellungen wird die Prozedur G3D verwendet. Eine Besonderheit ist das Erstellen von Histogrammen, die wahlweise mit der Prozedur UNIVARIATE oder CAPABILITY erzeugt werden. Mit letzterer bietet sich auch eine bequeme M¨oglichkeit zur Erzeugung von empirischen Verteilungsfunktionen. PROC GPLOT Mit dieser Prozedur lassen sich Streu- und Liniendiagramme grafisch darstellen. Auch das Erstellen einer empirischen Verteilungsfunktion ist m¨ oglich. Dazu m¨ ussen die Merkmalsauspr¨ agungen zuvor in einem separaten DATA-Step kumuliert werden. Dann folgt eine SYMBOL-Anweisung mit dem Zusatz I=STEPRJ. Die Syntax zur Erzeugung eines Streudiagrammes lautet in allgemeiner Form PROC GPLOT [Optionen]; PLOT * [Optionen]; RUN; Dabei tr¨ agt die Anweisung PLOT die unabh¨ angige Variable auf der Abszisse (horizontale Achse) gegen die abh¨angige Variable auf der Ordinate (vertikale Achse) auf. Um das erw¨ unschte Layout zu erreichen stehen zahlreiche Optionen zur Verf¨ ugung. Mit der Prozedur GPLOT, einer zus¨ atzlichen SYMBOL-Anweisung und der Option I=BOX[J][T] wird ein Boxplot erzeugt. J bewirkt hier, dass die Mediane mehrerer Box-Plots mit einer Linie verbunden werden, T hingegen markiert das obere und untere Ende mit einem Querstrich. PROC GCHART Balken-, S¨aulen- und Kreisdiagramme k¨onnen mit der Prozedur GCHART erstellt werden, deren allgemeiner Syntax folgendermaßen lautet: PROC GCHART [Optionen]; HBAR [Optionen]; VBAR [Optionen]; PIE [Optionen]; DONUT [Optionen]; RUN; Die Anweisung HBAR erzeugt ein Balkendiagramm, VBAR ein S¨ aulendiagramm, PIE ein Kreisdiagramm und DONUT ein Kreisdiagramm mit Loch in der Mitte. Optionen f¨ ur die Anweisungen HBAR, VBAR, PIE und DONUT verhelfen dazu, die Diagramme anschaulicher zu gestalten, z.B.:

2.6 Aufbereitung der Ergebnisse

• • •

43

MIDPOINTS= Diese Option bewirkt, dass die Klassenmittelpunkte nach Belieben eingerichtet werden k¨onnen. PERCENT=ARROW|INSIDE|NONE|OUTSIDE Gibt an einer gew¨ahlten Position die Prozentwerte der Balken oder Kreissegmente an. NOFRAME Die Option unterbindet das Zeichnen eines Rahmens.

PROC GCONTOUR Mit Hilfe dieser Prozedur kann man dreidimensionale Beziehungen in zwei Dimensionen durch H¨ohenschichtlinien darstellen. PROC GCONTOUR; PLOT *= [Optionen]; RUN;

PROC UNIVARIATE Mit der Prozedur UNIVARIATE k¨ onnen Histogramme und Q-Q-Plots erzeugt werden. PROC UNIVARIATE [Optionen]; HISTOGRAM [Optionen]; QQPLOT [Optionen]; RUN; Zahlreiche Optionen erleichtern das Anpassen des Layouts, beispielsweise bewirkt bei der HISTOGRAM-Anweisung die Option CFILL=, dass die Balken mit Farbe ausgef¨ ullt werden. Mit VSCALE=COUNT|PERCENT|PROPORTION kann festgelegt werden, ob die absoluten oder die relativen H¨ aufigkeiten ausgegeben werden sollen. Die Wahl PROPORTION skaliert die Y-Achse proportional zur Beobachtungszahl. Die Prozedur UNIVARIATE kann auch f¨ ur zahlreiche statistische Analysen verwendet werden (vgl. Abschnitt 2.7.1) PROC CAPABILITY Mit der Prozedur CAPABILITY k¨ onnen unter anderem Histogramme, empirische Verteilungsfunktionen und Q-Q-Plots erzeugt werden. Der allgemeine Programmcode lautet: PROC CAPABILITY [Optionen]; HISTOGRAM [Optionen]; CDFPLOT [Optionen]; QQPLOT [Optionen]; RUN;

44

2 Einf¨ uhrung in SAS

PROC BOXPLOT Mit dieser Prozedur k¨ onnen Boxplots erstellt werden. PROC BOXPLOT; PLOT *; RUN; Das arithmetische Mittel wird durch ein Plus im Boxplot dargestellt, die waagrechte Linie kennzeichnet den Median. Es gibt eine Reihe von Optionen, um die grafische Darstellung des Boxplots zu ver¨andern, diese sind in Tabelle 2.9 angef¨ uhrt.

Option

Bedeutung

BOXSTYLE=SKELETAL BOXSTYLE=SCHEMATIC BOXWIDTH CBOXES IDSYMBOL

zeichnet horizontale Linien vom Boxrand zu den Extremen extreme Ausreißer werden durch Symbole sichtbar setzt die Breite der Boxen fest setzt die Farbe der Boxen fest bestimmt die Form des Symbols von Ausreißern

Tabelle 2.9. Optionen f¨ ur die Prozedur Boxplot

PROC G3D Dreidimensionale Grafiken werden in SAS mittels PROC G3D erzeugt. PROC G3D [Optionen]; PLOT *= [Optionen]; SCATTER *= [Optionen]; RUN; Die Anweisung PLOT bewirkt, dass eine dreidimensionale Fl¨ache gezeichnet wird, die Anweisung SCATTER gibt hingegen ein dreidimensionales Streudiagramm aus, wobei eine dieser Anweisungen zwingend anzugeben ist. Mithilfe von Optionen k¨ onnen diese grafischen Darstellungen beeinflusst werden. GRID zum Beispiel bietet die M¨oglichkeit, Gitterlinien f¨ ur jede Achse zu zeichnen. Zus¨ atzlich kann man mit TILT= den Winkel festlegen, um den die Grafik dem Betrachter zugedreht wird, die Standardeinstellung betr¨ agt 70 Grad.

2.6 Aufbereitung der Ergebnisse

45

2.6.3 Grafiken gestalten und exportieren F¨ ur die Gestaltung und Ausgabe von Grafiken stellt SAS Anweisungen bereit, die in allen Prozeduren verwendet werden k¨ onnen. Eine der wichtigsten Anweisungen ist dabei TITLE [Optionen] ’¨ Uberschrift’ ¨ zur Festlegung einer oder mehrerer Uberschrift(en). Die Beschriftung der Grafik mit dem Namen ¨ Uberschrift erfolgt dabei zentriert. Diese Anweisung wird in allen nachstehenden Prozeduren beibehalten, auch wenn diese nichts mit der Grafik erzeugenden Prozedur zu tun haben. Nur durch eine neuerli¨ che TITLE-Anweisung kann die Uberschrift wieder ge¨ andert werden oder ¨ durch fehlende Angabe einer neuen Uberschrift gel¨oscht werden. Fußnoten werden mit der Anweisung FOOTNOTE [Optionen] ’Fußnote’ erzeugt und erscheinen ebenfalls zentriert, die Anweisung NOTE [Optionen] ’Bemerkung’ erm¨oglicht das (linksb¨ undige) Einf¨ ugen von Textzeilen in eine Grafik und muss innerhalb der Grafik erzeugenden Prozedur angegeben werden. Die Anweisungen TITLE, FOOTNOTE und NOTE lassen sich durch Optionen n¨ aher spezifizieren. Mit ANGLE= k¨ onnen die Textzeilen beliebig von -90 bis 90 Grad gedreht werden, wobei die Standardeinstellung bei 0◦ liegt. COLOR= gibt die Farbe des Textes an, wobei die Farben in englischer Sprache anzugeben sind, FONT= legt die Schriftart fest. Die Textausrichtung kann u ¨ber die Option JUSTIFY=L|R|C linksb¨ undig, rechtsb¨ undig oder zentriert eingestellt werden. Die Angabe der Optionen kann auch in Kurzform erfolgen, so steht A f¨ ur ANGLE, C f¨ ur COLOR, F f¨ ur FONT und J f¨ ur JUSTIFY. Das Erscheinungsbild der Grafik selbst kann mit den Anweisungen AXIS, LEGEND, PATTERN oder SYMBOL ver¨ andert werden. Mit der Anweisung AXIS [Optionen] k¨ onnen die Achsen formatiert werden. Dabei ist zu beachten, dass in der Grafik erzeugenden Prozedur auf die definierte Achse Bezug genommen werden muss. Wird die Anweisung ohne weitere Option aufgerufen, werden alle vorher eingestellten Eigenschaften unwirksam und gel¨ oscht. Die Option LABEL=’Text’ gibt Text als Achsenbeschriftung aus und LABEL=NONE unterbindet die Beschriftung.

46

2 Einf¨ uhrung in SAS

LEGEND [Optionen] ver¨ andert die Legende einer Grafik. Die zugeh¨orige Option LABEL=’Text’ spezifiziert den Text oder unterbindet die Legende (LABEL=NONE). Die Anweisung PATTERN [Optionen] fixiert die F¨ ullmuster und Farben der Grafik. Optionen bleiben bei der Neuzuweisung eines Musters bestehen, außer wenn sie explizit ge¨andert bzw. gel¨ oscht werden (PATTERN besitzt ein Ged¨ achtnis“). Mit der Option COLOR= ” wird die Farbe f¨ ur das Muster eingestellt und VALUE= legt das Muster fest. Innerhalb einer Grafik k¨ onnen darzustellende Symbole mit SYMBOL ver¨ andert werden. Die Anweisung bestimmt die Darstellung der Werte, die durch die Prozeduren GPLOT und GCONTOUR entstanden sind. Die Syntax daf¨ ur ist gegeben durch: SYMBOL [Optionen] Sie bestimmt Gestalt, Gr¨ oße und Farbe der darzustellenden Symbole, aber auch die Grafiktypen und besitzt wie PATTERN ein Ged¨ achtnis. Besonders erw¨ahnenswert ist hier die Option INTERPOLATION= (kurz I=), mit der beispielsweise durch I=BOX[J][T] ein Boxplot entsteht.

Deutsche Umlaute Deutsche Umlaute stellen in der Grafikausgabe ein Problem dar, daher ist es empfehlenswert statt Umlauten die zugeh¨orige Codierung (vgl. Tabelle 2.10) zu verwenden. Umlaut ¨ A ¨ O ¨ U a ¨ o ¨ u ¨ ß

Codierung ’8E’X ’99E’X ’9A’X ’84’X ’94’X ’81’X ’B8’X

Tabelle 2.10. Codierung deutscher Umlaute

2.6 Aufbereitung der Ergebnisse

47

Globale Grafikeinstellungen Wenn gewisse Grafikeinstellungen f¨ ur alle nachfolgenden Grafikprozeduren gelten sollen, kann man dies mit der Anweisung GOPTIONS erreichen. Mit PROC GOPTIONS; RUN; lassen sich die Grafikoptionen abfragen und im Log-Fenster ausgeben. Im ¨ Folgenden ist ein kleiner Uberblick u ¨ ber die wichtigsten Anweisungen gegeben: • • • •

GOPTIONS RESET=ALL; Zur¨ ucksetzen aller Einstellungen GOPTIONS ROTATE=LANDSCAPE|PORTRAIT; Wechsel zwischen Hochformat (PORTRAIT) und Querformat (LANDSCAPE), jedoch nur bei Grafiken, die als Datei exportiert werden. HSIZE=[CM bzw. IN]; Angabe der Grafikbreite am Bildschirm und f¨ ur den Export. VSIZE=[CM bzw. IN]; Angabe der Grafikh¨ ohe am Bildschirm und f¨ ur den Export.

Sollen Grafiken exportiert werden, ist es nicht empfehlenswert, dies durch Markieren, Kopieren und Einf¨ ugen zu machen, da hierbei die Qualit¨ at der Grafik meist schlecht ist. Besser ist es den Export u ¨ber das SAS-Ausgabeger¨ at (DEVICE) zu steuern. Die Standardeinstellung f¨ ur die Ausgabe ist der Bildschirm (Schl¨ usselwort WIN), mit der Option DEVICE= kann das Ausgabeger¨ at ver¨ andert werden, m¨ ogliche Ger¨ ate sind in Tabelle 2.11 aufgelistet.

Ger¨ at BMP IMGGIF JPEG PSLEPSFC TIFFP WIN

Name

Dateiendung

Bitmap-Format Graphics Interchange Format Joint Photographic Format Encapsulated Postscript Tag Image File Format Bildschirmausgabe

.bmp .gif .jpg .eps .tif

Tabelle 2.11. Schl¨ usselw¨ orter (Ger¨ ate) f¨ ur den Grafikexport

Die Angabe des Ausgabeger¨ates gen¨ ugt noch nicht f¨ ur einen Grafikexport. Zus¨ atzlich sind die Optionen GSFNAME= und GSFMODE=APPEND|REPLACE festzulegen. Dabei verweist GSFNAME= auf die Grafik, der acht Zeichen lange Name ist dabei frei w¨ ahlbar. Mit REPLACE wird die Grafik neu erzeugt und mit APPEND einer bestehenden Datei angef¨ ugt. Innerhalb der Grafik erzeugenden Prozedur ist die Anweisung FILENAME ’Dateiname’ anzugeben.

48

2 Einf¨ uhrung in SAS

2.6.4 Das Output-Delivery-System (ODS) Mithilfe des Output-Delivery-Systems (ODS) besteht die M¨ oglichkeit, den Output in einem anderen Format, wie zum Beispiel als RTF-, PDF-, PS- oder HTML-Datei auszugeben. Dabei ist eine individuelle Handhabung des Outputs m¨ oglich. Außerdem kann der Output in Form und Gestalt beeinflusst werden. Die allgemeine ODS-Syntax ist dabei gegeben durch ODS FILE=’’; [PROC-Steps]; ODS CLOSE; Diese Syntax schreibt die gesamte Ausgabe in die vorgegebene Datei. F¨ ur HTML-Formate ist das Schl¨ usselwort FILE durch BODY zu ersetzen. Die erste Zeile der Anweisung lautet demnach ODS HTML BODY=’’;. Das Output-Delivery-System l¨ asst aber auch eine normale Textausgabe zu, die mit ODS LISTING beginnt und den Output mit ODS LISTING CLOSE abschließt.

2.7 Grundlagen der Statistik mit SAS ¨ Um einen Uberblick u ¨ ber einen Datensatz zu erhalten, beginnen die meisten statistischen Analysen mit einer Linearauswertung, gefolgt von Kreuztabellierungen f¨ ur einen ersten Eindruck u ¨ ber das Zusammenspiel zweier (oder mehrerer) Merkmale. 2.7.1 Eindimensionale Merkmale F¨ ur Linearauswertungen stehen insbesondere die Prozeduren UNIVARIATE und MEANS zur Verf¨ ugung. Die Prozedur UNIVARIATE ist eine der umfangreichsten Prozeduren in SAS. Mit dieser Prozedur k¨ onnen Lage- und Streuungsmaße berechnet werden, aber auch Konfidenzintervalle und verschiedene Tests k¨ onnen angefordert werden. Die allgemeine Syntax der Prozedur UNIVARIATE lautet: PROC UNIVARIATE [Optionen]; BY ; CLASS ; FREQ ; HISTOGRAM [Variablen]; OUTPUT [OUT=SAS-data-set] [Schl¨ usselwort=Name]; PROBPLOT [Variablen]; QQPLOT [Variablen]; VAR ; WEIGHT ; RUN;

2.7 Grundlagen der Statistik mit SAS

49

Wichtige Anweisungen sind dabei •

• • • • • • •

BY ; Getrennte Analyse f¨ ur jede durch Variable definierte Gruppe. Bei mehreren Variablen wird f¨ ur jede Merkmalskombination eine Gruppe gebildet. Der Datensatz muss dabei aufsteigend sortiert sein. Durch ein vorangestelltes DESCENDING wird auf eine absteigend sortierte Variable verwiesen, ein nachgestelltes NOTSORTED verweist auf einen unsortierten Datensatz. CLASS ; Gruppierungsvariable, in der Hierarchie niedriger als BY. F¨ ur jeden BY-Wert entsteht eine getrennte Ausgabe (neue Seite), f¨ ur jedes CLASS-Element eine Spalte bzw. Zeile in einer Tabelle. FREQ ; H¨aufigkeitsvariable, jede Datenzeile wird mit der angegebenen H¨ aufigkeit in die Analyse einbezogen. HISTOGRAM; Erstellt ein Histogramm, wenn keine Variable explizit angegeben ist wird f¨ ur alle Variablen ein Histogramm erstellt. OUTPUT; Legt einen Datensatz mit den gew¨ unschten Kennzahlen an. M¨ ogliche Schl¨ usselw¨orter sind in den Tabellen 2.12, 2.13 und 2.14 angef¨ uhrt. PROBPLOT; QQPLOT; Erzeugt Wahrscheinlichkeitsplots oder Q-Q-Plots. VAR ; Auswahl einzelner Variablen, ohne diese Anweisung werden alle numerischen Variablen analysiert. WEIGHT ; Beobachtungen werden gewichtet, die verwendeten Formeln k¨onnen der Hilfe entnommen werden. Beobachtungen mit einem Gewicht kleiner oder gleich null erhalten das Gewicht null, werden aber bei der Anzahl der Beobachtungen mitgez¨ ahlt. Beobachtungen ohne Gewicht fallen g¨anzlich aus der Berechnung.

Schl¨ usselwort

Bedeutung

MAX MIN MEAN MODE VAR STD RANGE SKEWNESS KURTOSIS CV N NMISS NOBS SUM

Maximum Minimum arithmetisches Mittel h¨ aufigster Wert Varianz Standardabweichung Spannweite Schiefe W¨ olbung Variationskoeffizient Stichprobenumfang Anzahl der fehlenden Werte Anzahl der Beobachtungen Summe der Werte

Tabelle 2.12. Schl¨ usselw¨ orter der beschreibenden Statistik

50

2 Einf¨ uhrung in SAS Schl¨ usselwort

Bedeutung

P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 QRANGE

1-Prozent-Quantil 5-Prozent-Quantil 10-Prozent-Quantil Unteres Quartil (25-Prozent-Quantil) Median Oberes Quartil (75-Prozent-Quantil) 90-Prozent-Quantil 95-Prozent-Quantil 99-Prozent-Quantil Interquartilsdistanz (Q3 - Q1)

Tabelle 2.13. Schl¨ usselw¨ orter zur Quantilsberechnung

Schl¨ usselwort

Test, Ausgabe

MSIGN NORMALTEST SIGNRANK T

Vorzeichentest, Statistik Normalverteilungstest, Statistik Vorzeichen-Rangtest, Statistik Student’s t Test, Statistik

PROBM PROBN PROBS PROBT

Vorzeichentest, p-Wert Normalverteilungstest, p-Wert Vorzeichen-Rangtest, p-Wert Student’s t test, p-Wert

Tabelle 2.14. Schl¨ usselw¨ orter f¨ ur Hypothesentests (Auszug)

Die Prozedur MEANS erm¨oglicht neben der Prozedur UNIVARIATE ebenfalls die Berechnung von Mittelwerten und Streuungsmaßen. PROC MEANS [Optionen] [Statistik-Schl¨ usselw¨ orter]; BY ; CLASS ; FREQ ; OUTPUT [OUT=SAS-data-set] [Schl¨ usselwort=Name]; VAR ; WEIGHT ; RUN; Im Unterschied zu UNIVARIATE werden ohne Angabe von Optionen nur das arithmetische Mittel, die Standardabweichung und die Extremwerte berechnet. Die Anweisungen BY, CLASS, FREQ, OUTPUT, VAR oder WEIGHT sind wie gewohnt zu verwenden.

2.7 Grundlagen der Statistik mit SAS

51

Die Anweisung HISTOGRAM Das HISTOGRAM-Statement erstellt Histogramme und kann optional die (parametrisch oder nichtparametrisch) gesch¨atzte Dichte erg¨anzen. Die allgemeine Form des Statements lautet: HISTOGRAM [Variablen] [/ Optionen]; Die Optionen beginnen mit einem Slash (/) und k¨ onnen in drei Arten von Optionen unterteilt werden: Prim¨ aroptionen f¨ ur die Dichtesch¨atzung, Sekund¨ aroptionen f¨ ur die Dichtesch¨atzung und allgemeine Optionen. Die Prim¨ aroptionen spezifizieren die Dichtesch¨ atzung, wobei diese prinzipiell parametrisch oder nichtparametrisch erfolgen kann (vgl. Tabelle 2.15) Option

Bedeutung

BETA(Beta-Optionen) EXPONENTIAL(Exponential-Optionen) GAMMA(Gamma-Optionen) LOGNORMAL(Lognormal-Optionen) NORMAL(Normal-Optionen) WEIBULL(Weibull-Optionen) KERNEL(Kernel-Optionen)

Anpassen einer Betaverteilung Anpassen einer Exponentialverteilung Anpassen einer Gammaverteilung Anpassen einer Lognormalverteilung Anpassen einer Normalverteilung Anpassen einer Weibullverteilung Nichtparametrische Dichtesch¨ atzung

Tabelle 2.15. Prim¨ aroptionen f¨ ur die Histogram-Anweisung

Sekund¨ aroptionen beschreiben die anzupassende Verteilung n¨aher, beispielsweise durch Angabe von Parametern. Sind keine Parameter angegeben, so werden diese aus den Daten gesch¨atzt. Tabelle 2.16 listet die wichtigsten Sekund¨ aroptionen f¨ ur die parametrische Dichtesch¨ atzung auf, f¨ ur die Optionen der nichtparametrische Dichtesch¨atzung wird auf Kapitel 10 verwiesen. Option

Bedeutung

COLOR= PERCENTS= W=

Farbe der Dichtefunktion Empirische und theoretische Quantile Strichbreite der Dichtefunktion Optionen f¨ ur Normalverteilung

MU= SIGMA=

Mittelwert Standardabweichung

Tabelle 2.16. Sekund¨ aroptionen f¨ ur die Histogram-Anweisung

Die allgemeinen Optionen werden zur Anpassung der Grafiken oder des Outputs verwendet und k¨ onnen in der Online-Dokumentation nachgelesen werden.

52

2 Einf¨ uhrung in SAS

2.7.2 Kontingenztafeln und Zusammenhangsmaße Die Prozedur FREQ erstellt eindimensionale H¨aufigkeitstabellen und mehrdimensionale Kreuztabellen. Daneben k¨onnen auch verschiedene Maßzahlen f¨ ur den Zusammenhang zweier nominaler Merkmale berechnet werden und die zugeh¨origen Tests auf Zusammenhang durchgef¨ uhrt werden. Die allgemeine Syntax ist PROC FREQ [Optionen]; TABLES [Optionen]; WEIGHT ; BY ; RUN; F¨ ur die Anweisungen im TABLES-Statement gibt es verschiedene M¨oglichkeiten: •

• • • •

TABLES a b c: Erstellt f¨ ur jede Variable eine H¨aufigkeitstabelle mit den absoluten, relativen, kumulierten absoluten und kumulierten relativen H¨aufigkeiten. Alternativ dazu kann die Anweisung TABLES a--c verwendet werden. TABLES a*b: Erstellt zweidimensionale Tabelle mit Zeilenvariable a und Spaltenvariable b. TABLES a*b*c: Erstellt f¨ ur jede Auspr¨ agung von a eine Seite mit zweidimensionale Tabelle mit Zeilenvariable b und Spaltenvariable c. TABLES a*(b c): Erzeugt die Tabellen a ∗ b und a ∗ c. TABLES (a--c)*d: Erzeugt die Tabellen a ∗ d, b ∗ d und c ∗ d.

Die Optionen in der Tabellenanweisung erm¨ oglichen die Ausgabe von Zusammenhangsmaßen und -tests. Einige wichtige Optionen sind:

Schl¨ usselwort

Beschreibung

ALL ALPHA BINOMIAL BINOMIALC CHISQ CL CMH FISHER JT MEASURES EXPECTED MISSPRINT

Tests und Maßzahlen aus CHISQ, MEASURES und CMH Signifikanzniveau, Voreinstellung 0.05 Konfidenzintervalle f¨ ur Anteile wie BINOMIAL, mit Stetigkeitskorrektur ¨ Chi-Quadrat-Test und Ahnliches Konfidenzintervalle f¨ ur MEASURES-Statistiken Cochran-Mantel-Haenszel Statitik Fisher’s Exact Test Jonckheere-Terpstra Test Assoziationsmaße, z.B. Korrelation, Rangkorrelation bei Unabh¨ angigkeit erwartete H¨ aufigkeiten H¨ aufigkeiten f¨ ur fehlende Werte werden ausgegeben Tabelle 2.17. Optionen f¨ ur TABLES-Anweisung

2.7 Grundlagen der Statistik mit SAS

53

Der Korrelationskoeffizient (metrische Merkmale) und die Rangkorrelationskoeffizienten nach Spearman, Kendall und Hoeferding k¨ onnen mit der Prozedur CORR berechnet werden: PROC CORR [Optionen]; VAR ; WITH ; PARTIAL ; WEIGHT ; FREQ ; BY ; RUN; Als Optionen f¨ ur die Prozedur stehen unter anderem folgende M¨ oglichkeiten zur Verf¨ ugung:

Schl¨ usselwort

Beschreibung

ALPHA COV FISHER HOEFFDING KENDALL PEARSON SPEARMAN

Kronbach’s Alpha Ausgabe der Varianz-Kovarianzmatrix Konfidenzintervall und p-Werte Hoeffding’s Abh¨ angigkeitsmaß Kendall’s tau-b Korrelationskoeffizient Rangkorrelation nach Spearman

Tabelle 2.18. Optionen f¨ ur die Prozedur CORR

Die Option FISHER kann durch weitere Optionen n¨ aher spezifiziert werden: •

RHO0=: Festlegen des Vergleichswertes f¨ ur die Nullhypothese, Voreinstellung ist RHO0=0



ALPHA: Signifikanzniveau, Voreinstellung ist ALPHA=0.05



TYPE=LOWER|UPPER|TWOSIDED: Einseitige oder zweiseitige Konfidenzintervalle, Voreinstellung ist ein zweiseitiges Konfidenzintervall.

3 Einf¨ uhrung in R

R ist eine kostenlose Programmierumgebung, die speziell f¨ ur statistische Analysen konzipiert wurde. R ist auf verschiedenen UNIX-Plattformen, sowie f¨ ur MacOS und Windows verf¨ ugbar (http://www.r-project.org/). Die Ausf¨ uhrungen in diesem Buch beschr¨ anken sich auf das Betriebssystem Windows. Installationsanleitungen und Besonderheiten anderer Plattformen sind auf der R-Website nachzulesen. Die Einf¨ uhrung in diesem Buch vermittelt die Grundlagen und erm¨ oglicht den LeserInnen, die verwendeten Codes zu verstehen und selbst kleinere Programme zu schreiben. Interessierte LeserInnen finden auf der R-Website umfangreiche Handb¨ ucher und Literaturhinweise.

3.1 Installation und Konfiguration Die zur Installation ben¨ otigten Dateien werden von CRAN, einem weltweiten Servernetz, zur Verf¨ ugung gestellt. Auf http://cran.r-project.org/ findet man eine Liste aller Spiegelserver, von denen man den geografisch n¨ achsten Server w¨ ahlen sollte. Unter dem Link Windows werden die kompilierte Basis-Version und zus¨ atzliche Pakete zum Herunterladen angeboten. Durch Anklicken von base kommt man auf die Seite mit dem Setup-Programm R-2.7.0-win32.exe (derzeitige Version, Stand 5.5.2008) und weiteren Informationen. Nach dem Herunterladen und Anklicken von R-2.7.0-win32.exe f¨ uhrt ein Setup-Assistent durch die Installation von R, alle Standardeinstellungen k¨ onnen u ¨ bernommen werden. Danach kann R durch die Verkn¨ upfung im Windows-Startmen¨ u oder durch einen Doppelklick auf das neue Icon am Desktop aufgerufen werden.

56

3 Einf¨ uhrung in R

F¨ ur einen effizienten Gebrauch von R ist es empfehlenswert einige Konfigurationen vorzunehmen. Klickt man mit der rechten Maustaste auf das DesktopIcon, so erscheint ein Kontextmen¨ u, aus dem man den Punkt Eigenschaften ausw¨ahlt. Es erscheint folgende Dialogbox:

Abb. 3.1. Eigenschaften von R

In der Zeile Ausf¨ uhren in“ kann das gew¨ unschte Arbeitsverzeichnis eingege” ben werden (C:\Eigene Dateien). In der Zeile Ziel“ kann man die Optionen ” --sdi und --no-save erg¨ anzen. Die erste Option (Voraussetzung f¨ ur RWinEdt, vgl. Abschnitt 3.9) bewirkt, dass alle Fenster eigenst¨andig verwaltet werden (im Gegensatz zur Standardeinstellung mdi), die zweite gibt an, dass der Workspace beim Beenden nicht gesichert werden soll (vgl. Abschnitt 3.2.2).

3.2 Grundlagen

57

3.2 Grundlagen Als erstes kleines Beispiel soll das arithmetische Mittel von 13, 27 und 8 berechnet werden. Nach dem Promptzeichen (>) in der Konsole wird dazu folgender Code eingegeben und mit der Return-Taste best¨atigt. Das Resultat wird automatisch in der n¨ achsten Zeile ausgegeben: > (13 + 27 + 8)/3 [1] 16

# Berechnung des arithmetischen Mittels

Sollen mehrere Anweisungen in einer Zeile ausgef¨ uhrt werden, so sind diese mit einem Strichpunkt zu trennen. Bei mehrzeiligen Anweisungen ¨andert sich das Promptzeichen in der Fortsetzungszeile (+). Mit den Cursortasten (Pfeil nach oben bzw. nach unten) kann man schrittweise durch s¨amtliche in der Konsole eingegebenen Anweisungen bl¨attern (History). Kommentare beginnen mit dem Rautezeichen (#) und reichen bis zum Ende der Zeile. In Tabelle 3.1 sind die wichtigsten arithmetischen Operatoren angegeben. Operator

Beschreibung

+ * / ^ %% %/%

Addition Subtraktion Multiplikation Division Potenz Modulo Division Ganzzahlige Division

x+y x−y x·y x/y xy x mod y x/y

Tabelle 3.1. Arithmetische Operatoren in R

3.2.1 Zuweisungen M¨ ochte man mit dem Resultat weitere Berechnungen durchf¨ uhren, so ist es sinnvoll das Ergebnis einer Variable zuzuweisen. Dazu stehen in R mehrere M¨ oglichkeiten zur Verf¨ ugung, wobei eine der beiden folgenden empfohlen wird: > y y = 16

# Zuweisungen

Bei einer Zuweisung wird die Variable nicht automatisch auf der Konsole ausgegeben. Ist dies gew¨ unscht, ist entweder der Variablenname neu einzugeben oder die Zuweisung zu umklammern:

58

3 Einf¨ uhrung in R

> y = 16 > y [1] 16 > (y = 16) [1] 16

# Ausgabe durch explizite Angabe von y # Ausgabe durch Umklammerung der Zuweisung

In Variablennamen sind alle alphanumerischen Symbole, sowie Punkt und Unterstrich (_) erlaubt, wobei das erste Zeichen weder eine Ziffer noch ein Unterstrich sein darf. Beginnt der Name mit einem Punkt, so darf das zweite Zeichen keine Ziffer sein. Bei der Wahl von Variablennamen sollte stets auf die Lesbarkeit geachtet werden. R unterscheidet Groß- und Kleinschreibung, demnach sind y und Y unterschiedliche Variablen. In R sind einige Konstanten definiert, die ebenfalls nicht als Variablennamen in Frage kommen. Ein Auszug der wichtigsten Konstanten zeigt Tabelle 3.2.

Konstante

Beschreibung

Inf NA NaN NULL pi T F

unendlich fehlender Wert undefinierter Wert (not a number) leere Menge Zahl π TRUE (= 1) FALSE (= 0) Tabelle 3.2. Konstanten in R

Der Wert einiger Konstanten kann mit Zuweisungen u ¨berschrieben werden, wie das folgende Beispiel zeigt: > pi [1] 3.141593 > pi = 1 > pi [1] 1

# Wert von pi ausgeben # pi den Wert 1 zuweisen # pi ist ¨ uberschrieben

Der Unterschied zwischen NA und NaN besteht darin, dass bei letzterem der Wert fehlt, weil eine Berechnung nicht m¨oglich war. > 0/0 [1] NaN > pi/0 [1] Inf

# undefiniert # unendlich

3.2 Grundlagen

59

3.2.2 Objekte und Workspace In R werden alle Variablen, Daten, Funktionen etc. als Objekte angesehen. Alle in einer R-Sitzung erzeugten Objekte werden im so genannten Workspace gespeichert. Mit ls() bzw. objects() werden die Objekte im aktuellen Workspace angezeigt. In l¨angeren R-Sitzungen werden oft Objekte angelegt, die nicht mehr verwendet werden. Mit rm() werden Objekte aus dem Workspace entfernt. Mit rm(list=ls(all=TRUE)) werden alle Objekte gleichzeitig gel¨oscht (oder Men¨ upunkt Verschiedenes - Entferne alle Objekte). Mit save.image() wird der Workspace in der Datei .RData f¨ ur eine sp¨atere R-Sitzung gespeichert. Mit load() bzw. Doppelklick auf die Datei wird der gespeicherte Workspace wieder geladen, wobei der gespeicherte mit dem aktuellen Workspace zusammengef¨ ugt wird. Bei identischen Objektnamen wird das Objekt im gespeicherten Workspace verwendet. Beim Beenden einer RSitzung mit q() wird gefragt, ob der Workspace gesichert werden soll (außer man hat die Konfiguration zum Speichern ge¨ andert, vgl. Abschnitt 3.1). Bei Best¨atigung wird neben dem Workspace auch die History, das ist die gesamte in der Konsole eingegebene Befehlsfolge, in der Datei .RHistory im aktuellen Arbeitsverzeichnis gespeichert. Im Men¨ u Datei stehen zum Speichern und Laden von Workspace und History ebenfalls Men¨ upunkte zur Verf¨ ugung. Mit Datei - ¨ Offne Skript kann .RHistory auch als Textdatei ge¨ offnet werden. Funktion

Beschreibung

ls(), objects() rm() rm(list=ls(all=TRUE)) save.image() load() q(), quit()

Anzeigen der aktuellen Objekte L¨ oschen eines Objektes L¨ oschen aller aktuellen Objekte Workspace speichern Workspace laden Programm beenden

Tabelle 3.3. Funktionen zur Verwaltung des Workspace

3.2.3 Datentypen Die verf¨ ugbaren Datentypen sind in Tabelle 3.4 angegeben. Standardm¨aßig werden Daten als reelle Zahlen interpretiert. Logische Werte sind T, F, TRUE und FALSE, Zeichenketten werden mit Hochkomma "" angegeben. Mit den Funktionen is.logical(), is.numeric(), is.integer() etc. kann der Datentyp einer Variablen u ¨ berpr¨ uft werden.

60

3 Einf¨ uhrung in R Datentyp (Speichermodus)

Beschreibung

logical numeric (integer, double) complex character

logische Werte (ganze, reelle) Zahlen komplexe Zahlen Zeichenketten

Tabelle 3.4. Datentypen in R

Die Umwandlung in einen bestimmten Datentyp erfolgt durch Ersetzen von is mit as. Mit mode() kann der Datentyp eines Objekts, mit typeof() der Speichermodus von numerischen Variablen (integer oder double) abgefragt werden. > x = 4 > is.numeric(x) [1] TRUE > mode(x) [1] "numeric" > x = as.character(x) > mode(x) [1] "character"

3.2.4 Hilfesystem Im integrierten Hilfesystem findet man zu jeder Funktion Informationen zur Syntax und Verwendung. Mit help() bzw. ? wird die zugeh¨ orige Hilfeseite ge¨offnet. So wird etwa mit ?rm, ?rm(), help(rm) oder help("rm") die Hilfeseite f¨ ur die Funktion rm() aufgerufen. Oft findet man hier auch Beispiele, die vor allem beim Erlernen neuer Funktionen sehr hilfreich sind. Durch Markieren einer oder mehrerer Anweisungen der Beispiele auf der Hilfeseite und Strg-V wird der markierte Programmcode an die Konsole geschickt und zeilenweise abgearbeitet. Kennt man den Funktionsnamen nicht, so kann mit help.search() das gesamte Hilfesystem nach einem Schlagwort durchsucht werden. Mit apropos() werden alle Objektnamen angezeigt, welche die gesuchte Zeichenfolge enthalten. Die Funktionen help(), help.search() und apropos() k¨ onnen auch direkt u ¨ ber das Men¨ u Hilfe aufgerufen werden. Zus¨ atzlich stellt R auch einige Demos zur Verf¨ ugung. Mit demo() werden die verf¨ ugbaren Demos aufgelistet. Eine Vorf¨ uhrung der grafischen M¨oglichkeiten kann etwa mit demo(graphics) aufgerufen werden.

3.3 Datenstrukturen

61

3.2.5 Pakete S¨ amtliche Funktionen und Datens¨ atze werden bei R in Paketen zur Verf¨ ugung gestellt. Bevor man den Inhalt eines installierten Paketes verwenden kann, muss es geladen werden. In der Installation von R sind bereits die wichtigsten Basispakete f¨ ur grundlegende statistische Anwendungen enthalten. Mit library() werden die Pakete aufgelistet, die bereits lokal installiert wurden. Mit search() werden die bereits geladenen Pakete angezeigt. Informationen zu installierten Paketen erh¨ alt man mit library(help=Paketname). Installierte Pakete k¨onnen mit library() oder require() geladen und mit detach() wieder aus den geladenen Paketen entfernt werden. Sollen zus¨ atzliche Pakete installiert werden, so geschieht dies mit install.packages(). Zur Aktualisierung einzelner Pakete wird der Befehl update.package() verwendet.

Funktion

Beschreibung

library()

Installierte Pakete anzeigen

library(stats)

Paket stats laden

library(help = stats)

Informationen zum Paket stats

search()

Geladene Pakete anzeigen

detach("package:stats")

Paket stats aus geladenen Paketen entfernen

install.packages()

Pakete installieren

update.package()

Aktualisierung (Download) von Paketen

Tabelle 3.5. Funktionen zur Verwaltung von Paketen

Die Befehle zum Laden, Installieren und Aktualisieren von Paketen k¨ onnen auch direkt u ¨ ber den Men¨ upunkt Pakete aufgerufen werden. Zus¨atzlich kann hier auch der gew¨ unschte CRAN-Spiegelserver gew¨ ahlt werden (vgl. Abschnitt 3.1).

3.3 Datenstrukturen Es werden folgende Datenstrukturen unterschieden: Vektoren, Matrizen, Arrays, Datens¨ atze und Listen. Die Datenstruktur eines Objektes kann mit der Funktion str() abgefragt werden.

62

3 Einf¨ uhrung in R

3.3.1 Vektoren Vektoren werden mit der Funktion c() erzeugt. Weitere n¨ utzliche Funktionen sind length() zur Angabe der Vektorl¨ange und t() zum Transponieren eines Vektors. Bei der Erzeugung von Vektoren ist darauf zu achten, dass alle Elemente eines Vektors vom selben Datentyp sind. Ist dies nicht der Fall, wird allen Elementen der niedrigste Datentyp zugeordnet. Um einzelne Elemente eines Vektors aufzurufen, verwendet man hinter dem Namen des Vektors eckige Klammern [] mit dem entsprechenden Index. Beim Rechnen mit Vektoren wird in R komponentenweise gerechnet. Bei unterschiedlicher Vektorl¨ange wird der k¨ urzere Vektor wiederholt und im Bedarfsfall eine Warnmeldung generiert. > x > y > z > x [1] > x [1]

= = = +

c(2,3,4,6,8) c(5,4,8) c(7,2,1,6,9) z # Komponentenweises Addieren 9 5 5 12 17 + y # K¨ urzerer Vektor wird wiederholt 7 7 12 11 12 Warnmeldung: L¨ ange des l¨ angeren Objektes ist kein Vielfaches der L¨ ange des k¨ urzeren Objektes in: x + y

Die wichtigsten Funktionen und Operatoren f¨ ur Vektoren sind in Tabelle 3.6 zusammengefasst. Funktion

Beschreibung

c() str() length() t()

Vektor durch Verkn¨ upfung erzeugen Datenstruktur anzeigen L¨ ange des Vektors Transponieren

Operation

Beschreibung

+, *, / %*%

komponentenweises Addieren und Subtrahieren komponentenweises Multiplizieren und Dividieren Skalarprodukt Tabelle 3.6. Funktionen und Operatoren f¨ ur Vektoren

Einzelne Elemente eines Vektors k¨onnen benannt werden: > u = c(Vorname="Udo", Nachname="Mayr", Alter=35) > u Vorname Nachname Alter "Hans" "Mayr" "35"

3.3 Datenstrukturen

63

3.3.2 Matrizen Matrizen werden mit folgender Funktion erzeugt: matrix(data, nrow, ncol, ...) Im ersten Argument wird der Datenvektor u ¨ bergeben. Zus¨atzlich sollte man entweder die Zahl der Reihen nrow oder die Zahl der Spalten ncol angeben. Durch die Anweisung byrow = TRUE wird die Matrix zeilenweise aufgebaut, ansonsten spaltenweise. > > > >

data = c(1, 2, 3, 4, 5, 6) x = matrix(data, ncol=3) y = matrix(data, ncol=3, byrow=TRUE) x [,1] [,2] [,3] [1,] 1 3 5 [2,] 2 4 6 > y [,1] [,2] [,3] [1,] 1 2 3 [2,] 4 5 6

# spaltenweise # zeilenweise

Matrizen k¨ onnen genauso wie Vektoren durch einen Index in eckigen Klammern [] angesprochen werden. Man muss jedoch den Index der Zeile und der Spalte angeben, wobei die erste Zahl der Zeile entspricht. > x[1,2] > x[,2]

# Element in 1. Zeile und 2. Spalte # 2. Spalte

Die wichtigsten Funktionen und Operatoren f¨ ur Matrizen zeigt Tabelle 3.7. Funktion bzw. Operator

Beschreibung

eigen() kappa() solve(x) dim(x) crossprod(x,y) t(x) %*% y

Eigenwerte und Eigenvektoren Konditionszahl Matrixinvertierung x−1 Anzahl der Zeilen und Spalten Matrixmultiplikation xT y Matrixmultiplikation xT y

Tabelle 3.7. Funktionen und Operatoren f¨ ur Matrizen

Bei der Matrixmultiplikation crossprod() wird xT y berechnet, diese Funktion liefert daher dasselbe Ergebnis wie t(X)%*%Y.

64

3 Einf¨ uhrung in R

3.3.3 Arrays Durch array() werden Arrays mit beliebiger Dimension erzeugt. Die Dimensionen k¨onnen durch die Option dim angegeben werden. Die Funktion zur Erzeugung eines Arrays ist folgendermaßen aufgebaut: array(data_vector, dim_vector) Zur Erzeugung eines 3-dimensionales Array mit den Zahlen 1 bis 8 bedeutet dies: > a = array(1:8, dim = c(2, 2, 2)) Die Belegung der Elemente erfolgt auch hier spaltenweise“, d.h. die Elemente ” werden in folgender Reihenfolge belegt: a[1,1,1]=1 a[2,1,1]=2 a[1,2,1]=3 a[2,1,1]=4 a[1,1,2]=5 a[2,1,2]=6 a[1,2,2]=7 a[2,1,2]=8 Die Elemente eines Arrays k¨ onnen ebenso wie bei Vektoren und Matrizen mit eckigen Klammern [] und dem entsprechenden Index angesprochen werden. > a[1,1,1] > a[,1,2] > a[,,2]

# Zugriff auf Elemente # Zugriff auf 1-dimensionale Spalte # Zugriff auf 2-dimensionale Matrix

Auch bei Arrays gilt, dass im Fall von Elementen mit verschiedenen Datentypen der niedrigste Typ f¨ ur alle Eintr¨ age u ¨ bernommen wird.

3.3.4 Listen Listen werden mittels der Funktion list() erzeugt. Der Vorteil der Listen liegt darin, dass unterschiedliche Elemente auch andere Datentypen haben k¨ onnen. Der Zugriff auf die Elemente einer Liste erfolgt mit doppelten eckigen Klammern [[]].

3.3 Datenstrukturen

65

> (list1 = list(c(1, 2, 3), matrix(c(2, 4, 6, 8), 2, 2), + TRUE, "Hallo")) [[1]] [1] 1 2 3 [[2]] [,1] [,2] [1,] 2 6 [2,] 4 8 [[3]] [1] TRUE [[4]] [1] "Hallo" > list1[[1]] # Zugriff auf erstes Element [1] 1 2 3 > is.vector(list1[[2]]) [1] FALSE

Hier wurde zun¨ achst eine Liste mit verschiedenen Datentypen erzeugt. Das erste Element ist ein Vektor mit drei Eintr¨agen, anschließend folgt eine Matrix, dann der logische Wert TRUE und eine Zeichenkette Hallo. Durch die Funktion is.vector() wird TRUE oder FALSE geliefert, je nach dem ob das Element ein Vektor ist oder nicht. Auch in Listen k¨ onnen die einzelnen Elemente mit Namen versehen werden, was den sp¨ateren Zugriff vereinfacht. > Liste = list(Zeichen="Charakter", Wahrheitswert=TRUE) > Liste$Wahrheitswert [1] TRUE

3.3.5 Data Frames, Datens¨ atze Listen, bei denen die einzelnen Elemente Vektoren gleicher L¨ange sind, nennt man Data Frames oder Datens¨atze. Diese werden mit der Funktion data.frame() erzeugt. > + + +

Pruefung = data.frame(LVA = c("Betriebswirtschaft", "Mathematik", "Informatik", "Wahrscheinlichkeitsrechnung"), Datum = c("15.06.", "30.06.", "24.06.", "13.06."), Note = c(1, 3, 2, 1))

66

3 Einf¨ uhrung in R

> Pruefung LVA 1 Betriebswirtschaft 2 Mathematik 3 Informatik 4 Wahrscheinlichkeitsrechnung

Datum Note 15.06. 1 30.06. 3 24.06. 2 13.06. 1

Mit der Funktion subset() besteht die M¨ oglichkeit bestimmte Elemente aus dem gesamten Datensatz auszuw¨ ahlen, beispielsweise all jene Pr¨ ufungen die mit der Note Eins absolviert wurden. > subset(Pruefung, Note == 1) LVA Datum Note 1 Betriebswirtschaft 15.06. 1 4 Wahrscheinlichkeitsrechnung 13.06. 1 Wichtige Funktionen f¨ ur das Arbeiten mit Datens¨atzen sind in Tabelle 3.8 aufgelistet. Die Indizierung in Datens¨atzen kann entweder wie bei Listen oder wie bei Matrizen erfolgen. Daher greifen Pruefung$Note[2], Pruefung[[3]][2] und Pruefung[2,3] auf das selbe Element zu. Funktion

Beschreibung

data.frame() subset() str() select() A %in% B split() merge()

Erzeugung eines Datensatzes Ausw¨ ahlen von Elementen Struktur des Datensatzes Ausw¨ ahlen bestimmter Spalten TRUE, wenn A in B enthalten ist Aufteilen eines Datensatzes Zusammenf¨ ugen mehrerer Datens¨ atze

Tabelle 3.8. Funktionen f¨ ur Datens¨ atze

3.4 Konstrukte f¨ ur den Programmablauf Um den Ablauf eines Programms zu steuern werden so genannte Konstrukte verwendet. Mit Verzweigungen k¨onnen Fallunterscheidungen programmiert werden, Schleifen dienen zur wiederholten Ausf¨ uhrung eines Programmteils. Basis jedes Konstruktes ist eine logische Abfrage, die mit Vergleichsoperatoren und logischen Operatoren gebildet wird (Tabelle 3.9).

3.4 Konstrukte f¨ ur den Programmablauf Operator

Beschreibung

== != >, >= y > x [1] > x [1]

= c(TRUE, TRUE) = c(TRUE, FALSE) & y # vektorwertig TRUE FALSE && y # nicht vektorwertig TRUE

Beim vektorwertigen Operator wird jedes Element aus dem ersten Vektor mit dem entsprechenden Element des zweiten Vektors verkn¨ upft. Die Anzahl der resultierenden Wahrheitswerte entspricht der L¨ ange des l¨angeren Vektors, der k¨ urzere Vektor wird im Bedarfsfall wiederholt. Vergleichsoperatoren werden ebenfalls vektorwertig (= komponentenweise) verarbeitet. Beim nicht vektorwertigen Operator wird lediglich das jeweils erste Element der beiden Vektoren verglichen und ein einzelner Wahrheitswert ausgegeben. Der Vorteil von nicht vektorwertigen Operatoren besteht darin, dass nur so viele Logik-Verkn¨ upfungen ausgef¨ uhrt werden, wie notwendig sind um einen Wahrheitswert zu erhalten. > (3==4) && (3==3) [1] FALSE Da die erste Aussage (3==4) bereits den Wert FALSE liefert und damit das Gesamtergebnis bereits feststeht wird der zweite Ausdruck (3==3) nicht mehr ausgewertet.

68

3 Einf¨ uhrung in R

Interessant ist die dadurch gebotene M¨oglichkeit einer bedingten Zuweisung: > x = 0 > FALSE || (x = 3) [1] TRUE > x [1] 3

3.4.1 Verzweigungen F¨ ur Verzweigungen bzw. bedingte Anweisungen steht in R folgende M¨oglichkeiten zur Verf¨ ugung: if, ifelse und switch.

if (Bedingung) {Anweisungen1} else {Anweisungen2} Ist der Wert von Bedingung TRUE, so wird Anweisungen1 ausgef¨ uhrt, sonst wird Anweisungen2 ausgef¨ uhrt. Die Bedingung darf nicht vektorwertig sein (vgl. Seite 67). Wird dennoch eine vektorwertige Bedingung angegeben, so verwendet R nach einem Warnhinweis nur das erste Element. Der else-Zweig ist optional und kann entfallen. Die geschwungenen Klammern m¨ ussen verwendet werden, wenn mehrere Anweisungen ausgef¨ uhrt werden sollen, ansonsten reicht die Anweisung ohne Klammer. > > + + + + >

x = -16 if (x < 0) { im = 0i y = sqrt(x + im) } else y = sqrt(x) y

# # # #

Wert zuweisen wenn x < 0, dann Imagin¨ arteil y die imagin¨ are Quadratwurzel zuweisen

# y die reelle Quadratwurzel zuweisen

F¨ ur mehrere Fallunterscheidungen k¨ onnen die if(){}else{}-Statements auch verschachtelt werden.

ifelse(Bedingung, Anweisung1, Anweisung2) Der wesentliche Unterschied zum if(){}else{}-Statement liegt darin, dass nun Bedingung und Anweisungen vektorwertig sind, wobei nur einfache Anweisungen m¨oglich sind. Wie bei vektorwertigen Operatoren u ¨ blich werden Elemente von k¨ urzeren Vektoren im notwendigen Ausmaß wiederholt. Ein einfaches Beispiel illustriert die Arbeitsweise des Statements:

3.4 Konstrukte f¨ ur den Programmablauf

69

> x=2 > ifelse(x == c(0,2), c("Then1","Then2"), c("Else1","Else2")) [1] "Else1" "Then2" Zuerst wird der Wert x mit der ersten Komponente (0) verglichen, aufgrund der Ungleichheit verzweigt die Anweisung in die erste Komponente des elseZweiges. Danach erfolgt der Vergleich von x mit der zweiten Komponente (2) und dem entsprechend erfolgt die Ausgabe der zweiten Komponente des then-Zweiges.

switch(Anweisung, Liste) Anstelle von verschachtelten if-Anweisungen kann in manchen F¨allen diese Alternative zur Fallunterscheidung verwendet werden. Liefert Anweisung eine Zahl zwischen 1 und der L¨ange von Liste, so wird das entsprechende Listenelement ausgewertet. Liefert Anweisung einen String, so wird das entsprechend benannte Listenelement ausgegeben. In allen anderen F¨ allen wird NULL zur¨ uckgegeben. > switch(3,"Badesachen","Schirm","Schlitten") [1] "Schlitten" > switch("Regen", Sonne = "Badesachen", Regen = "Schirm", + Schnee = "Schlitten") [1] "Schirm"

3.4.2 Schleifen R bietet drei M¨ oglichkeiten der Schleifenprogrammierung, daneben werden oft Kontrollbefehle ben¨ otigt, die in Tabelle 3.10 zusammengefasst sind. Schleife

Beschreibung

repeat{Anweisungen} while(Bedingung){Anweisungen} for(i in Vektor){Anweisungen}

Wiederholung der Anweisungen Wiederholung, solange Bedingung erf¨ ullt Wiederholung, solange i in Vektor

Kontrollbefehl

Beschreibung

next break

Sprung in den n¨ achsten Iterationsschritt Sprung aus der Schleife Tabelle 3.10. Schleifen und zugeh¨ orige Kontrollbefehle

70

3 Einf¨ uhrung in R

repeat{Anweisungen} F¨ ur diese Schleifenkonstruktion ist die Verwendung des Kontrollbefehls break obligat, weil sonst die Schleife endlos laufen w¨ urde. Der Block Anweisungen wird solange wiederholt, bis die Schleife durch break - sinnvollerweise unter einer Bedingung - beendet wird. Durch next ist es m¨oglich an den Schleifenanfang zur¨ uckzuspringen. Dies ist besonders dann sinnvoll, wenn nicht bei jedem Durchlauf der gesamte Anweisungsblock abgearbeitet werden soll, sondern nur unter gewissen Bedingungen. > i = 1 > repeat { + i = i + 1 + if (i < 4) next + print(i^2) + if (i == 6) break + } [1] 16 [1] 25 [1] 36

# # # # # #

bei i = 1 starten wiederhole i um 1 erh¨ ohen falls i < 4 Sprung zu Anfang Quadrat ausgeben wenn i == 6 dann Ende

while(Bedingung){Anweisungen} Beim while-Statement steht die Abbruchbedingung nicht innerhalb der Schleife, sondern zu Beginn. Der Block Anweisungen wird solange wiederholt, bis Bedingung nicht mehr erf¨ ullt ist und den Wert FALSE liefert. Die Schleife aus obigen Beispiel kann auch folgendermaßen umgesetzt werden: > i = 1 > while(i = 4) print(i^2) + i = i + 1 + } [1] 16 [1] 25 [1] 36

# # # #

bei i = 1 starten solange i = 4 Quadrat ausgeben i um 1 erh¨ ohen

Auch in while-Schleifen k¨ onnen die Kontrollbefehle next und break verwendet werden.

3.5 Funktionen

71

for(i in Vektor){Anweisungen} In dieser Schleife wird der Block Anweisungen solange wiederholt, wie die Schleifenvariable i in Vektor liegt. > for (i in 4:6) + print(i^2) [1] 16 [1] 25 [1] 36

# solange i in 4:6 # Inhalt ausgeben

Auch hier k¨ onnen die Anweisungen next und break verwendet werden.

3.5 Funktionen In R besteht die M¨ oglichkeit, Funktionen selbst zu definieren. Dies ist dann sinnvoll, wenn man einen Programmcode o¨fter verwendet. Der grundlegende Aufbau besteht aus einer Zuweisung des Objekts function: Funktionsname = function(Argumente) {Body} Durch Argumente werden Parameter an die Funktion u ¨ bergeben, die im Anweisungsteil, dem Body der Funktion, verwendet werden. Diese Argumente k¨ onnen auch mit Voreinstellung versehen werden. Der Aufruf erfolgt u ¨ber den Namen der Funktion: Funktionsname(Argument1 = Wert1, Argument2 = Wert2) Beim Aufruf der Funktion m¨ ussen entweder die Parameter in der vorgegebenen Reihenfolge u ¨ bergeben werden, oder man bezeichnet die Parameter beim Funktionsaufruf mit den definierten Argumentnamen. Aus Gr¨ unden der Lesbarkeit sollte man bei mehreren Parametern beim Aufruf stets die Parameternamen verwenden. Die Funktion gibt standardm¨ aßig das in der letzten Zeile (im Body) erzeugte Objekt zur¨ uck. Mit return() oder invisible() kann ein anderer R¨ uckgabewert festgelegt werden. Folgende Funktion berechnet die n-te Wurzel der Zahl x: sqrtn = function (x, n = 2) {y = x ^ (1/n)}

72

3 Einf¨ uhrung in R

Mit n = 2 wird der default-Wert festgelegt. Wird also beim Funktionsaufruf f¨ ur n kein Wert u ¨ bergeben, so wird standardm¨ aßig die Quadratwurzel berechnet. Der default-Wert wird ignoriert, wenn n beim Aufruf explizit angegeben wird: > (sqrtn(16, 4)) [1] 2 > (sqrtn(n = 4, x = 16)) [1] 2 > (sqrtn(16)) [1] 4 > (sqrtn(x = 125, n = 3)) [1] 5 Hier werden die Funktionswerte durch die Umklammerung direkt ausgegeben. Durch Zuweisung beim Funktionsaufruf k¨ onnen die Funktionswerte zur sp¨ ateren Verwendung gespeichert werden. Alle Objekte, die innerhalb einer Funktion erzeugt wurden, sind nach Ende des Funktionsauswertung nicht mehr verf¨ ugbar. Sollen mehrere Werte zur¨ uckgegeben werden, so fasst man diese zu einer Liste zusammen und gibt sie mit return(list(Wert1, Wert2, ...)) zur¨ uck.

3.6 Datenimport und -export R bietet zahlreiche M¨oglichkeiten f¨ ur den Datenimport und -export. Um Daten in Tabellenform einzulesen, wie etwa aus .txt-Dateien oder .csvDateien kann eine der nachfolgenden Funktionen genutzt werden. read.table() read.csv() read.csv2() Alle drei Funktionen sind geeignet f¨ ur das Einlesen von Daten in Tabellenform, die Argumente und Voreinstellungen sind vielf¨ altig, daher wird an dieser Stelle auf die Informationen im Hilfesystem verwiesen (?read.table).

3.6 Datenimport und -export

73

Die wichtigsten Argumente sind file, header, sep und dec: • • • •

Unter file ist der Name (und Pfad) der Datei als string anzugeben. Mit header = TRUE wird die erste Zeile als Spalten¨ uberschrift interpretiert. Mit sep = "" kann das Trennzeichen angegeben werden. Mit dec = "" wird das Dezimalzeichen bestimmt.

In read.table ist die Voreinstellung f¨ ur das Trennzeichen " ", demnach wird jeder Leerraum (Leerzeichen, Tabulator) als Trennzeichen interpretiert. Die Voreinstellungen der read-Anweisungen unterschieden sich und sind in folgender Tabelle zusammengefasst:

Anweisung

header

sep

dec

read.table() read.csv() read.csv2()

FALSE TRUE TRUE

" " , ;

. . ,

Tabelle 3.11. Funktionen zum Datenimport und Voreinstellungen

Als Gegenst¨ uck zum Einlesen von Dateien kann man Datens¨atze auch exportieren. Die verschiedenen Optionen sind jenen zum Importieren sehr ¨ahnlich. write.table() write.csv() write.csv2() Auch f¨ ur andere Dateiformate, wie zum Beispiel aus SAS, Excel oder SPSS werden in verschiedenen Paketen Funktionen angeboten. Die wichtigsten Funktionen sind in Tabelle 3.12 aufgelistet.

Funktion

Beschreibung

read.fwf() read.ssd() read.spss() read.xls()

Einlesen Einlesen Einlesen Einlesen

von von von von

Paket Dateien mit fixer Spaltenbreite SAS-Dateien SPSS-Dateien Excel-Dateien

Tabelle 3.12. Datenimport f¨ ur fremde Formate

utils foreign foreign gdata

74

3 Einf¨ uhrung in R

3.7 Statistik mit R R stellt f¨ ur statistische Anwendungen zahlreiche Funktionen bereit. F¨ ur die wichtigsten Verteilungen sind Funktionen zur Berechnung von Dichtefunktion, Verteilungsfunktion und Quantilen sowie zur Erzeugung von Pseudozufallszahlen bereits implementiert. Der Funktionsname setzt sich aus dem R-Namen der Verteilung und einem vorangestellten Buchstaben (d f¨ ur die Dichte, p f¨ ur die Verteilungsfunktion, q f¨ ur Quantile und r f¨ ur die Erzeugung von Pseudozufallszahlen) zusammen. ¨ Tabelle 3.13 gibt eine Ubersicht der in der Basisinstallation enthaltenen Verteilungen.

Funktion

Anfangsbuchstabe

Argument

Dichtefunktion Verteilungsfunktion Quantil Pseudo-Zufallszahl

d p q r

x q p n

Verteilung

Erg¨ anzung

Argumente

BetaBinomialCauchyChi-QuadratExponentialFGammaGeometrischeHypergeometrischeLog-NormalLogistischeMultinomialNegative BinomialNormalPoissonStudent tGleichWeibullWilcoxonWilcoxon-

beta() binom() cauchy() chisq() exp() f() gamma() geom() hyper() lnorm() logis() multinom()1 nbinom() norm() pois() t() unif() weibull() wilcox() signrank()

shape1, shape2, ncp size, prob location, scale df, ncp rate df1, df2, ncp shape, scale prob m, n, k meanlog, sdlog location, scale size, prob size, prob mean, sd lambda df, ncp min, max shape, scale m, n (zwei Stichproben) n (eine Stichprobe)

Tabelle 3.13. Verteilungen in R

1

nur rmultinom() und dmultinom()

3.7 Statistik mit R

75

Ein Beispiel illustriert die Verwendung der Funktionen anhand einer Binomialverteilung mit den Parametern n = 4 und p = 0.2. > # Dichte an der Stelle x=2 > dbinom(x=2,size=4,prob=0.2) [1] 0.1536 > # Verteilungsfunktion an der Stelle x=2 > pbinom(q=2,size=4,prob=0.2) [1] 0.9728 > # 0.5-Quantil (=Median) > qbinom(p=0.5, size=4, prob=0.2) [1] 1 > # Erzeugung von 5 Zufallszahlen > rbinom(n=5, size=4, prob=0.2) [1] 1 1 1 3 0 Mit set.seed() und einer beliebigen Integer-Zahl kann der ZufallszahlenGenerator zur Reproduzierbarkeit der Pseudozufallszahlen initialisiert werden. > # neuer Aufruf erzeugt andere Zahlen > rbinom(n=5, size=4, prob=0.2) [1] 0 1 0 1 1 > # Initialisierung > set.seed(10) > rbinom(n=5, size=4, prob=0.2) [1] 1 0 1 1 0 > # neuer Aufruf erzeugt andere Zahlen > rbinom(n=5, size=4, prob=0.2) [1] 0 0 0 1 1 > # gleiche Initialisierung erm¨ oglicht Reproduktion > set.seed(10) > rbinom(n=5, size=4, prob=0.2) [1] 1 0 1 1 0 In Tabelle 3.14 sind die wichtigsten statistischen und mathematischen Funktionen zusammengefasst. F¨ ur weitere Informationen zu den Funktionen wird auf die entsprechenden Hilfeseiten verwiesen.

76

3 Einf¨ uhrung in R Funktion

Beschreibung

min(), max() range() mean() median() quantile() IQR() summary(), table()

Minimum, Maximum Minimum und Maximum Arithmetisches Mittel Median Quantile Interquartilsdistanz ¨ Ubersicht, H¨ aufigkeitstabelle

sd() var() cor() cov() mad() density()

Standardabweichung Varianz (unverzerrt) Korrelationskoeffizient Kovarianz Absolute Abweichung vom Median Kerndichtesch¨ atzer

acf() pacf() ccf()

Autokorrelationsfunktion Partielle Autokorrelationsfunktion Kreuzkorrelation

rank() sort() choose() factorial() sample()

R¨ ange Sortieren Binomialkoeffizient Fakult¨ at Ziehen von Zufallsstichproben

aov() anova() lm() glm() loglin() predict() resid() coef() confint()

Anpassung eines Varianzanalyse-Modells Varianzanalyse Anpassung eines linearen Modells Anpassung generalisiertes lin. Modell Anpassung eines log-linearen Modells Modellvorhersage Residuen Modellkoeffizienten Konfidenz-Intervalle f¨ ur Modellparameter

abs() diff() sqrt() log(), exp() cos(), sin(), tan(), acosh(x), asinh(), atanh() sum(), prod() round(), floor(), ceiling() cumsum(), cumprod()

Absolutbetrag Differenz Quadratwurzel Logarithmus, Exponentialfunktion trigonometrische Funktionen hyperbolische Funktionen Summe, Produkt Runden, Abrunden, Aufrunden kumulierte Summe bzw. Produkt

Tabelle 3.14. Statistische und mathematische Funktionen

3.8 Grafiken in R

77

3.8 Grafiken in R Eine einfache Grafik wird mit der Funktion plot() erzeugt. Diese Funktion eignet sich beispielsweise f¨ ur Streudiagramme, Treppenfunktionen oder Zeitreihen. Man kann der Funktion plot() verschiedene Argumente u ¨ bergeben, zum Beispiel ob Punkte gezeichnet werden sollen oder die Grafik in Form von Linien dargestellt werden soll. Auch f¨ ur Achsenbeschriftungen und Titel stehen Argumente zur Verf¨ ugung. Die Befehle f¨ ur die verschiedenen Optionen k¨ onnen der Hilfe (?plot) entnommen werden. F¨ ur bestimmte Grafiktypen sind in R spezielle Funktionen vorhanden, die wichtigsten sind in Tabelle 3.15 angef¨ uhrt. Funktion

Beschreibung

hist() barplot() boxplot() curve() qqplot()

Histogramm Stabdiagramm Boxplot Zeichnen von Funktionen QQ-Plot

Tabelle 3.15. Grafikfunktionen

Im folgenden Beispiel wird ein Histogramm f¨ ur die H¨ ohe von Kirschb¨ aumen des Datensatzes trees erstellt, der in der Standardinstallation automatisch zur Verf¨ ugung steht (vgl. Abbildung 3.2). Unterschiedliche Optionen zum Ver¨andern und Anpassen des Histogramms stehen zur Verf¨ ugung. > > + + +

data(trees) # Laden der Datensatzes hist(trees$Height, main = "H¨ ohe von Kirschb¨ aumen", xlab = "H¨ ohe", ylab = "H¨ aufigkeit", col = "grey")

In manchen Anwendungsf¨ allen sollen empirische und theoretische Verteilungsfunktionen miteinander verglichen werden. Die empirische Verteilungsfunktion wird mit dem Befehl plot(ecdf(data)) erstellt. Die theoretische Verteilungsfunktion mit der Anweisung curve(...,add = TRUE) erg¨ anzt werden (vgl. Abbildung 3.3). > > + + > +

x = rexp(20, 1) plot(ecdf(x), verticals = TRUE, main = "Empirische und theoretische Verteilungsfunktion von Exp(1)") curve(pexp(x, 1), from = 0, to = 7, add = TRUE, col = "red", lty="dotted")

78

3 Einf¨ uhrung in R

0

2

4

Häufigkeit

6

8

10

Höhe von Kirschbäumen

60

65

70

75

80

85

90

Höhe

Abb. 3.2. Histogramm der H¨ ohe von Kirschb¨ aumen

0.0

0.2

0.4

Fn(x)

0.6

0.8

1.0

Empirische und theoretische Verteilungfunktion von Exp(1)

0.0

0.5

1.0

1.5

2.0

2.5

3.0

x

Abb. 3.3. Empirische und theoretische Verteilungsfunktion f¨ ur Exp(1)-Daten

3.9 Editoren und grafische Benutzeroberfl¨ achen (GUIs)

79

Erw¨ ahnenswert sind auch die M¨ oglichkeiten der Erzeugung dreidimensionaler Grafiken. Diese basieren auf einem Punktegitter und k¨ onnen durch verschiedene Funktionen, wie zum Beispiel persp() oder scatterplot3d() erstellt werden. Um die erzeugten Grafiken zu speichern, stehen unterschiedliche Dateitypen zur Verf¨ ugung. Zun¨ achst muss jedoch ein ’Device’ (Ger¨ at) gew¨ahlt werden, als Voreinstellung ist die Bildschirmausgabe X11() verf¨ ugbar. Die unterschiedlichen Devices werden im Package grDevices angeboten. Die Grafik kann mit folgendem Funktionsaufruf gespeichert werden: savePlot(filename = "", type = c("wmf", "png", "jpeg", "jpg", "bmp", "ps", "pdf"), device = dev.cur()) Nach dem Speichern sollten alle ge¨offneten Devices mit graphics.off() geschlossen werden. F¨ ur das Speichern und Schließen der Grafik stehen entsprechende Befehle auch in den Men¨ upunkten im Grafikfenster bzw. im Kontextmen¨ u zur Verf¨ ugung.

3.9 Editoren und grafische Benutzeroberfl¨ achen (GUIs) F¨ ur einen l¨ angeren Programmcode ist es sinnvoll anstatt der Eingabe auf der Konsole einen Editor zu verwenden. Einerseits kann so das Skript gespeichert und f¨ ur eine sp¨atere Durchf¨ uhrung wieder ge¨ offnet werden, andererseits f¨ allt die Fehlersuche meist wesentlich leichter. Mit Datei - Neues Skript wird der R-Editor ge¨offnet, in dem man die Anweisungen eingibt. Durch Markieren einer oder mehrerer Anweisungen und Strg-R wird der markierte Programmcode an die Konsole geschickt und zeilenweise abgearbeitet. Mit Datei - Speichern wird der Code als Textdatei abgespeichert und kann in einer sp¨ateren R-Sitzung mit Datei - ¨ Offne Skript... im R-Editor wieder ge¨offnet werden. Mit Eingabe von source() in der Konsole kann ein gespeichertes Skript direkt ausgef¨ uhrt werden. Der R-Editor ist allerdings wenig komfortabel, da er praktisch keine Programmierunterst¨ utzung bietet. Aus diesem Grund ist es ratsam auf alternative Editoren zur¨ uckzugreifen. Hier wird empfohlen R im SDI-Modus auszuf¨ uhren (f¨ ur RWinEdt zwingend notwendig).

RWinEdt RWinEdt ist ein Plug-In, das von Uwe Ligges f¨ ur den kommerziellen Editor WinEdt entwickelt wurde. Zun¨achst muss mit install.packages("RWinEdt")

80

3 Einf¨ uhrung in R

das zugeh¨orige Paket RWinEdt_1.7-9.zip von einem CRAN-Spiegelserver installiert werden. Durch die Eingabe von library(RWinEdt) wird das Plug-In gestartet. Neben Syntax-Highlighting kann der Programmcode aus RWinEdt direkt an die RKonsole geschickt werden. Mit Alt+l wird die aktuelle Zeile und mit Alt+p der zuvor markierte Bereich in der R-Konsole ausgef¨ uhrt. Mit Alt+s wird die aktuelle Datei gespeichert und anschließend mit source() in der R-Konsole geladen.

R Commander Der R Commander ist eine graphische Benutzeroberfl¨ ache f¨ ur R und vor allem f¨ ur Anf¨ anger empfehlenswert. Im Journal of Statistical Software findet man unter http://www.jstatsoft.org/v14/i09/v14i09.pdf eine Einf¨ uhrung von John Fox. Zun¨ achst muss mit install.packages("Rcmdr") das zugeh¨orige Paket Rcmdr_1.1-7.zip von einem CRAN-Spiegelserver installiert werden. Beim erstmaligen Laden des Pakets mit library(Rcmdr) wird gefragt, ob zus¨ atzliche Pakete f¨ ur den vollen Funktionsumfang installiert werden sollen. Durch Best¨atigung werden automatisch alle ben¨ otigten Pakete installiert. Der R Commander erm¨oglicht dem Anwender ohne Kenntnisse der R-Syntax statistische Analysen, Grafiken, etc. u ¨ ber Men¨ us und Dialogboxen zu erstellen. Der zugeh¨orige Code wird automatisch im Script Window angegeben.

JGR JGR2 ist eine graphische Benutzeroberfl¨ ache, die von Markus Helbig, Simon Urbanek and Martin Theus in Java entwickelt wurde. Unter der URL http://www.rosuda.org/JGR/down.shtml findet man die aktuelle Bin¨ardatei zum Herunterladen. Durch Starten von JGR werden s¨amtliche ben¨ otigten Pakete automatisch installiert. JGR bietet eine gute Programmierumgebung mit integriertem Editor, Syntax-Highlighting, Autovervollst¨ andigung von Anweisungen, Objekten und Dateinamen, mehrzeilige Anweisungen und History in der Konsole, integriertes Hilfesystem, Paket-Manager, Quick Hints f¨ ur Funktionen, Drag & Drop zwischen Konsole und Editor, Brace Matching etc. Ein kurze Einf¨ uhrung ist unter http://www.rosuda.org/JGR/JGR.pdf abrufbar. 2

http://www.rosuda.org/JGR/

4 Geordnete Statistiken und Rangstatistiken

Nichtparametrische Verfahren ben¨otigen oft nur sehr allgemeine Annahmen, f¨ ur dieses Kapitel m¨ ussen lediglich folgende Voraussetzungen erf¨ ullt sein: 1. Die Stichprobe x1 , . . . , xn entspricht der Realisierung einer n-dimensionalen stetigen Zufallsvariablen X1 , . . . , Xn (mit zumindest ordinalem Messniveau). 2. Die Zufallsvariablen X1 , . . . , Xn sind unabh¨angig und identisch verteilt ( iid-Bedingung“). ” Durch geeignete Statistiken soll nun m¨ oglichst viel Information aus einer Stichprobe extrahiert werden. Die geordneten Statistiken bzw. Ordnungsstatistiken und die damit eng in Verbindung stehenden Rangstatistiken dienen diesem Zweck. Geordnete Statistik oder Ordnungsstatistik Ordnet man die einzelnen Beobachtungen der Stichprobe (x1 , . . . , xn ) der Gr¨ oße nach, dann erh¨ alt man die so genannte geordnete Statistik oder Ordnungsstatistik (x(1) , . . . , x(n) ). x(j) wird dann die j-te Ordnungsstatistik genannt. Beispiel 4.1. Ordnungsstatistik Die Zufallsvariable X entspreche der Dicke einer Lackschicht in der Mitte eines Bleches nach der Lackierung in µm und (1.2, 5.4, 6.3, 2.3, 0.1) sei eine Stichprobe dieser Variablen. (Die einzelnen Beobachtungen sind unabh¨ angig voneinander.) Die entsprechenden Ordnungsstatistiken sind dann (0.1, 1.2, 2.3, 5.4, 6.3).

82

4 Geordnete Statistiken und Rangstatistiken

Rang Der Rang eines Wertes xi einer Stichprobe entspricht dem Index j, welche dieser Wert als Ordnungsstatistik x(j) einnimmt. j entspricht also der Platzierung des Stichprobenwertes in den geordneten Statistiken. Daf¨ ur wird Rang(Xi ) = R(Xi ) = Ri = j als Funktion der Zufallsvariable Xi und daher auch als Zufallsvariable Rang der i-ten Beobachtung“ definiert. ” Die Realisierung des Ranges der i-ten Beobachtung wird durch r(xi ) = ri = j angegeben. Beispiel 4.2. Rang Das Beispiel mit den lackierten Blechen wird hier fortgesetzt. Die Stichprobe enthielt die Beobachtungen (1.2, 5.4, 6.3, 2.3, 0.1). Die Stichprobenwerte werden in ihrer beobachteten Reihenfolge angegeben und durch deren R¨ ange und die entsprechenden Bezeichnung der Ordnungsstatistik erg¨ anzt: Beobachtung Stichprobenwert Ordnungsstatistik Rang

i 1 2 3 4 5 xi 1.2 5.4 6.3 2.3 0.1 x(j) x(2) x(4) x(5) x(3) x(1) ri 2 4 5 3 1

Es gilt zu beachten, dass bei der Bildung der R¨ ange bzw. bereits bei der Bildung der Ordnungsstatistiken immer Information verloren geht. Liegen nur noch die Ordnungsstatistiken vor, d.h. die geordnete Stichprobe, dann l¨ asst sich nicht mehr feststellen, in welcher Reihenfolge die Werte beobachtet wurden. Wenn hingegen nur noch die R¨ ange vorliegen, dann sind nicht einmal die Stichprobenwerte, welche zu den beobachteten R¨ angen gef¨ uhrt haben, bekannt. Diese Informationen sind aber bei den jeweiligen nichtparametrischen Verfahren nicht von Interesse und auch nicht von Bedeutung. Spezielle Ordnungsstatistiken Zu den speziellen Ordnungsstatistiken z¨ ahlen das Minimum x(1) , also der kleinste Wert der Stichprobe, das Maximum x(n) , also der gr¨oßte Wert der Stichprobe, und der Median x

0,5 , welcher dem mittleren Wert der geordneten Stichprobe entspricht. Die Spannweite ist definiert als die Differenz zwischen Maximum und Minimum, also d = x(n) − x(1) . Bei einer geraden Anzahl n von Beobachtungen ist eine Bestimmung des Medians als mittlerer“ Wert der geordneten Stichprobe nicht m¨ oglich, da es ” keinen derartigen Wert gibt.

4 Geordnete Statistiken und Rangstatistiken

83

Daher wird der Median meist wie folgt definiert: Median Der Wert x

0,5 =

x( n+1 ) 2

1 + x x n n 2 ( +1) ( ) 2

2

wenn n ungerade wenn n gerade

der geordneten Stichprobe vom Umfang n heißt Median des Merkmals X. Mindestens 50% der Objekte haben eine Auspr¨agung, die mindestens so groß ist wie der Median und mindestens 50% der Objekte haben eine Auspr¨ agung, die h¨ ochstens so groß ist wie der Median. Beispiel 4.3. Spezielle Ordnungsstatistiken Das Beispiel mit den lackierten Blechen wird hier fortgesetzt. Die Ordnungsstatistiken waren (0.1, 1.2, 2.3, 5.4, 6.3). Damit entsprechen die speziellen Ordnungsstatistiken: x(1) = 0.1

dem Minimum

x(n) = x(5) = 6.3 dem Maximum x

0,5 = x(3) = 2.3

dem Median (weil n ungerade)

Die kleinste festgestellte Dicke betrug 0.1µm, die gr¨oßte gemessene Dicke betrug 6.3µm. Mindestens 50% der Bleche haben eine Lackschicht von mindestens 2.3µm und mindestens 50% der Bleche haben eine Lackschicht von h¨ ochstens 2.3µm. Beispiel 4.4. Berechnung von Ordnungsstatistiken mit R Um einen Vektor von Zahlen aufsteigend zu sortieren, also die Ordnungsstatistik zu erzeugen, steht die Funktion sort(x) zur Verf¨ ugung, dabei lautet die Zuweisung Ordnungsstatistik=sort(x), wobei x f¨ ur die Originalstichprobe und Ordnungsstatistik f¨ ur den Vektor der Ordnungsstatistiken steht. Danach kann aus dem resultierenden Vektor jede beliebige Ordnungsstatistik durch Indizierung referenziert werden. Das Minimum ergibt sich beispielsweise aus Ordnungsstatistik[1], kann aber auch mit der Funktion min(x) angefordert werden. Das Maximum wird u ¨ ber die Funktion max(x) berechnet, der Median mit median(x). Die Funktion range(x) gibt nicht die Spannweite ¨ aus, sondern Minimum und Maximum getrennt. Uber die Differenz kann die Spannweite berechnet werden, z.B. mit Spannweite=diff(range(x)) . Ein m¨ oglicher R-Code w¨are daher:

84

4 Geordnete Statistiken und Rangstatistiken

> > > > > >

x = c(1.2, 5.4, 6.3, 2.3, 0.1) Ordnungsstatistik = sort(x); Minimum=min(x); Maximum=max(x); Median=median(x); Spannweite=Maximum-Minimum;

# Daten als Vektor

Beispiel 4.5. Berechnung von Ordnungsstatistiken mit SAS Die Daten werden im DATA-Step eingegeben, mit der Prozedur UNIVARIATE werden die gew¨ unschten Statistiken berechnet und im (tempor¨aren) Datenfile ordered gespeichert. Die Prozedur SORT sortiert den Datensatz, wobei die urspr¨ ungliche Reihenfolge verloren geht, die Prozedur PRINT wird f¨ ur die Ausgabe verwendet. Der vollst¨ andige SAS-Code lautet: DATA example; INPUT x; DATALINES; 1.2 5.4 6.3 2.3 0.1 ; RUN; PROC UNIVARIATE data=example; VAR x; OUTPUT OUT=ordered MEDIAN=Median MIN=Minimum MAX=Maximum RANGE=Spannweite; RUN; PROC PRINT DATA=ordered NOOBS; RUN; PROC SORT DATA=example; BY x; RUN; PROC PRINT DATA=example; RUN;

4.1 Bindungen

85

4.1 Bindungen Aufgrund der Annahme, dass die untersuchten Zufallsvariablen stetig verteilt sind, d¨ urften sich einzelne Realisierungen dieser Variable in einer Stichprobe niemals gleichen (d.h. P r(Xi = Xj ) = 0 f¨ ur alle i = j). Es kann in der Praxis aber durchaus vorkommen, dass ein Wert in einer Stichprobe mehrfach auftritt. Dies liegt vor allem an der vorgegebenen Messgenauigkeit (bspw. nur bis auf cm genau gemessene K¨orpergr¨ oße) und ungenauen Messinstrumenten. Bindungen Enth¨ alt eine Stichprobe (x1 , . . . , xn ) k gleiche Stichprobenwerte, ist also xj1 = xj2 = . . . = xjk , so spricht man von gebundenen Beobachtungen oder Bindungen (= ties). Die Werte xj1 = xj2 = . . . = xjk werden zu einer so genannten Bindungsgruppe zusammengefasst. Es handelt sich dabei um eine (k − 1)-fache Bindung. Als Folge der gleichen Stichprobenwerte lassen sich die R¨ange eine Stichprobe mit Bindungen nicht mehr eindeutig ermitteln. Bei einer (k − 1)-fachen Bindung gibt es k undefinierte bzw. unklare R¨ ange. Es gibt also k! M¨oglichkeiten (durch Permutation) die R¨ ange auf die k unklaren Stellen zu verteilen. Beispiel 4.6. Bindungen Eine Umfrage u ¨ ber die monatlichen Ausgaben f¨ ur Telefon und Internet ergab folgende Stichprobe: Befragte/r

1

2

3

4

5

6

7

8

9

Ausgaben in Euro 80 75 50 50 55 75 45 25 50 Rang

9

?

?

?

6

?

2

1

?

In diesem Fall sind die R¨ ange der Beobachtungen 3, 4 und 9 nicht eindeutig vorgegeben, die R¨ange 3, 4, 5 k¨onnen nicht zugeordnet werden. F¨ ur die beiden Beobachtungen 2 und 6 verh¨alt es sich ebenso. Es handelt sich dabei um eine 2-fache Bindung der Beobachtungen 3, 4 und 9 und eine einfache Bindung der Beobachtungen 2 und 6. Beispiel 4.7. Bindungen beim paarweisen Vergleich von Stichproben In diesem Beispiel handelt es sich um eine Stichprobe des monatlichen Nettoverdienstes von Lebensgemeinschaften, in denen beide Teile voll erwerbst¨ atig sind. Es soll untersucht werden, ob der Verdienst der Frauen niedriger als jener der zugeh¨origen M¨anner ist.

86

4 Geordnete Statistiken und Rangstatistiken

Paar i 1 2 3 4 5 6 7 8 9 10 11 12

Nettoverdienst der Frau xi des Mannes yi 790 1500 1230 800 730 500 630 1340 1430 650 760 1090

Vorzeichen der Differenz der Verdienste

1120 1500 1120 800 1410 1240 990 1890 1430 950 1010 950

− ? + ? − − − − ? − − +

Auch in einem solchen Fall sollte bei stetigen Zufallsvariablen Xi und Yi die Wahrscheinlichkeit, dass beide Variablen den selben Wert annehmen, null sein, also P r(Xi = Yi ) = 0. Der Grund f¨ ur das Auftreten von Bindungen k¨ onnte hier in der ungenauen Erfassung bzw. Angabe der Einkommen der Personen sein, zudem ist das Merkmal Einkommen lediglich quasistetig. Es liegen hier drei gebundene Beobachtungen bzw. eine zweifache Bindung vor. Eine Berechnung von Statistiken ist ohne zus¨atzliche Annahme nicht m¨ oglich. Methoden zur Behandlung von Bindungen 1. Methode: F¨ alle ausschließen Es werden solange Beobachtungen aus der Stichprobe entfernt, bis alle Bindungen aufgehoben sind. Falls der Anteil der gebundenen Beobachtungen im Vergleich zum Stichprobenumfang sehr gering ist, ist der Informationsverlust nicht von Bedeutung, ansonsten ist von dieser Methode abzuraten. 2. Methode: Zuf¨ allige R¨ ange bilden Den gebundenen Beobachtungen werden zuf¨ allig die (geeigneten) R¨ange bzw. Vorzeichen zugeordnet. 3. Methode: Durchschnittsr¨ ange bilden Jeder der gebundenen Beobachtungen wird das arithmetische Mittel aus den (zugeh¨origen) R¨angen bzw. Rangzahlen zugeordnet. Durch diese oft angewendete Methode wird aber die Verteilung der Rangstatistiken beeinflusst, so dass diese im Fall von Bindungen adaptiert werden muss. 4. Methode: Alle m¨ oglichen Rangzuordnungen untersuchen Es wird die Teststatistik f¨ ur alle m¨oglichen Verteilungen der R¨ ange berechnet bzw. der Test f¨ ur alle m¨ oglichen Verteilungen durchgef¨ uhrt. Ist

4.2 Empirische und theoretische Verteilungsfunktion

87

das Ergebnis dabei eindeutig, liefert also der Test bzw. die Teststatistik f¨ ur alle M¨ oglichkeiten das selbe Ergebnis (Hypothese wird immer angenommen oder immer verworfen), dann endet die Methode hier. Ansonsten muss eine der anderen drei Methoden gew¨ ahlt werden, um zu einem eindeutigen Ergebnis zu gelangen. Methoden zur Behandlung von Bindungen • • • •

F¨ alle ausschließen Zuf¨ allige R¨ ange zuordnen Durchschnittsr¨ange bilden Alle m¨oglichen Rangzuordnungen untersuchen

4.2 Empirische und theoretische Verteilungsfunktion Die empirische Verteilungsfunktion besitzt in der nichtparametrischen Statistik einen sehr hohen Stellenwert, da sie wichtige R¨ uckschl¨ usse u ¨ ber die theoretische bzw. reale“ Verteilung FX bzw. deren Typ zul¨ asst. Es lassen ” sich daraus Punkt- und Bereichsch¨atzer f¨ ur die theoretische bzw. reale“ Ver” teilung FX bestimmen und daraus Teststrategien f¨ ur Hypothesen u ¨ ber diese Verteilung ableiten. Bei den in diesem Abschnitt betrachteten Zufallsvariablen Xi handelt es sich um stetig oder diskret verteilte eindimensionale Variablen. Empirische Verteilungsfunktion F¨ ur eine Stichprobe (x1 , . . . , xn ) nennt man die Funktion Fn (x) =

Anzahl der xi , die x nicht u ¨ bertreffen n

die empirische Verteilungsfunktion. Mit Hilfe der Ordnungsstatistiken l¨asst sich die empirische Verteilungsfunktion auch folgendermaßen anschreiben:  wenn x < x(1)  0 Fn (x) = j/n wenn x(j) ≤ x < x(j+1)   1 wenn x ≥ x(n)

88

4 Geordnete Statistiken und Rangstatistiken

Beispiel 4.8. Empirische Verteilungsfunktion Das Beispiel mit den lackierten Blechen (Beispiel 4.1) wird hier fortgesetzt. Die Stichprobe enthielt die Werte (1.2, 5.4, 6.3, 2.3, 0.1). Dem entsprechend ergibt sich die empirische Verteilungsfunktion Fn (x): Stichprobe empirische Verteilungsfunktion

xi Fn (xi )

1.2 2 5

Dem entsprechend lautet die vollst¨andige  0 wenn      1/5 wenn     2/5 wenn Fn (x) = 3/5 wenn      4/5 wenn    1 wenn

5.4 4 5

6.3 1

2.3 3 5

0.1 1 5

Verteilungsfunktion: x < 0.1 0.1 ≤ x < 1.2 1.2 ≤ x < 2.3 2.3 ≤ x < 5.4 5.4 ≤ x < 6.3 x ≥ 6.3

Beispiel 4.9. Empirische Verteilungsfunktion mit R F¨ ur die Berechnung der empirischen Verteilungsfunktion wird mit der Anweisung table(x) die Tabelle mit den absoluten H¨ aufigkeiten erstellt, die danach als Datensatz tab gespeichert wird. Daraus werden die relativen und die kumulierten relativen H¨ aufigkeiten berechnet und ausgegeben. Zum Zeichnen der empirische Verteilungsfunktion steht in R die Funktionen plot.ecdf zur Verf¨ ugung, wobei ecdf f¨ ur empirical cumulative distribution function“ steht. ” Im Paket grDevices werden M¨oglichkeiten zur Formatierung von Grafiken bereitgestellt. > > > > > > > > +

library(grDevices); x=c(1.2, 5.4, 6.3, 2.3, 0.1); tab=as.data.frame(table(x)); Auspraegung=as.numeric(levels(tab$x)); absH=as.numeric(tab$Freq); relH=absH/length(x); kumH=cumsum(relH); plot.ecdf(x,main="Empirische Verteilungsfunktion", xlab="x", ylab = expression(F[n](x)));

Die erzeugte Grafik ist in Abbildung 4.1 dargestellt.

4.2 Empirische und theoretische Verteilungsfunktion

89

Abb. 4.1. Die empirische Verteilungsfunktion aus R f¨ ur Beispiel 4.8

Beispiel 4.10. Empirische Verteilungsfunktion mit SAS Zuerst werden die Daten mit Hilfe eines DATA-Steps nach SAS u ¨ bertragen und mit der Prozedur PROC SORT sortiert. Die Prozedur PROC CAPABILITY mit der Option CDFPLOT zeichnet die empirische Verteilungsfunktion. DATA bleche; INPUT dicke; DATALINES; 1.2 5.4 6.3 2.3 0.1 ; RUN; PROC FREQ; RUN; PROC SORT DATA=bleche; BY dicke; RUN; PROC CAPABILITY DATA=bleche; CDFPLOT; VAR dicke; RUN;

90

4 Geordnete Statistiken und Rangstatistiken

Das Ergebnis der Prozedur CAPABILITY kann der Abbildung 4.2 entnommen werden.

Abb. 4.2. Die empirische Verteilungsfunktion aus SAS f¨ ur Beispiel 4.8

Eigenschaften der empirischen Verteilungsfunktion Die empirische Verteilungsfunktion muss die allgemeinen Eigenschaften von Verteilungsfunktionen besitzen. Insbesondere gilt dies f¨ ur die Monotonie, damit ist auch die empirische Verteilungsfunktion monoton steigend. Zwei weitere wichtige Eigenschaften f¨ ur jede Verteilungsfunktion sind die Grenzwerte an den Extremwerten −∞ und +∞ des Tr¨ agers, f¨ ur die lim Fn (x) = 0 und lim Fn (x) = 1 gelten muss. x→−∞

x→∞

Die empirische Verteilungsfunktion entspricht einer diskreten Verteilung und ist rechtsstetig. Fn (x) ist selbst auch eine Zufallsvariable und daher l¨ asst sich eine Verteilung daf¨ ur ableiten. Die empirische Verteilungsfunktion ist unter der Beschr¨ ankung des gegebenen Modells (stetige oder diskrete Zufallsvariable) der Maximum-Likelihood-Sch¨ atzer der theoretischen Verteilungsfunktion FX der Zufallsvariablen. Die Verteilung der empirischen Verteilungsfunktion Fn (x) entspricht einer skalierten Binomialverteilung mit den Parametern n und p = F (x). Eine

4.2 Empirische und theoretische Verteilungsfunktion

91

skalierte Binomialverteilung besitzt nicht die Auspr¨ agungen 0, 1, 2, . . . , n sondern die Auspr¨agungen 0, n1 , n2 , . . . , 1. Das bedeutet, dass Fn (x) genau dann einer skalierten Binomialverteilung entspricht, wenn nFn (x) einer Binomialverteilung gen¨ ugt. Der Parameter p = F (x) h¨ angt von der (unbekannten) theoretischen Verteilungsfunktion ab. Eigenschaften der empirischen Verteilungsfunktion • •

Monoton steigend lim Fn (x) = 0 und lim Fn (x) = 1

x→−∞

x→∞



Diskrete, rechtsstetige Verteilung



Selbst Zufallsvariable



Maximum-Likelihood-Sch¨ atzer der Verteilungsfunktion



nFn (x) ∼ B(n, p = F (x))



Fn (x) ∼ Bskaliert (n, p = F (x))

Binomialverteilung skalierte Binomialverteilung

 Daraus l¨ asst sich die Wahrscheinlichkeit P r Fn (x) =

i n



berechnen.

nFn (x) ∼ B(n, p = F (x))    n i (F (x))i (1 − F (x))n−i P r Fn (x) = n = i Aus der Verteilung f¨ ur die empirische Verteilungsfunktion lassen sich der Erwartungswert und die Varianz berechnen. E(nFn (x)) = nF (x) = nE(Fn (x)) ⇒ E(Fn (x)) = F (x) V (nFn (x)) = nF (x)(1 − F (x)) = n2 V (Fn (x)) F (x)(1 − F (x)) n Damit ist die empirische Verteilungsfunktion Fn (x) ein erwartungstreuer und konsistenter Sch¨ atzer f¨ ur die Verteilungsfunktion F (x). Da die Ordnungsstatistiken gemeinsam eine suffiziente und vollst¨andige Statistik f¨ ur das gegebene Modell sind, handelt es sich zus¨atzlich um den minimal varianten, erwartungstreuen Sch¨ atzer von F (x). ⇒ V (Fn (x)) =

Eine weitere wichtige Aussage liefert der Satz von Gliwenko und Cantelli, der auch Fundamentalsatz der Statistik“ genannt wird. Demnach konvergiert ”

92

4 Geordnete Statistiken und Rangstatistiken

mit wachsender Stichprobengr¨ oße die empirische Verteilungsfunktion Fn (x) gleichm¨ aßig gegen die theoretische Verteilung F (x). Fundamentalsatz der Statistik  P r lim sup |Fn (x) − F (x)| = 0 = 1 n→∞ x∈R

Die empirische Verteilungsfunktion Fn (x) konvergiert mit wachsender Stichprobengr¨ oße gleichm¨aßig gegen die theoretische Verteilung F (x). In unserem Modell ist FX die Verteilungsfunktion einer stetigen Zufallsvariablen X. Sei nun weiters t eine bijektive, streng monoton wachsende Transformation der Zufallsvariablen, also Y = t(X). Die Verteilungsfunktion FY von Y l¨ asst sich einfach berechnen, da gelten muss FY (y = t(x)) = FX (x). Damit gilt f¨ ur die Ordnungsstatistiken und die empirische Verteilungsfunktion: y(i) = t(x(i) )

∀ i = 1, . . . , n

FY,n (y = t(x)) = FX,n (x) In diesen Formeln stehen FX,n (x) f¨ ur die empirische Verteilungsfunktion der Originalstichprobe x1 , . . . , xn und FY,n (y) f¨ ur die empirische Verteilungsfunktion der transformierten Stichprobe y1 = t(x1 ), . . . , yn = t(xn ). Es gelten weiterhin die oben angef¨ uhrten Eigenschaften f¨ ur die empirische Verteilungsfunktion FY,n der transformierten Variable Y . Insbesondere soll hier noch einmal hervorgehoben werden, dass es sich um einen erwartungstreuen und konsistenten Sch¨atzer f¨ ur die Verteilungsfunktion FY handelt. Verwendet man nun die Verteilungsfunktion FX selbst als (umkehrbar eindeutige) streng monoton wachsende Transformation Y = t(X) = FX (X), dann ist Y = FX (X) gleichverteilt auf dem Intervall [0, 1]. Wichtig ist hier die Unterscheidung von: •

p = FX (x) = P r(X ≤ x) entspricht also der (festen) Wahrscheinlichkeit daf¨ ur, dass die Zufallsvariable X ≤ x ist.



Y = FX (X) entspricht der neu definierten Zufallsvariable Y , welche aus der monotonen Transformation der Zufallsvariable X entsteht.

Damit sind auch die transformierten Zufallsvariablen FX (X1 ), . . . , FX (Xn ) gleichverteilt und die transformierte Stichprobe FX (x1 ), . . . , FX (xn ) ist eine Realisierung dieser Zufallsvariablen. Zus¨atzlich entsprechen die transformierten Ordnungsstatistiken FX (X(1) ), . . . , FX (X(n) ) einer Ordnungsstatistik der auf dem Intervall [0, 1] gleichverteilten Zufallsvariable Y = FX (X). F¨ ur viele nichtparametrische Tests (z.B. Kolmogorov-Smirnov) stellt dies eine wichtige Grundlage dar.

4.4 Verteilung der Ordnungsstatistiken

93

Verteilung von FX (X) X habe die stetige Verteilungsfunktion FX . Dann ist FX (X) gleichverteilt auf dem Intervall [0, 1]. Folgerungen: • •

FX (X1 ), . . . , FX (Xn ) k¨ onnen als Stichprobenvariable einer gleichverteilten Zufallsvariable aufgefasst werden. FX (X(1) ), . . . , FX (X(n) ) kann als Ordnungsstatistik einer gleichverteilten Zufallsvariablen aufgefasst werden.

4.3 Verteilung der R¨ ange Der Rang Ri = R(Xi ) einer Variable Xi in einer Stichprobe ist selbst eine Zufallsvariable. Der Definitionsbereich der Variable ist dabei das Intervall der ganzen Zahlen von 1 bis n. Die Variable Ri z¨ahlt die Anzahl aller Variablen Xj die Xi nicht u ¨ bertreffen (also auch Xi selbst). Damit ergibt sich f¨ ur die Verteilung von Ri , dass diese Variable diskret gleichverteilt zwischen 1 und n ist und alle R¨ange gemeinsam der Verteilung bei einer Ziehung aus einer Urne ohne Zur¨ ucklegen entsprechen. F¨ ur diese Verteilung gilt: P r(Ri = j) = P r(Ri = k, Rj = l) = P r(R1 = r1 , . . . , Rn = rn ) = E(Ri ) = V (Ri ) =

1 n 1 n(n−1)

∀ i, j = 1, . . . , n ∀ i, j, k, l = 1, . . . , n, i = j, k = l

1 n! n+1 2 2

n −1 12

∀ i = 1, . . . , n ∀ i = 1, . . . , n

Cov(Ri , Rj ) = − n+1 12

∀ i, j = 1, . . . , n, i = j

1 − n−1

∀ i, j = 1, . . . , n, i = j

Corr(Ri , Rj ) =

4.4 Verteilung der Ordnungsstatistiken Die Dichte der Zufallsvariablen X ist definiert als fX (x). Da wir von unabh¨ angige Realisierungen derselben Zufallsvariablen ausgehen, kann die gemeinsame Dichte der Stichprobenvariablen X1 , . . . , Xn wie folgt definiert werden:

94

4 Geordnete Statistiken und Rangstatistiken

fX1 ,...,Xn (x1 , . . . , xn ) = fX (x1 ) · . . . · fX (xn ) Wir verwenden in diesem Abschnitt f¨ ur die Ordnungsstatistiken x(i) die vereinfachte Schreibweise yi = x(i) . Gemeinsame Dichte der Ordnungsstatistiken Die Dichte der Zufallsvariablen X ist definiert als fX (x). Im Falle der Unabh¨ angigkeit der einzelnen Stichprobenvariablen besitzen die Ordnungsstatistiken X(1) , . . . , X(n) die folgende gemeinsame Dichte:   n! fX (y1 ) · . . . · fX (yn ) wenn y1 < . . . < yn fX(1) ,...,X(n) (y1 , . . . , yn ) =  0 sonst Daraus ist unmittelbar ersichtlich, dass die geordneten Stichprobenvariablen X(1) , . . . , X(n) nicht unabh¨ angig sind. Die Multiplikation mit dem Faktor n! liegt an der Tatsache, dass die Umkehrung der Ordnungsstatistik nicht eindeutig ist. Kennt man nur die Werte einer Ordnungsstatistik y1 , . . . , yn , so ist nicht mehr eindeutig in welcher Reihenfolge diese Werte urspr¨ unglich gezogen wurden. Es gibt genau n! Permutationen die zu einer derartigen Ordnungsstatistik gef¨ uhrt haben k¨ onnen. Ein einfaches Beispiel soll dies illustrieren.

Beispiel 4.11. Verteilung der Ordnungsstatistiken und der R¨ ange Eine Stichprobe mit 3 Beobachtungen x1 , x2 , x3 wurde gezogen. Es liegen jedoch nur noch die Ordnungsstatistiken y1 , y2 , y3 vor. Wie viele und vor allem welche Stichproben k¨ onnen zu dieser Ordnungsstatistik gef¨ uhrt haben. Die m¨oglichen Stichproben bzw. daraus resultierenden R¨ ange sollen durch die folgende Tabelle illustriert werden.

m¨ogliche Realisierung 1 2 3 4 5 6

Ordnungsstatistik y1 y2 y3

r1

x1 x1 x2 x2 x3 x3

1 1 2 2 3 3

x2 x3 x1 x3 x1 x2

x3 x2 x3 x1 x2 x1

Rang r2 r3 2 3 1 3 1 2

3 2 3 1 2 1

4.4 Verteilung der Ordnungsstatistiken

95

Es gibt also 3! = 6 m¨ ogliche Realisierungen von Stichproben x1 , x2 , x3 , welche zu den angef¨ uhrten Ordnungsstatistiken gef¨ uhrt haben k¨ onnen. Gleichzeitig ist auch leicht zu erkennen, dass die R¨ange jeweils diskret gleichverteilt zwischen den Zahlen 1, 2 und 3 sind.

Beispiel 4.12. Exponentialverteilung X1 , . . . , Xn seien unabh¨angige Stichprobenvariablen aus einer exponentialverteilten Grundgesamtheit mit der Dichte  −λx falls x ≥ 0  λe f (x) =  0 sonst Dann lautet die gemeinsame Dichte von X(1) , . . . , X(n) fX(1) ,...,X(n) (y1 , . . . , yn ) = n! λe−λy1 · . . . · λe−λyn = n! λn e−λ(y1 +...+yn ) f¨ ur y1 < . . . < yn , sonst verschwindet die Dichte.

Beispiel 4.13. Gleichverteilung X1 , . . . , Xn seien unabh¨angige Stichprobenvariablen aus einer auf dem Intervall [0, 1] gleichverteilten Grundgesamtheit mit der Dichte   1 falls x ∈ [0, 1] f (x) =  0 sonst Dann lautet die gemeinsame Dichte von X(1) , . . . , X(n) fX(1) ,...,X(n) (y1 , . . . , yn ) = n! f¨ ur y1 < . . . < yn , sonst verschwindet die Dichte.

Unabh¨ angigkeit der Ordnungsstatistiken und der R¨ ange Sind die unabh¨ angigen Stichprobenvariablen X = (X1 , . . . , Xn ) stetig und identisch verteilt und entsprechen die Variablen X() = (X(1) , . . . , X(n) ) den Ordnungsstatistiken und angen dieser Stichprobe X, R = (R1 , . . . , Rn ) den R¨ angig. dann sind X() und R unabh¨

96

4 Geordnete Statistiken und Rangstatistiken

Nach dem Theorem von Bayes gilt allgemein f¨ ur die bedingte Randdichte von zwei Variablen a und b: fa|b (a | b) =

fa,b (a, b) fb (b)

Sind die zwei Variablen a und b unabh¨ angig so muss gelten: fa,b (a, b) = fa (a)fb (b) Also gilt f¨ ur unabh¨ angige Variablen a und b folgender Zusammenhang: fa|b (a | b) =

fa (a)fb (b) fa,b (a, b) = = fa (a) fb (b) fb (b)

asst sich die StichAus den beiden Vektoren der Zufallsvariablen X() und R l¨ probe selbst wieder eindeutig reproduzieren und umgekehrt. Die gemeinsame Verteilung der Ordnungsstatistik und der R¨ange entspricht daher der Verteilung der Stichprobe. fX() ,R (X() , R) = fX (X) = fX (X1 ) . . . fX (Xn ) Mit Hilfe der Regel von oben kann nun die Unabh¨ angigkeit auf folgende Weise gezeigt werden: fX() |R (X() | R) =

fX() ,R (X() ,R) fR (R)

=

fX (X) 1 n!

= n!fX (X) =

= n!fX (X1 ) . . . fX (Xn ) = fX() (X() ) Im Gegensatz dazu sind X = (X1 , . . . , Xn ) und R = (R1 , . . . , Rn ) nat¨ urlich nicht unabh¨ angig. Dichte und Verteilungsfunktion einzelner Ordnungsstatistiken Die Dichte fX(j) der j-ten Ordnungsstatistik (1 ≤ j ≤ n) lautet: fX(j) (yj ) = j

 n (1 − F (yj ))(n−j) (F (yj ))(j−1) f (yj ) j

Die Verteilungsfunktion FX(j) der j-ten Ordnungsstatistik (1 ≤ j ≤ n) lautet: n   n FX(j) (yj ) = (1 − F (yj ))(n−k) (F (yj ))k k k=j

4.4 Verteilung der Ordnungsstatistiken

97

Zuerst definieren wir eine Z¨ ahlvariable und damit eine neue Zufallsvariable deren Verteilung man kennt. Die Z¨ ahlvariable Yt ist wie folgt definiert: Yt = Yt (X1 , . . . , Xn ) = Anzahl der Xi ≤ t ¨ Daraus folgt f¨ ur die Ordnungsstatistik X(j) folgende Aquivalenz: X(j) ≤ t ⇔ Yt (X1 , . . . , Xn ) ≥ j



FX(j) (t) = P r(X(j) ≤ t) = P r(Yt (X1 , . . . , Xn ) ≥ j) In Worten bedeutet dies, dass die beiden Aussagen die j-te Ordnungsstatistik ” ist h¨ochstens t“ und die Anzahl der Beobachtungen, die h¨ ochstens so groß wie ” t sind, ist mindestens j“ a¨quivalent sind. Da die beiden Ereignisse a¨quivalent sind, sind die Wahrscheinlichkeiten f¨ ur beide Ereignisse gleich. Die Z¨ahlvariable Yt ist binomialverteilt mit den Parametern n und p = F (t). Dabei ist F die Verteilungsfunktion einer einzelnen Beobachtung in der Stichprobe also F (t) = FX (t). Damit erhalten wir FX(j) (yj ) = P r(X(j) ≤ yj ) = P r(Yyj (X1 , . . . , Xn ) ≥ j) = n   n (1 − F (yj ))(n−k) (F (yj ))k k k=j

Die Dichte fX(j) ergibt sich durch das Differenzieren der Verteilungsfunktion.  ∂FX(j) n fX(j) (yj ) = (yj ) = j (1 − F (yj ))(n−j) f (yj )(F (yj ))(j−1) ∂yj j Daraus ergibt sich f¨ ur das Minimum bzw. das Maximum, also die beiden speziellen Ordnungsstatistiken mit j = 1 bzw. j = n. FX(1) (y) = 1 − (1 − F (y))n fX(1) (y) = n(1 − F (y))(n−1) f (y) FX(n) (y) = (F (y))n fX(n) (y) = nf (y)(F (y))(n−1)

98

4 Geordnete Statistiken und Rangstatistiken

Beispiel 4.14. Gleichverteilung X1 , . . . , Xn seien unabh¨angige Stichprobenvariablen aus einer auf dem Intervall [0, 1] gleichverteilten Grundgesamtheit mit der Dichte  1 falls x ∈ [0, 1] f (x) = 0 sonst Die Randdichte fX(j) der j-ten Ordnungsstatistik der Gleichverteilung lautet: fX(j) (yj ) =

n! (j−1) (1 − yj )(n−j) wenn 0 ≤ yj ≤ 1 y (j − 1)!(n − j)! j

Dies entspricht der Betaverteilung mit Parametern (α = j, β = n + 1 − j). Die Betaverteilung zeigt also die Verteilung der j-ten Ordnungsstatistik im Gleichverteilungsfall. Da die empirische Verteilungsfunktion eine Ordnungsstatistik in diesem Sinne ist, k¨ onnte man sich fragen, wie ist das 0.6-Quantil in Abh¨ angigkeit von der Stichprobengr¨ oße verteilt. Die Antwort liefert hier die Betaverteilung und kann f¨ ur die Stichprobenumf¨ ange n = 10 und n = 100 aus der Abbildung 4.3 entnommen werden.

0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Abb. 4.3. Die Betaverteilung der Ordnungsstatistik X(60) bei n = 100 bzw. X(6) bei n = 10 im Gleichverteilungsfall

1

4.5 Verteilung des Medians

99

Dichte von zwei Ordnungsstatistiken Die gemeinsame Dichte fX(j) ,X(k) der j-ten und k-ten Ordnungsstatistik (1 ≤ j < k ≤ n) lautet: fX(j) ,X(k) (yj , yk ) =  n!   (F (yj ))(j−1)   (j − 1)!(k − j − 1)!(n − k)!     ×f (y )(F (y ) − F (y ))(k−j−1) f (y ) k k j j = (n−k)   ×(1 − F (y )) wenn yj < yk k       0 sonst Beispiel 4.15. Gleichverteilung X1 , . . . , Xn seien unabh¨angige Stichprobenvariablen aus einer auf dem Intervall [0, 1] gleichverteilten Grundgesamtheit mit der Dichte   1 falls x ∈ [0, 1] f (x) =  0 sonst Die gemeinsame Dichte fX(j) ,X(k) der j-ten und k-ten Ordnungsstatistik der Gleichverteilung lautet: fX(j) ,X(k) (yj , yk ) = =

n! (j−1) y (yk − yj )k−j−1 (1 − yk )(n−k) (j − 1)!(k − j − 1)!(n − k)! j

wenn 0 ≤ yj < yk ≤ 1

4.5 Verteilung des Medians

0.5 gibt es zwei F¨ F¨ ur die Verteilung des Medians X alle. Im Fall einer ungeraden Anzahl von Beobachtungen n = 2m − 1 ist der Median einfach

0.5 = X(m) . Im Fall einer geraden Anzahl von Beobachdefiniert durch X tungen n = 2m ist die Berechnung der Dichte bzw. Verteilung viel komplexer. Der Median entspricht dem arithmetischen Mittel der m-ten und (m + 1)-ten Ordnungsstatistiken und muss daher aus der gemeinsamen Randdichte entwickelt werden. Damit entspricht die Dichte bzw. die Verteilung des Median im ungeraden Fall n = 2m − 1 einfach der Dichte bzw. der Verteilung der m-ten Ordnungsstatistik.

100

4 Geordnete Statistiken und Rangstatistiken

 n fX 0.5 (y) = fX(m) (y) = m (1 − F (y))(n−m) f (y)(F (y))(m−1) m n   n (1 − F (y))(n−k) (F (y))k FX 0.5 (y) = FX(m) (y) = k k=m

F¨ ur den geraden Fall n = 2m erh¨alt man nach der Integration aus der Randdichte der beiden Ordnungsstatistiken X(m) und X(m+1) folgende Dichte: (2m)! fX 0.5 (y) = 2 ((m − 1)!)2

∞ (F (2y − x))(m−1) (1 − F (x))(m−1) f (2y − x)f (x)dx y

Beispiel 4.16. Verteilung des Medians im Gleichverteilungsfall Um die Verteilung des Median zu illustrieren soll hier der Gleichverteilungsfall auf dem Intervall [0, 1] als Beispiel dienen. Die Stichprobengr¨oße betr¨ agt n = 101 bzw. n = 11, damit wir den einfacheren, ungeraden Fall hier aufzeigen k¨ onnen. Die Dichte und Verteilungsfunktion der Gleichverteilung lautet fX (x) = 1 bzw. FX (x) = x. Damit erhalten wir f¨ ur die Verteilung des Median f¨ ur eine allgemeine ungerade Stichprobengr¨ oße n:  n fX 0.5 (y) = fX(m) (y) = m (1 − y)(n−m) (y)(m−1) m n   n (1 − y)(n−k) (y)k FX 0.5 (y) = FX(m) (y) = k k=m

F¨ ur n = 11 ergibt sich der Median aus der 6-ten Ordnungsstatistik. Die Dichte und Verteilungsfunktion lauten daher:  11 fX 0.5 (y) = fX(6) (y) = 6 (1 − y)(5) (y)(5) 6 11   11 (1 − y)(11−k) (y)k FX 0.5 (y) = FX(6) (y) = k k=6

Und f¨ ur n = 101 ist der Median die 51-te Ordnungsstatistik, also:  101 fX 0.5 (y) = fX(51) (y) = 51 (1 − y)(50) (y)(50) 51 101   101 (1 − y)(101−k) (y)k FX 0.5 (y) = FX(51) (y) = k k=51

Es handelt sich dabei, wie bereits erw¨ahnt, um die Betaverteilung mit den Parametern (m, n + 1 − m) = (m, m). Die Varianz nimmt mit zunehmendem Stichprobenumfang ab. Das Aussehen der Dichte kann der Abbildung 4.4 entnommen werden. Es handelt sich um die Darstellung der beiden Dichten des Medians f¨ ur n = 11 und n = 101.

4.6 Konfidenzintervalle f¨ ur Quantile

101

0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Abb. 4.4. Die Betaverteilung des Median bei n = 11 bzw. n = 101 im Gleichverteilungsfall

4.6 Konfidenzintervalle f¨ ur Quantile Unter der Annahme, dass die Verteilungsfunktion F streng monoton steigend ist, kann das p-Quantil Xp eindeutig bestimmt werden und es gilt: P r(X ≤ Xp ) = F (Xp ) = p F¨ ur ein Konfidenzintervall [X(j) , X(k) ] muss demnach gelten P r(Xp ∈ [X(j) , X(k) ]) ≥ 1 − α Zu bestimmen sind demnach die Indizes j und k, die diese Ungleichung erf¨ ullen. Das Gleichheitszeichen wird normalerweise nicht erf¨ ullbar sein, und auch die Indizes j und k werden im Allgemeinen nicht eindeutig sein, aber die zus¨ atzliche Anforderung, dass das Intervall zudem m¨ oglichst kurz sein soll, erleichtert die Bestimmung der Indizes. Nach dem Satz der totalen Wahrscheinlichkeit gilt P r(X(j) ≤ Xp ) =

P r([X(j) ≤ Xp ] ∧ [X(k) ≥ Xp ]) + + P r([X(j) ≤ Xp ] ∧ [X(k) < Xp ])

102

4 Geordnete Statistiken und Rangstatistiken

Weil aus X(k) < Xp sofort X(j) ≤ Xp folgt, kann dieser Zusammenhang angeschrieben werden als P r(X(j) ≤ Xp ) = P r(X(j) ≤ Xp ≤ X(k) ) + P r(X(k) < Xp ) Daher gilt P r(X(j) ≤ Xp ≤ X(k) ) = P r(X(j) ≤ Xp ) − P r(X(k) < Xp ) n  n    n i n i n−i p (1 − p) p (1 − p)n−i − = i i i=j i=k

=

k−1  i=j

n i p (1 − p)n−i i

= F ((k − 1)|B(n, p)) − F ((j − 1)|B(n, p)) Konfidenzintervall f¨ ur Xp [X(j) , X(k) ] ist ein Konfidenzintervall f¨ ur das Quantil Xp mit der Sicherheit 1 − α S = P r(j ≤ Y < k) = 1 − α ⇒ P r(Xp ∈ [X(j) , X(k) ]) = 1 − α wobei Y binomialverteilt mit den Parametern (n, p) ist. Dieses Konfidenzintervall ist unabh¨ angig von der zugrunde liegenden Verteilung von X. Eine Besonderheit stellt die Bereichsch¨ atzung des Medians dar, also ein Konfidenzintervall f¨ ur das Quantil X0.5 . Es wird hierf¨ ur ein gleichschenkeliges“ ” Konfidenzintervall gesch¨atzt, d.h. nicht mehr zwei (j, k) sondern nur noch ein Parameter ist offen. Man w¨ahlt k = n + 1 − j und damit bleibt nur noch j zu sch¨atzen. S = P r(j ≤ Y < n + 1 − j) = 1 − α wobei Y binomialverteilt mit den Parametern (n, 0.5) ist. Praxistipp Das vorgegebene Konfidenzniveau l¨asst sich normalerweise nicht exakt ¨ einhalten. Man sollte daher auch die Uberdeckungswahrscheinlichkeiten der Intervalle berechnen, die sich aus den Indizes j − 1, j + 1, k − 1, k + 1 ergeben. Ausgew¨ahlt wird jenes Intervall, welches das vorgegebene Konfidenzniveau erreicht und gleichzeitig m¨ oglichst klein ist.

4.6 Konfidenzintervalle f¨ ur Quantile

103

Beispiel 4.17. Konfidenzintervall f¨ ur Quantile Ausgangspunkt ist eine Stichprobe vom Umfang n = 10 von normalverteilten Zufallsvariablen mit µ = 10 und σ 2 = 900 (der Zufallszahlengenerator soll zur Vergleichbarkeit mit 5108 initialisiert werden). Das Konfidenzintervall

0.25 soll die Sicherheit S = (1 − α) = 0.90 [X(j) , X(k) ] f¨ ur das 0.25-Quantil X aufweisen. Diese Sicherheit kann insbesondere bei kleinen Stichproben nicht exakt erreicht werden. Ein Konfidenzintervall zur Sicherheit S ≥ 0.90 wird bestimmt, indem zuerst f¨ ur die gegebene Stichprobengr¨ oße die beiden α2 bzw. α (1 − 2 )-Quantile der Binomialverteilung mit den Parametern (n, p = 0.25) gesucht werden. Ein p-Quantil Yp ist (aufgrund der Definitionen in R) definiert als der erste Wert f¨ ur den gilt P r(Y ≤ Yp ) ≥ p. F¨ ur die Stichprobengr¨ oße n = 10 berechnet man mit Hilfe der Binomialverteilung i P r(x ≤ i|B(10, 0.25))

0 0.056

1 0.244

2 0.526

3 0.776

4 0.922

5 0.980

Die Wahl des Konfidenzintervalls f¨ allt auf jenes Intervall, das die gew¨ unschte Sicherheitswahrscheinlichkeit zumindest erreicht. Die Indizes f¨ ur die Intervallgrenzen sind somit durch P r(j −1) = P r(0) = 0.056 und P r(k −1) = P r(5) = 0.980 gegeben. Das Konfidenzintervall [X(1) , X(6) ] u ¨ berdeckt das 0.25-Quantil mit einer Sicherheit von P r(X0.25 ∈ [X(1) , X(6) ]) = 0.980 − 0.056 = 0.924. Auf die konkrete Stichprobe bezogen ist das Konfidenzintervall gegeben durch [−63.05; 23.22].

Beispiel 4.18. Konfidenzintervall f¨ ur Quantile mit R (Fortsetzung von Beispiel 4.17) In R gibt es die Funktion qbinom(q, size, prob) zum Ermitteln eines Quantils der Binomialverteilung. Dabei entsprechen die Parameter size und prob den Parametern (n, p) der Binomialverteilung. Der Parameter q steht f¨ ur die Wahrscheinlichkeit des Quantils, f¨ ur das ein Konfidenzintervall bestimmt werden soll. Die Indizes der Ordnungsstatistiken f¨ ur das Konfidenzintervall sind daher j=qbinom(alpha/2,n,p)+1 und k=qbinom(1-alpha/2,n,p)+1 mit den Werten (alpha = 0.1, n = 10, p = 0.25). Die exakte Sicherheit des so ermittelten Intervalls wird u ¨ber die Verteilungsfunktion der Binomialverteilung pbinom(q, size, prob) ermittelt. Die Differenz der Werte der Verteilungsfunktion S=pbinom(k-1,n,prob)-pbinom(j-1,n,prob) entspricht der exakten Sicherheit. Jetzt wird eine Zufallsstichprobe aus den normalverteilten Zufallsvariablen x mit der Funktion x = mu + rnorm(n)*sqrt(varianz) erstellt. Durch diese Anweisung werden n normalverteilte Zufallszahlen mit den Parametern (µ = mu, σ 2 = varianz) gezogen. Die Ordnungsstatistiken o werden mit o=sort(x) erzeugt. Damit ergibt sich das Konfidenzintervall f¨ ur das 0.25-Quantil durch die Zahlen o[j] bzw. o[k]. In konkreten Zahlen bedeutet das [−63.05; 23.22].

104

4 Geordnete Statistiken und Rangstatistiken

¨ Ubungsaufgaben Aufgabe 4.1. Pr¨ ufungsdauer Entspreche die stetig verteilte Zufallsvariable X der Dauer einer m¨ undlichen Pr¨ ufung von Studierenden und sei (12, 13.5, 18, 18, 19, 15, 16, 20) eine Stichprobe dieser Variablen. (Die einzelnen Beobachtungen sind unabh¨ angig voneinander.) a) Bestimmen Sie die Ordnungsstatistiken und insbesondere den Median. b) Wie viele Bindungen liegen vor, welche Werte sind dies? c) Bestimmen Sie die R¨ ange. d) Zeichnen Sie mit R die empirische Verteilungsfunktion. e) Berechnen Sie mit R die speziellen Ordnungsstatistiken (Minimum, Maximum, Median) und ein Konfidenzintervall f¨ ur den Median mit der Sicherheit S = (1 − α) ≈ 0.9!

Aufgabe 4.2. Gleichverteilung Die Gleichverteilung spielt im Rahmen der nichtparametrischen Verfahren eine wichtige Rolle. Daher ist es wichtig die Verteilung der Ordnungsstatistiken und insbesondere die der speziellen Ordnungsstatistiken zu kennen. Sei X = (X1 , . . . , Xn ) eine Stichprobe von unabh¨ angig gezogenen, auf dem Intervall [0, 1] gleichverteilten Zufallsvariablen. Berechnen Sie den Erwartungswert, Varianz und Dichte bzw. Verteilungsfunktion der folgenden Statistiken: ¯ (f¨ a) Den Mittelwert X ur 2 Beobachtungen exakt und ansonsten asymptotisch). b) Die Ordnungsstatistik X(j) . c) Das Minimum X(1) . d) Das Maximum X(n) .

f¨ e) Den Median X ur gerade und ungerade Stichprobengr¨ oßen n (im ungeraden Fall nur Erwartungswert und Varianz).

¨ Ubungsaufgaben

105

Aufgabe 4.3. Exponentialverteilung X1 , X2 , X3 seien unabh¨angige Stichprobenvariablen aus einer exponentialverteilten Grundgesamtheit mit der Dichte  −λx falls x ≥ 0  λe f (x) =  0 sonst a) Bestimmen Sie die Dichte aller Ordnungsstatistiken. b) Bestimmen Sie alle gemeinsamen Dichten von je 2 Ordnungsstatistiken.

Aufgabe 4.4. Dichte von zwei Ordnungsstatistiken Beweisen Sie: Die gemeinsame Dichte fX(j) ,X(k) der j-ten und k-ten Ordnungsstatistik (1 ≤ j F0 (x) f¨ ur mindestens ein x ∈ R

Als Teststatistik wird das Supremum (= kleinste obere Schranke) der Differenzen zwischen empirischer Verteilungsfunktion Fn und theoretischer Verteilungsfunktion F0 verwendet, wobei im zweiseitigen Fall das Supremum des Betrages der Differenzen verwendet wird, im einseitigen Fall hingegen das Supremum der Differenzen selbst. Die exakte Verteilung der Teststatistik ist nur mit viel Aufwand herzuleiten, interessant ist aber die Tatsache, dass diese Verteilung nur vom Untersuchungsumfang n abh¨ angt und nicht von der theoretischen Verteilung F0 . Man bezeichnet daher die K-S-Teststatistik als verteilungsfrei. Die Testentscheidung wird getroffen, in dem die Teststatistik mit dem entsprechenden kritischen Wert verglichen wird. Ist die Teststatistik gr¨ oßer als der kritische Wert, so ist die Nullhypothese abzulehnen. Zweiseitiger Test auf Verteilungsanpassung (Kolmogorov-Smirnov-Test) Hypothesen H0 : F (x) = F0 (x) f¨ ur alle x ∈ R H1 : F (x) = F0 (x) f¨ ur mindestens ein x ∈ R Entscheidungsregel Teststatistik Kn = sup |F0 (x) − Fn (x)| x∈R

Kritischer Wert

k1−α (vgl. Tabelle 11.4, Seite 354)

Bei Kn ≥ k1−α wird die Nullhypothese verworfen.

110

5 Einstichprobenprobleme

Als Teststatistik wird das Supremum der Abweichungen zwischen empirischer und theoretischer Verteilungsfunktion verwendet, weil m¨ oglicherweise das Maximum der Abweichungen nicht angenommen wird. Dies liegt an der Tatsache, dass die empirische Verteilungsfunktion eine rechtsstetige Treppenfunktion ist und daher an den Sprungstellen (= bei den Beobachtungen) die rechtsseitigen und linksseitigen Grenzwerte unterschiedlich sind. F¨ ur die praktische Berechnung der Teststatistik bedeutet das, dass f¨ ur alle Beobachtungen die Differenzen zu den rechtsseitigen und den linksseitigen Grenzwerten berechnet werden m¨ ussen um das Supremum zu finden. Beispiel 5.1. Kolmogorov-Smirnov-Test Gegeben seien folgende Daten: 0.1111 0.3937 0.8854 -0.1299 -0.4475 0.0205 0.5707 -0.8954 -0.1551 -0.9964 0.4752 -0.0677 2.4784 -1.2827 0.0904

Mittels K-S-Test ist auf dem Niveau α = 0.05 zu testen, ob diese Daten standardnormalverteilt sind. L¨ osungsschritte: (vgl. Seite 111) 1. Die Daten aufsteigend sortieren. 2. Bestimmen der theoretischen Verteilungsfunktion F0 (xi ) = Φ(xi ) f¨ ur alle Datenpunkte xi . 3. Berechnung der linksseitigen Grenzwerte Fn− (xi ) und der rechtsseitigen Grenzwerte Fn+ (xi ) der empirischen Verteilung. 4. Bildung der Differenzen zwischen den Grenzwerten und der theoretischen Verteilungsfunktion. 5. Die Teststatistik Kn = sup |F0 (x) − Fn (x)| bestimmen. x∈R

6. Die Teststatistik mit dem kritischen Wert k1−α vergleichen, entscheiden und das Ergebnis interpretieren. In diesem Fall ist das Supremum der Differenzen somit Kn = 0.1717. Dieses Supremum ist u ¨ brigens kein Maximum, weil diese Differenz nicht explizit auftreten kann, sondern nur als Grenzwert. Der kritische Wert k1−α zur Sicherheit p = 1 − α = 0.95 ist aus der Tabelle 11.4 zu entnehmen (n = Stichprobenumfang = 15) k0.95 = 0.338. Nachdem die Teststatistik kleiner ist als der kritische Wert, wird die Nullhypothese, dass die Daten aus einer Standardnormalverteilung stammen, beibehalten. Es konnte nicht nachgewiesen werden, dass die Daten nicht standardnormalverteilt sind.

5.1 Tests auf Verteilungsanpassung

111

xi

Φ(xi )

Fn− (xi )

Fn+ (xi )

|Fn− (xi ) − Φ(xi )|

|Fn+ (xi ) − Φ(xi )|

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

-1.2827 -0.9964 -0.8953 -0.4475 -0.1551 -0.1299 -0.0677 0.0205 0.0904 0.1111 0.3937 0.4752 0.5707 0.8854 2.4783

0.0998 0.1595 0.1853 0.3273 0.4384 0.4483 0.4730 0.5082 0.5360 0.5442 0.6531 0.6827 0.7159 0.8120 0.9934

0 1/15 2/15 3/15 4/15 5/15 6/15 7/15 8/15 9/15 10/15 11/15 12/15 13/15 14/15

1/15 2/15 3/15 4/15 5/15 6/15 7/15 8/15 9/15 10/15 11/15 12/15 13/15 14/15 1

0.0998 0.0929 0.0520 0.1273 0.1717 0.1150 0.0730 0.0415 0.0027 0.0558 0.0136 0.0507 0.0841 0.0546 0.0601

0.0331 0.0262 0.0147 0.0606 0.1050 0.0483 0.0063 0.0252 0.0640 0.1224 0.0802 0.1173 0.1508 0.1213 0.0066

1.0

i

● ●

0.8

● ● ●

0.6



Fn(x)

● ●

0.4

● ● ●

0.2

● ● ●

0.0



−1

0

1

2

x Abb. 5.1. Theoretische und empirische Verteilungsfunktion

112

5 Einstichprobenprobleme

Einseitiger Test auf Verteilungsanpassung (Kolmogorov-Smirnov-Test) Hypothesen H0 : F (x) ≥ F0 (x) f¨ ur alle x ∈ R H1 : F (x) < F0 (x) f¨ ur mindestens ein x ∈ R Entscheidungsregel Teststatistik Kn = sup (F0 (x) − Fn (x)) x∈R

Kritischer Wert

k1−2α (Tabelle 11.4)

Bei Kn ≥ k1−2α wird die Nullhypothese verworfen. Einseitiger Test auf Verteilungsanpassung (Kolmogorov-Smirnov-Test) Hypothesen H0 : F (x) ≤ F0 (x) f¨ ur alle x ∈ R H1 : F (x) > F0 (x) f¨ ur mindestens ein x ∈ R Entscheidungsregel Teststatistik Kn = sup (Fn (x) − F0 (x)) x∈R

Kritischer Wert

k1−2α (Tabelle 11.4)

Bei Kn ≥ k1−2α wird die Nullhypothese verworfen. Bindungen sind f¨ ur den K-S-Test kein Problem, die empirische Verteilungsfunktion hat dann Sprungstellen unterschiedlicher H¨ ohe. Auf den Test selbst haben diese Bindungen sonst keine Auswirkungen. Der K-S-Test ist besonders f¨ ur kleine Stichproben geeignet.

5.1.2 Lilliefors-Test Der Lilliefors-Test ist eine Erweiterung des Kolmogorov-Smirnov-Tests auf den Fall, dass von der theoretischen Verteilung nur der Verteilungstyp, nicht aber die konkreten Parameter vorliegen. Dieser Test wird auch als K-S-Test mit Lilliefors-Schranken bezeichnet oder auch einfach als K-S-Test. Die Teststatistik ist wie beim K-S-Test durch das Supremum der Verteilungsdifferenzen bestimmt. Lediglich die kritischen Werte, mit denen die Teststatistik verglichen wird, ¨andern sich, dabei ist zu beachten dass der Lilliefors-Test f¨ ur jeden Verteilungstyp eine eigene Tabelle mit kritischen Werten ben¨ otigt (z.B. in

5.1 Tests auf Verteilungsanpassung

113

D’Agostino (1986)). Um die theoretische Verteilung an den Beobachtungsstellen berechnen zu k¨onnen, werden die f¨ ur die Verteilung notwendigen Parameter (f¨ ur die Normalverteilung z.B. Mittelwert und Standardabweichung) aus der Stichprobe gesch¨atzt. Beispiel 5.2. Lilliefors-Test auf Normalverteilung (vgl. Beispiel 5.1) Die Daten aus Beispiel 5.1 sind mit einem Lilliefors-Test auf Normalverteilungsannahme zu u ¨berpr¨ ufen. L¨ osungsschritte: 1. F¨ ur die theoretische Verteilung F0 sind Mittelwertund Standardabwein 1  = s = n−1 ¯)2 chung aus der Stichprobe mit µ  = x und σ i=1 (xi − x zu sch¨atzen 2. Weitere Vorgehensweise analog zum K-S-Test Aus den Daten erh¨ alt man µ  = 0.0700 und σ  = 0.8970, damit ergibt sich folgende Berechnung zur Ermittlung des Supremums: i

xi

F0

Fn− (xi )

Fn+ (xi )

|Fn− (xi ) − F0 |

|Fn+ (xi ) − F0 |

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

-1.2827 -0.9964 -0.8953 -0.4475 -0.1551 -0.1299 -0.0677 0.0205 0.0904 0.1111 0.3937 0.4752 0.5707 0.8854 2.4783

0.0658 0.1172 0.1409 0.2820 0.4009 0.4118 0.4390 0.4780 0.5091 0.5183 0.6409 0.6742 0.7116 0.8183 0.9964

0 1/15 2/15 3/15 4/15 5/15 6/15 7/15 8/15 9/15 10/15 11/15 12/15 13/15 14/15

1/15 2/15 3/15 4/15 5/15 6/15 7/15 8/15 9/15 10/15 11/15 12/15 13/15 14/15 1

0.0658 0.0506 0.0076 0.0820 0.1342 0.0785 0.0390 0.0113 0.0243 0.0817 0.0258 0.0591 0.0884 0.0484 0.0630

0.0009 0.0161 0.0591 0.0153 0.0676 0.0118 0.0277 0.0554 0.0909 0.1484 0.0925 0.1258 0.1550 0.1150 0.0036

In diesem Fall ist das Supremum der Differenzen somit Kn = 0.1550. Der kritische Wert k1−α zur Sicherheit p = 1 − α = 0.95 ist aus der Tabelle 11.5 zu entnehmen k0.95 = 0.220. Nachdem die Teststatistik kleiner ist als der kritische Wert wird die Nullhypothese, dass die Daten aus einer Normalverteilung stammen, beibehalten. Es konnte nicht nachgewiesen werden, dass die Daten nicht normalverteilt sind.

114

5 Einstichprobenprobleme

5.1.3 Chi-Quadrat-Test Der χ2 -Test wird f¨ ur zwei verschiedene Zwecke verwendet. Zum einen kann mit diesem Test die stochastische (Un-)Abh¨angigkeit von Merkmalen getestet werden (siehe Abschnitt 9.2) und zum anderen kann er als Anpassungstest verwendet werden. Dabei testet man, ob die beobachteten H¨ aufigkeiten signifikant von den (bei Vorliegen der theoretisch angenommenen Verteilung) erwarteten H¨aufigkeiten abweichen. Der Vorteil des χ2 -Tests besteht darin, dass er sich f¨ ur Merkmale mit ordinalem oder nominalem Messniveau eignet. Bei metrischem Skalenniveau m¨ ussen die Daten in Klassen zusammengefasst werden. Die G¨ ute des χ2 -Tests ist im Vergleich zu anderen Anpassungstests nicht so hoch, da die Wahl der Klasseneinteilung das Ergebnis beeinflusst. Die Teststatistik des χ2 -Tests ist, wie der Name schon sagt, asymptotisch χ2 verteilt. Diese Ann¨ aherung gilt jedoch nur, wenn die erwarteten H¨ aufigkeiten pro Klasse mindestens 5 sind. Chi-Quadrat-Test auf Verteilungsanpassung Voraussetzung Die erwartete H¨aufigkeit in jeder Kategorie muss mindestens 5 betragen. Ist diese Voraussetzungen nicht erf¨ ullt, so kann man sich damit behelfen, dass man Klassen zusammenfasst. Dies f¨ uhrt zu einer entsprechenden Reduktion von r (Anzahl der Kategorien). Hypothesen H0 : F (x) = F0 (x)

(⇔ χ2 = 0)

H1 : F (x) = F0 (x)

(⇔ χ2 > 0)

Teststatistik 2

χ =

r  (ho − he )2 i

i=1

i

hei

hei . . . erwartete H¨aufigkeiten hoi . . . empirische, beobachtete H¨aufigkeiten Die Teststatistik ist ann¨ ahernd χ2 -verteilt mit F g = r − k − 1 Freiheitsgraden, wobei r die Anzahl der Klassen (Kategorien) und k die Anzahl der zu sch¨ atzenden Parameter bezeichnet. Soll beispielsweise getestet werden, ob Daten einer diskreten Gleichverteilung gen¨ ugen, m¨ ussen keine Parameter gesch¨atzt werden und daher w¨ are k in diesem Fall gleich 0. Der Wert der Teststatistik χ2 wird mit dem kritischen Wert, dem (1 − α)-Quantil der χ2 -Verteilung mit den entsprechenden Freiheitsgraden F g und Niveau verglichen (χ2F g,1−α ).

5.1 Tests auf Verteilungsanpassung

115

χ2 -Test auf Verteilungsanpassung Ausgangspunkt ist ein Merkmal mit r Auspr¨agungen oder Kategorien Hypothesen H0 : χ2 = 0 Verteilung entspricht theoretischer Verteilung H1 : χ2 > 0 Verteilung entspricht nicht theoretischer Verteilung Entscheidungsregel Gilt χ2 =

r  (ho − he )2 i

i=1

χ2r−k−1,1−α



i

hei

dann wird die Nullhypothese verworfen (Tabelle 11.3).

Beispiel 5.3. χ2 -Test Ein Statistiker pendelt t¨ aglich zwischen Wohnort und Arbeitsort und notiert sich 100 Tage lang die Zeit in Minuten, die er f¨ ur diese Strecke ben¨otigt. Sind diese Daten normalverteilt? Verwenden Sie f¨ ur Ihre Entscheidung den χ2 -Test. 48 51 48 51

26 33 26 33

51 32 51 32

32 66 32 66

28 28 28 28

47 45 47 45

16 49 16 49

46 50 46 50

46 32 46 32

41 40 41 40

48 42 48 42

35 56 35 56

54 29 54 29

40 42 40 42

32 29 32 29

41 43 41 43

56 38 56 38

39 38 39 38

34 47 34 47

41 39 41 39

45 31 45 31

50 40 50 40

33 39 33 39

38 30 38 30

32 48 32 48

L¨ osungsschritte: 1. Mittelwert und Stichprobenvarianz bestimmen. 2. Daten in Klassen zusammenfassen. Damit der Test seine G¨ ultigkeit nicht verliert, muss die erwartete H¨aufigkeit in jeder Klasse mindestens 5 sein. Wenn dies nicht der Fall ist, muss man die Klassen nochmals zusammenfassen. 3. Beobachtete H¨aufigkeitsverteilung ermitteln. 4. Erwartete H¨ aufigkeiten aufgrund der theoretischen Verteilung ermitteln: N ( µ = x, σ 2 = s2 ), x= Mittelwert der Daten, s = Standardabweichung der Daten. 5.

(hoi − hei )2 f¨ ur jede Klasse ausrechnen. hei

6. Durch Aufsummieren die Teststatistik bestimmen.

116

5 Einstichprobenprobleme

Mit den obigen Daten errechnet sich der Mittelwert x ¯ = 40.32 und die (korrigierte) Standardabweichung s = 9.33 und damit als Teststatistik χ2 = 6.58: Klasse

Intervall

hoi

hei

(hoi − hei )2 hei

1 2 3 4 5

bis 25 u ¨ber 25 - 35 u ¨ber 35 - 45 u ¨ber 45 - 55 u ¨ber 55

2 32 34 26 6

5 23 41 25 6

1.80 3.52 1.20 0.04 0.00

Summe

100

100

6.56

Der kritische Wert, das (1 − α)-Quantil der χ2 -Verteilung mit (5-2-1) Freiheitsgraden und α = 0.05 betr¨ agt χ22,0.95 = 5.99 (vgl. Tabelle 11.3). Da die Teststatistik den kritischen Wert u ¨berschreitet, ist die Nullhypothese abzulehnen. Demnach sind die Daten mit 95%iger Sicherheit nicht normalverteilt.

5.1.4 Anderson-Darling-Test Der Anderson-Darling-Test ist ein spezieller K-S-Test. Dieser Test setzt wieder voraus, dass das untersuchte Merkmal metrisch und stetig ist. Die kritischen Werte sind von der konkreten theoretischen Verteilung abh¨ angig, der Test ist daher nur f¨ ur einige Verteilungsfamilien (Normalverteilung, LogNormalverteilung, Weibullverteilung, Exponentialverteilung, logistische Verteilung) m¨ oglich. Weil die Differenzen an den Randbereichen h¨ oher gewichtet werden, ist der Anderson-Darling Test im Vergleich zum Kolmogorov-Smirnov Test dort genauer.

Anderson-Darling-Test Hypothesen H0 : F (x) = F0 (x) H1 : F (x) = F0 (x) Teststatistik AD2 = n



+∞

−∞

Kritischer Wert

(Fn (x) − F0 (x))2 f0 (x)dx F0 (x)(1 − F0 (x))

2 (Tabelle 5.1) ADn,1−α

5.1 Tests auf Verteilungsanpassung

117

F¨ ur die praktische Berechnung der Teststatistik verwendet man: AD2 = −n −

n   1 (2i − 1) ln(F0 (xi )) + ln(1 − F0 (xn−i+1 )) n i=1

In der folgenden Tabelle sind einige kritische Werte f¨ ur einen AndersonDarling-Test auf eine vollkommen spezifizierte Normalverteilung angegeben. n

1

2

3

4

5

6

7

8

n→∞

1 − α = 0.90 1 − α = 0.95 1 − α = 0.99

2.05 2.71 4.30

1.98 2.60 4.10

1.97 2.55 4.00

1.95 2.53 4.00

1.94 2.53 3.95

1.95 2.52 3.95

1.94 2.52 3.95

1.94 2.52 3.95

1.933 2.492 3.857

2 Tabelle 5.1. Kritische Werte ADn,1−α Anderson-Darling-Test vollkommen spezifizierte Normalverteilung

Es gibt f¨ ur jede Verteilung eine eigene Tabelle mit kritischen Werten, daneben muss auch ber¨ ucksichtigt werden, ob die Verteilung vollkommen spezifiziert ist oder ob Parameter aus der Stichprobe gesch¨atzt werden. F¨ ur weitere Tabellen sei auf weiterf¨ uhrende Literatur verwiesen (z.B. Lewis (1961) oder D’Agostino (1986)). F¨ ur den Anpassungstest einer Normalverteilung mit gesch¨atzten Parametern zum Niveau α = 0.05 gilt ann¨ ahernd folgender kritische Wert in Abh¨ angigkeit vom Stichprobenumfang: −1 −1   9 9 3 3 2 ADn,0.95 + 2 + 2 = A∗0.95 · 1 + = 0.752 · 1 + 4n 4n 4n 4n

p A∗

0.01 .119

0.025 .139

0.05 .160

0.10 .188

0.15 .226

0.25 .249

0.50 .341

p A∗

0.75 .470

0.85 .561

0.90 .631

0.95 .752

0.975 .873

0.99 1.035

0.995 1.159

Tabelle 5.2. Kritische Werte A∗ Anderson-Darling-Test Normalverteilung mit gesch¨ atzten Parametern

Entscheidungsregel: 2 Bei AD2 ≥ ADn,1−α wird die Nullhypothese verworfen (Tabelle 5.1).

118

5 Einstichprobenprobleme

Beispiel 5.4. Anderson-Darling-Test Gegeben seien die Daten aus Beispiel 5.1. Pr¨ ufen Sie mit dem AndersonDarling-Test, ob diese Daten normalverteilt sind. 0.1111 0.3937 0.8854 -0.1299 -0.4475 0.0205 0.5707 -0.8954 -0.1551 -0.9964 0.4752 -0.0677 2.4784 -1.2827 0.0904

L¨ osungsschritte: 1. Die Daten aufsteigend sortieren, Mittelwert und Standardabweichung berechnen 2. Die theoretische Verteilungsfunktion und deren Logarithmen f¨ ur jeden Wert xi bestimmen 3. Die Teststatistik AD2 berechnen 4. AD2 mit dem kritischen Wert der Tabelle vergleichen

i

xi

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

-1,2827 -0,9964 -0,8954 -0,4475 -0,1551 -0,1299 -0,0677 0,0205 0,0904 0,1111 0,3937 0,4752 0,5707 0,8854 2,4784

F 1 = ln(F0 (xi )) F 2 = ln(1 − F0 (xn−i+1 )) S = F 1 + F 2 S(2i − 1) -2,722 -2,143 -1,960 -1,266 -0,914 -0,887 -0,823 -0,738 -0,675 -0,657 -0,445 -0,394 -0,340 -0,201 -0,004

-5,619 -1,705 -1,244 -1,122 -1,024 -0,730 -0,711 -0,650 -0,578 -0,531 -0,512 -0,331 -0,152 -0,125 -0,068

-8,340 -3,849 -3,203 -2,388 -1,938 -1,618 -1,535 -1,388 -1,253 -1,188 -0,957 -0,725 -0,492 -0,325 -0,072 

-8,340 -11,547 -16,015 -16,713 -17,443 -17,793 -19,951 -20,824 -21,305 -22,572 -20,103 -16,685 -12,303 -8,781 -2,079 -232,451

Kritischer Wert zum Signifikanzniveau α = 0.05 und n = 15 f¨ ur die Normal2 verteilung mit zwei gesch¨atzten Parametern ADn,0.95 = 0.709 (aus Tabelle   3 9 −1 + 900 = 0.709). 5.2 mit 0.752 · 1 + 60 Da die Teststatistik AD2 = −15−(−232, 451)/15 = 0.497 den kritischen Wert nicht u ¨ berschreitet, muss die Nullhypothese beibehalten werden. Es konnte nicht nachgewiesen werden, dass die Daten nicht normalverteilt sind.

5.1 Tests auf Verteilungsanpassung

119

5.1.5 Cram´ er-von-Mises-Test Der Cram´er-von-Mises-Test ist dem K-S-Test sehr ¨ahnlich, allerdings dient nicht das Supremum der Abweichungen als Teststatistik, sondern die quadrierten Abweichungen werden als Basis herangezogen. Die exakte Verteilung der Teststatistik h¨angt wie die K-S-Teststatistik nicht von der speziellen Gestalt der theoretischen Verteilung ab. Cram´ er-von-Mises-Test Hypothesen H0 : F (x) = F0 (x) H1 : F (x) = F0 (x) Teststatistik



2

+∞

C =n −∞

(Fn (x) − F0 (x))2 f0 (x)dx

F¨ ur die Berechnung C2 =

2 n   1 2i − 1 + F0 (xi ) − 12n i=1 2n

Beim Ablesen der kritischen Werte muss ber¨ ucksichtigt werden, ob die Verteilung vollkommen spezifiziert ist oder ob Parameter aus der Stichprobe gesch¨atzt werden (weitere Tabellen in D’Agostino (1986)). p Cp∗

0.01 .025

0.025 .030

0.05 .037

0.10 .046

0.15 .054

p Cp∗

0.75 .209

0.85 .284

0.90 .347

0.95 .461

0.975 .581

0.99 .743

0.995 .869

Tabelle 5.3. Kritische Werte Cram´er-von-Mises-Test Normalverteilung mit bekannten Parametern

p C ∗∗

0.01 .017

0.025 .019

0.05 .022

0.10 .026

0.15 .029

0.25 .036

0.50 .051

p C ∗∗

0.75 .074

0.85 .091

0.90 .104

0.95 .126

0.975 .148

0.99 .179

0.995 .201

Tabelle 5.4. Kritische Werte Cram´er-von-Mises-Test Normalverteilung mit gesch¨ atzten Parametern

120

5 Einstichprobenprobleme

F¨ ur den Anpassungstest einer Normalverteilung mit bekannten Parametern zum Niveau α gilt ann¨ ahernd folgender kritische Wert (vgl. Tabelle 5.3) −1  1 2 ∗ Cn,1−α = C1−α · 1 + + 0.4/n − 0.6/n2 n und mit gesch¨atzten Parametern ann¨ ahernd (vgl. Tabelle 5.4) −1  1 2 ∗∗ Cn,1−α = C1−α · 1 + n Entscheidungsregel 2 Bei C 2 ≥ Cn,1−α wird die Nullhypothese verworfen (Tabelle 5.3 bzw. Tabelle 5.4).

Beispiel 5.5. Cram´ er-von-Mises-Test Gegeben seien die Daten aus Beispiel 5.1 (Seite 110). Testen Sie auf Normalverteilung mit Hilfe eines Cram´er-von-Mises-Tests.

i

xi

F 1 = Fn (xi )

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

-1.283 -0.996 -0.895 -0.448 -0.155 -0.130 -0.068 0.021 0.090 0.111 0.394 0.475 0.571 0.885 2.478

0.066 0.117 0.141 0.282 0.401 0.412 0.439 0.478 0.509 0.518 0.641 0.674 0.712 0.818 0.996

F2 =

2i − 1 2n

1/30 3/30 5/30 7/30 9/30 11/30 13/30 15/30 17/30 19/30 21/30 23/30 25/30 27/30 29/30

S1 = |F 1 − F 2|

S2 = S12

0.032 0.017 0.026 0.049 0.101 0.045 0.006 0.022 0.058 0.115 0.059 0.092 0.122 0.082 0.030 

0.001 0.000 0.001 0.002 0.010 0.002 0.000 0.001 0.003 0.013 0.004 0.009 0.015 0.007 0.001 0.068

Der kritischer Wert zum Signifikanzniveau α = 0.05 und n = 15 f¨ ur die 2 Normalverteilung mit zwei gesch¨ atzten Parametern ist Cn,0.05 = 0.122. Da die Teststatistik C 2 = 0.068 + 1/(12 ∗ 15) = 0.074 den kritischen Wert nicht u ¨ berschreitet, muss die Nullhypothese beibehalten werden. Es konnte nicht nachgewiesen werden, dass die Daten nicht normalverteilt sind.

5.1 Tests auf Verteilungsanpassung

121

5.1.6 Shapiro-Wilk-Test Der Shapiro-Wilk-Test u ¨ berpr¨ uft, ob Daten aus einer Normalverteilung stammen, und ist gleichzeitig der Anpassungstest mit der h¨ochsten G¨ ute unabh¨ angig von der Stichprobengr¨oße. Allerdings ist dieser Test sehr rechen¨ intensiv und ausschließlich zur Uberpr¨ ufung auf Normalverteilung geeignet. Shapiro-Wilk-Test Hypothesen H0 : F (x) = F0 (x) H1 : F (x) = F0 (x) Teststatistik



n 

2 ai x(i)

i=1 W2 =  n (xi − x ¯)2 i=1

x(i) . . . i-te Element der geordneten Stichprobe ai . . . tabellierte Gewichte (aus z.B. Shapiro und Wilk (1965)) Die h¨andische Berechnung der Teststatistik ist sehr aufw¨andig, daher werden f¨ ur diesen Test die Tabellen der Gewichte bzw. der kritischen Werte nicht angef¨ uhrt. Diese k¨onnen dem Artikel von Shapiro und Wilk (1965) entnommen werden. Bei Verletzung der Nullhypothese w¨ urden kleine Werte f¨ ur die Teststatistik resultieren, daher wird beim Shapiro-Wilk-Test die Teststatistik mit dem unteren Quantil des kritischen Wertes verglichen. Ist die Teststatistik kleiner oder gleich dem unteren Quantil, so wird die Nullhypothese abgelehnt. Entscheidungsregel Bei W 2 ≤ Wα2 wird die Nullhypothese verworfen.

Beispiel 5.6. Shapiro-Wilk-Test Gegeben seien die Daten aus Beispiel 5.1 (vgl. Seite 110). Testen Sie auf Normalverteilung mit Hilfe eines Shapiro-Wilk-Tests. L¨ osungsweg: 1. Die Daten aufsteigend sortieren 2. Die Teststatistik berechnen (Gewichte ai aus Shapiro und Wilk (1965)) 3. W 2 mit dem kritischen Wert laut Tabelle vergleichen

122

5 Einstichprobenprobleme i

xi

ai

xi · ai

(xi − x)2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

-1.283 -0.996 -0.895 -0.448 -0.155 -0.130 -0.068 0.021 0.090 0.111 0.394 0.475 0.571 0.885 2.478

-0.5150 -0.3306 -0.2495 -0.1878 -0.1353 -0.0880 -0.0433 0.0000 0.0433 0.0880 0.1353 0.1878 0.2495 0.3306 0.5150 

0.6606 0.3294 0.2234 0.0840 0.0210 0.0114 0.0029 0.0000 0.0039 0.0098 0.0533 0.0892 0.1424 0.2927 1.2763

1.8299 1.1373 0.9319 0.2679 0.0507 0.0400 0.0190 0.0025 0.0004 0.0017 0.1048 0.1641 0.2507 0.6648 5.7997

3.2004

11.2652

Damit erh¨alt man als Teststatistik den Wert W 2 = 3.20042/11.2652 = 0.9092. Aus der Tabelle kann der kritische Wert f¨ ur n = 15 und zum Niveau α = 0.05 abgelesen werden mit Wα2 = 0.881. Auch hier kann die Nullhypothese nicht abgelehnt werden, es konnte nicht nachgewiesen werden, dass die Verteilung nicht einer Normalverteilung entstammt.

¨ 5.1.7 Ubersicht Tests auf Verteilungsanpassung Kolmogorov-Smirnov-Test • • • • • • • • • • •

Voraussetzung: stetige Merkmale Bei Verletzung der Voraussetzung wird Test konservativ (geringe G¨ ute) F¨ ur kleine Stichproben geeignet Verteilungsfrei Parameter der hypothetischen Verteilung sind gegeben Bei gesch¨atzten Parametern ist der Test konservativ An den Randbereichen ungenau Einseitiges Testen m¨oglich Vorliegen von Bindungen unproblematisch Konsistenter Test Einseitiger Test unverf¨ alscht, zweiseitiger Test verf¨alscht

5.1 Tests auf Verteilungsanpassung

123

Lilliefors-Test • • • • • • •

Spezieller Kolmogorov-Smirnov-Test Voraussetzung: stetige Merkmale Parameter der hypothetischen Verteilung werden gesch¨atzt Trennsch¨arfer als der Kolmogorov-Smirnov-Test Eigene Tabelle f¨ ur kritische Werte f¨ ur jede Verteilung M¨ ogliche Verteilungen: Normalverteilung, Exponentialverteilung, . . . Einseitiges Testen m¨oglich

Chi-Quadrat-Test • • • • • • • • • •

Geeignet f¨ ur stetige und diskrete (ordinale, nominale) Merkmale Merkmale mit vielen Auspr¨agungen m¨ ussen gruppiert werden Durch Gruppierung entsteht gewisse Willk¨ ur Parameter der hypothetischen Verteilung gegeben oder gesch¨atzt Quadratische Teststatistik Teststatistik asymptotisch χ2 - verteilt F¨ ur kleine Stichproben ungeeignet Erwartete H¨aufigkeiten pro Klasse m¨ ussen ≥ 5 sein Nur zweiseitiges Testen m¨oglich Vorliegen von Bindungen unproblematisch

Anderson-Darling-Test • • • • • • •

Voraussetzung: stetige Merkmale Modifizierter K-S-Test M¨ ogliche Verteilungen: Normalverteilung, Log-Normalverteilung, Weibullverteilung, Exponentialverteilung, logistische Verteilung Quadratische Teststatistik Eigene Tabelle f¨ ur kritische Werte f¨ ur jede Verteilung An den Randbereichen genauer als der allgemeine K-S-Test Test auf Normalverteilung: sehr hohe G¨ ute

Cram´ er-von-Mises-Test • • •

Voraussetzung: stetige Merkmale Quadratische Teststatistik Test auf Normalverteilung: h¨ ohere G¨ ute als K-S-Test (empirisch, nicht bewiesen)

Shapiro-Wilk-Test • • • •

Test auf Normalverteilung Parameter der hypothetischen Verteilung werden gesch¨atzt Test mit der h¨ ochsten G¨ ute Sehr rechenintensiv

124

5 Einstichprobenprobleme

5.1.8 Test auf Verteilungsanpassung in SAS Es gibt in SAS zwei Prozeduren mit denen Anpassungstests durchgef¨ uhrt werden k¨ onnen: • •

PROC UNIVARIATE (vgl. Abschnitt 2.7.1, Seite 48) PROC CAPABILITY (vgl. Abschnitt 2.6.2, Seite 43)

Die zus¨atzlich ben¨ otigte HISTOGRAM-Anweisung wurde in Abschnitt 2.7.1, Seite 51 beschrieben. Beispiel 5.7. Test auf Verteilungsanpassung in SAS Gegeben seien die Daten aus Beispiel 5.1. Pr¨ ufen Sie zum Niveau α = 0.05, ob diese Daten normalverteilt sind. 0.1111 0.3937 0.8854 -0.1299 -0.4475 0.0205 0.5707 -0.8954 -0.1551 -0.9964 0.4752 -0.0677 2.4784 -1.2827 0.0904

DATA Stichprobe; INPUT x; DATALINES; 0.1111 ... 0.0904 RUN; PROC UNIVARIATE DATA = Stichprobe; /* Test auf Normalverteilung */ HISTOGRAM/normal(color=red w=2); /* Test auf Standardnormalverteilung */ HISTOGRAM/normal(MU=0 SIGMA=1 COLOR=red W=2); RUN; PROC CAPABILITY DATA=stichprobe; VAR x; HISTOGRAM/normal(COLOR=red W=2); CDFPLOT/normal(COLOR=red W=2); HISTOGRAM/normal(COLOR=red MU=0 SIGMA=1 W=2); CDFPLOT/normal(COLOR=red MU=0 SIGMA=1 W=2); RUN; PROC UNIVARIATE DATA=stichprobe NORMAL; RUN;

5.1 Tests auf Verteilungsanpassung

Abb. 5.2. Histogramm

Abb. 5.3. Empirische und theoretische Verteilungsfunktion

125

126

5 Einstichprobenprobleme Test

Teststatistik

Kolmogorov-Test Cram´er von Mises-Test Anderson-Darling-Test Shapiro-Wilk-Test χ2 -Test

Kn = D = 0.1551 C 2 = W − Sq = 0.0736 AD2 = A − Sq = 0.4968 W = 0.9092 χ2 = 4.9831 df = 3

p-Wert > 0.1500 0.2376 0.1879 0.1316 0.173

Da alle p-Werte das Signifikanzniveau α u ¨ bersteigen, kann die Nullhypothese nicht verworfen werden. Es kann nicht nachgewiesen werden, dass die Daten nicht aus einer Normalverteilung stammen. F¨ ur den Test auf Standardnormalverteilung sind die Ergebnisse ¨ahnlich: Test

Teststatistik

p-Wert

Kolmogorov-Test Cram´er von Mises-Test Anderson-Darling-Test χ2 -Test

Kn = D = 0.1717 C 2 = W − Sq = 0.0905 AD2 = A − Sq = 0.5798 χ2 = 4.3813 df = 5

> 0.250 > 0.250 > 0.250 0.496

Da alle p-Werte das Signifikanzniveau α u ¨ bersteigen, kann die Nullhypothese nicht verworfen werden. Es kann nicht nachgewiesen werden, dass die Daten nicht aus einer Standardnormalverteilung stammen.

5.1.9 Test auf Verteilungsanpassung in R Der Kolmogorov-Smirnov-Test kann in R zum Testen von allen implementierten Verteilungen (mit Ausnahme der Multinomialverteilung) verwendet werden (vgl. Tabelle 3.13, Seite 74). Verteilungen mit Voreinstellungen f¨ ur die Parameter k¨onnen mit oder ohne Angabe der Parameter getestet werden (z.B. Normalverteilung), Verteilungen ohne Voreinstellungen ben¨ otigen zwingend die Angabe der notwendigen Parameter (z.B. Chi-Quadrat-Verteilung). ks.test(Daten, "Verteilung", Parameter) ks.test(Daten, "Verteilung") Ausgegeben wird der Wert der Teststatistik und der p-Wert, sowie die Information ob einseitig oder zweiseitig getestet wurde. Die Nullhypothese wird verworfen, falls der p-Wert h¨ ochstens α (p ≤ α) ist.

5.1 Tests auf Verteilungsanpassung

127

Um die empirische und die theoretische Verteilungsfunktion zu plotten kann man diesen Befehl verwenden: plot(ecdf(Daten), + main = "empirische und theoretische Verteilungsfunktion", + verticals = TRUE) curve(Verteilung(x, Parameter 1, ... , Parameter k), + add=TRUE, col="red", lwd=2) mit ecdf main="" verticals=TRUE add=TRUE col="red" lwd=

die empirische Verteilungsfunktion der Titel der Grafik um eine Treppenfunktion zu erhalten f¨ ugt die Kurve zur letzten Grafik hinzu plottet die Grafik in Rot Linienst¨ arke

Beispiel 5.8. Kolmogorov-Smirnov-Test Gegeben seien die Daten aus Beispiel 5.1. Pr¨ ufen Sie zum Niveau α = 0.05, ob diese Daten standardnormalverteilt sind. 0.1111 0.3937 0.8854 -0.1299 -0.4475 0.0205 0.5707 -0.8954 -0.1551 -0.9964 0.4752 -0.0677 2.4784 -1.2827 0.0904

Die zugeh¨ orige Syntax lautet: Stichprobe=c(0.1111,0.3937,0.8854,-0.1299,-0.4475, + 0.0205, 0.5707,-0.8954,-0.1551,-0.9964,0.4752, + -0.0677,2.4784,-1.283,0.0904) ks.test(Stichprobe,"pnorm") plot(ecdf(Stichprobe), main="",verticals=TRUE) curve(pnorm(x), add=TRUE, col="red",lwd=2) Neben der Grafik wird der Wert der Kolmogorov-Smirnov-Teststatistik ausgegeben (D = 0.1717) und der p-Wert (p = 0.7067). Der p-Wert ist gr¨oßer als α, also wird die Nullhypothese (”Die Daten stammen aus einer Standardnormalverteilung”) nicht abgelehnt. Weitere Tests auf Verteilungsanpassung bietet das Paket nortest. Nach dem Installieren und laden des Paketes kann man mit Lilliefors-Test, AndersonDarling-Test, Shapiro-Test, Cram´er-von-Mises-Test und dem Chi-QuadratTest die Normalverteilungsannahme testen. Andere Verteilungsannahmen k¨ onnen mit diesem Paket nicht getestet werden. Das Paket truncgof bietet mit der Anweisung ad2.test den Anderson-Darling-Test auch f¨ ur andere Verteilungen an.

128

5 Einstichprobenprobleme

Tests auf Normalverteilung in R (im Paket nortest“) ” lillie.test(Daten) pearson.test(Daten, Anzahl der Klassen) ad.test(Daten) shapiro.test(Daten) cvm.test(Daten) Bei diesen Tests auf Anpassung einer Normalverteilung wird in R die Teststatistik und der p-Wert ausgegeben. F¨ ur p-Wert ≤ α wird die Nullhypothese einer Normalverteilung abgelehnt.

Beispiel 5.9. Tests auf Normalverteilung in R ¨ (Fortsetzung von Beispiel 5.1) Uberpr¨ ufen Sie, ob die Daten aus einer Normalverteilung stammen. Nach der Installation des Paketes nortest kann folgende Syntax verwendet werden: Stichprobe=c(0.1111,0.3937,0.8854,-0.1299,-0.4475, + 0.0205,0.5707,-0.8954,-0.1551,-0.9964, + 0.4752,-0.0677,2.4784,-1.283,0.0904) library(nortest) ad.test(Stichprobe) cvm.test(Stichprobe) shapiro.test(Stichprobe) lillie.test(Stichprobe) pearson.test(Stichprobe,3, adjust=FALSE) Man erh¨ alt folgende Ergebnisse: Test Anderson-Darling-Test Cram´er von Mises-Test Shapiro-Wilk-Test Lilliefors-Test Chi-Quadrat-Test

Teststatistik 2

AD = A = 0.4968 C 2 = W = 0.0736 W 2 = W = 0.9092 Kn = D = 0.1551 χ2 = P = 1.2

p-Wert 0.1794 0.2329 0.1316 0.4297 0.5488

Der χ2 -Test ist in diesem Fall nicht geeignet, da die Stichprobe zu klein ist. Die Gruppierung der Daten f¨ ur den Chi-Quadrat-Test u ¨ bernimmt R in der Weise, dass alle Klassen m¨oglichst gleich viele Elemente umfassen. Die Nullhypothese kann nicht abgelehnt werden, somit gibt es keine Hinweise darauf, dass die Daten nicht normalverteilt sind.

5.2 Binomialtest

129

5.2 Binomialtest Der Binomialtest kann f¨ ur jedes Testproblem verwendet werden, das als Test auf Anteile formuliert werden kann. Ausgangspunkt ist die Behauptung, dass ein Anteil (an Objekten, die eine bestimmte Eigenschaft aufweisen) einen Referenzwert p0 annimmt. Als Alternative wird formuliert, dass der Anteil den Wert p0 nicht annimmt (zweiseitiger Test) oder diesen u ¨ ber- bzw. unterschreitet (einseitige Tests). Jedes Skalenniveau ist zugelassen, die Merkmale m¨ ussen allerdings dichotomisiert werden. Hypothesen (zweiseitig) H0 : p = p0

H1 : p = p0

Beispiel 5.10. M¨ unzwurf Man m¨ ochte eine M¨ unze auf Fairness u ¨berpr¨ ufen. Unter der Nullhypothese (faire M¨ unze) w¨ are der Anteil der W¨ urfe mit dem Ergebnis Kopf genau 50%. Demnach lauten die Hypothesen: H0 : p = 0.5

H1 : p = 0.5

Als Teststatistik wird die Anzahl der Beobachtungen mit der gew¨ unschten Eigenschaft herangezogen. Diese Anzahl ist unter Annahme der Nullhypothese binomialverteilt mit den Parametern n und p = p0 und damit gilt: t   n i p0 (1 − p0 )n−i P r(T ≤ t) = i i=0 Daraus l¨ asst sich folgende Entscheidungsregel ableiten: Man bestimmt die Quantile tα/2 und t1−α/2 so, dass P r(T ≤ tα/2 ) ≥ α/2 und P r(T ≤ t1−α/2 ) ≥ 1 − α/2. Die Nullhypothese ist abzulehnen, wenn die Teststatistik T < tα/2 oder T > t1−α/2 ist. Beispiel 5.11. M¨ unzwurf (Fortsetzung von Beispiel 5.10). Bei 10 W¨ urfen kam neunmal Kopf und einmal Zahl. Es soll auf einem Niveau von α = 0.1 die Fairness der M¨ unze getestet werden. Aus der Verteilungsfunktion der Binomialverteilung t P r(T ≤ t|B(10, 0.5))

0 0.001

1 0.011

2 0.055

3 0.172

4 0.377

t P r(T ≤ t|B(10, 0.5))

6 0.828

7 0.945

8 0.989

9 0.999

10 1.000

5 0.623

130

5 Einstichprobenprobleme

bestimmt man die Quantile tα/2 = 2 und t1−α/2 = 8, weil P r(T ≤ 2) = 0.055 und P r(T ≤ 8) = 0.989. Die Nullhypothese ist abzulehnen, wenn die Teststatistik T < 2 oder T > 8 ist. Bei neunmal Kopf kann mit 90% Sicherheit nachgewiesen werden, dass die M¨ unze nicht fair ist. Testen von zweiseitigen Hypothesen u ¨ ber Anteile Binomialtest Hypothesen H0 : p = p 0

H1 : p = p0

Entscheidungsregel Bestimme Quantile tα/2

mit

t1−α/2 mit

P r(T ≤ tα/2 ) ≥ α/2 und P r(T ≤ t1−α/2 ) ≥ 1 − α/2.

F¨ ur T ∈ [tα/2 ; t1−α/2 ] wird die Nullhypothese beibehalten, andernfalls verworfen. Da die Binomialverteilung eine diskrete Verteilung ist, k¨ onnen die Quantile im Normalfall nicht so bestimmt werden, dass das gew¨ unschte Testniveau α exakt eingehalten wird. Verwendet man zur Bestimmung der Quantile die angegebenen Formeln, so erh¨ alt man einen konservativen Test, dessen tats¨ achliches Testniveau α

aus der Binomialverteilung berechnet werden kann. Einseitige Hypothesen behandeln die Fragestellung, ob sich nachweisen l¨ asst, dass ein Parameter einen bestimmten Referenzwert unter- oder u ¨ berschreitet. Wir betrachten zuerst die Frage, ob ein Parameter einen bestimmten Sollwert u ¨ berschreitet. ¨ Hypothesen einseitiger Test (Uberschreitung) H0 : p ≤ p 0

H1 : p > p 0

Als Teststatistik wird wieder die Anzahl der Beobachtungen mit der gew¨ unschten Eigenschaft herangezogen. F¨ ur den einseitigen Test bestimmt man das Quantil t1−α so, dass P r(T ≤ t1−α ) ≥ 1 − α. Die Nullhypothese ist abzulehnen, wenn die Teststatistik T > t1−α ist. Beispiel 5.12. M¨ unzwurf (Fortsetzung von Beispiel 5.10). Bei 10 W¨ urfen kam neunmal Kopf und einmal Zahl. Es soll auf einem Niveau von α = 0.1 getestet werden, ob die Mehrheit der W¨ urfe mit dem Ergebnis Kopf endeten. Aus der Verteilungsfunktion der

5.2 Binomialtest

131

Binomialverteilung bestimmt man das Quantil t1−α = 7, weil P r(T ≤ 7) = 0.945. Die Nullhypothese ist abzulehnen, wenn die Teststatistik T > 7 ist. Bei neunmal Kopf kann mit 90% Sicherheit nachgewiesen werden, dass die M¨ unze mehrheitlich Kopf-Ergebnisse zeigt. Testen von einseitigen Hypothesen u ¨ ber Anteile ¨ Binomialtest - Nachweis einer Uberschreitung Hypothesen H0 : p ≤ p 0

H1 : p > p 0

Entscheidungsregel Bestimme das Quantil t1−α

mit

P r(T ≤ t1−α ) ≥ 1 − α

F¨ ur T > t1−α wird die Nullhypothese verworfen. Testen von einseitigen Hypothesen u ¨ ber Anteile Binomialtest - Nachweis einer Unterschreitung Hypothesen H0 : p ≤ p 0

H1 : p < p 0

Entscheidungsregel Bestimme das Quantil tα

mit P r(T ≤ tα ) ≥ α

F¨ ur T < tα wird die Nullhypothese verworfen. F¨ ur den Fall, dass der Stichprobenumfang n hinreichend groß“ wird, kann ” die Binomialverteilung nach dem Satz von Moivre-Laplace durch die Normalverteilung mit Mittel µ = np und Varianz σ 2 = np(1 − p) angen¨ ahert werden. Mit dieser asymptotischen Verteilung ver¨ andern sich dann auch die Grenzwerte. Anstelle der α/2 bzw. 1 − α/2 Quantile der Binomialverteilung werden nun die α/2 bzw. 1 − α/2 Quantile der korrespondierenden Normalverteilung verwendet (vgl. Tabelle 11.1). F¨ ur großes n sind die Unterschiede zwischen den Quantilen der Binomial- bzw. der Normalverteilung wegen der Asymptotik (beinahe) Null. In der Literatur werden unterschiedliche Kriterien f¨ ur einen hinreichend großen Stichprobenumfang angegeben, ein Kriterium ist die Erf¨ ullung der beiden Ungleichungen n · p > 10

und

n · (1 − p) > 10

132

5 Einstichprobenprobleme

Beispiel 5.13. M¨ unzwurf, Binomialtest in R (Fortsetzung von Beispiel 5.10 bzw. 5.11). R stellt f¨ ur exakte Binomialtests die Funktion binom.test(x,n,p,alternative, conf.level) zur Verf¨ ugung, wobei die Funktionsparameter folgende Bedeutung haben: • x ist die Anzahl der Erfolge • n ist die Anzahl der Versuche • p ist die Wahrscheinlichkeit f¨ ur einen Erfolg unter der Nullhypothese • alternative steht f¨ ur Alternativhypothese und kann die Werte two.sided, less und greater haben, wobei die Angabe der ersten Buchstaben der Schl¨ usselw¨orter unter Anf¨ uhrungszeichen ausreicht. • conf.level bestimmt die gew¨ unschte Sicherheit 1 − α f¨ ur das Konfidenzintervall, Voreinstellung ist 1 − α = 0.95 Im Falle von Beispiel 5.11 w¨ urde der gesamte Test durch den Befehl binom.test(x=9,n=10,p=0.5,alternative="t",conf.level=0.90) durchgef¨ uhrt werden. Diese Routine berechnet den p-Wert, den Punkt- und Bereichsch¨atzer f¨ ur den Anteil der Erfolge. Ist der p-Wert ≤ α wird die Nullhypothese verworfen. In diesem Fall l¨ asst sich auch leicht nachrechnen, dass der p-Wert die Wahrscheinlichkeit daf¨ ur ist, unter der Nullhypothese dieses oder ein noch selteneres Ergebnis zu erhalten: Der (zweiseitige) p-Wert ist somit die Summe der Wahrscheinlichkeiten f¨ ur die Ereignisse 0,1,9,10 einer Binomialverteilung mit n = 10 und p0 = 0.5. Da der p-Wert (0.02148) kleiner als das vorgegebene α-Niveau ist, muss die Nullhypothese verworfen werden. Die M¨ unze ist nicht fair.

Beispiel 5.14. M¨ unzwurf mit SAS In SAS erfolgt der exakte Binomialtest in der PROC FREQ (vgl. Abschnitt 2.7.2). Zuerst werden die Daten in einem DATA-STEP in SAS eingelesen. Zu beachten ist, dass SAS den kleineren Wert als Realisierung des interessierenden Ereignisses ( Kopf“) und den gr¨ oßeren Wert als Realisierung des Komplement¨arer” eignisses ( Zahl“) wertet. Die H¨aufigkeit der jeweiligen Ereignisse kann in der ” Variablen Anzahl eingetragen werden. DATA Beispiel; INPUT Kopf Zahl Anzahl; DATALINES; 1 2 9 # Anzahl der W¨ urfe mit Ergebnis Kopf 2 1 1 # Anzahl der W¨ urfe mit Ergebnis Zahl ; RUN;

5.2 Binomialtest

133

PROC FREQ; WEIGHT Anzahl; TABLES Kopf /binomial(p=0.5) alpha=0.1; RUN; SAS liefert als Ergebnis das approximative und das exakte Konfidenzintervall f¨ ur den Anteil der W¨ urfe mit Kopf. Liegt der getestete Anteil p0 im Intervall, so entscheidet man zugunsten der Nullhypothese, ansonsten f¨ ur die Alternativhypothese. Zudem wird der p-Wert ausgegeben, allerdings wird f¨ ur die Berechnung durch die Normalverteilung approximiert. Auch hier wird mit p = 0.0114 zugunsten der Alternativhypothese entschieden, d.h. die M¨ unze ist nicht fair.

Testen von Quantilen In der nichtparametrischen Statistik spielen Quantile eine außerordentlich wichtige Rolle. Besonders der Median wird gerne als Ersatz f¨ ur den Mittelwert verwendet. Neben der Unempfindlichkeit gegen¨ uber Ausreißern in der Stichprobe weist der Median (wie jedes andere Quantil) auch andere Vorteile gegen¨ uber dem Mittelwert auf: Er ist auch bei ordinalem Skalenniveau verwendbar und man kann - im Gegensatz zum Mittelwert - eine exakte Verteilung der Teststatistik angeben. Diese Verteilung ist die Binomialverteilung, denn unter der Nullhypothese, dass Θ0 der Median ist, ist die Anzahl der Stichprobenelemente, die gr¨ oßer/kleiner als Θ0 sind, binomialverteilt Bn,0.5 mit den Parametern n und 0.5. Das ist einsichtig, denn wenn Θ0 tats¨achlich der unbekannte Median ist, dann ist die Wahrscheinlichkeit 0.5, dass man einen Wert zuf¨allig zieht, der gr¨oßer/kleiner als der Median Θ0 ist. Verallgemeinert man den Test f¨ ur den Median auf alle m¨oglichen Quantile, dann ist klar, dass diese Tests wiederum eine Binomialverteilung haben m¨ ussen. Testet man zum Beispiel das 10%-Quantil, dann betr¨agt die Wahrscheinlichkeit einen Wert kleiner als dieses Quantil zu ziehen 10%, wenn die Hypothese tats¨achlich stimmt. Auch hier haben wir wieder die Nullhypothese, dass das zu testende Quantil tats¨ achlich dem unbekannten, aber wahren 10%-Quantil entspricht. Die Verteilung im Fall des 10%-Quantils ist also die Binomialverteilung Bn,0.1 . Allgemein ist die Verteilung des p-Quantils die Binomialverteilung Bn,p/100 .

134

5 Einstichprobenprobleme

5.3 Lineare Rangtests Tests, die auf Ordnungs- bzw. Rangstatistiken basieren, spielen in der nichtparametrischen Statistik eine wichtige Rolle. Die hier angef¨ uhrten Rangtests basieren auf metrischem Skalenniveau. Durch die Vergabe von R¨ angen entsteht daher ein Informationsverlust, der aber von geringer Bedeutung ist.

5.3.1 Das allgemeine Prinzip linearer Rangstatistiken Lineare Rangstatistiken gehen von einer Stichprobe von unabh¨ angigen, identisch und stetig verteilten Zufallsvariablen (X1 , . . . , Xn ) aus, deren Verteilung zwar unbekannt ist, von der wir aber folgende wichtige Eigenschaften voraussetzen: •

Es handelt sich um eine stetige Verteilungsfunktion F (X)



Symmetrie der Verteilungsfunktion um den Lageparameter Θ

Besonders die zweite Voraussetzung schr¨ankt die durch lineare Rangstatistiken analysierbaren Probleme stark ein. Mit Rangstatistiken k¨onnen nur Aussagen u ¨ ber den Lageparameter Θ getestet werden, die G¨ ute dieser Tests ist aber ausgesprochen hoch. Sogar im Fall von normalverteilten Daten sind einige verteilungsfreie Tests mit Rangstatistiken ann¨ ahernd so effizient in der Erkennung des wahren Lageparameters Θ = µ wie der optimale t-Test. Um einen Test durchf¨ uhren zu k¨ onnen, ben¨ otigen wir zun¨ achst eine sinnvolle Teststatistik L = t(X1 , . . . , Xn ). Ausgangspunkt f¨ ur lineare Rangstatistiken sind die R¨ange der Differenzbetr¨ age zum hypothetischen Lageparameter Θ0 , also Ri+ = R(Di ) mit Di = |Xi − Θ0 |. In einer Indikatorvariablen Zi wird zudem vermerkt, ob die Differenz (Xi − Θ) positiv (Z  i = 1) oder negativ (Zi = 0) ist. Zusammen mit einer Gewichtsfunktion g Ri+ lautet damit die allgemeine Form einer linearen Rangstatistik: n    L= g Ri+ · Zi i=1

Nach Ordnen der Differenzbetr¨age bzw. deren R¨ ange kann die Teststatistik in vereinfachter Form angeschrieben werden als:

L=

n  i=1

g(i) · Zi

5.3 Lineare Rangtests

135

Zum Testen ben¨otigt man die Verteilung der Teststatistik unter der Nullhypothese. Da die R¨ ange von 1 bis n fix vorgegeben sind, ist nur mehr die Variable Zi eine Zufallsvariable, und zwar mit dem Wert 1, wenn die Differenz Xi − Θ0 positiv ist, und mit dem Wert 0, wenn die Differenz negativ ist. Die Wahrscheinlichkeit, dass Zi einen der beiden Werte annimmt ist wegen der Symmetrie der Verteilungsfunktion 0.5. Wegen der Unabh¨ angigkeit der Stichprobenziehungen ist die Wahrscheinlichkeit, dass alle n Ziehungen die 0-1-Folge (Z1 , . . . , Zn ) ergeben, gleich 0.5n . Die exakte Verteilung der Teststatistik unter der Nullhypothese kann dann angeschrieben werden als P r(L = k) =

a(k) 2n

a(k) . . . Anzahl der Permutationen, die den Wert k ergeben Die kritischen Werte werden mit Hilfe von Simulationen ermittelt, f¨ ur große Stichprobenumf¨ ange kann die Verteilung approximiert werden. F¨ ur die Approximation ben¨ otigt man Erwartungswert und Varianz, die gegeben sind durch: E(L) =

V ar(L) =

n 1  · g(i) 2 i=1 n 1  2 · (g(i)) 4 i=1

Je nach Gewichtsfunktion g(i) erh¨ alt man unterschiedliche Tests, von denen nun der Vorzeichentest und der Wilcoxon-Vorzeichen-Rangtest n¨ aher beschrieben werden.

5.3.2 Der Vorzeichentest (Sign-Test) F¨ ur diesen Test gelten die Voraussetzungen f¨ ur lineare Rangstatistiken (Unabh¨ angigkeit, Stetigkeit, Symmetrie). Die Voraussetzung der Stetigkeit erleichtert die theoretische Betrachtung, ist aber f¨ ur die praktische Durchf¨ uhrung nicht zwingend erforderlich. Die Voraussetzung stetiger Variablen kann zudem kaum durchgehalten werden, weil durch Messfehler oder Rundungen eine gewisse Diskretisierung erfolgt. Somit k¨onnen in der Praxis Bindungen auftreten, die meist mit Vergabe von Durchschnittsr¨angen behandelt werden (vgl. Abschnitt 4.1).

136

5 Einstichprobenprobleme

Die Teststatistik des Vorzeichentests erh¨alt man, wenn man als Gewichtsfunktion der linearen Rangstatistik die Funktion g(i) = 1 w¨ ahlt: L=

n 

g(i) · Zi =

n 

i=1

Zi

i=1

Die Verteilung unter der Nullhypothese ist wegen der Symmetrie eine Binomialverteilung mit p = 0.5, denn die Teststatistik L beinhaltet die Anzahl der Werte, die gr¨ oßer als der zu testende Parameter Θ0 sind. Damit ist der Vorzeichentest ein Spezialfall des allgemeinen Binomialtests und weist die gleichen Eigenschaften wie dieser auf. Er ist konsistent und unverf¨alscht und erf¨ ullt somit die wichtigsten Voraussetzungen f¨ ur einen guten Test. Im Vergleich zum t-Test ist er (unter Voraussetzung von normalverteilten Daten) klar unterlegen, sollte aber im Fall von Daten, die nicht normalverteilt sind, bevorzugt werden. Vorzeichentest •

Zweiseitige Hypothesen H0 : θ = θ0 H1 : θ = θ0



Einseitige Hypothesen, Fall A ¨ Uberschreitung des Lageparameters θ0 H0 : θ = θ 0 H1 : θ > θ 0



Einseitige Hypothesen, Fall B Unterschreitung des Lageparameters θ0 H0 : θ = θ 0 H1 : θ < θ 0

Testentscheidung (kritische Werte: Quantile tp der Binomialverteilung (vgl. Abschnitt 5.2)) •

Zweiseitiger Test: H0 ablehnen, falls L < tα/2 oder L > t1−α/2



Einseitiger Test, Fall A: H0 ablehnen, falls L < tα



Einseitiger Test, Fall B: H0 ablehnen, falls L > t1−α

Beispiel 5.15. Schulklasse Vorzeichentest Von 15 zuf¨ allig ausgew¨ahlten Sch¨ ulerInnen wurde die Mathematik-Note erhoben (1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5). Es soll getestet werden, ob der Median Θ der Mathematik-Noten 2 ist oder davon abweicht.

5.3 Lineare Rangtests

137

F¨ ur die Teststatistik L ist die Anzahl jener Sch¨ ulerInnen zu erheben, die eine schlechtere Note als 2 hatten, weil dann die Differenz Di = Xi − Θ0 ein positives Vorzeichen ausweist. Sch¨ ulerInnen mit der Note 2 f¨ uhren zu einer Differenz von 0 und werden in weiterer Folge ausgeschlossen. Das sind 3 Personen und somit reduziert sich n auf 12. Die Teststatistik nimmt den Wert L = 10 an, die Verteilung unter der Nullhypothese ist die Binomialverteilung mit n = 12 und p = 0.5. F¨ ur den zweiseitigen Test (α = 0.05) ermittelt man die Quantile der Binomialverteilung tα/2 = 3 und t1−α/2 = 9 (vgl. Abschnitt 5.2). Da die Teststatistik gr¨oßer als der obere kritische Wert ist, entscheidet man zugunsten der Alternativhypothese: Mit (mindestens) 95%iger Sicherheit weicht der Median (die mittlere Note) vom Wert 2 ab, der p-Wert (und damit das tats¨achliche Niveau α

) betr¨ agt p = 0.0386). In diesem Beispiel wurden F¨alle mit Nulldifferenzen aus der Analyse ausgeschlossen. Diese in Praxis g¨angige Vorgehensweise ist in diesem Beispiel allerdings problematisch, weil dadurch ein erheblicher Teil der Beobachtungen (3 von 15) ausgeschlossen wird. In solchen F¨ allen k¨ onnte man folgende alternative Vorgehensweise w¨ ahlen: Durch M¨ unzwurf wird entschieden, ob die Nulldifferenz als positive Differenz (zi = 1) oder als negative Differenz (zi = 0) in die Teststatistik eingeht. Beispiel 5.16. Schulklasse Vorzeichentest in SAS (Fortsetzung von Beispiel 5.15) Nach der Dateneingabe kann u ¨ ber die Prozedur UNIVARIATE der Vorzeichentest angefordert werden. Wird kein Referenzwert θ0 angegeben, so wird der Test mit θ0 = 0 durchgef¨ uhrt. F¨ ur unser Beispiel lautet die Syntax nach der Dateneingabe: PROC UNIVARIATE mu0=2; RUN; Die Teststatistik von SAS weicht von L = 10 ab. Bezeichnet man mit n+ die Anzahl der positiven Differenzen Di (n+ = L) und mit n− die Anzahl der negativen Differenzen, dann verwendet SAS als Teststatistik M = (n+ −n− )/2. In unserem Fall ist daher die Teststatistik M = (10 − 2)/2 = 4. Der p-Wert stimmt mit der h¨andischen Berechnung u ¨berein. Beispiel 5.17. Schulklasse Vorzeichentest in R (Fortsetzung von Beispiel 5.15) Der Vorzeichentest selbst ist in R nicht implementiert. Nachdem aber der Vorzeichentest ein spezieller Binomialtest ist kann der p-Wert u ¨ ber die Anweisung binom.test(x=10,n=12,p=0.5,alternative="t",conf.level=0.95) angefordert werden. Aus dem p-Wert (0.03857) ist ersichtlich, dass die Nullhypothese abzulehnen ist, der Median der Schulnoten ist nicht 2.

138

5 Einstichprobenprobleme

5.3.3 Wilcoxon-Vorzeichen-Rangtest Dieser Test hat die gleichen Voraussetzungen wie der Vorzeichen-Test, der entscheidende Unterschied liegt in der Gewichtsfunktion, die nun g(i) = i ist. Daraus ergibt sich die Teststatistik des Wilcoxon-Vorzeichen-Rangtests als: Wn+ =

n 

i · Zi

i=1

Der Vorteil des Vorzeichen-Rang-Tests von Wilcoxon ist, dass die Abweichung zwischen den Auspr¨agungen der Variablen X und dem zu testenden Lageparameter Θ in die Teststatistik eingeht, daher schneidet dieser Test im Vergleich zum herk¨ ommlichen Vorzeichen-Test in der Regel besser ab und sollte bevorzugt werden. Die Verteilung dieser Teststatistik stammt aus keiner der bekannten univariaten Verteilungsfamilien. Die Momente der Verteilung sind aber einfach zu bestimmen. Da Zi wieder die einzige Zufallsvariable ist, welche die Zust¨ande 0 und 1 jeweils mit Wahrscheinlichkeit 0.5 annimmt, folgt f¨ ur den Erwartungswert und die Varianz (vgl. Aufgabe 5.7, Seite 149):

E(Wn+ ) = V ar(Wn+ ) =

n 1  n(n + 1) · i= 2 i=1 4

n 1  2 1 · i = n(n + 1)(2n + 1) 4 i=1 4

ahlen Die exakte Verteilung der Teststatistik Wn+ von Wilcoxon kann durch Abz¨ aller m¨ oglichen Kombinationen an n-Tupel (z1 , . . . , zn ) mit dem Wert k (kurz mit a(k) bezeichnet) erreicht werden. Da die Anzahl aller m¨oglichen Permutationen 2n ist, erh¨alt man die Wahrscheinlichkeit den Wert k zu erhalten mit: a(k) P r(Wn+ = k) = n 2 Dieses Ausz¨ahlen m¨ usste man f¨ ur jedes n wiederum durchf¨ uhren. Um die kritischen Werte der Teststatistik zu erhalten, kann man in R die Routine qsignrank(p,n) mit dem Vektor der gesuchten Quantile p und dem Stichprobenumfang n aufrufen, die Ergebnisse sind f¨ ur 4 ≤ n ≤ 20 in Tabelle 11.6 angef¨ uhrt. F¨ ur große Stichproben (n > 20) kann die Verteilung durch eine Normalverteilung approximiert werden.

5.3 Lineare Rangtests

139

Wilcoxon-Vorzeichen-Rangtest •

Zweiseitige Hypothesen H0 : θ = θ0 H1 : θ = θ0



Einseitige Hypothesen, Fall A ¨ Uberschreitung des Lageparameters θ0 H0 : θ = θ 0 H1 : θ > θ 0



Einseitige Hypothesen, Fall B Unterschreitung des Lageparameters θ0 H0 : θ = θ 0 H1 : θ < θ 0

Testentscheidung (kritische Werte in Tabelle 11.6) •

+ + oder WN+ ≥ w1−α/2 Zweiseitiger Test: H0 ablehnen, falls WN+ ≤ wα/2



Einseitiger Test, Fall A: H0 ablehnen, falls WN+ ≤ wα+



+ Einseitiger Test, Fall B: H0 ablehnen, falls WN+ ≥ w1−α

Beispiel 5.18. Schulklasse Wilcoxon-Vorzeichen-Rangtest (vgl. Beispiel 5.15) Eine Schulklasse will u ¨ berpr¨ ufen, ob der Median Θ ihrer Mathematik-Noten 2 ist oder davon abweicht. Die (sortierten) Noten der Klasse sind 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5. Auch f¨ ur den Wilcoxon-Vorzeichen-Rangtest werden Elemente mit Nulldifferenzen aus der Stichprobe entfernt und der Stichprobenumfang entsprechend reduziert. Da f¨ ur die Betr¨ age der Differenzen |Di | Bindungen vorliegen, m¨ ussen Durchschnittsr¨ ange (f¨ ur die Betr¨ age der Differenzen) vergeben werden: Note

Durchschnittsrang

1, 3 4 5

(1 + . . . + 7)/7 = 4 (8 + 9 + 10)/3 = 9 (11 + 12)/2 = 11.5

Die Teststatistik nimmt den Wert Wn+ = 5 · 4 + 3 · 9 + 2 · 11.5 = 70 an. F¨ ur den zweiseitigen Test (α = 0.05, n = 12) ermittelt man aus Tabelle 11.6 die + + Quantile wα/2 = 14 und w1−α/2 = 78 − 14 = 64. Da die Teststatistik gr¨ oßer

140

5 Einstichprobenprobleme

als der obere kritische Wert ist, entscheidet man zugunsten der Alternativhypothese: Mit (mindestens) 95%iger Sicherheit weicht der Median der Noten vom Wert 2 ab.

Beispiel 5.19. Schulklasse Wilcoxon-Vorzeichen-Rangtest in R (Fortsetzung Beispiel 5.18) Die folgende Syntax zeigt zwei M¨ oglichkeiten f¨ ur einen Wilcoxon-Vorzeichen-Rangtest in R: Noten=c(1,1,2,2,2,3,3,3,3,3,4,4,4,5,5) wilcox.test(Noten, alternative="t", exact=TRUE, mu=2) library(exactRankTests) wilcox.exact(Noten, alternative="t", exact=TRUE, mu=2) wilcox.test kann exakte p-Werte nur f¨ ur den Fall ohne Bindungen angeben, im Paket exactRankTests liefert der Aufruf wilcox.exact() auch im Fall von Bindungen einen exakten p-Wert. Die Ausgabe enth¨ alt den Wert der Teststatistik (V = 70) und den (exakten) p-Wert (0.01416). Die Nullhypothese ist demnach abzulehnen, der Median der Schulnoten ist nicht 2. Wie aus den Ergebnissen ersichtlich, streicht R automatisch die F¨ alle der Nulldifferenzen aus der Stichprobe.

Beispiel 5.20. Schulklasse Wilcoxon-Vorzeichen-Rangtest in SAS (Fortsetzung Beispiel 5.18) Die L¨osung in SAS ist v¨ollig analog zu Beispiel 5.16, weil mit der Prozedur UNIVARIATE automatisch Vorzeichentest und WilcoxonVorzeichen-Rangtest durchgef¨ uhrt werden. Als Teststatistik in SAS wird nicht Wn+ ausgegeben, sondern die zentrierte (um den Erwartungswert korrigierte) Teststatistik. In unserem Fall ist das Ergebnis in SAS somit 12 · 13 n(n + 1) = 70 − = 31 4 2 SAS berechnet die p-Werte f¨ ur Stichprobenumf¨ ange n < 20 exakt und f¨ ur gr¨ oßere Stichproben u ¨ber die Approximation mit der Normalverteilung. Auch in SAS werden F¨alle mit Nulldifferenzen automatisch aus der Stichprobe entfernt. S = Wn+ − E(Wn+ ) = Wn+ −

Wegen der Ber¨ ucksichtigung der R¨ange in der Teststatistik ist dieser Test in der Regel besser als der einfachere Vorzeichentest. Selbst bei normalverteilten Daten ist der optimale t-Test nur wenig besser als der Wilcoxon-VorzeichenRangtest. Sind die Daten nicht normalverteilt, ist der Wilcoxon-VorzeichenRangtest dem t-Test an Effizienz u ¨ berlegen.

5.4 Test auf Zuf¨ alligkeit - Wald-Wolfowitz-Test

141

5.4 Test auf Zuf¨ alligkeit - Wald-Wolfowitz-Test In der klassischen wie auch der nichtparametrischen Statistik werden h¨ aufig Verfahren verwendet, welche die Unabh¨angigkeit der zu Grunde liegenden Daten voraussetzen. Meist ist diese Voraussetzung durch eine saubere Datenerhebung a priori gegeben, aber die Unabh¨ angigkeit der Ziehungen kann auch getestet werden. Die Nullhypothese ist die Zuf¨ alligkeit (Unabh¨ angigkeit der Ziehungen) und die Anzahl der so genannten Runs dient als Teststatistik. Die Anzahl der Runs (Iterationen, Sequenzen) bezeichnet die Anzahl der Folgen von gleichen Merkmalsauspr¨ agungen, die Reihenfolge (A, B, B, B, A, A, B) hat somit vier Runs. Vorausgesetzt wird eine dichotome Variable, deren Anordnung an Auspr¨ agungen eindeutig sein muss. Beim zweiseitigen Testen lautet die Alternativhypothese nicht zuf¨ allige Ziehung“, einseitig kann getestet werden, ” ob auff¨ allig viele oder auff¨ allig wenig Iterationen vorkommen. Beides spricht gegen die Annahme, dass die Anordnung zuf¨ allig ist. Beispiel 5.21. M¨ unzwurf Bei 10 W¨ urfen wurden folgende Ergebnisse erzielt: K K K K Z Z Z Z Z K. Es soll auf einem Niveau von α = 0.05 die Fairness der M¨ unze getestet werden (genauer gesagt soll getestet werden, ob dieses Ergebnis aus zuf¨alligen W¨ urfen entstanden ist). Der Test auf Zuf¨ alligkeit ben¨ otigt nur sehr wenige Voraussetzungen. Die Variablen m¨ ussen dichotom sein oder dichotomisiert werden, beispielsweise mit dem Mittelwert oder Median als Trennwert. Werte, die exakt dem Trennwert entsprechen, werden aus der Betrachtung ausgeklammert. Durch das Dichotomisieren und Entfernen von Werten entsteht nat¨ urlich ein Informationsverlust, der die Qualit¨ at des Tests vermindert. ¨ Die Verteilung der Teststatistik l¨ asst sich durch kombinatorische Uberlegungen herleiten. Allgemein liegt eine Stichprobe mit N = n + m Elementen vor, wobei n Elemente eine bestimmte Auspr¨agung (z.b. Kopf) und m Elemente die andere Auspr¨ agung (z.B. Zahl) besitzen. Bei zuf¨alliger Ziehung sollte die Anzahl R der Iterationen nicht zu groß und nicht zu klein sein. Eine Wurf mit den Ergebnissen K K K K K Z Z Z Z Z (2 Iterationen) ist sehr ungew¨ohnlich bei zuf¨ alligen W¨ urfen, aber auch die perfekte Abwechslung“ K Z K Z K Z K ” Z K Z (10 Iterationen) erscheint verd¨ achtig. Teststatistik Die zu Grunde liegende Teststatistik R ist die Anzahl der Runs. Die Verteilung dieser Teststatistik leitet sich aus Anzahl aller M¨oglichkeiten der Anordnung her:

142

5 Einstichprobenprobleme

  m+n m+n A= = m n Mit diesem Ansatzpunkt kann die Wahrscheinlichkeit r Iterationen zu beobachten hergeleitet werden: •

r ist eine gerade Zahl (k = 2r )

  m−1 n−1 1 2 P r(R = r) =  m+n k−1 k−1 m



r ist eine ungerade Zahl (k = r−1 2 )      1 m−1 n−1 m−1 n−1 + P r(R = r) =  m+n k k−1 k−1 k m

Ab (n, m) > 20 kann die Verteilung der Runs durch eine Normalverteilung approximiert werden, mit den Parametern (n + m = N ): 2nm +1 N 2nm (2nm − N ) V ar (R) = N 2 (N − 1) E (R) =

Wald-Wolfowitz-Test (= Iterationstest, Runs-Test, Test auf Zuf¨alligkeit) •

Zweiseitige Hypothesen allige Reihenfolge der Ziehungen H0 : Zuf¨ H1 : Keine zuf¨allige Reihenfolge der Ziehungen



Einseitige Hypothesen, Fall A allige Reihenfolge der Ziehungen H0 : Zuf¨ H1 : zu wenig Iterationen



Einseitige Hypothesen, Fall B allige Reihenfolge der Ziehungen H0 : Zuf¨ H1 : zu viele Iterationen

5.4 Test auf Zuf¨ alligkeit - Wald-Wolfowitz-Test

143

Testentscheidung (kritische Werte in Tabelle 11.7) •

Zweiseitiger Test: H0 ablehnen, falls R < rα/2 oder R > r1−α/2



Einseitiger Test, Fall A: H0 ablehnen, falls R < rα



Einseitiger Test, Fall B: H0 ablehnen, falls R > r1−α

Beispiel 5.22. M¨ unzwurf Bei 10 W¨ urfen wurden folgende Ergebnisse erzielt: K K K K Z Z Z Z Z K. Es ist auf einem Niveau von α = 0.05 zu testen, ob zu wenige Iterationen f¨ ur eine Zuf¨ alligkeit vorliegen (Fall A). Es liegen r = 3 Iterationen vor, der kritische Werte aus der Tabelle 11.7 ist r0.05 = 4, demnach ist die Nullhypothese der Zuf¨ alligkeit abzulehnen, es liegen zu wenige Iterationen vor. ¨ Alternativ dazu f¨ uhrt auch folgende Uberlegung zum gleichen Testergebnis: Der exakte p-Wert wird berechnet als Wahrscheinlichkeit, unter der Nullhypothese dieses oder ein noch selteneres Ergebnis zu erhalten und betr¨agt damit: P r(R ≤ 3) =

3 

P r(R = r) = 0.00794 + 0.03175 = 0.0317

r=2

Da dieser Wert kleiner ist als das vorher festgelegte Signifikanzniveau von α = 0.05 wird die Nullhypothese abgelehnt. Der Iterationstest ist in SAS nicht implementiert.

Beispiel 5.23. M¨ unzwurf in R (Fortsetzung von Beispiel 5.22) Der Iterationstest von Wald-Wolfowitz ist im Paket lawstat implementiert. Muenze=c(0,0,0,0,1,1,1,1,1,0) library(lawstat) runs.test(Muenze, alternative="positive.correlated") Die Daten m¨ ussen in numerischer Form eingegeben werden, die Kodierung selbst ist aber unerheblich, d.h. man h¨ atte mit der Kodierung Kopf = 1 und Zahl = 0 das gleiche Ergebnis erhalten. Die einseitige Alternative positive.correlated entspricht unabh¨ angig von der Kodierung immer dem Fall A (zu wenig Iterationen). Es werden nur die mit der Normalverteilung approximierten Werte ausgegeben, in unserem Fall Z = −2.0125 und als p-Wert 0.02209. Auch mit den approximierten Werten kann die Nullhypothese der Zuf¨ alligkeit verworfen werden.

144

5 Einstichprobenprobleme

¨ 5.5 Ubersicht Tests f¨ ur Einstichprobenprobleme ¨ In dieser Ubersicht werden die vorgestellten Tests f¨ ur Einstichprobenprobleme zusammengefasst, mit Ausnahme der Tests auf Verteilungsanpassung, die in Abschnitt 5.1.7 bereits zusammengefasst wurden. Binomialtest Voraussetzungen: dichotomisierte, unabh¨ angige und identisch verteilte Daten Testproblem: Anteile bzw. Wahrscheinlichkeiten Teststatistik: Anzahl interessierender, eingetretener Ereignisse Eigenschaften: Teststatistik binomialverteilt Bn,p Teststatistik f¨ ur große Stichproben approximativ normalverteilt G¨ ute f¨ ur jede Alternativhypothese exakt berechenbar konsistent (Kendall, M.G. und Stuart, 1979) einseitige Tests: gleichm¨ aßig beste Tests (Witting, H., 1974) Spezialfall: Test von Quantilen Teststatistik: Anzahl Stichprobenelemente ≤ p-Quantil qp

Vorzeichentest Voraussetzungen: unabh¨ angige und identisch verteilte Daten metrische Daten (in Praxis ordinale Daten) stetige Verteilungsfunktion (in Praxis nicht zwingend) symmetrische Verteilungsfunktion Testproblem: Einstichprobentest Lage Teststatistik: Anzahl der positiven Abweichungen (vom Lageparameter θ0 ) Eigenschaften: Linearer Rangtest, Spezialfall des Binomialtests Eigenschaften wie Binomialtest konsistent und unverf¨ alscht einseitige Tests: gleichm¨ aßig beste Tests zweiseitiger Test: gleichm¨aßig bester unverf¨ alschter Test (vgl. Hettmansperger, T.P. (1991), B¨ uning, H. und Trenkler (1994))

5.6 Konfidenzbereiche

145

Wilcoxon-Vorzeichen-Rangtest Voraussetzungen: unabh¨ angige und identisch verteilte Daten metrische Daten symmetrische stetige Verteilungsfunktion Testproblem: Einstichprobentest Lage Teststatistik: Rangsumme der positiven Abweichungen von Θ0 Eigenschaften: Linearer Rangtest Spezielle Verteilung (Tabelle 11.6) Teststatistik f¨ ur große Stichproben approximativ normalverteilt konsistent f¨ ur gewisse Alternativen (Gibbons, J. D. und Chakraborti (1992), Noether, G.E. (1967)) einseitiger Test unverf¨alscht f¨ ur bestimmte Alternativen (Lehmann, E.L. und D’Abrera (1975)) dem Vorzeichentest vorzuziehen, Ausnahme: Starke Tails Wald-Wolfowitz-Test Voraussetzungen: dichotomes oder dichotomisiertes Merkmal jedes Skalenniveau zul¨ assig Testproblem: Test auf Zuf¨ alligkeit Teststatistik: Anzahl der Sequenzen Eigenschaften: Spezielle Verteilung Teststatistik f¨ ur große Stichproben approximativ normalverteilt

5.6 Konfidenzbereiche ¨ Ublicherweise wird der zentrale Grenzwertsatz und damit die Normalverteilung zur Ermittlung eines Konfidenzintervalls eines unbekannten Parameters herangezogen. In diesem Abschnitt werden verteilungsfreie Alternativen vorgestellt. Ein Konfidenzbereich u ¨ berdeckt einen (unbekannten) Parameter (bzw. die theoretische Verteilungsfunktion) der Grundgesamtheit mit der Wahrscheinlichkeit 1 − α. Nichtparametrische zweiseitige Konfidenzbereiche werden hier

146

5 Einstichprobenprobleme

f¨ ur die Verteilungsfunktion und f¨ ur Anteile bzw. Wahrscheinlichkeiten p von dichotomen Merkmalen angegeben. F¨ ur die Bestimmung eines Konfidenzintervalls f¨ ur den Median sei auf Abschnitt 4.6 verwiesen.

5.6.1 Konfidenzbereich f¨ ur die Verteilungsfunktion Ein Konfidenzband f¨ ur die Verteilungsfunktion kann mit Hilfe der KolmogorovSmirnov-Statistik angegeben werden. Man geht so vor, dass man von der empirischen Verteilungsfunktion das (1 − α)-Quantil der Kolmogorov-SmirnovStatistik subtrahiert beziehungsweise addiert, unter der Nebenbedingung dass das Band immer noch zwischen 0 und 1 liegt (Definitionsbereich einer Verteilungsfunktion). Konfidenzbereich f¨ ur die Verteilungsfunktion P r (Un (x) ≤ F (x) ≤ On (x)) = 1 − α Un (x) = max (0, Fn (x) − k1−α ) On (x) = min (1, Fn (x) + k1−α ) Das Quantil der K-S-Statistik k1−α ist dabei definiert als P r (Kn = sup |F (x) − Fn (x)| ≤ k1−α ) = 1 − α und kann aus Tabelle 11.4 entnommen werden. Beispiel 5.24. Konfidenzbereich f¨ ur die Verteilungsfunktion ¨ Bei einem Stichprobenumfang von n = 15 und einer erw¨ unschten Uberdeckungswahrscheinlichkeit von 1 − α = 0.90 ist aus der Tabelle das Quantil k1−α = 0.304 abzulesen. Mit 90%iger Sicherheit u ¨ berdeckt der Bereich [Fn (x) − 0.304; Fn (x) + 0.304] die Verteilungsfunktion der Grundgesamtheit.

5.6.2 Konfidenzintervall f¨ ur einen Anteil (bzw. Wahrscheinlichkeit) Gegeben sei eine Stichprobe vom Umfang n, dabei geh¨ oren a Elemente einer bestimmten Gruppe an ( markiert“) und die restlichen n−a Elemente geh¨oren ” dieser Gruppe nicht an. Ziel ist es aufgrund dieser Stichprobe ein Konfidenzintervall [pu , po ] zum Niveau 1 − α f¨ ur den Anteil p der markierten Objekte in der Grundgesamtheit zu berechnen (bzw. f¨ ur die Wahrscheinlichkeit p).

5.6 Konfidenzbereiche

147

Konfidenzintervall f¨ ur einen Anteil P r (pu ≤ p ≤ po ) = 1 − α mit pu (Untergrenze) und po (Obergrenze) so, dass n   n i pu (1 − pu )n−i = α1 i i=a a   n i p (1 − po )n−i = α2 i o i=0

α1 + α2 = α Die beiden Gleichungen zur Bestimmung der Intervallgrenzen sind eindeutig l¨ osbar, allerdings ist in fast allen F¨allen die L¨ osung nicht als Formel darstellbar, so dass man hier auf numerische Verfahren zur¨ uckgreifen muss. F¨ ur kleine Stichprobenumf¨ ange sind Intervallgrenzen f¨ ur den Spezialfall α1 = α2 = α/2 z.b. bei Hald (1952) tabelliert, f¨ ur große Stichprobenumf¨ ange (nˆ p > 10 und n(1 − pˆ) > 10 mit pˆ = a/n) kann die Binomialverteilung durch eine Normalverteilung approximiert werden: Konfidenzintervall f¨ ur einen Anteil Normalverteilungsapproximation  pu = pˆ − z1−α/2 

pˆ(1 − pˆ) n

pˆ(1 − pˆ) n Quantil der Standardnormalverteilung (Tabelle 11.1) po = pˆ + z1−α/2

z1−α/2

Beispiel 5.25. Konfidenzintervall f¨ ur einen Anteil (mit R) In einer 10 Personen umfassenden Stichprobe wurde unter anderem das Geschlecht erhoben: 4 Personen waren weiblich, 6 Personen m¨ annlich. Bestimmen Sie ein 90%iges Konfidenzintervall f¨ ur den Frauenanteil der Grundgesamtheit. Mit a = 4 und n − 4 = 6 kann aus der Tabelle in Hald (1952) das Intervall [0.122, 0.738] abgelesen werden. In R kann im Paket binom die Funktion binom.confint(4,10) verwendet werden. Mit der Option methods="exact" erh¨alt man das angegebene Intervall. W¨ ahlt man als Option methods="all" (Voreinstellung) sieht man, dass in R insgesamt 11 verschiedene Methoden zur Bestimmung von Konfidenzintervallen implementiert sind.

148

5 Einstichprobenprobleme

¨ Ubungsaufgaben Aufgabe 5.1. Arbeitslosigkeit Durch eine Befragung von 10 arbeitslosen Personen wurde die Dauer ihrer Arbeitslosigkeit in Monaten mit folgendem Ergebnis festgestellt: 2 20 15 2 48 6 4 14 3 7 a) Testen Sie, ob das Merkmal Dauer der Arbeitslosigkeit (in Monaten) exponentialverteilt mit Erwartungswert = 1 Jahr ist. b) Erstellen Sie eine Grafik mit der empirischen und theoretischen Verteilung. c) Berechnen Sie einen Konfidenzbereich f¨ ur die Verteilungsfunktion in der Grundgesamtheit. d) Testen Sie, ob das Merkmal Dauer der Arbeitslosigkeit (in Monaten) normalverteilt ist.

Aufgabe 5.2. W¨ urfel Ein W¨ urfel wurde 42mal geworfen und die Augenzahlen mit folgendem Ergebnis notiert: 6 Einser, 5 Zweier, 8 Dreier, 10 Vierer, 6 F¨ unfer, 7 Sechser. a) Testen Sie die Fairness des W¨ urfels. b) Erstellen Sie eine Grafik mit der empirischen und theoretischen Verteilung. c) Testen Sie, ob das Merkmal Augenzahl normalverteilt ist.

Aufgabe 5.3. Experiment Im Rahmen eines Experimentes wurden 50 Messwerte in cm erhoben. Pr¨ ufen Sie, ob die Daten normalverteilt sind. Stellen Sie außerdem die theoretische und empirische Verteilungsfunktion grafisch mit R und SAS dar. 40 125 240 160 115

110 145 140 90 85

50 65 120 160 80

140 75 40 50 20

115 70 90 690 110

190 125 135 125 235

10 80 130 220 60

215 60 160 360 220

90 70 185 280 160

175 185 250 145 55

Aufgabe 5.4. W¨ ahlerInnenanteil ¨ ahlerInnen 35%. In Bei der letzten Wahl betrug der Anteil p der XPO-W¨ der vergangenen Legislaturperiode wurde intensiv gearbeitet. Vor dem finalen Wahlkampf m¨ ochte die Partei wissen, ob der Anteil ihrer W¨ahlerInnen gestiegen ist. Von 15 befragten Personen gaben 40% an, dass sie bei der n¨achsten ¨ geben werden. Wahl die Stimme der XPO

¨ Ubungsaufgaben

149

Aufgabe 5.5. Induktion Beweisen Sie durch Induktion: n  i = n(n + 1)/2 i=0 n 

i2 = n(n + 1)(2n + 1)/6

i=0

Aufgabe 5.6. Vorzeichentest F¨ uhren Sie das Beispiel mit den Noten der Sch¨ ulerInnen (Beispiel 5.15) erneut durch, ignorieren Sie aber dieses Mal die Personen mit der Note 2 nicht. Verwenden Sie statt dessen eine Zufallszahl, um zu entscheiden, ob jemand mit der Note 2 besser oder schlechter als der zu testende Median 2 ist.

Aufgabe 5.7. Wilcoxon-Vorzeichen-Rangtest Simulieren Sie in R und SAS 20 normalverteilte Zufallszahlen N (3, 1) und f¨ uhren Sie einen zweiseitigen Wilcoxon-Vorzeichen-Rangtest zu folgenden Nullhypothesen durch und vergleichen Sie die Ergebnisse. •

H0 : µ = 2



H0 : µ = 2.5



H0 : µ = 3

F¨ uhren Sie die Aufgabe mit 100 (500) Zufallszahlen noch einmal durch und vergleichen Sie wieder die Ergebnisse. F¨ uhren Sie auch alle Aufgabenstellungen mit einem t-Test durch und vergleichen Sie die Ergebnisse.

Aufgabe 5.8. Fairness einer M¨ unze Werfen Sie eine M¨ unze 20mal. Testen Sie auf einem Niveau von α = 0.05, ob die M¨ unze fair ist. F¨ uhren Sie danach das gleiche Experiment mit einer anderen M¨ unze durch. Wiederholen Sie beide Experimente mit unterschiedlichen Stichprobenumf¨ angen. Verwenden Sie f¨ ur diese Fragestellung folgende Tests: a) Test auf Zuf¨ alligkeit - Wald-Wolfowitz-Test. b) Chi-Quadrat-Test. d) Binomialtest.

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Ausgangspunkt sind zwei unabh¨ angige Stichprobenvariablen X1 , . . . , Xm und Y1 , . . . , Yn mit unbekannten stetigen Verteilungsfunktionen F und G. F (z) = P r(Xi ≤ z)

f¨ ur

i = 1, . . . , m

G(z) = P r(Yj ≤ z)

f¨ ur

j = 1, . . . , n

In diesem Kapitel werden Tests vorgestellt, die u ¨ berpr¨ ufen, ob diese beiden Verteilungsfunktionen gleich sind oder nicht. Damit ergeben sich folgende Fragestellungen in allgemeiner Form •

Zweiseitiger Test H0 : F (z) = G(z) f¨ ur alle z ∈ R H1 : F (z) = G(z) f¨ ur mindestens ein z ∈ R



Einseitiger Test, Fall A: X stochastisch gr¨ oßer als Y H0 : F (z) ≥ G(z) f¨ ur alle z ∈ R H1 : F (z) < G(z) f¨ ur mindestens ein z ∈ R



Einseitiger Test, Fall B: Y stochastisch gr¨ oßer als X H0 : F (z) ≤ G(z) f¨ ur alle z ∈ R H1 : F (z) > G(z) f¨ ur mindestens ein z ∈ R

Im Fall, dass F und G Normalverteilungen sind, w¨ urde man die Erwartungswerte bei gleichen Varianzen mit einem t-Test vergleichen und die Homogenit¨at der Varianzen mit einem F-Test untersuchen. Dieses Kapitel stellt damit unter anderem die nichtparametrischen Gegenst¨ ucke zu einem Zweistichproben-t-Test und zum F-Test vor.

152

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Die allgemeinen Fragestellungen k¨ onnen genauer spezifiziert werden, je nach dem, was genau verglichen wird: •





Verteilungsfunktionen – Iterationstest von Wald-Wolfowitz – Kolmogorov-Smirnov-Test – Cram´er-von-Mises-Test Lageparameter – Wilcoxon-Rangsummentest – Mann-Whitney-U-Test – van der Waerden XN -Test – Median-Test Variabilit¨ atsparameter – Siegel-Tukey-Test – Mood-Test – Ansari-Bradley-Test – Moses-Test

6.1 Tests auf Verteilungsanpassung In diesem Abschnitt werden eher unspezifische Signifikanztests beschrieben, die nur ein Urteil dar¨ uber erlauben, ob zwei Verteilungen gleich sind oder nicht. Solche allgemeinen Tests werden als Omnibus-Tests bezeichnet, sollten aber nur dann verwendet werden, wenn keine speziellen Vermutungen (z.B. Unterschiede bez¨ uglich Lage oder Variabilit¨ at) vorliegen.

6.1.1 Iterationstest von Wald-Wolfowitz Der Iterationstest von Wald-Wolfowitz ist das Analogon f¨ ur zwei unabh¨ angige Stichproben zum Wald-Wolfowitz-Test auf Zuf¨ alligkeit, der in Kapitel 5.4 beschrieben wurde. Getestet wird die Nullhypothese, dass zwei Stichproben aus der gleichen Verteilung stammen, gegen die Alternativhypothese, dass sich die beiden Stichproben unterscheiden. Von welcher Art dieser Unterschied (Lage, Variabilit¨ at, Schiefe) konkret ist, dar¨ uber liefert dieser Test keine Aussage. Dieser Test wird auch als Run-Test, Runs-Test, Sequenztest, Wald-WolfowitzTest oder Iterationstest bezeichnet. Voraussetzungen Iterationstest 1. Daten besitzen mindestens ordinales Messniveau. 2. Die Stichprobenvariablen sind unabh¨ angig. 3. Die Stichprobenvariablen haben stetige Verteilungsfunktionen.

6.1 Tests auf Verteilungsanpassung

153

Ausgangspunkt sind zwei unabh¨ angige Stichprobenvariablen X1 , . . . , Xm und Y1 , . . . , Yn mit unbekannten stetigen Verteilungsfunktionen F und G. F (z) = P r(Xi ≤ z)

f¨ ur

i = 1, . . . , m

G(z) = P r(Yj ≤ z)

f¨ ur

j = 1, . . . , n

Hypothesen Iterationstest H0 : F(z) = G(z) f¨ ur alle z ∈ R H1 : F(z) =  G(z) f¨ ur mindestens ein z ∈ R Seien nun zwei unabh¨ angige Stichproben X und Y vom Stichprobenumfang m und n gegeben, so ist der erste Schritt die Bildung einer gemeinsamen geordneten Stichprobe. Die Datenpunkte werden ersetzt durch x und y, je nachdem, aus welcher konkreten Stichprobe der Datenpunkt stammt. Danach wird die Anzahl r der Iterationen (runs) in dieser geordneten Reihe festgestellt. Beispiel 6.1. Bestimmung der Iterationszahl F¨ ur Gruppe A wurden folgende Werte beobachtet: 13, 7, 6, 15 F¨ ur Gruppe B wurden folgende Werte beobachtet: 12, 3, 5 Bildung der gemeinsamen geordneten Stichprobe: Beobachtung Gruppe

3 B

5 B

6 A

7 A

12 B

13 A

15 A

Es sind 4 Sequenzen (Iterationen) in der geordneten Stichprobe vorhanden. Wenn die beiden Stichproben aus einer Verteilung stammen (also unter der Nullhypothese), sollten die R¨ ange der beiden Stichproben gut durchmischt und daher die Anzahl R der Iterationen relativ hoch sein. Stammen die beiden Stichproben aus Grundgesamtheiten mit unterschiedlichen Medianen, wobei der Median in der Gruppe B h¨ oher ist als der Median in der Gruppe A, so wird am Anfang der geordneten gemeinsamen Rangreihe eine lange Sequenz von Werten aus der Gruppe A sein und eine lange Sequenz von Werten aus der Gruppe B am Ende der Rangreihe. Die Anzahl R der Iterationen ist ¨ dann entsprechend gering. Ahnliches gilt auch, wenn die beiden Stichproben aus Grundgesamtheiten mit unterschiedlicher Varianz, Schiefe, usw. gezogen worden sind. Teststatistik Iterationstest Die zu Grunde liegende Teststatistik R ist die Anzahl der Sequenzen. Die Verteilung dieser Teststatistik leitet sich aus Anzahl aller m¨ oglichen Permutationen der Stichproben m und n her:

154

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

  m+n m+n A= = m n Mit diesem Ansatzpunkt kann die Wahrscheinlichkeit r Iterationen zu beobachten hergeleitet werden: •

r ist eine gerade Zahl (k = 2r )

  m−1 n−1 1 2 P r(R = r) =  m+n k−1 k−1 m



r ist eine ungerade Zahl (k = r−1 2 )      m−1 n−1 m−1 n−1 1 + P r(R = r) =  m+n k k−1 k−1 k m

Ist m oder n gr¨ oßer als 20, kann durch die Normalverteilung approximiert werden, der Wert z ist asymptotisch standardnormalverteilt:  2mn(2mn − m − n) 2mn +1 σr = µr = m+n (m + n)2 (m + n − 1) z=

r − µr σr

Testentscheidung Iterationstest Die Nullhypothese wird abgelehnt, wenn die Teststatistik R kleiner als der kritische Wert ra ist (vgl. Tabelle 11.7). Da eine stetige Verteilung unterstellt ist, k¨onnen Bindungen theoretisch nicht auftreten. In der Praxis kann man aber das Auftreten von Bindungen nicht immer ausschließen. Treten die Bindungen nur innerhalb der Gruppen auf, spielen sie keine Rolle. Treten sie aber zwischen den beiden Gruppen auf, spielen sie sehr wohl eine Rolle. In diesem Fall m¨ ussen alle m¨oglichen Permutationen der gemeinsamen Rangreihe gebildet werden und f¨ ur jede einzelne Permutation wird die Anzahl r der Iterationen berechnet. Nur wenn alle Werte f¨ ur die Teststatistik R signifikant sind, wird die Nullhypothese abgelehnt. Diese Vorgehensweise f¨ uhrt zu einem konservativen Test. Ist die Anzahl der Bindungen gr¨ oßer als die Anzahl der Iterationen darf der Wald-Wolfowitz-Test nicht verwendet werden.

6.1 Tests auf Verteilungsanpassung

155

Beispiel 6.2. Motivation f¨ ur das Erlernen einer Fremdsprache Es wurden 2 Gruppen von jeweils 8 Personen gebeten, ihre Motivation f¨ ur das Erlernen einer Fremdsprache auf einer 10stufigen Skala anzugeben. Das Alter der Gruppe J bewegte sich zwischen 20 und 25 Jahren, w¨ ahrend in der anderen Gruppe A das Alter in einem Rahmen zwischen 30 und 35 Jahren lag. Die Fragestellung ist nun, ob sich diese beiden Personengruppen bez¨ uglich ihrer Motivation zu einem vorgegebenem Signifikanzniveau von α = 0.05 unterscheiden. Gruppe J Gruppe A

8 3

6 3

6 2

6 9

10 1

6 9

10 9

4 1

Da die Bindungen nur innerhalb der einzelnen Gruppen vorliegen, spielen sie f¨ ur die weitere Vorgehensweise keine Rolle. Zuerst bildet man die geordnete Stichprobe und weist die Gruppenbezeichnungen zu

Beobachtung 1 1 2 3 3 4 6 6 6 6 8 9 9 9 10 10 Gruppe A A A A A J J J J J J A A A J J

Es liegen 4 Iterationen vor. Nach dem Vergleich mit dem Tabellenwert r0.05 = 6 (Tabelle 11.7, m = n = 8) ist daher die Nullhypothese abzulehnen, die Motivation der Gruppen ist unterschiedlich. ¨ Alternativ dazu f¨ uhrt auch folgende Uberlegung zum gleichen Testergebnis: Der exakte p-Wert wird berechnet als Wahrscheinlichkeit, unter der Nullhypothese dieses oder ein noch selteneres Ergebnis zu erhalten und betr¨agt damit: P r(R ≤ 4) =

4 

P r(R = r) = 0.0002 + 0.0011 + 0.0076 = 0.0089

r=2

Da dieser Wert kleiner ist als das vorher festgelegte Signifikanzniveau von α = 0.05 wird die Nullhypothese abgelehnt. Der Wald-Wolfowitz-Test ist in SAS nicht implementiert. Beispiel 6.3. Motivation f¨ ur das Erlernen einer Fremdsprache in R (Fortsetzung von Beispiel 6.3) Der Iterationstest kann analog zum Einstichprobenfall durchgef¨ uhrt werden sofern die gemeinsam geordnete Stichprobe vorliegt (vgl. Beispiel 5.23). Es werden nur die mit der Normalverteilung approximierten Werte ausgegeben, in unserem Fall Z = −2.5877 und als p-Wert 0.00483. Auch mit den approximierten Werten kann die Nullhypothese (gleiche Verteilung) verworfen werden.

156

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

6.1.2 Kolmogorov-Smirnov-Test Der Kolmogorov-Smirnov-Test ist ein weiterer Omnibus-Test, der u ¨ berpr¨ uft, ob zwei unabh¨ angige Stichproben aus der gleichen Grundgesamtheit bzw. aus ¨ Grundgesamtheiten mit gleicher Verteilung stammen oder nicht. Ahnlich wie beim Einstichprobenfall wird die maximale Differenz der Verteilungsfunktionen als Teststatistik verwendet, allerdings dienen nun die beiden empirischen Verteilungsfunktionen als Grundlage. Voraussetzungen 1. Daten besitzen mindestens ordinales Messniveau. 2. Die Stichprobenvariablen sind unabh¨ angig. 3. Die Stichprobenvariablen haben stetige Verteilungsfunktionen. Ausgangspunkt sind zwei unabh¨ angige Stichprobenvariablen X1 , . . . , Xm und Y1 , . . . , Yn mit unbekannten stetigen Verteilungsfunktionen F und G. F (z) = P r(Xi ≤ z)

f¨ ur

i = 1, . . . , m

G(z) = P r(Yj ≤ z)

f¨ ur

j = 1, . . . , n

Im Gegensatz zum Iterationstest von Wald-Wolfowitz kann nun auch einseitig getestet werden: Zweiseitige Hypothesen H0 : F(z) = G(z) f¨ ur alle z ∈ R H1 : F(z) = G(z) f¨ ur mindestens ein z ∈ R Einseitiger Test, Fall A: X stochastisch gr¨ oßer als Y ur alle z ∈ R H0 : F (z) ≥ G(z) f¨ H1 : F (z) < G(z) f¨ ur mindestens ein z ∈ R Einseitiger Test, Fall B: Y stochastisch gr¨ oßer als X ur alle z ∈ R H0 : F (z) ≤ G(z) f¨ H1 : F (z) > G(z) f¨ ur mindestens ein z ∈ R Die Teststatistik beruht auf der Differenz der beiden empirischen Verteilungsfunktionen. Daher werden zun¨ achst die empirischen Verteilungsfunktionen Fm und Gn der beiden Stichproben zu jedem Wert aus der Stichprobe bestimmt.  f¨ ur z < x(1)  0 ur x(i) ≤ z < x(i+1) i = 1, 2, . . . , m − 1 Fm (z) = i/m f¨   1 f¨ ur z ≥ x(m)

6.1 Tests auf Verteilungsanpassung

 f¨ ur z < y(1)  0 ur y(j) ≤ z < y(j+1) Gn (z) = j/n f¨   1 f¨ ur z ≥ y(n)

157

j = 1, 2, . . . , n − 1

Im n¨achsten Schritt werden die Differenzen der Verteilungsfunktionen gebildet. Als Teststatistik K wird die maximale Differenz der beiden empirischen Verteilungsfunktionen verwendet. Je nach Test verwendet man: Teststatistik K-S-Test Je nach Alternativhypothese •

H1 : F (z) = G(z)

K = max |Fm (z) − Gn (z)|



H1 : F (z) < G(z)

K = max (Gn (z) − Fm (z))

(Fall A)



H1 : F (z) > G(z)

K = max (Fm (z) − Gn (z))

(Fall B)

Die Testentscheidung wird mittels der tabellierten Quantile der Verteilung der Kolmogorov-Smirnov-Teststatistik (= kritische Werte kp ) getroffen (vgl. Tabelle 11.8 f¨ ur m = n und Tabelle 11.9 f¨ ur m = n). Unter der Nullhypothese sind kleine Werte der Teststatistik zu erwarten. Kritische Werte kp (Tabelle 11.8 (m = n) und 11.9 (m = n)) Je nach Testproblem verwendet man als kritischen Wert • •

kp = k1−α im zweiseitigen Fall kp = k1−2α in den beiden einseitigen F¨allen

Testentscheidung oßer als der kritische Wert H0 wird abgelehnt, wenn die Teststatistik K gr¨ kp ist.

Beispiel 6.4. L¨ ange von Bambuspflanzen An zwei verschiedenen Orten X und Y wurden die L¨ angen von Bambuspflanzen (in Zentimeter) gemessen. Sind die Verteilungen der L¨ angen dieser Bambuspflanzen zu einem Signifikanzniveau von α = 0.05 identisch oder nicht? Ort X

121

122

124

126

127

129

Ort Y

113

114

116

117

118

119

120

123

158

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Es m¨ ussen zuerst die empirischen Verteilungsfunktionen und die absoluten Differenzen zwischen den Verteilungsfunktionen gebildet werden. Intervalle

Fm

Gn

Absolute Differenz

(∞; 113] (113; 114] (114; 116] (116; 117] (117; 118] (118; 119] (119; 120] (120; 121] (121; 122] (122; 123] (123; 124] (124; 126] (126; 127] (127; 129]

0 0 0 0 0 0 0 0.167 0.333 0.333 0.500 0.667 0.833 1.000

0.125 0.250 0.375 0.500 0.625 0.750 0.875 0.875 0.875 1.000 1.000 1.000 1.000 1.000

0.125 0.250 0.375 0.500 0.625 0.750 0.875 0.708 0.542 0.667 0.500 0.333 0.167 0.000

Die maximale Differenz betr¨ agt 0.875 und der tabellierte kritische Wert (zweiseitig) lautet k0.95 ≈ 0.667 (Tabelle 11.9, m = 6, n = 8). Aus diesem Grund muss die Nullhypothese verworfen werden und man kann schließen, dass die L¨ angen der Bambuspflanzen aus unterschiedlichen Verteilungen stammen. Der Kolmogorov-Smirnov-Test weist eine h¨ohere G¨ ute als der Iterationstest von Wald-Wolfowitz auf. Liegt aber eine Vermutung bez¨ uglich eines Lageoder Skalenunterschiedes vor, gibt es bessere Testverfahren (vgl. Abschnitt 6.3 und 6.4). Die Berechnung der empirischen Verteilungsfunktion und die Bestimmung der maximalen Differenz sind auch beim Auftreten von Bindungen wohl definiert. Der Test verliert jedoch an G¨ ute und wird konservativer. Beispiel 6.5. L¨ ange von Bambuspflanzen in SAS (Fortsetzung von Beispiel 6.4) Der Kolmogorov-Smirnov-Test wird in SAS mit der Prozedur NPAR1WAY durchgef¨ uhrt. Zun¨ achst werden die Daten des obigen Beispiels in SAS eingegeben: DATA Bambus; INPUT Ort$ Laenge; DATALINES; X 121 .. ... Y 123 ; RUN;

6.1 Tests auf Verteilungsanpassung

159

Danach wird die Prozedur aufgerufen, die Gruppierungsvariable wird im CLASS-Statement angegeben. Durch die Option EDF werden nur Tests auf Basis der empirischen Verteilungsfunktion durchgef¨ uhrt. Durch die Option EXACT KS; wird der exakte p-Wert der Teststatistik K angefordert. PROC NPAR1WAY DATA=Bambus EDF; CLASS Ort; VAR Laenge; EXACT KS; RUN; Im Ergebnis findet man die Teststatistik unter der Bezeichnung D. Kolmogorov-Smirnov Zwei-Stichprobentest D = max |F1 - F2| 0.8750 Asymptotische Pr > D 0.0105 Exakte Pr >= D 0.0047 Da der exakte p-Wert kleiner als das verwendete Signifikanzniveau von 0.05 ist, wird die Nullhypothese verworfen. F¨ ugt man im Prozeduraufruf die Option D hinzu, so werden auch die beiden einseitigen Teststatistiken (D− , D+ ) und deren p-Werte berechnet. D− ist die einseitige Teststatistik im Fall A (X stochastisch gr¨oßer als Y ), D+ im Fall B (Y stochastisch gr¨ oßer als X). Auch im einseitigen Fall wird f¨ ur die Testentscheidung der p-Wert mit dem Signifikanzniveau verglichen. Da im Fall A p = 0.0023 < 0.05 ist, wird die Nullhypothese verworfen. Vereinfacht formuliert sind am Ort X die Bambuspflanzen l¨ anger als am Ort Y (X stochastisch gr¨ oßer als Y ). Beispiel 6.6. L¨ ange von Bambuspflanzen in R (Fortsetzung von Beispiel 6.4) Der Kolmogorov-Smirnov-Test wird in R mit dem Befehl ks.test durchgef¨ uhrt. Mit der Option alternative=’two.sided|less|greater’ kann der Test zweiseitig oder einseitig durchgef¨ uhrt werden (less entspricht Fall A). Die Syntax lautet somit: x=c(121,122,124,126,127,129) y=c(113,114,116,117,118,119,120,123) ks.test(x, y, alternative="two.sided", exact = TRUE) Bei den Ergebnissen ist zu beachten, dass der einseitige Test nur die approximierten p-Werte berechnet, der zweiseitige Test kann auch exakt gerechnet werden. Die Nullhypothese wird auch hier abgelehnt (p = 0.004662).

160

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

6.1.3 Cram´ er-von-Mises-Test Der Cram´er-von-Mises-Test u ¨ berpr¨ uft wie der Kolmogorov-Smirnov-Test, ob zwei unabh¨ angige Stichproben aus der gleichen Grundgesamtheit (bzw. aus Grundgesamtheiten mit gleicher Verteilung) stammen oder nicht. Voraussetzungen 1. Daten besitzen mindestens ordinales Messniveau. 2. Die Stichprobenvariablen sind unabh¨ angig. 3. Die Stichprobenvariablen haben stetige Verteilungsfunktionen. Ausgangspunkt sind zwei unabh¨ angige Stichprobenvariablen X1 , . . . , Xm und Y1 , . . . , Yn mit unbekannten stetigen Verteilungsfunktionen F und G. F (z) = P r(Xi ≤ z)

f¨ ur

i = 1, . . . , m

G(z) = P r(Yj ≤ z)

f¨ ur

j = 1, . . . , n

Hypothesen H0 : F(z) = G(z) f¨ ur alle z ∈ R H1 : F(z) =  G(z) f¨ ur mindestens ein z ∈ R Die Teststatistik beruht wieder auf einem Vergleich der empirischen Verteilungsfunktionen der beiden Stichproben. Im Gegensatz zum KolmogorovSmirnov-Test ist die Teststatistik C die Summe der quadrierten Differenzen. Teststatistik C=

mn (m + n)2

  m n

2 

2   Fm (xi ) − Gn (xi ) + Fm (yj ) − Gn (yj )  i=1

j=1

Zur praktischen Berechnung der Teststatistik dient: C=

m+n  1 · d2j 2 mn(m + n) j=1

mit gemeinsam geordneter Stichprobe Z() und dj = d(z(j) ) = m ·

j  i=1

ζi − n ·

j  i=1

(1 − ζi )

f¨ ur

j = 1, . . . , m + n

6.1 Tests auf Verteilungsanpassung

 ζj =

161

f¨ ur z(j) aus Stichprobe X f¨ ur z(j) aus Stichprobe Y

0 1

Testentscheidung oßer als der kritische Wert H0 wird abgelehnt, wenn die Teststatistik C gr¨ Cα ist (Tabelle 11.10). Beispiel 6.7. L¨ ange von Bambuspflanzen - Cram´ er-von-Mises-Test (Fortsetzung von Beispiel 6.4) Es m¨ ussen zuerst die Ordnungsreihe der L¨angen und die Werte dj und d2j berechnet werden. j

geordnete L¨ angen z(j)

ζj

dj

d2j

1 2 3 4 5 6 7 8 9 10 11 12 13 14

113 114 116 117 118 119 120 121 122 123 124 126 127 129

1 1 1 1 1 1 1 0 0 1 0 0 0 0

6 12 18 24 30 36 42 34 26 32 24 16 8 0

36 144 324 576 900 1296 1764 1156 676 1024 576 256 64 0

Damit erhalten wir als Teststatistik C: C=

1 · 8792 = 0.935 6 · 8 · (6 + 8)2

Der tabellierte kritische Wert ist C0.05 ≈ 0.469 (m = 6, n = 8), der p-Wert ist ebenfalls tabelliert und betr¨agt zur konkreten Stichprobe p ≈ 0.002. Die Nullhypothese kann daher abgelehnt werden, die Daten stammen nicht aus den gleichen Verteilungen. Die Berechnung der empirischen Verteilungsfunktion und die Bestimmung der maximalen Differenz sind auch beim Auftreten von Bindungen m¨ oglich, daher sind Bindungen kein Problem. Da in die Teststatistik die quadrierte Differenz der Verteilungsfunktionen eingeht, kann mit dem Cram´er-von-Mises-Test nur zweiseitig getestet werden.

162

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Beispiel 6.8. L¨ ange von Bambuspflanzen Cram´ er-von-Mises-Test in SAS (Fortsetzung von Beispiel 6.4) Der Cram´er-von-Mises-Test wird in SAS mit der Prozedur NPAR1WAY und der Option EDF durchgef¨ uhrt, die Syntax kann daher aus Beispiel 6.5, Seite 158 u ¨ bernommen werden. Im SAS-Output findet man als Ergebnis folgende Tabelle: Cramer-von-Mises-Test f¨ ur Variable Laenge Klassifiziert nach Variable Ort

Ort x y

N 6 8

Summierte Abweichung von Mittelwert 0.534014 0.400510

Cramer-von-Mises-Statistiken (Asymptotisch) CM 0.066752 CMa 0.934524 SAS berechnet die Teststatistik CM mit einer Bindungskorrektur. Diese Korrektur ist nicht unbedingt notwendig, wird in SAS aber trotzdem durchgef¨ uhrt. Die asymptotische Teststatistik CM a erh¨alt man durch die Transformation CM a = CM ·(m+n). Diese Teststatistik entspricht der h¨andisch berechneten Teststatistik C. Leider gibt SAS keinen p-Wert an, daher muss die Testentscheidung mittels der tabellierten kritischen Werte getroffen werden.

Beispiel 6.9. L¨ ange von Bambuspflanzen Cram´ er-von-Mises-Test in R (Fortsetzung von Beispiel 6.4) Der Cram´er-von-Mises-Test selbst ist in R nicht implementiert, aber der a¨hnliche Cram´er-Test mit der Teststatistik  ∞ mn Tm,n = [Fm (t) − Gn (t)]2 dt m + n −∞ kann in R mit dem Befehl cramer.test durchgef¨ uhrt werden. Zuvor muss noch das Paket cramer installiert und geladen werden. Die vollst¨andige Syntax (nach Installation des Paketes) lautet: x=c(121,122,124,126,127,129) y=c(113,114,116,117,118,119,120,123) library(cramer) cramer.test(x,y)

6.2 Die Lineare Rangstatistik (Zweistichprobenfall)

163

Als Ergebnis erh¨ alt man folgende Ausgabe: 1-dimensional nonparametric Cramer-Test with kernel phiCramer (on equality of two distributions) x-sample:

6

values

y-sample:

8

values

critical value for confidence level 95 % : 6.988095 observed statistic 14.25 , so that hypothesis ("x is distributed as y") is REJECTED. estimated p-value = 0.000999001 Die Testentscheidung wird mittels estimated p − value ≈ 0.001 getroffen. Da dieser Wert kleiner als das im Beispiel verwendete Signifikanzniveau von 0.05 ist, wird die Nullhypothese verworfen.

6.2 Die Lineare Rangstatistik (Zweistichprobenfall) Bevor im n¨ achsten Abschnitt auf statistische Tests f¨ ur Lage- und Variabilit¨ atsunterschiede eingegangen wird, definieren wir zun¨ achst den Begriff der linearen Rangstatistik f¨ ur den Zweistichprobenfall. Es liegen 2 unabh¨ angige Stichproben X = x1 , . . . , xm und Y = y1 , . . . , yn aus Grundgesamtheiten mit stetigen Verteilungsfunktionen F (z) und G(z) vor. Unter der Nullhypothese wird von der Gleichheit dieser beiden Verteilungsfunktionen ausgegangen. Man kann daher auch sagen das die m + n = N Stichprobenvariablen aus einer gemeinsamen - aber unbekannten - Verteilung stammen. Diesen ordnet man nun die R¨ange von 1 bis N zu. Da von stetigen Verteilungen ausgegangen wird, kommen Bindungen unter den N Stichprobenvariablen nur mit der Wahrscheinlichkeit null vor. Die R¨ange der gemeinsamen Stichprobe lauten: R(Xi ) =

m 

T (Xi − Xk ) +

k=1

R(Yj ) =

m  k=1

mit

n 

T (Xi − Yk ) mit

i = 1, . . . , m

k=1

T (Yj − Xk ) +

n  k=1

T (Yj − Yk )

mit j = 1, . . . , n

164

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

 T (U ) =

0 f¨ ur U < 0 1 f¨ ur U ≥ 0

Der Rang R(Xi ) entspricht also der Anzahl aller Werte aus der gemeinsamen Stichprobe, die kleiner oder gleich xi sind (analog R(Yj )). Der gemeinsamen geordneten Stichprobe x1 , . . . , xm , y1 , . . . , yn wird somit der eindeutige Rangvektor r1 , . . . , rm , s1 , . . . , sn zugeordnet, wobei ri bzw. sj den Realisierungen von R(Xi ) und R(Yj ) entsprechen. Man kann die gemeinsame geordnete Stichprobe auch durch den Vektor (V1 , . . . , VN ) beschreiben, wobei Vi = 1 ist, falls die i-te Variable der gemeinsamen, geordneten Stichprobe aus der Stichprobe X stammt und Vi = 0 ist, falls die Variable aus der Stichprobe Y stammt. Lineare Rangstatistik Die lineare Rangstatistik LN ist als Linearkombination des Vektors (V1 , . . . , VN ) definiert (N = m + n): LN =

N 

g(i)Vi

mit

g(i) als Gewichtungsfaktor

i=1

Beispiel 6.10. Lineare Rangstatistik Gegeben seien die beiden Stichproben x = (x1 , x2 , x3 ) = (4, 8, 3) und y = (y1 , y2 ) = (1, 7). Zur Bestimmung der linearen Rangstatistik wird die gemeinsame geordnete Stichprobe (z(1) , z(2) , z(3) , z(4) , z(5) ) = (1, 3, 4, 7, 8) gebildet. Die Indikatorvariable Vi gibt an, ob das i-te Element der Stichprobe aus der Stichprobe x (Vi = 1), oder aus der Stichprobe y stammt (Vi = 0). In unserem Beispiel ergibt sich (V1 , V2 , V3 , V4 , V5 ) = (0, 1, 1, 0, 1). Zur Bestimmung der Momente der linearen Rangstatistik betrachtet man zun¨achst die Momente des Vektors (V1 , . . . , VN ) mit N = m + n unter der Annahme, dass die Verteilungsfunktion von F (z) mit der Verteilungsfunktion G(z) u ¨ bereinstimmt. E(Vi ) = 1 ·

n m m +0· = N N N

V ar(Vi ) = E(Vi2 ) − (E(Vi ))2 =

i = 1, . . . , N

m m2 mn − 2 = 2 N N N

i = 1, . . . , N

6.3 Lineare Rangtests f¨ ur Lagealternativen

165

Aus diesen Momenten erh¨alt man nun die Momente der linearen Rangstatistik LN ebenfalls unter der Annahme, dass die Verteilungsfunktion von F (z) mit der Verteilungsfunktion G(z) u ¨ bereinstimmt. N m E(LN ) = g(i) N i=1

 "N #2  N   mn N g 2 (i) − g(i)  V ar(LN ) = 2 N (N − 1) i=1 i=1 Die Bestimmung der exakten Verteilung der linearen Rangstatistik ist nur numerisch m¨oglich. Auf Grund des enormen Rechenaufwandes ist dies nur f¨ ur kleine Stichprobenumf¨ ange in u ¨ berschaubarer Zeit m¨ oglich. Unter relativ allgemeinen Voraussetzungen n¨ahert sich die Verteilung der linearen Rangstatistik f¨ ur große Stichprobenumf¨ ange einer Normalverteilung an. LN − E(LN )  ∼ N (0, 1) V ar(LN ) f¨ ur m, n → ∞ ,

m n

= 0,

m n

= ∞

F¨ ur m = n ist die lineare Rangstatistik LN um E(LN ) symmetrisch.

6.3 Lineare Rangtests f¨ ur Lagealternativen In diesem Abschnitt ist die Fragestellung schon genauer spezifiziert. Die Verteilungen F und G der beiden Grundgesamtheiten haben nun gleiche Gestalt, sind aber m¨ oglicherweise in ihrer Lage verschoben und weisen somit unterschiedliche Lageparameter auf.

6.3.1 Wilcoxon-Rangsummentest Der Wilcoxon-Rangsummentest ist der am h¨ aufigsten verwendete verteilungs¨ freie Test zur Uberpr¨ ufung von Hypothesen u ¨ber die Lage zweier statistischer Verteilungen. Dieser Test ist das nichtparametrische Gegenst¨ uck zum t-Test.

166

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Voraussetzungen 1. Das Messniveau der Beobachtungen x1 , . . . , xm , y1 , . . . , yn ist metrisch oder ordinal. 2. Die Variablen X1 , . . . , Xm , Y1 , . . . , Yn sind unabh¨ angig. 3. X1 , . . . , Xm , Y1 , . . . , Yn haben stetige Verteilungsfunktionen F bzw. G. Wilcoxon-Rangsummentest •

Zweiseitige Hypothesen H0 : F (z) = G(z) H1 : F (z) = G(z + θ) f¨ ur alle z ∈ R, θ = 0



Einseitige Hypothesen, Fall A, F < G, X stochastisch gr¨oßer als Y H0 : F (z) = G(z) H1 : F (z) = G(z + θ) f¨ ur alle z ∈ R, θ < 0



Einseitige Hypothesen, Fall B, F > G, X stochastisch kleiner als Y H0 : F (z) = G(z) H1 : F (z) = G(z + θ) f¨ ur alle z ∈ R, θ > 0

Betrachtet man zuf¨allig je einen Wert aus der ersten Stichprobe xi und eine Wert aus der zweiten Stichprobe yi k¨ onnte man die Nullhypothese auch folgendermaßen anschreiben: P r(xi < yi ) = P r(yi < xi ) bzw. P r(xi < yi ) = 0.5 Die Wahrscheinlichkeit, dass ein Wert der ersten Stichprobe gr¨ oßer/kleiner ist als ein Wert der zweiten Stichprobe betr¨ agt 0.5. In Anlehnung an Abschnitt 6.2 und mit Gewichtsfunktion g(i) = i ist die Teststatistik wie folgt definiert: Teststatistik WN =

N 

iVi =

i=1

m 

R(Xi )

i=1

Das Minimum und das Maximum von WN erh¨alt man f¨ ur die F¨ alle, dass die x-Werte die ersten m Pl¨ atze bzw. die letzten m Pl¨atze belegen: min(WN ) = max(WN ) =

m(m + 1) 2

m(2n + m + 1) 2

6.3 Lineare Rangtests f¨ ur Lagealternativen

167

Hat man keine Tabelle mit kritischen Werten zur Verf¨ ugung, so kann die Verteilung von WN auch exakt berechnet werden. Da der Rechenaufwand mit wachsendem m und n schnell ansteigt, ist dies nur bei sehr kleinen Stichproben empfehlenswert. Die m + n Beobachtungen der beiden Stichproben   (m+n)! aus Gruppe 1 und Gruppe 2 k¨ onnen auf m+n = m m!·n! verschiedene Arten angeordnet werden. Diese Anordnungen sind unter der Nullhypothese gleich   −1 wahrscheinlich mit P r(A) = [ m+n ] . Damit kann f¨ ur jeden m¨ oglichen Wert m der Teststatistik die zugeh¨orige Wahrscheinlichkeit berechnet werden. Aus der Verteilung k¨ onnen die kritischen Werte als Quantile abgelesen werden. Testentscheidung (Tabelle 11.11) •

Zweiseitiger Test: H0 ablehnen, falls WN ≤ wα/2 oder WN ≥ w1−α/2



Einseitiger Test, Fall A: H0 ablehnen, falls WN ≥ w1−α



Einseitiger Test, Fall B: H0 ablehnen, falls WN ≤ wα

In der Tabelle f¨ ur den Wilcoxon-Rangsummentest (Tabelle 11.11) findet man nur die Werte f¨ ur wα im Fall m ≤ n. Die Werte f¨ ur w1−α erh¨alt man durch die Gleichung w1−α = m(N + 1) − wα . F¨ ur das einseitige Testen mit m > n wird der Austausch der Bezeichnungen (X, Y ) empfohlen, um problemlos mit den kritischen Werten aus der Tabelle arbeiten zu k¨ onnen. Die Teststatistik erh¨ alt man durch das Aufsummieren der R¨ ange der Xi der gemeinsamen geordneten Stichprobe. Gibt es keinen Unterschied in der Lage der beiden Stichproben (bzw. in den Populationen), werden die N = n + m Untersuchungseinheiten gut durchmischt sein. Wie die geordnete Stichprobe in so einem Fall aussehen k¨onnte, zeigt Tabelle 6.1. Rang Einheit

1 y1

2 x1

3 y2

4 y3

5 x2

6 y4

7 x3

8 y5

9 x4

10 y6

Tabelle 6.1. Gemeinsame Stichprobe - ohne Lageunterschied

Im Gegensatz dazu zeigt Tabelle 6.2 eine geordnete Stichprobe, die Unterschiede in der zentralen Tendenz vermuten l¨ asst. In beiden Tabellen besteht die Stichprobe der 1. Gruppe aus m = 4 Einheiten, die 2. Gruppe aus n = 6 Einheiten. Rang Einheit

1 x1

2 x2

3 x3

4 y1

5 x4

6 y2

7 y3

8 y4

9 y5

Tabelle 6.2. Gemeinsame Stichprobe - mit Lageunterschied

10 y6

168

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Die Abfolge aus Tabelle 6.1 ist ein Indiz f¨ ur die Beibehaltung der Nullhypothese. Die Werte der 1. Gruppe und die Werte der 2. Gruppe scheinen sich nicht wesentlich zu unterscheiden. Bei Tabelle 6.2 w¨ urde man eher zur Hypothese H1 - es gibt einen signifikanten Unterschied - tendieren. Die Werte aus der ersten Stichprobe sind hier tendenziell kleiner als die Werte aus der zweiten Stichprobe. Im n¨achsten Schritt wird die Teststatistik WN ermittelt. Aus Tabelle 6.1 ergeben sich dabei die R¨ange 2 (x2 befindet sich an zweiter Stelle), 5, 7 und 9. Addiert man diese Werte erh¨ alt man die Teststatistik WN = 23. Bei Tabelle 6.2 erh¨ alt man nach dem Aufsummieren den Wert WN = 11. W¨ ahlt man als Signifikanzniveau α = 0.05, kann man aus einer Tabelle f¨ ur den Wilcoxon-Rangsummentest f¨ ur m = 4 und n = 6 den Wert wα/2 = 12 ablesen. Wie oben angegeben erh¨alt man den Wert w1−α/2 durch die Gleichung w1−α/2 = m(N + 1) − wα/2 sehr einfach. Im vorliegenden Beispiel ergibt sich w1−α/2 = 4 · (10 + 1) − 12 = 32. Im letzten Schritt muss festgestellt werden, ob die Teststatistik im jeweiligen Intervall liegt. Im Falle von Tabelle 6.1 liegt der Wert 23 im Intervall [12, 37], die Nullhypothese muss beibehalten werden. Da bei einer gemeinsamen Stichprobe wie Tabelle 6.2 der Wert 11 nicht im Intervall [12, 37] liegt, wird H0 abgelehnt.   Im Falle des oben angef¨ uhrten Beispieles gibt es A = 10 4 = 210 verschiedene Anordnungsm¨ oglichkeiten. In der folgenden Tabelle sind die 11 extremsten M¨ oglichkeiten aufgelistet, das sind jene, in denen die addierten Rangzahlen der xi die geringsten Summen aufweisen. Nr.

R¨ ange der Xi

WN

P (WN = w)

1 2 3 4 5 6 7 8 9 10 11

(1,2,3,4) (1,2,3,5) (1,2,4,5) (1,2,3,6) (1,2,4,6) (1,3,4,5) (1,2,3,7) (1,3,4,6) (2,3,4,5) (1,2,3,8) (1,2,4,7)

10 11 12 12 13 13 13 14 14 14 14

1/210 1/210 1/210 1/210 1/210 1/210 1/210 1/210 1/210 1/210 1/210

Tabelle 6.3. M¨ ogliche Anordnungen der xi (Auszug)

6.3 Lineare Rangtests f¨ ur Lagealternativen

169

Man kann leicht ablesen, dass die Teststatistik WN = 10 einmal vorkommt, genauso die Teststatistik WN = 11, WN = 12 kommt zweimal vor, usw. F¨ ur die Tabelle 6.2 wurde die Teststatistik WN = 11 berechnet. Aus Tabelle 6.3 kann entnommen werden, dass die Wahrscheinlichkeit die Teststatistik 11 oder eine noch kleinere zu beobachten bei P r(WN ≤ 11) = 2/210 ≈ 0.0095 liegt. Der p-Wert kann somit aufgrund der Symmetrie beim zweiseitigen Testen mit p = 0.019 angegeben werden. Auch so w¨ are man zur gleichen Entscheidung gelangt, dass f¨ ur α = 0.05 die Nullhypothese abzulehnen ist. Es gibt einen signifikanten Unterschied hinsichtlich der Lage der beiden Verteilungen aus Tabelle 6.2. Bindungen innerhalb einer Gruppe sind f¨ ur die Auswertung unwesentlich, Bindungen zwischen den Gruppen werden mit Durchschnittsr¨ angen versehen. Beispiel 6.11. Klausurnoten Es soll untersucht werden, ob sich Studierende aus 2 verschiedenen Kursen hinsichtlich der Leistung bei einer Klausur signifikant unterscheiden. Die Stichprobe in beiden Kursen ergibt folgende Noten (m = 5, n = 6). Kurs 1 (xi )

1

2

3

3

5

Kurs 2 (yi )

1

3

3

4

5

5

Die gemeinsame geordnete Stichprobe sieht wie folgt aus: Gruppe

x1

y1

x2

x3

x4

y2

y3

y4

x5

y5

y6

Note

1

1

2

3

3

3

3

4

5

5

5

Rang

1.5

1.5

3

5.5

5.5

5.5

5.5

8

10

10

10

Daraus ergeben sich die R¨ange der xi (Durchschnittsr¨ ange): R(xi )

1.5

3

5.5

5.5

10

Einheit

x1

x2

x3

x4

x5

Durch das Aufsummieren der R¨ ange erh¨ alt man die Teststatistik WN = 25.5. F¨ ur m = 5, n = 6 und α = 0.05 ist wα/2 = 18 und nach weiterer Berechnung w1−α/2 = 42. Da der Wert 25.5 im Intervall [18, 42] liegt, wird die Nullhypothese beibehalten. Ein Unterschied zwischen den Studierenden der beiden Kurse kann nach dem Wilcoxon-Rangsummentest nicht nachgewiesen werden. F¨ ur Stichproben mit m ≥ 25 oder n ≥ 25 kann die Teststatistik durch eine Normalverteilung approximiert werden. Unter H0 : G(z) = F (z) gilt:

170

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

m(N + 1) 2 mn(N + 1) V ar(WN ) = 12 E(WN ) =

F¨ ur m, n → ∞ mit m/n → λ = 0 gilt asymptotisch: WN − m(N + 1)/2 Z=  m · n(N + 1)/12

∼ N (0, 1)

Testentscheidung Wilcoxon-Rangsummentest (Approximation durch die Normalverteilung, Tabelle 11.1) •

Zweiseitiger Test: H0 ablehnen, falls Z ≤ zα/2 oder Z ≥ z1−α/2



Einseitiger Test, Fall A: H0 ablehnen, falls Z ≥ z1−α



Einseitiger Test, Fall B: H0 ablehnen, falls Z ≤ zα

Gibt es Bindungen zwischen beiden Stichproben, bleibt der Erwartungswert von WN gleich. Die Varianz verringert sich wie folgt:  mn mn(N + 1) − (b3 − bj ) 12 12N (N − 1) j=1 j r

V ar(WN∗ ) =

Die Summe bezieht sich auf die Bindungen, dabei ist im Falle einer 2er Bindung bj = 2, bei einer 3er Bindung ist bj = 3, usw., mit r wird die Anzahl der Bindungsgruppen bezeichnet. Als Teststatistik in Beispiel 6.11 wurde die Teststatistik WN = 25.5 errechnet. Die einzelnen bj lauten: j

1

2

3

4

5

bj

2

1

4

1

3

Daraus ergibt sich f¨ ur die korrigierte Varianz (m = 5, n = 6):  30  3 · (2 − 2) + (13 − 1) + (43 − 4) + (13 − 1) + (33 − 3) 1320 = 30 − 2.05 = 27.95

V ar(WN∗ ) = 30 −

Es sei allerdings darauf hingewiesen, dass der Stichprobenumfang (N = 11) nicht groß genug f¨ ur eine Approximation ist. Dieses einfache Beispiel soll lediglich die Vorgehensweise illustrieren.

6.3 Lineare Rangtests f¨ ur Lagealternativen

171

Beispiel 6.12. Klausurnoten Wilcoxon-Rangsummentest in SAS (Vgl. Beispiel 6.11) In SAS wird der Wilcoxon-Rangsummentest mit der Prozedur NPAR1WAY und der Option WILCOXON durchgef¨ uhrt. Der Mann-Whitney-U-Test (vgl. Abschnitt 6.3.2) f¨ uhrt zu den gleichen pWerten wie der Wilcoxon-Rangsummentest, aber die Teststatistik f¨ ur den Mann-Whitney-U-Test w¨ are unterschiedlich, wird aber in SAS nicht angegeben. Mit dem Statement EXACT WILCOXON werden die exakten p-Werte berechnet. Wie bereits erw¨ahnt, steigt bei der exakten Berechnung der Rechenaufwand mit gr¨oßer werdendem N sehr schnell an, was nat¨ urlich zu erheblich mehr Rechenzeit f¨ uhrt. Daher wird empfohlen, ab einer mittelgroßen Stichprobe mit der Monte-Carlo-Sch¨atzung zu rechnen. Diese erh¨alt man mit der Option MC. Zus¨atzlich kann noch zwischen den Optionen MAXTIME (Maximale Zeit zur Berechnung des exakten p-Wertes) und ALPHA (Konfidenzniveau f¨ ur Monte-Carlo-Sch¨atzung) gew¨ahlt werden. Standardm¨ aßig rechnet SAS beim Wilcoxon-Rangsummentest mit einem Signifikanzniveau von α = 0.05. DATA Noten; INPUT Gruppe Noten; DATALINES; 1 1 1 2 .. ... 2 5 ; RUN; PROC NPAR1WAY DATA=noten WILCOXON; CLASS Gruppe; EXACT WILCOXON; VAR Noten; RUN; Als Ausgabe erh¨ alt man den Wert der Teststatistik vom Rangsummentest von Wilcoxon und die einseitigen und zweiseitigen p-Werte exakt, sowie approximiert durch die Normalverteilung und die t-Verteilung. Alle p-Werte f¨ uhren dazu, dass die Nullhypothese beibehalten werden muss. Im Fall der Monte-Carlo-Sch¨atzung werden die Punktsch¨ atzer und die Bereichsch¨ atzer f¨ ur die einseitigen und zweiseitigen p-Werte berechnet. Vergleicht ¨ man die Werte der Uberschreitungswahrscheinlichkeit der einseitigen bzw. zweiseitigen Tests, stellt man fest, dass die approximierten Werte kaum vom exakten Wert abweichen.

172

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Beispiel 6.13. Klausurnoten Wilcoxon-Rangsummentest in R (Vgl. Beispiel 6.11) In R wird f¨ ur den Wilcoxon-Rangsummentest die Funktion wilcox.test verwendet. kurs1=c(1,2,3,3,5) kurs2=c(1,3,3,4,5,5) wilcox.test(kurs1,kurs2,alternative="two.sided", + paired = FALSE, correct=T) Die Option paired = FALSE steht f¨ ur unabh¨ angige Stichproben und mit correct = T wird bei der Approximation eine Stetigkeitskorrektur verwendet. Als Ausgabe erh¨alt man: data:

kurs1 and kurs2 W = 10.5, p-value = 0.4493 alternative hypothesis: true mu is not equal to 0

Gibt es - wie im vorliegenden Beispiel - zwischen den beiden Stichproben Bindungen, kann mit der Funktion wilcox.test() der exakte p-Wert nicht berechnet werden, sondern nur der asymptotische p-Wert. F¨ ur die Berechnung des exakten p-Wertes wird die Funktion wilcox.exact() aus dem Paket exactRankTests verwendet. S¨amtliche Optionen, welche f¨ ur die Funktion wilcox.test() ausgew¨ahlt werden k¨ onnen, gelten auch f¨ ur die Funktion wilcox.exact(). Nach Installation des Paketes lautet die Syntax: library(exactRankTests) wilcox.exact(kurs1,kurs2,alternative="two.sided", + paired=FALSE,correct=T) Es f¨ allt auf, dass die von R berechnete Teststatistik 10.5 betr¨ agt, hingegen sowohl mit der obigen Berechnung als auch mit SAS der Wert 25.5 bestimmt wurde. Der Unterschied liegt darin, dass R von der Teststatistik WN das Minimum abzieht: WNR = WN −

m(m + 1) 2

Dies f¨ uhrt dazu, dass der kleinstm¨ogliche Wert der Teststatistik immer 0 ist. Da im Beispiel m = 5 ist, ergibt sich als Teststatistik in R der Wert 10.5. Der Mann-Whitney-U-Test (vgl. Abschnitt 6.3.2) f¨ uhrt zu den gleichen pWerten wie der Wilcoxon-Rangsummentest, aber die Teststatistik f¨ ur den Mann-Whitney-U-Test w¨ are unterschiedlich, wird aber in R nicht angegeben. F¨ ur die einseitigen Fragestellungen stehen die Alternativen greater f¨ ur den Fall A (X stochastisch gr¨oßer als Y , F < G) und less f¨ ur den Fall B zur Verf¨ ugung. Dabei ist zu beachten, dass in diesem Buch mit Fall A der Fall X stochastisch gr¨oßer als Y “ bezeichnet wird, was in R bei den ” Tests auf Verteilungsanpassung mit der Alternative less, bei den Tests auf Lagealternativen aber mit greater umzusetzen ist.

6.3 Lineare Rangtests f¨ ur Lagealternativen

173

6.3.2 Mann-Whitney-U-Test Die Voraussetzungen und Hypothesen sind identisch zum Rangsummentest von Wilcoxon, und auch die Testentscheidung ist a¨quivalent. Allerdings wird die Teststatistik anders berechnet, weist aber einen einfachen Zusammenhang mit der Teststatistik WN vom Wilcoxon-Rangsummentest auf. Zweiseitige Hypothesen H0 : F (z) = G(z) ur alle z ∈ R, θ = 0 H1 : F (z) = G(z + θ) f¨ Einseitige Hypothesen, Fall A F < G, X stochastisch gr¨oßer als Y H0 : F (z) = G(z) ur alle z ∈ R, θ < 0 H1 : F (z) = G(z + θ) f¨ Einseitige Hypothesen, Fall B F > G, X stochastisch kleiner als Y H0 : F (z) = G(z) ur alle z ∈ R, θ > 0 H1 : F (z) = G(z + θ) f¨ Die Teststatistiken im Mann-Whitney-U-Test sind n(n + 1)  − R(Yi ) 2 i=1 n

UF >G = mn + und

m(m + 1)  − R(Xi ) 2 i=1 m

UF G = m · n − UF G , UF m sollten die Bezeichnungen X, Y f¨ ur den einfachen Gebrauch der kritischen Werte aus der Tabelle getauscht werden.

174

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Beispiel 6.14. Klausurnoten Mann-Whitney-U-Test (Vgl. Beispiel 6.11) Es soll untersucht werden, ob sich Studierende aus 2 verschiedenen Kursen hinsichtlich der Leistung bei einer Klausur signifikant unterscheiden. Die Stichprobe in beiden Kursen ergibt folgende Noten (m = 5, n = 6). Kurs 1 (xi )

1

2

3

3

5

Kurs 2 (yi )

1

3

3

4

5

5

Die gemeinsame geordnete Stichprobe sieht wie folgt aus: Gruppe

x1

y1

x2

x3

x4

y2

y3

y4

x5

y5

y6

Note

1

1

2

3

3

3

3

4

5

5

5

F¨ ur X wurde die Rangsumme bereits in Beispiel 6.11 berechnet, die R¨ange der yi sind Einheit

y1

y2

y3

y4

y5

y6

R(yi )

1.5

5.5

5.5

8

10

10

Die beiden Teststatistiken betragen somit UF >G = 5 · 6 − und UF G, X stochastisch kleiner als Y H0 : F (z) = G(z) H1 : F (z) = G(z + θ) f¨ ur alle z ∈ R, θ > 0

Teststatistik Die Teststatistik ist gegeben durch XN =

N  i=1

−1

Φ



i N +1

Vi =

m  i=1

−1

Φ



R(Xi ) N +1



Zur Durchf¨ uhrung des Tests werden die Werte der beiden Stichproben in eine gemeinsame geordnete Stichprobe u ¨ berf¨ uhrt. Danach werden die einzelnen

176

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

R¨ange jeweils durch N + 1 dividiert. F¨ ur diese Werte k werden die Quantile der Standardnormalverteilung bestimmt (Φ−1 (k)). Durch Aufsummieren der Quantile der X-Stichprobe erh¨ alt man die gew¨ unschte Teststatistik. Testentscheidung Van der Waerden-Test (Tabelle 11.12) •

Zweiseitiger Test: H0 ablehnen, falls |XN | ≥ x1−α/2



Einseitiger Test, Fall A, F < G: H0 ablehnen, falls XN ≥ x1−α



Einseitiger Test, Fall B, F > G: H0 ablehnen, falls XN ≤ xα (gleichbedeutend mit XN ≤ −x1−α )

Beispiel 6.15. Klausurnoten - Van der Waerden-Test (Vgl. Beispiel 6.11 und 6.14) Die Berechnung der R¨ ange von X wurde bereits durchgef¨ uhrt (Seite 169). Damit erh¨alt man Element

x1

x2

x3

x4

x5

Note

1

2

3

3

5

1.5

3

5.5

5.5

10

0.125

0.250

0.458

0.458

0.833

-1.150

-0.674

-0.105

-0.105

0.967

Rang (R) k = Ri /(N + 1) −1

Φ

(k)

 −1 Als Teststatistik erh¨alt man XN = Φ (k) = −1.067. In Tabelle 11.12 findet man f¨ ur α = 0.05, N = 11 und |m−n| = 1 den kritischen Wert x1−α/2 = 2.72. Da 1.067 = | − 1.067| ≤ 2.72 wird die Nullhypothese beibehalten. Es konnte kein signifikanter Unterschied festgestellt werden.

Bei obigem Beispiel wurde f¨ ur Bindungen die Methode der Durchschnittsr¨ange angewendet. Van der Waerden selbst empfiehlt, die Teststatistiken XN f¨ ur alle m¨ oglichen Rang-Permutationen zu berechnen und in weiterer Folge den Mittelwert der XN als Teststatistik zu verwenden. Große Stichproben Ab einer Stichprobengr¨oße von N > 50 kann durch die Normalverteilung approximation werden. F¨ ur diese Approximation werden der Erwartungswert und die Varianz von XN ben¨ otigt. E(XN ) = 0

6.3 Lineare Rangtests f¨ ur Lagealternativen

V (XN ) =

Z= $ % % &

177

2  N   i mn Φ−1 N (N − 1) i=1 N +1

mn N (N − 1)

XN  N   Φ−1 i=1

i N +1

2

F¨ ur N → ∞ ist Z unter H0 asymptotisch standardnormalverteilt. Die Testentscheidung lautet dann: Testentscheidung Van der Waerden-Test (Approximation durch Normalverteilung, Tabelle 11.1) •

Zweiseitiger Test: H0 ablehnen, falls: |Z| ≥ z1−α/2



Einseitiger Test, Fall A, F < G: H0 ablehnen, falls: Z ≥ z1−α



Einseitiger Test, Fall B, F > G: H0 ablehnen, falls: Z ≤ zα

Beispiel 6.16. Klausurnoten - v.d. Waerden-Test in SAS (Vgl. Beispiel 6.15) In SAS kann der v.d.Waerden Test mit der Option VW aufgerufen werden. PROC NPAR1WAY DATA=noten VW; CLASS Gruppe; VAR Noten; RUN; Der Output zu dieser Prozedur sieht etwa folgendermaßen aus: Van der Waerden Zwei-Stichprobentest Statistik -1.0568 Z -0.7938 Einseitige Pr < Z 0.2137 Zweiseitige Pr > |Z| 0.4273 SAS geht im Fall von Bindungen anders vor, als man es erwarten w¨ urde. Im Falle von Bindungen wird f¨ ur alle m¨oglichen R¨ ange das jeweilige Quantil φ−1 (k/(N + 1)) bestimmt. In die Teststatistik geht der jeweilige Durchschnitt der Quantile ein.

178

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Beispiel 6.17. Klausurnoten - Van der Waerden-Test in R (Vgl. Beispiel 6.15) Die Teststatistik f¨ ur den v.d.Waerden Test kann in R mit folgender Syntax berechnet werden: library(exactRankTests) Datensatz=data.frame( + Noten =c(1,2,3,3,5,1,3,3,4,5,5), + Gruppen=factor(c(1,1,1,1,1,2,2,2,2,2,2))) sc = cscores(Datensatz$Noten, type="NormalQuantile") X = sum(sc[Datensatz$Gruppen == 1]) library(coin) normal_test(Noten ~ Gruppen, data = Datensatz, + distribution = "exact") Die exakte Teststatistik wird in der Variable X gespeichert, der Test selbst wird mit der Anweisung normal_test und der Option distribution="exact" aus dem Paket coin angefordert. Wir erhalten als Ergebnis der Anweisung die approximierte Teststatistik -0.8031 mit dem zweiseitigen p-Wert 0.4372, daher muss die Nullhypothese beibehalten werden.

6.3.4 Median-Test Ein sehr einfacher Test zum Vergleich der zentralen Tendenz zweier Stichproben ist der Mediantest. Der Mediantest kann auch zum Vergleich von mehr als zwei Stichproben angewendet werden (Vgl. Kapitel 8.1.2). Die Voraussetzungen des Mediantests sind ¨aquivalent zu jenen des WilcoxonRangsummentest. Die Zufallsvariablen m¨ ussen somit wieder unabh¨angig sein und mindestens ordinales Skalenniveau aufweisen. Man fasst zun¨achst die beiden Stichproben zusammen, ordnet diese und bestimmt den Median der gepoolten Stichprobe. Im n¨ achsten Schritt bestimmt man je Stichprobe die Anzahl der Messwerte, die gr¨ oßer (bzw. kleiner/gleich) als der gemeinsame Median sind. Mit diesen Informationen kann folgende Vierfeldertafel erstellt werden: ≤ z˜0.5

> z˜0.5

Gruppe 1

z11

z12

Gruppe 2

z21

z22

Mit zij wird die Anzahl der Werte in der jeweiligen Kategorie bezeichnet. Die Nullhypothese geht davon aus, dass in jeder der beiden Stichproben 50% der Daten gr¨oßer als der Median sind und 50% der Daten kleiner oder gleich dem Median sind.

6.3 Lineare Rangtests f¨ ur Lagealternativen

179

Obige Vierfeldertafel wird nun auf einen signifikanten Zusammenhang u ¨ berpr¨ uft. Ist N ≤ 20 sollte dies mit dem exakten Test nach Fisher geschehen (vgl. Abschnitt 9.3), sonst kann der klassische χ2 -Test verwendet werden.

Beispiel 6.18. Klausurnoten - Median-Test (Vgl. Beispiel 6.11, 6.14 und 6.15) Die Noten der jeweiligen Studierendengruppen waren Kurs 1 (xi )

1

2

3

3

5

Kurs 2 (yi )

1

3

3

4

5

5

Der Median ist der sechste Wert der geordneten gemeinsamen Stichprobe und somit z˜0.5 = 3. Gem¨aß obiger Beschreibung ergibt sich daraus folgende Vierfeldertafel: ≤ z˜0.5

> z˜0.5

Kurs 1

4

1

Kurs 2

3

3

F¨ ur den zweiseitigen Test nach Fisher erh¨alt man den p-Wert 0.545, somit muss auch in diesem Fall die Nullhypothese, dass sich die Gruppen nicht unterscheiden, beibehalten werden.

Beispiel 6.19. Klausurnoten - Median-Test in SAS (Vgl. Beispiel 6.18) Die Vierfeldertafel wird eingegeben und mit dem Fisher’s Exact Test ausgewertet. DATA notenm; INPUT Gruppe mediangrkl anzahl; DATALINES; 1 1 1 1 2 4 2 1 3 2 2 3 RUN; PROC FREQ data=notenm; TABLES gruppe*mediangrkl/CHISQ; EXACT FISHER; WEIGHT anzahl; RUN;

180

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Der Output zu obiger Prozedur sieht folgendermaßen aus: Exakter Test von Fisher Zelle (1,1) H¨ aufigkeit (F) 4 Linksseitige Pr = F 0.3485 Tabellenwahrscheinlichkeit (P) 0.3030 Zweiseitige Pr (N + 1)/2 f¨ ur i ≤ (N + 1)/2

dann entspricht die lineare Rangstatistik der Anzahl der Werte aus der Stichprobe X, die gr¨ oßer sind als der Median der gemeinsamen Stichprobe.

6.4 Lineare Rangtests f¨ ur Variabilit¨ atsanalysen

181

6.4 Lineare Rangtests f¨ ur Variabilit¨ atsanalysen In diesem Kapitel werden mit dem Siegel-Tukey-Test, dem Mood-Test und dem Ansari-Bradley-Test drei Tests f¨ ur Variabilit¨ atsalternativen vorgestellt. Das Ziel dieser Tests ist festzustellen, ob ein signifikanter Unterschied hinsichtlich der Variabilit¨ at zwischen zwei Gruppen vorliegt. Voraussetzungen 1. Das Messniveau der Beobachtungen x1 , . . . , xm , y1 , . . . , yn ist metrisch oder ordinal. 2. Die Variablen X1 , . . . , Xm , Y1 , . . . , Yn sind unabh¨ angig. 3. X1 , . . . , Xm und Y1 , . . . , Yn haben stetige Verteilungsfunktionen F bzw. G mit gleichem (unbekannten) Median. Tests f¨ ur Variabilit¨ atsanalysen •

Zweiseitige Hypothesen H0 : F (z) = G(z) H1 : F (z) = G(θz) f¨ ur alle z ∈ R, θ = 1, θ > 0



Einseitige Hypothesen, Fall A, X streut st¨arker als Y H0 : F (z) = G(z) H1 : F (z) = G(θz) f¨ ur alle z ∈ R, 0 < θ < 1



Einseitige Hypothesen, Fall B, Y streut st¨arker als X H0 : F (z) = G(z) H1 : F (z) = G(θz) f¨ ur alle z ∈ R, θ > 1

Unter H1 haben die Variablen θX und Y dieselbe Verteilung und es gilt 2 θ µX = µY und θ2 σX = σY2 . Daraus kann abgelesen werden, dass Unterschiede in der Variabilit¨ at Unterschiede der Erwartungswerte und der Varianzen umfassen k¨onnen. Nur wenn die beiden Erwartungswerte gleich sind (bei θ = 1 nur m¨oglich f¨ ur µX = µY = 0), k¨ onnen Tests auf Variabilit¨ atsunterschiede als Tests auf Varianzunterschiede aufgefasst werden. In weiterer Folge gehen wir davon aus, dass zumindest die Mediane der beiden Verteilungen gleich sind. ¨ Das parametrische Aquivalent zu den Tests auf Variabilit¨atsunterschiede (bei Vorliegen einer Normalverteilung) ist der F-Test, der aber ohne die Annahme µX = µY = 0 auskommt.

182

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

6.4.1 Siegel-Tukey-Test Die Anwendung des Siegel-Tukey-Tests entspricht der Vorgehensweise beim Wilcoxon-Rangsummentest. Die Teststatistik f¨ ur den Siegel-Tukey-Test ist die lineare Rangstatistik SN =

N 

g(i)Vi

i=1

mit Gewichtsfunktion  2i    2(N − i) + 2 g(i) = 2i − 1    2(N − i) + 1

f¨ ur f¨ ur f¨ ur f¨ ur

i i i i

gerade und 1 < i ≤ N/2 gerade und N/2 < i ≤ N ungerade und 1 ≤ i ≤ N/2 ungerade und N/2 < i < N

Diese Teststatistik ist f¨ ur gerades N konzipiert, f¨ ur ungerades N wird die mittlere Beobachtung aus der gemeinsamen geordneten Stichprobe gestrichen. Beim Wilcoxon-Rangsummentest wurden in der gemeinsamen Stichprobe den kleinen Beobachtungswerten niedrige Rangzahlen und großen Beobachtungswerten hohe Rangzahlen zugeordnet. Beim Siegel-Tukey-Test ist die allgemeine Vorgangsweise ¨ahnlich, allerdings erfolgt die Zuordnung der Rangwerte in anderer Form. Dem kleinsten Beobachtungswert wird - wie gehabt - der kleinste Rang zugeordnet. Es wird nun allerdings dem gr¨oßten Beobachtungswert der zweite Rang zugewiesen. Der zweitgr¨oßte Beobachtungswert erh¨ alt den dritten Rang, der zweite Beobachtungswert den vierten Rang, der dritte Beobachtungswert den f¨ unften Rang. Man vergibt die R¨ ange - vereinfacht gesagt - abwechselnd von außen nach innen. Eine gemeinsame geordnete Stichprobe mit 8 Elementen w¨ urde somit folgende Gewichte erhalten Beobachtung

x1

x2

x3

x4

x5

x6

x7

x8

Gewicht g(i)

1

4

5

8

7

6

3

2

Im Falle von Bindungen wird in Praxis die Methode der Durchschnittsr¨ ange angewendet. Es sei darauf hingewiesen, dass es bei einer großen Anzahl von Bindungen zu einer ver¨ anderten Verteilung der Pr¨ ufgr¨ oße unter der Nullhypothese kommen kann. Die Verteilung der Teststatistik SN ist unter der Nullhypothese gleich der Verteilung der Wilcoxon-Statistik WN (vgl. Abschnitt 6.3.1). Liegt kein Unterschied in der Variabilit¨ at vor, werden die Stichproben gut durchmischt sein. Streut die Verteilung von X mehr als die von Y (bei gleichem Median), so

6.4 Lineare Rangtests f¨ ur Variabilit¨ atsanalysen

183

werden die X-R¨ange eher an den Enden der gemeinsamen Stichprobe liegen und somit niedrige Gewichtungsfaktoren erhalten. Eine zu kleine Teststatistik SN weist damit auf die Hypothese hin, dass X mehr streut als Y . Testentscheidung (kritische Werte in Tabelle 11.11) •

Zweiseitiger Test: H0 ablehnen, falls SN ≤ wα/2 oder SN ≥ w1−α/2



Einseitiger Test, Fall A (X streut mehr): H0 ablehnen, falls SN ≤ wα



Einseitiger Test, Fall B: H0 ablehnen, falls SN ≥ w1−α

Beispiel 6.21. Laufleistung - Siegel-Tukey-Test Die Sch¨ ulerInnen von 2 Schulklassen sollten unabh¨ angig voneinander einen 100 m Lauf absolvieren. Man ist an der Homogenit¨at der Leistungen interessiert, das heißt, es interessiert, ob die Streuung der Leistung in der ersten Schulklasse gr¨oßer ist als in der zweiten Klasse. Die Hypothesen daf¨ ur lauten H0 : F (z) = G(z) und H1 : F (z) = G(θz), θ > 1. Die Stichprobe ergibt folgende Zeiten in Sekunden (m = 4, n = 6). Klasse 1 (xi ) Klasse 2 (yi )

12 15

13 17

29 18

30 24

25

26

Die gemeinsame geordnete Stichprobe sieht wie folgt aus: Wert

x1

x2

y1

y2

y3

y4

y5

y6

x3

x4

Zeit

12

13

15

17

Gewicht g(i)

1

4

5

8

18

24

25

26

29

30

9

10

7

6

3

2

Als Teststatistik erh¨ alt man SN = 1 + 4 + 3 + 2 = 10, da w0.05 = 21 wird H0 abgelehnt. Die Streuung in der Klasse 1 ist gr¨oßer als in der Klasse 2.

Beispiel 6.22. Laufleistung - SAS (vgl. Beispiel 6.21) Der Programmcode in SAS lautet: DATA lauf; INPUT Gruppe zeit; DATALINES; 1 12 .. .. 2 26 ; RUN;

184

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

PROC NPAR1WAY DATA=lauf ST; CLASS Gruppe; VAR zeit; EXACT ST; RUN; Der Output zu dieser Prozedur sieht etwa folgendermaßen aus: Siegel-Tukey Zwei-Stichprobentest Statistik (S) 10.0000 Normale Approximation Z -2.4518 Einseitige Pr < Z 0.0071 Zweiseitige Pr > |Z| 0.0142 Exakter Test Einseitige Pr = |S - Mittelwert| 0.0095 Es gibt sowohl bei einseitiger (p = 0.0048) als auch bei zweiseitiger (p = 0.0095) Fragestellung signifikante Unterschiede in der Streuung. Große Stichproben Da die Verteilung von SN unter der Nullhypothese der Verteilung der WilcoxonStatistik WN entspricht, kann auch beim Siegel-Tukey-Test in gleicher Weise mit der Normalverteilungsapproximation gerechnet werden.

6.4.2 Mood-Test ¨ Ein weiterer Test zur Uberpr¨ ufung von Variabilit¨ atsunterschieden ist der Mood-Test, die Voraussetzungen aus Abschnitt 6.4 gelten auch hier. Tests f¨ ur Variabilit¨ atsanalysen •

Zweiseitige Hypothesen H0 : F (z) = G(z) H1 : F (z) = G(θz) f¨ ur alle z ∈ R, θ = 1, θ > 0



Einseitige Hypothesen, Fall A, X streut st¨arker als Y H0 : F (z) = G(z) H1 : F (z) = G(θz) f¨ ur alle z ∈ R, 0 < θ < 1



Einseitige Hypothesen, Fall B, Y streut st¨arker als X H0 : F (z) = G(z) H1 : F (z) = G(θz) f¨ ur alle z ∈ R, θ > 1

6.4 Lineare Rangtests f¨ ur Variabilit¨ atsanalysen

185

Beim Mood-Test werden die quadrierten Abweichungen der R¨ange i von der mittleren Rangzahl (N + 1)/2 als Gewichte g(i) verwendet. Die Teststatistik f¨ ur den Mood-Test ist die lineare Rangstatistik MN

2 N   N +1 i− = Vi 2 i=1

Falls X mehr als Y streut, w¨aren die Abweichungen der R¨ ange der xi zum Durchschnittsrang groß, und man w¨ urde einen großen Wert f¨ ur die Teststatistik erwarten. Testentscheidung (kritische Werte in Tabelle 11.11) •

Zweiseitiger Test: H0 ablehnen, falls MN ≤ cα/2 oder MN ≥ c1−α/2



Einseitiger Test, Fall A (X streut mehr): H0 ablehnen, falls MN ≥ c1−α



Einseitiger Test, Fall B (Y streut mehr): H0 ablehnen, falls MN ≤ cα

Treten Bindungen auf, so wird auch beim Mood-Test die Methode der Durchschnittsr¨ ange angewendet.

Beispiel 6.23. Laufleistung - Mood-Test (vgl. Beispiel 6.21) Die Problemstellung und die Hypothesen sind identisch zu Beispiel 6.21. Wert

x1

x2

y1

y2

y3

y4

y5

y6

x3

x4

Zeit

12

13

15

17

18

24

25

26

29

30

Rang

1

2

3

4

5

6

7

8

9

10

Es ist (N + 1)/2 = 5.5, daraus l¨ asst sich mit einfacher Rechnung die Teststatistik MN berechnen: MN = (1 − 5.5)2 + (2 − 5.5)2 + (9 − 5.5)2 + (10 − 5.5)2 = 65.00 F¨ ur α = 0.05 ist c0.95 ≈ 13 (m = 4, n = 6). Die Nullhypothese wird daher abgelehnt, auch mit dem Mood-Test konnte nachgewiesen werden, dass die Laufleistung der ersten Klasse mehr streut als die der zweiten Klasse.

186

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Bei einer Gesamtstichprobengr¨ oße von N > 20 kann mit der Normalverteilungsapproximation gearbeitet werden, mit E(MN ) = V (MN ) = erh¨alt man

m(N 2 − 1) 12

mn(N + 1)(N 2 − 4) 180

MN − m(N 2 − 1)/12 Z=  mn(N + 1)(N 2 − 4)/180

Z ist f¨ ur N → ∞ asymptotisch standardnormalverteilt.

Beispiel 6.24. Laufleistung - Mood-Test in SAS (vgl. Beispiel 6.23) Die Dateneingabe wurde bereits vorgenommen PROC NPAR1WAY DATA=lauf MOOD; CLASS Gruppe; VAR zeit; EXACT MOOD; RUN; Als Ausgabe erh¨alt man den Wert der Teststatistik, sowie die einseitigen und zweiseitigen p-Werte, beide jeweils exakt und mittels Normalverteilungsapproximation. Auch mit dem Mood-Test erh¨ alt man sowohl bei einseitiger (p = 0.0048) als auch bei zweiseitiger Fragestellung ein signifikantes Ergebnis.

Beispiel 6.25. Laufleistung - Mood-Test in R (vgl. Beispiel 6.23) klasse1=c(12,13,29,30) klasse2=c(15,17,18,24,25,26) mood.test(klasse1,klasse2, alternative="greater") Die Alternative greater ist genau jene einseitige Fragestellung, an der wir interessiert sind (X streut mehr als Y , Fall A). Die Nullhypothese, dass die Streuung der Laufzeiten in beiden Klassen gleich ist, wird abgelehnt (approximierter p-Wert 0.0035).

6.4 Lineare Rangtests f¨ ur Variabilit¨ atsanalysen

187

6.4.3 Ansari-Bradley-Test ¨ Ein weiterer Test zur Uberpr¨ ufung von Variabilit¨ atsunterschieden ist der Ansari-Bradley-Test, wobei auch hier wieder die Voraussetzungen aus Abschnitt 6.4 gelten. Tests f¨ ur Variabilit¨ atsanalysen •

Zweiseitige Hypothesen H0 : F (z) = G(z) H1 : F (z) = G(θz) f¨ ur alle z ∈ R, θ = 1, θ > 0



Einseitige Hypothesen, Fall A, X streut st¨arker als Y H0 : F (z) = G(z) H1 : F (z) = G(θz) f¨ ur alle z ∈ R, 0 < θ < 1



Einseitige Hypothesen, Fall B, Y streut st¨arker als X H0 : F (z) = G(z) H1 : F (z) = G(θz) f¨ ur alle z ∈ R, θ > 1

Beim Ansari-Bradley-Test basiert die Teststatistik auf den Absolutbetr¨agen der Abweichungen der R¨ ange i von der mittleren Rangzahl (N + 1)/2. Die Teststatistik f¨ ur den Ansari-Bradley ist die lineare Rangstatistik AN =

' ' ' N  N '  N + 1 '' N + 1 '' N + 1 '' m(N + 1)  '' V − 'i − − Vi i − = i ' 2 2 ' 2 2 ' i=1 i=1

Falls X mehr als Y streut, w¨aren die Abweichungen der R¨ ange der xi zum Durchschnittsrang groß, und man w¨ urde insgesamt einen kleinen Wert f¨ ur die Teststatistik AN erwarten. Die Gewichte k¨onnen der geordneten gemeinsamen Stichprobe einfach zugeordnet werden: Der kleinste und der gr¨oßte Wert erhalten den Rang 1, der zweitgr¨ oßte und zweitkleinste den Rang 2 und so weiter. Bei geradem Stichprobenumfang N erhalten somit die beiden mittleren Werte jeweils den Rang N/2, bei ungeradem Stichprobenumfang erh¨ alt der mittlere Wert den Rang (N + 1)/2. Testentscheidung Kritische Werte f¨ ur die Testentscheidung findet man in Ansari und Bradley (1960) oder in Hollander und Wolfe (1999).

188

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Beispiel 6.26. Laufleistung - Ansari-Bradley-Test (vgl. Beispiel 6.21) Die Problemstellung und die Hypothesen sind identisch zu Beispiel 6.21. Wert

x1

x2

y1

y2

y3

y4

y5

y6

x3

x4

Zeit

12

13

15

17

18

24

25

26

29

30

Rang

1

2

3

4

5

5

4

3

2

1

Die Teststatistik AN berechnet sich als AN = 1 + 2 + 2 + 1 = 6.00. Die Nullhypothese wird daher abgelehnt, die Laufleistung der ersten Klasse streut mehr als die der zweiten Klasse.

Beispiel 6.27. Laufleistung - Ansari-Bradley-Test in SAS (vgl. Beispiel 6.26) Die Dateneingabe wurde bereits vorgenommen. PROC NPAR1WAY DATA=lauf AB; CLASS Gruppe; VAR zeit; EXACT AB; RUN; Als Ausgabe erh¨ alt man den Wert der Teststatistik, sowie einen einseitigen (den kleineren) und den zweiseitigen p-Wert, beide jeweils exakt und mittels Normalverteilungsapproximation. Auch mit dem Ansari-Bradley-Test erh¨ alt man sowohl bei einseitiger (p = 0.004762) als auch bei zweiseitiger Fragestellung ein signifikantes Ergebnis. Hinweis: SAS bestimmt beim einseitigen Testen nur den sinnvolleren“ (= kleineren) p-Wert. Sinnvoll ist in unserem ” Beispiel die Frage, ob X (signifikant) mehr streut als Y . Bei dieser konkreten Datensituation w¨are es unsinnig zu fragen, ob X weniger als Y streut, weil dies offensichtlich nicht der Fall ist.

Beispiel 6.28. Laufleistung - Ansari-Bradley-Test in R (vgl. Beispiel 6.26) klasse1=c(12,13,29,30) klasse2=c(15,17,18,24,25,26) ansari.test(klasse1,klasse2, alternative="greater") Die Alternative greater ist genau jene einseitige Fragestellung, an der wir interessiert sind (X streut mehr als Y , Fall A). Die Nullhypothese, dass die Streuung der Laufzeiten in beiden Klassen gleich ist, wird abgelehnt (approximierter p-Wert p = 0.0035).

6.5 Konfidenzintervalle

189

Praxistipp Einseitige Fragestellungen sind in SAS und R unterschiedlich implementiert: In SAS wird der sinnvollere“ (weil kleinere) p-Wert ausgegeben und man ” muss bei der Interpretation der Ergebnisse aufmerksam sein. In R wird bei Testaufruf mit der Option alternative=less|greater|two.sided der genau spezifizierte Test durchgef¨ uhrt. Dabei steht die Alternative greater bei •

Tests auf Verteilungsanpassung f¨ ur den Fall A (X stochastisch kleiner als Y, X < Y , FX > FY )



Tests auf Lageunterschied f¨ ur den Fall B (X stochastisch gr¨ oßer als Y, X > Y , X − Y > 0)



Tests auf Variabilit¨ atsunterschied f¨ ur den Fall A (X streut mehr als Y )

6.5 Konfidenzintervalle In diesem Abschnitt werden zuerst Konstruktionsmethoden f¨ ur Konfidenzintervalle f¨ ur den Lageparameter θ betrachtet. Da die dazu verwendeten Statistiken WN von Wilcoxon bzw. die U-Statistik von Mann-Whitney diskrete Zufallsvariablen sind, k¨ onnen im Allgemeinen keine exakten Konfidenzgrenzen f¨ ur ein vorgegebenes Konfidenzniveau S = 1 − α angegeben werden. Stattdessen werden die Konfidenzgrenzen so gew¨ ahlt, dass das Konfidenzniveau mindestens 1 − α betr¨ agt. 6.5.1 Konfidenzintervall f¨ ur die Lageverschiebung θ Unser Ausgangspunkt sind zwei beliebige stetige Verteilungen F (z) und G(z), die sich nur durch den Lageparameter θ unterscheiden. Modell: X ∼ F (z) und Y ∼ G(z) mit F (z) = G(z + θ) Daten: X = x1 , . . . , xm und Y = y1 , . . . , yn Die Stichprobenvariablen X = x1 , . . . , xm und Y = y1 − θ, . . . , yn − θ kommen unter den obigen Voraussetzungen aus Grundgesamtheiten mit identischen Verteilungen. Betrachtet man zun¨achst einen zweiseitigen Test H0 : θ = θ0 zum Signifikanzniveau α, dann erh¨ alt man das Konfidenzintervall f¨ ur θ zum Konfidenzniveau 1 − α durch Dualisierung des zweiseitigen Tests. Das Konfidenzintervall besteht aus allen Werten θ, die zum vorgegebenem Signifikanzniveau nicht zur

190

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Ablehnung von H0 f¨ uhren. Als Teststatistik wird die Wn Statistik von Wilcoxon bzw. die U-Statistik von Mann-Whitney verwendet (vgl. Abschnitt 6.3.1). WN = U +

m(m + 1) 2

Aus Symmetriegr¨ unden gilt f¨ ur die Quantile wα/2 und w1−α/2 der Verteilung von Wn folgende Beziehung: w1−α/2 = 2 · E(WN ) − wα/2 = m(N + 1) − wα/2 Als Annahmebereich f¨ ur die Nullhypothese des oben erw¨ ahnten zweiseitigen Tests wird folgender Bereich definiert: WN ∈ (wα/2 ; m(N + 1) − wα/2 ) mit N = m + n Aus diesem Annahmebereich erh¨alt man durch Dualisierung: P r(wα/2 < WN < m(N + 1) − wα/2 ) = 1 − α Unter Verwendung von r = uα/2 = wα/2 − m(m + 1)/2, dem uα/2 -Quantil der U-Verteilung (Tabelle 11.11) gilt:  m(m + 1) m(2n + m + 1) + r < WN < −r =1−α Pr 2 2 Es wird also zu einem vorgegebenem α zun¨achst das Quantil wα/2 und dann das Quantil r = wα/2 − m(m + 1)/2 bestimmt. Mit dem Quantil r kann ein Konfidenzintervall f¨ ur den Lageunterschied θ konstruiert werden. Vorgehensweise •

Bildung der mn Differenzen Yj − Xi f¨ ur j = 1, . . . , n und i = 1, . . . , m



Ordnung s¨ amtlicher mn Differenzen nach Gr¨oße



Bezeichnung der geordneten Differenzen mit D(1) , . . . , D(mn)



Bestimmung von r = wα/2 − m(m + 1)/2



Untere Grenze des Konfidenzintervalls: gu = D(r+1)



Obere Grenze des Konfidenzintervalls: go = D(mn−r)



Konfidenzintervall: P r(D(r+1) < θ < D(mn−r) ) ≈ 1 − α

6.5 Konfidenzintervalle

191

6.5.2 Konfidenzintervall f¨ ur den Variabilit¨ atsunterschied θ Zur Berechnung des Konfidenzintervalls f¨ ur den Lageunterschied θ wurde ein Test auf Lageunterschied verwendet. Dem entsprechend werden nun f¨ ur die Berechnung von Konfidenzintervallen f¨ ur den Variabilit¨ atsunterschied θ Tests auf Variabilit¨ atsunterschiede verwendet. Ein geeigneter Ausgangstest ist der Moses-Test, der kurz beschrieben werden soll. Modell: X ∼ F (z) und Y ∼ G(z) mit F (z) = G(θz) F (z) und G(z) sind beliebige stetige Verteilungen, die sich nur durch den Variabilit¨ atsparameter θ unterscheiden. Daten: X = x1 , . . . , xm und Y = y1 , . . . , yn Die Stichprobenvariablen X = θx1 , . . . , θxm und Y = y1 , . . . , yn kommen unter den genannten Voraussetzungen aus Grundgesamtheiten mit identischen Verteilungen. Das entsprechende Konfidenzintervall gewinnt man wieder durch Dualisierung des zweiseitigen Test H0 : θ = θ0 auf dem Signifikanzniveau α. Das Konfidenzintervall f¨ ur θ zum Konfidenzniveau 1 − α besteht dann aus dem Annahmebereich des zweiseitigen Tests. Die Beobachtungen der Stichprobenvariablen X = x1 , . . . , xm bzw. Y = y1 , . . . , yn werden zuf¨allig auf m1 bzw. n1 Subgruppen vom Umfang k ≥ 2 aufgeteilt. Sind m oder n nicht durch k teilbar, bleiben die restlichen Beobachtungen unber¨ ucksichtigt. Man definiert

Xi =

k 1 Xvi k v=1

f¨ ur 1 ≤ i ≤ m1

Yj =

k 1 Xwj k w=1

f¨ ur 1 ≤ j ≤ n1

und erh¨ alt

Ai =

k  

Xvi − X i

v=1

2

f¨ ur 1 ≤ i ≤ m1

192

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Bj =

k   2 Ywi − Y j

f¨ ur 1 ≤ j ≤ n1

w=1

Die Testprozedur des Moses-Tests ist analog zum Wilcoxon-Rangsummentest, statt der urspr¨ unglichen Variablen X bzw. Y werden nun die Variablen A und B verwendet. Daher m¨ ussen die R¨ange der Ai der gemeinsamen geordneten Stichprobe (vom Umfang m1 + n1 = N1 ) bestimmt und aufsummiert werden. Streut X mehr als Y , so erwartet man eine große Rangsumme WN1 . Analog zum Konfidenzintervall f¨ ur Lageunterschiede kann nun wieder u ¨ ber Dualisierung des Testproblems eine geeignete Vorgehensweise zur Bestimmung von Konfidenzintervallen f¨ ur Variabilit¨ atsunterschiede empfohlen werden: Vorgehensweise •

Bildung aller m1 n1 m¨oglichen Quotienten Q = Ai /Bj f¨ ur i = 1, . . . , m1 und j = 1, . . . , n1



Ordnung s¨ amtlicher m1 n1 Quotienten nach Gr¨ oße



Bezeichnung der geordneten Quotienten mit Q(1) , . . . , Q(m1 n1 )



Bestimmung des wα/2 -Quantils der WN1 -Verteilung zu einem vorgegebenem Signifikanzniveau α



Bestimmung von r = wα/2 − m1 (m1 + 1)/2



Untere Grenze des Konfidenzintervalls f¨ ur θ2 : gu = Q(r+1)



Obere Grenze des Konfidenzintervalls f¨ ur θ2 : go = Q(m1 n1 −r)



Konfidenzintervall: P r(Q(r+1) < θ2 < Q(m1 n1 −r) ) ≈ 1 − α

Da f¨ ur die Berechnung des Konfidenzintervalls die quadrierten Statistiken Ai und Bj verwendet werden, erh¨alt man das Konfidenzintervall f¨ ur den quadrierten Variabilit¨ atsparameter. Die Grenzen des Konfidenzintervalls f¨ ur den Variabilit¨ atsparameter θ lauten: • • •

 Untere Grenze des Konfidenzintervalls f¨ ur θ : gu = Q(r+1)  Obere Grenze des Konfidenzintervalls f¨ ur θ : go = Q(m1 n1 −r)    Konfidenzintervall: P r Q(r+1) < θ < Q(m1 n1 −r) ≈ 1 − α

¨ Ubungsaufgaben

193

¨ Ubungsaufgaben Aufgabe 6.1. Schuheinlagen Es wurden neuartige orthop¨ adische Schuheinlagen entwickelt, die zu einem schnelleren Erfolg bei der Behandlung von Fußfehlstellungen f¨ uhren sollen. Um festzustellen, ob tats¨ achlich ein Unterschied hinsichtlich der Behandlungsdauer vorhanden ist, wurden 7 Kinder zum Tragen der neuen Schuheinlagen (Gruppe N) und 7 weitere Kinder zum Tragen der herk¨ ommlichen Schuheinlagen (Gruppe A) ausgew¨ahlt. Nach 30 Tagen wurde der Fortschritt auf einer 10stufigen Skala gemessen. Ein niedriger Wert bedeutet, dass sich die Fußfehlstellungen verbessert haben. Testen Sie auf einem Niveau von α = 0.05. Gruppe A

6

7

5

10

7

7

9

Gruppe N

3

2

1

4

1

8

3

Aufgabe 6.2. Wetterf¨ uhligkeit In einer klinischen Untersuchung werden 16 Patienten mit bekannter Wetterf¨ uhligkeit zuf¨ allig zu gleichen Teilen auf eine Therapiegruppe und eine Kontrollgruppe aufgeteilt. In der Kontrollgruppe erhalten die Patienten ein Placebo und in der Therapiegruppe erhalten die Patienten ein Pr¨ aparat, das die Wetterf¨ uhligkeit verbessern soll. Nach 4 Wochen sollen die Patienten auf einer f¨ unfstufigen Schulnotenskala ihr Wohlbefinden angeben. Gruppe T

4

5

1

5

2

2

3

1

Gruppe K

2

3

5

5

5

4

5

2

Testen Sie jeweils auf einem Niveau von α = 0.05, ob das neue Medikament wirkt.

Aufgabe 6.3. Beweis Varianz der Linearen Rangstatistik Beweisen Sie:  " N #2  N   mn N V ar(LN ) = 2 g2 (i)− g(i)  N (N − 1) i=1

i=1

194

6 Zweistichprobenprobleme f¨ ur unabh¨ angige Stichproben

Aufgabe 6.4. B¨ ucher Anhand einer Studie sollte untersucht werden, ob sich Studierende und Nichtstudierende hinsichtlich der Anzahl der gelesenen B¨ ucher pro Jahr signifikant unterscheiden (α = 0.05). Es werden insgesamt m = 7 Studierende und n = 9 Nichtstudierende befragt. Es ergaben sich folgende Werte: Studierende

0

3

4

7

10

12

30

Nichtstudierende

0

2

3

8

10

13

15

19

32

Untersuchen Sie, ob sich Studierende und Nichtstudierende in der Anzahl der gelesenen B¨ ucher unterscheiden. Aufgabe 6.5. Zuckerpackungen Eine Zuckerfabrik stellt Zuckerpackungen her. Die hergestellten Zuckerpackungen sollten dabei hinsichtlich des Gewichts m¨ oglichst wenig streuen. Die zur Zeit verwendete Abf¨ ullmaschine arbeitet jedoch ziemlich ungenau. Deshalb entschloss man sich, zus¨atzlich eine neue Maschine zu testen. Aufgrund einer Stichprobe von m = 7 bei der bisher verwendeten Maschine und n = 9 bei der neuen Maschine sollte u ¨berpr¨ uft werden, ob die neue Maschine besser ist als die alte Maschine (α = 0.05). Alte Maschine

870

930

935

1045

1050

1052

1055

Neue Maschine

932

970

980

1001

1009

1030

1032

1040

1046

Aufgabe 6.6. Konfidenzintervalle Es seien die beiden Stichproben X = 3, 6, 8 und Y = 2, 7, 11 gegeben. Bestimmen Sie ein Konfidenzintervall f¨ ur den Lageunterschied θ unter Verwendung der WN -Statistik von Wilcoxon bzw. der U-Statistik von Mann-Whitney. Das Konfidenzniveau soll ca. 1 − α = 0.90 betragen.

7 Zweistichprobenprobleme f¨ ur verbundene Stichproben

7.1 Problembeschreibung Dieses Kapitel besch¨aftigt sich mit Zweistichprobenproblemen f¨ ur abh¨ angige (verbundene) Stichproben (engl. Bezeichung: matched pairs, paired samples). Im Zweistichprobenfall werden an n Merkmalstr¨agern jeweils zwei Beobachtungen (Zufallsvariablen X und Y ) mit dem Ziel erhoben, Unterschiede zwischen den Verteilungen dieser Zufallsvariablen zu u ¨berpr¨ ufen. Bei dem vorliegenden Testproblem ist die allgemeine Datensituation durch eine gepaarte Stichprobe der Form (x1 , y1 ), . . . , (xn , yn ) der Zufallsvariablen X und Y gegeben, die an n Merkmalstr¨agern beobachtet wurden. Der Begriff Merkmalstr¨ager umfasst dabei sowohl ein- und dasselbe Individuum, an dem zu verschiedenen Zeitpunkten Messwerte erhoben werden, als auch homogene Paare, die m¨ oglichst ¨ahnliche Eigenschaften aufweisen: •



Die Abh¨ angigkeit von Stichproben kann dadurch entstehen, dass bestimmte Messwerte anhand ein- und desselben Individuums zu verschiedenen Zeitpunkten - beispielsweise vor und nach einer medizinischen Behandlung - gemessen werden. Abh¨ angige Stichproben k¨ onnen auch aus Paaren m¨ oglichst gleichartiger Merkmalstr¨ager resultieren (homogene Paare). Von homogenen Paaren spricht man u.a. bei eineiigen Zwillingen oder bei zwei Versuchstieren desselben Wurfs bzw. der gleichen Rasse. Diese Vorgehensweise wird dann bevorzugt, wenn es nicht m¨oglich oder vertretbar ist, Messwiederholungen an einem einzigen Merkmalstr¨ ager durchzuf¨ uhren (z.B. weil Wechselwirkungen auftreten k¨ onnen).

196

7 Zweistichprobenprobleme f¨ ur verbundene Stichproben

Das wiederholte Messen von Werten an einem Merkmalstr¨ager f¨ uhrt dabei zu einer Verringerung der Streuung der verwendeten Teststatistik. Aus diesem Grund sind f¨ ur Fragestellungen mit gebundenen Stichproben andere bzw. adaptierte Testverfahren notwendig.

7.2 Vorzeichentest Ein Vorzeichentest (Sign-Test) wurde bereits bei den Einstichprobenproblemen vorgestellt (vgl. Abschnitt 5.3.2). Im Zweistichprobenfall verwendet der Test die Anzahl der positiven Differenzen zweier Messwertepaare als Teststatistik. Dieses Verfahren ist der ¨alteste nichtparametrische Test, der aufgrund seiner geringen Voraussetzungen und der einfachen Berechnung oft anderen Methoden vorgezogen wird. Die Daten liegen in Form einer abh¨angigen Stichprobe (x1 , y1 ), . . . , (xn , yn ) der Zufallsvariablen X und Y vor, die an n Merkmalstr¨agern beobachtet wurden. Dabei m¨ ussen die Daten mindestens ordinalskaliert sein. Der Vorzeichentest unterliegt folgenden Annahmen: •

angig und identisch verteilt. Die Differenzen Di = Yi − Xi sind unabh¨



Die Wahrscheinlichkeit f¨ ur das Auftreten von identischen Werten ist gleich null (P r(Xi = Yi ) = 0 f¨ ur alle i = 1, . . . , n). Liegen dennoch Bindungen (xi = yi ) vor, so sind diese auf Messungenauigkeiten zur¨ uckzuf¨ uhren.

Die Nullhypothese geht davon aus, dass gleich viele positive und negative Differenzen Di = Yi − Xi vorliegen. Neben dem zweiseitigen Test mit der Alternativhypothese, dass es unterschiedlich viele positive und negative Differenzen gibt, kann auch einseitig getestet werden. Im Fall A beinhaltet die Alternativhypothese die Aussage, dass die Wahrscheinlichkeit einer positiven Differenz geringer als die einer negativen Differenz ist (vereinfacht formuliert: X ist ”gr¨oßer” als Y ).

7.2 Vorzeichentest

197

Vorzeichentest f¨ ur gepaarte Stichproben •

Zweiseitige Hypothesen H0 : P r(X < Y ) = P r(X > Y ) H1 : P r(X < Y ) = P r(X > Y )



Einseitige Hypothesen, Fall A weniger positive Differenzen, X ”gr¨ oßer” Y H0 : P r(X < Y ) ≥ P r(X > Y ) H1 : P r(X < Y ) < P r(X > Y )



Einseitige Hypothesen, Fall B mehr positive Differenzen, X ”kleiner” Y H0 : P r(X < Y ) ≤ P r(X > Y ) H1 : P r(X < Y ) > P r(X > Y )

Um die Anzahl der Differenzen Di = Yi − Xi mit positivem Vorzeichen zu erhalten, wird zun¨ achst die Variable Zi eingef¨ uhrt, die den Wert Eins annimmt, wenn Xi < Yi ist und Null, wenn Xi > Yi gilt:  1 Xi < Yi (≡ Di > 0) Zi = ⇐⇒ Xi > Yi (≡ Di < 0) 0 Die Teststatistik T entspricht der Summe der Zi und ist binomialverteilt T =

n 

Zi

i=1

T ∼ Bn,p

mit

p = P r(Y > X)

T gibt dabei die Anzahl der Paare an, deren Differenz Yi − Xi positiv ist (Yi > Xi ). Unter der Nullhypothese ist diese Teststatistik T binomialverteilt mit den Parametern n und p = 1/2. Damit kann als Entscheidungsregel formuliert werden: Testentscheidung (tp Quantile der Binomialverteilung Bn,p ) • • •

Zweiseitiger Test: H0 ablehnen, falls T ≤ tα/2 oder T ≥ t1−α/2 Einseitiger Test, Fall A: H0 ablehnen, falls T ≤ tα Einseitiger Test, Fall B: H0 ablehnen, falls T ≥ t1−α

Bei großen Stichproben (n ≥ 20) ist die Teststatistik unter der Nullhypothese asymptotisch normalverteilt mit den Parametern µ = n/2 und σ 2 = n/4.

198

7 Zweistichprobenprobleme f¨ ur verbundene Stichproben

Treten Bindungen auf, so besteht bei großen Stichproben die M¨ oglichkeit, die Nulldifferenzen (xi = yi ) aus dem Datensatz zu entfernen und somit den Stichprobenumfang um die Anzahl der Bindungen zu reduzieren. Da diese Vorgehensweise jedoch Informationsverlust und Entscheidungen zugunsten der Alternativhypothese zur Folge hat, ist dies vor allem bei kleineren Stichproben nicht zu empfehlen. Um trotz des Auftretens von Bindungen m¨ oglichst alle Stichprobenpaare verwenden zu k¨ onnen, werden bei einer geraden Anzahl an Nulldifferenzen einer H¨alfte ein positives und der anderen H¨ alfte ein negatives Vorzeichen zugewiesen. Bei Vorliegen einer ungeraden Zahl an Bindungen wird auf ein Paar (xi , yi ) verzichtet.

Beispiel 7.1. Blutdruckvergleich Um den Effekt des Kaffeekonsums auf den menschlichen K¨orper zu u ¨ berp¨ ufen, wird eine Studie an 12 Personen durchgef¨ uhrt, im Zuge derer der systolische Blutdruck im n¨ uchternen Zustand (X) und nach der Einnahme koffeinhaltigen Kaffees (Y ) gemessen wird. An den 12 Merkmalstr¨agern wurden dabei folgende Messwerte (in mmHg) beobachtet: Person

1

2

3

4

5

6

7

8

9

10

11

12

X

131

105

142

115

122

162

119

136

123

129

135

147

Y

142

119

137

124

147

161

132

145

157

136

132

146

Di

11

14

-5

9

25

-1

13

9

34

7

-3

-1

Zi

1

1

0

1

1

0

1

1

1

1

0

0

Es soll nun zum Signifikanzniveau von α = 0.05 getestet werden, ob der systolische Blutdruck nach dem Genuss von Kaffee h¨oher ist als vorher. Zur besseren Veranschaulichung der vorliegenden Datensituation werden die Beobachtungen in Abbildung 7.1 mithilfe eines Boxplots grafisch dargestellt. Man erkennt dabei, dass der Median der Stichprobe X (

x0.5 = 130) kleiner ist als jener der Y -Stichprobe (

y0.5 = 139.5). Getestet wird, ob die Wahrscheinlichkeit f¨ ur das Auftreten positiver Differenzen zwischen den jeweiligen Wertepaaren gr¨oßer ist als jene f¨ ur negative Differenzen (Fall B). Wir bilden daher die Teststatistik T : T =

12  i=1

Zi = 8

199

160 140 100

120

systolischer Blutdruck in mmHg

180

200

7.2 Vorzeichentest

abhängige Stichproben

Abb. 7.1. Systolischer Blutdruck (in mmHg)

Der p-Wert kann mittels P r(T ≥ 8|B12,1/2 ) = 0.194 berechnet werden, d.h. die Wahrscheinlichkeit, dass unter der Nullhypothese acht oder mehr Differenzen positiv sind, betr¨ agt 0.194. Da der p-Wert gr¨ oßer ist als α, muss die Nullhypothese beibehalten werden. Der Einfluss von Koffein auf den Blutdruck kann nicht nachgewiesen werden. ¨ Alternativ zu dieser Uberlegung k¨ onnte man auch das (1 − α)-Quantil der Binomialverteilung bestimmen (beispielsweise mit der Excel-Anweisung =KRITBINOM(12;0.5;0.95) oder mit qbinom(p=0.95,size=12,prob=0.5) in R). Da die Teststatistik T = 8 kleiner als der kritische Wert t1−α = 9 ist, muss die Nullhypothese beibehalten werden

Beispiel 7.2. Blutdruckvergleich in R Um den Vorzeichentest im Programmpaket R durchzuf¨ uhren, sind die Differenzen der jeweiligen Merkmalspaare zu bilden und die positiven Differenzen zu summieren. Mithilfe des Binomialtests wird die Teststatistik auf Signifikanz getestet.

200

7 Zweistichprobenprobleme f¨ ur verbundene Stichproben

n=12 x=c(131,105,142,115,122,162,119,136,123,129,135,147) y=c(142,119,137,124,147,161,132,145,157,136,132,146) D=y-x T=sum(D>0) binom.test(T,n,p=0.5,alternative="greater") Die Funktion binom.test ber¨ ucksichtigt dabei die Anzahl der positiven Differenzen T , den Stichprobenumfang n, die Erfolgswahrscheinlichkeit p (unter H0 ), sowie die zu testende Alternativhypothese alternative="greater". Mit einem p-Wert von 0.1938 kann die Nullhypothese nicht verworfen werden. Es konnte keine signifikante Erh¨ ohung des systolischen Blutdrucks nach der Einnahme von koffeinhaltigem Kaffee festgestellt werden.

Beispiel 7.3. Blutdruckvergleich in SAS F¨ uhrt man den Vorzeichentest in SAS durch, so werden zun¨ achst im Rahmen eines DATA-Steps die Daten eingegeben und gem¨aß d=y-x die Differenzen der jeweiligen Wertepaare gebildet. Mit der Prozedur UNIVARIATE werden die Teststatistik des Vorzeichentests sowie der zweiseitige p-Wert im Output angegeben. DATA Blutdruck; INPUT x y; d=y-x; DATALINES; 131 142 ... ... 147 146 ; RUN; PROC UNIVARIATE; VAR d; RUN; Der Vorzeichentest in SAS f¨ uhrt zu folgendem Ergebnis: Tests auf Lageparameter: Mu0=0 Test

-Statistik-

------p-Wert------

Studentsches t Vorzeichen Vorzeichen-Rang

t M S

Pr > |t| Pr >= |M| Pr >= |S|

2.798093 2 29

0.0173 0.3877 0.0190

7.3 Wilcoxon-Test

201

Die Teststatistik in SAS ist gegeben durch M = T − n/2 = 8 − 6 = 2. SAS bestimmt den zweiseitigen p-Wert, daher ist f¨ ur die einseitige Fragestellung p/2 mit α zu vergleichen. Mit einem p-Wert von 0.3877/2 ≈ 0.1939 kann die Nullhypothese nicht verworfen werden.

Alternativ k¨ onnen die Hypothesen des Vorzeichentests bei Vorliegen eines metrischen Messniveaus auch mithilfe des Medians der Differenzen Di = Yi − Xi fomuliert werden (Fall B): H0 : P r(X < Y ) ≤ P r(X > Y )

⇐⇒

M0 ≤ 0

H1 : P r(X < Y ) > P r(X > Y )

⇐⇒

M0 > 0

Bei symmetrischer Verteilung der Differenzen Di um den Median sollte statt des Vorzeichentests der Wilcoxon-Test verwendet werden, der die Informationen in der Stichprobe besser nutzt.

7.3 Wilcoxon-Test Der Wilcoxon-Test ber¨ ucksichtigt nicht nur die Richtung des Unterschiedes, sondern auch die Gr¨ oße der Abweichung. Dadurch unterliegt der Test jedoch st¨arkeren Voraussetzungen. Der Test entspricht exakt dem in Abschnitt 5.3.3 beschriebenen Wilcoxon-Vorzeichen-Rangtest f¨ ur Einstichprobenprobleme und wird in der Literatur auch oft so bezeichnet. Um die unterschiedliche Fragestellung zu betonen bleiben wir im Fall von zwei verbundenen Stichproben bei der Bezeichnung Wilcoxon-Test. Es liegt wiederum eine gepaarte Stichprobe vor, die aus n Beobachtungen besteht. Die Daten besitzen kardinalskaliertes Meßniveau, damit eine Differenzenbildung m¨ oglich ist. Voraussetzungen Wilcoxon-Test f¨ ur gepaarte Stichproben • •

angige und identisch verteilte Die Differenzen Di = Yi −Xi sind unabh¨ Zufallsvariablen. Die Di sind stetig und symmetrisch um den Median M verteilt.

Dem Wilcoxon-Test liegt folgendes Testproblem zugrunde:

202

7 Zweistichprobenprobleme f¨ ur verbundene Stichproben

Wilcoxon-Test f¨ ur gepaarte Stichproben •

Zweiseitige Hypothesen H0 : M = 0 H1 : M = 0



Einseitige Hypothesen, Fall A weniger positive Differenzen, X ”gr¨ oßer” Y H0 : M ≥ 0 H1 : M < 0



Einseitige Hypothesen, Fall B mehr positive Differenzen, X ”kleiner” Y H0 : M ≤ 0 H1 : M > 0

Um die Teststatistik zu erhalten werden zuerst die Differenzen Di = Yi − Xi gebildet. Anschließend werden die R¨ ange f¨ ur die Absolutbetr¨age der Differenzen |Di | von 1 bis n vergeben, wobei 1 f¨ ur die niedrigste Differenz und n f¨ ur die h¨ ochste Differenz steht. Die Teststatistik berechnet sich durch Aufsummieren der R¨ ange, die von den positiven Differenzen gebildet werden. Teststatistik Wn+ =

n 

Ri+ Zi

i=1



wobei Zi =

1 0

falls Di > 0 falls Di < 0

und Ri+ der Rang von |Di | ist. Die Teststatistik kann auch als lineare Rangstatistik angeschrieben werden Wn+ =

n 

i · Vi

i=1



mit Vi =

1 0

falls Di eine positive Differenz besitzt falls Di eine negative Differenz besitzt

Auffallend ist, dass sich die Teststatistiken des Wilcoxon-Vorzeichen-Rangtest und des Wilcoxon-Test f¨ ur verbundene Stichproben nicht unterscheiden, obwohl sie bei verschiedene Problemen angewendet werden.

7.3 Wilcoxon-Test

203

Testentscheidung (kritische Werte in Tabelle 11.6) •

+ + oder WN+ ≥ w1−α/2 Zweiseitiger Test: H0 ablehnen, falls WN+ ≤ wα/2



Einseitiger Test, Fall A: H0 ablehnen, falls WN+ ≤ wα+



+ Einseitiger Test, Fall B: H0 ablehnen, falls WN+ ≥ w1−α

Liegen Bindungen vor (Di = 0), dann werden die zugeh¨origen Werte aus den Stichproben entfernt und der Test mit den verbleibenden Werten durchgef¨ uhrt. Im Falle von identischen Differenzen (Di = Dj ) wird u ¨ blicherweise eine Durchschnittsrangbildung angewendet. Bei großen Stichproben n ≥ 20 kann eine Approximation durch die Normalverteilung vorgenommen werden. Unter der Nullhypothese ist der Erwartungswert von Wn+ gleich n(n + 1)/4 und die Varianz gleich n(n + 1)(2n + 1)/24. Dem entsprechend ist die Teststatistik n(n + 1) Wn+ − 4 Z=  n(n + 1)(2n + 1) 24 ann¨ ahernd standardnormalverteilt. Im Fall des zweiseitigen Testproblems wird H0 abgelehnt, wenn |Z| ≥ z1− α2 gilt. Beim einseitigen Test wird H0 in Fall A verworfen, wenn Z ≤ zα ist, und in Fall B, falls Z ≥ z1−α ist. Zu beachten ist, dass die Nullhypothese H0 : M = 0 nicht a¨quivalent zu der Hypothese der Gleichheit der Mediane MX und MY ist. Der Wilcoxon-Test ¨ (0 : ”Der Median von Y −X ist l¨ asst sich aber zur Uberpr¨ ufung der Hypothese H (i = Yi −Xi −M0 M0 ” heranziehen. Statt Di = Yi −Xi werden die Differenzen D f¨ ur Wn+ betrachtet. Beispiel 7.4. Blutdruckvergleich - Wilcoxon-Test (vgl. Beispiel 7.1, Seite 198) Das einseitige Testproblem entspricht wieder dem Fall B: H0 : M ≤ 0

H1 : M > 0

Zuerst werden die Differenzen gebildet, die R¨ange vergeben und die Teststatistik berechnet (vgl. n¨ achste Seite). Es ergibt sich ein Wert von Wn+ = + 8 + 10 + 6.5 + 11 + 9 + 6.5 + 12 + 5 = 68. Der w0.95 -Wert in der Tabelle + betr¨ agt 78 − 17 = 61. Die Nullhypothese wird abgelehnt, da Wn+ ≥ w1−α gilt. Der Wilcoxon-Test verarbeitet mehr Informationen als der Vorzeichentest, daher ist es jetzt m¨ oglich nachzuweisen, dass der Kaffeekonsum den Blutdruck signifikant erh¨oht.

204

7 Zweistichprobenprobleme f¨ ur verbundene Stichproben

Person

1

2

3

4

5

6

7

8

9

10

11

12

X

131

105

142

115

122

162

119

136

123

129

135

147

Y

142

119

137

124

147

161

132

145

157

136

132

146

Di

11

14

-5

9

25

-1

13

9

34

7

-3

-1

8

10

4

6.5

11

1.5

9

6.5

12

5

3

1.5

R¨ ange

Beispiel 7.5. Blutdruckvergleich - Wilcoxon-Test in R Nach Installation des Paketes exactRankTests f¨ uhrt folgende Syntax zum Ergebnis x=c(131,105,142,115,122,162,119,136,123,129,135,147) y=c(142,119,137,124,147,161,132,145,157,136,132,146) library(exactRankTests) wilcox.exact(y,x,paired=TRUE,alternative="greater") Die Anweisung paired=TRUE wird angef¨ uhrt, um festzulegen, dass es sich um zwei abh¨angige Stichproben handelt. Durch exact wird der exakte p-Wert ausgerechnet. Man erh¨alt folgende Ausgabe: Exact Wilcoxon signed rank test data: y and x V = 68, p-value = 0.009521 alternative hypothesis: true mu is greater than 0 Die Teststatistik wird ausgegeben (V = 68), der p-Wert betr¨ agt 0.009521, daher ist die Nullhypothese zu verwerfen.

Beispiel 7.6. Blutdruckvergleich - Wilcoxon-Test in SAS Der Programmcode f¨ ur den Wilcoxon-Test unterscheidet sich nicht von dem des Vorzeichen-Tests (vgl. Beispiel 7.3). Die Ergebnisse des Wilcoxon-Tests sind unter dem Punkt Tests auf Lageparameter, unter Vorzeichen-Rang (SignRank) zu finden. Statt der Teststatistik Wn+ wird in SAS die um den Erwartungswert von Wn+ korrigierte Gr¨ oße S = Wn+ − 14 n(n + 1) berechnet, zudem wird zweiseitig getestet. Bei n > 20 wird in SAS automatisch approximiert. Tests auf Test Studentsches t Vorzeichen Vorzeichen-Rang

Lageparameter: -Statistikt 2.798093 M 2 S 29

Mu0=0 ------p-Wert-----Pr > |t| 0.0173 Pr >= |M| 0.3877 Pr >= |S| 0.0190

Wir erhalten (mit n = 12) als Teststatistik S = 68 − 14 12(12 + 1) = 29. Mit einem p-Wert von 0.019/2 ≈ 0.0095 muss die Nullhypothese abgelehnt werden. Der Blutdruck ist nach dem Konsum von Kaffee signifikant h¨ oher.

7.4 McNemar-Test

205

7.4 McNemar-Test Sollen dichotome Variablen in abh¨angigen Stichproben gepr¨ uft werden, so kann der McNemar-Test verwendet werden, der einem χ2 -Test f¨ ur verbundene Stichproben entspricht. Dieser Test wird beispielsweise im Zuge medizinischer Studien angewendet, um einen Vorher-Nachher-Vergleich“ durchf¨ uhren zu ” k¨ onnen. Die Daten liegen dabei in Form einer Vierfeldertafel vor: X=0

X=1

Y =0

a

b

Y =1

c

d

Tabelle 7.1. Vierfeldertafel der Daten im McNemar-Test

Um zu untersuchen, ob sich die beiden Stichproben voneinander unterscheiden, betrachtet man lediglich die Felder b und c in der obigen Tafel, bei denen sich die Auspr¨agung jeweils ge¨andert haben. Dem Test liegt also offensichtlich folgendes Testproblem zugrunde: Hypothesen McNemar-Test •

H0 : b = c Die Anzahl der Ver¨ anderungen von 0 auf 1 ist gleich der Anzahl der Ver¨anderungen von 1 auf 0.



H1 : b = c Die Anzahl der Ver¨ anderungen von 0 auf 1 unterscheidet sich von der Anzahl der Ver¨ anderungen von 1 auf 0.

Die Teststatistik ist unter der Nullhypothese n¨ aherungsweise χ2 -verteilt mit einem Freiheitsgrad und wird auf folgende Weise berechnet: Teststatistik McNemar-Test χ2 =

(b − c)2 b+c

χ2korr =

∼ χ21

(|b − c| − 1)2 b+c

Die korrigierte Teststatistik χ2korr ber¨ ucksichtigt eine Stetigkeitskorrektur. Ist der Wert der berechneten Pr¨ ufgr¨ oße χ2korr > χ21;1−α , so ist die Nullhypothese zu verwerfen. Ein kurzes Anwendungsbeispiel soll die Vorgehensweise des χ2 Tests nach McNemar besser verdeutlichen.

206

7 Zweistichprobenprobleme f¨ ur verbundene Stichproben

Beispiel 7.7. RaucherInnen Es soll untersucht werden, ob eine Gesundheitskampagne eine signifikante Ver¨anderung hinsichtlich der Anzahl an RaucherInnen zur Folge hat. Zu diesem Zweck werden 300 Personen jeweils vor und nach der Kampagne befragt, ob sie rauchen. Hat die Kampagne keinen Einfluss auf das Rauchverhalten der teilnehmenden Personen, so sollten die Felder b und c zufallsbedingt in etwa gleich sein. Wir erhalten folgende Vierfeldertafel: 

X=0

X=1

Y =0

132

49

181

Y =1 

21

98

119

153

147

300

Tabelle 7.2. Rauchverhalten vor (X) und nach (Y ) der Kampagne (1 = RaucherIn)

Die Teststatistik ist gegeben durch χ2korr = Da

729 (|49 − 21| − 1)2 = = 10.4143 49 + 21 70

χ2korr = 10.4143

>

χ21;0.95 = 3.842

gilt, ist die Nullhypothese zu verwerfen. Die Anzahl der RaucherInnen, die nach der Kampagne das Rauchen aufgegeben haben (b = 49) unterscheidet sich signifikant von der Anzahl der NichtraucherInnen, die trotz der Kampagne zu RaucherInnen wurden (c = 21).

Beispiel 7.8. RaucherInnen - McNemar-Test in R Der Test wird in R mit der Funktion mcnemar.test(x,correct=TRUE) durchgef¨ uhrt. x ist in diesem Fall die als zweidimensionale Matrix eingegebene Vierfeldertafel. Die Option correct=TRUE bewirkt die Ber¨ ucksichtigung der Stetigkeitskorrektur. x = matrix(c(132,49,21,98), ncol=2) mcnemar.test(x, correct=TRUE) Als Ergbnis erh¨ alt man den Wert der Teststatistik χ2korr = 10.4143 und den zugeh¨origen approximierten p-Wert (p = 0.00125).

7.5 Konfidenzintervalle f¨ ur den Median der Differenz

207

Beispiel 7.9. RaucherInnen - McNemar-Test in SAS Um den χ2 -Test nach McNemar in SAS durchzuf¨ uhren, werden zun¨ achst im Zuge des DATA-Steps die Datenwerte der Vierfeldertafel eingegeben. Mithilfe der Prozedur FREQ wird dann die Teststatistik des McNemar-Tests berechnet. Durch die Anweisung EXACT k¨ onnen exakte Werte f¨ ur den vorliegenden Test (MCNEM) angefordert werden. DATA Rauchen; INPUT x y Anzahl; DATALINES; 0 0 132 0 1 49 1 0 21 1 1 98 ; RUN; PROC FREQ ORDER=DATA; TABLES x * y / AGREE; WEIGHT Anzahl; EXACT MCNEM; RUN; Dieser Test in SAS liefert unter anderem folgendes Ergebnis: Test von McNemar Statistik (S) DF Pr > S Exakte Pr >= S

11.2000 1 0.0008 0.0011

Die Teststatistik beinhaltet keine Stetigkeitskorrektur, neben dem asymptotischen p-Wert (p = 0.0008) ist auch der exakte p-Wert f¨ ur die unkorrigierte Teststatistik angegeben (p = 0.0011).

7.5 Konfidenzintervalle f¨ ur den Median der Differenz Dieser Abschnitt besch¨ aftigt sich nun mit der Konstruktion von Konfidenzintervallen f¨ ur den Median M der Variablen D im Zweistichprobenfall abh¨ angiger Stichproben. Es werden dabei zwei verschiedene Konstruktionsmethoden behandelt. Beiden Verfahren gemeinsam ist die Annahme, dass die gebildeten Differenzen Di zwischen den jeweiligen Wertepaaren identisch, unabh¨ angig und stetig verteilt sind.

208

7 Zweistichprobenprobleme f¨ ur verbundene Stichproben

7.5.1 Basis Ordnungsreihen Es besteht zun¨ achst die M¨ oglichkeit, Vertrauensintervalle f¨ ur den Median zur Sicherheit S = 1 − α auf der Grundlage der Ordnungsreihe der gebildeten Differenzen zwischen den Merkmalswerten Yi − Xi zu berechnen. Die Differenzen sind folglich der Gr¨ oße nach zu ordnen und die Zahlen k und l so zu bestimmen, dass P r(D(k)

l−1   n 0.5n ≈ 1 − α < M < D(l) |M ∼ Bn,p=0.5 ) = j j=k

gilt. Diese Beziehung kann auch mithilfe der Verteilungsfunktion F einer binomialverteilten Zufallsvariablen mit den Parametern n und p dargestellt werden: F (l − 1) − F (k − 1) ≈ 1 − α D(k) und D(l) sollen dabei an symmetrischen Positionen der Ordnungsreihe gew¨ahlt werden, wobei l − k minimal sein muss. [D(k) , D(l) ] ist dann ein Konfidenzintervall zur Sicherheit S ≈ 1 − α. Bei Stichprobenumf¨ angen n ≥ 20 kann die Berechnung von k und l approximativ u ¨ ber die Normalverteilung erfolgen: Bn,p=0.5 ≈ N (n/2, n/4) Es gilt:  P r(M < k|M ∼ Bn;0.5 ) = α/2



Φ

k − n/2 √ n/2

= α/2

k und l = n + 1 − k k¨ onnen nun offensichtlich (mit Φ(zp ) = p) bestimmt werden durch: √ √ n n n n k= − z1−α/2 z1−α/2 l= + 2 2 2 2 7.5.2 Basis Wilcoxon-Statistik F¨ ur die Berechnung wird nun zus¨ atzlich vorausgesetzt, dass die Differenzen Di symmetrisch um den Median M verteilt sind. Zur Berechnung werden in  einem ersten Schritt die n(n + 1)/2 mittleren Differenzen Dij = (Di + Dj )/2 mit 1 ≤ i ≤ j ≤ n gebildet. Ausgehend von diesen Werten wird anschlie  ßend die Ordnungsreihe D(1) , . . . , D(n(n+1)/2) geformt. Mit Hilfe der Quantile der Wilcoxon-Statistik (vgl. Tabelle 11.6) werden die R¨ ange der Grenzen des Konfidenzintervalls bestimmt als

7.5 Konfidenzintervalle f¨ ur den Median der Differenz

209

+ k = wα/2

und

+ l = n(n + 1)/2 − wα/2 +1

Bei n > 20 kann wieder u ¨ber die Normalverteilung approximiert werden mit  + wα/2 ≈ n(n + 1)/4 + zα/2 n(n + 1)(2n + 1)/24

Beispiel 7.10. Konfidenzintervall An sieben Ratten wird untersucht, wie lange die Ratten brauchen, um ein Labyrinth zu durchlaufen. Die Annahme besteht, dass die Ratten beim zweiten Durchlauf schneller sind, da das Labyrinth schon bekannt ist. Ein Konfidenzintervall zum Niveau α = 0.05 f¨ ur den Median der Differenzen soll berechnet werden. x:

34

29

31

32

28

40

39

y:

39

26

29

41

35

46

44.5

di

5

-3

-2

9

7

6

5.5

Um das vorher beschriebene Verfahren anzuwenden, werden n(n + 1)/2 = 28  arithmetische Mittel Dij = (Di + Dj )/2 mit 1 ≤ i ≤ j ≤ n berechnet. Anschließend wird die Ordnungsreihe gebildet. Bei α = 0.05 wird aus der + Tabelle der Wert k = wα/2 = 3 entnommen. Der zweite Index ergibt sich aus + l = n(n + 1)/2 − wα/2 = (7 · (7 + 1))/2 − 3 + 1 = 26. Folglich lautet das   Konfidenzintervall f¨ ur M [D(3) , D(26) ]. Aus der Ordnungsreihe ergibt sich das Intervall [−2, 7.5].

Beispiel 7.11. Konfidenzintervall in R Das Konfidenzintervall kann in der Anweisung f¨ ur den Wilcoxon-Test durch den Zusatz conf.int=TRUE berechnet werden. Folgende Ausgabe zeigt das Ergebnis: Exact Wilcoxon signed rank test data: y and x V = 25, p-value = 0.07813 alternative hypothesis:true mu is not equal to 0 95 percent confidence interval: -2.0 7.5 sample estimates: (pseudo)median 5.125 Mit einer Wahrscheinlichkeit von 95% wird der Median der Differenzen vom Intervall [−2, 7.5] u ¨ berdeckt.

210

7 Zweistichprobenprobleme f¨ ur verbundene Stichproben

¨ Ubungsaufgaben Aufgabe 7.1. Unterricht In einer Schule werden 20 Sch¨ ulerInnen einem Test unterzogen, in dem ihr Wissen in den naturwissenschaftlichen F¨ achern gepr¨ uft wird. Die Sch¨ ulerInnen k¨ onnen dabei eine maximale Anzahl von 50 Punkten erreichen. Nach 2 Wochen, in denen die Jugendlichen intensiven Unterricht in den naturwissenschaftlichen Gegenst¨ anden erhalten haben, m¨ ussen sie erneut einen Test mit gleichem Schwierigkeitsgrad durchf¨ uhren. Folgende Punkte wurden erreicht:

Test 1 32 41 18 25

5 50 47 46 30 32 22 35

6 17 14 27 48 43

8 37

Test 2 34 40 23 29 11 49 48 45 48 41 28 47 24 35 27 36 46 49 16 41

Es soll nun untersucht werden, ob sich die Testergebnisse der Sch¨ ulerInnen nach dem intensiven Unterricht signifikant ver¨andert (bzw. verbessert) haben (α = 0.05). Berechnen Sie zus¨atzlich ein Konfidenzintervall f¨ ur den Median zur Sicherheit 1 − α = 0.95.

Aufgabe 7.2. Vorsorgeuntersuchung 150 zuf¨allig ausgew¨ahlten Personen u ¨ber 50 wird die Frage gestellt, ob sie sich einer Vorsorgeuntersuchung zur Fr¨ uherkennung von Darmkrebserkrankungen unterziehen w¨ urden. Nach einigen Wochen, in denen in den Medien verst¨ arkt u ¨ ber die durchaus positiven Heilungschancen bei Fr¨ uherkennung von Darmkrebs berichtet wurde und die Wichtigkeit einer solchen Untersuchung betont wurde, werden diese Personen erneut befragt. Die Ergebnisse dieser Befragung sind in der folgenden Vierfeldertafel enthalten:

Vorher = ja

Vorher = nein

Nachher = ja

27

41

Nachher = nein

6

76

Es soll nun untersucht werden, ob die Kampagne eine signifikante Ver¨ anderung zur Folge hatte.

¨ Ubungsaufgaben

211

Aufgabe 7.3. Di¨ at Ein Forschungsinstitut hat eine neue Di¨ at f¨ ur adip¨ ose Erwachsene entwickelt. Diese soll an acht Versuchspersonen getestet werden. Anhand des Body-MassIndizes (BMI) der Versuchspersonen vor und nach dem Abnehmprogramm soll getestet werden, ob die Di¨ at den BMI der Personen signifikant verbessert hat. Zus¨ atzlich soll ein Konfidenzintervall f¨ ur den Median der BMI-Differenz berechnet werden (α = 0.05). Die Daten der Personen sind in der folgenden Tabelle zu finden: Person 1

2

3

4

5

6

7

8

9

BMI vorher

31.5

34

33.7

32.6

34.9

35.9

32

30.5

32.8

BMI nachher

29.8

32.7

30.4

32.6

33.5

33

32.9

30.3

33.1

Aufgabe 7.4. Migr¨ ane Im Rahmen einer medizinischen Studie soll an 12 PatientInnen, die an Migr¨ ane leiden, die Wirkung eines neuen Medikaments getestet werden. Zu diesem Zweck m¨ ussen die TeilnehmerInnen der Studie zun¨ achst ein Monat lang bei Migr¨ aneanf¨ allen das herk¨ ommliche Medikament X zur Schmerzlinderung verwenden. Im zweiten Monat erhalten die PatientInnen ausschließlich das neue Schmerzmittel Y . Nach diesen zwei Monaten werden die PatientInnen befragt, ob sie durch die Einnahme von Medikament Y die Schmerzen besser behandeln konnten als mit dem herk¨ ommlichen Schmerzmittel X ( +“ bei ” Verbesserung, −“ bei Verschlechterung und =“ bei gleicher Schmerzlinde” ” rung). Es soll nun untersucht werden, ob zwischen den beiden Medikamenten ein Unterschied hinsichtlich des Behandlungserfolges besteht. Ist das neue Medikament besser (α = 0.05)? PatientIn

1

2

3

4

5

6

7

8

9

10

11

12

Bewertung

+

-

+

+

=

+

-

+

+

=

+

-

8 c-Stichproben-Problem

In den vorhergehenden Kapiteln wurden bereits Zwei-Stichproben-Tests f¨ ur unabh¨ angigen und verbundenen Stichproben behandelt. In diesem Kapitel wird die Verallgemeinerung auf c-Stichproben-Probleme besprochen. Um mehrere Stichproben miteinander zu vergleichen, ist es nicht zielf¨ uhrend  alle 2c Paarvergleiche durchzuf¨ uhren, da man bei dieser Vorgehensweise stets einen insgesamt zu großen α-Fehler hat. Man ben¨otigt einen Test, der Unterschiede in den c Stichproben gleichzeitig zu einem vorgegebenen α-Niveau aufzeigt. Der Test gibt dabei lediglich an, dass Unterschiede in zumindest 2 der c Stichproben bestehen, ohne darauf einzugehen, welche Stichproben sich unterscheiden. Deckt der c-Stichproben-Test Unterschiede auf, so kann man anschließend mit Zwei-Stichproben-Tests bestimmen, welche Gruppen sich unterscheiden. In diesem Fall muss allerdings das α-Niveau der Tests mit der Anzahl der notwendigen Tests adjustiert werden, d.h. n Paarvergleiche sollten zum Niveau α/n durchgef¨ uhrt werden ( Bonferroni-Korrektur“). Eine ” weitere M¨oglichkeit zur Aufdeckung der unterschiedlichen Gruppen bietet der Nemenyi-Test, der aber in diesem Einf¨ uhrungsbuch nicht beschrieben wird.

8.1 Unabh¨ angige Stichproben ¨ Ausgangspunkt unserer Uberlegung sind c Stichproben mit Stichprobenc  umf¨angen ni (i = 1, . . . , c) mit insgesamt N = ni Erhebungseinheiten: i=1

1. Stichprobe: x1 = (x11 , x12 , . . . , x1n1 ) 2. Stichprobe: x2 = (x21 , x22 , . . . , x2n2 ) .. . c. Stichprobe: xc = (xc1 , xc2 , . . . , xcnc )

214

8 c-Stichproben-Problem

Die Zufallsvariablen Xij mit i = 1, . . . , c und j = 1, . . . , ni sind unabh¨ angig und innerhalb der Stichproben identisch nach einer stetigen Verteilungsfunktion Fi verteilt. Die Stichprobengr¨ oßen ni (i = 1, . . . , c) k¨onnen dabei unterschiedlich groß sein.

8.1.1 Kruskal-Wallis-Test Mit dem Kruskal-Wallis-Test kann u ¨berpr¨ uft werden, ob c Stichproben aus einer gemeinsamen Grundgesamtheit bzw. aus Grundgesamtheiten mit gleicher Verteilungsfunktion F angeh¨ oren. Als Nullhypothese wird demnach angenommen, dass die Verteilungen aller c Stichproben identisch sind und insbesondere gleichen Mittelwert bzw. Median besitzen. Die Alternativhypothese behauptet, dass zumindest zwei Verteilungen hinsichtlich der Lage unterschiedlich sind. Hypothesen Kruskal-Wallis-Test H0 : F1 (z) = F2 (z) = . . . = Fc (z) H1 : Fi (z − θi ) = Fj (z − θj ) mit θi = θj f¨ ur mindestens ein Paar i, j (mindestens zwei Verteilungen unterschieden sich in der Lage) Der Kruskal-Wallis-Test ist eine Verallgemeinerung des bekannten WilcoxonRangsummentests f¨ ur zwei Stichproben (vgl. Abschnitt 6.3.1). Die Zufallsvariablen Xij m¨ ussen zumindest ordinales Niveau haben, unabh¨ angig und innerhalb der Stichproben identisch verteilt sein. Zun¨ achst werden alle c Stichproben in einer gepoolten Stichprobe zusammengefasst. Danach werden alle N Erhebungseinheiten der Gr¨ oße nach geordnet und die zugeh¨ origen R¨ange 1, . . . , N vergeben. Wir bezeichnen mit rij ri =

den Rang von xij in der gepoolten Stichprobe ni 

rij

die Rangsumme der i-ten Stichprobe

j=1

r¯i = ri /ni

den Rangdurchschnitt der i-ten Stichprobe

Mit der Teststatistik von Kruskal und Wallis werden die Rangdurchschnitte r¯i der c Stichproben mit dem Rangdurchschnitt der gepoolten Stichprobe r¯ = (N + 1)/2 verglichen. Dazu wird folgende gewichtete Summe der quadrierten Abweichungen berechnet:

8.1 Unabh¨ angige Stichproben

  1 12 12 ni (¯ ri − r¯)2 = N (N + 1) i=1 N (N + 1) i=1 ni c

H=

c

215

2  ni (N + 1) ri − 2

Je einheitlicher die Rangdurchschnitte r¯i sind, desto kleiner wird die Statistik H. Unter der Nullhypothese sind die Rangdurchschnitte r¯i ann¨ ahernd gleich, man kann hier also kleine Werte f¨ ur H erwarten. Die Teststatistik kann weiter vereinfacht werden: Teststatistik von Kruskal und Wallis ) * c  ri2 12 H= − 3(N + 1) N (N + 1) i=1 ni F¨ ur große Stichprobenumf¨ ange ni kann die Statistik unter H0 durch die χ2 Verteilung mit c − 1 Freiheitsgraden approximiert werden. Dies ist bereits zul¨assig, wenn der kleinste Stichprobenumfang gr¨ oßer als 5 ist. Bei c = 3 Stichproben sollte allerdings mindestens ein ni -Wert gr¨oßer als 8 sein. F¨ ur kleinere Stichprobenumf¨ ange muss der exakte Test durchgef¨ uhrt werden. Dazu muss die berechnete H-Statistik mit den Quantilen aus Tabelle 11.14 verglichen werden. Die Nullhypothese wird abgelehnt, wenn H ≥ h1−α ist. Testentscheidung (kritische Werte in Tabelle 11.14) Die Nullhypothese H0 wird abgelehnt, wenn H ≥ h1−α (f¨ ur große Stichproben wenn H ≥ χ21−α;c−1 ) Treten Bindungen zwischen zwei oder mehreren Stichproben auf, so muss die H-Statistik korrigiert werden. Bindungen innerhalb von Gruppen k¨ onnen ignoriert werden, da dies auf die Rangsummen ri keinen Einfluss hat. Der Korrekturfaktor f¨ ur die H-Statistik wird wie folgt berechnet: Korrekturfaktor f¨ ur die H-Statistik bei Bindungen B    lb3 − lb

C =1−

b=1

N3 − N

und

H∗ =

H C

B bezeichnet die Gesamtzahl der Rangbindungsgruppen und lb die L¨ange der b-ten Bindungsgruppe.

216

8 c-Stichproben-Problem

Beispiel 8.1. Fernsehverhalten Es soll untersucht werden, ob der TV-Konsum von Studierenden verschiedener Fakult¨ aten unterschiedlich ist. Dazu wurde von N = 21 Studierenden an c = 3 Fakult¨ aten die durchschnittliche Fernsehdauer in Stunden pro Tag erhoben: SOWI: TNF: REWI:

2.4 3.1 1.5

3.8 3.4 3.8

1.3 2.6 4.3

2.5 3.8 2.1

1.1 4.1 4.6

2.2 1.7 4.4

3.9 2.5

2.0

n1 = 7 n2 = 6 n3 = 8

3.5 3.0 2.5 2.0 1.0

1.5

TV−Konsum in Stunden pro Tag

4.0

4.5

Zur besseren Veranschaulichung sind die Daten in Abbildung 8.1 als Boxplot dargestellt. Hier erkennt man bereits, dass die Mediane der zweiten und der dritten Gruppe ann¨ ahernd gleich groß sind. Der Median der ersten Gruppe ist um etwa 0.7 Stunden kleiner als die beiden anderen Mediane.

SOWI

TNF

REWI

Fakultäten

Abb. 8.1. Boxplot der Daten

Die N Beobachtungen werden aufsteigend vom kleinsten Wert mit Rang 1 bis zum gr¨oßten Wert mit Rang N geordnet, bei Bindungen wird der Durchschnittsrang vergeben. In Tabelle 8.1 sind die Beobachtungen mit den zugeh¨ origen R¨angen und den Rangsummen angegeben. Rangbindungen sind mit ∗ gekennzeichnet.

8.1 Unabh¨ angige Stichproben SOWI j 1 2 3 4 5 6 7 8

x1j 2.4 3.8 1.3 2.5 1.1 2.2 3.9 -

TNF

r1j 8 15∗ 2 9.5∗ 1 7 17 r1 = 59.5

x2j 3.1 3.4 2.6 3.8 4.1 1.7 -

r2j 12 13 11 15∗ 18 4 r2 = 73.0

x3j 1.5 3.8 4.3 2.1 4.6 4.4 2.5 2.0

217

REWI r3j 3 15∗ 19 6 21 20 9.5∗ 5 r3 = 98.5

Tabelle 8.1. Rangsummenberechnung

F¨ ur die Berechnung der H-Statistik erh¨ alt man: 12 · H= 21(21 + 1)



59.52 73.02 98.52 + + 7 6 8

− 3 · (21 + 1) = 1.7064

Da Bindungen in den Daten vorkommen, muss die Rangstatistik noch korrigiert werden: (23 − 2) + (33 − 3) C =1− = 0.9967 213 − 21 1.7064 H∗ = = 1.712 0.9967 Da s¨ amtliche Stichprobenumf¨ ange ni gr¨ oßer als 5 sind, kann eine χ2 -Verteilung approximiert werden. F¨ ur den α-Fehler wird 0.05 festgelegt. Die korrigierte H-Statistik ist kleiner als das zugeh¨orige χ2 -Quantil: H ∗ < χ20.95;2 = 5.99. Somit kann die Nullhypothese nicht verworfen werden. Es konnte demnach nicht nachgewiesen werden, dass die durchschnittliche Fernsehdauer pro Tag in den einzelnen Fakult¨atsgruppen unterschiedlich ist.

Beispiel 8.2. Fernsehverhalten in SAS In SAS wird die Prozedur NPAR1WAY zur Durchf¨ uhrung des Kruskal-WallisTests verwendet. Im CLASS-Statement wird die Variable f¨ ur die Gruppenklassifizierung festgelegt, im VAR-Statement wird die Responsevariable angegeben. Mit dem EXACT-Statement wird der Test exakt berechnet, allerdings ist dies bereits bei kleinen Stichprobenumf¨ angen sehr zeitaufw¨andig. F¨ ur eine schnellere Berechnung mittels Monte-Carlo-Simulationen kann die MC-Option verwendet werden.

218

8 c-Stichproben-Problem

DATA tv; INPUT Gruppe Stunden; DATALINES; 1 2.4 1 3.8 .. ... 3 2.0 ; RUN; PROC NPAR1WAY WILCOXON DATA = tv; CLASS Gruppe; EXACT / MC N = 100000 SEED = 1; VAR stunden; RUN; Ausgegeben werden die korrigierte H-Statistik H ∗ , die Freiheitsgrade und der approximierte p-Wert. F¨ ur den exakten Test wird der Monte-Carlo-Sch¨ atzer und das Konfidenzintervall des p-Wertes angegeben. Kruskal-Wallis-Test Chi-Quadrat 1.7120 DF 2 Pr > Chi-Quadrat 0.4249 Monte-Carlo-Sch¨ atzer f¨ ur den exakten Test Pr >= Chi-Quadrat Sch¨ atzer 0.4396 99% Untere Konf.grenze 0.4356 99% Obere Konf.grenze 0.4437 Da der p-Wert gr¨ oßer als α ist, muss die Nullhypothese beibehalten werden, es konnten keine signifikanten Gruppenunterschiede festgestellt werden.

Beispiel 8.3. Fernsehverhalten in R In R steht im Basispaket stats die Funktion krukal.test() zur Verf¨ ugung. Die c Stichproben werden als eine Liste von Vektoren u ¨ bergeben. x1 = c(2.4, 3.8, 1.3, x2 = c(3.1, 3.4, 2.6, x3 = c(1.5, 3.8, 4.3, kruskal.test(list(x1,

2.5, 1.1, 2.2, 3.9) 3.8, 4.1, 1.7) 2.1, 4.6, 4.4, 2.5, 2.0) x2, x3))

Die Funktion gibt eine Liste zur¨ uck, die den Wert der korrigierten HStatistik H ∗ (1.712), die Freiheitsgrade (df = 2) und den approximierten pWert (0.4249) enth¨ alt. Da der p-Wert gr¨ oßer als α ist, muss die Nullhypothese beibehalten werden, es konnten keine signifikanten Gruppenunterschiede festgestellt werden.

8.1 Unabh¨ angige Stichproben

219

8.1.2 Mediantest Der Mediantest f¨ ur Zwei-Stichproben-Probleme aus Abschnitt 6.3.4 kann auf c Stichproben erweitert werden. Mit diesem Test wird die Gleichheit der c Stichprobenmediane u ¨berpr¨ uft. Die Zufallsvariablen Xij m¨ ussen wieder zumindest ordinales Niveau haben, unabh¨ angig und innerhalb der Stichproben identisch verteilt sein. Als Nullhypothese wird angenommen, dass die Mediane Mi , i = 1, . . . , c gleich sind. Die Alternativhypothese besagt, dass zumindest zwei Mediane unterschiedlich sind, ohne jedoch anzugeben, welche und wie viele Stichproben sich in welche Richtung unterscheiden. Hypothesen Mediantest H0 : M 1 = M 2 = . . . = M c H1 : nicht alle Mi , i = 1, . . . , c sind gleich Zun¨ achst werden alle c Stichproben in einer gepoolten Stichprobe zusammengefasst und es wird der gemeinsame Median M bestimmt. Danach werden die Werte der c Stichproben mit dem gemeinsamen Median M verglichen. In einer (2×c)-Kontingenztabelle wird festgehalten, wie viele Beobachtungen der i-ten Stichprobe gr¨ oßer oder kleiner gleich dem gemeinsamen Median sind. Gilt die Nullhypothese, so w¨ urden in etwa die H¨ alfte der Werte jeder Stichprobe u ¨ber bzw. unter dem gemeinsamen Median liegen. Danach wird die Teststatistik berechnet: Teststatistik f¨ ur den Mediantest χ2 =

c 2   (hoij − heij )2 heij i=1 j=1

Dabei ist hoij bzw. heij die Anzahl der beobachteten bzw. erwarteten H¨ aufigkeiten. Die unter der Nullhypothese erwarteten H¨ aufigkeiten werden wie beim klassischen χ2 -Test aus den Randh¨aufigkeiten berechnet. Die Teststatistik ist χ2 -verteilt mit c − 1 Freiheitsgraden. Testentscheidung Mediantest Die Nullhypothese wird abgelehnt, wenn χ2 ≥ χ21−α;c−1 . Der Einsatz des Mediantests ist besonders dann sinnvoll, wenn in den Daten viele Ausreißer enthalten sind, oder nicht alle Werte exakt beobachtbar sind, also nur gerundete Daten vorliegen. Im Vergleich zum Kruskal-Wallis-Test ist der Mediantest weniger effizient, da nicht alle Ranginformationen der Daten

220

8 c-Stichproben-Problem

enthalten sind, sondern lediglich die Information ob die Datenpunkte u ¨ber dem gemeinsamen Median liegen oder nicht. Beispiel 8.4. Fernsehverhalten F¨ ur die Daten aus Beispiel 8.1 soll der Mediantest durchgef¨ uhrt werden. Der gemeinsame Median der gepoolten Stichprobe betr¨ agt M = 2.6. Neben der Kontingenztabelle 8.2 sind in Tabelle 8.3 die erwarteten H¨ aufigkeiten angegeben. ≤M >M

SOWI 5 2 n1 = 7

TNF 2 4 n2 = 6

REWI 4 4 n3 = 8

11 10 N = 21

Tabelle 8.2. Kontingenztabelle

≤M >M

SOWI 3.667 3.333 n1 = 7

TNF 3.143 2.857 n2 = 6

REWI 4.190 3.810 n3 = 8

11 10 N = 21

Tabelle 8.3. Erwartete H¨ aufigkeiten unter Nullhypothese

F¨ ur die Berechnung der χ2 -Statistik ergibt sich:

χ2 =

(5 − 3.667)2 (2 − 3.143)2 (4 − 4.190)2 + + + 3.667 3.143 4.190 +

(2 − 3.333)2 (4 − 2.857)2 (4 − 3.810)2 + + = 1.909 3.333 2.857 3.810

Da der berechnete p-Wert bei einem α-Fehler von 5% kleiner als das entsprechende χ2 -Quantil χ20.95;2 = 5.99 ist, kann die Nullhypothese nicht verworfen werden. Zur Kontrolle wird mit R der χ2 -Wert u ¨ berpr¨ uft: kontingenztab = matrix(c(5, 2, 4, 2, 4, 4), ncol = 2) chisq.test(kontingenztab) Pearson’s Chi-squared test X-squared = 1.9091, df = 2, p-value = 0.385

8.1 Unabh¨ angige Stichproben

221

8.1.3 Jonckheere-Terpstra-Test Mit dem Kruskal-Wallis- und Mediantest kann man lediglich auf Lageunterschiede der c Stichproben, also zweiseitige Lagealternativen, testen. Man erh¨alt keinerlei Informationen dar¨ uber, welche und wie viele Stichproben sich dabei in welche Richtung voneinander unterscheiden. Der Jonckheere¨ Terpstra-Test erlaubt eine Uberpr¨ ufung eines Trends der einzelnen Stichproben, also einseitige geordnete Alternativen. Als Alternativhypothese H1 wird formuliert, dass die Lagemaße (Mittelwert, Median) ansteigen. Hypothesen Jonckheere-Terpstra-Test H0 : F1 (x) = F2 (x) = . . . = Fc (x) H1 : F1 (x) ≥ . . . ≥ Fc (x) mit mindestens einer echten Ungleichung (gleichbedeutend mit θ1 ≤ θ2 ≤ . . . ≤ θc ) Im folgenden wird angenommen, dass Xij stetig verteilt ist, d.h. dass keine Bindungen auftreten. Zur Berechnung der Teststatistik werden die MannWhitney-U-Statistiken (vgl. Abschnitt 6.3.2) u ¨ber alle paarweisen Vergleiche aufsummiert: Jonckheere-Terpstra-Statistik J=

c 

Uij =

i Xis

und im Fall von Bindungen mit   0 ψ(Xjt − Xis ) = 0.5  1

f¨ ur Xjt < Xis f¨ ur Xjt = Xis f¨ ur Xjt > Xis

Unter der Nullhypothese ist eine kleine Teststatistik zu erwarten, w¨ ahrend eine große Teststatistik auf einen Trend in der Lage hindeutet.

222

8 c-Stichproben-Problem

Der Erwartungswert und die Varianz der J-Statistik sind: " # c  1 N2 − E(J) = n2i 4 i=1 " # c  1 2 2 N (2N + 3) − ni (2ni + 3) V (J) = 72 i=1 Somit kann man folgende Approximation vornehmen (ab N ≥ 12): J − E(J) Z=  ∼ N (0, 1) V (J) Testentscheidung Jonckheere-Terpstra-Test (Tab. 11.15 u. 11.16) Die Nullhypothese wird abgelehnt, wenn J ≥ J1−α (f¨ ur große Stichproben, wenn Z ≥ u1−α ) Beispiel 8.5. Schlafdauer nach Kaffeekonsum In einer Studie soll der Einfluss von koffeinhaltigem Kaffee auf die Schlafdauer in Minuten untersucht werden. Insgesamt werden N = 15 Personen beobachtet. Die n1 = 4 Personen der ersten Gruppe trinken vier Tassen, die n2 = 6 Personen der zweiten Gruppe lediglich zwei Tassen und die n3 = 5 Personen der dritten Gruppe gar keinen Kaffee. Als Alternativhypothese wird angenommen, dass die Schlafdauer mit sinkendem Kaffeekonsum steigt. Gruppe 1: Gruppe 2: Gruppe 3:

447 438 513

396 521 543

383 468 506

410 391 489

504 407

472

n1 = 4 n2 = 6 n3 = 5

Zun¨ achst werden f¨ ur alle drei paarweisen Vergleiche die Mann-WhitneyStatistiken Uij berechnet. U12 = 4 + 5 + 6 + 5 = 20 U13 = 4 + 5 + 5 + 4 = 18 U23 = 4 + 1 + 4 + 5 + 3 + 4 = 21 F¨ ur die Jonckheere-Terpstra-Teststatistik J erh¨alt man: J = 20 + 18 + 21 = 59 Da 59 ≥ 54 gilt, ist die Nullhypothese abzulehnen. Der Erwartungswert und die Varianz der J-Statistik sind gegeben durch: 152 − (42 + 62 + 52 ) = 37 4  1  2 V (J) = 15 · 33 − (42 · 11 + 62 · 15 + 52 · 13) = 88.6667 72 E(J) =

8.1 Unabh¨ angige Stichproben

223

Somit erh¨ alt man f¨ ur die standardnormalverteilte Gr¨ oße Z: 59 − 37 ≈ 2.34 Z= √ 88.6667 Da Z ≥ u0.95 = 1.645 ist, wird die Nullhypothese verworfen: Die Schlafdauer steigt signifikant mit sinkendem Kaffeekonsum. Beispiel 8.6. Schlafdauer nach Kaffeekonsum in SAS SAS stellt mit der Prozedur FREQ den Jonckheere-Terpstra-Test zur Verf¨ ugung. Mit der JT-Option im TABLES-Statement wird der Test asymptotisch durchgef¨ uhrt. Im EXACT-Statement kann mit der JT-Option der exakte Test durchgef¨ uhrt werden. DATA Kaffee; INPUT Gruppe Minuten; DATALINES; 1 447 1 396 .. ... 3 407 ; RUN; PROC FREQ DATA = Kaffee; EXACT JT; TABLES Gruppe*Minuten / JT; RUN; Die Prozedur gibt die J-Statistik, die Z-Statistik und die p-Werte f¨ ur die einseitige und die zweiseitige Alternative aus. Jonckheere-Terpstra-Test Statistik (JT) 59.0000 Z 2.3364 Asymptotischer Test Einseitige Pr > Z 0.0097 Zweiseitige Pr > |Z| 0.0195 Exakter Test Einseitige Pr >= JT 0.0099 Zweiseitige Pr >= |JT - Mittelwert| 0.0197 Stichprobengr¨ oße = 15 Da der einseitige p-Wert kleiner als α ist, wird die Nullhypothese verworfen, die Schlafdauer steigt von Gruppe 1 nach Gruppe 3 signifikant an.

224

8 c-Stichproben-Problem

Beispiel 8.7. Schlafdauer nach Kaffeekonsum in R In R enth¨ alt das Paket clinfun die Funktion jonckheere.test(). Die Daten m¨ ussen hier als Matrix u ¨ bergeben werden. Zus¨atzlich muss in einem Vektor die Gruppenzugeh¨ origkeit angegeben werden. Kaffee = as.matrix(c(447,396,383,410,438,521,468, + 391,504,472,513,543,506,489,407)) Gruppe = c(rep(1, 4), rep(2, 6), rep(3, 5)) library(clinfun) jonckheere.test(Kaffee, Gruppe, alternative = "increasing") Als Teststatistik JT wird in R die Abweichung zur maximal m¨oglichen Teststatistik ausgegeben, die man u ¨ ber den Zusammenhang JT =

c c−1  

ni nj − J

i=1 j=i+1

erh¨alt. In unserem Beispiel ist demnach JT = 4 · 6 + 4 · 5 + 6 · 5 − 59 = 15, der p-Wert betr¨ agt 0.009866, daher ist die Nullhypothese zu verwerfen. Die Schlafdauer steigt signifikant bei sinkendem Kaffeekonsum.

8.2 Abh¨ angige Stichproben Sind die Stichproben verbunden (abh¨ angig), werden also zum Beispiel an einer Person mehrere medizinische Untersuchungen durchgef¨ uhrt, dann sind auch im Fall von c Stichproben spezielle Test f¨ ur verbundene Stichproben zu verwenden. In diesem Kapitel werden verschiedene Verfahren behandelt, die f¨ ur mehr als zwei abh¨angige Stichproben geeignet sind. Allgemein werden die Daten in n Bl¨ocken (Gruppen, Individuen) erfasst und jeder Block umfasst c Behandlungen (Erhebungen, Messungen, vgl. Tabelle 8.4). Block 1 2 3 .. . n

1 x11 x21 x31 .. . xn1

Behandlung 2 3 ... x12 x13 . . . x22 x23 . . . x32 x33 . . . .. .. .. . . . xn2 xn3 . . .

c x1c x2c x3c .. . xnc

Tabelle 8.4. Datensituation bei c verbundenen Stichproben

8.2 Abh¨ angige Stichproben

225

Voraussetzungen 1. Die Stichprobenvariablen Xij sind innerhalb eines Blocks unabh¨ angig (i = 1, . . . , n, j = 1, . . . , c). 2. Die Stichprobenvariablen Xij haben stetige Verteilungsfunktionen Fij . 3. F¨ ur die Verteilungsfunktionen Fij gilt Fij (z) = F (z − αi − θj ), wobei F eine stetige Verteilungsfunktion mit unbekannten Median, αi ein unbekannter Blockeffekt und θj der zu untersuchende Behandlungseffekt ist. 4. Die Daten besitzen mindestens ordinales Messniveau. Die hier vorgestellten Tests verwenden statt der beobachteten Variablen deren R¨ange innerhalb eines Blockes. Durch diese Vorgehensweise werden die unbekannten Blockeffekte αi eliminiert und die Behandlungseffekte θj (Lageunterschiede) k¨onnen untersucht werden. Die nachfolgenden Tests geben lediglich Aufschluss dar¨ uber, ob Unterschiede zwischen den Behandlungen vorliegen oder nicht. Die Tests k¨ onnen Hinweise darauf geben, dass Unterschiede in zumindest zwei der c Stichproben bestehen, ohne jedoch darauf einzugehen, welche Stichproben sich unterscheiden. Deckt der c-Stichproben-Test Unterschiede auf, so kann man anschließend mit Zwei-Stichproben-Tests f¨ ur verbundene Stichproben bestimmen, welche Stichproben Unterschiede aufweisen. Wie schon bei den Tests f¨ ur unabh¨ angige Stichproben erw¨ ahnt, muss das α-Niveau der Tests mit der Anzahl der durchzuf¨ uhrenden Tests adjustiert werden, d.h. die n Paarvergleiche m¨ ussen zum Niveau α/n durchgef¨ uhrt werden ( Bonferroni-Korrektur“). ” 8.2.1 Friedman-Test Der Friedman-Test ist das nichtparametrische Gegenst¨ uck zum F -Test und eine Erweiterung des Wilcoxon-Tests. Mit diesem Test wird u ¨ berpr¨ uft ob c Behandlungen gleich sind, oder ob unterschiedliche Ergebnisse erzielt werden. Hypothesen Friedman-Test H0 : θ 1 = θ 2 = . . . = θ c H1 : nicht alle θj sind gleich (j = 1, . . . , c) Um Unterschiede zwischen den Behandlungsgruppen aufzudecken, werden zun¨achst die Daten innerhalb eines Blocks durch die R¨ange ersetzt. Bei Bindungen innerhalb eines Blocks werden Durchschnittsr¨ ange vergeben. Anschließend wird pro Behandlung (Spalte) die Rangsumme rj , j = 1, . . . , c gebildet, die Rangsumme pro Block (Zeile) ist immer gleich c(c + 1)/2. Insgesamt erhalten wir eine Ausgangssituation wie in Tabelle 8.5 dargestellt.

226

8 c-Stichproben-Problem Behandlungen 2 3 ...



Individuen

1

1 2 3 .. . n

r11 r21 r31 .. . rn1

r12 r22 r32 .. . rn2

r13 r23 r33 .. . rn3

... ... ... .. . ...

rnc

c(c + 1)/2 c(c + 1)/2 c(c + 1)/2 .. . c(c + 1)/2

r1

r2

r3

···

rc

nc(c + 1)/2

c r1c r2c r3c .. .

Tabelle 8.5. R¨ ange und Rangsummen

Der Friedman-Test basiert auf der Idee, dass unter der Nullhypothese die Rangsummen der einzelnen Behandlungen rj (j = 1, . . . , c) gleich der durchc  schnittlichen Rangsumme r¯ = 1c rj = n(c+1) sein sollten. 2 j=1

Die Teststatistik Fc basiert auf der Summe der Abweichungsquadrate zwischen den Rangsummen der einzelnen Behandlungen und der durchschnittlichen Rangsumme und kann angeschrieben werden als  12 2 (rj − r¯) nc(c + 1) j=1 c

Fc = oder a¨quivalent dazu Friedman-Statistik 

 c  12 r2  − 3n(c + 1) Fc =  nc(c + 1) j=1 j

Im Falle von Bindungen innerhalb der Bl¨ ocke muss die Friedman-Statistik mit dem Korrekturfaktor C korrigiert werden: Korrekturfaktor f¨ ur die Friedman-Statistik C=

1

B 

nc(c2 − 1)

b=1

Fc∗ =

(lb3 − lb )

1 Fc 1−C

8.2 Abh¨ angige Stichproben

227

Dabei ist B die Anzahl der Bindungsgruppen und lb die L¨ange der b-ten Rangbindungsgruppe. F¨ ur kleine Stichprobenumf¨ ange sind die kritischen Werte f1−α in Tabelle 11.17 angef¨ uhrt. F¨ ur große Stichprobenumf¨ ange ist die Friedman-Statistik unter der Nullhypothese asymptotisch χ2 -verteilt mit c − 1 Freiheitsgraden. Testentscheidung Friedman-Test (Tabelle 11.17) Die Nullhypothese wird abgelehnt, wenn Fc ≥ f1−α (f¨ ur große Stichproben, wenn Fc ≥ χ21−α;c−1 ) Beispiel 8.8. Sportleistungen Friedman-Test Es wird untersucht, ob sich die Leistungen von Studierenden w¨ ahrend der Studienzeit ver¨ andern. Dazu wird jedes Semester bei n = 5 Studierenden ein Test u ¨ ber verschiedene Gebiete des Studiums (Weitsprung, Hochsprung, Sprint, usw.) durchgef¨ uhrt. Die jeweilige Gesamtpunktezahl ist in Tabelle 8.6 angef¨ uhrt.

Person 1 2 3 4 5

1 15.5 14.3 15.3 16.9 14.9

2 15.0 15.9 15.1 16.8 14.5

3 17.2 15.1 15.9 17.1 14.3

Semester 4 5 17.6 16.9 14.9 15.2 16.3 17.1 17.3 17.2 14.8 15.1

6 17.2 15.8 17.1 18.3 15.2

7 17.3 16.1 17.3 18.5 16.0

8 17.8 16.1 17.3 19.5 15.9

Tabelle 8.6. Punktezahl der Studierenden

Zun¨ achst werden die Punkte der einzelnen Personen in eine Rangordnung gebracht. Gleiche Werte innerhalb einer Person werden dabei mit einem Durchschnittsrang ber¨ ucksichtigt, danach werden die Spaltenrangsummen rj gebildet.

Person 1 2 3 4 5 rj

1 2 1 2 2 4 11.0

2 1 6 1 1 2 11.0

Semester - R¨ ange je Person 3 4 5 6 7 4.5 7 3 4.5 6 3 2 4 5 7.5 3 4 5.5 5.5 7.5 3 5 4 6 7 1 3 5 6 8 14.5 21.0 21.5 27.0 36.0

8 8 7.5 7.5 8 7 38.0

228

8 c-Stichproben-Problem

Man erkennt, dass sich die Rangsummen der einzelnen Semester wesentlich unterscheiden. Nun ist mittels der Fc -Statistik zu u ¨berpr¨ ufen, ob diese Unterschiede auf einem α-Niveau von 5% signifikant sind. F¨ ur den Korrekturfaktor und die Friedman-Statistik erh¨ alt man: 1 24 · 4 · (23 − 2) = = 0.0095 5 · 8 · (82 − 1) 2520    2  12 1 ∗ 2 · · 11 + . . . + 38 − 3 · 5 · 9 = Fc = 1 − 0.0095 5 · 8 · (8 + 1) 1 · 25.8167 = 26.0649 = 0.9905 C=

Der Wert der korrigierten Friedman-Statistik muss mit dem zugeh¨ origen χ2 2 Quantil χ0.95; 7 = 14.067 verglichen werden. Die berechnete Fc -Statistik ist deutlich gr¨oßer, daher wird die Nullhypothese abgelehnt. Das bedeutet, es konnte nachgewiesen werden, dass sich die Leistungen der Studierenden w¨ahrend des Studiums ver¨ andern. Dieser Test gibt jedoch noch keine Auskunft dar¨ uber zwischen welchen Semestern die Unterschiede in den Leistungen vorliegen bzw. ob sich diese verbessert oder verschlechtert haben. Das Ergebnis besagt nur, dass sich mindestens zwei Semesterleistungen signifikant voneinander unterscheiden.

Beispiel 8.9. Sportleistungen Friedman-Test in SAS In SAS steht zur Berechnung der Friedman-Statistik die Prozedur FREQ mit dem Statement CMH2 SCORES = RANK zur Verf¨ ugung. DATA Studierende; INPUT id semester Punkte @@; DATALINES; 1 1 15.5 .. .. ... 5 8 15.9 ; RUN; PROC FREQ DATA = Studierende; TABLES id*semester*punkte / CMH2 SCORES = RANK; RUN; In der zweiten Zeile des Outputs der Cochran-Mantel-Haenszel-Statistiken ist der Wert der Fc -Statistik angef¨ uhrt (26.0649), zus¨atzlich werden die Freiheitsgrade (7) und der p-Wert (0.0005) angegeben. Da der p-Wert kleiner ist als α wird die Nullhypothese verworfen.

8.2 Abh¨ angige Stichproben

229

Beispiel 8.10. Sportleistungen Friedman-Test in R In R m¨ ussen die Daten in Matrixform an die Funktion friedman.test() im Basispaket stats u ¨ bergeben werden.

+ + + + +

sportstud = matrix(c(15.5, 15.0, 17.2, 17.6, 16.9, 17.2, 17.3, 17.8, 14.3, 15.9, 15.1, 14.9, 15.2, 15.8, 16.1, 16.1, 15.3, 15.1, 15.9, 16.3, 17.1, 17.1, 17.3, 17.3, 16.9, 16.8, 17.1, 17.3, 17.2, 18.3, 18.5, 19.5, 14.9, 14.5, 14.3, 14.8, 15.1, 15.2, 16.0, 15.9), 5, 8, byrow = TRUE) friedman.test(sportstud)

Die Funktion gibt den Wert der Fc -Statistik (26.0649), die Anzahl der Freiheitsgrade (7) und den zugeh¨ origen p-Wert (0.0004904) an. Weil der p-Wert kleiner ist als α wird die Nullhypothese verworfen: Es gibt signifikante Unterschiede in den Leistungen von zumindest zwei Semestern.

8.2.2 Kendall-Test Ein sehr a¨hnliches Verfahren zum Friedman-Test ist der Kendall-Test. Der enge Zusammenhang ist durch die Definition der W -Statistik ersichtlich. W-Statistik von Kendall und Babington-Smith 2 c   12 n(c + 1) 1 Fc rj − W = 2 2 = n c(c − 1) j=1 2 n(c − 1) bzw. bei Bindungen W∗ =

1 F∗ n(c − 1) c

Diese Statistik wird auch als Kendalls Konkordanzkoeffizient bezeichnet. Ur¨ spr¨ unglich war W als Maß f¨ ur die Ubereinstimmung von Rangzuweisungen durch n Beurteilungen gedacht. Statt c Behandlungen an n Personen und der Frage, ob diese Behandlungen unterschiedliche Effekte haben, wird nun gefragt, ob bei n Personen die Rangzuweisung von c Objekten (z.B. hinsichtlich eines Rankings von c Eissorten) u ¨bereinstimmt. Stimmen die Beurteilungen der n Personen vollkommen u ¨ berein, so w¨ urde man W = 1 erhalten, bei vollst¨andiger Verschiedenheit der Bewertungen w¨ urde sich W = 0 ergeben. Damit kann der Konkordanzkoeffizient aber auch als Erweiterung des Rangkorrelationskoeffizienten f¨ ur n beurteilende Personen interpretiert werden. Tats¨achlich besteht zwischen dem Konkordanzkoeffizient W und dem Rangkorrelationskoeffizienten ρ folgender funktionaler Zusammenhang:

230

8 c-Stichproben-Problem

n(W − 1) ρ¯ = n−1

mit

n n−1 1     ρ¯ = n ρij 2

i=1 j=i+1

ρ¯ ist der Mittelwert aller m¨ oglichen paarweisen Rangkorrelationen nach Spearman.

Beispiel 8.11. Sportleistungen Kendall-Test Fortsetzung von Beispiel 8.8 Die W -Statistik von Kendall und Babington-Smith ist W =

1 · 26.0649 = 0.7447 5 · (8 − 1)

In R kann diese mit der Funktion kendall.w() aus dem Paket concord berechnet werden. Die Dateneingabe erfolgt analog zu Beispiel 8.10. library(concord) kendall.w(sportstud) Das Ergebnis beinhalten den Wert der Teststatistik (W = 0.7447115) und den p-Wert (0.00049), der dem p-Wert aus dem Friedman-Test entspricht.

8.2.3 Q-Test von Cochran Aus der Fc -Statistik von Friedman wurde von Cochran eine vereinfachte Statistik f¨ ur dichotome Merkmale entwickelt. Die Auspr¨ agungen der Variablen Xij k¨ onnen daher mit 1 (z.B. f¨ ur erfolgreiche Behandlung) und 0 (nicht erfolgreich) codiert werden. Der Q-Test von Cochran eignet sich zum Untersuchen von Anteilsver¨ anderungen. Als Nullhypothese wird angenommen, dass sich die Anteile nicht unterscheiden. Hypothesen Q-Test von Cochran H0 : p1 = p2 = . . . = pc H1 : nicht alle pi sind gleich (i = 1, . . . , c) Dabei ist pi der Anteil der Erfolge in der i-ten Behandlung. Beim Betrachten der Hypothesen wird deutlich, dass auch hier weder die Richtung noch die Gr¨ oße der Unterschiede getestet wird. Es wird lediglich u ¨berpr¨ uft, ob u ¨ berhaupt ein Unterschied besteht oder nicht.

8.2 Abh¨ angige Stichproben

231

Wir bezeichnen mit Sj S¯ = Zi

die Spaltensumme der j-ten Behandlung (j = 1, . . . , c) 1 c

c 

Sj

den Durchschnitt der Spaltensummen

j=1

die Summe der i-ten Zeile (i = 1, . . . , n)

Mit diesen Bezeichnungen lautet die von Cochran hergeleitete Teststatistik: Q-Statistik von Cochran c(c − 1)

c 

¯2 (Sj − S)

j=1

Q= c

n  i=1

Zi −

n  i=1

Zi2

Q ist asymptotisch χ2 -verteilt mit c− 1 Freiheitsgraden (ab etwa n = 4 Blocks und nc ≥ 24). Der Spezialfall c = 2 f¨ uhrt uns wieder zum McNemar-Test f¨ ur zwei verbundene Stichproben mit dichotomen Merkmalen (vgl. Abschnitt 7.4). Testentscheidung Q-Test von Cochran Die Nullhypothese wird (f¨ ur große Stichproben) abgelehnt, wenn Fc ≥ χ21−α;c−1

Beispiel 8.12. Klausuren Cochran-Test Bei Studierenden wird untersucht, ob sich die Klausuren aus den F¨ achern A bis D im Schwierigkeitsgrad voneinander unterscheiden. Dazu wird bei n = 5 Studierenden erhoben, ob die Klausuren beim ersten Mal bestanden wurden (1) oder nicht (0). In Tabelle 8.7 sind die 0/1-codierten Daten angegeben.

Person 1 2 3 4 5 Sj

Fach A 1 0 0 1 1 3

Klausuren Fach B Fach C 1 0 1 1 0 1 1 1 0 0 3 3

Fach D 1 1 0 1 1 4

Tabelle 8.7. Klausurergebnisse

Durch Einsetzen in die Formel der Q-Statistik erh¨ alt man:

Zi 3 3 1 4 2 13

232

8 c-Stichproben-Problem

  4 · 3 · 3(3 − 3.25)2 + (4 − 3.25)2 = 0.692 Q= 4 · 13 − (32 + 32 + 12 + 42 + 22 ) Der zugeh¨orige χ2 -Wert betr¨ agt χ20.95;3 = 7.815. Da Q < χ20.95;3 wird die Nullhypothese nicht abgelehnt, der Schwierigkeitsgrad der Klausuren unterscheidet sich nicht. Beispiel 8.13. Klausuren Cochran-Test in SAS In SAS ist das Vorgehen analog wie beim Friedman-Test (vgl. Beispiel 8.9), der Unterschied liegt in den Daten, die jetzt dichotom sind (0-1-Codierung). Das SAS-Ergebnis beinhaltet die Teststatistik (0.6923) und den p-Wert (0.8750). Da der p-Wert gr¨ oßer ist als α muss die Nullhypothese beibehalten werden. Es konnte kein signifikanter Unterschied gefunden werden. Beispiel 8.14. Klausuren Cochran-Test in R Die Berechnung in R ist ebenfalls mit der Funktion friedman.test() m¨oglich, da der Test von Cochran lediglich eine Vereinfachung des Friedman-Tests f¨ ur dichotome Variablen ist. Das Ergebnis beinhaltet die Teststatistik (0.6923) und den p-Wert (0.875). Da der p-Wert gr¨ oßer ist als α muss die Nullhypothese beibehalten werden. Es konnte kein signifikanter Unterschied gefunden werden.

8.2.4 Durbin-Test Wird nicht jeder Block mit jeder Behandlung erhoben (unvollst¨ andige Bl¨ocke), so kann der Test von Durbin verwendet werden. Es m¨ ussen jedoch bestimmte zus¨ atzliche Voraussetzungen erf¨ ullt sein. Voraussetzungen • • •

In jedem Block muss die gleiche Anzahl k an Behandlungen bewertet werden (k < c). Jede Behandlung wird genau r mal bewertet (r < n). Jede Behandlung wird mit den anderen Behandlungen gleich oft bewertet (m-mal)

Hypothesen H0 : θ 1 = θ 2 = . . . = θ c H1 : nicht alle θj sind gleich (j = 1, . . . , c) Die Statistik von Durbin ist folgendermaßen definiert:

8.2 Abh¨ angige Stichproben

233

D-Statistik von Durbin 2 c  12(c − 1)  r(k + 1) rj − D= rc(k 2 − 1) j=1 2 rj entspricht wieder der Rangsumme der j-ten Behandlung, wobei zu beachten ist, dass bei jedem Individuum nur k Beobachtungen existieren. Die Spaltensumme besteht hier nur aus r R¨angen. Die Teststatistik D ist bereits f¨ ur r ≥ 3 approximativ χ2 -verteilt, mit c − 1 Freiheitsgraden. Testentscheidung Durbin-Test Die Nullhypothese wird abgelehnt, wenn D ≥ χ21−α;c−1

Beispiel 8.15. Tanzbewerb - Durbin-Test Im Rahmen eines Tanzwettbewerbes bei dem insgesamt c = 7 T¨ anze vorgef¨ uhrt werden, beurteilen 7 Wertungsrichter die einzelnen T¨ anze und bringen sie in eine Rangordnung. Um den Wertungsrichtern die Entscheidung zu erleichtern, wird jedoch nicht jeder Tanz bewertet, sondern nur insgesamt 3. Die Bewertungen der Richter sind in Tabelle 8.8 angegeben.

Richter 1 2 3 4 5 6 7 rj

1 1 1 2

2 2

3 3

1 1

4

4

Tanz 4

5

2

3

2 2 2 7

1 5

6

7

1 3

3

2 3

1

3

8

5

3 9

Tabelle 8.8. Bewertungen des Tanzwettbewerbes

Setzt man nun in die Statistik von Durbin ein (mit c = 7 und r = k = 3), so erh¨alt man:

234

8 c-Stichproben-Problem

)  2 2  2  3·4 12(7 − 1) 3·4 3·4 2 4 − D= + 2 5 − + 7 − + 3 · 7(32 − 1) 2 2 2 2  2 *  72 3·4 3·4 · 24 = 10.2857 = + 9− + 8− 2 2 168 Das χ2 -Quantil betr¨agt 19.675, daher wird die Nullhypothese beibehalten: Es konnte keine unterschiedliche Bewertung festgestellt werden.

Beispiel 8.16. Tanzbewerb - Durbin-Test in R In R kann der Durbin-Test mit Hilfe des Paketes agricolae durchgef¨ uhrt werden. Die Vorgehensweise zur Dateneingabe kann aus der kommentierten Syntax entnommen werden. # # # #

Anzahl der Richter und Anzahl der Bewertungen Richter = gl(7,3) Welche T¨ anze wurden bewertet Tanz = c(1,2,3,1,4,5,1,6,7,2,4,6,2,5,7,3,5,6,3,4,7) Wie wurden die T¨ anze bewertet Bewertung = c(1,2,3,1,2,3,2,1,3,1,2,3,1,2,3,2,3,1,2,1,3) Durbin Test im Package agricolae library(agricolae) durbin.test(Richter,Tanz,Bewertung,group=TRUE)

Unter anderem kann man im Ergebnis den Wert der Teststatistik (10.28571), die Freiheitsgrade (6) und den p-Wert (0.1131242) ablesen. Da der p-Wert gr¨ oßer ist als α wird die Nullhypothese beibehalten. Es konnte kein signifikanter Unterschied bei den Bewertungen festgestellt werden.

8.2.5 Trendtest von Page Der Trendtest von Page ist das f¨ ur abh¨ angige Stichproben geeignete Gegenst¨ uck zum Jonckheere-Terpstra-Test. Es soll getestet werden, ob ein Trend in den Stichproben vorliegt. Die einseitig geordneten Hypothesen lauten: Hypothesen Trendtest von Page H0 : F1 (x) = F2 (x) = . . . = Fc (x) H1 : F1 (x) ≥ . . . ≥ Fc (x) mit mindestens einer echten Ungleichung (gleichbedeutend mit θ1 ≤ θ2 ≤ . . . ≤ θc )

8.2 Abh¨ angige Stichproben

235

Diese Formulierung der Hypothesen ist besonders dann sinnvoll, wenn man u ¨ ber die Wirkung der unterschiedlichen Behandlungen bereits zuvor eine Aussage treffen kann. In diesem Fall ist der Trendtest von Page effizienter als der Friedman-Test. Die Statistik von Page lautet unter Verwendung der Spaltenrangsumme rj (j = 1, . . . , c): Teststatistik Trendtest von Page L=

c 

j · rj

j=1

In der Formulierung der Hypothesen und der Teststatistik wurde von einem steigenden Trend ausgegangen. Soll ein sinkender Trend nachgewiesen werden, wird der Index j durch den Index c + 1 − j ersetzt. Je nachdem ob in der Alternativhypothese ein aufsteigender oder ein absteigender Trend getestet wird, wird somit auch der Index aufsteigend oder absteigend gew¨ ahlt. Man kann nat¨ urlich auch einfach die Stichproben umsortieren, damit in der Alternativhypothese ein aufsteigender Trend formuliert werden kann. Der Erwartungswert und die Varianz der L-Statistik von Page sind: E(L) =

n · c · (c + 1)2 4

n · c2 · (c + 1)2 · (c − 1) 144 F¨ ur große Stichprobenumf¨ ange kann eine Approximation durch die Standardnormalverteilung vorgenommen werden: V (L) =

L − E(L) Z=  ∼ N (0, 1) V (L) Testentscheidung Page-Test H0 wird abgelehnt, wenn Z > u1−α ist. F¨ ur kleine Stichprobengr¨ oßen sind die kritischen Werte in Tabellen angegeben, wie z.B. in Hollander und Wolfe (1999) oder Page (1963).

Beispiel 8.17. Di¨ atstudie Es soll die Gewichtsver¨ anderung w¨ ahrend einer Trennkost-Di¨at untersucht werden. Dazu wird jeweils am Montag einer Woche bei 6 Personen das Gewicht in kg gemessen. Die Studie dauert insgesamt 10 Wochen. Tabelle 8.9 enth¨ alt die erhobenen Daten.

236

8 c-Stichproben-Problem Woche j Person

1

2

3

4

5

6

7

8

9

10

1

72.0

72.0

71.5

69.0

70.0

69.5

68.0

68.0

67.0

68.0

2

83.0

81.0

81.0

82.0

82.5

81.0

79.0

80.5

80.0

81.0

3

95.0

92.0

91.5

89.0

89.0

90.5

89.0

89.0

88.0

88.0

4

71.0

72.0

71.0

70.5

70.0

71.0

71.0

70.0

69.5

69.0

5

79.0

79.0

78.5

77.0

77.5

78.0

77.5

76.0

76.5

76.0

6

80.0

78.5

78.0

77.0

77.5

77.0

76.0

76.0

75.5

75.5

Tabelle 8.9. Gewichtsver¨ anderung bei der Trennkost-Di¨ at

Die interessierende Frage ist, ob diese Di¨at das Gewicht reduzieren konnte, demnach lauten die zu testenden Hypothesen H0 : das Gewicht bleibt gleich = ˆ θ1 = . . . = θ10 H1 : das Gewicht wird reduziert = ˆ θ1 ≥ . . . ≥ θ10 Zun¨achst werden die Daten je Person (Block) in eine Rangordnung gebracht, bei Bindungen werden wie u ¨blich Durchschnittsr¨ ange verwendet. Die Summe der Produkte aus Rangsummen und den (absteigenden) Indizes ergeben die Teststatistik. In Tabelle 8.10 sind die Werte angegeben.

Person 1 2 3 4 5 6 rj c+1−j rj (c + 1 − j)

1 9.5 10 10 7.5 9.5 10 56.5 10 565

2 9.5 5.5 9 10 9.5 9 52.5 9 472.5

3 8 5.5 8 7.5 8 8 45 8 360

4 5 8 4.5 5 4 5.5 32 7 224

Woche j 5 6 7 6 9 5.5 4.5 7 3.5 7.5 5.5 7 7 5.5 36.5 38.5 6 5 219 192.5

7 3 1 4.5 7.5 5.5 3.5 25 4 100

8 3 3 4.5 3.5 1.5 3.5 19 3 57

9 1 2 1.5 2 3 1.5 11 2 22

10 3 5.5 1.5 1 1.5 1.5 14 1 14

Tabelle 8.10. R¨ ange der Trennkost-Di¨ at

F¨ ur die Teststatistik, sowie deren Erwartungswert und Varianz erh¨ alt man:

8.2 Abh¨ angige Stichproben

L=

10 

237

rj (c + 1 − j) = 2226

j=1

6 · 10 · 112 = 1815 4 6 · 102 · 112 · 9 = 4537.5 V (L) = 144

E(L) =

Die standardnormalverteilte Gr¨ oße Z ist somit: Z=

2226 − 1815 √ = 6.101 4537.5

(8.1)

Wegen Z > u0.95 = 1.645 wird die Nullhypothese verworfen. Es konnte demnach nachgewiesen werden, dass das Gewicht reduziert wurde (α = 0.05). Beispiel 8.18. Di¨ atstudie in R In R ist der Trendtest im Paket concord implementiert. Bei der Dateneingabe ist darauf zu achten, dass die Stichproben so sortiert sind, dass ein steigender Trend nachzuweisen ist. Die Stichproben aus Beispiel 8.17 m¨ ussen daher umsortiert werden. Gewicht=matrix(c(68.0,67.0,...,80.0),nrow=6,byrow=TRUE) library(concord) page.trend.test(Gewicht) Neben der Teststatistik (L=2226) wird auch der (exakte oder approximierte) p-Wert ausgegeben. In unserem Beispiel ist der exakte p-Wert angegeben mit F1−α;c−1;(n−1)·(c−1) gilt.

Beispiel 8.19. Sportleistungen Quade-Test (Fortsetzung Beispiel 8.8) In Tabelle 8.11 sind neben den R¨ angen rij nun auch die Spannweiten Di der einzelnen Messdaten der Studierenden und die Rangreihenfolge qi angegeben.

Semester 4 5

Person

1

2

3

6

7

8

Dj

qj

1 2 3 4 5

2 1 2 2 4

1 6 1 1 2

4.5 3 3 3 1

7 2 4 5 3

3 4 5.5 4 5

4.5 5 5.5 6 6

6 7.5 7.5 7 8

8 7.5 7.5 8 7

2.8 1.8 2.2 2.7 1.7

5 2 3 4 1

rj

11

11

14.5

21

21.5

27

36

38

Tabelle 8.11. Rangreihe der Dj -Werte der Studierenden

8.2 Abh¨ angige Stichproben

239

Tabellen 8.12 und 8.13 enthalten die berechneten sij - bzw. s2ij -Werte.

Person 1 2 3 4 5 

1 -12.5 -7 -7.5 -10 -0.5

2 -17.5 3 -10.5 -14 -2.5

3 0 -3 -4.5 -6 -3.5

-37.5

-41.5

-17

Semester 4 5 12.5 -7.5 -5 -1 -1.5 3 2 -2 -1.5 0.5 6.5

-7

6 0 1 3 6 1.5

7 7.5 6 9 10 3.5

8 17.5 6 9 14 2.5

11.5

36

49

Tabelle 8.12. sij -Werte der Studierenden

Semester 4 5

Person

1

2

3

1 2 3 4 5 

156.25 49 56.25 100 0.25

306.25 9 110.25 196 6.25

0 9 20.25 36 12.25

156.25 25 2.25 4 2.25

361.75

627.75

77.5

189.75

6

7

8

56.25 1 9 4 0.25

0 1 9 36 2.25

56.25 36 81 100 12.25

306.25 36 81 196 6.25

70.5

48.25

285.5

625.5

Tabelle 8.13. s2ij -Werte der Studierenden

Nun werden die Statistiken St und Ss berechnet:

St =

1  · (−37.52) + (−41.5)2 + (−17)2 + 6.52 + (−7)2 + 5  + 11.52 + 362 + 492 = 1467.6

Ss = 361.75 + 627.75 + 77.5 + 189.75 + 70.5 + 48.25 + +285.5 + 625.5 = 2286.5 F¨ ur die T -Statistik von Quade erh¨ alt man schließlich: T =

(5 − 1) · 1467.6 = 7.169 2286.5 − 1467.6

240

8 c-Stichproben-Problem

Vergleicht man den Wert der Teststatistik mit dem Quantil der F -Verteilung F0.95;7;28 = 2.359, kann die Nullhypothese verworfen werden. In SAS ist der Quade-Test nicht implementiert.

Beispiel 8.20. Sportleistungen Quade-Test in R (Fortsetzung Beispiel 8.19) Die Berechnung in R erfolgt u ¨ ber die Funktion quade.test() im Paket stats und ist v¨ ollig a¨quivalent zum Friedman-Test. > + + + + + >

sportstud = matrix(c(15.5, 15.0, 17.2, 17.6, 16.9, 17.2, 17.3, 17.8, + 14.3, 15.9, 15.1, 14.9, 15.2, 15.8, 16.1, 16.1, 15.3, 15.1, 15.9, 16.3, 17.1, 17.1, 17.3, 17.3, 16.9, 16.8, 17.1, 17.3, 17.2, 18.3, 18.5, 19.5, 14.9, 14.5, 14.3, 14.8, 15.1, 15.2, 16.0, 15.9), 5, 8, byrow = TRUE) quade.test(sportstud)

Ausgegeben werden die Quade-Statistik (F = 7.1686), die Freiheitsgrade (num df = 7, denom df = 28) und der p-Wert (6.119e-05).

¨ Ubungsaufgaben Aufgabe 8.1. Lernmethoden In einer Studie sollen verschiedene Lernmethoden (auditiv, visuell und audiovisuell) beurteilt werden. Dazu wurden 25 ProbandInnen auf 3 Gruppen aufgeteilt. Jede Gruppe sollte mit der jeweiligen Methode (h¨oren, lesen bzw. h¨ oren und lesen) insgesamt 60 Vokabel erlernen. Im Anschluss wurde gepr¨ uft, wie viele Vokabeln von den Personen im Ged¨ achtnis behalten wurden: auditiv: visuell: audiovisuell:

9 32 47

21 28 52

16 36 38

26 17 43

14 46 22

35 24 18

23 13 41

10 33 27

31

n1 = 9 n2 = 8 n3 = 8

a) Berechnen Sie die H-Statistik von Kruskal und Wallis und testen Sie die ¨ Nullhypothese der Gleichheit der Verteilungen (α = 0.05). Uberpr¨ ufen Sie die Ergebnisse mit SAS und R. b) Testen Sie mit Hilfe des Mediantests die Nullhypothese der Gleichheit der Verteilungen (α = 0.05). c) Testen Sie mit der Hilfe der Jonckheere-Terpstra-Statistik, ob ein Trend erkennbar ist (α = 0.05).

¨ Ubungsaufgaben

241

Aufgabe 8.2. Fernsehverhalten Es soll untersucht werden, ob sich der Fernsehkonsum von Studierenden im Laufe des Studiums ver¨ andert. Dazu wurde von 10 Studierenden pro Studienjahr die t¨ agliche durchschnittliche Fernsehdauer in Stunden pro Tag erhoben. Person 1 2 3 4 5 6 7 8 9 10

Jahr 2 3 3 3 5 4.5 3 3 2 1 5 4 3.5 3.5 3.5 3 5 6 4 5 1 1

1 5 6 5 3.5 5 4.5 2.5 6 3 2

4 3 5 2 1.5 4 1 3 5 3 1

a) Berechnen Sie die Fc -Statistik von Friedman und testen Sie, ob sich der Fernsehkonsum signifikant ver¨andert hat (α = 0.05). b) Berechnen Sie die Statistik von Kendall und u ¨ berpr¨ ufen Sie den Zusammenhang mit der Friedman-Statistik. ¨ c) Uberpr¨ ufen Sie mittels der Trendstatistik von Page, ob die durchschnittliche Fernsehdauer abgenommen hat (α = 0.05). d) F¨ uhren Sie den Quade-Test durch. Aufgabe 8.3. Eiscreme (aus Conover (1999), Seite 390ff.) Ein Eiscremehersteller m¨ochte wissen, ob bestimmte Eissorten bevorzugt werden. Jede Testperson wird gebeten 3 Eissorten zu verkosten und diese zu reihen, dabei soll 1 f¨ ur die beste Sorte stehen. Die Ergebnisse k¨ onnen folgender Tabelle entnommen werden:

Testperson 1 2 3 4 5 6 7 rj

1 2

2 3 3

3

Eissorte 4 5 1 1 2 2 1 1 2 1 3

3 3 8

9

1 4

3

5

6

7

3 3 2 1 6

Tabelle 8.14. Bewertungen von Eiscreme

2 2 7

242

8 c-Stichproben-Problem

Testen Sie auf einem Niveau von α = 0.05, ob es Unterschiede in den pr¨ aferierten Eissorten gibt.

Aufgabe 8.4. Di¨ atstudie Gegeben sind die Daten aus Beispiel 8.17. Berechnen Sie Cochran’s Q-Statistik f¨ ur dichotome Auspr¨ agungen und interpretieren Sie Ihr Ergebnis. F¨ ur die Berechnung werden die Daten zun¨ achst codiert, und zwar bedeutet 1, dass die Person bez¨ uglich der Vorwoche abgenommen hat und 0, dass die Person nicht abgenommen hat. Die umcodierten Daten lauten:

Person 1 2 3 4 5 6 Si

1 0 0 0 0 0 0 0

2 0 1 1 0 0 1 3

3 1 0 1 1 1 1 5

4 1 0 1 1 1 1 5

Woche 5 6 0 1 0 1 0 0 1 0 0 0 0 1 1 3

7 1 1 1 0 1 1 5

8 0 0 0 1 1 0 2

9 1 1 1 1 0 1 5

10 0 0 0 1 1 0 2

Zi 5 4 5 6 5 6 31

9 Unabh¨ angigkeit und Korrelation

In vielen Anwendungsf¨ allen m¨ochte man wissen, ob zwei (oder mehr) Merkmale einen Zusammenhang aufweisen, oder ob sie unabh¨angig voneinander sind. Beispielsweise soll die Frage beantwortet werden, ob bei Kindern die sportli¨ che Aktivit¨ at die Schlafdauer beeinflusst oder Ahnliches. Im einfachsten Fall sollen zwei Merkmale gemeinsam analysiert werden.

9.1 Problemstellung Vor dem statistischen Testen verschafft man sich im Normalfall mit mehrdi¨ mensionalen H¨aufigkeitstabellen einen ersten Uberblick u ¨ber die Datensituation. Zweidimensionale H¨aufigkeitsverteilungen lassen sich am besten mittels ¨ Kontingenztabellen darstellen. Dazu ist es (f¨ ur die Ubersichtlichkeit) notwendig, dass die Merkmale nur wenige Auspr¨ agungen besitzen. Dies kann durch Zusammenfassen von Auspr¨ agungen immer erreicht werden. Beispiel 9.1. Einfluss von Strategietraining In einer Studie u ¨ ber 235 zuf¨ allig ausgew¨ahlte F¨ uhrungskr¨afte wird der Einfluss von Strategietraining auf den Unternehmenserfolg untersucht. Das Ergebnis der Untersuchung kann aus folgender Kontingenztabelle entnommen werden:

kein Training mit Training Summe

kein Erfolg 40 30

Erfolg 75 90

Summe 115 120

70

165

235

244

9 Unabh¨ angigkeit und Korrelation

Bei einer zweidimensionalen H¨ aufigkeitsverteilung mit den Merkmalen X und Y verwendet man folgende Bezeichnungen: Bezeichnungen absolute H¨aufigkeit der Kombination X = i und Y = j hij relative H¨ aufigkeit der Kombination X = i und Y = j pij = hij /n Pij = pij · 100 relative H¨aufigkeit der Kombination X = i und Y = j in Prozent hi+ (pi+ ) h+j (p+j )

Zeilensummen, Randh¨aufigkeiten des Merkmals X Spaltensummen, Randh¨ aufigkeiten des Merkmals Y

Damit weist die Kontingenztabelle zu Beispiel 9.1 folgende allgemeine Form auf: Y =1

Y =2

Summe

X=1 X=2

h11 h21

h12 h22

h1+ h2+

Summe

h+1

h+2

n

Tabelle 9.1. Kontingenztabelle

Eine Randverteilung gibt Auskunft u ¨ ber die Verteilung eines Merkmals, ohne das andere Merkmal zu ber¨ ucksichtigen. Liegt eine zweidimensionale Verteilung in Form einer Kontingenztabelle vor, k¨ onnen die Randverteilungen an den Zeilen- bzw. Spaltensummen abgelesen werden. Mit der zweidimensionalen Verteilung und den beiden Randverteilungen kann noch keine Aussage u ¨ ber den Zusammenhang getroffen werden, aber meist ist dieser Zusammenhang von großem Interesse. Bezogen auf Beispiel 9.1 ist die Kernfrage, ob die Trainingsteilnahme die Erfolgsquote erh¨ oht hat. Man m¨ochte wissen, ob die Erfolgsquoten der TrainingsteilnehmerInnen h¨ oher ist als die Erfolgsquote der Personen, die kein Training absolviert haben. In statistischer Ausdrucksweise interessiert uns im Beispiel 9.1 die bedingte Verteilung des Merkmals Erfolg, gegeben das Merkmal Training. Wir berechnen die bedingte Verteilung des Merkmals Erfolg bei den TrainingsteilnehmerInnen und bei den Personen, die das Training verweigert haben.

9.2 Chi-Quadrat-Test auf Unabh¨ angigkeit

245

Bezeichnung hij /hi+ = pij /pi+

bedingte relative H¨aufigkeit der Auspr¨agung j des Merkmals Y bei gegebener Auspr¨ agung i des Merkmals X

Beispiel 9.2. Einfluss von Strategietraining (Fortsetzung von Beispiel 9.1) Die bedingten Verteilungen des Merkmals Erfolg bei den TeilnehmerInnen und den NichtteilnehmerInnen lassen sich aus folgender Tabelle ablesen:

kein Training mit Training

kein Erfolg

Erfolg

Summe

0.348 0.250

0.652 0.750

1.000 1.000

Die Erfolgsquote in der Teilgesamtheit der TrainingsteilnehmerInnen liegt wegen 90/120 = 0.75 bei 75%, die Erfolgsquote der Personen, die das Training verweigert haben, liegt hingegen bei ca. 65% (75/115 = 0.652). Daraus kann f¨ ur die Stichprobe abgelesen werden, dass das Training die Erfolgsquote erh¨oht hat, dass es also einen Zusammenhang zwischen Training und Erfolg gibt. Man kann u ¨ ber die bedingten Verteilungen Erkenntnisse u ¨ber den Zusammenhang von Merkmalen gewinnen. W¨ unschenswert sind aber Kennzahlen, die einerseits eine Aussage u ¨ ber den Zusammenhang erm¨oglichen und andererseits als Ausgangsbasis f¨ ur einen statistischen Test dienen, der die Frage beantwortet, ob dieser Zusammenhang der Merkmale auch f¨ ur die Grundgesamtheit nachweisbar ist. Je nach Skalenniveau der Merkmale gibt es unterschiedliche Zusammenhangsmaße und daher auch unterschiedliche Tests.

9.2 Chi-Quadrat-Test auf Unabh¨ angigkeit Zur Messung des Zusammenhangs zwischen zwei nominalen Merkmalen kann das Assoziationsmaß Chi-Quadrat (χ2 ) verwendet werden. Ausgangspunkt ist der Vergleich zwischen tats¨ achlich beobachteten H¨ aufigkeiten und jenen H¨aufigkeiten, die man bei Unabh¨ angigkeit der beiden Merkmale erwarten w¨ urde.

246

9 Unabh¨ angigkeit und Korrelation

Bezeichnungen hoij . . . beobachtete (= observed) absolute H¨aufigkeit der Kombination X = i und Y = j mit i = 1, . . . , r und j = 1, . . . , s angigkeit von X und Y erwartete (= expected) heij . . . bei Unabh¨ absolute H¨aufigkeit dieser Kombination Dabei gilt

heij =

hi+ · h+j n

Das Assoziationsmaß Chi-Quadrat χ2 mit χ2 =

s r   (hoij − heij )2 heij i=1 j=1

misst den Zusammenhang zwischen zwei nominalen Merkmalen. Wie aus der Formel leicht nachvollziehbar gilt immer χ2 ≥ 0. Der Fall χ2 = 0 kann nur dann auftreten, wenn die beobachteten H¨ aufigkeiten den bei Unabh¨ angigkeit erwarteten H¨aufigkeiten entsprechen. Dies ist gleichbedeutend damit, dass die Merkmale unabh¨ angig sind, also keinen Zusammenhang aufweisen. Das Assoziationsmaß kann effizienter mit der Formel   χ2 = n ·  i

j

 hoij 2 − 1 hi+ · h+j

berechnet werden. Dem entsprechend lassen sich die Hypothesen f¨ ur unser Testproblem folgendermaßen ansetzen: Hypothesen Chi-Quadrat-Test auf Unabh¨ angigkeit H 0 : χ2 = 0

(Auspr¨ agungen der Merkmale unabh¨ angig)

H1 : χ 2 > 0

(Auspr¨ agungen der Merkmale abh¨ angig)

Alternativ dazu k¨ onnten die Hypothesen auch folgendermaßen formuliert werden: H0 : pij = pi+ · p+j H1 : pij = pi+ · p+j

f¨ ur mindestens ein Paar (i, j)

9.2 Chi-Quadrat-Test auf Unabh¨ angigkeit

247

Testentscheidung Chi-Quadrat-Test auf Unabh¨ angigkeit (kritische Werte in Tabelle 11.3) H0 wird mit Irrtumswahrscheinlichkeit α verworfen, wenn χ2 > χ2(r−1)(s−1);1−α Die Teststatistik χ2 ist allerdings nur approximativ χ2 -verteilt. Als Faustregel f¨ ur die Zul¨ assigkeit der Approximation m¨ ussen die erwarteten H¨aufigkeiten in den einzelnen Kategorie mindestens 1 betragen und bei h¨ochstens 20% der Kategorien d¨ urfen die erwarteten H¨aufigkeiten unter 5 liegen. χ2 -Test auf Unabh¨ angigkeit - Voraussetzungen • Die erwartete H¨aufigkeit in jeder Kategorie muss mindestens 1 betragen. • Bei h¨ ochstens 20% der Kategorien d¨ urfen die erwarteten H¨aufigkeiten unter 5 liegen. Sind diese Voraussetzungen nicht erf¨ ullt, so kann man sich manchmal damit behelfen, dass man Auspr¨agungen zusammenfasst. Dies f¨ uhrt zu einer entsprechenden Reduktion von r bzw. s.

Beispiel 9.3. Einfluss von Strategietraining (vgl. Beispiel 9.1) In einer Studie wird bei 235 zuf¨ allig ausgew¨ ahlten F¨ uhrungskr¨ aften der Einfluss von Strategietraining auf den Unternehmenserfolg mit folgendem Ergebnis untersucht. kein Erfolg

Erfolg

Summe

kein Training mit Training

40 30

75 90

115 120

Summe

70

165

235

Kann in der Grundgesamtheit ein Zusammenhang zwischen Trainingsteilnahme und Erfolg nachgewiesen werden? Die Formulierung der Hypothesen ist vorgegeben, wir w¨ahlen als Signifikanzniveau α = 0.05. Die bei Unabh¨ angigkeit erwarteten H¨aufigkeiten sind:

248

9 Unabh¨ angigkeit und Korrelation

kein Training mit Training

Daraus ergibt sich: "  2 χ = n·  = 235 ·

kein Erfolg

Erfolg

Summe

34.3 35.7

80.7 84.3

115 120

70.0

165.0

235

hoij 2 −1 hi+ · h+j

#

752 302 902 402 + + + −1 115 · 70 115 · 165 120 · 70 120 · 165

= 2.69

Nachdem beide Merkmale je zwei Auspr¨ agungen aufweisen, haben wir einen Freiheitsgrad und damit als Quantil der χ2 -Verteilung χ2(r−1)(s−1);1−α = 3.84 (vgl. Tabelle 11.3). Da der errechnete Wert das Quantil nicht u ¨berschreitet, muss die Nullhypothese beibehalten werden. Es konnte kein Zusammenhang zwischen den Merkmalen Training und Erfolg nachgewiesen werden.

F¨ ur die Durchf¨ uhrung des Tests wurde eine diskrete Verteilung durch die stetige Chi-Quadrat-Verteilung approximiert. Insbesondere f¨ ur kleine Stichproben sollte daher eine Stetigkeitskorrektur vorgenommen werden, die im Fall des Chi-Quadrat-Tests auch unter dem Namen Yates-Korrektur bekannt ist (benannt nach dem Statistiker Frank Yates, der diese Korrektur vorgeschlagen hat). Der korrigierte χ2 -Wert wird nach folgender Formel berechnet: χ2Y ates =

s r   (|hoij − heij | − 0.5)2 heij i=1 j=1

Diese Korrektur verkleinert den Wert der Teststatistik und f¨ uhrt somit auto¨ matisch zu einem gr¨ oßeren p-Wert. Dadurch soll eine Ubersch¨ atzung der statistischen Signifikanz vermieden werden. Die Stetigkeitskorrektur sollte verwendet werden, falls in mindestens einer Zelle eine erwartete H¨aufigkeit kleiner als 5 auftritt. Bei dieser Faustregel gehen die Meinungen allerdings auseinan¨ der, weil die Yates-Korrektur zur Uberkorrektur neigt. Bei großen Stichprobenumf¨ angen spielt die Korrektur nahezu keine Rolle.

Beispiel 9.4. Einfluss von Strategietraining in R Die Daten m¨ ussen als Matrix eingegeben werden. Um die Stetigkeitskorrektur auszuschalten muss simulate.p.value=TRUE als Argument angegeben werden.

9.3 Fisher-Test

249

strategietraining=matrix(c(40,30,75,90),ncol=2) chisq.test(strategietraining,simulate.p.value=TRUE) Als Ergebnis wird der Wert der Teststatistik (2.687) und der p-Wert (≈ 0.12) ausgegeben. Da der p-Wert gr¨ oßer ist als α, wird die Nullhypothese beibehalten. Es konnte kein signifikanter Zusammenhang nachgewiesen werden. Da die p-Werte aus Simulationen berechnet werden (mit Voreinstellung B=2000 Wiederholungen), kann es zu abweichenden Ergebnissen kommen, die aber alle deutlich gr¨ oßer als α sind und daher nichts an der Entscheidung a¨ndern. Beispiel 9.5. Einfluss von Strategietraining in SAS Nach der Dateneingabe wird mit der Prozedur PROC FREQ der Chi-QuadratTest durchgef¨ uhrt. DATA strategietraining; INPUT Training Erfolg Anzahl; DATALINES; 0 0 40 0 1 75 1 0 30 1 1 90 ; RUN; PROC FREQ DATA=strategietraining; WEIGHT Anzahl; TABLES Training*Erfolg /CHISQ; RUN; Als Ergebnis wird der Wert der Teststatistik (2.687) und der p-Wert (0.1012) in der Zeile Chi-Quadrat ausgegeben. Da der p-Wert gr¨ oßer ist als α, wird die Nullhypothese beibehalten. Es konnte kein signifikanter Zusammenhang nachgewiesen werden.

9.3 Fisher-Test Auch mit dem Fisher-Test k¨ onnen Zusammenh¨ ange zwischen zwei nominalen Merkmalen getestet werden. Im Gegensatz zum Chi-Quadrat-Test m¨ ussen aber beide Merkmale dichotom sein, d¨ urfen also nur zwei Auspr¨ agungen besitzen. Der Vorteil des Fisher-Tests ist, dass die p-Werte exakt berechnet werden, also keine Approximationen notwendig sind und dieser Test daher auch bei kleinen Stichprobenumf¨ angen anwendbar ist. Beim Fisher-Test werden aus

250

9 Unabh¨ angigkeit und Korrelation

einer gegebenen Vierfeldertafel alle anderen m¨ oglichen Kombinationen von Zellh¨ aufigkeiten mit gleichen Randh¨ aufigkeiten gebildet.

Y =0

Y =1

Summe

X=0 X=1

h11 h21

h12 h22

h1+ h2+

Summe

h+1

h+2

n

Tabelle 9.2. Vierfeldertafel der Stichprobe

Alle anderen m¨ ogliche Tafeln (bei gleichen Randh¨aufigkeiten) ergeben sich f¨ ur 0 ≤ x ≤ min(h1+ , h+1 ) aus Y =0

Y =1

Summe

X=0 X=1

x h+1 − x

h1+ − x h22 − h11 + x

h1+ h2+

Summe

h+1

h+2

n

Tabelle 9.3. Vierfeldertafel der m¨ oglichen Kombinationen

Die Zufallsvariable X folgt einer Hypergeometrischen Verteilung und ist die Teststatistik des Fisher-Tests:   h+2 h+1 x h −x  1+ P r(X = x) = n h1+ Daraus kann man die Verteilungsfunktion der Hypergeometrischen Verteilung errechnen, die wir f¨ ur den Hypothesentest ben¨otigen. Da die Verteilung vollst¨andig bekannt und exakt berechenbar ist, wird der Fisher-Test auch als Fishers Exakter Test bezeichnet. Fisher-Test, Zweiseitige Hypothesen H0 : pij = pi+ · p+j H1 : pij = pi+ · p+j

f¨ ur mindestens ein Paar (i, j)

Die Nullhypothese wird verworfen, wenn h11 ≤ hα/2 oder h11 ≥ h1−α/2 , wobei hα/2 bzw. h1−α/2 die entsprechenden Quantile der Hypergeometrischen Verteilung bezeichnen.

9.3 Fisher-Test

251

Beispiel 9.6. Einfluss von Strategietraining In einer Studie mit 235 zuf¨ allig ausgew¨ ahlte F¨ uhrungskr¨aften wird der Einfluss von Strategietraining auf den Unternehmenserfolg untersucht. Das Ergebnis der Untersuchung kann aus folgender Kontingenztabelle entnommen werden: kein Training mit Training Summe

kein Erfolg 40 30 70

Erfolg 75 90 165

Summe 115 120 235

Gibt es einen Zusammenhang zwischen Training und Erfolg (α = 0.05)? Die Zufallsvariable X entspricht einer Hypergeometrischen Verteilung mit den Parametern H(n, h1+ , h+1 ) = H(235, 115, 70). F¨ ur den zweiseitigen Test ergeben sich die Quantile hα/2 = 27 und h1−α/2 = 41. Die Nullhypothese muss damit beibehalten werden (h11 = 40), es gibt keinen signifikanten Zusammenhang zwischen Training und Erfolg. Der Fisher-Test bietet aber auch die M¨ oglichkeit des einseitigen Testens mit den Hypothesen Fisher-Test, Einseitige Hypothesen, Fall A H0 : p11 = p1+ · p+1 H1 : p11 > p1+ · p+1 Fisher-Test, Einseitige Hypothesen, Fall B H0 : p11 = p1+ · p+1 H1 : p11 < p1+ · p+1 Im Beispiel 9.6 w¨ urde man vermuten, dass kein Training zu keinem Erfolg f¨ uhrt. Damit w¨aren in diesem Fall die H¨aufigkeit h11 h¨ oher als unter der Nullhypothese der Unabh¨ angigkeit. In diesem Beispiel w¨ aren wir demnach an Fall A der einseitigen Fragestellung interessiert. Es ist v¨ollig ausreichend die Hypothesen auf eine einzige (relative) H¨ aufigkeit zu beziehen, denn alle anderen H¨aufigkeiten sind durch die unver¨ anderten Randh¨ aufigkeiten eindeutig bestimmt. Die Nullhypothese im Fall A wird verworfen, wenn h11 ≥ h1−α , wobei h1−α das entsprechende Quantil der Hypergeometrischen Verteilung ist.

252

9 Unabh¨ angigkeit und Korrelation

Fisher-Test Testentscheidung (kritische Werte sind Quantile der Hypergeometrischen Verteilung) •

Zweiseitiger Test: H0 ablehnen, falls h11 ≤ hα/2 oder h11 ≥ h1−α/2



Einseitiger Test, Fall A: H0 ablehnen, falls h11 ≥ h1−α



Einseitiger Test, Fall B: H0 ablehnen, falls h11 ≤ hα

Beispiel 9.7. Einfluss von Strategietraining in SAS Mit den SAS-Anweisungen aus Beispiel 9.5 wird automatisch auch der FisherTest durchgef¨ uhrt. Der zweiseitige p-Wert betr¨ agt 0.1172 und der einseitige p-Wert 0.0672. Damit kann kein (positiver) Trainingseffekt nachgewiesen werden. Beispiel 9.8. Einfluss von Strategietraining in R Die Daten m¨ ussen als Matrix eingegeben werden (analog zu Beispiel 9.4). Der zweiseitige bzw. einseitige Testaufruf lautet dann: fisher.test(strategietraining) fisher.test(strategietraining, alternative = "greater") Der zweiseitige p-Wert betr¨ agt 0.1172 und der einseitige p-Wert 0.06717. Damit kann kein (positiver) Trainingseffekt nachgewiesen werden.

9.4 Rangkorrelation nach Spearman Zur Messung des Zusammenhanges zwischen zwei ordinalen Merkmalen werden den Auspr¨ agungen aus der Urliste zuerst Rangzahlen zugeordnet. Vereinfachend gehen wir vorerst davon aus, dass keine Bindungen vorliegen, dass also die Zuordnung von R¨ angen in eindeutiger Weise m¨oglich ist. Jede Erhebungseinheit weist somit zwei R¨ange ri und si hinsichtlich der beiden zu untersuchenden Merkmale auf. Als Kennzahl zur Berechnung des Zusammenhanges dient der Spearmansche Rangkorrelationskoeffizient.

9.4 Rangkorrelation nach Spearman

253

Spearmansche Rangkorrelationskoeffizient ohne Bindungen Der Spearmansche Rangkorrelationskoeffizient ρs wird berechnet mittels  6 · d2i ρs = 1 − n · (n2 − 1) ri , si . . . R¨ange di . . . Rangzahlendifferenz ri − si der i-ten Erhebungseinheit F¨ ur die deskriptive Interpretation ist einerseits das Vorzeichen wichtig, andererseits der Betrag |ρs |. Aus dem Vorzeichen ist die Richtung des Zusammenhanges ablesbar. Ein gleichsinniger Zusammenhang (eine niedrige Rangziffer hinsichtlich des einen Merkmals geht einher mit einer niedrigen Rangziffer des anderen Merkmals) f¨ uhrt auf einen positiven Rangkorrelationskoeffizienten, ein gegensinniger Zusammenhang (eine niedrige Rangziffer hinsichtlich des einen Merkmals geht einher mit einer hohen Rangziffer des anderen Merkmals) ergibt einen negativen Rangkorrelationskoeffizienten. Sind die Merkmale unabh¨ angig, so erh¨ alt man einen Korrelationskoeffizienten von 0. Aus dem Betrag ist die St¨arke des Zusammenhanges ablesbar, denn umso st¨arker der Zusammenhang, desto n¨aher liegt der Betrag bei 1. Spearmansche Rangkorrelationskoeffizient Es gilt

−1 ≤ ρs ≤ 1

Deskriptive Interpretation: ρs < 0 gegensinniger Zusammenhang ρs = 0 kein Zusammenhang ρs > 0 gleichsinniger Zusammenhang Je st¨arker der Zusammenhang, desto n¨aher liegt |ρs | bei 1.

Beispiel 9.9. Weinverkostung Sechs Weine wurden von zwei Expertinnen nach ihrer Qualit¨ at geordnet. Wein

A

B

C

D

E

F

Expertin 1 Expertin 2

1 1

2 3

4 4

5 6

6 5

3 2

Stimmen die Expertinnen in der Beurteilung weitgehend u ¨berein? Zur Beantwortung dieser Frage berechnen wir den Spearmanschen Rangkorrelationskoeffizienten.

254

9 Unabh¨ angigkeit und Korrelation A

B

C

D

E

F

ri si

1 1

2 3

4 4

5 6

6 5

3 2

di d2i

0 0

-1 1

0 0

-1 1

1 1

1 1

Wein Expertin 1 Expertin 2

Summe

4

 6 · d2i 6·4 = ρs = 1 − = 0.886 ρs = 1 − n · (n2 − 1) 6 · 35 Zwischen den beiden Reihungen besteht deskriptiv ein starker gleichsinniger Zusammenhang. Von einer Expertin als qualitativ hochwertig eingesch¨ atzte Weine werden auch von der anderen Expertin als qualitativ hochwertig eingestuft, beide Expertinnen haben eine a¨hnliche Beurteilung der Stichproben. Liegen Bindungen vor, ist also eine Zuordnung von R¨ angen nicht in eindeutiger Weise m¨oglich, so muss zur Berechnung des Spearmanschen Rangkorrelationskoeffizienten eine etwas aufw¨ andigere Formel herangezogen werden. Spearmansche Rangkorrelationskoeffizient mit Bindungen Der Spearmansche Rangkorrelationskoeffizient ρs berechnet sich bei n Rangpaaren nach  (ri − r¯)(si − s¯) i ρs =   (ri − r¯)2 (si − s¯)2 i

i

ri , si . . . (Durchschnitts-)R¨ ange, i = 1, . . . , n 1 1 n+1 . . . mittlere R¨ ange ri = i= n i=1 n i=1 2 n

r¯ = s¯ =

n

Die Interpretation ist v¨ ollig analog zu dem Fall ohne Bindungen. Weisen mehrere Erhebungseinheiten die gleiche Auspr¨agung auf, so werden Durchschnittsr¨ange vergeben. Alle Erhebungseinheiten mit derselben Auspr¨ agung erhalten somit denselben Rang, die Rangsumme u ¨ ber alle Erhebungseinheiten bleibt gleich.

9.4 Rangkorrelation nach Spearman

255

Beispiel 9.10. Weinverkostung mit Bindungen Sechs Weine wurden von zwei Expertinnen nach ihrer Qualit¨ at geordnet. Expertin 1 hat die Weine D und E gleich gut bewertet, aber beide Weine schlechter als alle anderen. Diese Weine w¨aren demnach auf den R¨ angen 5 und 6, also erhalten beide Weine den Durchschnittsrang 5.5. Wein

A

B

C

D

E

F

Expertin 1 Expertin 2

1 1

2 3

4 4

5.5 6

5.5 5

3 2

Stimmen die Expertinnen in der Beurteilung weitgehend u ¨berein? Zur Beantwortung dieser Frage berechnen wir den Spearmanschen Rangkorrelationskoeffizienten (f¨ ur Merkmale mit Bindungen). Mit r¯ = s¯ = 3.5 erh¨ alt man 16 ρs = √ = 0.928 17 · 17.5 Zwischen den beiden Reihungen besteht deskriptiv ein starker gleichsinniger Zusammenhang. Von einer Expertin als qualitativ hoch eingesch¨ atzte Weine werden auch von der zweiten Expertin tendenziell als qualitativ hochwertig eingestuft. Beide Expertinnen haben eine a¨hnliche Beurteilung der Weinqualit¨ at. Nun soll der Spearmansche Rangkorrelationskoeffizient auf Signifikanz gepr¨ uft werden. Spearmansche Rangkorrelation Test Unabh¨ angigkeit ordinaler Merkmale •

Zweiseitige Hypothesen H0 : ρS = 0 (Unabh¨ angigkeit) H1 : ρS = 0 (Abh¨ angigkeit)



Einseitige Hypothesen, Fall A, positive Korrelation H0 : ρS = 0 (Unabh¨ angigkeit) H0 : ρS > 0 (positive Korrelation)



Einseitige Hypothesen, Fall B, negative Korrelation H0 : ρS = 0 (Unabh¨ angigkeit) H0 : ρS < 0 (negative Korrelation)

256

9 Unabh¨ angigkeit und Korrelation

Als Teststatistik dient die so genannte Hotelling-Pabst-Statistik n 

D=

d2i

i=1

Im Fall von Bindungen wird f¨ ur die Berechnung der Teststatistik die Methode der Durchschnittsr¨ ange angewendet. F¨ ur die Herleitung der Verteilung der Teststatistik gehen wir von der Nullhypothese aus (und dem Fall, dass keine Bindungen vorliegen). Durch Umreihen der Stichprobenwerte (ri = i) a¨ndert sich die Teststatistik nicht, l¨asst sich aber einfacher anschreiben: D=

n  i=1

2

(i − Si ) =

n  i=1

2

i +

n 

Si2 − 2

i=1

n  i=1

i

Si2

n  n(n + 1)(2n + 1) −2 = i Si2 3 i=1

 F¨ ur die Verteilung der Teststatistik ist daher nur die Verteilung von i Si2 ausschlaggebend. Diese k¨onnte man jetzt u ¨ ber elementare Wahrscheinlichkeitsrechnung herleiten (Anzahl an Permutationen). In der Praxis greift man aber wegen des schnell anwachsenden Rechenaufwandes auf Tabellen mit kritischen Werten der Hotelling-Pabst-Statistik zur¨ uck. Testentscheidung (Tabelle 11.18) •

Zweiseitiger Test: H0 ablehnen, falls D ≤ dα/2 oder D ≥ d1−α/2



Einseitiger Test, Fall A: H0 ablehnen, falls D ≤ dα



Einseitiger Test, Fall B: H0 ablehnen, falls D ≥ d1−α

Beispiel 9.11. Weinverkostung Test (Fortsetzung von Beispiel 9.9) Die Teststatistik in diesem Beispiel betr¨agt D=

n 

d2i = 4

i=1

Beim einseitigen Test auf positive Korrelation (Fall A) der Urteile ist die Teststatistik mit dem Tabellenwert (n = 6) dα = d0.05 ≈ 8 zu vergleichen. Da die Teststatistik kleiner als der kritische Wert ist, kann die Nullhypothese abgelehnt werden. Es konnte eine positive Korrelation der Urteile nachgewiesen werden. Beispiel 9.12. Weinverkostung in SAS Nach der Dateneingabe wird die Prozedur PROC CORR mit der Option SPEARMAN durchgef¨ uhrt.

9.5 Korrelationskoeffizient von Kendall

257

PROC CORR DATA=Wein SPEARMAN; VAR Expertin1 Expertin2; RUN; Es wird der Spearmansche Korrelationskoeffizient (0.88571) und der approximierte zweiseitige p-Wert ausgegeben (0.0188). Beispiel 9.13. Weinverkostung in R Die Daten werden als Vektoren eingegeben. In R kann einseitig und zweiseitig getestet werden: Exp1 = c(1,2,4,5,6,3) Exp2 = c(1,3,4,6,5,2) cor.test(Exp1,Exp2,alternative="t",method="spearman") cor.test(Exp1,Exp2,alternative="g",method="spearman") Neben dem Korrelationskoeffizienten (0.8857143) und den p-Werten (einseitig p=0.01667, zweiseitig p=0.03333) wird in R auch die Hotelling-PabstStatistik ausgegeben (S=4).

9.5 Korrelationskoeffizient von Kendall Eine andere Maßzahl zur Messung des Zusammenhanges zwischen zwei ordinalen Merkmalen ist der Korrelationskoeffizient von Kendall. Ausgangspunkt ¨ unserer Uberlegung ist eine Stichprobe (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) vom Umfang n mit (zumindest) ordinalem Skalenniveau. ¨ F¨ ur die allgemeinen Uberlegungen gehen wir vorerst von dem einfacheren Fall aus, dass keine Bindungen vorliegen. Als Einf¨ uhrungsbeispiel dienen die Angaben aus Beispiel 9.9: Sechs Weine wurden von zwei Expertinnen nach ihrer Qualit¨ at geordnet. Wein

A

B

C

D

E

F

Expertin 1 Expertin 2

1 1

2 3

4 4

5 6

6 5

3 2

In obiger Notation lautet unsere Stichprobe (1, 1), (2, 3), (4, 4), (5, 6), (6, 5), (3, 2)

258

9 Unabh¨ angigkeit und Korrelation

W¨ ahlt man zwei beliebige Beobachtungen i, j aus der Stichprobe aus, so kann man feststellen, dass K1) xi < xj ⇒ yi < yj K2) xi > xj ⇒ yi > yj Gr¨ oßer werdende x-Werte gehen mit gr¨oßer werdenden y-Werten einher und kleiner werdende x-Werte weisen auch kleiner werdende y-Werte auf. Stichprobenpaare, welche diese beiden Eigenschaften erf¨ ullen werden als konkordante Paare bezeichnet. Als diskordante Paare bezeichnet man Paare, f¨ ur welche die beiden folgenden Eigenschaften gelten: D1) xi < xj ⇒ yi > yj D2) xi > xj ⇒ yi < yj Gr¨ oßer werdende x-Werte treten nun mit kleiner werdenden y-Werten auf und umgekehrt.   Da wir Bindungen ausgeschlossen haben, sind alle n2 Paare entweder konkordant oder diskordant. Treten sehr viele konkordante Paare auf, so ist dies ein Hinweis auf eine positive Korrelation, diskordante Paare deuten hingegen auf eine negative Korrelation hin. Korrelationskoeffizient von Kendall τ=

n k − nd n 2

mit nk . . . Anzahl der konkordanten Paare nd . . . Anzahl der diskordanten Paare   Im Fall einer perfekten positiven Korrelation ergibt sich nk = n2 , nd = 0 und somit   τ = 1, im Fall einer perfekten negativen Korrelation hingegen nd = n2 , nk = 0 und somit τ = −1. In unserem Beispiel der Weinverkostung gibt es nur zwei diskordante Paare: Das Paar B und F mit (2, 3) und (3, 2) und das Paar D und E mit (5, 6) und (6, 5). Damit kann der Korrelationskoeffizient berechnet werden als: τ=

13 − 2 ≈ 0.733 15

9.5 Korrelationskoeffizient von Kendall

259

Als Teststatistik dient allerdings eine andere Gr¨oße, n¨amlich Kendalls S: S = nk − n d damit l¨ asst sich nun folgendes Testproblem formulieren: Korrelation nach Kendall Test Unabh¨ angigkeit ordinaler Merkmale •

Zweiseitige Hypothesen H0 : τ = 0 (Unabh¨ angigkeit) H1 : τ = 0 (Abh¨ angigkeit)



Einseitige Hypothesen, Fall A, positive Korrelation H0 : τ = 0 (Unabh¨ angigkeit) H0 : τ > 0 (positive Korrelation)



Einseitige Hypothesen, Fall B, negative Korrelation H0 : τ = 0 (Unabh¨ angigkeit) H0 : τ < 0 (negative Korrelation)

Teststatistik S = nk − nd nk . . . Anzahl der konkordanten Paare nd . . . Anzahl der diskordanten Paare Testentscheidung (Tabelle 11.19) •

Zweiseitiger Test: H0 ablehnen, falls S ≤ sα/2 oder S ≥ s1−α/2



Einseitiger Test, Fall A: H0 ablehnen, falls S ≥ s1−α



Einseitiger Test, Fall B: H0 ablehnen, falls S ≤ sα

Aus Tabelle 11.19 entnehmen wir f¨ ur unser Einf¨ uhrungsbeispiel P r(S ≥ 11) = 0.028, daher wird die Nullhypothese der Unabh¨ angigkeit abgelehnt. Es kann eine positive Korrelation zwischen den Beurteilungen nachgewiesen werden. Im Fall von Bindungen wird die Teststatistik nach wie vor u ¨ ber S = nk − nd berechnet, allerdings summieren sich die beiden Werte nk und nd nicht mehr auf die Gesamtanzahl der Paare, weil es nun drei Arten von Paaren gibt: konkordante Paare, diskordante Paare und Bindungen. F¨ ur die Testentscheidung kann auch bei Bindungen Tabelle 11.19 verwendet werden, allerdings sind die p-Werte nicht mehr exakt, sondern nur noch approximiert.

260

9 Unabh¨ angigkeit und Korrelation

Der Korrelationskoeffizient wird bei Bindungen korrigiert und kann folgendermaßen berechnet werden: nk − nd  τ=  (n − 1)n/2 − Tx (n − 1)n/2 − Ty mit

x 1 (bi − 1)bi 2 i=1

1 (ci − 1)ci 2 i=1 ry

r

Tx =

und

Ty =

rx . . . Anzahl der Bindungsgruppen in x bi . . . Anzahl der gebundenen Elemente der i-ten Bindungsgruppe in x ry . . . Anzahl der Bindungsgruppen in y ci . . . Anzahl der gebundenen Elemente der i-ten Bindungsgruppe in y

Beispiel 9.14. Weinverkostung mit Bindungen (vgl. Beispiel 9.10, Seite 255) Sechs Weine wurden von zwei Expertinnen nach ihrer Qualit¨ at geordnet. Expertin 1 hat die Weine D und E gleich gut bewertet, aber beide Weine schlechter als alle anderen. Wein Expertin 1 Expertin 2

A 1 1

B 2 3

C 4 4

D 5.5 6

E 5.5 5

F 3 2

Von den 15 m¨oglichen Paarkonstellationen gibt es ein diskordantes Paar (Weine B und F mit (2, 3) und (3, 2)) und ein gebundenes Paar (Wein D und E mit (5.5, 6) und (5.5, 5)), die restlichen 13 Paare sind alle konkordant. In y liegen keine Bindungen vor (Ty = 0). Bei den x-Werten gibt es eine Bindung (rx = 1) mit 2 Elementen (b1 = 2) und daher kann der Korrelationskoeffizient berechnet werden als (n = 6) 13 − 1  τ=  = 0.828 (15 − 1) (15 − 0)

Die Verteilung von S bzw. τ n¨ ahert sich sehr rasch einer (Standard-)Normalverteilung, daher kann bereits ab einem Stichprobenumfang von n ≥ 8 u ¨ ber die approximierte Standardnormalverteilung getestet werden. Es gilt: E(S) = E(τ ) = 0 Liegen keine Bindungen vor, so gilt

9.5 Korrelationskoeffizient von Kendall

V ar(S) =

n(n − 1)(2n + 5) 18 

und damit

und

V ar(τ ) =

n(n − 1)(2n + 5) S ∼ N 0, 18  4n + 10 τ ∼ N 0, 9n(n − 1)

261

4n + 10 9n(n − 1)



Auch f¨ ur den Fall mit Bindungen kann u ¨ber die Standardnormalverteilung approximiert werden, allerdings muss die Varianz um die Bindungen korrigiert werden ry rx   (n2 − n)(2n + 5) − (b2i − bi )(2bi + 5) − (c2i − ci )(2ci + 5) i=1 i=1 V ar(S) = + 18 ry rx   (b2i − bi )(bi − 2) (c2i − ci )(ci − 2) i=1 + + i=1 9n(n − 1)(n − 2) ry rx   (b2i − bi ) (c2i − ci ) i=1 + i=1 2n(n − 1)  V ar(τ ) =

2 n(n − 1)

2 V ar(S)

Beispiel 9.15. Weinverkostung mit Bindungen in SAS (vgl. dazu auch Beispiel 9.12) Nach der Dateneingabe wird die Prozedur PROC CORR mit der Option KENDALL durchgef¨ uhrt. PROC CORR DATA=Wein KENDALL; VAR Expertin1 Expertin2; RUN; Es wird der Korrelationskoeffizient nach Kendall (0.82808) und der approximierte zweiseitige p-Wert ausgegeben (0.0217). Beispiel 9.16. Weinverkostung mit Bindungen in R (vgl. dazu auch Beispiel 9.13) Die Daten werden wieder als Vektoren eingegeben. In R kann einseitig und zweiseitig getestet werden: Exp1 = c(1,2,4,5.5,5.5,3) # oder Exp1 = c(1,2,4,5,5,3) Exp2 = c(1,3,4,6,5,2) cor.test(Exp1,Exp2,alternative="t",method="kendall") cor.test(Exp1,Exp2,alternative="g",method="kendall")

262

9 Unabh¨ angigkeit und Korrelation

Neben dem Korrelationskoeffizienten nach Kendall (0.828) und den p-Werten (einseitig p=0.01086, zweiseitig p=0.02172) wird in R auch die standardisierte Hotelling-Pabst-Statistik ausgegeben: S 12 12 Z=  ≈ 2.295 = =  (36−6)(12+5)−(4−2)(4+5)−0 492 V ar(S) + 0 + 0 18 18

9.6 Korrelationskoeffizient nach Bravais-Pearson Zur Messung des Zusammenhanges zwischen zwei metrischen Merkmalen ist der Korrelationskoeffizient von Bravais-Pearson geeignet. Dieser wird kurz als Korrelationskoeffizient bezeichnet, falls aus dem Zusammenhang keine Verwechslung mit den Rangkorrelationskoeffizienten m¨ oglich ist. Ausgangspunkt zur Berechnung bildet die Kovarianz, die - wie der Name bereits andeutet - a¨hnlich wie die Varianz aufgebaut ist. Der Unterschied liegt darin, dass zur Berechnung der Varianz nur ein Merkmal herangezogen wird, zur Berechnung der Ko-varianz aber zwei. Man kann sich die Kovarianz quasi als zweidimensionales Streuungsmaß vorstellen.

y pos x1 x

Punkt1 neg x2 x

Punkt2

pos y1 y

pos y2 y

,y  x neg y4 y

neg y3 y

Punkt4

pos x4 x

Punkt3

neg x3 x

Abb. 9.1. Geometrische Darstellung der Kovarianz

x

9.6 Korrelationskoeffizient nach Bravais-Pearson

263

Die geometrische Bedeutung der Kovarianz ist aus Abbildung 9.1 ersichtlich. Zu den zweidimensionalen Daten wird der Datenschwerpunkt berechnet, dessen Koordinaten die Mittelwerte der beiden Merkmale sind (¯ x, y¯). Nun kann zwischen jedem einzelnen Datenpunkt und dem Schwerpunkt ein Rechteck konstruiert werden. Die Kovarianz ist dann nichts anderes als das arithmetische Mittel der Rechtecksfl¨ achen, wobei je nach Vorzeichen der Abweichungen diese Fl¨achen auch mit negativem Vorzeichen in die Mittelwertsberechnung eingehen k¨ onnen. Die Fl¨ achen der Punkte 1 und 3 w¨ urden in die Berechnung der Kovarianz mit positivem Vorzeichen einfließen, die der Punkte 2 und 4 mit negativem Vorzeichen. Kovarianz Liegen zu den Merkmalen X und Y zweidimensionale, metrische Daten (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) vor, dann ist sXY

n 1  = · (xi − x ¯) · (yi − y¯) n i=1

=

n 1  · xi · yi − x ¯ · y¯ n i=1

die Kovarianz zwischen den Merkmalen X und Y . Es gilt

−∞ ≤ sXY ≤ +∞

Aus der Kovarianz k¨ onnen folgende Informationen abgelesen werden: •

Sind die Merkmale X und Y unabh¨ angig, so ist die Kovarianz gleich Null.



Ein gegensinniger Zusammenhang zwischen den Merkmalen X und Y f¨ uhrt zu einem negativen Vorzeichen, ein gleichsinniger Zusammenhang f¨ uhrt zu einem positiven Vorzeichen.

Die St¨ arke des Zusammenhanges kann aus der Kovarianz nicht abgelesen werden. Diese l¨asst sich durch die Berechnung des Korrelationskoeffizienten ermitteln.

264

9 Unabh¨ angigkeit und Korrelation

Bravais-Pearson-Korrelationskoeffizient Der Korrelationskoeffizient zur Messung des linearen Zusammenhanges zwischen X und Y ist sXY ρ= sX · sY mit sX . . . Standardabweichung des Merkmals X sY . . . Standardabweichung des Merkmals Y sXY . . . Kovarianz der Merkmale X und Y

Bravais-Pearson-Korrelationskoeffizient Es gilt

−1 ≤ ρ ≤ +1

Deskriptive Interpretation ρ0 gleichsinniger linearer Zusammenhang Je st¨arker der lineare Zusammenhang, desto n¨aher liegt |ρ| bei 1. Besonders wichtig ist der Hinweis darauf, dass der Korrelationskoeffizient lediglich den linearen Zusammenhang misst. W¨ urden alle Datenpunkte exakt auf einer Geraden liegen, so w¨ are |ρ| = 1. Je n¨ aher die Daten an einer Geraden liegen, desto n¨aher liegt der Betrag von ρ bei eins. Ein positives Vorzeichen deutet auf eine steigende Gerade, ein negatives Vorzeichen auf eine fallende Gerade (vgl. grafische Darstellungen in Kapitel 9.7). Je schw¨acher der lineare Zusammenhang, desto n¨aher liegt der Korrelationskoeffizient bei 0 und je st¨ arker der lineare Zusammenhang, desto n¨aher liegt er bei -1 oder 1. Beispiel 9.17. Schlafverhalten Eine Kinderpsychologin will u ¨ berpr¨ ufen, ob sich sportliche Aktivit¨ at positiv auf die Schlafdauer von Kindern auswirkt. Es werden neun Kinder gleichen Alters zuf¨allig ausgew¨ ahlt und ihre Schlafphasen (in h) gemessen. Außerdem wird beobachtet, wie viel Sport das Kind betrieben hat (ebenfalls in h). Es ergeben sich folgende Daten: Kind Sport Schlafdauer

1 1.1 7.9

2 0.8 7.6

3 1.3 8.1

4 0.3 7.6

5 1.0 7.9

6 0.9 7.5

7 0.7 7.5

8 1.2 7.7

9 0.2 7.0

9.6 Korrelationskoeffizient nach Bravais-Pearson

265

Nach Berechnung der Hilfsgr¨ oßen x ¯ = 0.83, y¯ = 7.64, s2X = 0.129 und s2Y = 0.089 erh¨ alt man sXY =

1 (1.1 · 7.9 + . . . + 0.2 · 7.0) − 0.83 · 7.64 = 0.087 9 ρ=

sXY 0.087 √ = 0.815 = √ sX · sY 0.129 0.089

Man findet deskriptiv einen starken gleichsinnigen linearen Zusammenhang zwischen Sportdauer und Schlafdauer. Das bedeutet je mehr Sport das Kind betreibt, desto h¨oher ist die Schlafdauer (in der Stichprobe).

Das folgende Beispiel soll illustrieren, dass der Korrelationskoeffizient als Maßzahl ausschließlich f¨ ur lineare Zusammenh¨ ange geeignet ist.

Beispiel 9.18. Quadratischer Zusammenhang F¨ ur die Merkmale X und Y wurden folgende Messwerte erhoben: Messung Merkmal X Merkmal Y

1 -4 16

2 -3 9

3 -2 4

4 -1 1

5 0 0

6 1 1

7 2 4

8 3 9

9 4 16

Aus der Datentabelle ist ersichtlich, dass die Merkmale X und Y einen funktionalen Zusammenhang besitzen, denn es gilt Y = X 2 . Die Berechnung des Korrelationskoeffizienten erfolgt u ¨ ber x ¯ = 0, y¯ = 6.67, s2X = 6.667 und s2Y = 34.222 und man erh¨ alt 1 (−4 · 16 + . . . + 4 · 16) − 0.00 · 6.67 = 0 9 sXY 0 √ ρ= =0 = √ sX · sY 6.667 34.222

sXY =

Obwohl also ein exakter quadratischer Zusammenhang zwischen den Merkmalen besteht, kann der Korrelationskoeffizient diesen nicht entdecken, weil dieser eben nur lineare Zusammenh¨ ange messen kann. Zwischen den Merkmalen X und Y gibt es keinen linearen Zusammenhang.

266

9 Unabh¨ angigkeit und Korrelation

Korrelation nach Bravais-Pearson Test Unabh¨ angigkeit metrischer Merkmale Voraussetzungen • • •

metrische oder dichotome Merkmale Beide Merkmale ann¨ahernd normalverteilt Linearer Zusammenhang zwischen den Merkmalen

Hypothesen •

Zweiseitige Hypothesen H0 : ρ = 0 (Unabh¨ angigkeit) angigkeit) H1 : ρ = 0 (Abh¨



Einseitige Hypothesen, Fall A, positive (lineare) Korrelation angigkeit) H0 : ρ = 0 (Unabh¨ H1 : ρ > 0 (positive (lineare) Korrelation)



Einseitige Hypothesen, Fall B, negative (lineare) Korrelation angigkeit) H0 : ρ = 0 (Unabh¨ H1 : ρ < 0 (negative (lineare) Korrelation)

Teststatistik √ n−2 t = r√ 1 − r2 Testentscheidung (Tabelle 11.2) •

Zweiseitiger Test: H0 ablehnen, falls t ≤ tn−2,α/2 oder S ≥ tn−2,1−α/2



Einseitiger Test, Fall A: H0 ablehnen, falls t ≥ tn−2,1−α



Einseitiger Test, Fall B: H0 ablehnen, falls t ≤ tn−2,α

Wie aus den Voraussetzungen ersichtlich, ist der Test der Korrelation nach Bravais-Pearson ein parametrischer Test (Voraussetzung der Normalverteilung f¨ ur beide Merkmale). Auch die Voraussetzung eines linearen Zusammenhanges ist zu beachten, weil der Korrelationskoeffizient alle anderen Arten von Zusammenh¨ angen (z.B. quadratische) untersch¨atzt und daher in diesen F¨ allen als Maßzahl ungeeignet ist. Bei Verletzung der Voraussetzungen sollte jedenfalls auf die ordinalen Korrelationskoeffizienten (Spearman, Kendall) zur¨ uckgegriffen werden.

9.7 Grafische Darstellung zweier metrischer Merkmale

267

9.7 Grafische Darstellung zweier metrischer Merkmale Zweidimensionale metrische Merkmale lassen sich sehr gut in Streudiagrammen darstellen, dazu wird jedem Datenpunkt ein Punkt in einem Koordinatensystem zugeordnet. Oft ist schon an den Streudiagrammen erkennbar, ob die Daten einen linearen Zusammenhang aufweisen.

y

y

x

x

Korrelation ρ = 0

y

Korrelation ρ = 0, 5

y

x

Korrelation ρ = 0, 85

x

Korrelation ρ = −0, 95

Abb. 9.2. Streudiagramme verschiedener Korrelationen

Unkorrelierte Daten (ρ = 0) verursachen Streudiagramme, in denen die Datenpunkte relativ unsystematisch angeordnet sind. Je n¨ aher der Betrag von ρ bei 1 liegt, desto besser ist der lineare Zusammenhang zwischen den Merkmalen ausgepr¨agt und die Punktewolke weist ein ellipsenf¨ ormiges Bild auf. Diese

268

9 Unabh¨ angigkeit und Korrelation

Ellipse wird mit steigendem Betrag von ρ immer schm¨aler, bis die Punkte f¨ ur |ρ| = 1 exakt auf einer Geraden liegen. Streudiagramm Ein Streudiagramm ist eine grafische Darstellung eines zweidimensionalen metrischen Merkmals. Dabei wird jeder Erhebungseinheit der zugeh¨orige Datenpunkt in einem Koordinatensystem zugeordnet. Streudiagramme erleichtern das Auffinden von Zusammenh¨ angen.

Daneben l¨asst sich aus einem Streudiagramm auch die Richtung des Zusammenhanges ablesen. Bei einem gleichsinnigen Zusammenhang muss die Punktewolke bzw. die Gerade ansteigend sein, bei einem gegensinnigen Zusammenhang ist die Punktewolke bzw. die Gerade fallend.

9.8 Korrelation und Kausalit¨ at Bei den einzelnen Maßzahlen zur Berechnung des Zusammenhanges ist zu beachten, dass aus der Kennzahl selbst nicht abgelesen werden kann, was Ursache und was Wirkung ist. Es ist nicht einmal sicher, ob es u ¨ berhaupt eine Ursache-Wirkungsbeziehung zwischen den beiden Merkmalen gibt. In der Statistik unterscheidet man zwischen einer statistischen Korrelation und einem kausalen Zusammenhang. Kennzahlen k¨onnen nur messen, ob die Daten eine statistische Korrelation aufweisen, aber niemals, ob es auch tats¨achlich einen kausalen Zusammenhang gibt. Kausale Zusammenh¨ ange sind generell nicht durch eine Berechnung zu finden, hier hilft nur Sachkompetenz und Hausverstand. Weisen Daten eine statistische Korrelation auf, f¨ ur die es keine inhaltliche Rechtfertigung gibt, dann spricht man von einer Scheinkorrelation. Als klassisches Beispiel wird meist die starke positive Korrelation zwischen der Anzahl an St¨ orchen und der Geburtenzahl angef¨ uhrt. Das folgende Beispiel zeigt einen ahnlichen Fall: ¨ Beispiel 9.19. Scheinkorrelation In f¨ unf aufeinander folgenden Jahren entwickelten sich die Anzahl der gemeldeten Aidsf¨ alle und die Anzahl der Mobiltelefon-BenutzerInnen (in Tausend) in der Schweiz gem¨aß nachstehender Tabelle: (Quellen: www.bakom.ch und www.bag.admin.ch)

9.8 Korrelation und Kausalit¨ at Jahr Aidsf¨ alle Mobiltelefon-BenutzerInnen (Tsd.)

1995 736 447

1996 542 663

1997 565 1044

1998 422 1699

269

1999 262 3058

Die Berechnung des Korrelationskoeffizienten f¨ uhrt auf ρ = −0.94, und verweist damit auf eine starke gegensinnige Korrelation zwischen Aidsf¨allen und Anzahl der HandynutzerInnen. Mit dem kausalen Zusammenhang ist es etwas schwieriger, denn Mobiltelefone d¨ urften wohl kaum als neues Mittel gegen Aids verwendbar sein. Die Variable Zeit spielt uns hier einen b¨ osen Streich, denn diese hat sowohl die Zahl der Aidsf¨ alle beeinflusst, als auch die Zahl der Mobiltelefon-BenutzerInnen. Beispiel 9.20. (Schein-)korrelation in SAS Wir verwenden die Daten aus Beispiel 9.19, um die Berechnung des Korrelationskoeffizienten nach Bravais-Pearson in SAS zu zeigen. Die Syntax zur Berechnung und zur Erstellung eines Streudiagrammes lautet: DATA Korrelation; INPUT Aids Handy; DATALINES; 736 447 542 663 565 1044 422 1699 262 3058 ; RUN; PROC CORR DATA = Korrelation; VAR Aids Handy; RUN; PROC GPLOT; PLOT Aids*Handy; RUN; Neben dem Korrelationskoeffizienten (-0.94026) wird auch der zweiseitige p-Wert ausgegeben (0.0174). Die Signifikanz a¨ndert allerdings nichts an der Feststellung, dass diese Korrelation nur eine Scheinkorrelation ist. Beispiel 9.21. (Schein-)korrelation in R In R wird mit folgender Syntax der zweiseitige und einseitige Test auf Korrelation nach Bravais-Pearson durchgef¨ uhrt und das Streudiagramm erstellt. Aids = c(736,542,565,422,262) Handy = c(447,663,1044,1699,3058)

270

9 Unabh¨ angigkeit und Korrelation

cor.test(Aids,Handy,alternative="two.sided",method="pearson") cor.test(Aids,Handy,alternative="less",method="pearson") plot(Handy, Aids) Neben dem Korrelationskoeffizienten (-0.9402642) und den p-Werten (einseitig 0.008684, zweiseitig 0.01737) wird auch der Wert der Teststatistik ausgegeben (t=-4.7837) und ein Konfidenzintervall f¨ ur den Korrelationskoeffizienten. Scheinkorrelationen werden meist durch eine zus¨ atzliche Einflussgr¨ oße verursacht, die in der Berechnung der Korrelation nicht ber¨ ucksichtigt wurde. Im Beispiel 9.19 wurde beispielsweise die Einflussgr¨oße Zeit nicht beachtet, ein Fehler, der u ¨ brigens sehr oft vorkommt. Bleibt ein entscheidendes Merkmal unber¨ ucksichtigt, kann auch der umgekehrte Effekt auftreten, dass statistisch keine Korrelation feststellbar ist, obwohl ein Zusammenhang existiert, wenn ein weiteres Merkmal ber¨ ucksichtigt wird. In diesem Fall spricht man in der Statistik von verdeckten Korrelationen. Korrelation und Kausalit¨ at • •

Scheinkorrelation: statistische Korrelation bei fehlendem direkten Zusammenhang Verdeckte Korrelationen: Zusammenhang bei fehlender statistischer Korrelation

Die Ursache liegt bei weiteren, nicht ber¨ ucksichtigten Merkmalen.

9.9 Tipps und Tricks In diesem Kapitel wurden Maßzahlen zur Messung des Zusammenhangs beschrieben, die bei zwei Merkmalen gleichen Skalenniveaus verwendet werden k¨ onnen. In der Praxis kommen oft unterschiedliche Skalenniveaus, z.B. Geschlecht (nominal) und h¨ ochste abgeschlossene Schulbildung (ordinal) vor. Es gibt zwar spezielle Maßzahlen f¨ ur solche F¨alle, aber es hilft auch folgende ¨ Uberlegung: Aufgrund der hierarchischen Anordnung der Skalenniveaus sind f¨ ur ein bestimmtes Niveau auch alle Verfahren zul¨assig, die im darunter liegenden Niveau zul¨ assig sind. Ein ordinales Merkmal darf also als nominales Merkmal behandelt werden, daher kann man den Zusammenhang zwischen Geschlecht und h¨ ochster abgeschlossener Schulbildung mit dem Assoziationsmaß χ2 messen und testen.

¨ Ubungsaufgaben

271

¨ Ubungsaufgaben Aufgabe 9.1. Interesse an Sport¨ ubertragung In einer Lehrveranstaltung wurden die dort anwesenden Studierenden gefragt, ob sie sich f¨ ur Sport¨ ubertragungen im TV interessieren. Die 240 befragten Personen verteilten sich folgendermaßen auf dem zweidimensionalen Merkmal Geschlecht und Interesse.

m¨ annlich weiblich Summe

Interesse 60 70 130

kein Interesse 30 80 110

Summe 90 150 240

Gibt es einen Zusammenhang zwischen Geschlecht und Interesse an Sportu ¨ bertragungen (α = 0.05)?

Aufgabe 9.2. K¨ orpergr¨ oße und Gewicht Bei einer Stichprobe von 10 Personen wurden K¨ orpergr¨ oße K und Gewicht G gemessen: Person 1 K 175 G 75

2 175 73

3 184 74

4 180 82

5 173 77

6 173 70

7 184 88

8 179 68

9 168 60

10 183 82

Gibt es einen Zusammenhang zwischen K¨orpergr¨ oße und Gewicht (α = 0.05)?

Aufgabe 9.3. Lehrveranstaltung Eine Lehrveranstaltungsleiterin hat beim Betrachten der Ergebnisse ihrer ¨ Ubung festgestellt, dass die beste Klausur von der Studentin mit dem bes¨ ten hinterlassenen Eindruck in der Ubung und die schlechteste Klausur von jener mit dem schlechtesten Eindruck geschrieben wurde. Sie vermutet deshalb einen Zusammenhang zwischen den Rangfolgen bei der Klausur und ihren pers¨onlichen Eindr¨ ucken: Studierende Rang Klausur Rang Eindruck

A 1 1

B 6 2

C 7 7

D 5 3

E 2 4

F 4 5

G 3 6

Gibt es einen Zusammenhang zwischen Eindruck und tats¨achlicher Klausurleistung (α = 0.05)?

272

9 Unabh¨ angigkeit und Korrelation

Aufgabe 9.4. Abfahrtslauf An einem Abfahrtslauf nahmen 8 Personen (A-H) teil. In der nachfolgenden Tabelle sind die Ergebnisse dargestellt.

Name

Startnummer

A B C D E F G H

5 8 7 1 6 2 3 4

Zeit (in min.sec.) 1.58.90 2.01.34 2.00.30 1.59.60 2.00.14 2.00.41 1.59.62 1.57.48

Gibt es einen signifikanten Zusammenhang zwischen Startnummer und Ergebnis (α = 0.05)?

Aufgabe 9.5. Freude an der Schule Bei einer Befragung von insgesamt 3220 Kindern ergab eine Auswertung nach dem zweidimensionalen Merkmal Geschlecht und Freude an der Schule folgende Verteilung. m¨ annlich weiblich Summe

große Freude 1224 1674 2898

geringe Freude 226 96 322

Summe 1450 1770 3220

Kann ein Zusammenhang zwischen den Merkmalen Geschlecht und Freude an der Schule in der Grundgesamtheit nachgewiesen werden?

10 Nichtparametrische Dichtesch¨ atzung und Regression

Gewisse Eigenschaften einer Verteilung wie Symmetrie, Ein- bzw. Mehrgipfeligkeit, Ausreißerneigung und starke Schiefe sind an der Wahrscheinlichkeitsdichte leichter erkennbar als an der Verteilungsfunktion. Deshalb widmet sich dieses Kapitel im ersten Teil der Aufgabe, aus gegebenen Daten die Dichtefunktion f zu sch¨atzen, ohne eine Annahme u ¨ ber eine zugrunde liegende Verteilungsfamilie zu treffen. Im zweiten Teil des Kapitels werden einfache Methoden der nichtparametrischen Regression vorgestellt.

10.1 Nichtparametrische Dichtesch¨ atzung Nichtparametrische Dichtesch¨atzung erfolgt normalerweise nur lokal, d.h. man sucht eine gute Ann¨aherung f¨ ur die Dichtefunktion f an der Stelle x. Das a¨lteste und wohl auch bekannteste Verfahren zur Dichtesch¨atzung ist das Histogramm. Neuere Methoden beruhen auf Kerndichtesch¨ atzern, Splines, Fourierreihen oder auf dem Maximum-Likelihood-Prinzip, wobei sich die Ausf¨ uhrungen in diesem Buch auf die Methode der Kerndichtesch¨atzer beschr¨anken.

10.1.1 Das Histogramm ¨ Eine g¨ angige M¨ oglichkeit, um einen ersten Uberblick u ¨ber eine Datenverteilung zu erhalten, ist das Zeichnen eines Histogramms.

274

10 Nichtparametrische Dichtesch¨ atzung und Regression

Histogramm Beim Histogramm werden auf der horizontalen Achse die Merkmalsauspr¨ agungen aufgetragen. Die Fl¨ achen der Rechtecke u ¨ ber der Achse repr¨ asentieren die relativen H¨aufigkeiten bzw. Wahrscheinlichkeiten. Beispiel 10.1. Histogramm In der Datei alter.txt1 ist das Alter (in Jahren) von 3500 Personen aufge¨ zeichnet. Um einen ersten Uberblick u ¨ ber diese Daten zu bekommen, wird ein Histogramm erstellt. Der zugeh¨orige SAS-Code lautet: PROC IMPORT DATAFILE=’C:\alle Pfadangaben\alter.txt’ OUT=alter; GETNAMES = yes; RUN; PROC UNIVARIATE DATA = alter; VAR jahre; HISTOGRAM jahre / VSCALE = PROPORTION; RUN;

Abb. 10.1. Histogramm der Altersverteilung in SAS 1

Die Datei kann von der Homepage der Autorin heruntergeladen werden: http://www.ifas.jku.at/personal/duller/duller.htm

10.1 Nichtparametrische Dichtesch¨ atzung

275

In R kann das Histogramm mit folgender Anweisung erstellt werden:

0.000

0.005

0.010

Dichte

0.015

0.020

0.025

alter = read.table("C:/Pfad/alter.txt",header=TRUE) hist(alter$jahre, freq = FALSE, main = "Histogramm der Altersdaten in R", ylab = "Dichte", xlab = "Alter in Jahren", col = "grey") axis(1, at = seq(0,100,10))

0

10

20

30

40

50

60

70

80

90

Alter in Jahren

Abb. 10.2. Histogramm der Altersverteilung in R

Wird keine Angabe u ¨ ber die Intervallbreite gemacht, w¨ ahlt SAS f¨ ur diese Daten eine Intervallbreite von 4 und R eine Intervallbreite von 5 Jahren. Die Wahl vern¨ unftiger Klassen bzw. Intervalle bleibt aber prinzipiell den AnwenderInnen u ¨ berlassen. Die Intervallbreiten m¨ ussen nicht notwendigerweise gleich groß sein, Histogramme mit unterschiedlichen Intervallbreiten k¨ onnen aber nur in R erzeugt werden.

276

10 Nichtparametrische Dichtesch¨ atzung und Regression

Beispiel 10.2. Histogramm mit verschieden breiten Intervallen Die Altersdaten werden nun in folgende Klassen unterteilt (k = 6): Intervall i 1 2 3 4 5 6

Alter ci−1 < x ≤ ci 0 15 30 40 50 60