Przewodnik po statystyce dla socjologów  
 8391287114 [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

tyce

Copyright

©

Recenzenci

SPSS Polska, Kraków 2002 Jarosław

Górniak, Leszek A.

Wstęp·

Gruszczyński

1. Jak

. być

badaczem? . podstawowe Od czego zacząć? Nauka . Metoda naukowa Testowanie hipotez Od hipotez do teorii . Typy zależności . . . Zależność a związek przyczyno-skutkowy Jednostka analizy

Pojęcia

Projekt graficzny

Małgorzata

Dubowiak

Opracowanie edytorskie, redakcja techniczna, i łamanie systemem 'lEX preTEXt, Kraków, www.pretext.com.pl

skład

Druk i oprawa Wydawca

Drukarnia Know-How, Kraków, tel. 012.6369607

SPSS Polska Sp. z 0.0., Kraków, ul. Racławicka 58 tel./faks: 012.6369680, e-mail: [email protected]. www.spss.pl

Wszelkie prawa zastrzeżone. Żadna część niniejszej książki nie może być powielana ani rozpowszechniana metodami elektronicznymi, mechanicznymi, fotokopiowania, zapisu magnetycznego czy innymi - w jakiejkolwiek formie - bez pisemnej zgody wydawcy. Zastrzeżenie to nie wyklucza możliwości wykorzystania krótkiego fragmentu w związku z omówieniem w prasie lub innych mediach. SPSS jest zastrzeżonym znakiem towarowym, a pozostałe produkty i nazwy SPSS są znakami towarowymi SPSS Inc. Inne produkty i nazwy występujące w publikacji są znakami towarowymi lub zastrzeżonymi znakami towarowymi odpowiednich firm i zostały użyte jedynie w celu identyfikacji.

ISBN 83-912871-1-4

Wydanie pierwsze Printed in Poland

1.1. 1.2. 1.3. 1.4. 1.5. 1.6. 1.7. 1.8.

11

15 15 16 17 21

22 26 28 31 33

Ćwiczenia

35

Literatura

36

2. Jak

zmierzyć szczęście?

Pojęcia

2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9.

podstawowe Pomiar . . . . . Poziom nominalny. Poziom porządkowy . Skala Likerta. . . . . Poziom interwałowy i ilorazowy Definicje operacyjne. Tworzenie indeksów Trafność .

37 37 37 38

41 42

44 51 54 58

Rzetelność

59

Ćwiczenia . . .

61 65 70

Co może zrobić za nas komputer Literatura . . . . . . . . . . . . .

r

I

3. Co piszczy w szeregu statystycznym? pojęcia podstawowe 3.1. Średnia arytmetyczna. 3.2. Mediana . 3.3. Dominanta 3.4. Skośność . 3.5. Inne miary pozycyjne 3.6. Rozstęp· . 3.7. Odchylenie średnie 3.8. Wariancja i odchylenie standardowe Ćwiczenia . Co może zrobić za nas komputer Literatura . . . . . . . . . . . 4. Co widać przez okna tabeli? . Pojęcia podstawowe 4.1. Tabele kontyngencji . . . 4.2. Przekodowywanie danych. 4.3. Forma prezentacji danych w polach tabeli 4.4. Miary zależności dla tabel dwa-na-dwa 4.5. Miary związku dla tabel n-przez-n. 4.6. Trzecia zmienna . . . 4.7. Modele przyczynowe Ćwiczenia . Co może zrobić za nas komputer Literatura . . . . . . . . 5. Jak żyć w niepewności? . Pojęcia podstawowe . . . . . . . . . . . . 5.1. Czym zajmuje się statystyka indukcyjna? 5.2. Próba losowa. . . . . . . . . . 5.3. Testy statystycznej istotności 5.4. Prawdopodobieństwo . . 5.5. Rozkład normalny. . . . 5.6. Rozkład średnich z prób 5.7. Rozkład t Studenta . . . 5.8. Test istotności dla proporcji 5.9. Estymacja przedziałowa Ćwiczenia . Co może zrobić za nas komputer L~ff~ura . . . . . . . . . . . . .

6

71 71

72 76 82 85 88 89 90 92 99 102 106 107 107 108

109 112 118 122 131 135 137

138 143

145 145 146 148 150 154 155 160 164 168 169

172 175 176

6. Jak kontrolować ryzyko? . Pojęcia podstawowe 6.1. Sposób doboru prób. 6.2. Test dla dwóch prób niezależnych 6.3. Test dla dwóch prób zależnych .. 6.4. Jednoczynnikowa analiza wariancji 6.5. Test post hoc . Ćwiczenia . Co może zrobić za nas komputer Literatura . . . . . . . . . . .

177 177 178 179 186 189 201 204 206 210

7. Jak postawić kropkę nad L.. ? Pojęcia podstawowe 7.1. Test chi-kwadrat . . . . . 7.2. Warunki stosowania testu chi-kwadrat 7.3. Miary związku oparte na chi-kwadrat . 7.4. Między poziomem nominalnym a ilorazowym. 7.5. Koncepcja liniowości . 7.6. Prosta regresja liniowa Ćwiczenia . Co może zrobić za nas komputer Literatura . . . . . . . . . . . . .

211 211 212

216 223 224 227

230 238 239 242 243 245

Dodatek. Jak być odkrywcą? Analiza struktur ukrytych Pojęcia podstawowe Co to jest zmienna ukryta Analiza struktur ukrytych Formalny model analizy struktur ukrytych Porównywanie struktur ukrytych między grupami Budowanie modeli zależności Zamiast ćwiczeń . Literatura . . . .

250

Załącznik

283

1. Pola pod

krzywą normalną

246 247 260

265 267

280

Załącznik

2.

Rozkład

Studenta t .

289

Załącznik

3.

Rozkład

F . . . . . .

293

Załącznik

4.

Rozkład

chi-kwadrat

299

Chciałabym podziękować wielu osobom, bez których wsparcia i zaangażowania książka

ta nie

miałaby

szans

się ukazać.

Jej merytoryczna zawartość swój ostateczny kształt zawdzięcza wnikliwym uwagom recenzentów Leszka A. Gruszczyńskiego i Jarosława GÓrniaka. Dzię­ ki nim udało mi się uzupełnić i dopracować wiele fragmentów oraz uniknąć szeregu błędów a za te, które ewentualnie pozostały, tylko ja w pełni odpowiadam. Dziękuję Aleksandrowi Zaigraevowi za konsultacje w zakresie statystyki indukcyjnej, Bogdanowi Cichomskiemu za szybkie udostępnienie danych PGSS z edycji 1999 roku, a także Henrykowi Domańskiemu, Krystynie Lutyńskiej i Andrzejowi Rostockiemu za zgodę na ponowne opublikowanie mojego tekstu z zakresu analizy struktur ukrytych, który wcześniej ukazał się w tomie pod ich redakcją. Dziękuję wszystkim studentom, którzy uczestniczyli aktywnie w testowaniu przydatności tej książki do celów dydaktycznych a szczególnie Aleksandrze Bronk, która sprawdzała przydatność wszystkich przykładów w programie SPSS. Książka w opracowanej ostatecznie formie ma szansę ukazać się dzięki wsparciu organizacyjnemu i finansowemu dwóch instytucji: firmy SPSS Polska i Uniwersytetu Mikołaja Kopernika w Toruniu. Instytucje to przede wszystkim ludzie. Zatem dziękuję Piotrowi Komornickiemu i Januszowi Mikulskiemu z SPSS Polska za ich szczególny wkład w to przedsięwzięcie. Życzliwość i wsparcie Dyrektora Instytutu Socjologii UMK Andrzeja Zybertowicza i mojego bezpośrednie­ go przełożonego a zarazem ówczesnego Dziekana Wydziału Humanistycznego UMK Ryszarda Borowicza była nie do przecenienia. Ostateczną formę książka ta zawdzięcza pracy Ewy Kmiecik.

Maria Nawojczyk

I

Od przeszło dziesięciu lat uczę studentów socjologii statystyki. Jest to, jak dostateczny okres czasu aby zgromadzić doświadczenia i pokusić się o pewne uogólnienia. Zacznę od spostrzeżeń niezbyt przyjemnych dla nauczyciela statystyki. Większość osób podejmujących studia na kierunku socjologia uważa się za humanistów - i słusznie. Szkoda tylko, że to przekonanie często definiowane jest w oparciu o wykluczenie - nigdy więcej matematyki i czegokolwiek, co się z nią łączy. Zatem konieczność studiowania statystyki jest dla wielu przykrą niespodzianką. Próba przekonania studentów, że to przedmiot pożyteczny i nawet można go polubić, graniczy z cudem. Najczęściej przyjmowaną przez studentów postawą bywa zatem strategia 3 x Z (zakuć, zdać, zapomnieć). Bywała ona efektywna tylko w wymiarze lokalnym, bowiem już na zajęciach praktycznych z programem SPSS okazywało się, że bez teoretycznych podstaw ze statystyki nie da się zrobić niczego sensownego z naj ciekawszymi nawet danymi. Z racji tego, że zajęcia te poświęcone były nabywaniu umiejęt­ ności posługiwaniasię programem SPSS, to "odkurzanie" wiedzy ze statystyki musiało się odbywać w bardzo ograniczonym zakresie. O tym, jak duże były to ograniczenia, miałam się przekonać prowadząc seminarium magisterskie. Wielu moich magistrantów miało świetne pomysły na prace oparte na materiale empirycznym, niewielu z zebranym materiałem umiało sobie dobrze radzić. Jeszcze więcej z nich miałoby szansę na zdobycie ciekawej pracy po studiach, gdyby takie umiejętności w stopniu dostatecznym posiadali. Z kontaktów z naszymi absolwentami wiem, że część z nich tę wiedzę samodzielnie uzupełnia. sądzę,

Kij, jak wiadomo, zawsze ma dwa końce. Postawa studentów to jedno, ale z drugiej strony jestem ja, jako nauczyciel z dostępnymi mi pomocami w nauczaniu. Ucząc statystyki korzystałam z dość już "wiekowego", przetłumaczonego na język polski trzydzieści lat temu, podręcznika Huberta Blalocka i skryptów publikowanych na własne potrzeby przez różne wydawnictwa uniwersyteckie. Żadna z tych pozycji nie brała pod uwagę dynamicznie rozwijającego się pro-

(

cesu komputeryzacji, wspomagającegoanalizę statystyczną. Każda z nich była bardziej zorientowana teoretycznie (co humanistów przyprawiało o koszmary senne a próbujących ich tego nauczyć -- o stały stres bycia nauczycielem z tych koszmarów) a mniej praktycznie. Doświadczeniate złożyły się na podjęcie przeze mnie decyzji o napisaniu nowoczesnego, przyjaznego studentom podręcznika podstawowego - elementarnego kursu statystyki. W moich założeniach powinien on zawierać: ilI

II!

III

III

niezbędną wiedzę teoretyczną, opisaną językiem możliwie najmniej formalnym, ze szczególnym naciskiem na zdobycie umiejętności interpretacyjnych; dodatek do każdego rozdziału pokazujący, jak wprowadzone zagadnienia zastosować w praktyce, posługując się programem SPSS, i korzystając z danych Polskiego Generalnego Sondażu Społecznego;

dodatek dla zaawansowanych (tych, których udałoby mi się zachęcić do statystyki), obejmujący najczęściej stosowane metody analizy na wyższym poziomie zaawansowania; dodatek w formie tekstu mojego autorstwa: "Zastosowanie modeli logarytmiczno-liniowych ze zmiennymi ukrytymi do badania postaw", który ukazał się w pracy "Spojrzenie na metodę" pod red. Henryka Domańskie­ go, Krystyny Lutyńskiej i Andrzeja Rostockiego (Warszawa 1999: IFiS PAN, ss. 81-94), a który chciałabym opatrzyć komentarzami dydaktycznymi i pokazać "od kuchni" .

Jak to zwykle bywa, życie weryfikuje większość naszych zamierzeń. Punkt pierwszy, jako dla mnie najważniejszy, został zrealizowany, dodatki natomiast uległy pewnym korektom. W trakcie moich prac nad dodatkami do poszczególnych rozdziałów, mającymi w zamierzeniu pokazać, jak prezentowanąwcześniej analizę dokonać za pomocą programu SPSS - ukazała się pozycja autorstwa Jarosława Górniaka i Janusza Wachnickiego "SPSS PL for Windows: Pierwsze kroki w analizie danych" . Książka ta, w o wiele pełniejszy sposób prezentuje to, o co mi chodziło przy konstrukcji dodatków zatytułowanych "Co może zrobić za nas komputer". Zamiast zatem pokazywać, jak "zrobi" to za nas komputer (tu podaję odsyłacze do wspomnianej pozycji), przedstawiam sposób interpretacji uzyskanych za pomocą komputera wyników. Posługuję się w tych przykładach danymi z Polskiego Generalnego Sondażu Społecznego z roku 1999, zachęcając studentów w trakcie zajęć do próby samodzielnego uzyskania prezentowanych wyników końcowych przeprowadzanych analiz. W dodatku dla zaawansowanych zamierzałam zawrzeć poszerzenie wiedzy o analizie regresji oraz wprowadzenie do analizy czynnikowej i analizy struktur ukrytych. Niestety część podstawowa książki rozrosła się do takich rozmiarów,

\

\I,

że z części tych planów musiałam zrezygnować. Ponieważ w liter~turze st~~ tystycznej w języku polskim można znaleźć pozycje opisujące anahzę regresF na wyższym niż elementarny poziomie oraz analizę czynnikową - te kwe~t~e postanowiłam pominąć. Zamieszczam natomiast rozdział poświęcony anah.zl: struktur ukrytych, gdyż jest to metoda słabo obecna w literaturze polskIeJ. Jej użyteczność pokazuję na moim wcześniej już opublikowanym tekście (za zgodą redaktorów tomu), przedstawiającymtaką analizę niejako "od kuchni". Sugestie obu recenzentów szły w kierunku wyeliminowania tego dodatku, jako mało spójnego z całością podręcznika. Zgadzam się z uwagami, że tok wywodów w tym dodatku odbiega od konwencji prowadzenia czytelnika krok po kroku w możliwie naj prostszy sposób, ale materia jest bardziej skomplikowana i wymagałaby dużo więcej miejsca na taki typ wykładu, jaki poprzednio proponowałam. Ponieważ obaj recenzenci zachęcali mnie do napisania kolejnego tomu, obejmującego metody analizy na wyższym poziomie zaawansowania, pozwalam sobie jednak ten dodatek pozostawić, jako ewentualny spójnik, jeśli wyzwanie to podejmę w przyszłości. Wróćmy

do części zasadniczej książki. Zakładam, że studenci zapisujący się na ze statystyki mają za sobą kurs metodologii badań społecznych oraz metod i technik badawczych. Dwa pierwsze rozdziały ("Jak być badaczem?"; "Jak zmierzyć szczęście?") poświęcone są na przypomnienie wiedzy z tych kursów ale w kontekście wprowadzenia do zagadnień ze statystyki. Zaczynam od metody naukowej, stawiania hipotez, określania zależności między zmiennymi, by przejść do poziomu pomiaru zmiennych, tworzenia indeksów, określania ich trafności i rzetelności. Pogłębionej wiedzy w tym zakresie należy poszukiwać w podręcznikach do metodologii, tu przypominam je na tyle, na ile jest to niezbędne do wprowadzenia kolejnych kwestii. zajęcia

W rozdziale trzecim ("Co piszczy w szeregu statystycznym?") pokazuję, jak analizować jedną wybraną zmienną poprzez miary tendencji centralnej oraz miary dyspersji. VI[ kolejnym rozdziale ("Co widać przez okna tabeli?") przedstawiam sposoby konstrukcji tabel statystycznych i pomiaru siły związku między zmiennymi w tych tabelach. Rozdział piąty ("Jak żyć w niepewności?") jest wprowadzeniem do statystyki indukcyjnej. Wyjaśniam w nim istotę testów statystycznej istotności, by w rozdziale kolejnym ("Jak kontrolować ryzyko?") zaprezentować testy dla dwóch prób i analizę wariancji.

W rozdziale siódmym ("Jak postawić kropkę nad i... ?") dopełniam wiedzę dotyczącą pomiaru siły związku między zmiennymi i jego statystycznej istotności

w zależności od ich poziomu pomiaru. Znalazły się tu więc test chi-kwadrat, i prosta analiza regresji. Całość jest uzupełniona wcześniej sygnalizowanymi dodatkami. Program zajęć oparty o wstępny maszynopis tego podręcznika był testowany dwukrotnie:

w roku akademickim 1999/2000 jako osobny kurs statystyki i w roku akademickim 2000/2001, w zestawie wykład ze statystyki wraz z ćwiczeniami (zaję­ cia z programem SPSS realizowane w pracowni komputerowej). Prezentowany podręcznik przygotowany jest do obu form prowadzenia zajęć, z tym że w tej drugiej formie przynosi moim zdaniem naj pełniejsze efekty. Ponieważ kurs ze statystyki w moim Instytucie już od kilku lat nie jest przedmiotem obowiązkowym, przyjazna studentom forma prezentowanego podręcz­ nika została potwierdzona rosnącą liczbą uczestników tego kursu. Liczę więc na to, że ten elementarz do statystyki dla studentów socjologii stanie się dla nich zachęcającym wstępem do studiowania tej dyscypliny.

Pojęcia

II

charakter empiryczny charakter normatywny hipoteza nauki społeczne tabela kontyngencji liczebność brzegowa liczebność ogólna pole (tabeli)

II

związek

II

II

zmienna indukcja dedukcja eksperyment

II

II II II

Toruń,

lipiec 2002

podstawowe

II II II II

II

II III

II II II II II II II II

II II

prawo naukowe dane warunek konieczny warunek wystarczający teoria zależność pozytywna zależność negatywna związek przyczynowo-skutkowy zmienna zależna zmienna niezależna jednostka analizy statystyka

Podręcznik ten obejmuje zagadnienia z zakresu statystyki i analizy danych w naukach społecznych. Zawarte w nim procedury znajdą zastosowanie wówczas, gdy będziemy dysponować zgromadzonym materiałem badawczym. Gromadzenie i interpretacja takiego materiału jest logicznym procesem o ustalonych standardowych procedurach, zwanych metodą naukową, charakterystycznym dla wszystkich dziedzin nauki.

Metoda naukowa jest procedurą, za pomocą której określamy związek pomię­ dzy interesującymi nas z badawczego punktu widzenia zjawiskami, a następnie sprawdzamy, czy takowy związek rzeczywiście istnieje. O ile metoda naukowa jako procedura badawcza jest wspólna dla nauki jako całości, to konkretne techniki gromadzenia materiału badawczego i prowadzenia jego analizy mogą się różnić w zależności od uprawianej dyscypliny. Zrozumienie istoty metody badawczej stanowi jednak niezbędny warunek by zostać badaczem.

i I

!

~

1.1. Od czego

zacząć?

Cele nauki są różnorodne, ale istotą prowadzenia badań naukowych jest zrozumienie interesujących nas zjawisk. Opisywanie i wyjaśnianie tych zjawisk ma w konsekwencji prowadzić do możliwości przewidywania ich rozwoju, lub w ogóle wystąpienia, i być może uzyskania nad nimi kontroli. Podstawowymi więc pytaniami, na jakie badacz poszukuje odpowiedzi są pytania: "Jak jest?" oraz "Jak być powinno?" Pytania i odpowiedzi koncentrujące się na wymiarze "jak jest" mają charakter empiryczny, natomiast obejmujące wymiar "jak być powinno" - mają charakter normatywny. Oba te wymiary obecne są we wszystkich dziedzinach nauki. Odpowiedzi, jakich udzielamy na pytania dotyczące tego "jak być powinno", mają zasadnicze znaczenie dla zrozumienia społeczeństwa, w którym żyjemy. Przywołajmyparę konkretnych przykładów, pytamy np.: "Co to jest dobre społeczeństwo? Co to jest sprawiedliwość?Czy demokracja parlamentarna jest najlepszym systemem politycznym? Czy powinno stosować się karę śmierci? Czy

eutanazja powinna być legalnie dozwolona? Czy państwo powinno gwarantować swoim obywatelom minimalny dochód?" Odpowiedzi na takie pytania zależą od naszego systemu wartości, preferencji, światopoglądu. Stanowią one podstawę i istotę filozofii społecznej. Jak daleko nie sięgalibyśmy w historii społecznej to zawsze znajdziemy myślicieli, którzy takie pytania stawiali i poszukiwali na nie odpowiedzi, poczynając od Platona i Arystotelesa, poprzez Augusta Comte'a, Emila Durkheima, Maxa Webera po Talcota Parsonsa i wielu innych twórców teorii społecznych. Stawiając pytania empiryczne dążymy do ustalenia faktów anie wartości. Przypuśćmy, że z normatywnego punktu widzenia akceptujemy stwierdzenie, iż wolność prasy jest niezbędnym warunkiem istnienia wolnego społeczeństwa. Odnoszące się

do takiego stwierdzenia pytania empiryczne mogłyby być sformu-

łowane następująco: Czy w danym społeczeństwie istnieje wolność prasy? lub, Na ile w danym społeczeństwie istnieje wolność prasy? Załóżmy, że wolność prasy zdefiniujemy jako istnienie w badanym społeczeń­ stwie, przez co najmniej ostatni rok, gazety lub stacji telewizyjnej, która nie była własnością państwa, nie była też przez rząd kontrolowana, ani jej artykuły, bądź audycje, nie były przedmiotem działań cenzury. Niezależnie od tego, czy taka definicja wolności prasy nam się podoba czy nie, to jeśli raz uznamy ją za obowiązującą, to w oparciu o nią możemy dokonywać analizy materiału empirycznego pochodzącego z różnych państw, aby stwierdzić czy wolność prasy w nich istnieje, czy nie. Istnienie wolności prasy jest więc przedmiotem empirycznej weryfikacji. Natomiast pytanie, czy istnienie wolności prasy jest

warunkiem koniecznym (czy nie) dla rozwoju demokracji, pozostaje pytaniem normatywnym, na które odpowiedzi udzielamy w zależności od naszego systemu wartości.

Przy definiowaniu wolności prasy musimy brać pod uwagę zarówno normatywne, jak i empiryczne założenia. Na przykład, możemy znaleźć takie państwa, w których w czasie pokoju istniała duża wolność prasy, ograniczona znacznie przez cenzurę wojskową w czasie wojny z powodów bezpieczeństwa narodowego. To, czy państwo takie będziemy nadal uważać za charakteryzujące się wolnością prasy, będzie zależało od naszego systemu wartości. Jakiego rodzaju ograniczenia możemy zaakceptować, uważając jednocześnie, że wolność prasy została zachowana? Założenia empiryczne wymagają od nas możliwie precyzyjnego pomiaru badanego zjawiska. Musimy więc poradzić sobie na przykład z takimi problemami, jak możliwość zdobycia informacji koniecznych do określenia wolności prasy w badanym państwie. Jeżeli nasza definicja wolności prasy obejmuje także możliwość publikacji "miękkiej" pornografii, to gdzie znajduje się granica pomiędzy pornografią akceptowalną, a tą już nie do przyjęcia? Wymiary normatywny i empiryczny w badaniach społecznych współistnieją i uzupełniają się w prosty sposób: fakty potwierdzone empirycznie pozwalają nam ocenić, w jakim stopniu osiągnęliśmy stan pożądany z normatywnego punktu widzenia. Jeżeli przyjmiemy, że jedną z konsekwencji zmian systemowych zachodzących w Polsce powinno być podniesienie standardu życia Polaków, to wiedząc, że na początku lat gO-tych PKB na jednego mieszkańca wynosił około 2 tys. dolarów a pod koniec tej dekady ponad 6 tys. dolarów, możemy powiedzieć, iż posuwamy się w kierunku osiągnięcia celu normatywnego. Głównym celem tego podręcznikajest zaprezentowanie sztuki prowadzenia analizy empirycznej. Jest wiele możliwych sposobów badania tego "co jest", tzn. definiowania faktów, ich pomiaru i interpretacji. Wszystkie te zabiegi operacyjne muszą pozostawać w zgodzie z istotą i logiką badania naukowego.

1.2. Nauka Wiedza empiryczna jest wynikiem obserwacji lub eksperymentu. Prowadząc obserwację lub eksperyment stajemy się badaczami. Badacz zbiera i interpretuje informacje empiryczne. Czyni to, aby zweryfikować hipotezy. Przez hipotezy będziemy tu rozumieć stwierdzenia określające przypuszczalne zależności lub związki miedzy badanymi zjawiskami. Te zależności będące przedmiotem naszych rozważań w dalszej części tego rozdziału - pojawiają się wówczas, gdy zaistnienie określonej własności lub ilości jednego zjawiska prowadzi do wystąpienia określonej własności lub ilości innego zjawiska. Zjawiskami leżący-

mi ~ .polu naszych zainteresowań będą zjawiska społeczne, tzn. odnoszące się do ~oznorodn~ch aspektów życia społecznego: społeczeństwa, kultury, systemu pol~tycz~ego Itp. Zajmują się nimi poszczególne dyscypliny wiedzy, takie jak: ??htologla, psyc~ol~gia, polityka społeczna, antropologia społeczna, socjologia l mne, zwane ogolme naukami społecznymi.

Stud~nci o utrwalonej wiedzy z zakresu metodologii nauk społecznych bez trudu wskazą na zn.a~zne uproszczenia w poniżej prezentowanych rozważaniach. Są

one w, t!'~ mIeJSCU usprawiedliwione koniecznością skrótowego wprowadzenia, a włascIwIe ?rzypomnienia, pewnych pojęć ogólnych z metodologii, do których statystyka SIę odwołuje.

Na~ki społeczne podzielają z innymi naukami wspólne założenia. Stosują w badamach metodę naukową, tj. procedurę logicznie po sobie następujących etapów badawczych, pozwalającą zminimalizowaćwpływ systemu wartości badacza na proces badawczy. Poza tym używają również metod ilościowych w celu zmierzenia, policzenia, zebrania i analizy materiału empirycznego.

~etoda naukowa jest zatem serią zadań intelektualnych, które badacz podejmuJe .aby s~ormułować hipotezy a następnie je zweryfikować (również negatywnie). Uz~wam: metody naukowej stanowi podstawę do wygenerowania wiedzy, która moz~ byc z~ak~epto:vana przez społeczność naukową. Taka przyjęta "prawda" powmna byc mezalezna od wartości i preferencji badacza. Prawidłowo przeprowadzone badanie dotyczące rozkładu poglądów politycznych w danej grupie, np. stud~nckiej grupie ćwiczeniowej, mogłoby wykazać, że 58% osób ma poglą­ d~ pra:VIcowe a 42% lewicowe. Wynik taki byłby stwierdzeniem faktu i byłby mezalezny od poglądow politycznych badacza. Największymwyzwaniem dla badacza oraz osób korzystających z wyników jego

pracy jest rozróżnienie tego, co jest udowodnionym faktem, a co jest moralną lub etyczną ocen~ badanych aspektów zachowań społecznych. Zwykle nie jest to ła~wym.zadan~em., ponie~aż już sam wybór badanej problematyki, sposób ~efimowama faktow Jest zalezny od systemu wartości i preferencji badacza, od Jego systemu normatywnego.

v:

Od wi~ków środowisku naukowym trwa filozoficzna debata nad tym, czy nauka moze byc wolna od wartościowania. Zdania są podzielone, w zależności od przyję:y?h zał~że.~ epistemologicznych i ontologicznych. Na potrzeby naszych rozw~zan przYjmIjmy założenie, że nie jesteśmy w stanie całkowicie wyeliminowac wpływu systemu normatywnego badacza na efekty jego pracy. Dlatego z .pun~tu widzenia obiektywizmu naukowego korzystne jest, gdy badacz sam uJawma swoje poglądy na badaną kwestię. Poza tym jesteśmy w stanie znacznie ten wpływ ograniczyć lub kontrolowaćjego oddziaływanie na wnioski wywodzo-

ne z badań, poprzez stosowanie w badaniach metody naukowej. Na przykład, badacz, który uważa, że bierne palenie jest szkodliwe dla zdrowia, może opublikować raport, powołując się tylko na wyniki badań potwierdzających jego hipotezę, ignorując te, które takiej szkodliwości nie potwierdzają. Niezależnie jednak od powstania takiego tendencyjnego raportu, dalsze wyniki badań powinny potwierdzić lub obalić prezentowaną w nim hipotezę. Z faktami bowiem, jak wiadomo, nie dyskutuje się. Aby prześledzić kolejne kroki metody naukowej wybrałam banalnie prosty przykład, który jednakże, mam nadzieję, pozwoli nam poprowadzić proces badawczy od obserwacji aż do sformułowania teorii. Powinniśmy pamiętać, że po sformułowaniu teorii możemy nadal prowadzić obserwacje, które z czasem mogą tę teorię konkretyzować. Proces ten ma charakter cykliczny, od obserwacji do teorii, od teorii do obserwacji. Na ogół badania naukowe oparte są na pewnych teoretycznych założeniach. Na podstawie zgromadzonej już i dostępnej nam wiedzy oraz wyników badań pokrewnych formułujemy własne hipotezy badawcze, które w trakcie przeprowadzanych badań będziemy weryfikować. Czasem jednak, gdy stajemy w obliczu "nieznanego", wszystko zaczyna się od obserwacji. W przypadku prezentowanego tu przykła­ du przyjmiemy, że taka wstępna teoria nie istnieje.

Zacznijmy

więc naszą podróż

po naukowej metodzie.

Przypuśćmy, że każdego ranka biegam w pobliskim parku. W niedzielę była piękna pogoda, świeciło słońce i niebo miało czysty błękitny kolor. Tak samo było w poniedziałek. Niestety we wtorek i w środę padało a niebo przykrywały ciemne szare chmury. W czwartek przejaśniło się, niebo zasadniczo było czyste ale gdzieniegdzie widoczne były ciemne chmury. Zakładając mój całkowity brak wykształcenia i wcześniejszych doświadczeń, zauważam coś, co dla wszystkich jest oczywiste: występowanie deszczu jest związane z obecnością chmur na nie-

bie, natomiast gdy świeci słońce, oznacza to mniejsze zachmurzenie. W każdym razie, jeśli pada, to na pewno są chmury na niebie. Mój wniosek wynikający z pięciodniowej obserwacji jest więc taki, że opady deszczu są związane z z~­ chmurzeniem. Zastanawiam się nad tym i myślę, że jeżeli w ciągu tych 5 dni opady deszczu związane były z zachmurzeniem, to może wzorzec ten potwierdzi się w dłuższym przedziale czasu. Zaczynam robić notatki. Każdego dnia odnotowuję, czy nie-

bo było zachmurzone, częściowo zachmurzone, czy czyste, oraz czy padało, czy

W.

nie. końcu P? 30 dniach podsumowuję moje obserwacje. W tym czasie było 10 dm z całkowItym zachmurzeniem, 10 dni z częściowym zachmurzeniem oraz 10 dni z błękitnym niebem. Odnotowuję również 15 dni z opadami deszczu i .~5 dni bez opadów. Swoje spostrzeżenia zamieszczam w tabeli kontyngenCJI (lub'p'o prostu w tabeli 1.1). Sumowanie na brzegach tabeli nazywa się liczeb~osclą ~rzegową (używa się również nazw liczebność cząstkowa, liczebność margmalna l marginesy). Mamy zatem trzy liczebności brzegowe w kolumnach (z~chm.urzone -: 10, częściowo zachmurzone - 10, czyste - 10), które w sumIe dają nam .hczebność ogólną 30 dni. Dwie liczebności brzegowe w rzędach (pada - 15, me pada -- 15) również sumują się w liczebność ogólną - 30 dni. Tabela 1.1.

Deszcz

Niebo Zachmurzone

Częściowo

zachmurzone

Czyste

Pada Nie pada Suma

Suma

15 15 10

10

10

30

Zaglądam

teraz do swoich notatek z 3D-dniowych obserwacji, umieszczając w powyższej tabeli każdy dzień z uwzględnieniem jego indywidualnej charaktery~tyki, ': postaci. opadów deszczu i stopnia zachmurzenia nieba. Dokonuję po~hczen l wypełmam wszystkie pola (np. "niebo zachmurzone, pada" czy "mebo czyste, nie pada") tabeli 1.2. Tabela 1.2.

Deszcz

Niebo Zachmurzone

Częściowo

zachmurzone

Czyste

Suma

Pada Nie pada

10

O

5 5

10

15 15

Suma

10

10

10

30

O

Wyniki obserwacji 3D-dniowych potwierdzają spostrzeżenia z pierwszych 5 dni: w dni o całkowitym zachmurzeniu zawsze padało, w dni częściowo zachmurzone :zasem. padało a w dni o czystym niebie nigdy nie padało. Zatem opad deszczu Jest zWiązany z występowaniem zachmurzenia - jeśli nie ma chmur deszcz nie pada. Obserwacje prowadzone przeze mnie przez kolejne 30 dni p~twierdziły poprzednie wnioski.

Po jakimś czasie konkluzję, że chmury "wiążą się" z deszczem zaczęłam uważać za coś oczywistego, co jak przypuszczam, wszyscy podzielają·

1.3. Metoda naukowa Niezależnie od prostoty poczynionych przeze mnie obserwacji, świadczących o mojej niewiedzy z zakresu meteorologii, w prezentowanym wyżej przykładzie zastosowana została metoda naukowa. Prześledźmy ten proces myślowy, leżący u podstaw empirycznego badania. Przez pierwsze 5 dni badań zauważyłam, że być może istnieje związek między dwoma zjawiskami: stanem zachmurzenia nieba i opadami deszczu. Oba obserwowane zjawiska nazwiemy zmiennymi, ponieważ wartości, jakie przyjmują, zmieniają się z obserwacji na obserwację· I tak, stopień zachmurzenia nieba zmienia się od całkowitego zachmurzenia przez częściowe zachmurzenie, do czystego nieba, czyli braku zachmurzenia. Opady deszczu zmieniają się w taki sposób, że występują, lub nie występują· (Można było oczywiście opisać opady deszczu w sposób bardziej szczegółowy np.: ulewa, deszcz, mżawka, brak opadów. Na razie jednak bardziej odpowiadało mi proste rozróżnienie na opady lub ich brak.) Takie zdefiniowane przez nas wartości zmiennych nazywamy kategoriami. Zjawiska, które możemy określić jako zmienne, są przedmiotem szczególnego zainteresowania nauk społecznych. To co się w nich zmienia, to wymiar ilościo­ wy lub własność dla każdego pojedynczego przypadku (jednostki, grupy, społeczeństwa, państwa, kultury - tego, co jest przedmiotem naszej obserwacji). Oto przykłady zmiennych, których rozumienie jest istotne w naukach społecz­ nych: klasa społeczna (wyższa, średnia, niższa), status zawodowy (pracownik umysłowy, pracownik fizyczny), poglądy polityczne (prawicowe, lewicowe), status społeczny (przypisany, osiągany), typ rządów (demokratyczne, autorytarne, totalitarne). Zostały one utworzone na takiej samej zasadzie jak zmienne w omawianym wyżej przykładzie "meteorologicznym". Innymi zmiennymi, które często pełnią rolę wyjaśniającą w stosunku do tych wyżej przytoczonych są np.: dochód (wysoki, średni, niski - bądź wyrażony ilościowo w złotówkach), wykształcenie (podstawowe, średnie, wyższe - bądź wyrażone w ukończonych latach edukacji), wyznanie (katolickie, protestanckie, prawosławne itd.). Można zatem pokazać, że klasa społecznamoże być opisana poprzez dochód i wykształ­ cenie jej członków. Wracając do przykładu, związek jaki zaobserwowałam,polegał na zależnościach pomiędzy określonymi kategoriami jednej zmiennej a określonymi kategoriami drugiej zmiennej: całkowite zachmurzenie z obecnością deszczu, czyste niebo z brakiem opadów. Na podstawie wstępnych 5-dniowych obserwacji mogłam

J

Jak

więc sformułować następujące stwierdzenie: "Istnieje związek pomiędzy stanem zachmurzenia nieba a obecnością deszczu, taki, że całkowite zachmurzenie jest związane z opadami a czyste niebo jest związane z brakiem opadów".

III

III

III

Istnieje związek między statusem zawodowym a wykształceniem, taki że osoby o wyższym poziomie wykształcenia częściej posiadają wyższy status zawodowy a osoby o niższym poziomie wykształcenia częściej posiadają niższy status zawodowy. Istnieje związek pomiędzy przynależnościądo klasy społecznej a dochodem, taki że im wyższy dochód danej osoby, tym wyższa jej pozycja społeczna, a im niższy dochód, tym niższa pozycja społeczna. Istnieje związek pomiędzy pochodzeniem społecznym a osiąganym wykształceniem, taki że z im wyższej klasy społecznej pochodzi osoba, tym większe ma szanse na osiągnięcie wyższego wykształcenia, a pochodzenie z niższej klasy skutkuje niższym wykształceniem.

We wszystkich powyżej przytoczonych hipotezach, niezależnie od użytego słow­ nictwa da się wskazać dwie zmienne i związki pomiędzy ich poszczególnymi kategoriami.

1.4. Testowanie hipotez W oparciu o małą liczbę obserwacji, prowadzonych w ciągu pierwszych 5 dni, udało mi się dostrzec związek, który miałam nadzieję potwierdzić w kolejnych 3D-dniowych obserwacjach. Postępując tak, zastosowałamprocedurę nazywaną indukcją, czyli sposobem rozumowania "od szczegółu do ogółu". Indukowałam hipotezę na podstawie 5 szczegółowych obserwacji i zakładałam, że będzie ona prawdziwa dla wszystkich przypadków.

badaczem?

. Gdy hipoteza była już postawIOna, postanowI'ł am sprawd ZI'ć J'ą w .,wybranym . . do badania okresie 30 dni. Moje rozumowanie było następujące: JeslI p~st~wIO.n~ . . . to powinna byc rowmez hIpoteza Jest prawdZIwa dla wszyst k'ICh przypadk'ow' . ie prawdziwa dla wybranego przeze mnie okresu czasu. TakIe rozu~~wan wiodące nie od szczegółu do uogólnienia ale w ~.r~g~ ~tron~ "o.d ogołu. do szczegółu" nazywa się dedukcją. Dedukowałam, IZ JezelI mOJa hIpoteza Jest prawdziwa w ogóle, to powinna być prawdziwa również dla wybranego przeze mnie okresu 30 dni.

Powyższe stwierdzenie nazywamy hipotezą. Hipoteza wymienia dwie zmienne, które pozostają ze sobą w związku i wskazuje, na czym ten związek polega (zachmurzenie-deszcz, brak chmur- brak opadów). Innym sposobem wyrażania związków w hipotezach jest użycie sformułowania "jeżeli... to... ": "jeżeli występuje całkowite zachmurzenie, to będzie padało"; "jeżeli niebo jest czyste, to nie będzie padało". Innymi hipotezami postawionymi w stosunku do badanych tu zmiennych byłyby hipotezy alternatywne: "jeżeli niebo jest czyste, to pada deszcz"; "jeżeli niebo jest całkowicie zachmurzone, to deszczu nie ma". Hipotezy alternatywne w tym przypadku są błędne, nie znajdują potwierdzenia we wstępnej obserwacji.

Spróbujmy teraz postawić hipotezy w stosunku do uprzednio zaprezentowanych zmiennych występujących w naukach społecznych.

być

W niektórych dziedzinach wiedzy możliwy jest do zaprojektowania eksperyment tzn. testowanie hipotez w warunkach laboratoryjnych. W moich badaniach' "eksperyment" ograniczył się do wyboru określonych 30 dni do badania.

l ~l

j

!

Informacje zawarte w tabeli 1.2 wskazują, że moja hipoteza została zwer~fi­ kowana. Jeśli wiele podobnych badań prowadziłoby do podobnych rezultatow, to związek pomiędzy całkowitym zachmurzeniem a opadami desz~zu ~~stał~y uznany przez społeczność naukową i rzadko poddawany w wątplIwosc; mOJa hipoteza stałaby się zatem prawem naukowym. Prawa naukowe to hipotezy o wysokim prawdopodobieństwietrafności. Abso-

co do ich obowiązywania nie możemy jednak nigdy posiadać. na dwie kwestie, które później zostaną szczegółowo omówione. Po pierwsze, większość naszych rezultatów pochodzi z badań prowadzonych na małej próbie, dokonujemy więc uogólniania z małej liczby elementów (próby) na ich całość (populację). Niestety, nigdy nie mamy 100% gwarancji, że to co było prawdą dla każdego elementu w próbie, będzie nią również dla każdego elementu w populacji. Możemy tylko oszacować prawdopodobieństwo, że tak będzie. Po drugie, według zasad formalnej logiki, na podstawie próby nie możemy niczego tak naprawdę udowodnić. Możemy tylko pokazać, że wszystkie inne alternatywne hipotezy nie są prawdziwe dla naszej próby, więc zostaje nam tylko jedna ewentualność - hipoteza, którą udowadniamy. lutnej

pewności

Zwrócę tu uwagę tylko

Wymienione wyżej problemy w niczym nie zmieniają faktu, że prawa naukowe różnią się od hipotez, gdyż zostały uznane przez społeczność naukową, aktywną na polu, którego dotyczą, za posiadające duże prawdopodobieństwotrafności. Prawa naukowe obowiązują, ponieważ eksperci z danej dziedziny doszli do takiego wniosku a nie zadecydowała o tym opinia publiczna, czy też naukowcy zajmujący się inną dyscypliną. Prawo grawitacji jest obowiązujące, ponieważ fizycy, nie socjologowie czy teolodzy, uznali, że jest ono wartościowe do wyjaśniania zagadnień z zakresu ich dyscypliny. Niestety w rzeczywistości "świat" rzadko współpracuje z badaczami w tak klarowny sposób, jak przedstawiono to w tabeli 1.2.

Jak

Przypuśćmy, że

po 30 dniach obserwacji nasze wyniki

prezentują się

być

badaczem?

Tabela 1.4.

jak w ta-

beli 1.3.

Niebo Deszcz Tabela 1.3.

Deszcz

Niebo Zachmurzone

Częściowo

zachmurzone

Czyste

Suma

Pada Nie pada

5

5

5

5

5 5

15 15

Suma

10

10

10

30

W tym przypadku moja hipoteza nie byłaby prawdziwa, obserwacje empiryczne zweryfikowałybyją negatywnie. Nie byłoby więc związku pomiędzy stanem zachmurzenia nieba a opadami deszczu. Przez połowę dni z niebem zachmurzonym pada (5 dni z 10), tak samo jest przy częściowym zachmurzeniu i przy czystym niebie (niezależnie od zachmurzenia pada przez połowę badanego czasu). Zatem wiedza na temat stopnia zachmurzenia nie daje nam żadnej pożytecznej informacji w kwestii występowania, bądź nie występowania, opadów deszczu. w przypadku danych zawartych w tabeli 1.2, gdzie mogliśmy przewidzieć, że przy całkowicie zachmurzonym niebie na pewno będzie padało (10 na 10). Jeśli niebo jest czyste, padać na pewno nie będzie. Przy częściowym zachmurzeniu mieliśmy 50% szans na deszcz i była to jedyna kategoria, która nie pozwalała na idealną prognozę opadów. Zatem w przypadku częściowe­ go zachmurzenia mieliśmy jednakowe prawdopodobieństwopostawienia trafnej i błędnej prognozy co do wystąpienia opadów. Inaczej

było

Informacje zawarte w tabeli 1.3 nie mają dla nas żadnego znaczenia prognostycznego - w każdy dzień jest pół na pół szans na deszcz, niezależnie od stopnia zachmurzenia nieba. Ten stosunek pół na pół wynika z faktu, że w badanym okresie wystąpiło 15 dni z opadami i 15 dni bez opadów (czyli jednakowa liczba). Aby uznać, że badany związek nie istnieje, nie musi być zachowana taka symetryczność rozkładu poszczególnych kategorii. Na brak związku wskazuje bowiem proporcjonalnośćrozkładu w poszczególnych polach tabeli w stosunku do liczebności brzegowych. Przypuśćmy, że w ciągu 30 badanych dni padało przez 24 dni, tj. 80% badanego czasu. Jeśli dla każdej kategorii stanu zachmurzenia nieba padało przez 80% czasu, to również nie ma związku między badanymi zmiennymi. Oznaczałoby to, że na 10 dni każdego stanu zachmurzenia 8 dni byłoby deszczowych (tabela 104).

Zachmurzone

Częściowo

Suma

zachmurzone

Czyste

Pada Nie pada

8 2

8 2

8 2

24 6

Suma

10

10

10

30

Informacje zawarte we wszystkich prezentowanych do ~ej po~y t~belach nazywamy danymi. Dane zawarte w tabeli 1.2 potwierdz~Ją .moJą hIpote~ę, da~e z tabel 1.3 i 1.4 nie potwierdzają jej. Czasami zdarza SIę, ze dane potw:erdzaJą zakładany przez nas związek ale nie w przewidywanym przez nas kIerunku. Przyjrzyjmy się tabeli 1.5. Tabela 1.5.

Niebo Deszcz

Zachmurzone

Częściowo

zachmurzone

Czyste

Suma

Pada Nie pada

10

5 5

10 O

15 15

Suma

10

10

10

30

O

Związek w tym przypadku istnieje i jest wysoce prognostyczny ale nie jest logicznie zgodny z zakładanym w hipotezie: przy czystym niebie pada, przy zachmurzeniu nie pada. Podobnie jak w przypadku tabel 1.3 i 1.4 hipoteza nie została zweryfikowana, jednak związek między zmiennymi istnieje, tylko jest on odwrotny od zakładanego.

Można by powiedzieć, że zależność przedstawiona w tabeli 1.3 jest zbyt ide-

alistyczna - w rzeczywistości nigdy nie mamy do czynienia z tak klarowną strukturą danych. Załóżmy wobec tego, że tylko w 8 z 10 zachmurzonych dni padało - dwa bezdeszczowe dni są więc niezgodne z oczekiwanymi wynikami (tabela 1.6).

Dla częściowego zachmurzenia i czystego nieba wyniki pozostają bez zmian. Moja hipoteza może być w dalszym ciągu uznawana za trafną, nawet przy braku idealnej prognostyczności dla zachmurzonych dni. Możemy dojść do wniosku, że zachmurzenie występuje przed opadami (występuje tu następstwo czasu), zatem występowanie zachmurzenia jest warunkiem koniecznym ale nie wystar-

Jak

czającym aby padało. Nie będzie padało jeśli nie ma chmur, ale nie z każdej chmury pada deszcz.

Tabela 1.6.

Deszcz

Niebo Zachmurzone

Częściowo

zachmurzone

Czyste

Suma

Pada Nie pada

8 2

5 5

O 10

13 17

Suma

10

10

10

30

Powinniśmyzwracać szczególną uwagę na rozróżnienie tego co konieczne, od tego co wystarczające. Warunek konieczny to taki, który musi być spełniony aby zaszło oczekiwane zjawisko. Jego obecność nie gwarantuje tego jednak w stu procentach. Natomiast jeśli zajdzie warunek wystarczający - oczekiwane zjawisko na pewno nastąpi. Przy badaniu hipotez zawierających więcej niż dwie zmienne, określenie tego, co konieczne a co wystarczające, jest niezbędne (choć czasem bardzo trudne). Możemy też mieć do czynienia z sytuacją badawczą, w której wskażemy wiele warunków koniecznych ale żaden z nich nie będzie warunkiem wystarczającym. Taką sytuację David Hume określił mianem stałej koniunkcji.

tabeli ' roz kł a d war t" OSCI w posz czególnych , .polach " poszukując jakiegoś wzorca dla każdej klasy pochodzenia. Załozmy, ze hIpot.eza dotycząca związku pomiędzy klasą pochodzenia a osiąganym wykszt~łcemem znajduje potwierdzenie w naszych danych.. Jeśli ~espo.nd~nt PO~hO~ZI. z .kl.asy wyższej, na ogół osiąga wyższe wykształceme,cho~ znaJduJ~myr.a':"~lez mehczne wyjątki od tej reguły. Jeśli respondent pochodzI z klasy sredmeJ, Jego szanse na wyższe wykształcenie są prawie takie same, jak osób pochodzących z klasy wyższej. Natomiast jeśli ktoś pochodzi z klasy niższej, to prawie nie ma szans na osiągnięcie wykształceniainnego niż podstawowe. Taka obserwacja pobudza nas do dalszego badania. Staramy się bardziej precyzyjnie ustalić skład badanych klas społecznych. Zastanawiamy się nad koncepcją dziedziczenia kapitału kulturowego i ekonomicznego, nad strategiami wychowawczymi obecnymi w badanym społeczeństwie, nad istniejącym systemem szkolnictwa itp. Jeżeli uda się nam sformułować sieć powiązanych ze sobą hipotez, z których każda będzie częściowo wyjaśniała badaną zależność podstawową, to będ~ie mo~na p0.w iedzieć że rozwinęliśmy teorię pionowej mobilności społecznej. Teona powmna zawi~rać również wskazania co do istniejących wyjątków od zweryfikowanej reguły. Oczywiście dobra teoria powinna tych wyjątków zawierać jak najmniej. .

Wyższe

Średnie

Podstawowe Suma

26

Wyższa

rodziców

Średnia

Niższa

.,

przykład:

Istniejący system edukacji jest oparty o system wartości klasy średniej i wyż­ szej, dlatego dzieciom z tych klas łatwiej jest zdobywać kolejne szczeble wykształcenia.

W podobny do opisanego powyżej sposób można przeprowadzić badania dotyczące jednej z zaprezentowanych wcześniej hipotez odnoszących się do zagadnień społecznych. Przedmiotem naszego zainteresowania może być związek mię­ dzy pochodzeniem społecznym a osiągniętym poziomem wykształcenia. W celu przeprowadzenia badań ułożymy ankietę i roześlemy ją do losowo wybranych osób. Jedno z pytań kwestionariusza ankiety powinno dotyczyć poziomu wykształcenia respondenta a inne jego pochodzenia społecznego. Odpowiedzi na te pytania moglibyśmy przedstawić w następującej tabeli: społeczna

,

Do teorii pionowej mobilności społecznej moglibyśmy dołączyć szereg obserwacji i hipotez, z których jedne byłyby już znane a inne jeszcze nie odkryte. Na

1.5. Od hipotez do teorii

Klasa

badaczem?

Następme porownywahbysmy

III

Wy kształcenie

być

Suma

III

III

III

Rodzice z klasy średniej silnie pobudzają aspiracje edukacyjne swoich dzieci, upatrując w wyższym wykształceniu najbardziej efektywny sposób na podniesienie ich pozycji klasowej. Do klasy niższej należą głównie osoby ze środowisk wiejskich oraz robotniczych z ośrodków miejskich o dużej stopie bezrobocia, gdzie występuje zjawisko dziedziczenia biedy. Reforma systemu oświaty osłabiła możliwości osiągania wyższych szczebli edukacji przez dzieci ze środowisk wiejskich.

O ile pierwsze trzy stwierdzenia znajdują potwierdzenia w materiałach z badań nad stratyfikacją społeczną, to ostatnie jest czysto hipotetyczne (tylko w momencie pisania tego podręcznika, bo badania nad tą problematykąjuż trwają)· Jeśli jednak na podstawie naszych badań i wiedzy na temat obecnej struktury społecznej udałoby się nam określić, jak ta struktura będzie się zmieniała w ciągu najbliższych lat i jakie czynniki będą miały na to wpływ, to teorię mobilności pionowej mielibyśmy gotową·

~(!IfI'

Tabela 1.7.

Taki sam sposób postępowania możemy zastosować nawet do analizowanego przykładu o opadach deszczu. Przy testowaniu postawionej uprzednio hipotezy moje badania można rozwinąć i pogłębić. Stan zachmurzenia nieba można przedstawić za pomocą zmiennej, która została uprzednio zdefiniowana, jako zmienna przyjmująca własności takie jak: zachmurzenie, częściowe zachmurzenie i czyste niebo, lub określić to w inny bardziej specjalistyczny sposób (np. cumulus, cumulonimbus, cirrus, itd.). Przypuszczalnie można też badać temperaturę, wilgotność powietrza i inne warunki atmosferyczne, w celu ustanowienia szeregu powiązanych ze sobą hipotez, które będą wyjaśniały występowanie opadów atmosferycznych w postaci deszczu. Mogłabym więc skonstruować teorię "deszczopadu" (meteorologia na pewno taką teorią dysponuje i na pewno ma ona swoją fachową nazwę). Nawiązując do danych z tabeli 1.6, potrzebna by była hipoteza wyjaśniającawyjątek w postaci 2 dni bez opadów przy całkowitym zachmurzeniu nieba. Musimy zatem odpowiedzieć na pytanie, co jeszcze jest konieczne oprócz chmur do wystąpienia opadu? Ta i inne hipotezy wyjaśniałyby naturę "deszczopadu" .

1.6. Typy

zależności

Przeformułujmypostawioną hipotezę w następujący sposób: "Istnieje zależność między stopniem zachmurzenia a występowaniem opadów deszczu polegająca na tym, że zachmurzenie jest związane z występowaniem opadów a czyste niebo jest związane z brakiem opadów" .

Określone mamy dwie zmienne i naturę ich zależności. Ponieważ obie zmienne s~.mierzone w kategoriach ilościowych - raczej jako natężenie cechy anie jej roznorodna własność - jest możliwe uproszczenie zależności w mojej hipotezie. Obie zmienne muszą więc być mierzone w kategoriach określających natężenie od "więcej" do "mniej". Innymi przykładami takiej konstrukcji zmiennych może być dochód: wysoki, średni, niski (bądź mierzony w złotówkach); wiek: starość wie~ średn.i, m~odoś~, dzieciństwo, niemowlęctwo (bądź mierzony w latach): Zrn.Iennyml, ktore mIerzą raczej własności niż ilość danego zjawiska są pleć, relzgza, orzentacja polityczna. Zilustrujmy powyższe rozważania, ujmując dane z 30-dniowych obserwacji w tabeli 1.7. Teraz stopień zachmurzenia waha się od całkowitego zachmurzenia do braku ch~ur, a wielkość opadów od ulewy do braku opadów. Kategorie obu zmiennych

oplsan: s~ przez stopień natężenia ilości danej zmiennej w porządku malejącym (od najWIększego natężenia do naj mniejszego).

Wielkość

opadów

Zachmurzenie Całkowite

Ulewa Deszcz

N ależy

Suma

Częściowe

Brak chmur

7

1

2

O O O

8 6 5

Mżawka

1

4 4

Brak opadu

O

1

10

11

Suma

10

10

10

30

zauważyć, że większość

przypadków z 30-dniowej próby położona jest na tabeli 1.7 (tak jak to zaznaczono w tabeli) od lewego górnego rogu do prawego dolnego, wskazując, że większy opad jest związany z większym zachmurzeniem, a mniejszy opad z mniejszym zachmurzeniem (brak opadu, brak chmur). przekątnej

Jeśli obie nasze zmienne posiadałyby równą liczbę kategorii (mielibyśmy równą liczbę

kolumn i wierszy w tabeli) rozkład wartości na przekątnej byłby bardziej widoczny, podkreślając związek "większego" z "większym" i "mniejszego" z "mniejszym". Taki związek określamy jako zależność pozytywną. Teraz moja hipoteza może przybrać postać: "stopień zachmurzenia i wielkość opadów są zależne pozytywnie". Oznacza to, że "im więcej zachmurzenia, tym więcej opadów" a "im mniej zachmurzenia, tym mniej opadów". Przeciwieństwo do zależności pozytywnej występuje wówczas,

gdy związek pozmiennymi polega na tym, że im "więcej jednej zmiennej" tym "mniej drugiej". Gdybyśmy założyli, że więcej chmur oznacza mniej opadów, a mniej chmur więcej opadów, to nasze dane mogłyby wyglądać jak w tabeli 1.8.

między

Tabela 1.8. Wielkość

opadów

Zachmurzenie Całkowite

Częściowe

Brak chmur

Suma

Ulewa Deszcz

O

1

10

11

1

Mżawka

Brak opadu

2 7

4 4

1

O O O

5 6 8

Suma

10

10

10

30

Tabela 1.10.

W tym przypadku liczebności w polach tabeli skupione są na przekątnej od dolnego lewego rogu do górnego prawego rogu. Taki typ związku będziemy

Płeć

nazywać zależnością negatywną·

Jeżeli założylibyśmy pierwotnie, że występowanie zachmurzenia jest związane z brakiem opadów, to naszą hipotezę moglibyśmy zapisać jako: "Stopień zachmurzenia i występowanie opadów są zależne negatywnie" . Proszę zwrócić uwagę na to, że istotą zależności pozytywnej jest związek między kategoriami zmiennych taki, iż "więcej" łączy się z "więcej" a "mniej" z "mniej" . Przy zależności negatywnej związek między kategoriami zmiennych jest taki, że "więcej" łączy się z "mniej" a "mniej" z "więcej". Układ liczebności w tabeli jest w takim wypadku elementem pomocniczym, ale czasem może być mylący.

Tabela 1.9. Wielkość

opadów

Zachmurzenie Suma

Całkowite

1 4 4 1

7 2

1

5

Brak opadu

O O O 10

O

11

Biorąc

Suma

10

10

10

30

opisać

Mżawka

III

Gdyby nasza tabela wyglądała jak tabela 1.9, to związek między stanem zachmurzenia nieba i występowaniem opadów byłby w dalszym ciągu pozytywny, choć liczebności w polach tabeli układałyby się od dolnego lewego rogu do górnego prawego rogu. Przy konstrukcji tabel trzeba więc zwracać uwagę na kolejność kategorii.

III

III

III

Związek pomiędzy dwiema zmiennymi można określić jako pozytywny lub negatywny tylko wtedy, gdy zmienne te opisują ilość jako natężenie danej cechy

(gdy ilość jest wyrażona za pomocą wartości liczbowych np. opady w mililitrach na centymetr kwadratowy, to związek pozytywny może być związkiem proporcjonalnym, a związek negatywny - związkiem odwrotnie proporcjonalnym). Kiedy kategorie opisują własności badanego obiektu taka typologia zależności nie ma sensu. Załóżmy hipotetycznie, że płeć jest zależna od koloru włosów tak, że kobiety częściej niż mężczyźni są blondynkami a mężczyźni częściej niż kobiety mają włosy ciemne. Wyniki badań przeprowadzonych na grupie stu osób zestawia tabela 1.10.

Jasne

Kobieta

35 15

15 35

50 50

Suma

50

50

100

Ponieważ 70 ze stu osób ma obie cechy o takich własnościachjak zakłada nasza hipoteza, można powiedzieć, że w przeprowadzonych badaniach hipoteza ta została zweryfikowana pozytywnie. Nie można jednak stwierdzić, że płeć i kolor włosów są "zależne pozytywnie". Do badanych tu zmiennych nie ma sens~ używanie określeń "więcej" i "mniej". Mężczyzna i kobieta to ~w~ typy płCI; żaden z nich nie jest "więcej" lub "mniej" płcią. To samo odnOSI SIę do ~olo:~ włosów: jasny czy ciemny nie jest "więcej" czy "mniej" kolorem (p~zyna!~meJ do czasu, kiedy nie zaczniemy ich traktować z fizycznego punktu wldzem~ Ja~o częstości w wiązce światła). Zatem relacja między płcią a kolorem włosow me może być opisywana jako zależność pozytywna.

Częściowe

8 6

Suma

Ciemne

Mężczyzna

Brak chmur

Ulewa Deszcz

Włosy

pod uwagę wyżej poczynione zastrzeżenia możemy w podobny sposób szereg hipotez dotyczących zjawisk społecznych. Na przykład:

Status zawodowy i stopień wykształcenia są zależne pozytywnie. Poparcie dla istniejącego systemu politycznego i oczekiwanie podniesienia własnego standardu życia są zależne pozytywnie. Czas poświęcony na oglądanie telewizji i na czytanie książek są zależne negatywnie. Dochód i poparcie dla związków zawodowych są zależne negatywnie.

1.7.

Zależność a związek

przyczyno-skutkowy

Podejmując

badania na ogół poszukujemy przyczyn zjawiska, które jest ich przedmiotem. Poszukujemy takiej zmiennej, której zmiana wartości przyniesie również zmiany wartości zmiennej badanej. Pytamy: jakie czynniki wpływają na wielkość opadów? Jeżeli stopiell zachmurzenia nieba jest związany z wielkością opadów (i zakładamy w danym momencie, że inne czynniki takie jak temperatura i wilgotność powietrza nie mają bezpośredniego wpływu na ten związek), to skłonni jesteśmy zakładać związek przyczynowo-skutkowy między tymi zmiennymi. Możemy przypuszczać, że zmiany w poziomie zachmurzenia

31

przynoszą zmiany w wielkości opadów. W końcu możemy powiedzieć, że chmury są przyczyną deszczu. Mając pewną wiedzę

o meteorologii i klimacie, logicznym wydaje się powyższe stwierdzenie. Jeśli takiej wiedzy nie posiadalibyśmy, równie dobrze moglibyśmy powiedzieć, że deszcz jest przyczyną chmur. To, jak określimy kierunek związku między dwiema zmiennymi, zależy od naszej znajomości problematyki i od czasowego następstwa zmiennych. Punktem wyjścia naszych rozważań o związkach przyczynowo-skutkowych (zanim zajmiemy się ich kierunkiem) powinno być ustalenie, czy zależność w ogóle istnieje. Jeśli nie ma zależności, bez sensu jest poszukiwanie przyczynowości. Występowanie zależności jest warunkiem koniecznym wystąpienia związku przyczynowo-skutkowego. Z naszych wcześniejszych obserwacji wiemy, że stopień zachmurzenia nieba i wielkość opadów pozostają w zależno­ ści. Gdy zależność zostanie ustalona, możemy poszukiwać kierunku związku przyczynowo-skutkowego między zmiennymi. Prostym sposobem na ustalenie kierunku związku jest ustalenie następstwa czasowego. Jeśli jedna ze zmiennych zmienia się wcześniej niż druga, to możemy przypuszczać, że pierwsza zmienna jest przyczyną drugiej. W przypadku opadów możemy zaobserwować że zachmurzenie występuje wcześniej niż deszcz. Czasami gdy deszcz przestani~ padać, przejaśnia się. Ponieważ zachmurzenie poprzedza opad zakładamy, że chmury są przyczyną deszczu - przyczyna bowiem poprzedza skutek. Niestety nie zawsze możemy być pewni co do następstwa czasu zmiennych. Przykładowe badanie płci i koloru włosów dobrze ilustruje ten problem. Obie cechy dziedziczymy zanim się urodzimy. Z tej perspektywy jest zupełnie nielogiczne założenie, że płeć warunkuje kolor włosów, lub na odwrót, że kolor wło­ só:", ,,:arun~uje p~e~. Na,;et )eśli znaleźliśmyzależność pomiędzy tymi zmiennymI, me mozemy jej okreslac w kategoriach związku przyczynowo-skutkowego.

Jeżeli. nie ist~iej~ ~ożliwość określenia, która zmienna jest przyczyną, a która skutkIem, najlepIej pozostać przy stwierdzeniu ich zależności. W wielu procedurach ~tat'ystyc~nych ~tosow~nych w analizie danych wymagane jest wstęp­ ne, okreslem~, ktora zm18nna jest przyczyną, a która skutkiem. Dokonujemy wo,:czas ar.bltralneg~ wskazania jednej ze zmiennych jako przyczyny (badanie takIego zWIązku. mozemy przeprowadzić w "dwie" strony, uznając raz jedną a raz drugą zmIenną za przyczynę). W przykładzie dotyczącym płci i koloru włosów, jeśli przedmiotem naszego zainteresowania byłby kolor włosów to wówczas płeć uznalibyśmy za przyczynę. Natomiast jeśli celem naszego bad;nia byłoby zróżnicowanie płci, to kolor włosów byłby jedną z przyczyn.

Jeśli. ~usimy dokonać zróżnicowania zmiennych na przyczynę i skutek - niezalezme od tego, czy dokonujemy tego podziału na podstawie logicznych prze-

słanek,

czy też w sposób arbitralny - zwykle zmienną wYjasmającą, którą za przyczynę nazywamy zmienną niezależną a zmienną wyjaśnianą, którą uważamy za skutek - zmienną zależną. Zmiany w wartościach zmiennej zależnej zależą od zmian w wartościach zmiennej niezależnej, np. nasilenie opadów zależy od wielkości zachmurzenia. uważamy

Jeżeli zakładamy, że społeczne nierówności prowadzą do rewolucji, to wystą­ pienie rewolucji zależy od wcześniejszego nasilenia się społecznych nierówności. Wystąpienie rewolucji jest więc zmienną zależną (skutkiem) a społeczne nierówności są zmienną niezależną (przyczyną). Jeżeli zakładamy, że zanieczyszczenie powietrza wywołuje pewne formy nowotworów, to stopień zanieczyszczenia powietrza jest dla nas zmienną niezależną, a poziom zachorowań na nowotwory jest zmienną zależną. Oczywiście, jednocześnie zakładamy brak oddziaływaniaw drugą stronę np., że poziom zachorowań na nowotwory wpływa na stopień zanieczyszczenia powietrza.

1.8. Jednostka analizy Przedmiot naszych zainteresowań badawczych -- to co mierzymy, to do czego odnosi się nasza hipoteza - jest jednostką analizy. To nie jest zmienna ale obiekt, który ta zmienna charakteryzuje - osoba, instytucja, obszar itp. W naszym przykładzie "meteorologicznym" jednostką analizy były dni - dla każdego z 30 dni rejestrowaliśmy stan zachmurzenia nieba i występowanie opadów, mierzyliśmy dwie zmienne. W przykładzie dotyczącym płci i koloru wło­ sów jednostkami analizy były osoby. Dla każdej osoby mierzyliśmy dwie zmienne, płeć i kolor włosów. Jeśli prowadzilibyśmy badania nad zależnością występowania rewolucji z powodu narastania nierówności społecznych, to jednostkami naszej analizy byłyby państwa. Dla każdego państwa będącego przedmiotem naszych badań określa­ libyśmy poziom występującychnierówności społecznych i fakt zaistnienia, bądź nie, rewolucji w określonym przedziale czasowym.

W badaniach nad wpływem zanieczyszczenia powietrza na wzrost zachorowalności na nowotwory moglibyśmy brać pod uwagę wielkie miasta. W każdym mieście (jednostce analizy) oznaczalibyśmy stopień zanieczyszczenia powietrza i poziom zachorowań na określone typy nowotworów. Ponieważ

dotyczy postaw i zachowań spoanalizy są osoby. W dalszych rozdziałach posługiwać przykładami pochodzącymi z Polskiego Generalnego

w naukach

społecznych wiele badań

łecznych, więc najczęściej jednostkami

będziemy się

T' Sondażu Społecznego (PGSS), gdzie jednostkami analizy są respondenci tego sondażu. Nie należy jednak zapominać, że równie dobrze jednostkami analizy mogą być np. klasy szkolne, przedsiębiorstwa, miasta, państwa, partie politycz-

ne, stowarzyszenia

międzynarodoweitd. 11l1li11

Nasze rozważaniadotyczące metody naukowej w następnych rozdziałach zostaną wsparte wiedzą o technikach analizy ilościowej. W jaki sposób liczby mówią nam o faktach? Jak sprawić by liczby miały dla nas sens? Zagadnienia dotyczące badania i opisu zjawisk oraz dokonywania indukcji na podstawie danych

należą do dziedziny nauki zwanej statystyką.

Ćwiczenia Ćwiczenie 1.1.

Które z poniższych zdań ma charakter normatywny, a które empiryczny: 1. Rodzice powinni

opiekować się dziećmi.

2. W roku 1999 w Polsce zostało porzuconych 41 noworodków. 3. Prawo głosu jest istotą wolnego społeczeństwa. 4. W wyborach parlamentarnych wzięło udział 52% uprawnionych do głosowania. 5. Prawo pracy powinno być przestrzegane. 6. Jedna piąta pracodawców zatrudnia nielegalnych pracowników. 7. Mężczyzna zdolny do służby wojskowej powinien móc wstępować w związek małżeński.

8. W tym państwie mężczyźnimogą być powołani do służby wojskowej w wieku 18 lat a związek małżeński mogą zawrzeć, gdy ukończyli 21 lat. Ćwiczenie 1.2.

Utwórz cztery pary zagadnień, którymi

stwierdzeń (normatywnych się

i empirycznych) w stosunku do

interesujesz.

Ćwiczenie 1.3.

1. Postaw hipotezę w stosunku do interesującegoCiebie problemu społecznego. Użyj odpowiedniej formy słownej. 2. Zidentyfikuj zmienną zależną i niezależną. Uzasadnij swoje wskazanie. 3. Przedstaw logiczne kategorie dla każdej zmiennej. Określ ich charakter. 4. Jaka jest jednostka analizy Twojego badania? 5. Narysuj tabelę zawierającą badane zmienne i w jej pola wpisz takie liczebności, które potwierdziłybypostawioną hipotezę.

Ćwiczenie 1.4Dla hipotez z ćwiczenia.

34

podrozdziału

1.3 (str. 22) powtórz kroki 2, 3 i 4 z poprzedniego

i

!

Ćwiczenie

1.5.

Sformułuj hipotezy użyteczne dla wyjaśnienia, czy zmierzenia, postępu w kieru~~u o~iągnięcia .nas~ęp~jący~h celów ~ormatywnych. Dla każdej hipotezy naZWIJ zmIenną zalezną I mezalezną, okresl ich kategorie i jednostki analizy.

1. Mężczyźni i kobiety powinni otrzymywać taką samą płacę na porówn walnych stanowiskach. y 2. Broń biologiczna i chemiczna powinny być wyeliminowane. 3. Wszyscy chorzy powinni mieć zapewnioną opiekę medyczną. 4. Nie powinno się stosować kary śmierci. 5. Reklamowanie alkoholu powinno być zabronione. 6. Każda placówka edukacyjna powinna mieć pracownię komputerową.

Pojęcia podstawowe

Ćwiczenie 1.6.

Określ ~ ,miarę jak najbardziej szczegółowojednostkę analizy dla następujących

zagadmen:

2. Menedżerowie chętniej uczestniczą w imprezach firmow ch .. . y mz szeregowi pracowmcy. 3. Stany Zje?nocz~ne posiadają więcej okrętów podwodnych o napędzie atomowym mz RosJa. 4. Dochód ~ojew~d~tw ze "ściany wschodniej" jest 5. Meksyk Jest najwIększym miastem na świecie.

niższy niż pozostałych.

6. W Afryce jest najwięcej osób zarażonych wirusem HIV. 7. Stopień uzwiązkowienia ciągle się obniża.

Literatura

częstość/liczebność

III

III

poziom

pFrankf~rt-Nac~mias l

Ch., Nachmias D.: Metody badawcze w naukach S-ka 2001.

3. Mokrzycki E.: Filozofia nauki a socjologia. Warszawa, PWN 1980. 4. Nowak S.: Metodologia

badań społecznych. Warszawa, PWN 1985.

społecznych

.

III

III III III

poziom ilorazowy zero absolutne szereg statystyczny, każda wartość stanowi kategorię szereg statystyczny, kategorie stanowią przedziały wartości

III

rozwartość przedziału

fil

definicja operacyjna

III

trafność

interwałowy III rzetelność

Prowadząc badania metodą naukową, dokonujemy obserwacji, zbieramy informacje, kolekcjonujemy dane. Dane te, to zestaw cech jakościowych i ilościowych charakteryzujących każdą jednostkę analizy. W trakcie badania dokonujemy pomiaru tych cech. Pomiar polega na sprawdzeniu, jaką własność, czy też ilość danej cechy posiada określona jednostka analizy. Ze względu na różnorodność mierzonych charakterystyk, narzędzia pomiaru muszą być również zróżnicowa­ ne. Będziemy zatem używać zróżnicowanych poziom~w pomiaru.

Określenie

1. Malikowski M ., Niezgod aM. (oprac.: ) B ad ' emplryczne . ama w socjologii T I Tyczyn, WSS-G 1997. . . . oznan, Zysk

!II

III

III

1. W klasie IIb w zeszłym tygodniu 1/3 uczniów była nieobecna z powodu grypy.

2.

III

pomiar poziom pomiaru poziom nominalny dychotomia poziom porządkowy skala Likerta

III

I

poziomu pomiaru, w jakim możemy mierzyć daną cechę, jest o tyle istotne, iż determinuje metody analizy statystycznej, jakie będziemy mogli zastosować w naszych badaniach. Ważnym problemem staje się więc operacjonalizacja zmiennych (również poprzez określenie poziomu ich pomiaru) oraz określenie jej rzetelności i trafności.

2.1. Pomiar Kiedy używamy słowa pomiar, zwykle myślimy o pewnej specyficznej czynności mierzenia, np. długości za pomocą metra, czy też ciężaru za pomocą wagi.

Mierzonemu zjawisku przypisujemy liczbę wskazaną przez narzędzie pomiaru. Dzięki temu możemy powiedzieć, że blat stołu jest długi na 1,2 metra a szeroki

w tym przypadku rolę działań algebraicznych.

W naukach społecznych pomiar oznacza czynność opisaną powyżej, ale znacznie uproszczoną, polegającą na przypisaniu określonej kategorii zmiennej do każdej jednostki analizy.

Symboliczne oznaczenia liczbowe używan~ są d? k?dowani~ danych przy zakła­ daniu komputerowych baz danych, ale me mają zadnego mnego (arytmetycznego) znaczenia, niż to, które nadają werbalne etykiety.

Jeśli zmienną możemy wyrazić za pomocą liczb, nasze porównania są bardziej

Innym przykładem zmiennej mierzonej na poziomie no~inalny~j~st. wyz~aw~~ na religia, np.: katolicyzm, protestantyzm, prawosławIe. Tu rowmez koleJnosc wymienianych kategorii nie ma znaczenia.

na 0,7 metra, natomiast jabłko waży 0,17 kilograma.

precyzyjne - osoba która zarabia 2000 złotych miesięcznie, osiąga dochody wyższe od średniej krajowej o 123 złote. W przypadku, gdy osoba ta mieszkałaby w województwie Mazowieckim a inna w Wielkopolskim, to dokonywalibyśmy "pomiaru" zmiennej województwo poprzez przypisanie każdej badanej osobie odpowiedniej kategorii (jednej z 16) tej zmiennej. W zależności od właściwości i możliwości pomiaru interesujących nas charakterystyk (jednostek analizy) wybieramy określony wzorzec dokonywania pomiaru. Dostępne nam wzorce pomiaru nazywamy poziomami pomiaru lub skalami pomiaru. Mamy cztery podstawowe poziomy pomiaru: II

nominalny,

II porządkowy, II

interwałowy,

II

ilorazowy.

można

na nich

dokonywać żadnych

przykładowe zmienne możemy przedstawić jako:

Płeć

1.

nie

mężczyzna

2. kobieta

Religia 1. prawosławie 2. katolicyzm 3. protestantyzm

Przyjrzyjmy się teraz warunkom wyczerpywalnościi.rozłączno~cikategory~acji zaprezentowanych powyżej zmiennych. Co do tego, .ze .warunkl..te są speł~lOne przez zmienną płeć, nie mamy wątpliwości - w kazd~J sytuacJ~ ?adawczeJ. dla tej zmiennej wystąpią tylko wymienione dwie kategor:e..InaczeJ Je~t ze zml,en~ ną opisującą wyznawaną religię. Mogłoby się zdarzyc, ze w grupIe, w ktorej prowadzimy badania byliby muzułmanie i osoby niewierzące. Nasza kategoryzacja przynależności religijnej powinna wówczas z poniższych postaci:

2.2. Poziom nominalny

A. Religia

Poziom nominalny jest naj niższym poziomem pomiaru.

Dokonując pomiaru na określonej kategorii zmien-

tym poziomie, przypisujemy jednostkę analizy do nej. Kategorie opisują właściwości danej zmiennej. Podział na kategorie musi speł~iać dw~ warun~i: być wyczerpujący i rozłączny, tzn. że każdą jednostkę analIzy nalezy przypIsać do określonej kategorii, co więcej - tylko do jednej kategorii.

PrzYk~adem zmiennej

Zatem

symboliczną i

mierzonej na poziomie nominalnym jest płeć. Zmienna ta posIada dwie kategorie: kobieta lub mężczyzna, opisujące dwie różne właści­ woś~i. ~olejność,. w jakiej wymieniamy kategorie tej zmiennej nie jest istotna, gdyz me P.azost~Ją one w stosunku do siebie w żadnej zależności natężenia cechy. AI~ me posIada ani więcej ani mniej płci od Janka. Możemy oznaczać te kategone za pomocą liczb: l - kobieta, 2 - mężczyzna, ale liczby te pełnią

B. Religia

przyjąć jedną

C. Religia

1.

prawosławie

1.

prawosławie

1.

prawosławie

2. 3. 4. 5.

katolicyzm protestantyzm islam ateizm

2. katolicyzm 3. protestantyzm 4. inne 5. żadna

2. 3. 4. 5.

katolicyzm protestantyzm islam inne lub żadna

Jeśli

jedna z badanych osób określi się jako bud~ysta, to kate~oryzacja~ okaże nieodpowiednia ale B i C nadal będą prawI~ło,,:e. Wybor ~ategorn badanej zmiennej zależy czasami od środowiska, ktore Jest przedmlOtem naszego zainteresowania. się

Gdybyśmy prowadzili

badania w Indiach, to sensowna kategoryzacja zmiennej

określającej wyznawaną religię wyglądałaby następująco:

38 39

( rr

Religia

Symbol ni będzie oznaczał liczebność kategorii, natomiast N ogólną liczbę badanych obiektów. Suma liczebności poszczególnych kategorii powinna być równa liczebności ogólnej (2:: ni = 6 + 4 = 10 = N).

1. hinduizm

2. islam 3. dżinizm 4. buddyzm 5. chrześcijaństwo 6. żadna 7. inne

Zatem do kategorii danej zmiennej będziemy wł czać takie

Zmienne, które mają tylko dwie kategorie nazywane są dychotomicznymi. Pleć jest właśnie przykładem takiej zmiennej mierzonej na poziomie nominalnym. Zmienna określająca wyznawaną religię miała w naszych przykładach różną liczbę kategorii (3, 5 i 7). Jeśli analizowana zmienna nie jest dychotomiczna, to w zasadzie nie ma większego znaczenia ile ma ona kategorii. ",

~~~~~~~:~~:Zs:~ z~a:Źtć w ~ad~nej ~rupie: mając ~a uwadze w~::~:~~~~a~~:;~ a egona "Inne pOWInna byc stosunkowo mało liczna.

,



l

dwa podstawo,:e sposoby prezentacji zebranych danych. Pierwszy z . h po ega na utworzemu tzw k d l ' b ' . mc r' k' . re or u, dory ędzIe zawIerał identyfikacjęjednostki ana IZy I wszyst Ie charakteryzujące ją zmienne. Na

przykład:

Imię

i nazwisko

Ewa Kowalska Jan Nowak Jacek Stopa Zofia Tym

Płeć

kobieta mężczyzna mężczyzna

kobieta

Kierunek studiów historia socjologia filozofia socjologia

Stypendium socjalne żadne

naukowe naukowe

~~;:;:~~O~~::::d~:~c~n~:~dualn~e,.dlałk~żd~j jednostki analizy) są na ogół owama I za ozema bazy danych w komputerze.

;a~~~~~;~:z:l:~;rowa~zenia

jesteśmy

analizy statystycznej nie zaintereso' d wymIarem zgromadzonego materiału badawczego dlatego tez' p rezen tujemy ane w 'b d ' sposo uporzą kowany w szeregu statystycznym.

:r~mieniamy każdą kategorię zmiennej

oraz jej liczebność tore w naszym badaniu taką własność posiadają).

(liczbę jednostek,

Jeśli w naszym badaniu brało udział 10 osób z któr ch 4 t . ,. kobiety, szereg statystyczny dla zmiennej ple:: będzi:następou:~;~zyzm a 6 to

2.3. Poziom

porządkowy

Określenie porządkowy w porządku

nazwie poziomu odnosi się do kolejności, czy właśnie jego kategorii, który dla tego poziomu pomiaru ma znaczenie.

Kiedy dokonujemy klasyfikacji poprzez ustalenie następstwa (porządku) kategorii to zakładamy, że istnieje pewne continuum natężenia danej zmiennej, które ten porządek odzwierciedla. Jeżeli dokonamy klasyfikacji państw ze względu na liczbę zamieszkujących je osób, to na pierwszym miejscu będą Chiny, na drugim Indie, na trzecim Stany Zjednoczone. Czyli mamy pewien porządek, zgodnie z którym wiemy, że najludniejszym państwem świata są Chiny, nie wiemy jednak, ile dokładnie mają mieszkańców, ani o ile więcej od Indii. Dokonując

pomiaru na poziomie porządkowym dokonujemy nie tylko przypisania jednostki analizy do określonej kategorii własności, ale do kategorii pozostających między sobą w pewnym porządku. Gdyby rekordy danych o studentach zawierały zmienną określającą ich wzrost, to moglibyśmy utworzyć następującąkategoryzację na poziomie porządkowym: Imię

i nazwisko

Jan Nowak Ewa Kowalska Jacek Stopa Zofia Tym

Wzrost najwyższy (pierwszy najwyższy) druga najwyższa trzeci najwyższy naj niższa (czwarta naj wyższa)

Płeć

kobieta mężczyzna

6 4

N= 10

Z rankingu tego wiemy, że Jan jest najwyższy ale nie wiemy o ile jest wyższy od Ewy, od Jacka i od Zofii. Nie wiemy również o ile Ewa jest wyższa od Jacka itd. W rzeczywistości gdybyśmy dokonywali pomiaru takiej zmiennej, staralibyśmy się dokonać tego jak najbardziej precyzyjnie, w tym przypadku np. w centymetrach.

(-(Iim

W analizie statystycznej posługujemy się uporządkowanymi zmiennymi a nie indywidualnymi rekordami. Szereg statystyczny dla zmiennej wzrost w badaniu grupy studenckiej mógłby przyjąć postać: VVzrost

ni

1. bardzo wysoki

3 7 10 6 4

2. wysoki

3. średni 4. niski 5. bardzo niski

.

Poszczególne kategorie prezentują natężenie badanego zjawiska od najwyższego do naj niższego, przy czym odwrócenie tego porządku w kierunku od naj niższego do najwyższego nie zmienia postaci rzeczy - zmienna nadal jest mierzona w skali porządkowej. następstwa

kategorii

spowodowałaby obniżenie

Poziom porządkowy Status ekonomiczny

Poziom nominalny Status ekonomiczny

1. 2. 3. 4. 5.

1. biedny

2. 3. 4. 5.

wystarczający średni więcej niż średni

dochód bogaty dochód dochód

po-

średni

więcej niż średni wystarczający

Aby przywrócić zmiennej nominalnej status zmiennej porządkowej należy przywrócić logiczną kolejność jej kategorii (w porządku rosnącym lub malejącym).

2.4. Skala Likerta

przykład:

Stwierdzenie: Kara

42

śmierci

?

powinna

Taka forma pytania i odpowiedzi nazywa się skalą ocen lub ,pyt~~iem tyPnu Likerta w skrócie skalą Likerta. Pozwala ona nie tylko po~nac opml~ ~esp~ ..j dentów' na dany temat, ale również ocenić ich zdecydowallle w,?ane . w~s 1.1; " ..,. da" a zgoda to WIęcej lllZ Po nieważ "zdecydowana zgoda to WIęcej lllZ k"zgo ., , ,u porządkowego. Kabrak zgody" itd. to skala Likerta ma chara ter pOzlOm . . tralną " ' k 'l" . h poglądów jest opcją neu tegoria tych, którzy nie umieją o res lC SWOIC , . . .. .. wobec pozostałych. w środku skali. Wazne jest jej mIejSCe To jest poziom

porządkowy:

l. zdecydowanie zgadzam się

2. 3. 4. 5.

zgadzam się trudno powiedzieć nie zgadzam się zdecydowanie się nie zgadzam

Ci, którzy nie są pewni to "mniej" niż poparcie ale jednak ciwstawianie się prezentowanym poglądom.

.

."

"WIęcej

niż

prze-

To nie jest poziom porządkowy: 1. zdecydowanie zgadzam się

2. zgadzam się 3. nie zgadzam się 4. zdecydowanie nie zgadzam się 5. trudno powiedzieć

W badaniach zjawisk społecznych, zwłaszcza tych prowadzonych za pomocą różnego typu kwestionariuszy, często możemy spotkać pytanie w formie stwierdzenia, z prośbą o ustosunkowanie się do tego stwierdzenia. Na

2. zgadza się 3. trudno powiedzieć

z tym stwierdzelllem.

Tak jak w przypadku zmiennych mierzonych na poziomie nominalnym ni oznacza liczebność poszczególnych kategorii a N liczebność ogólną badanej grupy.

biedny dochód dochód dochód bogaty

l. zgadza się zdecydowanie

4. nie zgadza się 5. nie zgadza się zdecydowanie

N=30

Dopiero zmiana logicznego ziomu pomiaru zjawiska.

Czy Pan(i):

być

przywrócona.

, . k t .. zmienna zatraca swój W momencie zakłócenia logicznej kolejnoscl a egofll "porządkowy" charakter.

. 'ennych na podoW naukach społecznych często tworzy się kategoryz~~je Z~lll .' bieństwo skali Likerta. Na przykład badanie or~ent~cJl pohtyczn~~h moze byc przeprowadzone za pomocą zmiennej o następującej kategoryzacJI.

Poglądy

polityczne

1. zdecydowanie lewicowe

2. 3. 4. 5.

lewicowe centrowe prawicowe zdecydowanie prawicowe

Traktujemy wówczas zmienną nominalną jako zmienną porządkową- wynika to z natury opisywanych własności. Podobny sztuczny zabieg stosowany jest niekiedy w stosunku do nominalnych zmiennych dychotomicznych. Popatrzmy na następujące dychotomie: Płeć

1.

mężczyzna

2. kobieta

Dochód 1. wysoki 2. niski

Obie zmienne są dychotomiami (mają tylko po 2 kategorie), pleć jest zmienną nominalnąa dochód zmienną porządkową. Jeżeli zmienna mierzona na poziomie porządkowym ma tylko 2 kategorie, to nie jest możliwa sytuacja zakłócenia logiki kolejności kategorii, czyli pozbawienia zmiennej charakteru porządkowego. Możemy kategorie dochodu przedstawić jako wysoki/niski bądź niski/wysoki, innej możliwości nie ma, a obie formy zachowują charakter porządkowy.

Ponieważ możliwości dalszej analizy statystycznej są różne dla zmiennych mierzonych na poziomie nominalnym i dla zmiennych mierzonych na poziomie porządkowym czasami dokonuje się sztucznego założenia o traktowaniu nominalnych zmiennych dychotomicznych, tak jakby miały charakter porządkowy. Oba poziomy nominalny i porządkowy określane są jako poziomy słabe lub jakościowe, gdyż za ich pomocą możemy dokonać tylko rozróżnienia własności którymi charakteryzuje się jednostka analizy. Poziom porządkowy jest jednak trochę wyższym poziomem pomiaru niż poziom nominalny ze względu na moż­

liwość określenia natężenia własności.

2.5. Poziom interwałowyi ilorazowy Jedynymi liczbami, z jakimi do tej pory mieliśmy do czynienia były liczby okr.eślaj~ce li.czebność ogólną oraz liczebności poszczególnych kategorii danej ~~~enn.eJ: Juz przy okazji przykładu o pomiarze wzrostu wspomniałam, że jesIl IstmeJe taka możliwość, to powinno się dokonywać pomiaru w sposób jak

najbardziej precyzyjny, np. w centymetrach. Wówczas liczby będą określały nie tylko liczebność kategorii ale również wartość, jaką może przyjąć zmienna (np. Jan Nowak 192 cm, zamiast najwyższy). Kolejnym poziomem pomiaru, pozwalającym nam na wprowadzenie wartości liczbowych, jest poziom interwałowy. Na tym poziomie każdej jednostce analizy przypisywana jest wartość liczbowa, a nie własność określonej zmiennej. Wróćmy do omawianej wcześniej czwórki studentów. Dopiszmy Imię

następne

i nazwisko

Jacek Stopa Zofia Tym Ewa Kowalska Jan Nowak

zmienne do ich rekordów.

Wiek

Rok urodzenia

najstarszy druga najstarsza trzecia najstarsza

1976 1979 1980 1982

najmłodszy

Możemy dokonać

porównania dokładności pomiaru za pomocą poziomu poi poziomu interwałowego. Na zmiennej interwałowej możemy wykonywać działania algebraiczne. Wiemy więc dokładnie, że Jacek nie tylko jest najstarszy ale jest starszy o 3 lata od Ewy, a różnica wieku pomiędzy osobą naj starszą i naj młodszą w tej grupie wynosi 6 lat. rządkowego

Na tym poziomie pomiaru określamy nie tylko kolejność ale i dystans pomiędzy poszczególnymi jednostkami. Pomiar w tym przypadku zbliżony jest do tego, co potocznie jesteśmy skłonni uważać za taką czynność. Uzupełnijmy dalej Imię

i nazwisko

Jacek Stopa Zofia Tym Ewa Kowalska Jan Nowak

rekordy naszych studentów: Wiek (w latach)

Wzrost (w cm)

24 21 20 18

176 157 178 192

Zmienne przedstawione powyżej są zmierzone na poziomie ilorazowym. Poziom ilorazowy są prawie identyczne. Na czym polega różnica między nimi, dlaczego rok urodzenia jest zmienną interwałową a wiek liczony w latach interwałowy i

zmienną ilorazową?

W skali interwałowej punkt zerowy jest przyjęty w sposób umowny, arbitralnie. To, że studenci mają wpisany rok urodzenia 1976, 1980 itp., wynika z przyjętej konwencji określania czasu (konkretnie z kalendarza gregoriańskiego, w którym

za rok zerowy przyjęto rok urodzenia Chrystusa). Gdyby studenci ci mieszkali w Izraelu lub Chinach, ich data urodzenia wyglądałaby zupełnie inaczej. Innymi przykładami zmiennych interwałowych mogą być wysokość geograficzna, gdzie punkt zerowy ustanowiony został na poziomie morza lub temperatura, mierzona w skali Celsjusza lub Fahrenheita. Poziom ilorazowy natomiast charakteryzuje się występowaniem absolutnego zera - oznacza to, że jeśli zmienna ilorazowa przybiera wartość zero jest to. równoznaczne z brakiem jej występowania. Liczba przeżytych lat, wys~kość mIerzona w centymetrach (lub w calach), temperatura mierzona w skali Kelvina to zmienne ilorazowe. ' Rozróżnienie na interwałowy i ilorazowy poziom pomiaru ma swoje istotne matematyczne konsekwencje, które dla badacza społecznego mogą pozostać nie w pełni rozpoznane.

Poziom interwałowy i ilorazowy będziemy określać jako silne lub ilościowe poziomy pomiaru i w dalszym ciągu naszych rozważań będziemy je traktować w sposób jednorodny. Dobrze jest mieć świadomość różnicy między nimi wie?ząc że wszystkie char~kterystyki i właściwości odnoszące się do zmie~nych mterwał.owych zachowują moc w przypadku zmiennych ilorazowych, oraz że :vszystkIe metody analizy statystycznej, które można zastosować do zmiennych mterwałowychsą tak samo dobre dla zmiennych ilorazowych ale nie odwrotnie. Dokładność pomiaru w~rasta wraz z przechodzeniem od poziomu nominalnego,

~rzez porządk?wy, do mterwałowego i ilorazowego. Na tych ostatnich każdej Jednostce analIzy przypisujemy wartość liczbową mierzonego zjawiska np.:

.. wiek (w latach), .. wykształcenie (w latach ukończonej edukacji), .. dochód (w odpowiedniej walucie) itp.

~l~ charaktery~t~ki,jedn?stek analizy nie będących osobami, używa się szerokIeJ gamy wskazmkow mIerzonych na poziomach silnych, np.: II stopa bezrobocia, .. współczynnik przyrostu naturalnego, .. dochód narodowy brutto na głowę mieszkańca, .. procent osób zatrudnionych w rolnictwie itp.

Używając danych ~ochodzących z sondaży, czy z istniejących spisów, często tworzymy nowe zmIenne o wartościach na poziomie interwałowym lub ilorazowym. 46

Procedura ta polega na tworzeniu indeksów pozwalających na poziomie silnym postawy np.: tolerancji religijnej, postawy wobec kary śmierci, aborcji, używania narkotyków itp. Konstrukcja takich indeksów zostanie opisana w dalszej części tego rozdziału. Trzeba pamiętać jednak o tym, że nie wszystkie proste indeksy sumaryczne prowadzą do podniesienia poziomu pomiaru. opisać

Przy tworzeniu zmiennych interwałowych lub ilorazowych w oparciu o zmienne mierzone na niższych poziomach pomiarów, szereg reguł matematycznych zostaje naruszonych. Pomimo to, postępowanie takie jest w naukach społecznych stosowane, gdyż w stosunku do zmiennych interwałowych zakres możliwej do zastosowania analizy statystycznej jest o wiele szerszy i bardziej wyrafinowany, niż dla zmiennych nominalnych, czy porządkowych. Dlatego też, jeśli w badaniach mamy zmienne ilorazowe np. dochód (mierzony w złotówkach) i dla klarowniejszej ilustracji przedstawiamy go jako zmienną porządkową (wysoki, średni, niski), to w dalszej analizie powinniśmy posługiwać się pierwotną "ilorazową" wersją tej zmiennej. Zmienne interwałowe i ilorazowe możemy prezentować indywidualnie dla każ­ dej jednostki analizy, tak jak to zostało zaprezentowane na przykładzie czwórki studentów. Najczęściej jednak dążymy do uporządkowania ich w szeregu statystycznym, tak jak czyniliśmy to w odniesieniu do zmiennych nominalnych i porządkowych. Różnica w przypadku zmiennych mierzonych na poziomach silnych będzie polegała na tym, że kategorie będą odzwierciedlaływartości liczbowe jakie może przybrać zmienna, a nie jej własności. Załóżmy, że uczniów 30-osobowej klasy licealnej ostatniego roku szkolnego przeczytali książek.

Oto odpowiedzi jakie

zapytaliśmy

o to, ile w

ciągu

uzyskaliśmy:

21, 14, 16, 17, 19,

12, 29, 28, 26, 22,

19, 20, 12, 14, 16,

19, 18, 21, 20, 20,

25, 20, 23, 15, 17,

11, 10, 18, 21, 20.

Jedyne, co z takiego ciągu liczb udałoby się nam wydobyć, to być może informacja, że największa liczba przeczytanych książek to 29 a najmniejsza to 10. Zmienną liczba przeczytanych w ciągu roku książek uporządkowaliśmy w szeregu statystycznym. Zaczęliśmy od wypisania wartości liczbowych, jakie ta zmienna może przyjąć w naszym badaniu (Xi) a następnie przyporządkowaliśmy im odpowiadające liczebności (ni).

47

Xi

ni

Każdy z utworzonych przez nas przedziałów wartości ma określoną dolną gra-

10 11

l l

nicę (tu: 10; 15; 20; 25) i górną granicę (tu odpowiednio: 14,9; 19,9; 24,9; 29,9).

12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

2 O 2 1 2 2 2 3 5 3 1 1 O 1 1 O 1 1

Różnica pomiędzy górną i dolną granicą przedziału nazywa się rozwartością przedziału lub jego rozpiętością. Aby taki szereg statystyczny, w którym kategorie tworzą przedziały wartości zachował charakter zmiennej interwałowej

(dotyczy to oczywiście również zmiennych ilorazowych, jako zmiennych mierzonych na poziomie silniejszym niż interwałowy - dlatego też w dalszym ciągu wywodów należy przyjąć, że uwagi do zmiennych interwałowych stosują się również do zmiennych ilorazowych) muszą być spełnione dwa kryteria. Po pierwsze rozwartość wszystkich przedziałów wartości musi być jednakowa. W powyższym przykładzie warunek ten jest spełniony, bowiem dla każdego przedziałuwartości różnica między górną i dolną granicą wynosi 4,9 (14,9-10 = = 4,9; 19,9 - 15 = 4,9 itd.). Gdybyśmy jednak uporządkowali naszą zmienną w następujący

N=30

1. 2. 3.

Xi

ni

10-14,9 15-24,9 25-29,9

6 20 4

sposób:

N= 30

Taki typ szeregu nazywamy szeregiem statystycznym, w którym każda war-

tość stanowi kategorię.

Innym sposobem uporządkowaniatej samej zmiennej może być utworzenie szeregu statystycznego, w którym kategorie stanowią przedziały wartości. Takie, uporządkowanie jest użyteczne zwłaszcza wtedy, gdy mamy dużą liczebność og~l~ą ~r~z występuje możliwość znacznego zróżnicowania przyjmowanych wartOSCI (me Jak w przykładzie od 10 do 29, ale powiedzmy dla dochodów od 350 zł do 25000 zł). Zmienna liczba przeczytanych w ciągu roku książek mogłaby po uporządkowaniu w przedziały wartości przybrać postać:

10-14,9 15-19,9 20-24,9 25-29,9

6 10 10 4 N= 30

to niezależnie od tego, iż wartości określone są liczbowo, poziom pomiaru w tym przypadku jest porządkowy. Kategorie zapisane jako przedziały różnej rozwartości można zastąpić opisem słownym: mało, przeciętnie, dużo. Drugim kryterium, jakie musi

spełniać szereg

statystyczny, w którym kategorie charakter zmiennej interwałowej jest domknięcie wszystkich przedziałów. Oznacza to, że dla każdego przedziału musi być określona dolna i górna granica tego przedziału. stanowią przedziały wartości,

Poniżej

przedstawiam

przykłady,

A 1. 2. 3. 4.

aby

zachować

które nie

spełniają

tego kryterium.

B Xi

ni

10-14,9 15-19,9 20-24,9 25 i więcej

6 10 10 4 N= 30

1. 2. 3. 4.

Xi

ni

14,9 i mniej 15-19,9 20-24,9 25-29,9

6 10 10 4 N=30

Niezależnie od tego, czy niedomknięty będzie naj niższy, .czy najwyższy przedział wartości, zmienna straci swój interwałowy charakter i będziemy musieli traktować ją jak zmienną porządkową.

Czasami świadomieobniżamy poziom pomiaru przy prezentacji danych, zwłasz­ cza jeśli w dalszej analizie statystycznej będziemy korzystać z danych pierwotnych.

Przypuśćmy, że zmienna liczba przeczytanych w ciągu roku książek zamiast wartości, które znalazły się w najwyższym przedziale (25, 26, 28 i 29) przyjmuje wartości 29, 36, 55 i 72. Szereg statystyczny spełniający oba powyższe kryteria musiałby wyglądać tak: Xi

ni

10-14,9 15-19,9 20-24,9 25-29,9 30-34,9 35-39,9 40-44,9 45-49,9 50-54,9 55-59,9 60-64,9 65-69,9 70-74,9

6 10 10 1 O

1 O O O

1 O O

1 N=30

Wówczas, dla większej przejrzystości prezentowanych danych, skorzystalibyśmy zapewne z możliwości pozostawienia najwyższego przedziału wartości otwartego, tak jak w przykładzie A.

Pozostała nam do omówienia jeszcze jedna istotna kwestia związana z tworzeni,em przedziałów wartości. Dolna i górna granica przedziału powinny być okreslone na tyle precyzyjnie, aby było możliwe przypisanie każdej jednostki analizy, która przybiera pewną wartość liczbową, do jednego z przedziałów. Zmienna liczba przeczytanych w ciągu roku książek przybiera wartości liczb całkowitych, dopuszczalny wobec tego byłby następujący zapis tego szeregu statystycznego:

Xi

ni

10-14 15-19 20-24 25-29

6 10 10 4 N=30

Gdyby dane liczbowe określały np. stopę bezrobocia w wybranych do badania 30 gminach, to moglibyśmy z powodzeniem założyć, że prezentowanie takiej zmiennej w postaci liczb całkowitych jest wynikiem zaokrąglenia danych, a więc poprzednia forma zapisu szeregu uwzględniającawielkości po przecinku byłaby tu stosowniejsza. Liczba miejsc po przecinku zależeć będzie od dokładności pomiaru cechy. Można też zastosować zapis określający granice przedziałów za pomocą nawiasów: Xi

ni

(10-15) (15-20) (20-25) (25-30)

6 10 10 4 N= 30

Nawias ostry (przy dolnej granicy przedziału) oznacza, że wartość ta jest zawarta w danym przedziale, natomiast nawias okrągły (przy górnych granicach przedziałów) oznacza, że wartość ta nie zawiera się w danym przedziale, ale zawierają się wszystkie wartości od niej mniejsze. Taki zapis szeregu statystycznego jest równoznaczny ze stosowanym poprzednio zapisem, określającym granice przedziałów z dokładnością do dziesiętnych. Niestety od czasu do czasu można znaleźć szereg statystyczny zapisany tak jak powyżej, ale bez nawiasów przy granicach przedziałów. Taki zapis jest mylący, ponieważ wówczas nie wiadomo dokładnie, do którego przedziału wartości zaliczyć np. 15. Należy unikać takiego nieprecyzyjnego zapisu.

2.6. Definicje operacyjne Załóżmy, że sformułowaliśmy kilka

hipotez badawczych. Każda z nich odnosi co najmniej do dwóch zmiennych, z których jedna jest zmienną zależną a druga zmienną niezależną. Analizując te zmienne powinniśmy być w stanie podać ich własności lub wartości liczbowe dla każdej jednostki analizy. Zatem, zanim zaczniemy gromadzić dane, musimy wiedzieć, co i jak chcemy mierzyć? Tworzymy więc definicje operacyjne.

się

W każdym kwestionariuszu badającym postawy czy preferencje indywidualnych respondentów możemy znaleźć pytanie o wiek osoby uczestniczącej w badaniach. Na ogół wystarcza nam odpowiedź z wpisaną liczbą ukończonych lat - zakładamy przy tym, że respondenci udzielają informacji zgodnej z prawdą· Jeśli nasze badania dotyczyłyby sprawności intelektualnej uczniów zapisanych do pierwszej klasy szkoły podstawowej, to mogłoby się okazać, że różnica kilku miesięcy lub czasem prawie roku w ich wieku jest dla wyników badań istotna. Wówczas wiek określalibyśmy w oparciu o dokładną datę urodzenia. W obu przypadkach dokonywalibyśmy innego operacyjnego zdefiniowania tej samej zmiennej.

Jeśli raz określimy, na jakich zasadach definiujemy daną zmienną, to nie powinno być później problemów z przypisaniem jednostce analizy własności lub wartości liczbowej tej cechy. W badaniach społecznych problem operacyjnego zdefiniowania zmiennych bywa czasem bardziej skomplikowany. Badając osoby możemy mieć do czynienia z konfliktem pomiędzy własnościami (kim jesteśmy według siebie?), postawami (co sądzimy, myślimy, czujemy?) i zachowaniami (jak postępujemy w rzeczywistości?).

Załóżmy, że prowadzimy badania nad postawami społecznymi w wymiarze liberalizmu czy konserwatyzmu społecznego. Jedno z pytań brzmi: Czy uważa się Pan(i) za osobę: 1.

liberalną?

2. 3.

umiarkowaną? konserwatywną?

Jako odpowiedź respondent zakreśla wariant 1.

Następnie zadajemy serię pytań, o których sądzimy, że pozwalają uchwycić istotę różnic między powyżej określonymi wymiarami. Pytania dotyczą takich kwestii, jak postawy wobec aborcji, kary śmierci, eutanazji, pornografii itp. Analiza odpowiedzi tego samego respondenta na szczegółowe pytania prowadzi

do wniosku, że jest to osoba konserwatywna.

Zakładając, że pytania szczegółowe prawidłowo odzwierciedlają podstawowe różnice pomiędzy postawą liberalną a konserwatywną, mamy do czynienia ~ konflik.tem pomiędzy własnością (samodeklaracja respondenta jako osoby lIberalneJ) a. pos~awą (ujawnionym w pytaniach szczegółowych konserwatyz~em). Projektując badania musimy sobie odpowiedzieć na pytanie, co bę­ dZIe dla nas bardziej istotnym i użytecznym wskaźnikiem wymiaru libera-

lizm/konserwatyzm: własności, czy postawy?

Podobny konflikt może mieć miejsce pomiędzy własnościami a zachowaniami. Weźmy respondenta, który w badaniach nad orientacjami politycznymi określa

siebie jako osobę o poglądach prawicowych. Ustalamy następnie, że we wszystkich dotychczasowych wyborach osoba ta głosowała na kandydatów partii lewicowych. Co zatem weźmiemy pod uwagę w naszych badaniach: własność (samoidentyfikacjępolityczną) czy zachowania wyborcze. Oba przykłady konfliktów są oczywiście sytuacjami skrajnymi, ale pokazują­ cymi realny problem. W rzeczywistej sytuacji badawczej często mamy do czynienia z brakiem spójności w prezentowanych przez respondentów poglądach, szczególnie gdy przedmiot naszych zainteresowań badawczych dla respondentów nie wydaje się być istotny. Musimy więc nauczyć się podejmować w takich warunkach decyzje dotyczące tego, czego w badaniach chcemy się dowiedzieć i co z tą informacją zamierzamy zrobić. Jeśli np. celem naszych badań jest prognoza wyborcza, to lepszą podstawą dla jej dokonania wydają się dotychczasowe zachowania wyborcze niż samoidentyfikacja polityczna (jeśli pozostają ze sobą w konflikcie). Trudności

w tworzeniu definicji operacyjnych niejednokrotnie poprzedzają problemy z precyzyjnym, konceptualnym określeniem zjawisk, których owe definicje mają dotyczyć. Weźmy termin demokracja. Demokracją nazywamy system polityczny, w którym władza wykonawcza i ustawodawcza wyłaniane są na drodze wolnych wyborów. Z tego punktu widzenia Niemcy Zachodnie były przed zjednoczeniem bardziej demokratyczne niż Niemcy Wschodnie. Zauważmy jednak, że Niemcy Wschodnie nazywały się Niemiecką Republiką Demokratyczną i w kategoriach ideologii marksistowskiej Niemcy Wschodnie były demokratyczne, gdyż reprezentanci robotników i chłopów poprzez partię komunistyczną sprawowali kontrolę nad rządem. Mamy więc dwa różne spojrzenia na termin demokracja i jakakolwiek operacjonalizacja tego pojęcia oparta na zachodniej koncepcji demokracji będzie się różniła od tej opartej na interpretacji marksistowskiej. niezgodność podstawowych pojęć konceptualnych występuje rzadko. Czę­ kontrowersje dotyczą tego, które z wymiarów pojęcia podstawowego są jego istotą i powinny być poddane operacjonalizacji. Spróbujmy dokonać operacjonalizacji takiego pojęcia jak wolność (rozumiana w kategoriach praw obywateIskich) .

Taka ściej

Jeśli pytamy, czy w danym kraju obywatele posiadają wolność, i jeśli tak, to w jakim stopniu, to pojęcie wolności możemy badać poprzez badanie posiadanych wolności i praw obywatelskich. Czym są prawa obywatelskie? Które z nich powinny być włączone do definicji operacyjnej?

Przyjmijmy na początek cztery podstawowe prawa obywatelskie: liII

II II li

wolność

wyznania i sumienia, wypowiadania się, wolność prasy,

Stwierdzenie: Aborcja powinna

Ii!ll

III iii

Po a~alizie dokumentów różnych organizacji międzynarodowych moglibyśmy do~ac do tego zestawu np. prawo mniejszości narodowych do używania swoje~o Języka l~b prawo o~y,,:ateli ~o ~inimalnego ekonomicznego standardu życia Itp. To, ktory z wymIarow pOJęcIa podstawowego uwzględnimy w naszej definicji operacyjnej zależy od naszej wiedzy, przyjęcia określonej perspektywy teoretycznej oraz celu badawczego.

: O

Ms=X-D.

Mediana znajduje się w połowie zakresu w "" . . dk arto~cI, Jaki obejmuje krzywa - wynika to z jej definicii W t J • ym przypa u medIana przy'm . t " . od dominanty Na wielkość' d . . J Uje war osc wIększą . sre mej arytmetyczneJ' któr r . o wszystkie wartości J'akie prz" I' ' a ICZona Jest w oparciu ' Y J m u J e ana IZowana zmienna w b d ' . wp ł yw mają wartości skra'ne w . a aneJ grupIe, odchyla się w kierunku tY~h w Ytst~~uJWące w szeregu, w taki sposób, że średnia ar OSCl. tym przypadk t ' . k . ~tęp~ją po prawej stronie szeregu statystycznego i t u k~ar oSkCI s raJne Y Jest srednia. w ym Ierun u przesumęta

:v

~~:~ar::~Z~j~: teraz, jak o?~hylenie ~rzy~ej od osi symetrii w kierunku wartuację tak: ~rze;~;w~:~~~~e~s~~~~t I ułozenie miar tendencji centralnej. Sy-

Wartość, jaką przyjmuje miernik skośności w zależności od typu rozkładu, została zaznaczona przy rysunkach ilustrujących te rozkłady (zero dla rozkładu symetrycznego, wartości większe od zera dla rozkładu asymetrycznego prawostronnie, wartości mniejsze od zera dla rozkładu asymetrycznego lewostronnie).

Miernik skośności określa nam tylko symetrię, bądź asymetrię oraz kierunek tej ostatniej. Wielkość asymetrii określamy na podstawie współczynnikaskośności W s, który na ogół (choć w przypadkach skrajnej asymetrii nie musi to mieć miejsca) zawiera się w przedziale (-1, 1). Im wartość współczynnika skośności jest bliższa zera, tym asymetria jest mniejsza, a im jego wartość oddala się od zera, niezależnie od kierunku (ujemnego czy dodatniego), tym asymetria jest większa. Współczynnik ten

n

obliczamy na podstawie wzoru: X-D

W s =---, s gdzie s oznacza odchylenie standardowe w dalszej części tego rozdziału. X Rysunek 3.5.

M

D

x

Rozkład asymetryczny lewostronnie:

D > M >

X,

Ms < O

Dominanta znajduje się w miejscu w któ k . biera wartość największ ze wsz' . ry~ rzywa posIada maksimum i przyznajduje się w środku z~kresu ~~~~~~~ t~n?en~ji central~e~. Mediana sza od dominanty. Średnia ar tmet cz ,J. I o eJmuJ: krzywa I Jest mniejekstremalnych w tym przypad~ :r: d ~a Jest przesumęta w stronę wartości tystycznego. J~st to rozkład u znaj uJących się po lewej stronie szeregu sta'. asymetryczny lewostronnie (asymetria ujemna). Przyglądając SIę uważnie wzajemnemu ł" . wszystkich przedstawionych po " ~zenlU mIar tendencji centralnej we wyzeJ sy uacJach modelowych, możemy dostrzec

r:::::

to

miarę dyspersji, którą zajmiemy się

Współczynnik skośności jest miarą względną i służy do porównań asymetrii rozkładów tej samej zmiennej mierzonej w różnych grupach badawczych lub też

do

porównań rozkładów różnych

skos:noi"Ć

zmiennych.

obliczana jest

według

innej

formuły.

Miernik i współczynnik skośności są bardzo użyteczne przy precyzyjnym określaniu asymetrii kiedy rozkład częstości jest jednomodalny. W przypadku wielomodalności badanie skośności jest bardziej skomplikowane. Aby to zilustrować, na rysunku 3.6 zostały przedstawione idealne modele rozkładów dwumodalnych.

a)

b)

c)

n

n

Kolejnym podziałem jest po.d ~la ' . czy,li percentyle. Z jego uży. ł na st O. CZęSCl,

teczności będziemy jeszcze meJednokrotme korzystac.

Rozstęp

3.6. DXMD

x

rozkładów

x

D

MXD

x

Rysunek 3.6. Idealne modele dwumodalnych: a) asymetria lewostronna; b) symetria; c) asymetria prawostronna

oparciu o tę dominantę, która pozostaje w pokazanej na rozkładzie jednomodalnym zależności w stosunku do mediany i średniej arytmetycznej (X > M > D lub X < M < D). Trzeba pamiętać jednak o tym, że rzeczywistość badawcza rzadko przystaje do takich modeli.

W takich przypadkach

skośność określamy w

Jedne. z zajęć ze statystyki zostały poświęcone bu~U\:ani~ indel~csów i zostały rzeprowadzone w następującej formie. Grupa podzlehła s~ę na tl.zy zespoły osób. swojego moderatora. Zadamem kazdego a rupy było zbudowanie indeksu konserwatyzmu społecznego. Moderatorzy _ iwa Zosia i Adam -- mieli do dyspozycji go utworzony przez ek sper to'w . W trakcie l ' ' mleh tak prowadzlc . h ł h aby na jej podstawie każda osoba była zdo na utworzyc w SWOlC zespo ac , k . k' d moderator miał indeks konserwatyzmu społecznego. Na omec az y . ' " 'kali od O brak do 10 zgodnosc), ocemc, w s . d k 'k ertów zgodność indeksów członków danej grupy z lD e sem e sp .

~

i,0

Każdy zespół wybrał

człon i~d,eks.k~nserwatyzmu.~połeczn:-

zaJęc

włas~:

(całkowity

zgodności)

dyskUSję

(całkOWIta

A oto wyniki jakie uzyskali studenci:

3.5. Inne miary pozycyjne

Grupa Ewy

G rupa ZoS·l

Grupa Adama

Xi

Xi

Xi

8 8 8

7 8 8

8

9

6 6 10 10

rozważaniach nad rozkładem wartości w szeregu statystycznym często odwołujemy się do koncepcji miar pozycyjnych. Jedną z miar pozycyjnych już poznaliśmy, jest nią mediana. Przypomnijmy, że ma ona tę własność, iż dzieli W

szereg statystyczny na dwie części. Inne miary pozycyjne na części, tylko w inaczej określony sposób.

również dzielą szereg

Gdybyśmy prowadzili

badania dotyczące zawodowych losów najlepszych absolwentów socjologii, to porządkując grupę absolwentów według ocen na dyplomach, do badań moglibyśmy włączyć górne 25% osób z takiej listy. Podzielilibyśmy wówczas grupę absolwentów według kwartyli. Kwartyle to miary pozycyjne, które dzielą szereg na cztery części: kwartyl pierwszy w stosunku 1/4 do 3/4, kwartyl drugi (mediana) w stosunku 1/2 do 1/2, kwartyl trzeci w stosunku 3/4 do 1/4. Absolwenci, którzy staliby się jednostkami analizy, to ci, dla których kryterium selekcyjne przybrałoby wartość większą od kwartyla trzeciego.

podziału

podział

dziesiąte części,

Kolejnym sposobem szeregu jest na czyli dePodział ten jest wykorzystywany np. w badaniach poziomu życia ludności, gdzie - dla określenia poziomu nierównościspołecznych _ porównuje się róż­ nice w poziomie życia najniżej sytuowanych 10% społeczeństwa z kolejnymi dziesiątkami lub też z 10% najlepiej sytuowanych. cyle.

L

Xi

= 32

32 = 8 X- E = 4'

L

Xi

= 32

X z -;J1 - 4

= 8

LXi

XA

= 32

= ~ = 8

Okazało się że dla wszystkich grup średnia zgo d nosc . ,z ekspertami " ł " s t u dentów b ła taka sama ale rozproszeme . . zm18ma .o ' " wartoscl. poszczególnych ,.pomlarow Sl'ę grupIe y od braku zróżnicowal1la , . w grupIe . E wy, przez pewne zrozmcowal1le . , t w ,.. o Zosi, do dużego w grupie Adama. Zobaczmy, Ja m lerzyc o zrOZl1lC . l( mozemy . wanie.

Pierwszą najprostszą miarą dyspersji jest rozst~p. Jesb't to ró.żnica .PeomMioę~~: " " " . ka wy stąpIła w a d aneJ wartością najwIększą l' naJml1le.Jszą, .Ja " ,. .grupl k' .rz .J'mu-

. t . ' ć za pomocą sformułowal1la, ze wartoscI, .Ja le p y WIęC rozs ęp WylaZl . l d d lub w sposób je zmienna w badaniu zawierają się w przedzla e o ... o... , algebraiczny:

R = x max

-

xmin,

jako różnicę pomiędzy wartością maksymalną l. mlDllna .. lną w badanym zbiorze danych.

Zaletą tej miary jest jej prostota i łatwość interpret~cyjna, wa~ą natom~ast to, że

rzy jej obliczaniu bierzemy pod uwagę tylko dwa l to szczegolne, skrajne po-

mi~ry. Zatem, o ile średnia nie wynosi tyle, ile któryś ze skrajnych pomiarów (co

zdarza się niezwykle rzadko), to na podstawie wielkości nic powiedzieć na temat różnic pomiędzy wszystkimi pozostałymi pomiarami a średnią. Powróćmy do grup studenckich i zróżnicowania ich pomiarów: nie jest

niemożliwe ale

rozstępu nie możemy

II III III

grupa Ewy - R = 8 - 8 = 0, grupa Zosi - R = 9 - 7 = 2, grupa Adama - R = 10 - 6 = 4.

potwierdza naszą wstępną obserwację o braku zróżnicowa­ nia wartości w grupie Ewy, o pewnym zróżnicowaniu w grupie Zosi i najwięk­ szym zróżnicowaniu w grupie Adama. Spróbujmy teraz ocenić to zróżnicowanie w sposób bardziej precyzyjny.

Ponieważ naszym celem jest zmierzenie "odległości" pomiędzy pomiarem a średnią, nie jest dla nas istotne, w którą stronę następuje to odchylenie (w kierunku rosnących czy malejących wartości na osi), ważne jest zaś o ile jednostek.

To co nas interesuje, to Wartość tę

wartość bezwzględna odległości pomiarów

od

średniej.

oznaczamy za pomocą pionowych nawiasów a - zgodnie z definicją - wielkość wyrażenia ujętego w taki nawias ma znak

wartości bezwzględnej

dodatni. Teraz wzór definicyjny na odchylenie

średnie będzie miał następującą postać:

Wielkość rozstępu

3.7. Odchylenie

średnie

Bardziej precyzyjny pomiar zróżnicowaniazakłada określenie (zmierzenie) róż­ nic pomiędzy każdym pomiarem a średnią. Na tej idei oparta jest istota odchylenia średniego, nazywanego również odchyleniem przeciętnym. Rozpoczynamy więc od obliczenia różnic pomiędzy każdym pomiarem a średnią. Następnie dodajemy wszystkie te różnice, aby otrzymać ogólną sumę odchyleń. Jeśli tę ogólną sumę podzielimy przez liczbę pomiarów, to uzyskamy odchylenie średnie. Wielkość rozstępu

wanie pomiarów

dla grup studenckich wskazywała, że największe zróżnico­ grupie Adama. Policzmy dla niej odchylenie

występowało w

średnie.

Xi

X

Xi-X

6 6 10 10

8 8 8 8

-2 -2 2 2

2:>i

= 32

pewien problem. Nie możemy tak po prostu dodać wszystkich pomiarami a średnią, gdyż według własności średniej poznanej poprzednio, taka suma zawsze powinna wynosić zero. Tak jest w naszym

Tu pojawia

się

różnic pomiędzy przykładzie:

90

gdzie d (tak oznaczamy odchylenie średnie) jest względnych różnic pomiędzy pomiarami a średnią. Sprawdźmy

rzona za

zatem, jak przedstawia

się wielkość

pomocą odchylenia średniego, w

X

Xi-X

6 6 10 10

8 8 8 8

-2 -2 2 2

lXi

-xl 2 2 2 2

Llxi -XI

LXi = 32 X=?f=8

=8

d=~=2

Grupa Zosi

Xi

X

7 8 8 9

8 8 8 8

LXi = 32 X=?f=8

Xi-1 O O 1

X

bez-

rozproszenia pomiarów, mieposzczególnych grupach studenckich.

Grupa Adama

Xi

średnią arytmetyczną

lXi-xi 1 O O 1

Llxi -XI =2 d = ~ = 0,5

Grupa Ewy Xi

X

Xi-X

lXi-Xi

8 8 8 8

8 8 8 8

O O O O

O O O O

LXi = 32

Llxi -XI = O

X=:3;f =8

d=~=o

Wyniki są zgodne z naszymi oczekiwaniami i precyzyjnie wyrażone. Brak zróż­ nicowania wartości pomiarów w grupie Ewy został potwierdzony przez odchylenie średnie o wartości zero. Niewielkie zróżnicowanie wartości pomiarów w grupie Zosi potwierdza ułamkowa wartość odchylenia średniego (d = 0,5). Największe jest zróżnicowanie wartości pomiarów w grupie Adama (d = 2).

3.8. Wariancja i odchylenie standardowe Dotychczasowe nasze rozważania dotyczące rozproszenia wartości pomiarów w badanej grupie miały za zadanie przybliżenie samego pojęcia dyspersji i sposobów jej pomiaru, gdyż na ogół w badaniach posługujemysię zupełnie innymi miarami dyspersji. Formuła określania odległości wartości pojedynczego pomiaru od średniej za pomocą wartości bezwzględnej, która została zastosowana przy definiowaniu odchylenia przeciętnego, zostaje zastąpionainną formułą. Zamiast "pozbywać" się znaku ujemnego dla różnic między pomiarami a śred­ nią za pomocą wartości bezwzględnej, stosuje się w tym celu podnoszenie do kwadratu. Tak zdefiniowaną miarę dyspersji nazywamy wariancją 82: 8

2

=

L (Xi _X)2 N

Wielkość wariancji będzie zawsze większa niż odchylenia średniego, można nawet powiedzieć, że wariancja mierzy "podwójną" (ze względu na podnoszenie do kwadratu) sumę różnic między pomiarami a średnią. Aby miarę tę uczynić bardziej porównywalną do odchylenia średniego, wyciągamy pierwiastek kwadratowy z wariancji, obliczając odchylenie standardowe 8:

Interpretacja odchylenia standardowego jest zbliżona do tej, jaką stosujemy dla odchylenia średniego - poprzez analogię.

. ' d h l . 'rednie jest łatwiejsze do obliczenia i bardziej "przyTak WlęC, choc o c .y.eme s d' badaniu dyspersji posługujemySlę od.eJ' wspomniane kwestie techjazne" interpretacYJ me, to zasa mczolw . d d tak ze wzg ę d u na wyz ar owym, . anall'tyczne odchylenia standardowego chylemem . kstan . b'd .stotne znaczeme niczne, Ja l a~ zo, l. . . h t ów idealnych rozkładów zmiennych dla jednego z naJczęscleJ występuHcyc yp d' . w późniejszych rozdzia_ rozkładu normalnego (wrócimy do tego zaga mema

łach).

, .

Zmierzmy teraz za pomocą nowo poznanyc~ miar stopień rozproszenia wartosCl pomiarów w omawianych grupach dyskusYJnych. Grupa Adama Xi

X

Xi- X

(Xi - X)2

6 6

8 8 8 8

-2 -2 2 2

4 4 4 4

10 10

L(Xi- X )2- l6

LXi - 32

Grupa Zosi (Xi- X

Xi

X

Xi -X

7 8 8 9

8 8 8 8

-1

1

O O

O O

1

1

LXi - 32

L(Xi- X

)2

)2=2

Grupa Ewy

!li

Xi

X

Xi -X

(Xi - X)2

8 8 8 8

8 8 8 8

O O O O

O O O O

I!i

8

2

= L(Xi-X/ N

8=

8 =

2,0.

Zróżnicowanie wartości

pomiarów w tej grupie jest największe, co oznacza, iż w ocenie indeksów poszczególnych studentów były największe wśród wszystkich grup dyskusyjnych. Wiemy, że dyspersja jest największa w grupie Adama, ale nie wiemy, czy jest ona duża w kategoriach ogólnych. różnice

L (Xi _X)2 = O

LXi = 32

wariancja - 8 2 = 4,0, odchylenie standardowe -

Narzędziem, pozwalającym nam porównywać stopień rozproszenia wartości w różnych grupach jest współczynnik zmienności - jest to stosunek odchylenia standardowego do średniej arytmetycznej:

°

- -4--O ,

VL (X; X)2 l =

8

v= X.

=VO=o.

Spróbujmy dokonać podsumowania badania dyspersji w grupach dyskusyjnych.

Pozornie jest on skonstruowany jak wskaźnik z zakresu od może przybierać wartości większe niż 1.

°

do 1 ale faktycznie

Grupa Ewy: - R = 0, odchylenie średnie - d = wariancja - 8 2 = 0, odchylenie standardowe -

III rozstęp

III III III

Wartość

° ,

= o.

8

N~e ma ża~nego zró~nicowaniapomiędzy wartościami, jakie przyjmują poszczegolne p~mIary tej ~rupie - indeksy społecznego konserwatyzmu wszystkich studentow ~ tej grupIe zostały ocenione na 8 punktów w porównaniu z indek-

:v

sem ekspertow. Grupa Zosi:

- R = 2,0, odchylenie średnie - d = wariancja - 8 2 = 0,5, odchylenie standardowe -

II rozstęp III III III

°, , 5

8

= 0,7.

od od od od od

V

O do 0,2 0,21 do 0,39 0,4 do 0,6 0,61 do 0,7 0,71 do 0,9 powyżej 0,91

Rozproszenie małe

mniej

niż średnie

średnie

więcej niż średnie duże

bardzo

duże

W grupie Ewy i Zosi rozproszenie jest małe (w grupie Ewy nie ma go wcale) a w grupie Adama jest mniej niż średnie. W rzeczywistej sytuacji badawczej na ogół występuje zróżnicowanie wartości pomiarów (inaczej niż w grupie Ewy) i na ogół wielkość odchylenia standardowego jest nieznacznie wyższa niż odchylenia średniego (tak jak to jest w grupie Zosi). Weźmy teraz pod uwagę przykład, który będzie bliższy takiej sytuacji.

Z~kr~s z:óżnicowani~ po~ię.dzy wartościami poszczególnych pomiarów jest niewIelkI, .lIczba p~nktow, JakIe za swoje indeksy otrzymali studenci różniła się tylko meznaczme.

~~.~~~.~~..~.~.

Grupa Adama:

Powróćmy do badania przeprowadzonego wśród studentów socjologii na temat

- R = 4,0, odchylenie średnie -

III rozstęp II

d

°

= 2, ,

ich indywidualnej oceny trafności wyboru kierunku studiów. Poprzednio obliczyliśmy miary tendencji centralnej dla zbioru danych pochodzących z badań. Teraz zajmiemy się miarami dyspersji.

Obliczenie

d

rozstępu jest czynnością niezwykle prostą:

R = 10 ~óżnica n:iędz~ w~rtością największą cały

SI 10, czyh obejmuje

zakres

a

°

2

= 10.

s =

najmniejszą

używanej

w badanej grupie wyno-

II

odchylenie

przybiorą następującą postać:

średnie:

wariancja:

II

odchylenie standardowe:

455,5 165

= 2,8,

1534,5

W5

=9,3,

1534,5

W5

V = 3,05 = 5,7

=

J9,3 =

3,05,

°

54 ,.

Proszę pamiętać, że to tylko ćwiczenia, w prawdziwych badaniach komputer wyręczy nas w liczeniu wszystkich miar. Nam pozostanie bardziej odpowiedzialna i interesująca rola interpretatora.

Co możemy zatem powiedzieć o ocenie trafności wyboru kierunku studiów dokonanej przez studentów socjologii. Trafność wyboru studiów zoperacjonalizowaliśmy w postaci skali od (wybór zupełnie nietrafiony) do 10 (w 100% trafny). Wśród badanych studentów byli tacy, którzy uznali swój wybór za zupełnie nietrafny oraz tacy, którzy byli całkowicie ze swego wyboru zadowoleni (wartości zmiennej obejmowały cały zakres skali, co potwierdza wartość

d= Elxi-Xlni N ' lIiI

s=

skali.

Problem .... . ., y pOJaWIają SIę, g d Y przechodzImy do wyznaczenia odchyleń i warianCJI. Dane pochodząc~ z .badań uporządkowaliśmy W szeregu staty~tycznym, wobec.:ego w~ory defimcYJne musimy przystosowaćdo takiego sposobu ich prezentacJI, w ktorym mamy podaną wartość zmiennej i odpowiadającą jej liczebność. Odpowiednie wzory

=

°

rozstępu).

Średnio rzecz biorąc, studenci są raczej z wyboru studiów zadowoleni (średnia arytmetyczna) a połowa z nich nawet bardzo zadowolona (mediana). Istnieje ~abie:amy się więc

do mrówczej pracy. W poprzednim rozdziale wynosi ona 5,7.

obliczyliśmy

niezadowolonych (druga dominanta).

sredmą arytmetyczną -

Xi

ni

Xi-X

lXi-xi

IXi-Xlni

O l 2 3 4 5 6 7 8 9 10

5 la 30 10 5 5 10 20 40 20 10

5,7 -4,7 -3,7 -2,7 -1,7 -0,7 0,3 1,3 2,3 3,3 4,3

5,7 4,7 3,7 2,7 1,7 0,7 0,3 1,3 2,3 3,3 4,3

28,5 47 111 27 8,5 3,5 3 26 92 66 43

E = 455,5

(Xi -

xy

(Xi

32,5 22,1 13,7 7,3 2,9 0,5 0,1 1,7 5,3 10,9 18,5

X-)2 ni 162,5 221 411 73 14,5 2,5 l 34 212 218 185

E

widoczna polaryzacja postaw: najliczniejsza jest grupa osób bardzo zadowolonych (pierwsza dominanta), ale nie wiele mniej liczna jest grupa osób bardzo

1534,5

Rozkład wartości analizowanej zmiennej jest rozkładem dwumodalnym, asymetrycznym lewostronnie. Rozkłady dwumodalne charakteryzująsię na ogół dużym rozproszeniem wartości pomiarów, w analizowanym przykładzie jest ono średnie (potwierdzają to wartości odchylenia średniego, wariancji i odchylenia standardowego oraz współczynnika zmienności), być może ze względu na określony przez nas zakres skali trafności (gdyby był on większy, to rozproszenie byłoby prawdopodobnie jeszcze większe i być może nastąpiłoby wyraźne przesunięcie pomiarów w kierunku jednego z jej końców). Miary tendencji centralnej są bardzo użytecznym narzędziem analizy zmiennych. Aby je właściwie i w pełni wykorzystywać, trzeba sobie zdawać sprawę z istotnych różnic między nimi.

Dominanta jest miarą, którą można stosować dla wszystkich poziomów pomiaru zmiennych, zaczynając od takich mierzonych w skali nominalnej i kończąc na takich mierzonych w skalach silnych. Pamiętać należy o tym, że w jednym szeregu statystycznym może występować więcej niż jedna dominanta. Mediana jest miarą, którą możemy stosować do analizy zmiennych mierzonych w skali porządkowej lub w skalach silnych. Aby wyznaczyć medianę, pomiary muszą być uporządkowane według wartości rosnąco bądź malejąco. Jeżeli rozkład jest silnie asymetryczny, to mediana jest najlepszym reprezentantem miar tendencji centralnej. Średnia arytmetyczna jest miarą o największym znaczeniu analitycznym. W przeciwieństwie do dwóch poprzednich miar, wielkość średniej liczona jest w oparciu o wszystkie wartości pomiarów występujących w badanej grupie. Ma to pozytywną konsekwencję w postaci stabilności tej miary w porównaniu do mediany i dominanty (do znaczenia pojęcia stabilności i wagi tej własności średniej powrócimy po przejściu do zagadnień z zakresu statystyki indukcyjnej) oraz konsekwencję negatywną, w postaci dużego wpływu pomiarów ekstremalnych na wielkość średniej, co mediany i dominanty nie dotyczy. Średnią możemy stosować tylko do analizy zmiennych mierzonych w skalach silnych.

Przedstawione miary tendencji centralnej i dyspersji służą nam do analizy (opisu) jednej zmiennej. W badaniach jednostki analizy są charakteryzowane przez wiele zmiennych i każdą ze zmiennych można opisać używając poznanych miar. Dział

statystyki, w ramach którego dokonujemy tego typu analiz nazywa

się

statystyką opisową· Użyteczność

analityczna niektórych poznanych miar wykracza poza funkcje opisowe, ale to będzie przedmiotem naszych dociekań w dalszych rozdziałach.

Ćwiczenia Ćwiczenie

3.1.

Badano związek między wydatkami na zdrowie liczonymi w %PKB a wskaźni­ kami jakości życia. Jednym z takich wskaźników jest oczekiwana długość życia. Sprawdzono, ile wynosi ona dla dziesięciu państw wydających najwięcej na zdrowie oraz dla państw, w których wydatki te wynoszą 1% i mniej PKB. Oblicz średnią arytmetyczną i medianę dla na tej podstawie wysnuć wnioski? Państwa

o

najwyższych

Stany Zjednoczone Kanada Francja Niemcy Finlandia Szwecja Holandia Australia Austria Norwegia Państwa

grupy

państw.

Jakie

możesz

wydatkach

Długość życia

Państwo

każdej

[lata]

76,8 78,1 77,6 76,8 76,5 79,0 78,0 78,3 77,1 77,3

o naj niższych wydatkach

Państwo

Długość życia

Sudan Indonezja Zair Maroko Somalia Egipt Kamerun Laos

[lata]

55,0 65,1 51,9 65,7 49,0 66,0 58,5 53,5

Ćwiczenie 3.2.

Porównajmy zdefiniowane w poprzednim ćwiczeniu grupy państw w innym wymiarze. Teraz analizowaną zmienną jest średnia liczba osób żyjących w jednym gospodarstwie domowym.

98

Dokonaj porównania tych grup w oparciu o miary tendencji centralnej. Państwa o najwyższych Xi

ni

2,2 2,3 2,4 2,6 2,7 3,0

1 1 1 4 2 1

Państwa

wydatkach na zdrowie

2, 4, 6, 3, 3, Uporządkuj

ni

4,5 4,9 5,2 5,4 5,6 5,9

1 2 1 2 1 1

O, 2, 2, 4, 1,

1, 3, 1, 3, 2,

5, 4, 3, 2, 3,

3, 1, 1, 2, 4,

1, 2, 4, 1, 4,

2, O, 3, 1, 2,

3, 1, 6, 2, 3,

2, 2, 2, 3, 4,

1, 3, O, 1, 2.

3, 2, 3, 3,

2, 3, 2, 2,

dane i przeprowadź analizę zmiennej.

Ćwiczenie 3.5.

o naj niższych wydatkach na zdrowie

Xi

Oto surowe dane uzyskane w tych badaniach:

W stosunku do poniżej zaprezentowanych wykresów rozkładów częstości (A-F), określ typ każdego z nich i opisz znaczenie podanych na wykresach symboli

(a-i) .

c

B

n

Ćwiczenie 3.3.

Psycholog społeczny badający dzieci z pierwszej klasy gimnazjum używał mię­ dzy innymi indeksu ekstrawertyczności. Indeks ten oparty był na skali od O (najmniej ekstrawertyczny) do 59 (najbardziej ekstrawertyczny).

x

a

b

c

x

E

F

Oto wyniki tego badania:

żaden

29, 56, 10, 22, 37,

44, 45, 13, 28, 41,

7, 29, 44, 32, 53,

10, 30, 45, 44, 26,

11, 41, 51, 25, 48.

U porządkuj dane i dokonaj ich analizy.

a g

iii

rozkład dwumodalny asymetryczny prawostronnie ... rozkład jednomodalny symetryczny ...

III

rozkład trójmodalny asymetryczny lewostronnie

III

rozkład jednomodalny asymetryczny lewostronnie

/!II

rozkład jednomodalny asymetryczny prawostronnie rozkład dwumodalny asymetryczny lewostronnie ...

Wśród wszystkich uczniów tego gimnazjum przeprowadzono badania dotyczą­

ce ich sytuacji rodzinnej. Jednym z pytań, było pytanie o liczbę rodzerlstwa pozostającego na utrzymaniu rodziców.

x

Rysunek 3.7.

lIiII

Ćwiczenie 3.4.

f

!lila ...

b ...

c ...

d ...

e ...

f ...

g ...

. . .

h ...

z nich

Co

może zrobić

.t)

za nas komputer

'DO

' l, to przyrost wartości X o jedną jednostkę powoduje przyrost wartości y o więcej niż jedną jednostkę;

a = -100,

O < b < l, to przyrost wartości X o jedną jednostkę powoduje przyrost o mniej niż jedną jednostkę;

b = -l, to przyrost wartości X o jedną jednostkę powoduje spadek wartości y o jedną jednostkę;

b < -l, to przyrost wartości X o jedną jednostkę powoduje spadek wartości y o więcej niż jedną jednostkę; -l

< b < O, to przyrost

wartości y

7

a + bx,

y y

b = l, to przyrost wartości X o jedną jednostkę powoduje przyrost wartości y o jedną jednostkę;

wartości y III

4

500 = a + 75 . 8,

też III

12 - 8

Teraz możemy uznać, że nasze b wynosi 75, co oznacza, iż każdy rok spędzony na zdobywaniu wyższego poziomu edukacji procentuje w postaci dodatkowych 75 złotych do pierwszej pensji. Zabierzmy się za wyznaczenie współczynnika a. Do równania prostej wystarczy teraz podstawić współrzędne jednego punktu:

I tak, gdy: III

= 800 - 500 = 300 = 75.

Xl

sprawdzić

X2 -

y

Xl

o mniej

wartości

X

o jedną jednostkę powoduje spadek

niż jedną jednostkę.

a = 500 - 600,

zatem: y

=

-100 + 75x.

Jedno nas teraz może niepokoić - wartości obu zmiennych dla osoby 4. Według równania naszej prostej (jeśli zależność między badanymi zmiennym~ jest liniowa) osoba, która osiągnęła poziom edukacji wymagający 17 lat naukI powinna otrzymać pierwszą pensję w wysokości y = -100 + 75 . 17 = 1175 zł, a otrzymała 1200 zł. Zobaczmy dlaczego.

'\1\I'i'~ l,

" l,'

I

7.6. Prosta regresja liniowa W rzeczywistej sytuacji badawczej przypadek osoby 4 z naszego przykładu jest raczej regułą niż wyjątkiem. Z reguły próby są zdecydowanie bardziej liczne i jest mało prawdopodobne aby wszystkie pomiary (wartości dwóch zmiennych dla wszystkich jednostek analizy) układały się idealnie w linię prostą. Zdarza się jednak, że obraz ten wygląda jak na rysunku 7.2 (tu znów ze względu na przejrzystość ograniczymy liczbę pomiarów). y 6

czyli aby suma kwadratów odległości pomiędzy pomiarami a prostą (tak jak są one zaznaczone na rysunku 7.3) była najmniejszą możliwą wartością dla danego zbioru danych. Stąd nazwa metody. y8

6

4

5 2

• •

4

O-\----~---.--~--~--.----~

3

o

10

8

6

4

2

2

12

x Rysunek 7.3.

O-t--~--~--~--~-~--~

o

2

4

6

8

10

12

x Rysunek

7.2.

Możemy

o tym obrazie powiedzieć, że pewnej zmianie wartości zmiennej nieodpowiada określona tendencja do zmiany wartości zmiennej zależnej. Przypuszczamy, że dałoby się do tego obrazu dopasować taką linię prostą, iż każdej wartości x odpowiadałoby najlepsze oszacowanie wartości y. zależnej

Procedurę taką

nazywamy analizą regresji liniowej. Pozostaje pytanie, jak zna"najlepiej pasującą" prostą? Metoda, która nam to umożliwia nazywa się metodą najmniejszych kwadratów. Poznanie jej istoty zacznijmy od rysunku 7.3. leźć tę

Każdy

pomiar naszej próby łączymy odcinkami prostopadłymi do osi x z hiporegresji. Zatem dla każdej określonej wartości Xi będziemy mieli dwie wartości zmiennej zależnej: Yi - rzeczywista wartość pochodząca z badań oraz y;' - wartość zmiennej zależnej leżąca na estymowanej prostej. tetyczną linią

Dążymy

do tego aby:

Z poprzednich rozważań wiemy, że aby zapisać zależność między zmiennymi w postaci funkcji liniowej, musimy znaleźć współczynniki a i b. Ich najlepsze estymatory policzone metodą najmniejszych kwadratów otrzymuje się według poniższych wzorów: b_ N -

a=

2.: XiYi

- (2.: Xi) (2.: Yi) N2.: X;-(2.: Xi)2

2.:Yi - b 2.: Xi

N

gdzie: Xi - wartości, jakie przyjmuje zmienna niezależna w próbie; Yi - wartości, jakie przyjmuje zmienna zależna w próbie; N - liczebność próby. Wzory definicyjne dla obu współczynnikówsą następujące:

b_ -

2.: (Xi - X)

a=Y -

(Yi -

2.:(Xi- X )2

y) '

bX.

Zobaczmy teraz na przykładzie, że obliczenie tych współczynników nie jest czarną magią, choć "normalnie" zrzucamy tę żmudną pracę na komputer.

Oszacujmy zatem krok po kroku współczynniki szukanego równania liniowego: Utworzono indeks społecznego liberalizmu oparty na skali od O (postawy najmniej liberalne) do 10 (postawy najbardziej liberalne). Załóżmy, że badamy związek pomiędzy stopniem liberalizmu społecznego a religijnością - mierzoną częstością udziału w praktykach religijnych, również na skali od O (nieuczestniczenie w praktykach religijnych) do 10 (regularne i częste branie udziału w praktykach religijnych). Zakładamy następującą hipotezę badawczą:

ba jest religijna, tym mniej jest liberalnych. Oto

wartości

skłonna

w im większym stopniu dana osodo przyjmowania postaw społecznie

1. umieszczamy wartości zmiennych w kolumnach Xi i Yi; 2. liczymy wyrażenia XiYi dla każdego rzędu i zapisujemy je w kolejnej kolumnie; 3. podnosimy każdą wartość Xi do kwadratu i zapisujemy w osobnej kolumnie; 4. dokonujemy sumowania w każdej z zapisanych kolumn; 5. sumę wartości Xi podnosimy do kwadratu; 6. podstawiamy obliczone wyrażenia do wzoru na b i obliczamy je; 7. podstawiamy potrzebne wielkości do wzoru na a i obliczamy je; 8. zapisujemy równanie prostej.

obu zmiennych: No to do pracy:

Religijność

Xi

Społeczny

7 8 8 9 10

liberalizm Yi 4,0 4,0 3,5 3,0 2,5

Zacznijmy od umieszczenia tych punktów w układzie współrzędnych (rys. 7.4).

Xi

Yi

XiYi

x2

7 8 8 9 10

4,0 4,0 3,5 3,0 2,5

28 32 28 27 25

49 64 64 81 100

"

L: = 42 L: = 17 L: = 140 L: = 358

y6

Podstawiamy obliczone wielkości do wzorów:

5

• •

4



3 2



b = NL:XiYi - (L: Xi) (""{-Yi) NL:x; - (L: Xi)



700 - 714 1790 - 1764

a=

O+---.-----,--~--~--~-~

O

2

4

6

8

10

12

-14 26

=

-O 5385 ' ,

L:Yi - b L: Xi _ 17 - (-0,5385)·42 _ 17 + 22,617 N 5 5

=

39,617 = 7923. 5'

Po zaokrągleniu poszukiwane równanie prostej przybiera postać:

x

y

Rysunek 7.4.

Nawet przy takiej małej liczbie pomiarów widoczna jest tendencja do liniowej negatywnej między badanymi zmiennymi.

=

5·140 - 42 ·17 5·358 -1764

zależności

= 7,9 -

0,54x.

Narysujmy tę prostą na poprzednio sporządzonym wykresie punktowym (rys. 7.5).

Wzór ten wygląda skomplikowanie i choć zwykle liczy go za nas komputer, nawet za pomocą kalkulatora możemy sobie z tym zadaniem poradzić.

y 6 5

Wzór definicyjny na r jest

następujący:

• •

4 3 2

O+--~--~--.---~-~--~ 2 4 6 12 O 8 10

x Rysunek 7.5.

Wróćmy do naszego przykładu. Jeśli przypomnimy sobie wzór na współczyn­ nik b z analizy regresji i nasze wcześniejsze obliczenia, to zauważymy, iż prawie wszystkie wyrażenia potrzebne do obliczenia współczynnika korelacji r już mamy, z wyjątkiem kwadratu sumy wartości zmiennej zależnej i sumy kwadratów

tej zmiennej. Uzupełnijmy nasze

Wiemy już, jak znaleźć równanie regresji liniowej, jeśli przypuszczamy, że zwią­ zek między zmiennymi ma charakter liniowy. Nie wiemy jednak, jaką znaleziona zależność ma moc predykcyjną, czyli jak silny jest to związek - na ile zmiany zmiennej niezależnej wyjaśniają zmiany zmiennej zależnej. Miarą, która pomoże nam to określić jest współczynnik korelacji r Pearsona. ten pokazuje, na ile punkty obrazujące nasze pomiary odzwierciedlają układ liniowy. Jeśli przybiera on wartość O, oznacza to, że pomiary na wykresie są rozrzucone nieregularnie i nie tworzą żadnego wzorca lub też, że układają się w pewien charakterystyczny wzór ale nie jest to zależność liniowa, lecz jakaś inna.

('L Yi) 2 = (17)2 = 289, 'L YT = 16 + 16 + 12,25 + 9 + 6,25 = 59,5, wobec tego r w naszym przykładzie będzie mieć wartość:

Współczynnik

= O,

zmiennymi nie ma zależności liniowej. Jeśli wartość bezwzględna rwynosi 1, to oznacza idealną zależność liniową, a wyznaczona linia regresji liniowej pozwala nam na idealną przewidywalność. Im więc wartość bezwzględna r bliższa jedności, tym związek między zmiennymi jest bliższy idealnie liniowemu i tym większe nasze możliwości predykcyjne. Mówiąc o wartości współczynnika r odnosiliśmy się do jego wartości bezwzględnej, gdyż przybiera on wartości dodatnie dla zależności pozytywnej, a ujemne dla zależności negatywnej. Czas przywołać wzór, który pozwoli nam go obliczyć: Zatem, gdy r

między

obliczenia:

r

=

5 . 140 - 42 . 17

700 - 714

)(5.358 - 1764) (5·59,5 - 289)

)(1790 -1764)(297,5 - 289)

-----;c==========;==;:===~=====::c~

-14 ~

= -14 = -14 = -O 94.

J22I

14,87

'

Warto było się trudzić. Wielkość współczynnika korelacji wskazuje na bardzo silną negatywną zależność liniową między badanymi zmiennymi. Jeśli współczynnik korelacji r podniesiemy do kwadratu, to otrzymamy miarę, która powie nam, jaka część zmienności zmiennej zależnej może być wyjaśniona przez zmienną niezależną·

Przedstawimy tę ideę na rysunku 7.6.

Jeżeli obliczymy średnią arytmetyczną zmiennej zależnej, to będzie to dla danego zbioru danych pewna liczba, która na wykresie przedstawiona jest w postaci linii poziomej. Każdy poszczególny pomiar będzie się odchylał od średniej o odległość, jaka dzieli go od tej linii.

1' i

1i li

llll \

,

y

Współczynnik korelacji T Pearsona jest statystyką obliczoną na podstawie danych z próby i tak jak inne statystyki (np. średnia) może być poddany testom statystycznej istotności. Chcemy bowiem wiedzieć, czy korelacja między badanymi zmiennymi zachodzi również na poziomie populacji. Parametr, którego oszacowaniem jest współczynnik korelacji T, określany jest jako p (ro). x

Rysunek 7.6.

Odległość ta składa się z dwóch części: 11

III

z części pomiędzy linią wyznaczoną przez średnią i linią regresji i tę część zmienności wyjaśnia analiza regresji a obrazuje T 2 ;

Odpowiednie dla takiego testu hipotezy

Ho: p = 0,

Jeżeli p byłoby równe zero, znaczy to, że między zmiennymi nie ma zależności liniowej. Procedurę testowania możemy przeprowadzić w oparciu o statystykę testu t o n - 2 stopniach swobody. Statystykę tę liczymy ze wzoru:

z części pomiędzy linią regresji a danym konkretnym pomiarem i ta część zmienności nie jest wyjaśniona przez analizę regresji; miarą, która określa tę niewyjaśnioną część jest współczynnik alienacji, 1 - T 2 .

Spójrzmy na wzajemne relacje wymienionych współczynników: T

1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0

T

2

1,0 0,81 0,64 0,49 0,36 0,25 0,16 0,09 0,04 0,01 0,0

Widzimy zatem, że już poniżej wartości 0,7 współczynnika korelacji, większa część zróżnicowania zmiennej zależnej pozostaje niewyjaśniona przez analizę regresji, co wyklucza dokładne prognozowanie. Niestety w naukach społecznych takie sytuacje występują najczęściej. Nie zawsze związek między zmiennymi mierzonymi na poziomach silny(;h ma charakter związku liniowego. W takim przypadku miarą jego siły jest stosunek korelacyjny eta, ten który stosujemy jako uzupełnienie analizy wariancji.

przyjmą postać:

t =

Tvn- 2 . Vf=r2

Wróćmy

do naszego przykładu obrazującego związek religijności ze nym liberalizmem. Dla zaprezentowanej wcześniej próby był to silny odwrotnie proporcjonalny. Statystyka testu

istotności dla

t =

tego

społecz­ związek

przykładu wynosi:

-0,94y!5=2 = -4,772.

VI - (-0,94)2

W tablicach rozkładu Studenta dla testu dwustronnego o poziomie istotności 0,05 i dla df = 3 stopni swobody znajdujemy wartość wyznaczającą obszar krytyczny. Jest to 3,182. Zatem I - 4,7721 > 13,1821, więc hipotezę o braku związku liniowego między religijnością a społecznym liberalizmem w populacji musimy odrzucić. IIIlIIIIlIiI

Badanie związku między zmiennymi oraz jego siły i istotności jest podstawowym przedmiotem analizy statystycznej. Zaprezentowane w tym i poprzednim rozdziale metody pozwalające na takie badanie stanowią podstawy warsztatu socjologa w tym zakresie. Stosując je, trzeba zawsze pamiętać o warunkach i ograniczeniach, jakie ze sobą niosą. Ich dobra znajomość i zrozumienie dają przepustkę do świata bardziej zaawansowanych i wysublimowanych metod analizy, gdzie bogactwu życia społecznego odpowiada zróżnicowane podejście analityczne.

Ćwiczenia

Co

Ćwiczenie 7.1.

Test

Przeprowadź test chi-kwadrat dla następującego zestawu danych. Jeśli związek pomiędzy zmiennymi jest statystycznie istotny, to jaka jest jego siła?

waliśmy,

Studenci UMK według uzyskiwanej średniej i wydziału Średnia

Wydział

Biologii i nauk o ziemi Chemii Fizyki i astronomii Humanistyczny Matematyki i informatyki Nauk ekonomicznych i zarządzania Nauk historycznych Prawa i administracji Sztuk pięknych Suma

Suma

Wysoka

Średnia

Niska

11

20 15 8 28 15 34 31 19 12

9 10 7 17

10 5 25 14 16 19 15 5 120

182

11

20 10 16 8 108

40 35 20 70 40 70 60 50 25

może zrobić

za nas komputer

niezależnościchi-kwadrat

Jedną

ze zmiennych naszego zbioru danych, którą już uprzednio wykorzystyjest liczba osób w rodzinie. Przypuszczamy, że będzie ona różna ze względu na to, gdzie te rodziny zamieszkują. Ze zmiennej mającej kilka kategorii utworzyliśmy zmienną miejsce zamieszkania respondenta (wieś/miasto). Teraz przeprowadzimy test chi-kwadrat dla zmiennych miejsce zamieszkania respondenta i liczba osób w gospodarstwie domowym. Tabela krzyżowa: LICZBA OSÓB W GOSPODARSTWIE DOMOWYM * MIEJSCE ZAMIESZKANIA RESPONDENTA Liczebność

MIEJSCE ZAMIESZKANIA RESPONDENTA wieś

LICZBA OSÓB W GOSPODARSTWIE DOMOWYM

410

Ćwiczenie 7.2. Zbadano roczne dochody głowy rodziny i wysokość kieszonkowego, jakie otrzymują ich dzieci tygodniowo. Zbadaj, czy dla poniższych czterech pomiarów jest to zależność liniowa i na ile? Jeśli zależność liniowa występuje, to czy jest ona statystycznie istotna?

120

238

358

DWIE OSOBY

154

356

510

TRZY OSOBY

138

319

457

CZTERY OSOBY'

136

271

407

PIĘĆ OSÓB

135

132

267

SZEŚĆ OSÓB

100

56

156

SIEDEM OSÓB

56

20

76

OSIEM OSÓB

15

4

19

DZIEWIĘĆ OSÓB

17

2

19

DZIESIĘĆ OSÓB

6

2

8

JEDENAŚCIE OSÓB

4

4

DWANAŚCIE OSÓB Ogółem

881

1

1

1401

2282

Rysunek 7.7.

Pomiar

Dochody roczne w tys. zł

Kieszonkowe

1 2

80 70 52 45

160 95 97 85

3

4

Testy Chi-kwadrat Istotność

Wartość

asymptotyczna (dwustronna)

dl

180,980 8

11

181,392

11

,000

Test związku liniowego

127,473

1

,000

N Ważnych obserwacji

2282

Chi-kwadrat Pearsona Iloraz

Ogółem

miasto

JEDNA (RESP)

wiarygodności

a. 25,0% komórek (6) ma liczebność oczekiwaną mniejszą niż 5. Minimalna liczebność oczekiwana wynosi ,39.

Rysunek 7.8.

,000

Miary symetryczne

Program pod testem chi-kwadrat zapisał nam komunikat, że mamy za dużo pól o zbyt małej liczebności teoretycznej (rys. 7.7, 7.8). Aby tego uniknąć, połączy­ my mało liczne kategorie zmiennej liczba osób w gospodarstwie domowym od 7 osób do 12 osób w jedną kategorię. Jeszcze raz przeprowadźmytest chi-kwadrat.

Istotność

Wartość

Nominalna przez Nominalna

Phi

,278

,000

V Kramera

,278

,000

,268

,000

Współczynnik

kontyngencji

Tabela krzyżowa: LICZBA OSÓB W GOSPODARSTWIE DOMOWYM' MIEJSCE ZAMIESZKANIA RESPONDENTA

przyblIżona

2282

N Ważnych obserwacji

Rysunek 7.11.

Liczebność

MIEJSCE ZAMIESZKANIA RESPONDENTA miasto

wieś

LICZBA OSÓB W GOSPODARSTWIE DOMOWYM

Ogółem

120

238

2 osoby

154

356

510

3 osoby

138

319

457

4 osoby

136

271

407

5 osób

135

132

267

6 osób

100

56

156

98

29

127

881

1401

2282

7 i więcej osób Ogółem

Analiza regresji

358

1 osoba

Rysunek 7.9.

W PGSS nie ma zbyt wiele takich danych, na których z powodzeniem dałoby się zaprezentować analizę regresji liniowej. Jeżeli założymy, że poziom wykształcenia respondenta powinien mieć wpływ na poziom osiąganych przez niego dochodów, to możemy spróbować zbadać, na ile jest to zależność liniowa. W tym przypadku poziom wykształcenia będziemy mierzyć w liczbie lat edukacji niezbędnej do osiągnięcia poszczególnych jego poziomów (będziemy więc "naciągać" założenie o ciągłości takiej zmiennej). Spójrzmy najpierw na wykres dla obu zmiennych (rys. 7.12).

Testy Chi-kwadrat Istotność Wartość

Chi-kwadrat Pearsona Poprawka na

N

,000

1800

fi;;. J!J c

1600

Q)

"O

1400

c o. 1200 . u ~

o. N

niż

5.

1000 800

>.

"O

o

.