25 0 7MB
ACADEMIA DE STUDII ECONOMICE DIN BUCUREŞTI FACULTATEA DE CIBERNETICĂ, STATISTICĂ ŞI INFORMATICĂ ECONOMICĂ
ILEANA GABRIELA NICULESCU-ARON
SONDAJE ŞI ANCHETE Suport de curs pentru învăţământul la distanţă
BUCUREŞTI 2011 1
Copyright © 2011, Ileana Gabriela Niculescu-Aron Toate drepturile asupra acestei ediţii sunt rezervate autorului
Editura ASE Piaţa Romană nr. 6, sector 1, Bucureşti, România cod 010374
www.ase.ro www.editura.ase.ro [email protected]
Referenţi: Prof. univ. dr. Constantin MITRUŢ Prof. univ. dr. Emilia ŢIŢAN
ISBN 978-606-505-457-8
2
CUPRINSUL CURSULUI
INTRODUCERE Unitatea de învăţare 1. NOŢIUNI DE BAZĂ ÎN TEORIA SONDAJELOR 1.1 Obiectivele unităţii de învăţare 1.2 Metode de observare utilizate în domeniul economico-social 1.3 Rolul Sondajului statistic în sistemul informaţional statistic 1.4 Definirea conceptelor de bază utilizate în sondajele statistice. 1.5 Procedee de eşantionare utilizate
5 6 6 6 7 8 9
Unitatea de învăţare 2. ORGANIZAREA SONDAJELOR STATISTICE 2.1 Obiectivele unităţii de învăţare 2.2 Etape preliminare în organizarea unui sondaj 2.3 Elaborarea chestionarului 2.4 Ancheta pilot 2.5 Extragerea eşantionului 2.6 Culegerea şi verificarea datelor
14 14 14 18 26 26 28
Unitatea de învăţare 3. ASPECTE PRACTICE ÎN REALIZAREA UNUI SONDAJ STATISTIC 3.1. Obiectivele unităţii de învăţare 3.2. Problematica non-răspunsurilor 3.3. Tipuri de erori întâlnite în cercetarea selectivă 3.4. Verificarea reprezentativităţii eşationului 3.5. Aplicaţii
29 29 29 34 38 39
Unitatea de învăţare 4 PLANURI DE SONDAJ SIMPLE 4.1. Obiectivele unităţii de învăţare 4.2. Sondajul simplu aleator 4.2.1. Sondajul simplu aleator cu probabilităţi egale 4.2.2. Sondajul de volum redus 4.3. Sondajul stratificat 4.4. Sondajul de serii 4.5. Aplicaţii
47 47 47 48 54 55 61 69
3
Unitatea de învăţare 5 PLANURI DE SONDAJ COMPLEXE 5.1. Obiectivele unităţii 5.2. Sondajul multistadial 5.3. Sondajul multifazic 5.4. Sondajul pe bază de eşantioane fixe 5.5. Aplicaţii
87 87 87 90 91 95
Unitatea de învăţare 6 SONDAJE NEPROBABILISTICE 6.1. Obiectivele unităţii de învăţare 6.2. Tipuri de sondaje neprobabilistice 6.3. Sondajul pe cote
101 101 101 102
BIBLIOGRAFIE
107
4
INTRODUCERE
Cursul de SONDAJE ŞI ANCHETE se adresează studenţilor înscrişi la programul de studiu ID, organizat de facultatea Cibernetică, Statistică şi Informatică Economică şi face parte din planul de învăţământ aferent anului III, semestrul 1.
Obiectivele principale ale acestui curs, concretizate în competenţele dobândite după parcurgerea şi asimilarea lui: Însuşirea tehnicilor de proiectare a anchetelor şi sondajelor statistice; Codificarea, culegerea şi verificarea completitudinii datelor; Însuşirea tehnicilor de proiectare a sondajelor complexe; Prelucrarea şi analiza datelor obţinute cu ajutorul metodelor statistice superioare.
Cursul SONDAJE SI ANCHETE este structurat pe şase unităţi de învăţare (capitole). Pentru ca procesul de instruire să se desfăşoare într-un mod riguros, dar şi atractiv, se vor putea utiliza un set de resurse suplimentare indicate pe parcursul cursului.
Evaluarea cunoştinţelor se va realiza sub două forme: • evaluare continuă, pe baza a două proiecte realizate în conformitate cu modelele prezentate în resursele de pe platformă; • evaluare finală, realizată prin examenul susţinut în perioada de sesiune.
Criteriile de evaluare constau în: 1. Punctajul obţinut la cele două proiecte menţionate; 2. Gradul de implicare în discuţiile tematice organizate prin opţiunea “Forum” a platformei electronice; 3. Punctajul obţinut la examenul susţinut in sesiune.
Ponderile asociate fiecărui criteriu precizat sunt următoarele: criteriul 1 (C1) Proiect 1: 1 punct Proiect 2: 2 puncte. criteriul 2 (C2) 1 punct pentru grad de implicare de 100%; criteriul 3 (C3) 6 puncte pentru examenul susţinut în sesiune.
5
Unitatea de învăţare 1 NOŢIUNI DE BAZĂ ÎN TEORIA SONDAJELOR
Ce cuprinde această unitate de învăţare? 1.1 Obiectivele unităţii de învăţare 1.2 Metode de observare utilizate în domeniul economico-social 1.3 Avantajele cercetării selective 1.4 Definirea conceptelor de bază utilizate în sondajele statistice 1.5 Procedee de eşantionare utilizate
1.1. Obiectivele unităţii de învăţare
După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre:
Importanta sondajului statistic in obținerea informaţiilor în timp real Conceptele de bază utilizate în cercetarea selectivă Procedeele ce stau la baza formarii eşantioanelor
1.2. Metode de observare utilizate în domeniul economico-social Pentru satisfacerea nevoii de informaţii în vederea analizării fenomenelor şi proceselor din sfera socială este necesar să se organizeze cercetări statistice. Cercetarea statistică se realizează prin prelucrarea datelor preluate din alte forme de evidenţiere a fenomenelor sociale sau prin prelucrarea datelor obţinute prin observări statistice special organizate. Observarea statistică se ocupă de înregistrarea datelor individuale de masă, ceea ce presupune soluţionarea unor probleme metodologice şi organizatorice complexe.
6
Principalele metode de culegere a datelor •
•
• •
•
•
Recensământul • cea mai veche forma de observare statistică • se culeg datele de la toate unităţile colectivităţii • cheltuieli mari caracter periodic • rezolvarea unor probleme delicate prin complexitatea lor: • scopul observării • scopul culegerii datelor • timpul la care se referă datele • sfera de cuprindere • elaborarea de definiţii, clasificări şi nomenclatoare etc. Rapoarte statistice • observări totale, permanente • datele statistice referitoare la diferitele fenomene şi procese sociale se culeg pe cale administrativă Sondaje statistice • observări parţiale Ancheta statistică • nu presupune reprezentativitatea eşantionului • se realizează pe baza chestionarului completat direct sau prin poştă Observarea părţii principale (masivul principal sau panelul) • culegere a datelor numai de la cele mai semnificative (masivul principal) unităţi ale colectivităţii • Panelul eşantion cu caracter stabil • cercetarea se face longitudinal Monografia • metodă de observare aprofundată a fenomenelor şi proceselor sociale
1.3 Avantajele cercetării selective „Cele mai evidente avantaje ale cercetării prin sondaj faţă de observarea tuturor elementelor populaţiei apar în două cazuri: când observarea implică distrugerea elementelor observate (de exemplu controlul calităţii produselor) şi când cercetarea totală implică cheltuieli foarte mari.”1 Alte avantaje: • •
•
1
operativitate, economii de resurse (financiare şi umane), calitate superioarş a rezultatelor pentru populaţii totale foarte mari erori de înregistrare mai mici şi mai uşor de înlăturat pentru o populaţie cercetată mai mică decât cea totală şi folosind personal specializat calitate şi fiabilitate a rezultatelor net superioară celor obţinute printr-o cercetare exhaustivă caracterizarea mai aprofundată a fenomenelor studiate datorită posibilităţii de a include un număr mai mare de caracteristici decât în programul observării totale
Porojan D., 1993, Statistica şi Teoria Sondajului, Ed. Şansa SRL Bucureşti p. 184.
7
Sondajul statistic poate fi folosit şi la verificarea datelor culese printr-o observare totală de mare amploare precum şi la prelucrarea datelor dintr-o cercetare exhaustivă într-o primă fază selectiv şi mai târziu total. Sfera de cuprindere a informaţiilor statistice este foarte largă incluzând toate fenomenele cu caracter de masă. Totodată, informaţia statistică este utilizată de către organele de conducere la nivel micro şi macroeconomic în exercitarea funcţiilor de previzionare, execuţie şi control.
1.4. Definirea conceptelor de bază utilizate in sondajele statistice.
Realizarea unui sondaj statistic presupune parcurgea a două faze.
8
*
M(X) se mai notează şi cu
**
m(x) se mai notează şi cu
9
1.5. Procedee de eşantionare utilizate Pentru a se asigura reprezentativitatea eşantionului este necesar să se respecte următoarele principii:
În teoria şi practica sondajului pentru formarea eşantionului se folosesc mai multe procedee şi anume: eşantionare aleatoare, eşantionare dirijată şi eşantionare mixtă.
10
11
Toate aceste procedee de eşantioane se pot aplica direct populaţiei totale sau pe grupe ceea ce înseamnă că se pot obţine sondaje simple sau stratificate. La aplicarea procedeului de selecţie se pot folosi unităţi simple numerotate de la 1 la N sau unităţi complexe, denumite serii numerotate de la 1 la R. În cel de-al doilea caz vom avea un sondaj de serii.
12
13
14
Unitatea de învăţare 2 ORGANIZAREA SONDAJELOR STATISTICE
Ce cuprinde această unitate de învăţare? 2.1 Obiectivele unităţii de învăţare 2.2 Etape preliminare în organizarea unui sondaj 2.3 Elaborarea chestionarului 2.4 Ancheta pilot 2.5 Extragerea eşantionului 2.6 Culegerea şi verificarea datelor
2.1. Obiective
După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre:
Stabilirea obiectivelor unui sondaj pornind de la scopul urmarit de beneficiar
Alegerea variabilelor auxiliare necesare in stabilirea planului de sondaj Formularea intrebarilor pornind de la obiectivele propuse
2.2 Etape preliminare în organizarea unui sondaj Sondajele statistice se bazează pe concepte, metode şi procedee clar definite şi se aplică unei fracţiuni mai mari sau mai mici din populaţie. Calitatea rezultatelor depinde de formularea corectă a problemei, de selectarea unităţilor din eşantion, de precizia estimării parametrilor de interes. Efectuarea unui sondaj presupune un lanţ de lucrări complexe.
15
Prima sarcină este formularea obiectivelor sondajului. În general cei care comandă sondajul vin doar cu o formulare vagă a problemelor care îi interesează şi cu o imagine neclară asupra modului cum vor utiliza rezultatele obţinute. În dialogul beneficiar-statistician, sociologului îi revine rolul de a îi ajuta pe aceştia să stabilească obiectivele. Aceste probleme vor fi apoi analizate pentru a structura forma de prezentare a rezultatelor şi pentru a evalua resursele financiare şi umane necesare. Când vorbim despre populaţie avem în vedere înţelesul statistic al noţiunii care denotă mulţimea unităţilor simple sau complexe pe care le are în vedere cercetarea efectuată. Fiecare sondaj are problemele sale proprii legate de delimitarea populaţiei în timp şi în spaţiu.
Este foarte important să stabilim dacă populaţia cercetată este sau nu omogenă şi care este structura acesteia în vederea realizării unei eventuale stratificări. Tot aici este important să delimităm unităţile din care este constituită populaţia. Facem distincţie între: • •
Unitate de observare unitatea despre care se culege informaţia Unitatea de eşantionare unitatea de la care se culege informaţia
Baza de sondaj – orice sistematizare a unităţilor astfel încât să permită selectarea lor întâmplătoare în vederea formării eşantionului. Bazele de sondaj pot fi elaborate de către cel care organizează selecţia sau pot fi preluate din listele electorale, lista abonaţilor posturilor telefonice, lista adreselor poştale, registre ale populaţiei, registrul statistic al agenţilor economici, fişierul bilanţurilor contabile, baze de date, hărţi, etc.
16
Condiţiile pe care trebuie să le îndeplinească o bază de sondaj sunt: • • • •
să fie adecvată scopului urmărit şi să cuprindă întreaga populaţie care va fi supusă sondajului; să nu conţină înregistrări repetate; să fie exactă, evitându-se includerea unor unităţi care n-ar trebui să figureze din diferite motive; să fie cât mai actuală posibil. Chiar dacă în momentul întocmirii ei a fost completă şi exactă timpul a erodat-o.
În funcţie de resursele financiare şi umane disponibile, dar şi în funcţie de acurateţea dorită a rezultatelor, se trece la stabilirea metodei de colectare a informaţiei, care se poate realiza sub următoarele forme:
Variante utilizate în practică: 1. la domiciliul său, persoana intervievată completează chestionarul pe loc sau operatorul poate veni după un timp pentru a recupera chestionarul completat; 2. chestionarele se aplică simultan unui număr mai mare de indivizi cuprinşi într-o sală; 17
3. chestionarele sunt trimise prin poştă, fax; 4. chestionarul este publicat în ziare sau reviste 5. chestionarele sunt completate prin intermediul internetului (interviul online). • inovaţie bine-venită în lumea sondajelor • număr mare de respondenţi posibili şi arie largă de acoperire într-un timp foarte scurt • chestionarele online pot fi dinamice şi contingente, cu salturi şi ramificaţii în funcţie de răspunsurile primite • pot oferi respondenţilor materiale vizuale • nu este încă foarte clar dacă în cazul sondajelor online calitatea informaţiilor este mai bună sau nu decât în alte cazuri • se aseamănă cu sondajele administrate neasistat prin faptul că ne putem aştepta la niveluri crescute de non-răspunsuri – nu este prezent nici un intervievator care să îi îndemne pe respondenţi să răspundă. Dar există de asemenea dovezi cum că respondenţii iau chestionarul mai în serios şi consumă mai multă energie cognitivă pentru sondajele online decât pentru cele prin telefon. • Problema principală: cum să reuşeşti să ai un sondaj la care a răspuns eşantionul dorit; Sumarul considerentelor mai importante în alegerea metodei de culegere a datelor este prezentat în Tabelul urmator. Costul este aproape întotdeauna o problemă critică şi poate cântări mai mult decât alte considerente, dar nici celelelte criterii prezentate nu trebuie neglijate. Criterii
Interviu direct
Metoda de culegere Interviu prin Interviu prin poştă telefon
Cost
Foarte mare
Scăzut până la moderat
Accesul la populaţia ţintă
Foarte mare
Mare
Durata colectării datelor Infrastructura şi personalul necesar pentru administrare Nivelul de complexitate al chestionarului Lungimea maximă a chestionarului
Moderată Foarte mare
Mare Scăzut până la moderat
Ridicat
Rata de răspuns
Moderat până la ridicat
Interviu online Scăzut până la moderat
Moderat (există gospodării fară telefon) Rapid
Moderată
Moderat
Scăzut
Moderat
Scăzut
Moderat
Lung
Moderat
Moderat
Moderat
Moderată
Scăzută
Scăzută
Foarte scăzută
Capacitatea cognitivă necesară a respondentului
Scăzută
Ridicată
Moderată
Ridicată
Folosirea funcţiilor multimedia
Nu
Parţial (grafice statice)
Nu
Da
Numărul de non-răspunsuri păarţiale
Scăzut
Moderat
Scăzut
Control asupra ordinii întrebărilor la care se răspunde
Ridicat
Scăzut
Ridicat
Abilitatea de a controla cine răspunde
Ridicată
Scăzută
Ridicată
18
Moderat
Moderat ridicat Ridicat prin utilizarea funcţiilor Scăzută
2.3. Elaborarea chestionarului După stabilirea caracteristicilor cantitative şi calitative în concordanţă cu obiectivele sondajului se întocmeşte chestionarul. Acesta este o etapă crucială în realizarea sondajului. Un chestionar prost conceput este cauza eşecului întregului studiu. „Chestionarul este un fel de plasă ce colectează informaţiile căutate şi permite ca informaţiile fără valoare să fie filtrate”.2
„Elaborarea chestionarului necesită cunoştinţe multidisciplinare, în sensul că necesită îmbinarea de informaţii din mai multe discipline ştiinţifice (economie, statistică, matematică, sociologie, psihologie, informatică).”3 Construirea unui chestionar este privită în mod corect ca o artă imperfectă. Nu există proceduri prestabilite care vor duce neapărat la un chestionar „bun”. Una dintre consecinţe este că ar putea apărea erori cauzate de ambiguitatea întrebărilor de 20 sau chiar 30 de puncte procentuale. Din fericire, astfel de erori extreme pot fi reduse considerabil prin bunul simţ şi experienţele altor cercetători.
2.3.1. Principii în elaborarea chestionarului Un chestionar bun este acela care îndeplineşte obiectivele cercetării (în figura 2.3.1 este prezentată schema elaborării unui astfel de instrument). Sondajele trebuie construite după specificul scopurilor cercetării şi reprezintă mult mai mult decât o colecţie de întrebări neambigue. Există foarte multe constrângeri asupra numărului, ordinii şi formei întrebărilor în funcţie de metoda de culegere a informaţiilor. Dorinţa şi abilitatea respondenţilor de a răspunde, cât şi formularea şi ordinea întrebărilor, influenţează formatul final al chestionarului.
2 3
Isaic Maniu Al., 2001, Tecnica sondajelor şi anchetelor, Ed. Independenţa Economică Piteşti, p. 193. Isaic Maniu Al., op.cit. pg. 194
19
Figura 2.3.1. Schema elaborării unui chestionar Paşi logici de urmat pentru a realiza un chestionar bun • • • • •
Planificarea a ceea ce se doreşte a fi măsurat Formularea întrebărilor astfel încât să faciliteze obţinerea informaţiilor Hotărârea asupra ordinii şi formulării întrebărilor şi a aranjării în pagină a chestionarului Testarea chestionarului, utilizând un eşantion de volum mic, pentru a evita omisiunile şi ambiguitatea Corectarea problemelor (şi o nouă pretestare, dacă este necesară) Principii generale pentru întocmirea chestionarului
•
•
•
Lungimea chestionarului - trebuie evitată tendinţa măririi numărului de întrebări. Dacă chestionarul este prea lung constituie o sursă de oboseală si plictiseală atât pentru operator cât şi pentru respondent. Acest lucru va determina creşterea proporţiei nonrăspunsurilor ce vor afecta reprezentativitatea eşantionului. Pe de altă parte, un chestionar prea scurt va lăsa unele aspecte nelămurite în legătură cu obiectivele propuse. Evitarea acelor întrebări la care respondenţii să nu fie în măsură să dea răspunsuri utilizabile orice chestionar presupune existenţa unui dialog. Se impune deci redactarea întrebărilor intr-un limbaj adecvat populaţiei căreia ne adresăm. Succesiunea întrebărilor ordinea întrebărilor în chestionar poate influenţa răspunsurile celor chestionaţi. În stabilirea ordinii întrebărilor trebuie respectate următoarele reguli (vezi figura 2.3.2):
•
succesiunea logică a întrebărilor ce decurge din problematica abordată (organizarea chestionarelor pe module) astfel încât să se poată răspunde cu uşurinţă;
•
răspunsurile la o întrebare să nu fie influenţate de desfăşurarea anterioară a interviului.
•
Întrebările de început trebuie să crească interesul respondentului de a participa la procesul intervievării stârnind curiozitatea astfel încât să justifice timpul şi efortul necesar participării la interviu.
•
Natura exactă a întrebărilor de început depinde de metoda de intervievare
•
Interviul faţă în faţă sau prin telefon - scop: realizarea legăturii operator respondent. Tonul trebuie să fie prietenos şi să prezinte interes şi curiozitate din partea operatorului (similar conversaţiei dintre două persoane care abia sau cunoscut).
20
•
Cererea de informaţii demografice şi economice la începutul unui chestionar poate sugera imaginea unui document oficial iar respondentul să nu fie motivat în a începe să îl completeze.
•
Restul chestionarului se orientează spre sarcinile corespunzătoare studiului. Întrebările de la mijloc sunt concentrate pe informaţiile necesare în conformitate cu obiectivele fixate. Aici se pot plasa şi întrebările de atitudine, preferinţe şi opinii.
•
Întrebările delicate ar trebui plasate la mijlocul sau la sfârşitul chestionarului, după ce s-a stabilit relaţia şi interesul. Nivelul de sociabilitate poate minimiza jena şi rezistenţa la răspuns
Figura 2.3.2. Succesiunea întrebărilor într-un chestionar
Un chestionar bine întocmit reprezintă cheia succesului unui sondaj. Dacă chestionarul prezintă deficienţe, informaţiile obţinute pot fi incomplete, făcând imposibilă o analiză complexă. Nicio corectare posterioară nu poate remedia o astfel de situaţie. 21
2.3.2. Tipuri de întrebări utilizate
La aceste întrebări respondentul este rugat să aleagă o variantă sau mai multe dintr-o listă, să realizeze o ierarhie sau să dea o valoare în catul variabilelor numerice
Avantaje • • •
gama variată de răspunsuri ce poate fi obţinută lipsa influenţei asupra întrebărilor din cadrul categoriilor prespecificate respondenţii consideră asta adesea drept libertate, după cum se poate vedea din frecvenţa surprinzătoare cu care oamenii notează comentarii pe marginea sondajelor prin poştă atunci când consideră că sentimentele lor nu sunt descrise corect de categoriile de răspuns.
Dezavantaje •
•
variabilitatea în ceea ce priveşte claritatea şi profunzimea răspunsurilor depinde într-o mare măsură de: • fluenţa respondentului într-o anumită situaţie a interviului • dorinţa de a compune un răspuns scris într-un sondaj prin poştă abilitatea personală sau telefonică a intervievatorului de a înregistra verbatime repede – sau de a sumariza rapid
22
Tipul întrebării Închise
-
Deschise
-
Avantaje
Dezavantaje
uşurinţa completării chestionarului precizarea conţinutului întrebării necesită timp scurt pentru răspuns uniformitatea înţelegerii întrebărilor şi a înregistrării răspunsurilor uşurinţa codificării şi evitarea erorilor în realizarea acesteia uşurează munca operatorilor rapiditatea şi uşurinţa prelucrării permite compararea grupurilor facilitează efectuarea testelor de semnificaţie spontaneitatea răspunsurilor indică fidel nivelul cunoştinţelor subiectului asupra problemei investigate indică elementele cărora subiectul le acordă cea mai mare importanţă evită consecinţele efectelor de format specifice întrebărilor închise (prin limitarea şi ordonarea răspunsurilor)
- pierderea spontaneităţii răspunsurilor - limitează câmpul opţiunilor celor intervievaţi - induce o ordine de preferinţă prin ordinea înscrierii variantelor în chestionar - sporeşte artificial frecvenţa răspunsurilor nu ştiu/nu răspund
23
- lungeşte timpul de completare a chestionarului - cer un efort suplimentar respondentului - rata de non-răspuns este mai mare decât la întrebările închise - sunt foarte dificil de codificat şi analizat;nu oferă nici o informaţie respondenţilor despre tipul de răspuns aşteptat de la ei
Întrebări factologice vizează situaţii ce caracterizează subiecţii • furnizează informaţii ce ar putea fi obţinute şi prin metoda observaţiei dacă aceasta nar presupune eforturi prea mari • în cazul întrebărilor factologice de clasificare sau identificare, informaţiile permit identificarea caracteristicilor diferitelor grupuri de respondenti. • lăsate de obicei la sfârşitul chestionarului • excepţie: sondajul pe cote (întrebările factologice ce formează criteriile de cotă vor fi puse la începutul chestionarului pentru a vedea dacă persoana corespunde sau nu criteriilor de formare a eşantionului) • întrebări de opinie sau atitudine vizează aspecte ce ţin de universul interior al individului (părerile, aşteptările, evaluările, ataşamentul faţă de valori, explicaţiile fenomenelor din jur, comportament etc.) • întrebările de cunoştinţe au un specific foarte clar şi au ca scop caracterizarea nivelului de cunoştinţe al subiectului • pot fi utilizate şi ca întrebări de control, validând sinceritatea si capabilitatea subiectului • întrebări filtru permit bifurcarea succesiunii întrebărilor în chestionar printr-un salt către o altă zonă de continuitate în interviu.
2.3.3. Tipuri de scale utilizate si caracteristicile acestora Scala
Variabila
nominală
calitativă
ordinală
calitativă
cardinală
calitativă
proporţională
cantitativă
Proprietăţi Echivalenţa între treptele scalei Ierarhizare între treptele scalei Măsoară diferenţele dintre treptele scalei Punctul zero natural 24
Operaţii permise Frecvenţe absolute şi relative, modul, coeficient de asociere, testul 2 În plus: cuartile, coeficienţii de corelaţie a rangurilor În plus: medii de calcul, dispersii, corelaţia parametrică, regresia, testele parametrice Toate operaţiile
• Scala binară cea mai simplă modalitate Respondentul este solicitat să aleagă între două poziţii diametral opuse: da sau nu; acord sau dezacord; adevărat sau fals. • Diferenţiala semantică scală cu alegere multiplă cu 5 sau 7 trepte Respondentul trebuie să plaseze răspunsul într-una din boxele dintre două atribute bipolare extreme. • Scala lui Likert tot o scala cu alegere multiplă cu 5 trepte Respondentul este rugat sa-si plaseze atitudinea faţă de un subiect între acord total, acord, indiferent, dezacord şi dezacord total. O problemă controversată cu privire la diferenţiala semantică şi scala lui Likert este dacă să includem sau nu alternativele de mijloc în chestionare. Experienţa a dovedit că există o tendinţă de cumulare a răspunsurilor către centrul scalei (de exemplu nici acord nici dezacord) ceea ce din punct de din punct de vedere analizei reprezintă lipsă de informaţie. • Scala tip rating Respondentul trebuie să răspundă la o întrebare dând note de la 0 la 10 (sau 100) .
25
2.4. Ancheta pilot În comparaţie cu multe alte tipuri de cercetare, cercetarea prin sondaj beneficiază de testarea în lumea reală a chestionarelor şi a tehnicilor de administrare a sondajului. Ancheta pilot este o repetiţie generală a sondajului propriu-zis absolut necesară în special în anchetele mari. „Volumul şi schema anchetei pilot reprezintă o problemă dependentă de timp, mijloace financiare şi mai ales de aspectele ce se cer rezolvate.” 4 Informaţii ce pot fi furnizate de ancheta pilot: • • •
•
•
4
Cheltuielile şi durata probabilă a anchetei. Proporţia anticipată de non-răspunsuri Numărul posibil de refuzuri sau de necontactări poate fi estimat şi se poate compara eficacitatea diferitelor căi de reducere a acestora se poate opta pentru o anumită metodă de culegere a datelor, se pot exclude unele întrebări sau se poate modifica ordinea lor. Gradul de variabilitate al populaţiei şi structura acesteia În cazul în care nu se cunosc suficiente informaţii necesare caracterizării populaţiei analizate în vederea stabilirii planului de sondaj ce se poate aplica şi calculării volumului eşantionului. Pretestarea chestionarului cel mai important rol al anchetei pilot. După ce a fost elaborat, chestionarul trebuie aplicat unui eşantion de volum redus selectat aleator, de persoane din populaţia supusă cercetării. Astfel se pot detecta deficienţe ale chestionarului ce nu au fost observate, pot fi identificate probleme în zona introductivă, în alegerea tipurilor de întrebări, în formularea şi succesiunea întrebărilor. Se au în vedere următoarele probleme: • simplitatea mânuirii chestionarului pe teren • eficacitatea punerii în pagină • claritatea întrebărilor (un număr prea mare de răspunsuri nu ştiu impune reformularea întrebării respective) • accesibilitatea limbajului şi claritatea exprimării
Isaic Maniu Al.,2001, Tehnica sondajelor şi anchetelor, Ed. Independenţa Economică Piteşti, p. 181.
26
•
•
•
sensibilitatea chestionarului, mai ales la întrebările ce testează atitudini. Este posibil ca după analiza răspunsurilor la întrebările deschise să se recurgă la închiderea acestora. analiza chestionarelor completate de probă poate arăta dacă operatorii au înţeles corect instrucţiunile verificând eficacitatea lor lor şi a îndrumării operatorilor. pretestarea este un pas important în procesul de design al chestionarului. Ea nu trebuie ignorată.
2.5. Extragerea eşantionului În această etapă se stabileşte planul de sondaj, procedeul de extracţie, mărimea eşantionului, estimatorii şi precizia lor teoretică. La organizarea unei cercetări prin sondaj una din problemele principale de rezolvat este dimensionarea raţională a eşantionului. Pentru a stabili această mărime este necesar un studiu amănunţit al populaţiei supuse cercetării. „Nu trebuie însă exagerată însemnătatea stabilirii unei anumite mărimi a eşantionului şi nici nu trebuie să se creadă că dacă o stabilim cu precizia necesară, reuşita sondajului este asigurată.5” Pentru a putea calcula volumul eşantionului trebuie să cunoaştem, chiar cu o aproximaţie, dispersia populaţiei sau o estimaţie a acesteia. În practică întâlnim următoarele situaţii: • • •
Se preiau informaţii despre gradul de variaţie din cercetări anterioare (considerând că variabilitatea caracteristicii nu s-a modificat semnificativ); Se organizează o cercetare prealabilă pentru estimarea dispersiei, a legii de repartiţie; se introduce în relaţia de calcul valoarea maxim posibilă a dispersiei. Determinarea ei se face în două situaţii:
(xmin x )2 (xmax x )2 2 2 o cazul caracteristicilor calitative (se consideră p=0,5): σ max =p(1-p)=0,25
2 o cazul caracteristicilor cantitative: σ max
În cazul în care avem mai multe variabile auxiliare, o vom alege pe aceea al cărei coeficient de variaţie este maxim. Astfel vom avea estimaţii cu precizie şi siguranţă în limita admisă pentru toate celelalte caracteristici. Mărimea eşantionului este determinată de: •
•
5
Modul în care urmează să fie analizate rezultatele. Dacă se are în vedere analiza pe subgrupe se va calcula volumul eşantionului astfel încât să se obţină precizia dorită pe fiecare subgrupă. Restricţii de ordin financiar pornind de la costurile admisibile. Resursele financiare sunt totdeauna limitate şi de multe ori mărimea necesară a eşantioanelor nu poate fi realizată. Recurgem la ingeniozitatea şi discernământul în alegerea acelor subiectecare pot fi abordate cu resursele disponibile.
Porojan D., 1993, Statistica şi Teoria Sondajului, Ed. Şansa SRL Bucureşti, p. 235.
27
Ca urmare a problemelor ce apar pe teren, în încercarea diminuării efectelor acestora, după calcularea volumului eşantionului teoretic, trebuie să determinăm care este volumul eşantionului de pornire astfel încât în final să ajungem la numărul teoretic de unităţi selectate. Situaţii posibile: • Imperfecţiunea listei utilizate ca bază de sondaj determină existenţa unor unităţi non-valide (unităţi care n-ar trebui să figureze pe listă dacă aceasta ar corespunde perfect populaţiei studiate). Trebuie estimată această proporţie astfel încât să putem determina cât mai precis volumul de pornire al eşantionului. • Existenţa unităţilor non-eligibile (de exemplu dacă populaţia de interes este formată din populaţia în vârstă de muncă iar unitatea de selecţie este gospodăria, persoanele ce nu îndeplinesc condiţia de vârstă sunt considerate non-eligibile). • Existenţa non-răspunsurilor este o problemă întâlnită în orice sondaj. Anticipând rata non-răspunsurilor încă din faza de proiectare a sondajului putem redimensionarea eşantionului. Eşantionul de pornire se calculează pe baza relaţiei: n p n th 1 1 1 Pr
Pe
Pv
np= volumul eşantionului de pornire nth= volumul eşantionului teoretic Pr=proporţia de răspuns Pe=proporţia de eligibilitate Pv=proporţia de validitate n p nth
1 1 1 Pr Pe Pv
2.6. Culegerea şi verificarea datelor Odată cu recuperarea chestionarelor se trece la pregătirea acestora în vederea prelucrării statistice a datelor. Verificarea chestionarelor este o operaţie obligatorie deoarece, oricât de buni ar fi operatorii, greşelile sunt inerente muncii omeneşti. Această verificare constă în urmărirea în principal a trei aspecte: completitudinea, exactitatea şi uniformitatea. Exactitatea şi uniformitatea datelor Principala modalitate de verificare a exactităţii: parcurgerea chestionarului în ansamblul său încercând să se vadă dacă răspunsurile sunt coerente sau se contrazic. Este foarte important de ştiut dacă operatorii sau subiecţii au înţeles în acelaşi sens întrebările din chestionar. Dacă după parcurgerea unui număr de chestionare observăm astfel de deosebiri de interpretare, rezultate obţinute sunt inconsistente. Aceste probleme pot fi evitate printr-o atentă întocmire a chestionarului, validarea acestuia printr-o anchetă pilot şi o instruire riguroasă a operatorilor. 2. Completitudinea datelor Prin centralizărea datelor din chestionarele completate obţinem o bază de date. Golurile din această bază de date reprezintă nonrăspunsuri parţiale. Dacă lipsesc valorile unui individ pentru toate întrebările din chestionar suntem în situaţia unui nonrăspuns total. 28
Unitatea de învăţare 3 ASPECTE PRACTICE ÎN REALIZAREA UNUI SONDAJ STATISTIC
Ce cuprinde această unitate de învăţare? 3.1. Obiectivele unităţii de învăţare 3 3.2. Problematica non-răspunsurilor 3.3. Tipuri de erori întâlnite în cercetarea selectivă 3.4.Verificarea reprezentativităţii eşantionului 3.5. Aplicaţii
3.1. Obiectivele unităţii de învăţare
După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre:
Importanta sondajului statistic în obținerea informațiilor în timp real Conceptele de bază utilizate în cercetarea selectivă Procedeele ce stau la baza formării eșantioanelor
3.2. Problematica non-răspunsurilor În urma centralizării datelor pentru chestionarele completate se va obţine baza de date sub forma tabelului indivizi variabile reprezentat în figura 3.2.1. Informaţiile lipsă reprezintă non-răspunsurile parţiale respectiv non-răspunsurile totale. Nonrăspunsurile reprezintă o problemă de care nici un investigator al colectivităţilor umane nu poate scăpa. Dacă numărul de non-răspunsuri este mare rezultatele sondajului vor fi afectate de această situaţie.
29
Nr. Chest. 1 2 … i … npornire
1
2
Întrebarea … j …
p
Non-răspuns parțial
Non-răspuns total Figura 3.2.1. Tabloul indivizi-variabile
30
A.2.1. Imputaţia deductivă se referă la acele situaţii (rare în practică) în care se poate stabili valoarea corectă printr-o deducţie logică. Este vorba de o modalitate deterministă de a corecta datele incorecte sau nevalidate. În acest caz y’ij = yij. A.2.2. Imputaţia predictivă prin mediere globală se realizează înlocuind non-răspunsul de pe poziţia (i,j) cu media răspunsurilor care au fost obţinute la întrebarea j. În acest caz avem: r
y'ij y r, j yij r i 1
unde r este numărul răspunsurilor valide la întrebarea j. Avantajul acestei metode este că înlocuirea valorii lipsă se face cu o valoare probabilă ceea ce îi dă un oarecare grad de stabilitate. Dacă există mulţi respondenţi care nu au răspuns la întrebarea j vom folosi pentru toţi aceeaşi imputaţie. Dezavantaj: se produce o subevaluare severă a dispersiei estimatorului pentru media sau totalul caracteristicii yj. În cazul în care caracteristica este reprezentată pe o scală de intervale sau proporţională calcularea mediei aritmetice se va înlocui cu o medie de poziţie (mediana în cazul unei variabile ordinale sau modulul pentru variabilele nominale). 31
A.2.3. Imputaţia predictivă prin mediere pe clase este similară imputaţiei predictive prin mediere globală, cu deosebirea că nu se utilizează o singură imputaţie, ci mai multe, corespunzătoare unor clase în care a fost împărţită mulţimea respondenţilor. Astfel, partiţionăm mulţimea respondenţilor r la întrebarea j în q clase disjuncte. Identificăm clasa căruia îi aparţine individul şi construim imputaţia: k
y' ij y rjt y ij k i 1
unde t ia valorile 1,..,q iar k este numărul de respondenţi din clasa respectivă. Utilizarea acestui tip de imputaţie reduce gradul de subestimare a dispersiei estimatorului. O variantă a acestei metode este imputaţia calculată ca medie a valorilor vecinilor valorii lipsă. Această metodă poate fi implementată automat şi sub softwareurile statistice specializate, având posibilitatea selectării tipului de medie pe baza căreia se va calcula imputaţia şi a numărului de vecini ce vor forma baza de calcul. A.2.4. Imputaţia „hot-deck”. „Este utilizată la scară largă deoarece, spre deosebire de imputaţia prin mediere globală sau pe clase, evită subestimarea dispersiei estimatorului”6. Pentru aplicarea acestei metode se parcurg următoarele etape: Etapa1: fişierul ce conţine baza de date este în prealabil sortat după caracteristicile demografice, economice sau sociale pe baza cărora se poate pune în evidenţă structura eşantionului. Etapa 2: Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse în prima înregistrare a unei caracteristici după care s-a realizat sortarea. Etapa 3: Fişierul se parcurge înregistrare cu înregistrare si fiecare câmp este identificat şi verificat să nu conţină valori lipsă. Etapa 4: În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu valoarea corespunzătoare din registru. A.2.5. Imputaţia “cold-deck”. Este o variaţie a metodei hot-deck şi constă în înlocuirea valorilor lipsă cu date provenite din alte surse decât sondajul curent cum ar fi sondaje anterioare sau recensăminte. Este necesar ca populaţia sondajului din care se preiau valorile să fie foarte asemănătoare cu cea asupra căruia se realizează sondajul în prezent iar modul de definire şi de codificare a variabilelor supuse procesului de imputare să fie identic. Imputaţia cu care se va înlocui valoarea lipsă este selectată aleator din baza de date aferentă sondajului anterior. Această metodă prezintă dezavantajul că imputaţia utilizată nu provine din sondajul curent motiv pentru care este mult mai rar utilizată. A.2.6. Imputaţia aleatoare. Constă în alegerea aleatoare din mulţimea respondenţilor sau dintr-o clasă, a unui ’’donator’’ h din mulţimea de r respondenţi la întrebarea j. În acest caz avem: y'ij y hj Este o variantă a imputaţiei hot-deck iar principalul avantaj faţă de aceasta este că prin selecţia aleatoare a imputaţiei nu mai este necesară sortarea fişierului după diferite caracteristici.
6
Levy P.S., şi Lemeshow S., ‚2000, Sampling of Populations, Third Edition Ed. John Wiley&Sons New York p. 411.
32
A.2.7. Imputaţia obiectivă. La baza acestei metode stă generarea unei ecuaţii de regresie pe baza setului de date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse procesului de imputare. Ecuaţia poate avea următoarea formă: y b0 b1 x1 b2 x 2 ...... bk x k unde y este variabila ce urmează a fi imputată pentru valorile date ale variabilelor xi, i=1,…,k corelate cu variabila y. „Imputaţiile obţinute în această manieră sunt superioare celor provenite în urma aplicării metodelor prezentate anterior, deoarece ea se armonizează cu restul înregistrărilor individului respectiv. Aplicarea acestei metode permite obţinerea unui estimator nedeplasat al mediei şi nu subevaluează dispersia acestuia”7.
B.1. Reselecţia pentru non-respondenţi metodă utilizată pentru tratarea non-răspunsurilor totale în funcţie de restricţiile de timp şi de buget, se poate face o reselecţie pentru non-respondenţi Împărţim în mod formal populaţia de volum N în două straturi: cel al respondenţilor, de volum N1, şi cel al non-respondenţilor, de volum N2. Privim situaţia ca a unui sondaj organizat în două faze. (figura 3.2.2.).
Respondenți N1
Faza 1
Respondenți n1
Non-respondenți n2
Faza 2
m
Non-respondenți N2
Figura 3.2.2. Organizarea reselecţiei pentru non-respondenţi În prima fază se construieşte eşantionul E de volum n. Eşantionul va conţine n1 respondenţi ai subeşantionului E1 şi n2 non-respondenţi ai subeşantionului E2. Variabila aleatoare w1=n1/n este un estimator nedeplasat al lui p1=N1/N (ponderea respondenţilor). Presupunem că parametrul de interes este media Y . Pe baza subeşantionului E1 putem calcula un estimator asociat primei faze ca in figura 3.2.2. 7
Levy P.S., şi Lemeshow S., 2000 , Sampling of Populations, Third Edition Ed. John Wiley&Sons New York p. 412.
33
În a doua fază a sondajului formăm un eşantion E’2 de volum m prin selecţie aleatoare fără revenire din E2. Prin eforturile făcute de operatorul de sondaj şi prin eventuale recompensări eşantionul va conţine doar respondenţi. Putem acum calcula un estimator asociat celei de a doua faze (figura 3.2.2.) Estimatorul parametrului Y construit pe baza celor două faze are forma: n n y 1 y1 2 y 2 n n Metoda reselecţiei pentru non-respondenţi are avantajul că generează un estimator nedeplasat al parametrului de interes Dezavantaj – determină o creştere substanţială a costului sondajului deoarece cerinţa ca în a doua fază să se obţină răspunsuri complete impune eforturi organizatorice şi financiare deosebite. B.2. Metoda post-stratificării şi a calibrării generalizate Utilizarea acestor metode necesită utilizarea unor informaţii deteliate privind repartiţiile încrucisate după mai multe variabile auxiliare, o dotare tehnică superioară şi un soft specializat şi sunt utilizate pentru tratarea non-răspunsurilor totale.
3.3. Tipuri de erori întâlnite în cercetarea selectivă
34
35
36
BAZA DE SONDAJ POPULAȚIA ȚINTĂ Arie acoperită de baza de sondaj, dar care nu face parte din populaţia ţintă
Arie neacoperită
Figura 3.2.3 Formarea erorilor de acoperire
B.2.1. Erorile efective se pot calcula pentru caracteristicile la care s-au obţinut date şi dintr-o observare totală Considerând că media este indicatorul sintetic cel mai reprezentativ, eroarea efectivă de sondaj se calculează ca diferenţă între media eşantionului şi media colectivităţii totale La verificarea reprezentativităţii eşantionului se porneşte de la compararea structurii pe grupe a colectivităţii de selecţie cu cea a colectivităţii generale, denumită şi structură programată. În cazul în care aceste structuri nu diferă cu mai mult de ± 5% se acceptă eşantionul ca fiind reprezentativ. De cele mai multe ori în cercetarea concretă nu se dispune de date cu privire la întreaga colectivitate pentru a putea verifica în ce măsură media este sau nu reprezentativă. În acest caz se pot efectua selecţii succesive pentru a verifica gradul de stabilitate al mediei şi dispersiei, eroarea efectivă de reprezentativitate calculându-se astfel: dx x x
şi respectiv d x %
xx 100 x
unde x este media mediilor selecţiilor. Verificarea reprezentativităţii eşantionului se poate realiza comparând distribuţia populaţiei cu cea a eşantionului cu ajutorul testelor statistice sau Kolmogorov-Smirnov. B.2.2. Deşi erorile de reprezentativitate întâmplătoare nu pot fi evitate, ele pot fi calculate cu anticipaţie dacă sondajul este probabilistic, obţinându-se erorile probabile. Estimaţia parametrilor din populaţia generală se va putea face pe baza indicatorilor obţinuţi din prelucrarea datelor de sondaj cu o eroare medie de reprezentativitate care se găseşte într-un interval probabilistic. Fiecărui indicator derivat sau sintetic trebuie să i se ataşeze şi
37
eroarea sa de reprezentativitate pentru a putea fi generalizat la întreaga populaţie. Modul de calcul al acestor erori depinde de tipul de sondaj utilizat. Tocmai posibilitatea unor astfel de calcule şi a analizelor respective face din metoda sondajului un instrument viabil de cercetare.
3.4. Verificarea reprezentativitatii esantionului Înainte de a trece la analiza statistică şi la interpretarea rezultatelor este important să stabilim dacă eşantioanele sunt sau nu reprezentative pentru populaţiile din care au fost selectate. Dacă diferenţele dintre parametri cunoscuţi din populaţie faţă de valorile estimatorilor obţinuţi pe baza datelor din sondaj sunt semnificative atunci eşantionul nu este reprezentativ. Pentru a vedea dacă există diferenţe semnificative faţă de valoarea cunoscută din populaţie a ponderii fetelor faţă de cea din în eşantion se utilizează testul z (eşantionul este de volum normal) pentru compararea proporţiei din eşantion cu cea din populaţie. Ipotezele testului bilateral sunt: H0 : x = X 0 şi H1: x X 0 .iar valoarea calculată a testului este: zc
x X0
2
n
Valoarea calculată luată în valoare absolută se compară cu cea teoretică de 1,96 corespunzătoare nivelului de semnificaţie ales (=0,05) şi, deoarece este mai mică decât aceasta se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ. H0 : w= p şi H1: w p .iar valoarea calculată a testului este: z c
wp p 1 p
n
Pentru o probabilitate de garantare a rezultatelor de 95% căruia îi corespunde un nivel de semnificaţie =0,05 în cazul efectuării unui test bilateral valoarea teoretică este z =1,96. 1
2
2
Ipotezele testului sunt: H0 : ft= fe şi H1: ftfe unde ft reprezintă frecvenţele teoretice iar fe frecvenţele empirice. Frecvenţele empirice sunt cele obţinute în urma centralizării datelor din sondaj iar cele teoretice se calculează după relaţia: fti Fti N n ( Fti fiind frecvenţa corespunzătoare a grupei i din populaţie). k 2
Valoarea calculată a testului este: c
i 1
f ei f ti 2 f ti
= Valoarea teoretică pentru un nivel de
semnificaţie =0,05 şi numărul de grade de libertate df=k-1=5-1=4 este de 9,49. Deoarece c 2 0,05;df 4 2 se respinge ipoteza nulă putând spune că cele două distribuţii nu concordă şi, deci eşantionul nu este reprezentativ. 1. Testul Kolmogorov este unul dintre cele mai răspândite teste de concordanţă a repartiţiilor empirice şi teoretice pentru variabile aleatoare continue. Pentru efectuarea testului este necesară alcătuirea claselor şi stabilirea frecvenţelor absolute empirice şi teoretice (în funcţie de repartiţia testată). Ulterior se cumulează aceste frecvenţe crescător şi prin raportarea lor la total se obţin funcţiile de repartiţie empirice (Fn(x)) şi teoretice (F(z)).
38
Se calculează pe clase diferenţa lor şi se ia diferenţa maximă în valoare absolută. Pe baza ei se obţine statistica a testului Kolmogorov astfel: c n max Fn( x) F(z) , unde n este volumul eşantionului. Valoarea calculată c se compară cu valoarea teoretică tabelată în funcţie de nivelul de semnificaţie. Unui α=0,05 îi corespunde α=1,36. Dacă < α repartiţia empirică este în concordanţă cu cea teoretică. Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru cazul verificării concordanţei a două repartiţii empirice. Notând cele două variabile aleatoare cu x şi y se n 1 n 2 .; calculează o valoare c după relaţia următoare: c max F( x ) F( y) n1 n 2 unde F(x) şi F(y) reprezintă funcţiile repartiţiilor empirice ale celor două variabile. Se compară apoi valoarea calculată cu cea teoretică. Dacă c < α repartiţiile sunt în concordanţă.
3.5. Aplicaţii Aplicaţie 1 În urma centralizării răspunsurilor obţinute dintr-un sondaj în rândul studenţilor unei universităţi au rezultat datele prezentate în tabelul 3.5.1 Definirea variabilelor: STRAT. Sondajul s-a realizat după un plan stratificatastfel: 1 anul I, 2 anul II, 3 anul III şi 4 anulIV. SEX. 1 feminin, 2 masculin. MEDIE. Este variabilă numerică şi reprezintă media obţinută în sesiunea din iarnă. NRORE. Este variabilă numerică şi reprezintă numărul de ore de studiu pe săptămână în afara sesiunii. ACORD. Este variabila obţinută în urma centralizării răspunsurilor la întrebarea: “În ce măsură sunteţi de acord cu modificările survenite în învăţământul superior?”. Codurile reprezintă: 1 dezacord total, 2 dezacord, 3 indiferent, 4 acord şi 5 acord total. Se cere: 1. Să se înlocuiască valorile lipsă ale variabilei NRORE folosind imputaţia predictivă prin mediere globală, imputaţia predictivă prin mediere pe clase şi imputaşia obiectivă. 2. Să se înlocuiască valorile lipsă ale variabilei ACORD folosind imputaţia ”hot-deck”.
Rezolvare 1. Notăm cu yij răspunsul pe care îl dă individului i din eşantionul E la întrebarea j (i=1,..,n, j=1,... ,p). Concentrându-ne asupra individul i din eşantion constatăm că vectorului (yi1, ...., yip), format din răspunsurile la întrebările din chestionar, îi lipsesc unele componente (non-răspunsurile). Fiecare poziţie de coordonate (i,j) trebuie tratată separat, prin crearea unei valori y’ij numită ’’valoare atribuită’’ sau ’’imputaţie’’.
39
Imputaţia predictivă prin mediere globală Calculăm media răspunsurilor obţinute la întrebarea j: r
119 5.17 23 i 1 unde r este numărul răspunsurilor valide la întrebarea j. Toate cele 7 valori lipsă se vor înlocui cu 5.17 (vezi tabelul 3.5.2 variabila NROREIG). Avantajul acestei metode este că înlocuirea valorii lipsă se face cu o valoare probabilă ceea ce îi dă un oarecare grad de stabilitate. Dacă există mulţi respondenţi care nu au răspuns la întrebarea j vom folosi pentru toţi aceeaşi ’’imputaţie’’. Este clar că se produce o subevaluare severă a dispersiei estimatorului pentru media sau totalul caracteristicii yj. y'ij y r, j yij r
Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
STRAT 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4
SEX 1 1 1 1 2 2 1 1 1 1 1 2 2 2 1 1 1 1 1 1 2 2 2 1 1 1 1 2 2 2
MEDIE 7 8.33 6.67 9.67 6.33 7.8 9.67 8 7.2 8.8 6.33 7 8.8 8.2 7.9 8.8 6.67 9.33 8.33 7.7 8.2 5.67 9.2 9.33 8.9 7.8 8.2 8.9 7.9 7.5
40
NRORE 3 4 3 10 4 11 3 6 4 4 6 5 5
Tabel 3.5.1 ACORD 2 2 3 4 2 1 2 2 4 5 1 1 3 4
9 6 5 5
4 2
9
2 2 3
7 6 7 5 4
2
2 1 2
Imputaţia predictivă prin mediere clase Partiţionăm mulţimea respondenţilor r la întrebarea j în 4 clase disjuncte, cate una pentru fiecare strat. Identificăm clasa căruia îi aparţine individul şi construim k
imputaţia: y'ij y rjt y ij k i 1
unde t ia valorile 1,..,4 iar k este numărul de respondenţi din clasa respectivă, Deoarece există patru straturi se vor calcula 4 imputaţii. k k 23 32 y'1ij y rj1 yij k 4.6 y' 2ij y rj2 y ij k 4.57 5 7 i 1 i 1 k k 37 27 y' 3ij y rj3 yij k 6.17 y' 42ij y rj4 yij k 5.4 6 5 i 1 i 1 În tabelul 3.5.2 variabila NROREIC este obţinută în urma aplicării acestei metode. Utilizarea acestui tip de imputaţie reduce gradul de subestimare a dispersiei estimatorului.
Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
STRAT 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4
SEX 1 1 1 1 2 2 1 1 1 1 1 2 2 2 1 1 1 1 1 1 2 2 2 1 1 1 1 2 2 2
MEDIE 6 8.33 5.67 9.67 5.33 7.8 9.67 8 7.2 8.8 6.33 6.33 8.8 8.2 7.9 8.8 5.67 9.33 8.33 7.7 8.2 5.67 9.2 9.33 8.9 7.8 8.2 8.9 7.9 7.5
NRORE 2 4 3 10 4 9 3 5 2 3 5 5 5
8 6 4 5 9 7 6 7 4 3
41
NROREIG 2 4 3 10 5.17 4 9 5.17 3 5 2 3 5 5 5 5.17 5.17 8 6 4 5 5.17 9 5.17 7 6 7 5.17 4 3
NROREIC 2 4 3 10 4.6 4 9 4.57 3 5 2 3 5 5 5 6.17 6.17 8 6 4 5 6.17 9 5.4 7 6 7 5.4 4 3
Tabel 3.5.2 NROREIO 2 4 3 10 0.49 4 9 5.19 3 5 2 3 5 5 5 6.60 1.09 8 6 4 5 1.09 9 7.53 7 6 7 6.78 4 3
Imputaţia obiectivă Pentru setul de date ce nu conţine valori lipsă pentru variabila NRORE se stabileşte forma ecuaţiei de regresie ce are ca variabilă independentă MEDIA. În figura 3.5.1 este reprezentată grafic legătura dintre MEDIE şi NRORE.
Fig. 3.5.1 Nr. ore studiu în funcţie de media obţinută în sesiunea din iarnă
Pe baza ecuaţiei de regresie y = 1.761x - 8.8953 se determină imputaţiile cu care se vor înlocui non-răspunsurile variabilei NRORE (vezi tabelul 3.5.2 variabila NROREIO). De exemplu pentru prima valoare lipsa a Variabilei NRORE, MEDIA este 5.33. Introducem aceasta valuare in ecuaţia de regresie şi obţinemvaloarea imputaţiei obiective 0.49. 2. Imputaţia „hot-deck”. Pentru aplicarea acestei metode se parcurg următoarele etape: Etapa1. Fişierul ce conţine baza de date este în prealabil sortat după caracteristicile demografice, economice sau sociale pe baza cărora se poate pune în evidenţă structura eşantionului. Deoarece în tabelul 3.1 datele sunt deja sortate după STRAT şi SEX se poate trece la etapa următoare. Etapa 2. Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse în prima înregistrare a unei caracteristici după care s-a realizat sortarea. În tabelul 3.5.3 este prezentat registrul de lucru constituit. Tabel 3.5.3 STRAT SEX ACORD 1 1 2 1 2 2 2 1 2 2 2 1 3 1 3 3 2 2 4 1 2 4 2 1
42
Etapa 3. Fişierul (tabelul 3.5.1) se parcurge înregistrare cu înregistrare şi fiecare câmp este identificat şi verificat să nu conţină valori lipsă. Etapa 4 . În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu valoarea corespunzătoare din registru. Rezultatul implementării acestei metode este prezentat în tabelul 3.5.4. De exemplu înregistrarea cu numarul 9 conţine valoare lipsă pentru variabila ACORD. Înregistrarea face parte din STRAT 2 iar variabila SEX este 1-masculin. Valoarea corespunzătoare din registru este 2. Înlocuim cu această valoare nonrăspunsul parţial.
Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
STRAT 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4
SEX 1 1 1 1 2 2 1 1 1 1 1 2 2 2 1 1 1 1 1 1 2 2 2 1 1 1 1 2 2 2
ACORD 2 2 3 4 2 1 2 2 4 5 1 1 3 4 4 2 2 2 2 3 2 1 2
Tabelul 3.5.4 ACORDM 2 2 3 4 2 1 2 2 2 4 5 1 1 1 3 4 3 4 2 2 2 2 2 3 2 2 1 1 2
Aplicaţie 2 S-a realizat un sondaj în rândul studenţilor unei universităţi partiulare pe un eşantion de 90 persoane. În urma centralizării datelor pentru variabilele auxiliare SEX şi MEDIE (media ultimei sesiuni) au rezultat următoarele informaţii: ponderea fetelor în eşantion este de 67% iar nota medie 7.2 cu o dispersie de 1.42. 43
Se cere să se verifice reprezentativitatea eşantionului stiind că ponderea fetelor în populaţie este 65% iar nota medie a studenţilor este de 6.98 iar probabilitatea de garantare a rezultatelor este de 95%. Rezolvare Pentru a vedea dacă există diferenţe semnificative faţă de valoarea cunoscută din populaţie a ponderii fetelor faţă de cea din în eşantion se utilizează testul z (eşantionul este de volum normal) pentru compararea proporţiei din eşantion cu cea din populaţie. Ipotezele testului bilateral sunt: H0 : w= p şi H1: w p .
wp
Regiunea critică în cazul testului bilateral este dată de relaţia: W: valoarea calculată a testului este: z c
wp p 1 p
p 1 p n
z 1
2
iar
=0.398 n
Pentru o probabilitate de garantare a rezultatelor de 95% căruia îi corespunde un nivel de semnificaţie =0.05 în cazul efectuării unui test bilateral valoarea teoretică este z =1,96. 1
2
Deoarece valoarea calculată a testului luată în modul este mai mică decât valoarea teoretică se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ. Pornind de la variabila auxiliară MEDIA, pentru verificarea reprezentativităţii se utilizează testul z pentru compararea mediei unui eşantion cu cea a populaţiei. Ipotezele testului bilateral sunt: H0: x = X 0 şi H1: x X 0 . Regiunea critică în cazul testului bilateral este dată de relaţia: W:
x X0
calculată a testului este: zc
x X0
2
2
n
z
1
2
iar valoarea
=1.75
n
Valoarea calculată luată în valoare absolută se compară cu cea teoretică de 1.96 corespunzătoare nivelului de semnificaţie ales (=0.05) şi, deoarece este mai mică decât aceasta se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ. Problema 2 În rândul populaţiei de 160000 persoane (cu vârsta peste 15 ani) dintr-o localitate s-a realizat un sondaj pe un eşantion de 800 persoane privind atitudinea faţă de. În tabelul 3.5.5 este prezentată structura eşantionului şi structura populaţiei pe grupe de vârstă.
Grupe de vârstă 15-24 25-34 35-44 45-54 peste 55 Total
Structura populaţiei (%) 16 20 24 21 19 100
44
Tabel 3.5.5 Structura eşantionului (%) 19 23 20 17 21 100
Se cere: 1. Să se verifice reprezentativitatea eşantionului utilizând testul 2 pentru un nivel de semnificaţie =0.05. 2. Să se verifice reprezentativitatea eşantionului utilizând testul Kolmogorov-Smirnov pentru un nivel de semnificaţie =0.05. Rezolvare 1.
Atunci când se cunoaşte forma distribuţia variabilei în populaţie pentru verificarea reprezentativităţii eşantionului se poate utiliza unul din testele de concordanţă. Tabelul 3.5.6
Grupe de vârstă
Structura populaţiei (%)
15-24 25-34 35-44 45-54 peste 55 Total
16 20 24 21 19 100
Număr salariaţi în populaţie ( Fti ) 25600 32000 38400 33600 30400 160000
Structura eşantionul ui (%) 19 23 20 17 21 100
Număr salariaţi în eşantion (fei) 152 184 160 136 168 800
fei fti 2 fti 128 160 192 168 152 800
fti
4.50 3.60 5.33 6.10 1.68 21.21
Ipotezele testului 2 sunt: H0 : ft= fe şi H1: ftfe unde ft reprezintă frecvenţele teoretice iar fe frecvenţele empirice. Frecvenţele empirice sunt cele obţinute în urma centralizării datelor din sondaj iar cele teoretice se calculează după relaţia: fti Fti N n ( Fti fiind frecvenţa corespunzătoare a grupei i din populaţie). Calculele necesare sunt sistematizate în tabelul 3.5.6. k 2
Valoarea calculată a testului este: c
f ei f ti 2
i 1
f ti
=21.21
Valoarea teoretică pentru un nivel de semnificaţie =0,05 şi numărul de grade de libertate df=k-1=5-1=4 este de 9.49. Deoarece c 2 2 0,05;df 4 se respinge ipoteza nulă putând spune că cele două distribuţii nu concordă şi, deci eşantionul nu este reprezentativ. 2. Calculele necesare pentru efectuarea testului Kolmogorov sunt sistematizate în tabelul 3.5.7. Considerăm variabilele x şi y vârsta în totalul populaţiei şi respectiv în eşantion. Tabel 3.5.7 Grupe de vârstă 15-24 25-34 35-44 45-54 peste 55 Total
fei
fti
fei cumulat
fti cumulat
152 184 160 136 168 800
128 160 192 168 152 800
152 336 496 632 800
128 288 480 648 800
45
f* ei cumulat F(x) 0.19 0.42 0.62 0.79 1
f* ti cumulat F(y) 0.16 0.36 0.6 0.81 1
di 0.03 0.06 0.02 0.02 0
În relaţia de calcul a valorii teoretice c considerăm n1 volumul populaţiei N iar n2 volumul eşantionului n. Relaţia devine: c max F( x ) F( y)
Nn
. Nn În cazul în care volumul populaţiei este mare în raport cu eşantionul (n
repartiţia empirică nu este în concordanţă cu cea teoretică iar eşantionul nu este reprezentativ ceea ce va duce la obţinerea unor estimatori deplasaţi. α
46
Unitatea de învăţare 4 PLANURI DE SONDAJ SIMPLE
Ce cuprinde această unitate de învățare? 4.1. Obiectivele unităţii de învăţare 4 4.2. Sondajul simplu aleator 4.2.1. Sondajul simplu aleator cu probabilităţi egale 4.2.2. Sondajul de volum redus 4.3. Sondajul stratificat 4.4. Sondajul de serii 4.5. Aplicații
4.1. Obiective
După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre:
Alegerea unui plan de sondaj simplu în funcție de caracteristicile populației Estimarea parametrilor de interes pe baza valorilor de sondaj în funcție
de
planul de sondaj simplu utilizat
4.2. Sondajul simplu aleator Sondajul simplu aleator este considerat o metodă de bază în teoria sondajului. El se poate realiza într-o populaţie foarte omogenă (coeficient de variaţie sub 17%), unităţile cuprinse în eşantion fiind selectate prin procedee aleatoare cu probabilităţi nenule cunoscute. Cu toate că este rareori folosit în practică el este foarte important pentru înţelegerea 47
noţiunilor fundamentale şi însuşirea tehnicii sondajelor. Totodată sondajul simplu aleator stă la baza sondajelor complexe utilizate în practică. Sondajul simplu aleator se poate efectua în două variante: sondajul simplu aleator cu probabilităţi egale şi sondaj simplu aleator cu probabilităţi inegale. Sondajul simplu aleator cu probabilităţi egale este acel sondaj în care fiecare unitate are aceeaşi probabilitate de a face parte din eşantion iar probabilităţile sunt independente. Acest plan de sondaj este metoda de bază a sondajelor aleatoare din care decurg conceptele fundamentale şi formulele de calcul al erorilor specifice sondajului. Tehnica sondajului simplu aleator este vizualizată în figura următoare:
Populaţie
Eşantion
Figura 4.2.1 Schema de realizare a sondajului simplu aleator Există două tipuri de sondaj cu probabilităţi egale: sondajul simplu aleator cu probabilităţi egale cu revenire cunoscut în literatura de specialitate ca „plan de eşantionare cu probabilităţi egale repetat (cu revenire) – SAR” şi sondajul simplu aleator cu probabilităţi egale fără revenire cunoscut sub numele: plan de eşantionare cu probabilităţi egale nerepetat (fără revenire)–SAFR”. 4.2.1. Sondajul simplu aleator cu probabilităţi egale Sondajul simplu aleator cu probabilităţi egale cu revenire Fie U populaţia supusă sondajului: U = { Ui | i= 1,…,N } În cazul acestui tip de sondaj numărul tuturor eşantioanelor posibile este egal cu Nn, iar probabilitatea fiecărei unităţi din populaţie de a intra în eşantion la fiecare extragere este: pik=1/N unde i= 1,…,N iar k= 1,…,n. Probabilitatea ca o unitate Ui U să figureze în eşantion o notăm cu πi unde: n
πi
p k 1
48
ik
n N
Calculul erorilor de sondaj în vederea estimării parametrilor populaţiei se bazează pe principiile teoriei probabilităţilor şi ale statisticii matematice. Pentru un volum de eşantion n se pot obţine Nn eşantioane extrase succesiv din aceeaşi populaţie fiecare având o medie de sondaj. În acest proces de formare a mediilor de sondaj fiecare medie poate să aibă diferite frecvenţe de apariţie. Se confirmă astfel că media de sondaj x i este o variabilă aleatoare căreia i se poate stabili legea de distribuţie. Respectând cerinţele legii numerelor mari în teoria sondajului se demonstrează că dacă volumul eşantionului este suficient de mare media de sondaj urmează o distribuţie normală a cărei medie este chiar media populaţiei totale: n
M( x i ) X iar
x i X 0 i1
Dispersia mediilor de sondaj în jurul mediei din populaţia totală este egală cu raportul dintre dispersia din populaţia totală şi volumul eşantioanelor de aceeaşi mărime n: σ2
σ 2x i
n Mărimea abaterii medii pătratice a mediilor de sondaj de la media populaţiei reprezintă eroarea medie de reprezentativitate şi se calculează după relaţia:
σ σx
n Dacă nu se cunoaşte valoarea dispersiei populaţiei totale ea este estimată cu ajutorul dispersiei de sondaj S2. În acest caz eroarea medie de reprezentativitate se calculează după relaţia: i
S σx
n În practică însă nu procedăm la extragerea tuturor eşantioanelor posibile şi ne mulţumim cu un singur eşantion construit cu respectarea cât mai riguroasă a unor anumite condiţii. În acest caz, media eşantionului se poate abate mai mult sau mai puţin de la media populaţiei, fapt ce determină necesitatea indicării unui interval de încredere despre care se poate afirma cu o probabilitate sau siguranţă cunoscută că acoperă valoarea mediei din colectivitatea totală. Limitele intervalului de încredere, cea minimă θiinf şi cea maximă θ sup se calculează în funcţie de datele de sondaj x1, x2, …, xn astfel încât, cu un grad mare de siguranţă, garantat de probabilitatea 1-α pentru parametrul populaţiei, se îndeplineşte relaţia: i
P inf X sup 1 z Intervalul inf , sup reprezintă intervalul de încredere şi defineşte precizia estimaţiei. Probabilitatea (1-α ) caracterizează siguranţa cu care se afirmă că intervalul de încredere cuprinde valoarea parametrului populaţiei. Cu cât intervalul inf , sup este mai mic şi probabilitatea (1-α ) mai mare cu atât avem o estimaţie mai precisă cu privire la valoarea parametrului. Intervalul inf , sup este o mărime aleatoare, limitele sale fiind
49
dependente de datele fiecărei selecţii, motiv pentru care, pentru o aceeaşi populaţie, valorile limitelor variază de la o selecţie la alta atât ca mărime cât şi ca poziţie. La construirea estimaţiilor, un rol important, pe lângă nivelul de siguranţă, îl joacă mărimea intervalului de încredere. Cele două mărimi se află într-o relaţie de corespondenţă bine determinată. Dacă eroarea de sondaj se distribuie după legea normală atunci erorile egale în valoare absolută cu probabilităţile de apariţie şi pentru acelaşi volum al eşantionului probabilistic ce alcătuiesc intervale inf , sup se pot separa în două părţi egale iar jumătatea intervalului este eroarea limită admisă. Precizia estimaţiei, probabilitatea de încredere şi intervalul de încredere se discută pe baza inegalităţii lui Cebîrşev, prin care se demonstrează că media de sondaj x pentru un volum mare al eşantionului converge în probabilitate către X0 media populaţiei, ceea ce semnifică faptul că x este un estimator corect al mediei populaţiei (nedeplasat, consistent şi eficient). Siguranţa estimării este dată de probabilitatea cu care este îndeplinită inegalitatea: x X z unde 0, suficient de mic . Această probabilitate este dată dinainte şi este foarte apropiată de unitate.
P x X
z
Intervalul
sau P x X x
x , x
z ¤
care acoperă parametrul X
(4. 1.1.) cu o probabilitate z se
numeşte interval de încredere . În vederea stabilirii expresiei intervalului de încredere pentru media X
trebuie definită variabila de sondaj z
xX
x
( x este eroarea medie de
reprezentativitate). Din relaţia 4.1.1 avem:
P xX
P x X
xX P x x
unde
x
2 x
z z x x reprezintă eroarea limită maximă admisă. x
Rezultă că eroarea limită maximă admisă este o mărime variabilă ce depinde de argumentul funcţiei de probabilitate (z) şi de eroarea medie de reprezentativitate. Ea poate fi redusă fie prin mărirea volumului eşantionului (valoare ce intră în calculul erorii medii de reprezentativitate) fie prin modificarea probabilităţii de garantare a rezultatelor. În orice plan de cercetare prin sondaj, pentru a răspunde obiectivelor propuse sunt necesare atât caracteristici cantitative cât şi calitative. În acest caz ne interesează dacă o unitate a eşantionului posedă sau nu o caracteristică. În această situaţie calculul erorii medii de reprezentativitate se realizează după relaţia: p (1 p ) w(1 w) n n (unde p este media caracteristicii binare în populaţie iar w reprezintă estimaţia acesteia din eşantion).
w
50
În mod corespunzător, eroarea limită maximă admisă se calculează astfel:
w z w Deşi determinarea volumului de eşantion în realitate precede calculul erorilor necesare estimaţiilor nu putem aborda această temă fără cunoaşterea acestor noţiuni. După studiul amănunţit al populaţiei supuse cercetării se va alege cu multă grijă caracteristica în raport cu care se calculează volumul eşantionului. Pornind de la formula erorii limită maximă admisă, pentru un eşantion de volum mare avem:
x z
n
n
z 2 2 2x
z2 S 2 2x
Dacă abaterea medie pătratică a caracteristicii Xi în populaţia generală presupusă normal distribuită nu este cunoscută, atunci se extrage în prealabil un eşantion de volum redus pe baza căruia se estimează cu ajutorul dispersiei de sondaj S2 dispersia necunoscută. În cazul în care volumul eşantionului se calculează pornind de la o caracteristică alternativă relaţia de calcul a volumului eşantionului este:
n
z 2 p(1 p)2 2w
z 2 w (1 w )2 2w
unde p este proporţia celor care posedă caracteristica în populaţia totală. În cazul în care nu se cunoaşte această valoare şi nu se poate calcula variaţia caracteristicii în populaţia totală aceasta se estimează cu dispersia din eşantion calculată cu ajutorul proporţiei celor care posedă caracteristica în eşantion (w). Sondajul simplu aleator cu probabilităţi egale fără revenire Sondajul simplu aleator cu probabilităţi egale fără revenire este acel sondaj în care o unitate odată selecţionată nu mai participă la o nouă extragere. Numărul tuturor eşantioanelor posibile în acest caz este egal cu C Nn . Probabilitatea fiecărei unităţi de a intra în eşantion creşte de la o extragere la alta astfel: p i1
1 1 1 ; pi 2 ;..... p in unde i 1, N N N 1 N ( n 1)
Probabilitatea ca o unitate Ui U să figureze în eşantion o notăm cu πi şi este dată de relaţia: n
πi
p k 1
ik
n 1 1 1 n k 1 n .... N N 1 N (n 1) N k 1 N ( N ( k 1)) N
n . N Pentru a aproxima dispersia mediilor de sondaj necesară calculării erorii medii de N n reprezentativitate se aplică un coeficient de corecţie . Deoarece, de cele mai multe ori, N 1 tinde la limita spre
51
volumul populaţiilor studiate este mare, nu sesizăm diferenţe între a împărţi la N-1 sau la N.
n În acest context, pentru simplificarea calculului considerăm coeficientul de corecţie 1 . N σ 2x
σ2 σ2 S2 n n n 1 iar σ x 1 1 n N n N n N
Eroarea limită maximă admisa este: x z x z
σ2 S2 n n 1 z 1 n N n N
În cazul în care nu se cunoaşte dispersia populaţiei totale o vom estima cu ajutorul dispersiei de sondaj S2. Dacă variabila pe care dorim să o analizam este calitativă, eroarea medie de reprezentativitate şi eroarea limită se vor calcula după relaţiile:
w
p(1 p) n w(1 w) n 1 1 n n N N
w z w z
p(1 - p) n w(1- w) n 1 z 1 n n N N
Pentru determinarea volumului eşantionului se porneşte tot de la relaţia de calcul a erorii limită: σ 20 n x z x z 1 n N
z 2 2 2x
z 2 2 N
În cazul în care variabila este calitativă vom avea : n
z 2 p(1 p) 2w
z 2 p(1 p) N
z 2 w (1 w ) 2w
z 2 w (1 w ) N
În situaţia in care populaţia totală poate fi considerată infinită coeficientul de corecţie a sondajului fără revenire nu îşi mai găseşte utilitatea. În cazul în care n0,05N), n>30
xz
2 n
wz
2 necunoscută xz
S2 n
Sondaj fără revenire
2 cunoscută xz
w (1 w ) n xz
2 necunoscută
2 n
xz
wz
S2 n
xz
w (1 w ) n
2 N n n N 1
wz
53
S2 n
w (1 w ) n xz
S2 N n n N 1
w (1 w ) N n n N 1
4.2.2. Sondajul de volum redus Sondajele realizate pe baza eşantioanelor de volum redus îşi găsesc frecvent aplicabilitatea în domeniul cercetărilor economico-sociale. Adeseori, în activitatea desfăşurată managerii sunt nevoiţi să ia decizii pe baza unor date sumare oferite de eşantioane mici.
Dacă volumul eşantionului este mai mic de 30 de unităţi, se consideră de volum redus, iar premizele de mai sus nu mai sunt valabile fiind necesară o tehnică nouă de abordare a problemei. În acest caz, distribuţia mediilor eşantioanelor posibile depinde de forma de distribuţie a populaţiei. Cum de cele mai multe ori forma de distribuţie a populaţiei nu este cunoscută, nici legea de distribuţie a mediilor eşantioanelor nu poate fi determinată. Teoria sondajului demonstrează că în cazul selecţiei de volum mic probabilitatea de apariţie a mediilor de diferite mărimi se distribuie mai uniform. Cu alte cuvinte probabilităţile de apariţie a mediilor nu descresc în aceeaşi măsură ca în cazul eşantioanelor de volum normal în momentul în care acestea se apropie de valorile extreme, mediile eşantioanelor posibile distribuindu-se după curba lui Student şi nu după curba normală. Tabelul distribuţiei Student prezintă coeficientul funcţiei de probabilitate al apariţiei mediilor eşantioanelor posibile, reprezentat de coeficientul funcţiei (t). Prin urmare, pentru estimarea mediei metodologia este asemănătoare pentru eşantioanele de volum normal şi cele de volum redus, singura diferenţă fiind utilizarea valorilor repartiţiei Student în funcţie de numărul gradelor de libertate şi probabilitatea de garantare a rezultatelor. Relaţiile sunt sistematizat astfel: Condiţiile de desfăşurare Eşantion de volum redus n