Aplicatii Rezolvate Statistica [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

1. Pentru

30 de convorbiri înregistrat duratele (în minute): 11,8 3,6; 16,6 13,5 4,8 ; ; ; ; 10,2 8,0; 11,4 6,8; 9,6 ; ; ; 6,2; 11,2 10,4 7,2; 5,5 ; ; ;

telefonice de lungă-distanţă s-au 8,3;

8,9;

9,1;

7,7 2,3; ; 19,5 15,3 12,3 8,5 15,9 ; ; ; ; ; 14,5 .

12,1 6,1; ; 18,7 11,7 ; ;

Se cere: a)Să se determine durata medie a unei convorbiri telefonice şi să se studieze dacă valoarea obţinută este reprezentativă; b) Să se analizeze asimetria distribuţiei; c)Să se grupeze datele pe 6 intervale de mărime egală şi să se reprezinte grafic rezultatul grupării; Rezolvare: a) Notăm cu X variabila “durata unei convorbiri telefonice”, iar xi reprezintă valorile variabilei X pentru cele n=30 observaţii. Pentru calculul mediei se va utiliza formula mediei aritmetice simple: 30

 xi

x  i 1 n

 10 ,26

minute.

Verificarea reprezentativităţii mediei se face cu ajutorul coeficientului de variaţie: s v  x  100 x

Calculăm abaterea medie pătratică: 30

s x  s x2 

  xi  x  i 1

n

2

 4 ,29

minute.

Coeficientul de variaţie este: s 4 ,29 v  x  100   100  41,8% >35%, x 10 ,26

ceea ce înseamnă că seria

de date are un grad redus de omogenitate şi deci media are o reprezentativitate scăzută. b) Analizăm asimetria seriei cu ajutorul coeficientului de asimetrie Pearson: Cas 

x  Mo sx

, unde Mo este valoarea modală şi reprezintă

valoarea cel mai des întâlnită într-o serie statistică.

Dacă analizăm seria de date observăm că fiecare valoare apare o singură dată şi deci putem afirma nu există mod. În acest caz vom analiza asimetria seriei folosind o formulă alternativă a coeficientului de asimetrie, formulă bazată pe ipoteza că într-o repartiţie moderat asimetrică între indicatorii tendinţei centrale există relaţia Mo  x  3 Me  x  . Cas1 

3( x  Me ) , sx

unde Me reprezintă mediana seriei.

Pentru determinarea valorii medianei procedăm astfel:  Ordonăm crescător seria de date: 2,3 3,6 4,8 5,5 6,1 6,2 6,8 7,2 7,7 8 8,9 9,1 9,6 10, 10, 11, 11, 11, 11, 12, 2 4 2 4 7 8 1 14, 15, 15, 16, 18, 19, 5 3 9 6 7 5 

8,3 12, 3

8,5 13, 5

Determinăm locul medianei în serie: locMe 

n  1 31   15 ,5 . 2 2

Această valoare arată că mediana se

găseşte între termenul al 15-lea, respective al 16-lea ai seriei ordodate crescător/descrescător, adică mediana este o valoare cuprinsă între 9,6 şi 10,2.  Determinăm mediana ca fiind media aritmetică simplă a celor două valori: Me 

9 ,6  10 ,2  9 ,9 2

minute.

Aceasta înseamnă că 50% dintre convorbirile telefonice au o durată mai mică de 9,9 minute, respective 50% au o durată mai mare. Cas1 

3( x  Me ) 3 10 ,26  9 ,9    0 ,25 sx 4 ,29

Observaţie: Cas1    3,3 . Valoarea coeficientului arată o uşoară asimetrie pozitivă, în serie predominând valorile mici. c) Ax = xmax - xmin = 19,1 - 2,3 = 16,8 minute r=6 h  Ax r  16,8 6  2,8  3 minute Rezultatele grupării sunt prezentate în tabelul: Intervale de variaţie a duratei convorbirilor telefonice (minute) 2-5 5-8 8-11

Număr de convorbiri telefonice 3 6 8

11-14 14-17 17-20 Total Notă: limita inferioară inclusă în interval.

7 4 2 30

Convorbiri

Reprezentarea grafică : 9 8 7 6 5 4 3 2 1 0 0-2

2-5

5-8

8-11 11-14 14-17 17-20 Durata

Distribuţia convorbirilor telefonice după durată Se observă că distribuţia este normală, uşor asimetrică la dreapta (vezi coeficientul de asimetrie-punctul b).

2. Distribuţia celor 54 de agenţi comerciali ai unei firme ce comercializează produse cosmetice de după numărul de zile lucrate în luna iulie este următoarea: Zile lucrate Număr vânzători

21 22 23 24 25 26 27 Total

6 7 14 11 9 4 3 54

Se cere: a) Să se reprezinte grafic distribuţia vânzătorilor după numărul de zile lucrate; b) Să se determine numărul mediu de zile lucrate şi să se studieze dacă valoarea obţinută este reprezentativă; c) Care este numărul de zile lucrate peste care se situează 50% din vânzători? d) Să se analizeze asimetria distribuţiei. e) Daca cei 54 de vanzatori reprezinta un esantion reprezentativ, selectat aleator repetat, determinati intervalul de incredere pentru nr. mediu de zile lucrate de un vanzator din colectivitatea generala (probabilitate de garantare a rezultatelor este de 95% (z 0,025=1.96)). Rezolvare: a) În tabel avem o serie de distribuţie de frecvenţe pe variante, variabila analizată X fiind „număr zile lucrate”. Pentru reprezentarea grafică se foloseşte diagrama cu coloane nelipite centrate pe variantă. 16 14

nr.lucratori

12 10 8 6 4 2 0 21

22

23

24

25

26

27

zile lucrate

Distribuţia vânzătorilor după numărul de zile lucrate b) Se calculează numărul mediu de zile lucrate cu ajutorul mediei aritmetice ponderate: x

 xi ni  ni



1276  23,6 54

Tabelul 3.4

zile.

Zile lucrate (xi) 0 21 22 23 24 25 26 27 Total

Număr vânzători (ni) 1 6 7 14 11 9 4 3 54

xi  ni

 xi  x  2 ni

Fci

2 126 154 322 264 225 104 81 1276

3 40,56 17,92 5,04 1,76 17,64 23,04 34,68 140,64

4 6 13 27 38 47 51 54 -

Aşadar, un vânzător din cei 54 luaţi în studiu a lucrat, în medie, aproximativ 23 de zile şi jumătate. Pentru a verifica reprezentativitatea mediei obţinute, trebuie calculat coeficientul de variaţie, pe baza abaterii medii pătratice: s v  x  100 x s x2

sx 

Dispersia variabilei este: s x2

  xi  x    ni

2

ni



140 ,64  2 ,6044 . 54

Calculele intermediare necesare în determinarea dispersiei sunt prezentate în coloana 3 a tabelului 3.4. Abaterea medie pătratică va fi: s x  2 ,6044  1,61 zile. iar coeficientul de variaţie: s 1,61 v  x  100   100  6 ,8% < 23 ,6 x

35%, ceea ce înseamnă că media calculată

este reprezentativă, colectivitatea fiind omogenă. c)Se cere determinarea medianei Mediana (Me) locMe 

 ni  1  55  27 ,5 2

2

Me = 24 zile. Deci, 50% din vânzători au lucrat mai mult de 24 de zile, iar 50% mai puţin. d)

Analizăm asimetria distribuţiei cu ajutorul coeficientului de asimetrie al lui Pearson. Cas 

x  Mo 23 ,6  23   0 ,37 sx 1,61

Mo = 23 zile (nivelul variabilei cu frecvenţa cea mai mare). Valoarea coeficientului de asimetrie indică fapul că seria este moderat asimetrică la dreapta (predomină valorile mici ale variabilei). e)Intervalul de incredere pentru media din colectivitatea generala este: x  x   x  x

Eroarea limita este:  x  z / 2 s x  z / 2

sx n

x B 1.96 •*1.61 / 54 B 3.1556 / 7.3484 B 0.4294

3. Procentul din profit cheltuit de 70 de firme pentru reclamă şi publicitate în anul 2005 a avut următoarea distribuţie: Tabelul 3.5 % pentru reclamă şi publicitate

Nr. firme cu % pentru reclama mai mic decât limita superioară a intervalului 0,6-1,0 14 1,0-1,4 32 1,4-1,8 56 1,8-2,2 64 2,2-2,6 68 2,6-3,0 70 Total Notă: limita inferioară inclusă în interval.

Se cere: a) Să se reprezinte grafic distribuţia de frecvenţe absolute; b) Să se determine procentul mediu cheltuit pentru reclamă şi publicitate şi să se studieze dacă valoarea obţinută este reprezentativă; c) Care este procentul din profit cheltuit pentru reclamă şi publicitate peste care se situează: c1) trei sferturi dintre firme? c2) 50% din firme? c3) o pătrime din firme? d) Să se analizeze asimetria şi excesul distribuţiei. e) Să se calculeze media şi dispersia firmelor care au cheltuit mai mult de 2,2% din profit pentru reclamă şi publicitate.

Rezolvare:

a) Se observă că în tabelul 3.5 sunt date frecvenţele absolute cumulate crescător. Pentru a determina frecvenţele absolute, trebuie să decumulăm frecvenţele date în tabelul iniţial (coloana 2). Rezultatele prelucrărilor intermediare necesare pentru calcularea indicatorilor solicitaţi vor fi redate în tabelul 3.6. Tabelul 3.6 % cheltuit pentru reclamă şi publicitate 0 0,6-1,0 1,0-1,4 1,4-1,8 1,8-2,2 2,2-2,6 2,6-3,0 Total

Frecvenţele absolute cumulate crescător 1 14 32 56 64 68 70 -

Frecvenţe absolute (nr. firme) (ni) 2 14 18 24 8 4 2 70

Centre de interval (xi)

xi ni

xi  x x i  x

3 0,8 1,2 1,6 2,0 2,4 2,8 -

4 11,2 21,6 38,4 16 9,6 5,6 102,4

5 -0,66 -0,26 0,14 0,54 0,94 1,34



 2 nixi  x  4 ni

6 6,098 1,217 0,470 2,333 3,534 3,591 17,244

7 2,656 0,082 0,009 0,680 3,123 6,448 13,000

Distribuţia de frecvenţe absolute este reprezentată grafic în figura 3.3, prin histogramă. 30 Număr de firme

25 20 15 10 5 0 0,6-1,0 1,0-1,4 1,4-1,8 1,8-2,2 2,2-2,6 2,6-3,0 procentul pt. reclama si publicitate

Figura 3.3 Distribuţia firmelor după procentul cheltuit pentru reclamă şi publicitate b) Se calculează media aritmetică ponderată a procentului cheltuit pentru reclamă şi publicitate, pe baza frecvenţelor absolute (coloana 4): x

 xi ni  ni



102 ,4  1,4628  1,46 % 70

Aşadar, o firmă din cele 70 luate în studiu a cheltuit, în medie, 1,46% din profit pentru reclamă şi publicitate.

Pentru a verifica reprezentativitatea mediei obţinute, trebuie calculat coeficientul de variaţie, pe baza abaterii medii pătratice: s v  x  100 x sx 

s x2

Dispersia variabilei în eşantion este: s x2

  xi  x    ni

2

ni



17 ,244  0 ,2463 70

Calculele intermediare necesare în determinarea dispersiei sunt prezentate în coloanele 5 şi 6. Abaterea medie pătratică va fi: s x  0 ,2463  0 ,4963  0 ,5 %. iar coeficientul de variaţie: s 0 ,5 v  x  100   100  34 ,24% < 35%, ceea ce înseamnă că media calculată este reprezentativă, 1,46 x colectivitatea fiind omogenă. c) Se cer calculaţi următorii indicatori medii de poziţie: c1) prima cuartilă (Q1): Pentru calculul ei se procedează astfel:  se determină locul primei cuartile: ni  1 71 locQ1    17 ,75 4 4



 se găseşte intervalul în care se află prima cuartilă (primul interval a cărui frecvenţă cumulată crescător depăşeşte locul primei cuartile), acesta este 1,0-1,4;  se calculează prima cuartilă, cu formula:

Q1  x0  k

loc Q1  FcQ1 1 nQ1

 1  0 ,4 

17 ,75  14  1,08 18

%.

unde: x0 = limita inferioară a intervalului primei cuartile; k = mărimea intervalului cuartilic; FcQ1-1 = frecvenţa cumulată a intervalului anterior celui cuartilic; nQ1 = frecvenţa absolută a intervalului primei cuartile. Aşadar, 75% dintre firme au cheltuit pentru reclamă şi publicitate mai mult de 1,08 % din profit. c2) Mediana (Me) ni  1 71 locMe    35 ,5 2 2 Mediana se găseşte în intervalul 1,4-1,8.



Me  x0  k

loc Me  FcMe 1 35 ,5  32  1,4  0 ,4   1,458 %. nMe 24

Deci, 50% din firme au cheltuit pentru reclamă şi publicitate mai mult de 1,458 % din profit, iar 50% mai puţin. c3) Cuartila a treia (Q3) 3( ni  1 ) locQ3   53 ,25 4 A treia cuartilă se găseşte tot în intervalul 1,4-1,8.



Q3  x0  k

loc Q3  FcQ3 1 nQ3

 1,4  0 ,4 

53,25  32  1,754 %. 24

Aşadar, 25% din firme au cheltuit pentru reclamă şi publicitate mai mult de 1,754 % din profit, iar 75% mai puţin. d) Analizăm asimetria distribuţiei cu ajutorul coeficientului de asimetrie al lui Pearson. Cas 

x  Mo sx

Mo  x0  k

1 1   2

unde: x0 = limita inferioară a intervalului modal; k = mărimea intervalului modal; Intervalul modal este intervalul cu frecvenţa maximă: [ 1,4-1,8) 1 = nMo – nMo-1 = frecvenţa intervalului modal minus frecvenţa intervalului anterior celui modal; 2 = nMo - nMo+1 = frecvenţa intervalului modal minus frecvenţa intervalului următor celui modal; Se obţine Mo  1,4  0 ,44 

24  18  1,52%. ( 24  18 )  ( 24  8 )

Cele mai multe firme au cheltuit pentru reclamă şi publicitate 1,52% din profit. Cas 

1,46  1,52  0 ,12 3, iar 2 > 0.

d) Se creează o caracteristică alternativă cu o stare favorabilă (firmele care au cheltuit peste 2,2%) şi o stare nefavorabilă (firmele care au cheltuit mai puţin de 2,2%). Media caracteristicii alternative este: m 6 w   0 ,086  0 ,09 (în medie, 9% din firme au cheltuit peste 2,2%) n 70 iar dispersia: s 2  w 1  w   0 ,09  0 ,91  0 ,08 . 4. Se cunosc următoarele date referitoare la distribuţia celor 3569 structuri de primire turistică cu funcţiuni de cazare turistică, pe categorii de confort în anul 2003:

Tabelul 3.7 Categorii de confort 0 Neclasificate 1 stea 2 stele 3 stele 4 stele 5 stele TOTAL

Număr de unităţi (ni) 1 448 1080 1479 427 125 10 3569

Sursa: www.insse.ro Să se determine indicatorii tendinţei centrale pentru această serie.

Rezolvare: Datele prezentate în tabelul 3.7 reprezintă o serie de distribuţie de frecvenţe pe variante, iar variabila analizată (categoria de confort) este calitativă, măsurată pe o scală ordinală. Din categoria indicatorilor ce caracterizează tendinţa centrală, pentru această serie pot fi determinate valoarea modală (modul) şi mediana. Modul (Mo) este valoarea variabilei cu frecvenţa cea mai mare, deci nivelul Mo este “2 stele” (nimax =1467). Pentru determinarea medianei (Me) procedăm astfel:





Calculăm frecvenţele absolute cumulate crescător (Fci)- coloana 2, tabelul 3.8. Tabelul 3.8 Categorii de confort

Număr de unităţi (ni)

0 Neclasificate 1 stea 2 stele 3 stele 4 stele 5 stele TOTAL

1 448 1080 1479 427 125 10 3569

Frecvenţe absolute cumulate crescător (Fci) 2 448 1528 3007 3434 3559 3569 -

Determinăm locul medianei: 6

 ni  1

locMe  i 1



n  1 3570   1785 2 2

2 Determinăm mediana: Mediana reprezintă acel nivel al variabilei analizate corespunzător primei frecvenţe cumulate crescător mai mare decât locMe. Deci şi nivelul Me este “2 stele” (Fc3=3007>locMe=1785).



5. Două grupe de studenţi, cu efective de 25 şi, respectiv, 32 de persoane, au susţinut un test de cultură generală. Prima grupă a obţinut media 7,8, iar a doua 8,4. Cercetătorul este interesat în a determina nota medie pe ansamblul celor două grupe. Răspuns: Nota medie pe ansamblul celor două grupe se poate determina ca o medie de medii parţiale. Să notăm: n1 = 25 şi x 1  7 ,8 n2 = 32 şi x 2  8 ,4  x i ni , x  x 1  n1  x 2  n2  7 ,8  25  8 ,4  32  195  268 ,8  8 ,14 puncte. Atunci: x  n1  n 2 25  32 57  ni

6. Consideraţi următoarele valori: 5, 7, 4, 5, 20, 6, 4. a) Calculaţi media aritmetică şi mediana acestui set de date; ce valoare vi se pare mai potrivită pentru a caracteriza tendinţa centrală: media sau mediana? b) Înlocuiţi valoarea 20 cu valoarea 8 şi recalculaţi cei doi indicatori ai tendinţei centrale. Explicaţi modificările survenite. c) Adăugaţi 50 fiecărei valori iniţiale. Cum se va modifica media? Răspuns: x  7 ,28

Pentru determinarea medianei, datele se ordonează: 4, 4, 5, 5, 6, 7, 20. Se determină locul medianei în serie: ni  1 7  1 Loc Me    4. 2 2 Seria având un număr impar de termeni, mediana este egală cu valoarea termenului central (al patrulea), deci Me = 5. Mediana este un indicator potrivit pentru a studia tendinţa centrală în acest set de date, deoarece valoarea 20 este o valoare extremă, ce afectează, prin magnitudine, nivelul total al variabilei şi deci valoarea mediei. Şase dintre cele şapte valori se situează sub valoarea mediei aritmetice, ceea ce face ca indicatorul mediană să exprime mai corect tendinţa centrală. b) Noile valori sunt: 4, 4, 5, 5, 6, 7, 8. x  5 ,57 , Me = 5. Valoarea medianei rămâne neschimbată, ea ţinând cont numai de numărul valorilor mari, nu şi de valoarea lor efectivă. c) Valorile sunt: 55, 57, 54, 55, 70, 56, 54.  x'i  401  57 ,28  x  50 . x'  n 7 Se verifică proprietatea mediei aritmetice de a se modifica () cu „a“ unităţi, dacă fiecare valoare se modifică () cu câte „a“ unităţi.



9. Directorul unei bănci doreşte să cunoască situaţia numărul de zile de întârziere a rambursării creditelor. Analizând distribuţia debitorilor după numărul zilelor de întârziere, constată următoarele: 30% din debitori întârzie între 10 şi 20 de zile, 40% între 20 şi 30 de zile, 18% între 30 şi 40 de zile, iar restul mai mult de 40 de zile. Care este numărul mediu de zile de întârziere a plăţii pe un debitor? Răspuns: Datele pot fi sistematizate ca în tabelul 3.11: Tabelul 3.11

Intervale de variaţie a numărului de zile de întârziere a plăţii 10-20 20-30 30-40 40 şi peste Total

Număr de debitori (%)

xi

xi ni*%

40 30 18 12 100

15 25 35 45 -

600 750 630 540 2520

Se va utiliza media aritmetică ponderată, calculată pe baza frecvenţelor relative: xi n*i% 2520  x   25 ,2  25 zile. 100 100 Aşadar, în medie, un debitor al băncii întârzie 25 zile la rambursarea unui credit. 15. Un cercetător face un studiu asupra unor firme, privind şansele pe care acestea le oferă tinerilor angajaţi de a promova repede şi de a avansa în carieră. Pentru aceasta el a cuprins în studiu un număr de 20 de companii producătoare de tehnologie de vârf şi a înregistrat timpul scurs de la angajarea iniţială a unui

salariat în firmă până la prima promovare a acestuia. Firmele au fost grupate după mărime, iar datele înregistrate sunt: Tabelul 3.20 Mărimea firmelor Mici Medii Mari

Număr de săptămâni de la angajare până la prima promovare 30; 26; 30; 38; 32; 24; 32; 30; 30; 34; 32; 25; 36; 49; 42; 43; 48; 40; 49; 40.

Se cere: a) să se determine numărul mediu de săptămâni până la prima promovare, pe fiecare grupă de firme, precum şi pe total; b) să se arate dacă numărul mediu de săptămâni până la prima promovare, calculat pe total, la punctul anterior, este o valoare reprezentativă; c) în ce măsură variaţia timpului scurs până la prima promovare este influenţată de mărimea firmei? Rezolvare a) Notăm cu X – caracteristica „mărimea firmelor“ – factorul de grupare şi cu Y – caracteristica “număr de săptămâni de la angajare până la prima promovare”. Tabelul 3.21 Mărimea firmelor Mici Medii Mari Total

ni

yi

8 5 7 20

30,25 31,4 44,43 -

si2

15,44 14,24 14,53 -

i  1,3 ,

i reprezintă grupa (mărimea firmei) Calculăm mediile pentru fiecare grupă i ( yi ): 8

 y1 j y1 

j 1

n1



săptămâni; 30  26  30  38  32  24  32  30  30 ,25 8



săptămâni; 30  34  32  25  36  31,4 5



săptămâni. 49  42  43  48  40  49  40  44 ,43 7

5

 y2 j y2 

j 1

n2 7

 y3 j y3 

j 1

n3

Numărul mediu de săptămâni pentru întreaga colectivitate de 20 de firme poate fi calculată ca medie a mediilor parţiale: y

 y i ni  ni



30 ,25  5  31,4  8  44 ,43  7  35 ,67 săptămâni. 20

b) Pentru a verifica dacă numărul mediu de săptămâni până la prima promovare, calculat pe total, la punctul anterior, este o valoare reprezentativă trebuie să calculăm, mai întâi, dispersia pe total cu ajutorul regulii de adunare a dispersiilor. Determinăm, mai întâi, dispersia fiecărei grupe i ( si2 ): 8

s12 

  y1 j  y1  j 1



n1 5

s22 

2

  y2 j  y 2  j 1

n2

3 30  30 ,25  2  2 32  30 ,25  2   26  30 ,25  2   38  30 ,25  2   24  30 ,25  2  15 ,44 8

2



 30  31,4  2   34  31,4  2   32  31,4  2   25  31,4  2   36  31,4  2 5

 14 ,24

7

s32 

  y3 j  y 3 

2

j 1



n3

2 49  44 ,43  2  2 40  44 ,43  2   42  44 ,43  2   43  44 ,43 2   48  44 ,43  2  14 ,53 7

Media dispersiilor grupelor va fi: s2 

 si2 ni  ni



15 ,44  5  14 ,24  8  14 ,53  7  14 ,64 20

Dispersia dintre grupe care sintetizează influenţa factorului de grupare X asupra variaţiei variabilei Y este: 

2

  yi  y    ni

2

ni



 30 ,25  35 ,67  2  5   31,4  35 ,67  2  8   44 ,43  35 ,67  2  7 20

 41,5

Din regula de adunare a dispersiilor rezultă: s2  s

2

  2  14 ,64  41,5  56 ,14

Reprezentativitatea mediei este influenţată de omogenitatea seriei de date şi se măsoară cu ajutorul coeficientului de variaţie: v

s 56 ,14 100  100  21%. y 35 ,67

Cum v < 35%, rezultă că numărul mediu de săptămâni până la prima promovare este o valoare reprezentativă pentru colectivitate.

c) Pentru a calcula în ce măsură variaţia timpului scurs până la prima promovare este influenţată de mărimea firmei utilizăm coeficientul de determinaţie: R2 

2 s

2

100 

41,5 100  74%. 56 ,14

Aşadar, 74% din variaţia caracteristicii Y este influenţată de mărimea firmei, iar influenţa altor factori (consideraţi aleatori) este: K 2  1  R2 

s

2

s2

100  26%.