(Sinteza) Bazele Statisticii [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Drd. Mihaela Cazacu

BAZELE STATISTICII Recapitulare

Concepte de bază utilizate în statistică Statistica este ştiinţa care se ocupă cu: colectarea, clasificarea/sistematizarea, analiza, interpretarea datelor şi a informaţiilor. POPULAŢIA STATISTICĂ (colectivitate generală)= totalitatea elementelor de aceeaşi natură care au trăsături esenţiale comune şi care sunt supuse unui studiu statistic. EŞANTIONUL (colectivitate parţială, colectivitate de selecţie)= submulţimea de elemente selectate dintro colectivitate statistică. UNITATEA STATISTICĂ = elementul constitutiv al unei colectivităţi statistice care este purtătorul unui nivel al fiecărei caracteristici supuse observării şi cercetării statistice.  Unităţile statistice pot fi simple sau complexe. Unităţile complexe sunt rezultate ale organizării sociale ori economice a colectivităţii statistice (exemplu: familia). VARIABILA (CARACTERISTICA) STATISTICĂ = trăsătura, proprietatea, însuşirea comună tuturor unităţilor unei colectivităţi şi care variază, ca nivel, variantă sau valoare, de la o unitate a colectivităţii la alta. O clasificare importanta a variabilelor statistice reprezinta clasificarea acestora in CALITATIVE şi CANTITATIVE. Variabilele cantitative pot fi de tip continuu sau discret  Datele discrete sunt răspunsuri numerice care apar în urma unui proces de numărare (date a căror variaţie se manifestă prin salturi, pot lua doar anumite valori pe scara lor de variaţie care este o submulţime a mulţimii numerelor întregi).  Datele continue sunt răspunsuri numerice care apar în urma unui proces de măsurare (date care pot lua orice valoare din scara lor de variaţie care este un interval de numere reale). FRECVENŢA DE APARIŢIE a unei variante/valori reprezintă numărul de apariţii al acestei variante/valori în colectivitate. STATISTICA DESCRIPTIVĂ poate fi definită ca totalitatea metodelor de culegere, prezentare şi caracterizare a unui set de date, în scopul de a descrie principalele trăsături ale setului de date.

STATISTICA INFERENŢIALĂ poate fi definită ca totalitatea metodelor ce permit estimări, luarea unor decizii, realizarea unor previziuni sau alte generalizări pentru colectivitatea generală, pe baza rezultatelor obţinute pe un eşantion. PARAMETRUL STATISTIC reprezintă un indicator statistic descriptiv calculat pentru o colectivitate totală (generală). Indicatorul statistic ce este calculat într-un eşantion şi pe baza căruia se estimează parametrul colectivităţii generale se numeşte statistică. ESTIMATORUL reprezintă un indicator statistic calculat pe un eşantion care reprezintă aproximarea valorii adevărate şi necunoscute a unui parametru ce caracterizează colectivitatea generală.

Măsurarea datelor. Tipuri de scale Prelucrarea statistică ţine cont de tipul datelor şi de scala pe care acestea sunt măsurate. Toate datele statistice colectate sunt transpuse pe o scală de măsurare. Indicatorii statistici calculaţi pentru o variabilă depind de nivelul de scalare utilizat. Patru niveluri de măsurare sunt utilizate (de la cea mai slabă la cea mai puternică: 1. scala nominală (de clasificare sau scala denumirilor) este utilizată pentru măsurarea variabilelor de tip nenumeric (calitativ) . 2. scala ordinală (este utilizată pentru măsurarea variabilelor de tip nenumeric (calitativ) ale căror variante de răspuns pot fi ordonate. 3. scala de interval (sau cardinală) este prima scală numerică, ce foloseşte unităţi de măsurare egale.  O caracteristică a scalei de interval este absenţa unui punct zero absolut. 4. scala de raport (proporţională) se utilizează pentru măsurarea variabilelor numerice, fiind scala care permite ca afirmaţiile făcute pe baza operaţiilor de adunare, diferenţă, multiplicare sau divizare să aibă sens.

Colectarea datelor Sursele de date statistice se pot clasifica în: surse primare (obţinute prin observări totale sau parţiale) şi surse secundare de date. Indiferent de amploarea observării (totale sau parţiale) culegerea datelor se poate face prin: 1. Observări curente (înregistrare permanentă, de ex. evenimentele demografice: natalitate, mortalitate etc.) 2. Observări periodice (datele se înregistrează la intervale de timp precizate)

3. Observări directe (datele sunt înregistrate de către operator sau cercetător direct de la unităţile statistice) 4. Observări indirecte (datele se înregistrează din diverse surse care au consemnat anterior fenomenul studiat, de ex. documentele contabile)

Etapele unei cercetari statistice sunt: 

observarea statistică - reprezintă acţiunea de culegere, de la unităţile statistice, a valorilor referitoare la caracteristicile urmărite, după criterii riguros stabilite. Planul observării statistice cuprinde:





scopul observării



delimitarea colectivităţii şi unităţii de observare



stabilirea caracteristicilor ce vor fi înregistrate



alegerea formularelor de înregistrare



delimitarea timpului şi locului observării



stabilirea măsurilor organizatorice.

prelucrarea statistică

 analiza şi interpretarea rezultatelor

Prezentarea şi reprezentarea datelor univariate Sistematizarea datelor se realizează prin clasificare (variabile nenumerice) şi grupare (variabile numerice). Sistematizarea presupune împărţirea datelor în grupe omogene, după unul sau mai multe criterii, criteriul de grupare fiind dat de variabila statistica. Grupările sunt simple sau combinate în funcţie de numărul criteriilor utilizate. Gruparea datelor trebuie să se facă după principiile: omogenităţii, unicităţii si cel al universalităţii. Grupele constituite trebuie să fie deci exhaustive şi mutual exclusive. Rezultatul grupării datelor îl reprezintă seria de distribuţie de frecvenţe. Gruparea reprezintă sistematizarea datelor după o variabilă numerică (discretă sau continuă). Dacă variabila este discretă şi cu un număr redus de valori distincte (max. 10) sistematizarea datelor se face prin gruparea pe variante, obţinându-se o serie de distribuţie de frecvenţe pe variante. Frecvenţa grupelor se stabileşte prin numărarea unităţilor care iau aceeaşi valoare.

Dacă variabila numerică este discretă şi are un număr mare de valori distincte sau este continuă sistematizarea presupune gruparea pe intervale de variaţie. Intervalul de variaţie reprezintă un şir de valori ale variabilei studiate delimitat prin limita inferioară şi limita superioară. Intervalele de variaţie pot fi de mărime egală sau neegală. Dacă sistematizarea se face după o variabilă nenumerică vorbim clasificarea datelor. Clasificarea presupune împărţirea unităţilor în categoriile variabilei nenumerice considerate. Prin numărarea unităţilor statistice ce se încadrează în fiecare clasă se stabileşte frecvenţa clasei Frecvenţa fiecărei clase, astfel determinată, se numeşte frecvenţă absolută, notată

ni i  1, r , , unde r

r

n

n

i

i 1

reprezintă numărul de clase, iar

.

Se poate calcula şi frecvenţa relativă a clasei (

ni* 

ni



r



ni

ni* ), care indică proporţia din numărul total de unităţi, care ni n

r

n

* i

i 1 se încadrează în fiecare clasă: , unde i 1 eşantionului. Exprimată în procente, frecvenţa relativă a grupei i este:

ni*% 

ni r

n

100 

ni 100 n

i

i 1

.

1 , iar n reprezintă volumul total al

Măsuri statistice descriptive pentru date univariate Măsurarea tendinţei centrale Pentru o variabilă numerică, folosind indicatorii statistici, putem analiza trei proprietăţi majore: 1. Tendinţa centrală 2. Variabilitatea 3. Forma distribuţiei Indicatorii tendinţei centrale = indicatori sintetici cu ajutorul cărora urmărim să exprimăm printr-o singură valoare ceea este tipic, esenţial, stabil într-o serie de date numerice. Indicatorii tendinţei se clasifică, în funcţie de modul de determinare, în: - indicatori medii de calcul: geometrică

media aritmetică, media armonică, media pătratică, media

- indicatori medii de poziţie : modul, mediana Indicatorii fundamentali ai tendinţei centrale sunt: media aritmetică, mediana (Me) si modul (Mo). Indicatorii tendinţei centrale, pentru a reda corect nivelul în jurul căruia tind valorile individuale, trebuie să îndeplinească următoarele condiţii: -

-

să fie definiţi în mod precis printr-o definiţie sau formulă; să poată fi calculaţi cu uşurinţă şi rapiditate şi să se preteze calculelor algebrice; să nu fie afectaţi prea tare de fluctuaţiile de selecţie în cazul în care datele provin dintr-un sondaj statistic (adică mediile diferitelor eşantioane de volum egal provenite din aceeaşi colectivitate să nu fie sensibil diferite); să nu aibă caracter matematic prea abstract; să fie expresia tuturor observaţiilor făcute.

1. Media aritmetică (average, mean, în engl.) Media aritmetică, numită adeseori “medie” este indicatorul cel mai utilizat pentru caracterizarea tendinţei centrale. Media se calculează însumând toate valorile individuale şi împărţind suma la numărul lor, ea reprezentând acea valoare care înlocuind toţi termenii unei serii nu modifică nivelul lor totalizator. Media aritmetică calculată pentru o colectivitate statistică este acea valoare care s-ar fi obţinut dacă toţi factorii ar fi exercitat o influenţă constantă asupra tuturor unităţilor înregistrate. Formula de calcul a mediei este: n

-

pentru eşantion - estimator

x

x i 1

n

i

N

-

pentru colectivitatea generală – parametru



x i 1

i

N

Exemplu:

Dacă datele au fost sistematizate într-o serie de distribuţie de frecvenţe, în care valorile/centrele intervalelor r

x de variaţie apar cu frecvenţele, se determină media ca medie aritmetică ponderată

xn i 1 r

i i

n i 1

i

.

Proprietăţile mediei aritmetice: 1) Dacă pentru toate unităţile se înregistrează aceeaşi valoare a caracteristicii atunci media este egală cu acea valoare. 2) Media aritmetică are întotdeauna valoare cuprinsă între valoarea minimă a caracteristicii (xmin) şi valoarea maximă (xmax). 3) Suma abaterilor valorilor individuale ale caracteristicii de la media lor este nulă, adică distanţele faţă de centru se compensează reciproc. 4) În cazul seriilor de frecvenţă, media oscilează în jurul termenului căruia îi corespunde frecvenţa maximă. 5) Dacă toţi termenii unei serii statistice se măresc sau se micşorează cu o constantă “a”, atunci şi media se va mări sau se va micşora cu respectiva constantă “a”. 6) Dacă toţi termenii unei serii statistice se înmulţesc sau se împart cu o constantă “h”, atunci şi media se va multiplica sau se va reduce de “h” ori. 7) Dacă frecvenţele unei serii de repartiţie se multiplică sau se împart cu o constantă “a”, atunci media nu se va modifica. 8) Media aritmetică este sensibilă la valorile extreme, care pot afecta semnificaţia şi reprezentativitatea mediei ca valoare centrală. Pentru ca media să fie reprezentativă trebuie ca datele din care se calculează să fie cât mai omogene. 9) Media generală calculată pentru o serie de repartiţie de frecvenţă corespunzătoare colectivităţii generale este egală cu media aritmetică ponderată a mediilor parţiale calculate pe baza seriilor de repartiţie componente. 10) Media aritmetică calculată pentru o serie simplă şi media aritmetică calculată pentru aceeaşi serie cu datele grupate pe intervale (utilizând centrul de interval), pot să fie sau nu egale. Cele două medii sunt egale dacă frecvenţele din seria de repartiţie de frecvenţe sunt normal distribuite pe fiecare interval. 11) Pentru o variabilă alternativă (binară) media aritmetică se calculează astfel:

Alte tipuri de medii:

2. Mediana Mediana apartine clasei indicatorilor cuantilici (cvantilici). Alţi indicatori cuantilici sunt: cuartilele (împart o serie de date în 4), decilele (împart o serie de date în 10) si percentilele (procentilele) (împart o serie de date în 100). În caracterizarea unui set de date, cele mai uzuale cuantile sunt:  Cuantila de ordin 2 ( mediana )  Cuantilele de ordin 4 (cuartile, notate Q1, Q2, Q3, care împart seria în patru părţi egale, delimitând câte 25% din observaţii, Q2=Me)  Cuantilele de ordin 10 (decile, notate D1, ...., D9 şi care delimitează câte 10% din observaţii, D5 = Me)  Cuantilele de ordin 100 (centile, care delimitează câte 1% din observaţii) Cuantilele de ordin mai mare decât 2 se folosesc în cazul seturilor de date de volum mare (

)

Pentru a determina mediana se introduce noţiunea de ranguri, adică numere de ordine asociate observaţiilor, de la cea mai mică (cu rangul 1), până la cea mai mare (rangul n) . Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul unităţii din mijlocul seriei.

 Dacă seria are un număr par de termeni atunci mediana se calculează ca media aritmetică a celor doi termeni situaţi în mijlocul seriei ordonate.  Dacă seria are un număr impar de termeni atunci mediana reprezintă termenul din mijlocul seriei ordonate. Mediana poate fi calculată pentru orice tip de date, cu excepţia celor nominale (care nu pot fi ordonate). Mediana este indicată atunci când: - datele sunt profund asimetrice - există valori extreme - datele sunt măsurate pe scala ordinală Exemplu: Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34, 32, 35, 41}, mediana se determină astfel: - ordonăm crescător valorile seriei: {30, 32, 32, 32, 34, 35, 35, 37, 40, 41} - calculăm locul medianei: Loc Me = (n+1)/2 = 11/2=5,5 - mediana este valoarea cuprinsă între al 5-lea şi al 6-lea termen al seriei ordonate şi se calculează ca fiind media aritmetică a celor doi termeni aflaţi în centrul distribuţiei: Astfel, jumătate dintre valorile seriei sunt mai mici decât valoarea 34,5.

Pentru o serie de frecvenţe: P1. Se calculează frecvenţe cumulate crescător (Fi ) P2. Mediana este prima variantă pentru care este adevărată relaţia:

Pentru o serie de date grupate pe intervale: P1: Se calculează frecvenţe cumulate crescător (Fi ) P2: Se alege intervalul ce conţine mediana ca fiind primul interval pentru care este valabilă relaţia

P3: În interiorul intervalului ce conţine mediana, formula de calcul este :

Construirea diagramei Box- Plot: Se utilizează cinci indicatori, din categoria indicatorilor medii de poziţie care oferă informaţii privind tendinţa centrală, variabilitatea şi forma distribuţiei variabilei studiate: - valoarea minimă -xmin (numită şi percentila 0); - cuartila inferioară -Q1 (delimitează cele mai mici 25% din valori); - mediana -Me (delimitează 50% din valori); - cuartila superioară -Q3 (delimitează cele mai mari 25% din valori); - valoarea maximă -xmax (numită şi percentila 100)

Valorile extreme (outliers, în engl.) ale unei serii de date se determină, pe baza diagramei Boxplot, astfel:

xmin  xi  Q1  1,5  IQR xmax  xi  Q3  1,5  IQR IQR se numeşte abatere intercuartilică (InterQuartile Range) :

IQR  Q3  Q1

3. Valoarea modala Definiţie: Valoarea modală este valoarea cu frecvenţă maximă de apariţie. Setul de date poate avea un mod (sau clase modale), doua sau mai multe moduri. Avantaje: -

Poate fi calculată pentru variabile calitative (exprimate prin cuvinte) (de ex.: culoarea ochilor, culoarea părului, starea civilă etc.) Şansele ca rezultatul să fie o valoare existentă în realitate sunt mult mai mari decât la medii

Exemplu: Managerul unui magazin de haine pentru barbati observa dimensiunea taliei pantalonilor vanduti in ziua anterioara: 31, 34, 36, 33, 28, 34, 30, 34, 32, 40. Modul acestui set de date este 34.

Calculul valorii modale pentru o serie de date grupate pe intervale: P1. Se alege intervalul modal ca fiind intervalul cu frecvenţa maximă P2. În interiorul

intervalului

modal,

valoarea modală

se determină cu ajutorul

formulei:

unde: •

x0 este limita inferioară a intervalului modal;



h este mărimea intervalului modal;



1  nMo  nMo1 este diferenţa între frecvenţa intervalului modal şi frecvenţa intervalului anterior celui modal;



 2  nMo  nMo1

este diferenţa între frecvenţa intervalului modal şi frecvenţa intervalului următor celui modal;

Relatia intre Medie, Mediana si Mod Pentru a obţine o imagine completă asupra unui fenomen economico-social se determină şi analizeză atât cei trei indicatori ai tendinţei centrale, cât şi relaţia dintre ei.  Media poate fi utilizată când setul de date este (cel puţin aproximativ) normal distribuit şi, în acest caz, este cel mai potrivit indicator pentru a caracteriza tendinţa centrală.  Media este indicatorul care va fi utilizat cel mai des deoarece răspunde cel mai bine scopului inferenţei statistice.  Media este mai stabilă şi mai puţin sensibilă la fluctuaţiile de selecţie decît mediana  Media poate fi supusă cu uşurinţă calculelor algebrice, spre deosebire de mediană Daca o distributie este simetrica, media, mediana si modul coincid, in timp ce daca distributia este asimetrica si alungita la stranga sau la dreapta, cele trei marimi difera.  Modul poate fi calculat pentru orice set de date univariate  Modul poate fi afectat de modalitatea de construire a intervalelor, pentru date numerice grupate.

Pentru o serie cel mult uşor asimetrică este valabilă relaţia: x − Mo ≅ (3 x − Me)

Măsurarea variabilităţii

Abaterea standard sau abatere medie pătratică (standard deviation, în engl.) •

pentru un eşantion (sample standard deviation, în engl.) - estimator

 x  x  n

s  s2 



i 1

2

i

n 1

pentru populaţia statistică – parametru N

   2

-

 x    i 1

2

i

N

reprezintă rădăcina pătrată a dispersiei are unitatea de măsură a variabilei studiate (din acest motiv, este dificil să facem comparaţii, privind omogenitatea/eterogenitatea datelor, între serii statistice, pe baza acestui indicator, ori a altui indicator sintetic al variabilităţii exprimat în mărimi absolute)

Dispersia se calculeaza ca o medie aritmetica simpla sau ponderata a patratelor abaterilor termenilor seriei de media lor: -

pentru o serie simpla:

- pentru o serie de frecvente:

Coeficientul de variaţie -

reprezintă expresia relativă a variabilităţii, fiind calculat ca raport între abaterea standard şimedie:

v

s 100 x

-

cu cât valoarea coeficientului de variaţie este mai mică, cu atât datele sunt mai omogene

-

seriile pentru care v 30-35% sunt omogene, cu medii reprezentative ce caracterizează corect tendinţa centrală din colectivitate

-

dacă două serii statistice au coeficienţi de variaţie diferiţi, seria care are coeficientul de variaţie mai mic este mai omogenă

-

dacă coeficientul de variaţie este mare atunci seria statistică se împarte în subserii omogene, după un criteriu considerat cu influenţă semnificativă asupra variaţiei

Dacă o serie statistica este alcătuită din mai multe grupe componente, variaţia totală se poate calcula dupa o schemă cunoscută sub numele de “regula de compunere a variabilităţii totale”.  Abaterea fiecărei valori de la media totală a seriei este explicată prin influenţa factorului de grupare şi a altor factori ce acţionează la nivelul fiecărei grupe.  Putem cuantifica, astfel, cât din variaţia caracteristicii studiate este explicată de factorul de grupare ales Pornind de la factorii de influenta care determina variatia valorilor variabilei Y, intre dispersiile mentionate exista relatia:

Media dispersiilor de grupa

este o medie aritmetica a dispersiilor de grupa:

Dispersia dintre grupe sau dispersia explicata masoara variatia mediilor de grupa de la media generala si exprima variatia datorata actiunii factorilor de grupare, deci X.

Pe baza regulii de adunare a dispersiilor se calculeaza doi indicatori derivati (marimi relative de structura) care exprima ponderea variatiei actiunii fiecarui grup de factori (esentiali si neesentiali) in variatia totala si anume: · Coeficientul de determinatie (R2y/x) exprima ce cota parte din variatia totala se datoreaza actiunii factorului considerat esential.

sau · Coeficientul de nedeterminatie (K2y/x) masoara cat la suta din variatia totala se datoreaza influentei factorilor neinregistrati, considerati neesentiali sau reziduali.

Exemplu:

Cifra de afaceri Pana la 20 20 – 24 24 – 28 28 – 32 32 – 36 36 – 40 40 si peste Total

Numar de economici 15 25 50 46 35 24 5 200

agenti

Frecvente cumulate 15 40 90 136 171 195 200

Variatia cifrei de afaceri prezentata in tabelul de mai sus se datoreaza actiunii unui mare numar de factori: numarul salariatilor; domeniul de activitate; preturile practicate; calitatea produselor etc. Presupunem ca un factor esential de influenta este numarul de salariati (X). In acest caz se grupeaza mai intai agentii economici dupa acest factor iar grupele obtinute se defalca dupa cifra de afaceri (Y). Procedand astfel se obtine o repartitie bidimensionala.

Calculul mediilor pentru variabila « cifra de afaceri ». - media generala (

):

miliarde lei - mediile de grupa : (

)

respectiv

si

miliarde lei

miliarde lei

Media generala (

) poate fi calculata pe baza mediilor partiale (

miliarde lei

) astfel:

Calculul dispersiilor pentru variabila Y:

:

- dispersia generala

- dispersiile de grupa

:

- media dispersiilor de grupa (

- dispersia dintre grupe

):

sau dispersia explicata

Regula de adunare a dispersiilor:

Coeficientul de determinatie (R2 y/x) este:

ceea ce inseamna ca 39% din variatia cifrei de afaceri a celor 800 de agenti economici se datoreaza deosebirilor privind numarul de salariati. Cota parte de 60,99% din variatia cifrei de afaceri se poate explica prin actiunea tuturor celorlalti factori considerati neesentiali, reziduali.

Media si dispersia unei variabile alternative Variabilele statistice se defalca dupa numarul variantelor / valorilor pe care le pot lua in variabile nealternative si variabile alternative. Variabila alternativa, cazul particular al unei caracteristici nominative sau atributive, la care se inregistreaza numai doua stari, care se exclud reciproc. Cele doua variante care se inregistreaza in cazul unei variabile alternative sunt: DA si NU. Exprimarea cantitativa a celor doua variante presupune inlocuirea variantei DA cu 1 si a variantei NU cu 0.

Media variabilei alternative:

Deci, media unei caracteristici alternative este ponderea unitatilor care poseda varianta care intereseaza (D) in totalul unitatilor, deci este o frecventa relativa. Dispersia unei astfel de variabile se deduce din relatia de baza de calcul a dispersiei:

Prin urmare, dispersia caracteristicii alternative este produsul dintre ponderea celor doua variante in colectivitatea studiata.

Asimetria

Descrierea unei repartitii statistice unidimensionale se realizeaza, de regula, prin intermediul mediei si al dispersiei. Sunt insa situatii cand unii utilizatori reclama informatii privind forma repartitiei, ceea ce inseamna un indicator prin care se caracterizeaza forma variatiei valorilor in jurul mediei. Seriile de distributie pot fi simetrice si asimetrice sau oblice. Se spune ca o distributie este simetrica daca frecventele de aparitie (absolute sau relative) scad proportional si simetric in raport cu frecventa cea mai mare, care corespunde valorii centrale. Intr-o distributie simetrica, cei trei indicatori ai tendintei centrale sunt egali. Asimetria de stanga (pozitiva) sau de dreapta (negativ) se judeca in functie de pozitia modului (Mo) fata de medie

pe axa absciselor.

Pentru masurarea aimetriei se foloseste frecvent coeficientul de asimetrie propus de Karl Pearson:

Acest coeficient poate lua valori cuprinse intre – 1 si + 1. Cu cat Cas este mai mic cu atat distributia tinde mai mult spre una simetrica. Se considera ca o distributie este moderat asimetrica, daca De asemene, CAS mai poate fi determinat astfel:

.

n

xi  x   n i 1 CAS  n  1n  2 s3

3

Daca seria de repartitie este bi sau multimodala (frecventa cea mai mare apare de doua sau de mai multe ori) care tinde spre normalitate, se recomanda calcularea coeficientului de asimetrie (C`as ).

Coeficientul de asimetrie (C`as ) ia valori cuprinse intre (– 3; 3). Un coeficient de asimetrie situat intre – 0,3 si + 0,3 indica o distributie moderat asimetrica. Daca C`as depaseste 0,3, asimetria este puternica, ceea ce sugereaza ca indicatorii tendintei centrale tind sa fie nereprezentativi.

Boltirea Boltirea (kurtosis, în engl.) exprimă înălţimea curbei („cocoaşei”) comparativ cu distribuţia normală teoretică. Întâlnim, astfel distribuţii leptocurtice, ascuţite (cu „cocoaşa” înaltă) şi distribuţii platicurtice, aplatizate.

distribuţie leptocurtică

distribuţie platicurtică

Formula de calcul:

Interpretare CBA: -

CBA>0  Distributie leptocurtica, valorile variabilei fiind concentrate in jurul indicatorilor tendintei centrale CBA