Carte Biostatistica [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

“ Viaţa trebuie măsurată după gândire şi acţiune, iar nu după timp” J.L. Avenbury

65

66

ELEMENTE DE BIOSTATISTICĂ. INDICATORI STATISTICI 1. OBIECTIVELE STATISTICII Statistica este un domeniu ştiinţific care permite studiul fenomenelor a căror proprietate fundamentală este variabilitatea. Aplicaţiile statisticii sunt foarte extinse cuprinzând domenii variate cum sunt: economia, marketingul, industria, agricultura, învăţământul, psihologia, sociologia, biologia, medicina. Biostatistica este ramură a statisticii specializată pentru studiul fenomenelor biologice şi medicale, înglobând tehnicile şi metodele utilizate în domeniul biomedical pentru investigaţie în ştiinţele biologice şi medicale. În biologie, nu există două fiinţe riguros identice, nici chiar o fiinţă identică cu ea însăşi în două momente diferite din existenţa sa. În baza acestei variabilităţi, un parametru biologic pentru a fi cunoscut cu o precizie suficientă, trebuie evaluat pe baza unei mulţimi de măsurători sau observaţii. Apare deci necesitatea de a prezenta şi studia această mulţime de măsurători într-o manieră cât mai simplă, relevantă şi sintetică. În cercetările biomedicale domeniile importante ale statisticii sunt statistica descriptivă şi statistica inferenţială. Statistica descriptivă este ramură a statisticii care se ocupă cu culegerea datelor, înregistrarea, prezentarea şi determinarea unor caracteristici numerice sintetice ale lor. O limită a statisticii descriptive este aceea că ea descrie sau analizează o mulţime de date, de obiecte sau indivizi, fără a trage concluzii asupra unei mulţimi mai mari care o conţin. Statistica inferenţială permite generalizarea unor concluzii obţinute pentru o parte din populaţie la toată populaţia respectivă. De exemplu, testarea unui vaccin pe un lot de voluntari, permite formularea unor concluzii care să fie valabile pentru întreaga populaţie vizată să utilizeze vaccinul. Statistica inferenţială grupează acele metode şi tehnici de estimare a caracteristicilor unei populaţii statistice din observaţii efectuate asupra unei submulţimi de componenţi ai populaţiei. Submulţimea utilizată se numeşte eşantion. Dacă eşantionul este corect selectat şi sunt utilizate proceduri adecvate de derivare a rezultatelor, vom obţine o descriere suficient de exactă a întregii populaţii statistice. Se impune totuşi menţinerea unei diferenţieri între caracteristicile unui eşantion şi cele ale întregii populaţii statistice. Dacă în cadrul populaţiei vorbim de parametrii, în cadrul eşantionului vorbim de estimaţii (sau statistici).

67

NOŢIUNI DE STATISTICĂ Principalele noţiuni utilizate în studiile statistice sunt: -colectivitate statistică (populaţie statistică) -unitate statistică -variabilă statistică -serie statistică 2.1. Colectivitatea statistică (populaţia statistică) formează obiectul analizei statistice şi este reprezentată de totalitatea elementelor care au anumite caracteristici (însuşiri sau atribute) comune. Numărul elementelor populaţiei se numeşte volumul sau talia populaţiei. O populaţie statistică poate fi: -în medicină, mulţimea bolnavilor internaţi, mulţimea hematiilor din sângele unei persoane, mulţimea microbilor dintr-o cultură etc. -într-un studiu demografic, populaţia unei ţări -un grup de indivizi (populaţia şcolară dintr-un oraş la un moment dat, populaţia vârstnică dintr-o anumită regiune la un moment dat) -un grup de evenimente sau fenomene -o mulţime de obiecte. Colectivitatea statistică generală sau populaţia este reprezentată de totalitatea elementelor de un anumit tip existente teoretic sau practic. În definirea populaţiilor statistice, care intervin în populaţiile medicale trebuie stabilite cu claritate: -criterii de includere, respectiv condiţiile în care o entitate este un element al populaţiei, -criteriile de excludere, adică condiţiile în care o entitate nu aparţine populaţiei. Elementele unei populaţii statistice se numesc unităţi statistice (unităţi de observare) sau indivizi ai populaţiei statistice. 2.2. Unitatea statistică este reprezentată de fiecare element component al colectivităţii statistice. Ea este supusă observării, i se determină şi i se înregistrează valoarea caracteristicii sau caracteristicilor studiate. Unităţi statistice pot fi: persoana, familia, căsătoria, născutul viu, gravida, cabinetul medicului de familie etc. Trăsătura comună a tuturor unităţilor unei populaţii care poate să prezinte interes în cadrul unei analize statistice se numeşte caracteristică variabilă.

68

2.3. Caracteristica (variabila) este una din însuşirile prin care se manifestă unitatea de observare, este acea însuşire comună unităţilor unei populaţii investigate. Analiza studiului unei populaţii se poate face după una sau mai multe variabile. Exemple: 1. Să presupunem că interesează studiul numărului de eozinofile la bolnavii internaţi într-un spital de boli infecţioase - Populaţia statistică este formată din mulţimea bolnavilor internaţi într-o anumită perioadă (un an), - O unitatea statistică este constituită din fiecare bolnav, - Caracteristica studiată este numărul de eozinofile ale bolnavului la internare, - Un eşantion din această populaţie statistică poate fi, de exemplu mulţimea alcătuită din 100 de bolnavi internaţi luaţi din doi în doi în ordinea internării. 2. Să presupunem că într-un studiu prezintă interes numărul de pacienţi consultaţi zilnic în cabinetele medicilor de familie dintr-o anumită zonă. Atunci: - Populaţia statistică este reprezentată de mulţimea cabinetelor, - O unitate statistică este reprezentată de oricare cabinet, - Numărul de pacienţi consultaţi zilnic reprezintă o caracteristică. Pentru studiile medicale este foarte importantă stabilirea exactă a condiţiilor de incluziune şi excluziune pentru precizarea exactă a populaţiei statistice. 2.4. Mulţimea de valori pe care o caracteristică le poate lua pentru fiecare unitate sau individ al unei populaţii statistice (sau eşantion) se numeşte variabilă definită pe populaţia statistică (eşantion). În realitate, variabila este o funcţie X: M→ C, unde M este populaţia statistică iar C este o mulţime în care caracteristica ia valori. Variabilele statistice pot fi de două tipuri: • De natură cantitativă, asociate unor caracteristici ce pot fi măsurate, • De natură calitativă, asociate unor caracteristici care nu pot fi măsurate. Pentru variabilele statistice de natură cantitativă mulţimea C este o mulţime de numere reale sau întregi, iar pentru cele de natură calitativă, C poate

69

fi de regulă o mulţime finită conţinând nivele calitative posibile ale caracteristicii. a. Variabilele cantitative sunt asociate unor caracteristici măsurabile. Sunt însuşiri măsurabile ale unităţilor de observare şi care pot fi exprimate printr-o unitate de măsură (cm, g, ore etc.). Ele pot fi: • Variabile continue asociate unor caracteristici măsurabile care pot lua orice formă numerică (inclusiv o fracţiune zecimală sau ordinală). De exemplu: înălţimea, greutatea, vârsta, glicemia, numărul globulelor roşii etc. Calculul mediei are întotdeauna semnificaţie. • Variabile discontinue sau discrete asociate unor caracteristici măsurabile care nu iau valori decât numere întregi (scorul Apgar, numărul copiilor într-o familie etc.). Valoarea mediei nu are întotdeauna semnificaţie. Analiza rezultatelor poate fi delicată. Variabilele cantitative pot fi metamorfozate în variabile calitative, dar întotdeauna cu pierdere de informaţie. De exemplu: transformarea variabilei cantitative continue “vârstă”, în variabilă calitativă “clase de vârstă”. Nu este posibilă transformarea variabilelor calitative în variabile cantitative, chiar dacă codificarea lor este numerică. Variabilele discrete conferă avantajul că de cele mai multe ori este mai simplu de lucrat cu ele decât cu variabilele continue. Procedeul de transformare a unei variabile continue într-o variabilă discretă se numeşte discretizare sau grupare în clase. Această discretizare este cauzată şi de precizia aparatului de măsurat folosit, care transformă o variabilă continuă într-o variabilă discretă. Variabilele de supravieţuire, corespund timpului scurs între includerea unui subiect într-un studiu şi apariţia unui eveniment predefinit al studiului (exemplu: deces, matastază, complicaţie, semn, simptom). Aceste variabile intervin în anumite studii medicale şi sunt tot variabile de tip cantitativ. b. Variabilele calitative sunt asociate unor caracteristici care nu se exprimă în unităţi de măsură. Sunt nemăsurabile, finite, iar calculul mediei valorilor ei nu are sens. De exemplu, dacă unitatea de observare este bolnavul, lui i se pot constata unele însuşiri nemăsurabile, ca starea prezentă din punct de vedere al gravităţii afecţiunii medicale, culoarea tegumentelor, sexul etc. Este importantă definirea numărului şi tipurilor de clase pentru aceste variabile adică a numărului de valori pe care le poate lua. Variabilele calitative pot fi: • Nominale – grupează subiecţii în categorii ce nu pot fi ordonate (exemplu: culoarea ochilor)

70

• Nominale ordonate – subiecţii sunt grupabili în categorii ce pot fi ordonate (exemplu starea de sănătate= precară, bună, foarte bună) • Dichotomiale – subiecţii sunt întotdeauna grupaţi doar în două categorii (exemplu: vii / morţi, masculin / feminin) 2.5 Varianta este valoarea concretă sub care se înregistrează o variabilă. De exmplu, variabila glicemie s-a înregistrat sub valoarea de 120 mg, într-un caz studiat. Aceasta una dintre variantele sub care se poate înregistra caracteristica respectivă (glicemia). 2.6. Frecvenţa este numărul de repetiţii sub care se înregistrează aceeaşi variantă. De exemplu, varianta 120 mg a fost înregistrată la zece pacienţi dintr-o colectivitate, atunci frecvenţa este zece pentru varianta respectivă a variabilei glicemie. 2.7. Seria statistică (sau repartiţia statistică) este şirul de valori numerice ale unei variabile, ordonate după un anumit criteriu, în funcţie de şirul valorilor altei caracteristici, reprezentând corespondenţa dintre două şiruri de date. Repartiţia statistică este caracterizată de legea de repartiţie. După numărul de variabile luate în considerare simultan seriile statistice pot fi: • Univariate, dacă se referă la o singură variabilă, • Bivariate, dacă de referă la două variabile, • Multivariate, dacă se referă la mai mult de două variabile. Dacă seriile se referă doar la variabile cantitative continue, atunci ele se mai numesc unidimensionale, bidimensionale sau multidimensionale în funcţie de numărul de variabile implicate. 2.8. Parametrul statistic este valoarea reprezentativă, dedusă dintr-un calcul numeric aplicat unei repartiţii statistice (adică din legea de repartiţie). De exemplu, media, dispersia, frecvenţa unui caracter etc. 2.9. Indicatorul statistic este mărimea statistică, cu ajutorul căruia se poate caracteriza un fenomen- în cazul nostru, un fenomen bio sau socio-medical – sub raportul structurilor interdependenţelor ori modificărilor în timp sau spaţiu. 2.10. Indicele statistic este valoarea numerică relativă ce rezultă din compararea valorilor unui indicator statistic, fie la diferite momente de timp fie

71

în spaţii diferite, fie pentru categorii diferite constituite în raport cu o caracteristică oarecare.

3. CULEGEREA DATELOR Biostatistica de ocupă de culegerea, clasificarea, descrierea, analiza, interpretarea şi prezentarea datelor observate sau calculate în prealabil. Culegerea datelor presupune că în prealabil au fost parcurse succesiv următoarele etape: Stabilirea scopului cercetării, Determinarea ipotezei de lucru, Documentarea bibliografică şi în teren, Delimitarea colectivităţii de studiat şi a volumului ei, Alegerea locului şi perioadei desfăşurării acţiunii, Stabilirea caracteristicilor principale care vor fi înregistrate, Fixarea tehnicilor de lucru, Proiectarea documentelor (formularelor) purtătoare de informaţie, Testarea documentelor (formularelor) de lucru. (după D. Enăchescu - Medicină socială, Elemente de biostatistică). Datele care rezultă din observarea fenomenelor sunt înscrise în anumite documente purtătoare de informaţii (de exemplu, foile de observaţie, buletine de analiză, fişe speciale de cercetare etc.) şi apoi sunt centralizate. În cazul caracteristicilor calitative, datele sunt centralizate în tabele centralizatoare, iar în cazul celor cantitative se formează serii de variaţie. 3.1. Seria de variaţie sau distribuţia de frecvenţă Centralizarea caracteristicilor cantitative este însoţită, de obicei, şi de ordonarea datelor. Variantele sub care se înregistrează caracteristica sunt dispuse în sens crescător, alăturat se notează frecvenţa lor de apariţie. Se alcătuieşte astfel o serie de variaţie simplă sau o distribuţie de frecvenţă. O distribuţie de frecvenţă se obţine prin observarea frecvenţei de apariţie a unui eveniment. Seriile de variaţie pot fi:

72

• Serii de variaţie simple • Serii de variaţie cu clase

• Serii de variaţie simple Exemplu: Tabel I. Vârsta persoanelor dintr-un lot supus cercetării Variabila* Xi 0 1 2 3 4 5 . . 95 96 97 98 99

Frecvenţa fi 8 12 11 13 14 21 . . 2 0 0 0 1 ∑ fi =1.000

* Vârsta se exprimă în ani împliniţi: - o persoană de 11 luni şi 28 zile va fi considerată de 0 ani - o persoană de 9 ani, 11 luni şi 29 zile va fi considerată de 9 ani, etc. • Serii de variaţie cu clase Pentru seriile de variaţie foarte lungi care pentru unele valori au frecvenţa nulă, se preferă alcătuirea unei grupări în subdiviziuni ale domeniului de variaţie al caracteristicii observate (clasă, grupă, categorie). În această situaţie prezentarea informaţiilor se face printr-o serie de variaţie cu clase. Se

73

recomandă crearea unor clase egale ca mărime, cu intervalele externe închise. Limitele de clasă, inferioară şi superioară, nu trebuie să se suprapună. De exemplu 0-4 ani, 5-9 ani, 10-14 ani etc.….. şi nu 0-5 ani, 5-10 ani, 1015 ani etc.

Exemplu: Tabel II. Vârsta persoanelor dintr-un lot supus cercetării Clasa 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95-99 -

Centrul clasei xi' 2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5 67,5 72,5 77,5 82,5 87,5 92,5 97,5 -

Frecvenţa fi 58 32 48 36 40 58 67 73 80 84 85 83 75 67 64 32 6 7 5 3 ∑ fi =1.000

Mărimea clasei (a intervalului de grupare) se poate aproxima, pentru seriile de variaţie cu clase egale, cu ajutorul formulei lui H.A.Sturges: x max - x min i =  1 + 3.322 ⋅ log n 74

unde: I – mărimea intervalului x max - x min – valoarea maximă – valoarea minimă k n – numărul cazurilor ( ∑ fi ) i=1 În cazul seriilor de variaţie cu clase (toate clasele sunt considerate egale), pentru efectuarea prelucrărilor statistice este necesar a se calcula centrul clasei (valoarea centrală a intervalului) care se notează cu Xi' . Centrul clasei se determină diferit, în funcţie de caracterul variabilei. Pentru variabilele cantitative continue, centrul clasei este egal cu semisuma valorii minime a clasei respective şi a valorii minime a clasei următoare. Pentru variabilele cantitative discontinue, centrul clasei este egal cu semisuma valorilor extreme ale clasei. Nu este obligatoriu ca centrul clasei să fie o valoare întreagă. Pentru variabilele cantitative continue, cu mai multe valori (peste 10) se observă că o mare parte dintre observaţii se concentrează în jurul unei valori centrale. Această concentrare este denumită tendinţa centrală a distribuţiei de frecvenţă.

75

4.INDICATORI AI TENDINŢEI CENTRALE ŞI DE DISPERSIE, PENTRU CARACTERISTICI CANTITATIVE 4.1. INDICATORI AI TENDINŢEI CENTRALE PENTRU CARACTERISTICI CANTITATIVE Indicatorii de tendinţă centrală ai unei serii de variaţie aduc informaţii considerate tipice pentru acestea, prin faptul că valorile variabilei (variantele) se distribuie în jurul lor. Principalii indicatori de tendinţă centrală sunt:  media,  mediana,  modul. 4.1.1. Media _ 4.1.1.1. Media aritmetică ( x ) Media aritmetică este o măsură a valorii centrale a setului de date în jurul căreia fluctuează datele setului. Media nu dă nici o indicaţie asupra gradului de fluctuaţie (de abatere) de la medie, adică asupra a ceea ce se numeşte frecvent dispersia datelor. Media aritmetică a seriei de date asociate unui eşantion x1 , x2 , ….., xn, este raportul dintre suma acestora şi numărul lor: n ∑ xi i=1 x1 + x2 + …..+ xn x = =  n n unde: x – media aritmetică, n ∑ xi suma valorilor seriei de date (a variabilei), i=1 n – numărul valorilor (seriei de date), i = 1, 2,…, n Pentru valori ordonate într-o serie de variaţie (de valori xi şi frecvenţe fi ), media aritmetică se poate calcula cu ajutorul formulei:

76

∑ xi⋅ fi x1 f1 + x2 f2 + + xk f k x = =  ∑ fi f1 + f2 + …..+ fk unde: x – media aritmetică ponderată, k ∑ xi⋅ fi - suma produsului dintre valorile variabilei şi frecvenţa lor în i=1 serie, k ∑ fi - numărul valorilor, exprimat ca sumă a frecvenţelor. i=1 Exemplu: Durata unei boli exprimată în zile, pentru zece determinări poate fi: 4,5,3,5,6,6,10,4,5,5. Durata medie (media aritmetică) a bolii va fi de 5,3 zile: 4+5+3+5+6+6+10+4+5+5 53 x = = = 5,3 zile 10 10 Calculând durata medie cu ajutorul celei de a doua formule vom avea: _ 3+4+4+5+5+5+5+6+6+10 x =  10 _ 3⋅ 1+4⋅ 2+5⋅ 4+6⋅ 2+10⋅ 1 53 x = == 5,3 zile 10 10 Media aritmetică poate fi definită şi ca valoarea faţă de care suma abaterilor variantelor din seria de variaţie este nulă. Această proprietate a mediei se poate folosi şi ca metodă de verificare a corectitudinii calculelor. Deci, trebuie îndeplinită condiţia: k ∑ ( xi - x ) ⋅ fi = 0 i=1 unde: xi - valorile variabilei, x – media aritmetică, 77

fi – frecvenţa; i= 1, 2,……, k. Calculul mediei pentru seriile de variaţie cu clase se face în acelaşi mod, folosindu-se valorile centrului claselor intervalului: k ∑ x′ i ⋅ fi i=1 unde: x′ i = centrul clasei x =  ∑ fi Proprietăţi ale mediei aritmetice: 1. Orice valoare a seriei este luată în considerare în calculul mediei. Această proprietate nu este adevărată pentru toate măsurile de centralitate (de exemplu valoarea centrală). 2. Valorile centrale pot influenţa media distrugându-i reprezentativitatea. 3. Media aritmetică se situează printre valorile seriei de date. 4. Suma diferenţelor dintre valorile individuale din serie şi medie este zero: n ∑ (xi -x) = 0 i=1 5. Schimbarea originii scalei de măsurare a variabilei x din care provine seria de date are influenţă asupra mediei. Fie x″ =x + c, unde c este o constantă. Atunci, xi″ =xi + c, iar media devine: x″ =x + c Transformarea scalei de măsură a variabilei x influenţează media aritmetică. Astfel, dacă x″ = h x, h fiind o constantă reală, xi″ = h xi, şi rezultă uşor că: x″ = hx Includerea valorilor extreme în calculul mediei denaturează valoarea acesteia. În cazul în care pentru medie se doreşte o valoare reprezentativă, se poate calcula o medie aritmetică modificată prin excluderea valorilor extreme. Pentru calculul mediei aritmetice modificate, prin decizia analistului, se elimină un număr egal de valori de la capetele distribuţiei, media calculându-se cu valorile rămase.

78

Astfel, se practică în mod obişnuit determinarea unei medii modificate prin eliminarea a 5% dintre valorile extreme (cum este cazul în programul statistic SPSS). 4.1.1.2. Media aritmetică ponderată (μx) Media aritmetică ponderată se calculează după formula următoare în care fiecare valoare xi este înmulţită cu o pondere wi nenegativă, care indică importanţa valorii respective în raport cu celelalte valori. ∑ wi ⋅ xi μx =  ∑ wi 4.1.2. Mediana (Me) Mediana este alt indicator de tendinţă centrală. Ea se defineşte ca fiind valoarea care împarte şirul ordonat de valori în două părţi egale, situându-se la mijlocul seriei de variaţie, astfel încât jumătate dintre valori îi sunt inferioare (sau egale) şi cealaltă jumătate îi sunt superioare (sau egale). Se disting două situaţii: 1. Pentru serii cu număr impar de valori (2k +1), mediana este valoarea de rang k+1. 2. Pentru serii cu număr par de valori (2k), mediana se află între valorile de rang k şi k+1, convenindu-se a fi reprezentată de media aritmetică a celor două valori. Exemplu: Caracteristicile lungimii la naştere sunt: 48, 49, 50, 52, 54 cm. Se observă că valoarea 50 este mediana. Ea a împărţit şirul de valori astfel încât numărul valorilor mai mici decât ea însăşi să fie egal cu numărul valorilor mai mari, în exemplu existând valorile inferioare 48, 49 şi valorile superioare 52, 54. În cazul seriilor cu număr impar de valori mediana este o valoare observată (ca în exemplu dat). În cazul seriilor cu număr par mediana este o valoare calculată. Exemplu: Fie seria 48, 49, 50, 51. În acest caz mediana trebuie plasată între valorile 49 şi 50, atribuindu-i-se valoarea 49,5, rezultat al semisumei celor două valori delimitatoare 49 + 50 ( = 49,5 ) 2 79

Referitor la aceste exemple se poate spune că mediana a avut poziţia sau rangul 3 pentru primul exemplu şi respectiv, rangul 2,5 în cazul celui de-al doilea exemplu. Apare evident că determinarea medianei este legată de ordinea variantelor, motiv pentru care ea poate fi numită şi medie de poziţie. Rangul medianei se poate calcula cu formula: ∑ fi + 1 Rg =  2 În cazul în care observaţiile sunt grupate în clase de frecvenţă, clasa mediană este cea care conţine mediana. Ca şi la medie, în cazul seriilor de variaţie cu clase, se introduce o eroare în determinarea medianei. Proprietăţi ale medianei: 1. Mediana nu este afectată de valorile extreme ale seriei de date, chiar dacă ele sunt mult diferite de celelalte, având un caracter “aberant”. 2. Valoarea obţinută pentru mediană poate să fie nereprezentativă pentru distribuţia seriei de valori dacă acestea nu se grupează înspre valoarea centrală. Comparativ cu media, mediana ca indicator are o capacitate mai mică în estimarea populaţiei de origine printr-un eşantion. Din acest motiv în analiza statistică va fi folosită mai mult media decât mediana. 4.1.3. Modul (Mo) Modul (sau valoarea modală) este definit ca fiind valoarea cu numărul cel mai mare de apariţii, deci cu frecvenţa cea mai mare. Modul este o valoare observată şi nu una calculată, ca în cazul mediei şi a medianei. Stabilirea modului este simplă: se caută frecvenţa cea mai mare şi se citeşte valoarea corespunzătoare variabilei (varianta) acestei frecvenţe. Dacă seria de variaţie este sub formă de clase, modul corespunde centrului clasei de frecvenţă maximă. Se vorbeşte de:  distribuţie de frecvenţe unimodală dacă tabela de frecvenţe are un singur maxim  distribuţie de frecvenţe multimodală dacă are mai multe maxime (ex. bimodale dacă are două valori maxime ale frecvenţelor corespunzând a două valori diferite ale variabilei). Pentru seriile unimodale, K.Pearson a stabilit că valoarea apropiată a modului, poate avea expresia: Mo = x + 3 (Me - x )

80

Din punct de vedere grafic modul reprezintă abscisa căreia îi corespunde ordonata maximă. Modul poate oferi indicaţii asupra omogenităţii seriei de variaţie. Exemplu: Determinări ale uricemiei la 100 de pacienţi xi 33 38 43 48 53 58 63 68 73 78 83 88 -

fi 1 5 10 27 25 11 8 7 3 1 1 1 100

xi fi 33 190 430 1296 1325 638 504 476 219 78 83 88 5360

∑ xi⋅ fi 5360 x = = = 53,60 ⇒ Media ∑ fi 100 aritmetică este 53,60. ∑ fi + 1 101 Rg Me = = = 50,5 ⇒ Rangul 2 2 medianei este 50,5. x50 = 53,

x51 = 53

x50 + x51 53 + 53 Me = = = 53 ⇒ Mediana este 2 2 53. Mo = 48 (corespunde frecvenţei cea mai mare 27) ⇒ Modul este 48.

81

4.2. INDICATORI DE DISPERSIE PENTRU CARACTERISTICI CANTITATIVE “Variabilitatea” este proprietatea caracteristică a tuturor fenomenelor biologice şi medicale. Ea determină împrăştierea, sau dispersia indicatorilor de tendinţă centrală în caracterizarea seriei de variaţie şi se bazează pe noţiunea de abatere. În condiţiile unei dispersii mari, indicatorii de tendinţă centrală nu sunt suficienţi pentru a caracteriza seria de variaţie. Indicatorii de dispersie oferă oferă informaţii asupra extinderii împrăştierii datelor, sau a gradului de aglomerare (îngrămădire sau apropiere). Indicatorii de dispersie sunt utili în stabilirea reprezentativităţii indicatorilor centrali. Semnificaţia unei medii ca şi valoare reprezentativă pentru un set de date depinde de gradul de dispersie a valorilor individuale în jurul ei. Indicatorii de dispersie joacă un rol important în estimarea parametrilor statistici şi în inferenţa statistică. Principalii indicatori de dispersie sunt:  amplitudinea absolută şi relativă,  varianţa,  abaterea (deviaţia) standard,  coeficientul de variaţie. 4.2.1.Amplitudinea Amplitudinea absolută (A) reprezintă diferenţa dintre valoarea maximă şi valoarea minimă din serie. A = x maxim – x minim Unde: A – amplitudinea absolută, x maxim - valoarea maximă, x minim - valoarea minimă. Pentru seriile de variaţie cu clase, amplitudinea se calculează ca diferenţa dintre limita superioară a clasei cu valorile cele mai mari şi limita inferioară a clasei cu valorile cele mai mici. În acest caz se produce o oarecare supradimensionare a amplitudinei. Amplitudinea absolută păstrează unitatea de măsură a variabilei. Dezavantajul major al amplitudinii ca măsură de dispersie este că se bazează doar pe valorile extreme ale seriei. Ea nu oferă nici o informaţie despre aglomerarea datelor distribuite între extreme, nu ţine seama de valorile intermediare ale seriei şi nici de frecvenţa lor de apariţie.

82

Exemplu: Fie seriile de variaţie pentru dimensiunile unor celule (µ ): Seria 1 7 5 8 3 9 13 6 11 A1 = 13-3=10

Seria 2 113 120 121 116 119 123 114 118

A2= 123 – 113 = 10

Seria 3 23 25 31 33 29 27 30 32

A3 = 33 – 23 = 10

Se observă că deşi ordinul de mărime al caracteristicii este diferit, amplitudinea celor 3 serii este egală. Pentru a elimina influenţa ordinului de mărime, se calculează amplitudinea relativă (A%) după formula: A A% = ⋅ 100 x unde: A% - amplitudinea relativă A – amplitudinea absolută x – media aritmetică a seriei Amplitudinea relativă este utilă la compararea dispersiei a două caracteristici exprimate în unităţi de măsură diferite. Indicatorii de amplitudine relativă sunt comparabili, ei fiind abstracţi. 4.2.2. Varianţa (dispersia) Varianţa reprezintă cel mai utilizat mod de exprimare al dispersiei datelor în jurul mediei aritmetice. Varianţa (sx2) este un indicator de împrăştiere care ţine cont de frecvenţa de apariţie a valorilor din serie. Varianţa este media aritmetică a pătratului abaterilor dintre valorile observate şi media lor.

83

Formula varianţei este: k ∑ ( xi - x )2 ⋅ fi i=1 (x1 - x)2⋅ f1 +…+ (xk - x)2⋅ fk sx2 = =  k f1 + f2+ …+ fk ∑ fi i=1 unde: sx2 – variaţia variabilei x xi - valorile din şir (variabile x) x – media aritmetică a şirului fi - frecvenţa În cazul seriilor de valori cu frecvenţe egale, varianţa se calculează mai simplu, cu formula: n n 2 ∑ ( xi - x ) ∑ ( xi - x )2 i=1 i=1 2 sx = =  n n ∑ fi i=1 În cazul eşantioanelor mici, adică pentru un număr mic de observaţii (n≤ 30), se utilizează formula următoare, care reduce eroarea de calcul: n ∑ ( xi - x )2 i=1 2 sx =  n–1 Avantajul excepţional pe care îl prezintă varianţa faţă de ceilalţi indicatori de dispersie îl reprezintă faptul că varianţa unui eşantion permite o bună estimare a varianţei populaţiei. Limitele interpretative ale varianţei provin din faptul că valorile extreme ale seriei intervin puternic asupra mărimii indicatorului datorită abaterilor lor mari faţă de medie. Aceste abateri devin şi mai mari prin ridicarea la pătrat, impusă de formula de calcul. Varianţa se exprimă prin pătratul unităţii de măsură a variabilei (cm2, grame2, zile2, etc.).

84

Varianţa nu permite compararea dispersiilor fenomenelor măsurate prin unităţi diferite sau de alt ordin de măsură, ca şi în cazul amplitudinii. Pentru depăşirea acestor limite, se pot folosi ca indicatori abaterea standard şi mai ales coeficientul de variaţie. 4.2.3. Abaterea standard Abaterea standard (deviaţia standard sau ecartul tip S) reprezintă rădăcina pătrată a varianţei: sx = ± √ sx2 Abaterea standard prezintă avantajul de a permite exprimarea dispersiei în aceeaşi unitate de măsură ca şi a caracteristicii. Acest fapt este şi un inconvenient pentru că indicatorul nu poate fi folosit la compararea dispersiei, pentru două fenomene exprimate prin caracteristici cu unităţi de măsură diferite. Existenţa atât a valorilor pozitive cât şi a valorilor negative este justificată, deoarece indicatorul exprimă media abaterilor varianţelor faţă de media aritmetică a şirului, aceste abateri fiind atât pozitive cât şi negative. Din punct de vedere geometric abaterea standard sau ecartul tip poate fi interpretat ca o “distanţă euclidiană” a seriei la media ei aritmetică. 4.2.4.Coeficientul de variaţie (CV %) Coeficientul de variaţie este o măsură relativă a dispersiei datelor. Coeficientul de variaţie se calculează ca un raport procentual între abaterea standard şi valoarea medie a şirului. sx CV% = ⋅ 100 x Valoarea coeficientului de variaţie nu are unitate de măsură. Aceasta a dispărut prin raportarea abaterii la medie. Datorită acestui fapt indicatorul poate fi folosit la compararea a două sau mai multe serii de variaţie, indiferent de ordinul de mărime al variabilelor şi de unităţile de măsură folosite. În utilizarea coeficientului de variaţie la studiul omogenităţii unor populaţii se pot utiliza următoarele reguli empirice (Dragomirescu L.):  dacă CV este sub 10 % atunci populaţia poate fi considerată omogenă,  dacă CV este între 10 % – 20 % atunci populaţia poate fi considerată relativ omogenă,

85

 dacă CV este între 20 % - 30 % atunci populaţia poate fi considerată relativ eterogenă,  dacă CV este peste 30 % atunci populaţia poate fi considerată eterogenă. 4.2.5. Eroarea standard (ES) Eroarea standard (ES) este indicatorul de dispersie a datelor utilizat în inferenţa statistică. Se calculează după formula: sx ES =  √n unde: sx – abaterea standard n – numărul valorilor seriei date. Eroarea standard intervine în estimarea statistică în determinarea intervalelor de încredere pentru medie.

86

5. INDICATORI AI TENDINŢEI CENTRALE ŞI DE DISPERSIE PENTRU CARACTERISTICI CALITATIVE 5.1. INDICATORI DE TENDINŢĂ CENTRALĂ PENTRU CARACTERISTICI CALITATIVE 5.1.1. Proporţia Proporţia este indicatorul de tendinţă centrală pentru caracteristici calitative şi se notează de cele mai multe ori cu simbolurile p şi q. Proporţia este definită ca raportul dintre numărul cazurilor în care o variantă a caracteristicei a fost constantă şi numărul total de evenimente. m p =  n unde: p = proporţia caracteristicii, m = numărul de cazuri în care a fost constatată caracteristica, n = numărul de evenimente observate Pentru caracteristicile calitative nealternative, însuşirea studiată poate îmbrăca mai mult decât două forme. Formula generală de calcul a proporţiei pentru caracteristicile calitative nealternative este: mi p i =  n cu condiţia ca: Σ pi = 1; i = 1, …, k. unde: pi = proporţia pentru o proprietate (stare) posibilă a caracteristicii mi = numărul cazurilor cu o proprietate (stare) prezentă n = numărul total de cazuri observate.

87

5.2. INDICATORI DE ÎMPRĂŞTIERE PENTRU CARACTERISTICI CALITATIVE 5.2.1. Varianţa (dispersia) Varianţa pentru caracteristicile calitative se poate calcula în analogie cu cea pentru caracterisiticile cantitative după formula: sp2 = p (1 - p) = p q unde: sp2 = varianţa q=1–p p = proporţia unei stări posibile a caracteristicii calitative Pentru caracteristici calitative nealternative se pot calcula tot atâţia indicatori de varianţă câte stări sunt posibile. Atfel: sk2 = pk (1 – pk) 5.2.2. Abaterea standard (s) Este rezultatul extragerii rădăcinii pătrate din varianţă, ca şi la caracteristicile cantitative: sp = ± √ p (1 - p)

88

6. INDICATORI DE LOCALIZARE SAU DE AMPLASARE Ca indicatori de localizare sau de amplasare se utilizează cuantilele. Cuantilele sunt valori ale variabilei care împart seria statistică ordonată în n părţi, cuprinzând acelaşi efectiv, egal cu 1/n din efectivul total. Dacă n ia următoarele valori, cuantilele pot fi: - pentru n = 4, cvartile; - pentru n = 10, decile; - pentru n = 100, centile. Cvartilele împart seria de valori observate în patru părţi de frecvenţe egale cu ¼. Se notează Q1, Q2, Q3. Astfel prima cvartilă sau cvartila de 25 % este o valoare cu proprietatea ca 25 % dintre datele seriei sunt mai mici sau egale cu ea iar 75 % mai mari sau egale cu prima cvartilă. A doua cvartilă sau cvartila de 50 % este reprezentată de mediană. A treia cvartilă sau cvartila de 75 % este o valoare având proprietatea ca 75 % dintre datele seriei sunt mai mici sau egale cu ea iar 25 % mai mari sau egale cu a treia cvartilă. Decilele, în număr de nouă, împart seria de valori în intervale conţinând fiecare 10 % din observaţii. A cincea dintre ele se confundă cu mediana. Se notează D1,….., D9. Centilele, în număr de 99, separă seria de variaţie în o sută de intervale egale, conţinând fiecare 1 % din observaţii. A cincizecea dintre ele se confundă cu mediana. 6.1. Momente Momentele sunt indici utilizaţi în evaluarea unor caracteristici ale unei repartiţii de frecvenţă. Momentul de ordin 1 se calculează după formula: Σ x′ ⋅ fi M1 =  n unde: x′ = xi - x = deviaţia de la medie fi = frecvenţa valorilor variabilei n = numărul valorilor seriei Σ (x′ )2 ⋅ fi M2 = 

89

n unde: x′ = xi - x = deviaţia de la medie fi = frecvenţa valorilor variabilei n = numărul valorilor seriei Mai frecvent utilizate în practică sunt momentele de ordinul 1 până la ordinul 4, clasate în două categorii: -momente simple (notate cu “M”) ce se calculează faţă de origine (x = 0): Σ xi ⋅ fi Σ (xi⋅ )3 fi M1 =  M3 =  Σ fi Σ fi 2 Σ (xi) ⋅ fi Σ (xi)4 ⋅ fi M2 =  M4 =  Σ fi Σ fi -momente centrate (notate cu “µ ”) ce se calculează faţă de media aritmetică: Σ fi (xi - x) Σ fi (xi - x)3 µ 1 = = 0 µ 3=  Σ fi Σ fi Σ fi (xi - x)2 µ 2 =  Σ fi

Σ fi (xi- x)4 µ 4=  Σ fi

unde: xi - x = deviaţia de la medie x = media aritmetică fi = frecvenţa valorilor variabilei Σ fi = n = numărul valorilor seriei Aşa cum se observă din formulă, momentul simplu de ordinul 1 (M1) corespunde mediei aritmetice, iar momentul centrat de ordinul 1 (µ 1) este egal cu zero, pentru că suma deviaţiilor de la media aritmetică este egală cu zero. Momentul centrat de ordinul 2 (µ 2) corespunde variaţiei şi intră în calculul abaterii standard.

90

6.2. Asimetria (skewness) Repartiţiile de frecvenţă a valorilor pe care le poate lua în timp şi spaţiu pot fi simetrice, în cazul în care aceste valori sunt egal dispersate de o parte sau alta a mediei aritmetice. Asimetria se măreşte concomitent cu diferenţa dintre medie şi modul. Măsura de asimetrie (sau skewness) indică pentru o repartiţie de frecvenţă (serie sau distribuţie de date) abaterea de la aspectul simetric şi direcţia asimetriei (pozitivă sau negativă). Pentru măsura asimetriei este folosit momentul de ordinul trei al abaterii de la medie: Σ fi (xi - x)3 Σ fi (xi - x)3 µ 3 = =  Σ fi n Momentul de ordinul 3 prezintă dezavantaje: -Compararea cu dificultate a ordinelor de mărime a asimetriei pentru două distribuţii deoarece acest moment se exprimă cu ajutorul unităţilor de măsură ale datelor; -Ordinul de mărime al momentului trei creşte odată cu variaţia ceea ce creează probleme în legătură cu variaţia unei distribuţii date pentru două distribuţii având aceeaşi formă. Aceste dezavantaje au fost eliminate prin standardizarea momentului de ordin trei, realizată prin împărţirea la cubul abaterii standard: µ 3 α 3 =  sx3

6.3. Boltirea (kurtosis) Excesul sau boltirea (kurtosis) este o măsură a unei forme sau distribuţii de date, care măsoară înălţimea aplatizării/ boltirii unei distribuţii în comparaţie cu o distribuţie normală. Se calculează prin formula: 1/n ⋅ Σ fi (xi - x)4 α 4 = −3 sx4 Excesul α 4 este zero pentru o serie de date având o distribuţie normală, este pozitiv pentru o serie de date având trena mai înaltă decât cea a unei distribuţii normale şi este negativ pentru o serie de date a cărei trenă este mai

91

coborâtă decât cea a unei distribuţii normale (respectiv trena se apropie mai încet (α 4 > 0) sau mai rapid (α 4 < 0) de zero decât cea a distribuţiei normale).

92

“Pământul are loc pentru toţi” Schiller

93

94

ELEMENTE DE TEORIA PROBABILITĂŢILOR 1. Definiţie Probabilitatea unui eveniment este proporţia (fracţiunea) din toate evenimentele posibile ale evenimentului specificat într-o succesiune aproape nelimitată a probelor în condiţii similare. Aceasta înseamnă că fiecărui eveniment A legat de un anumit “experiment probabilist”, “aleator” (orice acţiune care în împrejurări identice poate fi repetată, dar a căror rezultate nu pot fi prevăzute cu exactitate) i se poate asocia un număr P(A) numit probabilitatea de producere a evenimentului, iar P se numeşte funcţie de probabilitate. numărul cazurilor favorabile Pr (A) = =  numărul total de cazuri posibile n

m

În orice experiment aleator, ca o măsură a “şansei”, sau probabilităţii cu care ne putem aştepta la producerea unui eveniment oarecare, acesta poate lua valoarea zero (eveniment imposibil) sau valoarea unu (eveniment cert, sigur). La un număr mai mare de experimente media evenimentelor poate lua orice valoare între zero şi unu. Tipuri de evenimente: 1. Evenimentul sigur se produce cu certitudine la efectuarea experimentului probabilist şi se notează cu litera S. De exemplu la extragerea bilelor dintr-o urnă se poate extrage sau o bilă albă sau o bilă neagră. În ambele cazuri vorbim de evenimente sigure, noţiunea fiind similară cu cea de “spaţiu de evenimente elementare” al experimentului probabilist (mulţime de elemente structurate atfel încât orice eveniment rezultat în urma experienţei corespunde unui singur element). 2. Evenimentul imposibil nu se poate produce la nici o efectuare a evenimentului şi se notează cu φ egal cu zero (Pφ = 0). În cazul exemplului anterior nu se poate extrage din urnă o bilă de o altă culoare în afară de cea albă sau neagră, un alt eveniment fiind deci imposibil. 3. Evenimente contrare (complementare). Prin contrarul unui eveniment A se înţelege un eveniment care se realizează ori de câte ori nu se realizează A. Evenimentul contrar se notează non A, A sau CA. 4. Evenimente compatibile sunt acele evenimente care se pot produce simultan. Dacă notăm cu A feţele paralele ale unui zar (2, 4, 6) şi cu B doar faţa 2, în cazul în care se obţine evenimentul (faţa 2) în acelaţi timp s-a produs şi evenimentul A (faţa cu număr par). 95

5. Evenimente incompatibile (disjuncte sau mutual exclusive) sunt cele care nu se pot produce simultan. Dacă notăm cu A feţele pare ale unui zar şi cu B feţele impare, evenimentele A şi B sunt incompatibile, ele nu se pot obţine concomitent. Pr (A sau B) = Pr (A) + Pr (B) sau Pr (A) = 1 – Pr (B) 6. Eveniment implicat de alt eveniment se numeşte în cazul în care un eveniment, de exemplu B are loc ori de câte ori apare evenimentul A. Reuniunea a două evenimente A şi B, notată cu A ∪ B este evenimentul a cărui producere constă în apariţia a cel puţin unul din cele două evenimente A sau B. Intersecţia evenimentelor A şi B, notată A ∩ B constă în producerea concomitentă a celor două evenimente A şi B. Evenimentele A, B sunt independente dacă: Pr (A şi B) = Pr (A) ⋅ Pr (B). Prin independenţă se înţelege că realizarea sau nerealizarea evenimentului A sau B nu modifică probabilitatea de realizare sau nerealizare a celuilalt eveniment. 2. Distribuţii de probabilitate Tipurile clasice de distribuţii de probabilitate sunt: • Distribuţia normală descrisă de Laplace şi Gauss • Distribuţia binominală • Distribuţia denumită “Legea numerelor mici” a lui Poisson • Distribuţia Student (t) • Distribuţia χ 2 a lui Pearson • Distribuţia F a lui Fisher. 2.a). Distribuţia normală (Gauss-Laplace) Distribuţia normală (distribuţia gaussiană)este simetrică în jurul valorii centrale, media aritmetică, mediana şi modul fiind egale, situate în origine. În punctul x=0 ordonata va avea valoarea maximă. Dacă se cunosc media şi deviaţia standard, curba se poate descrie perfect. Curba are o alura tipică de clopot, cu două cozi simetrice, continue şi poate, teoretic, să varieze între −∞ şi +∞. Este numită curbă normală sau curba lui Gauss. Ea poate constitui un model pentru multe variabile aleatoare continue cum ar fi: concentraţiile de substanţe, erorile de măsurare în biologie, medicină, fizică, economie, etc. Aşa cum am spus anterior distribuţia normală depinde de media µ şi de abaterea standard σ şi are densitatea de probabilitate următoare: Aşa cum am spus anterior distribuţia normală depinde de media µ şi de abaterea standard σ şi are densitatea de probabilitate următoare:

96

1 f(x) =  ⋅ e _____ σ√ 2 π

1 (x − µ ) 2 −  ⋅  2

σ

2

pentru −∞ < x < +∞

unde: f(x) = probabilitate obţinerii unei distribuţii normale x = variabila µ = valoarea medie σ = abaterea (deviaţia) standard

12 10 8 6 4 2 0 1

3

5

7

9

11

13

15

17

19

Distribuţie normală Pentru fiecare pereche de parametrii (µ ,σ ) există câte o lege de distribuţie normală, deci va exista o gamă infinită de legi normale. Toate aceste distribuţii normale se pot reduce la una singură, având media 0 şi abaterea standard 1, cu ajutorul unei schimbări de variabilă: X-µ Z =  σ

97

Aceasta este legea normală redusă cu densitate de probabilitate:

1 f(x) =  ⋅ e _____ √2π

1 −x 2 2

Acestei legi de probabilitate îi sunt asociate un număr de tabele care permit utilizarea practică a ei. Unul dintre aceste tabele este Tabelul p(µ ) care conţine pentru fiecare valoare µ probabilitatea ca variabila Z să fie în exteriorul intervalului [ -µ , µ ]. Alt tabel asociat legii este Tabelul abaterii standard. Au loc relaţiile: p(µ ) = Pr (Z < -µ sau Z > µ ) Pr (-µ ≤ Z ≤ µ ) = 1 – p(µ ) Din tabelul ecartului redus p(1) = 0,32 şi deci 1 – p(1) = 0,68 iar p(1,96) = 0,05 şi deci 1 – p(1) = 0,95

98

2.b). Distribuţia binominală sau distribuţia lui Bernoulli Distribuţia binominală este acea distribuţie a rezultatelor unui experiment, când acestea au numai două valori discrete şi mutual exclusive, într-un număr cunoscut de probe. Rezultatele posibile ale fiecărei încercări elementare sunt doar două evenimente numite de obicei succes (S) şi eşec (E). Probabilitatea fiecăruia dintre cele două rezultate (p de succes şi q = 1 – p de eşec) este constantă de la o încercare la alta, dar rezultatul fiecărei probe este independent de rezultatul altei probe. Probabilitatea pentru o distribuţie binominală este determinată prin formula: n! f(x) = pxqn-x x! (n - x) ! unde: f(x) = probabilitatea obţinerii valorii x în n probe; p = probabilitatea unuia din cele două rezultate posibile (“un succes”) într-o singură probă; q = probabilitatea celuilalt rezultat posibil (“un eşec”) într-o singură probă; n = numărul total de probe în cadrul experimentului; x = numărul de succese obţinute în cadrul unui experiment de n probe; n – x = numărul de “eşecuri” obţinute în cadrul aceluiaşi experiment; ! = semnul factorial (n! = 1x2x3x….xn; 0! = 1! = 1) Distribuţia binominală se referă la o variabilă aleatorie discretă x (= numărul de “succese”) pentru care valoarea medie este: µ x = np şi dispersia se calculează după formula: σ 2x = npq Pentru diverse valori ale lui n şi p se obţin diverse curbe reprezentative pentru probabilităţile f(x). Pentru np> 10 şi nq> 10, curbele devin suficient de simetrice în jurul valorii lui µ x şi se poate asimila distribuţia binominală cu o distribuţie normală (gauss-Laplace). 2.c).Distribuţia denumită “Legea numerelor mici” a lui Poisson Variabila aleatorie Poisson este o variabilă discretă care ia o infinitate numărabilă de valori: 0, 1, 2, …, x, care reprezintă numărul de realizări într-un interval dat de timp sau spaţiu ale unui eveniment (de exemplu frecvenţa unor

99

boli foarte rare, numărul de dezintegrări ale unei substanţe radioactive într-un interval de timp T, etc.) Distribuţia lui Poisson este acea distribuţie binominală a rezultatelor în care numărul de probe este foarte mare şi probabilitatea p este foarte mică. Întrun interval suficient de mic probabilitatea de a observa mai mult de o realizare a evenimentului este neglijabilă în raport cu probabilitatea de a observa una singură (nesimultaneitatea realizării a două evenimente în timp şi spaţiu). Această variabilă aleatorie x este caracterizată de un parametru θ care reprezintă numărul mediu teoretic aşteptat de realizări ale evenimentului în intervalul considerat şi are următoarea lege de distribuţie: −θ

f(x) = e

θ x  x!

Se poate demonstra că valoarea medie şi dispersia sunt: µ x=θ σ 2x = θ . Prin creşterea lui θ , se obţin curbe simetrice, astfel pentru θ ≥ 20,, distribuţia Poisson poate fi asimilată cu o distribuţie normală. 2.d).Distribuţia Student (t) Distribuţia t este o distribuţie aleatorie continuă, simetrică, unimodală, care variază de la -∞ la +∞, are formă de clopot şi este mult mai “largă” decât distribuţia normală. Din aceste motive, distribuţia ”t” este utilizată pentru eşantioane mici. Funcţia de probabilitate a variabilei aleatorie Student t depinde de un singur parametru k numit numărul gradelor de libertate. Cînd k tinde la ∞, distribuţia Student tinde către o distribuţie normală redusă. Această variabilă aleatorie este utilizată, în anumite condiţii, în testul de comparaţie a mediilor numit testul Student (t) (descris în capitolul teste statistice). 2.e).Distribuţia χ 2 a lui Pearson Distribuţia χ 2 a lui Pearson descrie comportarea unei sume de pătrate a unor variabile independente normal distribuite, fiecare având o medie egală cu zero şi abatere standard egală cu 1. Astfel variabila U, definită prin egalitatea

100

U = X12 + X22 + … +Xn2 este distribuită după Pearson. Unde: Xi2 reprezintă pătratul unei observaţii selectate aleator dintr-o populaţienormal distribuită având media 0 şi deviaţia standard 1. Numărul de termeni Xi2 independenţi se numeşte numărul de grade de libertate care determină forma acestei distribuţii. Media şi dispersia sunt: µ x=d σ 2x =2d, unde d este numărul gradelor de libertate. Distribuţiile Pearson având un număr mic de grade de libertate sunt asimetrice spre dreapta, asimetria crescând o dată cu scăderea numărului de grade de libertate. Dacă numărul de grade de liberatate creşte atunci distribuţia asociată se apropie de una simetrică iar forma acestei distribuţii la limită tinde spre forma unei distribuţii normale. Este legitim să se utilizeze o aproximaţie normală cu media egală cu d şi abaterea standard √ 2d pentru o distribuţie Pearson cu numărul de grade de libertate cel puţin egal cu 30. 2.f).Distribuţia F a lui Fisher Distribuţia F este definită pe intervalul [ 0, +∞) şi descrie comportarea câtului a două variabile cu distribuţie Pearson fiecare fiind împăţită prin numărul gradelor sale de libertate. Un membru al acestei clase de distribuţii este determinat prin numărul de grade de libertate ale numărătorului dn şi respectiv numărul de grade de libertate ale numitorului dm, distribuţiile F distincte fiind determinate de perechi (dn, dm) distincte. În general, pentru dn şi dm > 2 distribuţia F este unimodală şi pozitiv asimetrică. Atunci când numărul gradelor de libertate creşte distribuţia F se apropie pe domeniul său de definiţie de o distribuţie normală. Această distribuţie este utilizată în testele de comparaţie a variaţiilor şi ca aplicaţie a acestora în testele ANOVA.

101

3. Reguli de calcul al probabilităţilor Există două reguli de bază pentru calculul probabilităţilor în funcţie de tipul de evenimente la care se aplică: a. Regula aditivă b. Regula multiplicativă. a. Regula aditivă se aplică pentru evenimente mutual exclusive sau “disjuncte” (realizarea unuia înseamnă automat nerealizarea celuilalt). Dacă avem cel puţin două evenimente disjunte, atunci probabilitatea lui A sau B se calculează prin însumarea probabilităţilor fiecărui eveniment. Pr (A sau B) = Pr (A) + Pr (B) unde: Pr (A sau B) = probabilitatea evenimentului A sau a evenimentului B Pr (A) = probabilitatea evenimentului A Pr (B) = probabilitatea evenimentului B Exemplu: Se ştie că aproximativ 6,5 % din totalul bolnavilor internaţi într-un spital sunt de vârstă X, iar 4,9 % sunt de vârstă Y. Probabilitatea ca un bolnav luat la întâmplare să fie de vârstă X sau de vârstă Y este: 6,5 % + 4,9 % = 11,4 %. Evenimentele sunt mutual exclusive, în sensul că un anumit pacient internat nu poate fi, în acelaşi timp şi de vârstă X şi de vârstă Y. b.Regula multiplicativă se aplică pentru evenimente independente care se produc concomitent şi constă în multiplicarea probabilităţilor individuale ale evenimentelor. Pr (A şi B) = Pr (A) ⋅ Pr (B) unde: Pr (A şi B) = probabilitatea producerii concomitente a evenimentului A şi B Pr (A) = probabilitatea evenimentului A Pr (B) = probabilitatea evenimentului B Exemplu: Aproximativ 6,5 % din totalul bolnavilor internaţi într-un spital sunt de vârstă X şi 55,3 % din toţi bolnavii sunt femei. Probabilitatea femeilor de vârstă X va fi: (6,5 %) 0,065 ⋅ (55,3 %) 0,553 = 0,0359 (3,59 %)

102

103

“Nici o investigaţie umană nu se poate intitula ştiinţă adevărată dacă nu trece prin demonstraţia matematică” Roger Bacon

104

105

TESTE STATISTICE 1. Ipoteza nulă Statistica inferenţială cuprinde două laturi: estimarea parametrilor şi testarea ipotezelor. Unul dintre principalele aspecte ale cercetării ştiinţifice este formularea de noi ipoteze. Întotdeauna o ipoteză nouă trebuie testată pentru a vedea dacă este în concordanţă cu observaţiile făcute şi pentru a arăta că este mai bună decât alte ipoteze alternative. Aceste două modele se numesc ipoteza nulă şi ipoteza alternativă. Ipoteza nulă notată H0, reprezintă modelul pe care experimentatorul ar dori să-l înlocuiască. Ipoteza alternativă Ha este modelul care reprezintă o negaţie a ipotezei nule. Ipoteza nulă (H0 ) este ipoteza care postulează faptul că eşantioanele sau populaţiile pe care le avem de comparat în cadrul unui studiu, experiment sau test sunt similare, sau orice diferenţă este atribuită şansei şi nu unui anumit factor. Ipoteza nulă arată absenţa unor deosebiri care pot apărea în orice problemă de comparare statistică. Ea se foloseşte pentru a defini semnificaţia statistică (semnificaţia diferenţei), adică se spune că există semnificaţie statistică între eşantioane, populaţii sau ambele datorată altor factori decât şansa, dacă ipoteza nulă este falsă. Acceptarea ipotezei nule presupune că diferenţă testată este nesemnificativă între cele cele două populaţii, fără ca mediile populaţiilor să fie identice. Respingerea ipotezei nule, presupune că diferenţa între populaţii este semnificativă, ea poate fi explicată prin alt factor decât şansa, iar una din ipotezele alternative este acceptată. Pentru verificarea ipotezei statistice se utilizează diferite teste statistice parametrice şi neparametrice, constând din calcularea unor statistici şi din stabilirea unor reguli clare de acceptare sau de respingere a ipotezei nule H0 , cu o anumită probabilitate. Valoarea probabilităţii sub care se respinge ipoteza nulă se numeşte prag de semnificaţie sau risc, pentru un anumit test statistic. Pragul de semnificaţie este ales de cercetător şi se notează cu α sau p-value. În general α = 0,05. Dacă el este maximum 5 % se respinge ipoteza nulă, care spune că nu există diferenţă semnificativă statistic între cele două populaţii, iar una dintre ipotezele alternative este acceptată. În orice testare a semnificaţiei statistice se pot comite două tipuri de erori:

106

• Eroarea de speţă I, adică decizia de a respinge ipoteza nulă, H0 când aceasta este adevărată; • Eroarea de speţă a II-a, adică decizia de a accepta ipoteza nulă H0 când aceasta este falsă, ipoteza alternativă Ha fiind cea adevărată. Riscul erorilor asociate unui test statistic, în termeni probabilistici arată astfel: Pr (Ha / H0 adevărată ) = α , riscul erorii de speţă I Pr (H0 / Ha adevărată ) = β , riscul erorii de speţă a II-a Aceste riscuri cu erorile respective sunt ilustrate în tabelul următor:

H0 adevărată Situa ţia H0 falsă reală

Decizia investigatorului Acceptarea Respingerea H0 H0 Corecta Eronată (Eroarea de speţă Pr = 1 - α I ; Pr = α Eronată Corectă (Eroarea de Pr = 1 - β speţă a II-a; Pr = β )

În funcţie de aceste interpretări, în spaţiul eşantioanelor mulţimea tuturor valorilor posibile calculate se împarte în două intervale (arii sau regiuni complementare):  Interval de acceptare (I.A.) reprezintă mulţimea valorilor pentru care, dacă o valoare a statisticii calculate prin test se înscrie printre valorile sale, se acceptă ipoteza nulă, H0 ; iar dacă H0 este adevărată, atunci 1 - α este probabilitatea ca valoarea statisticii să aparţină acestui interval;  Interval de respingere (I.R.) reprezintă mulţimea valorilor pentru care, dacă o valoare a statisticii calculate prin test se înscrie printre valorile sale, se respinge ipoteza nulă H0 ; iar dacă H0 este adevărată, atunci β este probabilitatea ca valoarea statisticii să aparţină acestui interval. Pe baza celor prezentate anterior, etapele unui test statistic sunt: 107

1. 2. 3. 4.

Stabilirea ipotezei nule (H0); Alegerea testului statistic pentru testarea lui H0; Stabilirea nivelului de semnificaţie α şi a volumului eşantionului; Calcularea valorii statisticii corespunzătoare testului ales, utilizând datele din eşantion; 5. Stabilirea intervalului de acceptare/ respingere pe baza celor anterioare. Dacă statistica testului se află în intervalul de respingere, se decide respingerea lui H0 , iar dacă este în intervalul de acceptare, se decide că H0 nu poate fi respinsă, pentru nivelul de semnificaţie ales (α ).

2. Comparaţia caracteristicilor cantitative 2.1. Comparaţia mediei unui eşantion cu media unei populaţii Atunci când se cunoaşte media unui eşantion (x) şi numărul cazurilor conţinute în acesta (n) se poate estima media populaţiei (µ ) din care provine eşantionul. Relaţia dintre media unei populaţii şi media eşantionului este dată de formula: σ

x

µ = x ± Uα  √n unde: µ = media în populaţia din care s-a extras eşantionul x = media eşantionului n = numărul de cazuri din eşantion σ x = dispersia caracteristicii studiate în populaţia din care s-a extras eşantionul Uα = coeficientul de distribuţia pentru un risc (valoare luată din tabele), pentru o distribuţie normală Gauss-Laplace Semnele ± arată că media eşantionului poate fi mai mică sau mai mare decât media populaţiei. Această formulă se utilizează dacă parametrii populaţiei şi eşantionului sunt cunoscuţi. 108

Dacă nu se cunoaşte dispersia în populaţia din care s-a extras eşantionul ea poate fi estimată pe baza varianţei eşantionului cu formula: n σ ˆ = sx ⋅  n-1 2 x

2

unde: σ x2 = varianţa estimată a populaţiei sx2 = varianţa eşantionului n = numărul de cazuri din eşantion n = termen de corecţie n-1 Formula se modifică devenind: sx µ = x ± tα , ν  √n-1 Distribuţia normală Gauss-Laplace este înlocuită prin distribuţia Student. α = riscul asumat, stabilit de cercetător, de cele mai multe ori fiind de 0,05 ( 5%), ce corespunde unei probabilităţi de 95 %. ν = grad de libertate, dat de numărul variantelor aleatorii independente de care depinde statistica considerată; pentru o serie de variaţie cu n variante, sunt n-1 grade de libertate; ν =n-1 Ori de câte ori nu de cunoaşte varianţa în populaţie şi se foloseşte o valoare estimată prin varianţa eşantionului, se utilizează formula: σ ˆx µ = x ± tα , ν  √n-1 Exemplu: În urma unui screening au fost examinate 5000 de persoane pentru care valoare medie a glicemiei a fost de 80 mg % cu o abatere standard de ± 40 mg %. Din populaţia examinată s-a extras un eşantion conţinând cazurile cu obezitate, reprezentând 256 de persoane.Glicemia medie în acest grup a fost de 100 mg % cu o abatere standard de 48 mg %.

109

Parcurgem etapele unui test statistic 1. Stabilirea ipotezei nule H0 H0 :  µ = x Nu există diferenţă semnificativă statistic între media glicemiei populaţiei şi cea a eşantionului extras din ea 2. Stabilirea statisticii testului: Mediile cunoscute, dispersiile cunoscute atât în eşantion cât şi în populaţie, calculăm valoarea testului şi o comparăm cu valoarea tabelară a acestuia. Dacă Uc < Uα se acceptă ipoteza nulă, iar dacă Uc > Uα se respinge ipoteza nulă 3. Stabilirea nivelului de semnificaţie α α = 0,05 4. Calcularea valorii statistice a testului | µ - x | √n Uc =  σx | 80 – 100 | √256 20 ⋅ 16 20 Uc = = = = 6,6 48 48 3 5. Stabilirea intervalului de acceptare / respingere Valoarea tabelară pentru o probabilitate de 95 % este Uα = 1,96. 6. Decizia asupra ipotezei nule de respingere sau acceptare Deci, Uc > Uα , deci diferenţa mediilor glicemiilor populaţiei şi eşantionului este semnificativă statistic, se respinge ipoteza nulă. Aceasta indică faptul că lotul nu afost extras la întâmplare din populaţie, ci de fapt s-a arătat de la început că el a fost delimitat după un criteriu, obezitate.

110

2.2. Testul “t” (student) pentru un singur eşantion mic Testul “t” este folosit pentru eşantioane cu volum mai mic de 30 de cazuri şi compară o singură medie (x) a eşantionului cu media populaţiei notată µ . Testele “t” sunt utilizate în analiza pentru care deviaţiile standard din eşantioane sunt substituite ca estimaţii pentru deviaţiile standard din populaţii. Distribuţia “t”este folosită în cazul eşantioanelor mici (sub 30 de cazuri) pentru a calcula “intervalele de încredere” în jurul mediei eşantionului. Valoarea probabilităţii de respingere a ipotezei nule, când aceasta este adevărată (α = p-value) este obţinută din tabela –t, corespunzătoare lui ν = n – 1 grade de liberate. Statistica testului pentru compararea mediei unui eşantion cu media unei populaţii este determinată prin formula:

unde:

x - µ tc =  sx / √n

tc = valoarea calculată a testului la diferite grade de libertate x = valoarea medie a eşantionului µ = media populaţiei sx = deviaţia standard n = volumul eşantionului Numitorul ecuaţiei de mai sus este numit “eroarea standard a mediei eşantionului”.

2.3. Testul “t” pentru eşantioane independente Testul “t” pentru eşantioane independente compară mediile a două eşantioane care au fiecare sub 30 de cazuri (n1, n2 < 30 cazuri). Determinările apaţin la indivizi diferiţi fără nici o legătură între ei. Testul “t” este nepotrivit atunci când avem de comparat mai mult de 2 valori medii; în acest caz se aplică metode de comparare multiplă (modelul “ANOVA”). Etape: 1. n1, n2 < 30 2. Stabilirea ipotezei nule: H0 : x1 = x2 (nu există diferenţă semnificativă statistic între mediile celor două eşantioane independente) 111

unde:

3. Statistica testului “t” x1 – x2  tc =  ______________ √sc2 / n1 + sc2 / n2 tc = valoarea calculată a testului la gradele de libertate corespunzătoare x1 = valoarea medie din primul eşantion x2 = valoarea medie din al doilea eşantion sc2 = varianţa comună a celor două eşantioane n1 = volumul primului eşantion n2 = volumul celui de-al doilea eşantion

unde:

x1 – x2  tc =  ___________ sc √1/n1 + 1/n2

sc = deviaţia standard ponderată a celor 2 eşantioane ν = numărul gradelor de libertate ν = n1 + n2 – 2 Numitorul ecuaţiei de mai sus este numit “eroarea standard a diferenţei celor două medii”. __________________________ Σ (xi1 - x1)2 fi1 + Σ (xi2 - x2)2 fi2 sc = √  (n1 – 1)+ (n2 – 1) 4. Dacă tc > tα , ν se respinge ipoteza nulă Dacă tc < tα , ν se acceptă ipoteza nulă 2.4. Testul “t” pentru eşantioane perechi Testul “t” pentru eşantioane perechi compară valorile medii a două eşantioane perechi. Determinările aparţin la aceeaşi indivizi în condiţii sau momente de timp diferite. Numărul de perechi trebuie să fie sub 30. 1. n1, n2 < 30 2. Stabilirea ipotezei nule:

112

H0 : x1 = x2 (nu există diferenţă semnificativă statistic între valorile medii înregistrate la cele două determinări) 3. Statistica testului “t” d tc(perechi) =  _____ √sd2 / n _______________ sd = √Σ (di - d)2 / (n-1) unde: tc(perechi) = valoarea calculată a testului la gradele de libertate corespunzătoare ν = numărul gradelor de libertate (ν = n-1) d = valoarea medie a diferenţelor sd2 = varianţa diferenţei medii n = numărul de perechi Numitorul testului “t” pe perechi este “eroarea standard a diferenţei mediilor”. 4. Dacă tc > tα , ν se respinge ipoteza nulă Dacă tc < tα , ν se acceptă ipoteza nulă.

3. Comparaţia caracteristicilor calitative 3.1. Testul “χ 2” (chi-pătrat) 3.1.1. Testul“χ 2” - “rxc” Testul“χ 2” - “rxc” compară o distribuţie de frecvenţe absolute observate (sau proporţii) cu o distribuţie teoretică (aşteptată) de frecvenţe absolute (sau proporţii) sau compară 2 sau mai multe distribuţii observate pe baza “distribuţiei de probabilitate chi-pătrat”. În cadrul testului se pot folosi numai valori absolute, iar categoriile de date trebuie să fie mutual exclusive sau discrete. Frecvenţele teoretice trebuie să fie mai mari decât 5, frecvenţele observate pot fi mai mici decât 5.

113

Valorile probabilităţii pentru respingerea ipotezei nule (H0) sunt obţinute din tabele speciale pentru distribuţia chi-pătrat, corespunzător numărului de grade de libertate. Numărul gradelor de liberatate este ν = (r - 1) (c - 1), unde: r = numărul de rânduri c = numărul de coloane Distribuţia de probabilitate chi-pătrat este o distribuţie continuă, simetrică şi se bazează pe aproximaţia normală a distribuţiei binominale. Pentru eşantioane mici se impune o corecţie de continuitate numită “Corecţia Yates”, care scade valoarea lui chi-pătrat, deci scade probabilitatea (α ) de respingere a ipotezei nule (H0). Valorile probabilităţii pentru respingerea ipotezei nule sunt obţinute din tabele speciale pentru distribuţia chi-pătrat corespunzător numărului gradelor de libertate. (oi - ci - 1/2 )2 χ c2 = Σ  ci unde: χ c2 = valoarea calculată a testului chi-pătrat oi = frecvenţe absolute observate din fiecare celulă a tabelului ci = frecvenţe teoretice (aşteptate) corespunzătoare frecvenţelor observate ½ = corecţia Yates 3.1.2. Testul “χ c2” “2 x 2” Testul “χ c2” “2 x 2”este un caz particular al testului“χ 2” - “rxc”, se aplică pentru tabelele de contingenţă “2x2” şi are 1 grad de libertate. 3.2. Teste neparametrice Testele neparametrice testează ipoteza nulă sau determină “limitele de încredere” pentru eşantioane şi populaţii fără a se ţine cont de distribuţia populaţiei. Tipuri de teste neparametrice: Testul Wilcoxon al sumei rangurilor, este un test pentru date neperechi sau împerechiate şi este o alternativă a testului “t” al lui Student pentru eşantioane perechi. Testul Wilcoxon pentru două eşantioane este un test pentru date neîmperecheate şi este o alternativă a testului “t” al lui Student pentru eşantioane independente. Testul “U”Mann-Whitney, duce la rezultate echivalente cu testul Wilcoxon pentru două eşantioane. 114

Testul exact Fisher, se aplică pentru tabele de contingenţă “2x2”, în aceleaşi condiţii ca testul “χ c2” dar când frecvenţele aşteptate sunt mai mici decât 5.

115

BIBLIOGRAFIE 1. Achimaş A. Cadariu - Metodologia cercetării ştiinţifice medicale - EMU “Iuliu Haţieganu”, Cluj-Napoca, 1999 2. Beaglehole R., Bonita R., KjellstramT. - Bazele epidemiologiei - Ed. ALL 3. Bowling A. - Measuring health - A review of quality life measurement scales, 1991 4. Clocotici V., Stan A. – Statistică aplicată în psihologie, Ed. Iaşi, 2001 5. Colton T. – Statistics in Medicine, University of New-foundland, St. John’s, New-foundland, Canada, 1998 6. Drugan T., Bondor C., Bolboacă S., Călinici T., Colosi H., Gălătuş R., Istrate D., Văleanu M., Achimaş A., Ţigan Ş. – Aplicaţii practice de informatică şi statistică medicală, Ed. Alma Mater, Cluj-Napoca, 2002 7. Enăchescu D., Havriliuc C., Lemneanu E., Luculescu S., Mihăilescu D., Popa I., Popescu-Spineni S. – Medicina socială, elemente de biostatistică, Bucureşti, 1990 8. Keynes Milton - Open University Press 9. Lofland J. & Lofland L. - Analysing social settings, CA: Wadsworth, Belmont, 1984 10. Lupu I., Zand I. – Sociologie medicală, Teorie şi Aplicaţii, Ed. Polirom, Iaşi, 1999 11.Marin Estell M. – L’idee que l’on setat de l’eficacite organisationnelle 12.Mazs Nicolas, Pope Catherine - Rigour and qualitative research - BMJ, vol.311, 1995 13. Mureşan P. - Manual de metode matematice în analiza stării de sănătate – Ed. Medicală, Bucureşti, 1989 14.Silverman D. - Interpreting quantitative data, Ed. Stage Publications, London, 1993 15.Steiner & Norman Health measurement scales - A practical guide to their development and use, 1989 16. Steward & Ware - Measuring functioning and well-being-The Medical Outcomes Study approach, 1992 17.The Washington DC Conference - Aplication of health status assessement measures in clinical practice Medical Care, Ed. Lohr, 1992 18.Ţigan Ş., Achimaş A., Drugan T. – Biostatistică medicală, Ed. Srima, Cluj – Napoca, 1999 19.Ţigan Ş., Achimaş A., Drugan T. – Curs de informatică şi statistică medicală, Ed. Srima, Cluj – Napoca, 2001

116