37 0 13MB
STATISTICĂ ȘI INFORMATICĂ PENTRU CHIMIE MEDICALĂ ȘI FARMACEUTICĂ CONCEPTE, METODE, TEHNOLOGII, SOFTWARE ȘI APLICAȚII
Reproducerea integrală sau parţială, multiplicarea prin orice mijloace și sub orice formă, cum ar fi xeroxarea, scanarea, transpunerea în format electronic sau audio, punerea la dispoziţia publică, inclusiv prin internet sau prin reţele de calculatoare, stocarea permanentă sau temporară pe dispozitive sau sisteme cu posibilitatea recuperării informaţiilor, cu scop comercial sau gratuit, precum și alte fapte similare săvârșite fără permisiunea scrisă a deţinătorului copyrightului reprezintă o încălcare a legislaţiei cu privire la protecţia proprietăţii intelectuale și se pedepsesc penal și/sau civil în conformitate cu legile în vigoare.
Marin Vlada
STATISTICĂ ȘI INFORMATICĂ PENTRU CHIMIE MEDICALĂ ȘI FARMACEUTICĂ CONCEPTE, METODE, TEHNOLOGII, SOFTWARE ȘI APLICAȚII
2017
MARIN VLADA
6
Referenți științifici: Prof. univ. dr. Ion Văduva, Universitatea din București Prof. univ. dr. Adrian Adăscăliței, Universitatea Tehnică „Gh. Asachi” din Iași Conf. univ. dr. Vasile David, Universitatea din București
© Şos. Panduri, 90-92, Bucureşti-050663, România Telefon/Fax: (0040) 021.410.23.84 E-mail: [email protected]; [email protected] Web: www.librarie-unibuc.ro/magazin/ Centru de vânzare: Bd. Regina Elisabeta, nr. 4-12, Bucureşti, Tel. (004) 021.305.37.03
Sursa, imagine copertă: Frans Marcelis – http://members.home.nl/fg.marcelis/24-cell.htm
Copertă & DTP: Meri Pogonariu
Descrierea CIP a Bibliotecii Naţionale a României VLADA, MARIN Statistică şi informatică pentru chimie medicală şi farmaceutică : concepte, metode, tehnologii, software şi aplicaţii / Marin Vlada. Bucureşti : Editura Universităţii din Bucureşti, 2017 Conţine bibliografie ISBN 978-606-16-0940-6 004
Statistică şi Informatică pentru chimie medicală şi farmaceutică
7
MOTTO Mediile din natură sunt guvernate de Limbaje. Omul a inventat calculatorul, limbajele şi ştiinţele pentru cunoaştere. Prin intermediul calculatorului se prelucrează informaţiile şi cunoştinţele. Pentru reprezentarea şi prelucrarea informaţiilor calculatorul utilizează limbajele artificiale. Acest fapt dovedeşte că limbajele au fost inventate nu numai pentru comunicarea informaţiilor, ci mai ales pentru prelucrarea lor. Prin urmare, Limbajele sunt instrumente ale gândirii, iar ştiințele sunt modele şi reprezentări virtuale ale cunoaşterii. M. Vlada, „eLSE 2005”, CNIV 2010 Informatica a devenit o ştiinţă deoarece utilizează metode, tehnici şi instrumente proprii pentru investigarea obiectelor şi proceselor pe care le defineşte şi cu care operează. Tezaurul ştiinţific al Informaticii este rezultatul unor simbioze de cunoştinţe şi cercetări provenite şi de la alte ştiinţe (matematică, cibernetică, microelectronică, fizică, chimie etc.), şi care prin metode şi tehnici proprii, şi utilizînd echipamente speciale (sisteme de calcul, dispozitive input/output) prelucrează informaţii şi cunoştinţe pe care trebuie să le interpreteze, să le transforme şi să le comunice. M. Vlada, Informatică aplicată, 2012 „Informatica restabileşte nu numai unitatea matematicilor pure şi a celor aplicate, a tehnicii concrete şi a matematicilor abstracte, dar şi cea a ştiinţelor naturii, ale omului şi ale societăţii. Reabilitează conceptele de abstract şi de formal şi împacă arta cu ştiinţa, nu numai în sufletul omului de ştiinţă, unde erau întotdeauna împăcate, ci şi în filosofarea lor.” Gr. C. Moisil (1906-1973) Fondatorul Informaticii din România, Computer Pioneer Award of IEEE „Este mult mai greu să-i înveţi pe studenţi cum să înveţe decât să le predai” Henry Hallett Dale (1875-1968) Premiul Nobel în Psihologie şi Medicină (1936) „Învăţarea duce la obţinerea cunoştinţelor, dar observaţiile şi experimentele duc la consolidarea lor” Ştefan Procopiu (1890-1972), fizician şi inventator român
Statistică şi Informatică pentru chimie medicală şi farmaceutică
9
C U P R I N S Prefaţă ..........................................................................................................................................
11
1 Concepte privind studiul fenomenelor .......................................................................... 1.1 Impactul calculatorului asupra cunoaşterii .................................................................... 1.1.1 Platforme e-Learning .................................................................................................. 1.2 Exemple privind studiul fenomenelor ............................................................................ 1.2.1 Fenomenul mişcării corpurilor în 2D/3D .............................................................. 1.2.2 Mişcarea particulelor încărcate în câmpuri electrice şi magnetice ....................... 1.2.3 Modelarea unui proces în domeniul Farmacocineticii .......................................... 1.2.4 Determinarea predispoziţiei la bolile cardiovasculare ........................................... 1.2.5 Fenomenul de difuzie a unui nor de gaz ................................................................. 1.2.6 Modelul planetar al lui Newton şi Modelul atomic al lui Bohr ............................ 1.2.7 Teoria Haosului şi Meteorologie .............................................................................. 1.2.8 Dinamica atmosferei - studiul mişcării aerului ....................................................... 1.2.9 Matematica fenomenului gheţii marine ................................................................... 1.2.10 Mecanica statistică a moleculelor ........................................................................... 1.3 Teoria erorilor, incertitudini şi aproximări . ................................................................... 1.3.1 Analiza datelor experimentale – Tipuri de erori ................................................... 1.3.2 Termeni şi concepte despre erori ............................................................................ 1.4 Gândirea algoritmică – noi abordări de rezolvare ....................................................... 1.4.1 Puterile mari ale lui 2 .................................................................................................. 1.4.2 Rezolvarea problemei lui Gauss ...............................................................................
13 17 20 24 24 37 39 43 46 47 50 53 56 56 60 61 63 68 68 78
2 Analiza şi interpretarea datelor experimentale ............................................................. 2.1 Seturi de date şi indicatori statistici ................................................................................. 2.2 Reprezentarea grafică a datelor ........................................................................................ 2.2.1 Prelucrări şi reprezentări grafice cu programul Excel ........................................... 2.2.2 Etapele de elaborare a unei diagrame ...................................................................... 2.3 Reprezentarea datelor în studiile clinice ......................................................................... 2.3.1 IMC – Indicele de masă corporală .......................................................................... 2.3.2 Glaucomul, boală de ochi ........................................................................................... 2.3.3 Diabet Zaharat (DZ) – studiu clinic ........................................................................ 2.3.4 Ciroza hepatică (CH) – studiu clinic ........................................................................ 2.3.5 Patologia parodontală la tânăr – studii clinice ....................................................... 2.3.6 Studiu prin metode atomice şi moleculare – Probe biologice ............................. 2.3.7 Tetrazoli – cercetări biologice şi farmaceutice ....................................................... 2.3.8 Tensiunea arterială- reprezentări grafice ..................................................................
85 85 90 91 108 121 121 128 133 134 136 137 138 139
10
MARIN VLADA
3 Statistică şi probabilităţi ..................................................................................................... 3.1 Concepte de bază. Teorii şi Metode ............................................................................... 3.1.1 Concepte şi definiţii privind prelucrările statistice ............................................. 3.1.2 Produse software pentru prelucrări statistice şi reprezentări grafice ................. 3.2 Prelucrări statistice. Probleme rezolvate ........................................................................ 3.2.1 Numărul de locuitori la un pat din unităţile sanitare – indicele Nl/p ... ............... 3.3 Cercetare, eşantioane şi colectarea datelor .................................................................... 3.3.1 Ultimul recensământ din România ........................................................................... 3.3.2 Proiectarea unui eşantion ........................................................................................... 3.3.3 Gruparea statistică în intervale/clase ....................................................................... 3.4 Testarea şi eliminarea valorilor aberante ........................................................................ 3.5 Probabilităţi şi funcţii de repartiţie .................................................................................. 3.6 Distribuţia, propagarea şi estimarea erorilor ................................................................. 3.7 Legi de probabilitate utilizate frecvent ........................................................................... 3.7.1 Distribuţii continue de probabilitate ........................................................................ 3.8 Estimarea parametrilor. Verificarea ipotezelor statistice ............................................. 3.8.1 Intervalul de încredere ................................................................................................ 3.8.2 Determinarea parametrului statistic – limitele intervalului de semnificaţie ....... 3.8.3 Testarea ipotezelor statistice .....................................................................................
145 147 157 162 165 165 174 177 181 184 196 203 216 221 224 249 249 253 257
4 Modele de aproximare liniare şi neliniare ..................................................................... 4.1 Modele matematice în analiza datelor ............................................................................ 4.2 Metoda celor mai mici pătrate (MCMP) ........................................................................ 4.3 Modele liniare. Dreapta de regresie ................................................................................ 4.4 Modele neliniare. Metoda regresiei ................................................................................. 4.5 Modele neliniare în Farmacocinetică .............................................................................. 4.6 Aplicaţie. Problema călugărului .......................................................................................
267 267 276 280 289 301 312
5 Proiecte şi aplicaţii practice ............................................................................................... 5.1 Determinarea modelelor liniare şi neliniare ................................................................... 5.2 Parametrizarea şi rezolvarea problemelor ...................................................................... 5.2.1 Problema celor n vase cu azot ................................................................................. 5.2.2 Problema celor 5 pahare Berzelius ........................................................................... 5.3 Teme practice pentru Laborator ..................................................................................... 5.4 Rezultatele proiectului DEMODEF ..............................................................................
319 320 326 327 337 342 358
Bibliografie generală ................................................................................................................
369
Anexă – Tabelul funcţiilor Excel (2007, 2010, 2013, 2016) .................................................
375
Statistică şi Informatică pentru chimie medicală şi farmaceutică
11
PREFAŢĂ „Analfabetul viitorului nu va mai fi cel care nu ştie să citească, ci cel care nu ştie să înţeleagă” Alvin Toffler „Omul, când nu înţelege, e contra” Acad. Grigore C. Moisil
Prezenta carte este concepută ca un tutorial (curs descriptiv) având în vedere cerinţele mediului educaţional actual şi aşteptările studenţilor privind eficienţa învăţării şi metodele procesului de învăţare. S-a avut în vedere experienţa profesională şi didactică a autorului şi comparaţiile stilurilor de învăţare, în domeniul formării iniţiale, cu cele ulterioare, şi anume, în formarea continuă versus diversitatea problemelor ştiinţifice şi de cercetare. Acestea au condus la o îmbinare între diversitatea problemelor de rezolvat şi înţelegerea corectă a teoriilor şi metodelor utilizate în demersul didactic şi ştiinţific. În toate etapele formării lor, studenţii reclamă caracterul teoretic al conţinutului disciplinelor, şi aşteaptă de la sistemul de învăţământ adaptarea resurselor educaţionale la cerinţele lor actuale, pentru o aplicare şi în procesul de formare a lor, a noilor metode şi tehnologii oferite de utilizarea calculatorului. „Eu nu vă conving, eu demostrez” şi „Omul, când nu înţelege, e contra” spunea acad. Grigore C. Moisil, iar aceste ziceri le folosea şi acad. Solomon Marcus: „Universalitatea gândirii matematice a fost interpretată de unii autori ca o pretenţie a matematicienilor de a institui o hegemonie a matematicii faţă de celelalte domenii ale cunoaşterii. În fapt însă, universalitatea matematicii este complet echilibrată de aservirea ei faţă de celelalte discipline”. Ideea de bază a acestei adaptări, este că trebuie să se înceapă, nu cu prezentarea unei teorii, ci cu enunţul problemei, și după aceea, se va căuta teoria și metodele adecvate pentru rezolvarea ei. Astfel, studentul va fi convins de utilitatea unei teorii sau metode. Așa au apărut știinţele! Cartea este concepută să prezinte o abordare pragmatică a cunoștintelor și temelor cu care se vor confrunta viitorii specialiști ce vor absolvi specializarea „Chimie medicală/farmaceutică”. Prelucrarea datelor medicale şi farmaceutice, unele dintre acestea fiind studiate la diverse cursuri şi lucrări de laborator, va fi prezentă în formarea profesională medicală, pentru care e necesară însuşirea elementelor descriptive şi de analiză din domeniul medical. Mai târziu, acestea vor constitui instrumente de neînlocuit în cercetarea ştiinţifică. Unele metode şi teorii din matematică vor fi abordate într-o formă modernă, prin utilizarea instrumentelor informatice (produse software) având în vedere diversitatea de programe şi platforme din ce în ce mai performate, în demersul rezolvării problemelor de specialitate, din domeniul chimiei şi medicinii. Statistica matematică reprezintă modalitatea principală de
12
MARIN VLADA
extragere şi prelucrare a informaţiilor relevante din datele clinice şi de laborator. De asemenea, Statistica medicală, Biostatistica, Bioinformatica şi Informatica medicală sunt discipline care au apărut şi se află în curriculum facultăţilor de medicină şi farmacie, datorită evoluţiei instrumentelor ştiinţifice prin fenomenul transdisciplinarităţii, cu suport oferit de evoluţia informaticii şi a calculatoarelor. Lucrarea conţine multe exemple de utilizare a instrumentelor software pentru rezolvarea diverselor probleme privind prelucrarea şi analiza datelor experimentale. Noua abordare este implementată prin definirea şi analiza enunţului problemei şi apoi, căutarea metodelor, teoriilor pentru rezolvarea problemei. În multe cazuri se utilizează programe şi aplicaţii oferite de calculator. În acest sens, studenţii vor fi motivaţi şi îndrumaţi să caute metoda cea mai eficientă şi să fie la curent cu schimbările şi apariţia de noi instrumente software în rezolvarea de probleme. Performanţele calculatoarelor moderne şi diversitatea de aplicaţii pentru rezolvarea problemelor ştiinţifice şi practice, trebuie să fie în atenţia tuturor celor care se adaptează continuu la noile tehnologii. După anul 1995, deja au început cercetări pentru schimbarea de paradigmă privind evoluţia calculatoarelor: Calculatoare moleculare (Molecular Computers, DNA Computing, inventator Leonard Adleman - 2002 Turing Award) şi Calculatoare cuantice (Quantum Computers, Peter Shor – Massachusetts Institute of Technology (MIT), 1994). În câţiva ani, calculatoarele noi (Quantum Computer) de la IBM, Google şi Microsoft vor accelera descoperirile din domeniile chimiei, medicinei şi ştiinţei materialelor (Ref.: http://www.nextbigfuture.com/ 2017/03/in-few-years-new-quantum-computers-from.html). Calculatoarele cuantice vor fi mai puternice decât calculatoarele convenţionale, pentru probleme de rutare eficientă, pentru logistică, pentru companiile de cartografiere, noi forme de învăţare automată, inventarea de noi produse, teste de diagnosticare îmbunătăţite. Primele calculatoare cuantice universale vor fi utilizate în chimie pentru simularea de molecule şi reacţii. Simulând efectele cuantice care modelează structurile şi reacţiile moleculare, aceasta este o problemă naturală pentru aceste calculatoare, deoarece puterea lor vine de la datele de codificare în aceleaşi stări cuantice dificile. Componentele care alcătuiesc computerele cuantice, cunoscute sub numele de qubiţi, pot utiliza procese cuantice mecanice pentru a executa comenzi rapide de calcul imposibile pentru o maşină convenţională. La Facultatea de Chimie a Universitatii din Bucureşti, în anul 2016, s-a înfiinţat specializarea „Chimie medicală”, ca apoi, în anul 2017 să apară şi specializarea „Chimie farmaceutică”. Sperăm că, efortul nostru de a realiza o abordare transdisciplinară şi cu instrumente oferite de matematică, informatică şi statistică matematică – folosind şi calculatorul, să vină în sprijinul celor care explorează cunoaşterea, printr-o învățare profundă, cu rezolvare de aplicaţii practice, şi nu printr-o învăţare superficială. 12 iunie 2017, Bucureşti
Marin Vlada, Universitatea din Bucureşti, membru asociat CRIFST (Comitetul Român de Istoria şi Filosofia Ştiinţei şi Tehnicii), Academia Română
Statistică şi Informatică pentru chimie medicală şi farmaceutică
13
1 Concepte privind studiul fenomenelor Motto: Refinement of thinking: „All science is nothing more than a refinement of everyday thinking. As a result, a critical thinking physicist cannot be limited to examining concepts in his own particular field, but must stop and seek towards the everyday thinking, which is more difficult to analyze.” Albert Einstein. Dezvoltarea ştiinţei: „Dezvoltarea ştiinţei se bazează pe două mari realizări: invenţia sistemului de logică formală (în geometria euclidiană) de către filosofii greci, şi posibilitatea de a descoperi relaţii cauzale prin experiment sistematic (în timpul Renaşterii).” Albert Einstein. Matematica şi legile naturii: „Matematica este un mod de exprimare a legilor naturale, este cel mai simplu şi cel mai potrivit chip de a înfăţişa o lege generală sau curgerea unui fenomen, este cea mai perfectă limbă în care se poate povesti un fenomen natural.” Gheorghe Ţiţeica (1873-1939).
Mediul înconjurător și natura, societățile omenești – tot ce se află pe planeta Terra, inclusiv în spațiul macrocosmos/microcosmos, se schimbă, se transformă și se dezvoltă ca urmare a multiplelor fenomene ce apar, se desfășoară și dispar în conformitate cu diverse legi pe baza cărora își exercită efectele, și ca urmare a stării optime a unor parametri ce definesc aceste fenomene. Fenomenele se desfășoară de la un moment inițial, își exercită efectele pe o perioada de timp finită/infinită, și se încheie la un moment final, în cazul în care nu are o evoluție infinită. Toate acestea există, atât în spațiul macrocosmic, cât și în spațiul microcosmic (spațiul organic sau spațiul anorganic). „Noi suntem făcuţi din materie stelară”: „Azotul din ADN-ul nostru, calciul din dinţii noştri, fierul din sângele nostru, carbonul din plăcintele noastre cu mere, au fost
14
MARIN VLADA
produse în interiorul stelelor aflate în colaps gravitaţional. Noi suntem făcuţi din materie stelară.” Carl Edward Sagan (1934-1996), american astronomer, cosmologist, astrophysicist, astrobiologist. Pe de altă parte, „Geometria euclidiană, geometria sferică, geometria eliptică, geometria hiperbolică şi geometria proiectivă sunt instrumente matematice pentru a exprima proprietăţi ale lumii reale.” Frans Marcelis – Frans Marcelis, http://members.home.nl/fg.marcelis/. Definiție. Un fenomen (fr. phénomène, it. fenomeno, cf. gr. phainomenon – ceea ce apare și se desfășoară) reprezintă un aspect sau mai multe aspecte din mediul înconjurător, natură, din societățile omenești, inclusiv din spațiul macrocosmic și din spațiul microcosmic (spațiul organic-organisme vii sau spațiul anorganic-compuși anorganici), și care se generează la un moment inițial, se desfășoară pe o perioadă de timp, își exercită efectele, și se încheie la un moment final. Un fenomen se caracterizează prin legi pe baza cărora se desfășoară și prin parametri ce definesc starea fenomenului, și astfel se desfășoară în timp prin intermediul unor procese și evenimente pe care le generează. Explicațiile din DEX: „FENOMÉN, fenomene, s. n. 1. Aspect al naturii în mișcare; formă exterioară a lucrurilor prin care se manifestă esența lor și care poate fi percepută direct prin organele senzoriale. Materia organică constituie un fenomen mult mai nou, produs al unei îndelungate dezvoltări. LENIN, O. XIV 64. ◊ Fenomen al naturii = manifestare a unui element al naturii; p. ext. element al naturii. Ploaia este un fenomen al naturii. ♦ Fapt. Răscoala din Țara Romînească [1821] nu trebuie privită ca un fenomen izolat, ci în cadrul general al frămîntărilor epocii. IST. R.P.R. 292. 2. Ființă, obiect, aspect, întîmplare care surprinde (prin calități, noutate, raritate etc.)”. Exemple (conform DEX): ABSORBȚIE – Fenomen fizic prin care un corp lichid sau solid încorporează prin difuzie din afară o substanță oarecare. Micșorare sau anulare a intensității unei radiații care trece printr-un corp. Fenomen optic caracteristic lentilelor ochelarilor de vedere de a reține, filtra razele de lumină care dăunează ochiului. Proces de pătrundere a apei, a substanțelor minerale și organice, precum și a gazelor în celulele organismului. Absorbție intestinală = pătrunderea în sânge și în limfă a produșilor rezultați din digestia alimentelor. Fenomene naturale – descărcări electrice (trăsnet), cutremure, furtuni, tornade, inundații etc. Fenomene meteorologice – ploi, vânt, căderi de zăpadă etc. Fenomene chimice – reacții chimice, cristalizare, solubilitate, explozii, topire, încălzire, înghețare etc. Fenomene fizice – plutirea unui vas pe apă, zborul unui avion, mișcarea unui satelit artificial al Pământului. Fenomene sociale și istorice – răzvrătiri sociale, războaie, cruciade, migrații de popoare etc. Definiție. Un proces (lat. processus – mers înainte, d. procédere – a înainta; fr. procès) repezinta desfășurare în timp a unui eveniment sau a unui fenomen, și anume evoluția, dezvoltarea și desfășurarea pentru un fenomen sau un eveniment. Un proces se
Statistică şi Informatică pentru chimie medicală şi farmaceutică
15
caracterizează prin succesiuni de acțiuni/operații, transformări succesive și progresive ce se finalizează cu producerea de lucruri, lucrări, obiecte, efecte etc., în mediul înconjurător, în natură, în societatea omenească, în spațiul cosmic etc. Un fenomen poate să se desfășoare prin intermediul mai multor procese (exemplu: procese în timpul execuției unui program de calculator). Uneori fenomen = proces. Exemple (conform DEX): Proces metabolic – totalitatea transformărilor biochimice și energetice care au loc în țesuturile organismului viu. Metabolismul este un proces complex, ce implică schimburi de materii și energii, și care include două procese (simultane) opuse. Maladie (a unui organ sau a întregului organism) în evoluție (sau în regres). Proces tehnologic – totalitatea operațiilor care comportă prelucrări mecanice și chimice, tratamente termice, impregnări, montaje etc. și prin care materiile prime, semifabricatele etc. sunt transformate în produse finite. Proces în justiție – acțiune în justiție ce se realizează pentru soluționarea unui diferend între două părți ce sunt în litigiu sau pentru constatarea și sancționarea conform legislației. Proces-verbal – act cu caracter oficial în care se consemnează un fapt; la întocmirea unui inventar se încheie un proces-verbal care va cuprinde toate obiectele inventariate. Proces de conștiință – a-și analiza, a regreta, a-și reproșa anumite atitudini sau acțiuni. Apariția omului pe pământ este rezultatul unor fenomene ce s-au desfășurat pe o perioadă foarte mare de timp și care au produs adaptarea și evolutia omului în natură. Charles Darwin (1809 – 1882), celebru naturalist britanic, geolog, biolog și autor de cărți, fondatorul teoriei referitoare la evoluția speciilor (teoria evoluționistă), a observat că toate speciile de forme de viață au evoluat de-a lungul timpului din anumiți strămoși comuni, ca rezultat al unui proces pe care l-a numit „selecție naturală”, studiile fiind publicate în celebra scriere „Originea speciilor”, din anul 1859, Teoria evoluționistă a fost recunoscută de către comunitatea științifică și publicul larg încă din timpul vieții sale, în timp ce „Teoria selecției naturale” a fost considerată ca prim argument al procesului evoluției abia prin anii 1930, iar acum constituie baza Evoluționismului sintetic. Ajungând la o anumită evoluție fizică și intelectuală, omul și-a îmbunătățit continuu condițiile de viață prin inventarea uneltelor de muncă, prin diversificarea metodelor de supraviețuire în natură, prin organizarea socială a membrilor societății, inclusiv prin perfecționarea metodelor de comunicare și prin perfecționarea metodelor de învățare privind domeniul cunoașterii. Astfel, evoluția continuă a omului se datorează și următoarelor procese: Procesul Învățării – învățare sistematică prin formare inițială (școala primară, gimnazială, liceală, învățământ superior), perfecționare continuă, răspundere personală pentru învățare și perfecționare; Procesul Cunoașterii – influența evoluției științelor asupra dezvoltării societății umane, pregătire superioară prin doctorat și participarea la cercetarea științifică;
MARIN VLADA
16
Procesul Comunicării – impactul comunicării prin metodele și tehnicile de comunicare, eficientă și tehnologiile utilizate în comunicații și comunicare; Procesul Informării – suport de stocare și de răspândire a informațiilor utilizând tehnologiile informației și comunicațiilor, suporturi tradiționale (cărți, reviste etc.), suporturi și tehnologii oferite de calculatoarele moderne. Ştiinţele au apărut în diverse etape specifice de dezvoltare a societăţii umane şi s-au dezvoltat ca urmare a acumularii de cunoştinţe despre realitatea înconjurătoare şi despre o realitate virtuală. Fiecare ştiinţă reprezintă un continuu proces al cunoaşterii ce utilizează metode şi tehnici de observare şi experimente, metodologii şi tehnologii într-o continuă perfecţionare, metode proprii de cercetare, informaţii proprii despre obiectele investigate, un limbaj ştiinţific propriu. Prin apariţia calculatorului şi a noilor tehnologii de prelucrare a informaţiilor şi cunoştinţelor, ştiinţele au realizat salturi mari în acumularea de noi cunoştinţe şi noi descoperiri. Prin urmare, ştiinţa este un generator de cunoştinţe obţinute prin activitatea oamenilor de ştiinţă ce adaugă de fiecare dată la fondul comun al ştiinţei, cunoştinţe noi, descoperiri noi, revizuiri ale unor cunoştinţe vechi, realizând astfel o dezvoltare permanentă a ştiinţei. Oxford Advanced Learner's Dictionary:
Education = „A process of teaching, training and learning, especially in schools or colleges, to improve knowledge and develop skills”;
Learning = „The acquisition of knowledge or skills through study, experience, or the act of being taught”;
Thinking = „The process of considering or reasoning about something”.
Albert Einstein (http://stiintasitehnica.com/un-interviu-cu-albert-einstein/): „știința nu este nimic altceva decât o rafinare a gândirii din viața de zi cu zi. Gândirea critică a fizicianului nu poate fi restrânsă numai la examinarea conceptelor din propriul său domeniu de studiu. El nu ar putea face nimic, dacă nu ar ține seama de o problemă mult mai dificilă, cea a analizei naturii gândirii din viața de zi cu zi”. „avem o experiență dureroasă, din care am învățat că gândirea rațională nu este suficientă pentru a rezolva problemele cu care ne confruntăm în viața socială. Rezultate extraordinare ale cercetării științifice au avut adesea consecințe tragice pentru omenire. S-au inventat lucruri spectaculoase care, pe de o parte, eliberează omul de muncile istovitoare și îi fac viața mai ușoară iar, pe de altă parte, îl transformă într-un sclav al tehnologiei. Am creat și mijloacele pentru distrugerea în masă a oamenilor. Iar cel mai tragic lucru este că în timp ce omenirea a produs mulți cercetători valoroși în domeniul științei și tehnologiei, nu am reușit să găsim soluții potrivite la conflictele politice și la tensiunile economice care ne afectează viața”.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
17
1.1 Impactul calculatorului asupra cunoaşterii Mediile din natură sunt guvernate de Limbaje. Omul a inventat limbajele, ştiinţele şi calculatorul, pentru cunoaştere și care a determinat rezolvarea de probleme, evoluţia şi stocarea cunoşterii, evoluția și dezvoltarea societății omenești. Piloni ai CUNOAŞTERII: 1. LIMBAJE – Prin intermediul calculatorului (computer) se prelucrează informaţiile (IT – Tehnologia informaţiei). Pentru reprezentarea şi prelucrarea informaţiilor calculatorul utilizează limbajele artificiale. Acest fapt dovedeşte că limbajele au fost inventate nu numai pentru comunicarea informţiilor, ci mai ales pentru prelucrarea (procesarea) informaţiilor; 2. TEORII-METODE-TEHNICI – dezvoltarea științelor, metodelor și tehnicilor pentru adaptarea omului în natură, pentru îmbunătățirea continuă a vieții sale, pentru rezolvarea problemelor; 3. MEDII DE STOCARE – Evoluţia cunoaşterii este influenţată de natura şi performanţa reprezentării şi stocării: hârtie (cărţi şi reviste), suport magnetic, suport optic, memorii flash etc.; 4. ÎNVĂŢAREA – Societatea umană se dezvoltă prin Cunoaştere şi Învăţare. Dacă Dezvoltarea şi Cunoaşterea se moştenesc, Învăţarea nu se poate moşteni, ci se formează şi se perfecţionează continuu, pe tot parcursul vieţii (Blended Learning). Observaţie: Apariţia microprocesorului (în anul 1972) a determinat performanţe mari ale prelucrării informaţiilor: viteza de calcul, timp de execuţie a programelor, interactivitatea în utilizarea calculatorului etc.
Fig. 1. Piloni ai cunoașterii și învățării
18
MARIN VLADA
Fig. 2. Piloni ai dezvoltării: Familia, Școala și Societatea „Education and training also have a substantial contribution to the other flagship initiatives such as the Digital Agenda and Innovation Union. Systems of education and training in Europe should provide the right combination of skills and abilities, to ensure a sufficient number of graduates science, mathematics and engineering, to equip people with basic skills, motivation and ability to learn , to encourage the development of transversal competences, including those that permit the use of modern digital technologies , to promote sustainable development and active citizenship and encourage creativity, innovation and entrepreneurship”. (Europe 2020 Strategy)
Fig. 3. Complexitatea Procesului de învățare (M. Vlada, A. Adăscăliței, eLSE 2014)
Statistică şi Informatică pentru chimie medicală şi farmaceutică
19
“The modern world is the product of ideas, beliefs and values of human imagination and culture have shaped it over centuries. It has been created out of our minds as much as from the natural environment. The human mind is profoundly and uniquely creative, but too many people have no sense of their true talents. Education has an important role in helping us to achieve our potential, but the processes by which we assess ability were designed for other times and for other purposes. This extensively revised and updated version of Ken Robinson’s bestselling classic, Out of Our Minds, offers a new approach to creativity in education and in business. It is a provocative call for a more innovative approach to teaching, training and development that will increase our opportunities for economic, cultural and human survival.” (Sir Ken Robinson, Out of Our Minds: Learning to be Creative, Wiley/Capstone)
Fig. 4. Mediul educațional integrat (M. Vlada, A. Adăscăliței, eLSE 2014) Referință 1. Vlada Marin, Adăscăliței Adrian, Computers: as digital facilities for scientific research and as tools for enhanced learning in higher education, In The 10th International Scientific Conference eLearning and software for Education, Bucharest, Advanced Distributed Learning Department, „Carol I” National Defense University, eLSE 2014, Bucharest, April 24-25, 2014, volume 2, Editura Universității Naționale de Apărare „Carol I” (ISSN: 2066 - 026X print 2066-8821 online), pp. 537-544, 2014, www.elseconference.eu.
MARIN VLADA
20
1.1.1 Platforme e-Learning Construirea unei societăţi informaţionale (ce va reprezenta trecerea la societatea cunoaşterii și la o cultură a învățării) nu se poate realiza fără cercetare şi proiecte de investiţii, atât în domeniul IT&C, cât şi în domeniile educaţiei și cercetării. Dezideratul final fiind competenţa, nici o tehnologie, nici o teorie, nici o abordare nu va elimina sau neglija relaţia profesor-elev/student. Toate vor fi instrumente comode şi eficiente la îndemâna, atât a profesorului, cât şi elevului/studentului. Uneori, aceste instrumente pot fi unice faţă de instrumentele tradiţionale din educaţie. Unele reprezentări pot fi reproduse sau simulate doar prin intermediul calculatorului care oferă metode şi tehnici privind grafica, animaţia, sunetul. De exemplu, reprezentările 3-dimensionale sau evoluţia unor fenomene fizice, chimice, biologice etc., care se desfăşoara dinamic, nu pot fi reprezentate sau studiate decât folosind calculatorul. Competenţa implică experienţă în rezolvarea problemelor dintr-un anumit domeniu de activitate. Competenţa şi experienţa în rezolvarea problemelor se pot obţine doar dacă permanent se are în vedere interdependenţa realitatea fizică-realitatea virtuală, şi dacă se întreprind eforturi pentru însuşirea de noi cunoştinţe, pentru cunoaşterea corespunzătoare a tuturor aspectelor privind modelul fizic, respectiv modelul virtual, aspecte determinate de particularităţile problemelor de rezolvat dintr-un anumit domeniu. Tehnologiile de e-learning ce sunt răspândite azi sunt rezultatul evoluţiei, atât a metodelor pedagogice şi psihologice din educaţie, cât şi a tehnologiilor IT&C (tehnologii Web, tehnologii multimedia, tehnologii de comunicaţie). Astfel, utilizarea sistemului Internet, a programelor de elaborare a produselor Web, a înregistrărilor audio/video, a stocării informaţiilor pe CD-uri, a implementării rezultatelor din domeniul graficii pe calculator, au facut posibilă elaborarea de cursuri online, de software educaţional pentru diverse discipline, de biblioteci şi laboratoare virtuale. Calculatorul – mijloc de formare a unei noi viziuni asupra educaţiei, cercetării şi inovării
„LUMEA CONTEMPORANĂ este marcată de o evoluţie rapidă şi greu previzibilă din toate punctele de vedere (economic, politic, social, ştiinţific). Această evoluţie marchează toate regiunile globului şi toate sferele vieţii sociale. Are un caracter imperativ, pluridisciplinar, cu conexiuni puternice şi numeroase. În faţa acestor demersuri epistemologice, oamenii tentaţi să folosească abordări unidisciplinare şi nu pluridisciplinare sau transdisciplinare sunt dezorientaţi şi depăşiţi de situaţie. Pentru a forma noile generaţii astfel încât să fie capabile să facă faţă problemeticii lumii contemporane, sunt necesare acele schimbări în paradigma învăţării care favorizează trecerea de la învăţărea disciplinară, atomizată, la cea orientată către dezvoltarea unui nou mod de gândire, integrator, ancorat în actualitatea socioculturală complexă, autonom, creativ, deschis. Procesul învăţării transcende educaţia formală şi depinde de interacţiuni realizate cu o multitudine de surse externe situate în zona proximei dezvoltări individuale şi în orizontul motivaţional personal.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
21
OMUL şi LUMEA interacţionează continuu, realitatea este văzută din perspective multiple, informaţia ne parvine prin diverse canale, astfel încât, pentru a avea un răspuns adecvat, CUNOŞTINŢELE noi trebuie produse, şi nu reproduse. ÎNVĂŢAREA este individualizată, iar dezvoltarea în plan cognitiv şi afectiv nu poate face abstracţie de contextul cultural, social, tehnologic. Acestea sunt motive serioase pentru care şcoala secolului 21 ar trebui să se deschidă spre activităţi care să permită o educaţie de factură nouă, mai adecvată realităţilor contemporane. Una dintre cele mai bune instrumentate modălităţi de abordare a învăţării în mod integrator şi diferenţiat este utilizarea calculatorului în sala de clasă. CALCULATORUL incită la permanentă reconfigurare a imaginii pe care o avem despre domeniile cunoaşterii prin accesarea de surse diverse de informaţii şi ne oferă un alt mod de a cunoaşte şi de a produce CUNOAŞTEREA. EDUCATORUL nu mai dirijează şi nu mai controlează informaţiile care intră în lumea elevilor. El ar trebui să faciliteze înţelegerea lumii externe, corespondenţele subiective între lumea externă şi lumea internă, iar calculatorul îi poate fi de mare ajutor în demersul său de la o instruire uniformă, pentru toţi elevii la fel şi una individualizată, fiecăruia după potenţialul biopsihologic şi nevoi. Schimbarea de paradigmă a învăţării şi anume trecerea de la achiziţii de cunoştinţe la dezvoltarea de competenţe, valori şi atitudini impune focalizarea instruirii pe activităţi dominante de participare activă şi voluntară a elevilor după nevoile, interesele şi profilurile lor de învăţare. Diferenţierea instruirii şi contextualizarea acesteia are un suport deosebit de util în utilizarea calculatorului la clasă.” [1].
Referinţe [1] Mihaela Ilie, Radu Jugureanu, Otilia Ştefania Păcurari, Olimpius Istrate, Emil Dragomirescu, Dana Vlădoiu (2008), Manual de instruire a profesorilor pentru utilizarea platformelor de eLearning, Editura LITERA Internaţional, Bucureşti, 2008 [2] BETT, www.bettshow.com [3] Siveco, http://www.siveco.ro/web/content.jsp?page=2795&language=1 [4] CNIV and ICVL Projects, www.cniv.ro (romanian project), www.icvl.eu (international project) [5] CNIV, http://www.cniv.ro/2009/elearning [6] Vlada, Marin (2009) Utilizarea Tehnologiilor eLearning: cele mai importante 10 initiative şi proiecte din Romania. In: Elearning.Romania. Bucharest: TEHNE – Centre for Innovation in Education. Available online: http://www.elearning.ro. [7] Vlada, Marin, Adăscăliţei, A. and Jugureanu, R. (2009) Trends of eLearning: Learning – Knowledge – Development. In eLSE 2009 – The 5th International Scientific Conference „eLearning and Software for Education”, BUCHAREST, April 09-10, 2009, „Carol I” National Defense University, Romania, Available Online: http://adl.unap.ro/else2009/index.php
Obiectivele învăţării:
„a şti ce” – procesul şi conţinutul gândirii. „a şti cum” – metode şi procedee în rezolvarea problemelor. „a fi eficient” – abilitatea de a găsi o soluţie optimă (cu costuri minime) sau mai multe pentru rezolvarea problemelor complexe.
MARIN VLADA
22
PROCESUL ÎNVĂŢĂRII ÎN REZOLVAREA PROBLEMELOR (Taxonomia Bloom & Anderson – 1956, 2001) „Învăţarea care are sens le oferă elevilor cunoştinţele şi procesele cognitive de care au nevoie pentru a putea rezolva probleme.” Lorin Anderson 6. CREAŢIA - abilitatea de a combina lucruri existente pentru a face ceva nou generează, planifică şi produce.
5. EVALUAREA - capacitatea de a emite judecăţi de valoare critică, judecă, justifică, argumentează, susţine.
4. ANALIZA CUNOŞTINŢELOR - capacitatea de descompunere a cunoştinţelor în părţi şi considerarea relaţiei dintre părţi şi structura generală analizează prin diferenţiere, organizare şi atribuire.
3. APLICAREA PROCEDEELOR - abilitatea de utilizare a unui procedeu învăţat într-o situaţie familiară sau una nouă - modelarea, pregatirea, construirea.
2. ÎNŢELEGEREA CONCEPTELOR - abilitatea de a forma propriul înţeles pe baza materialelor educaţionale şi explicaţiilor profesorului - interpretarea, exemplificarea, clasificarea, rezumarea, deducerea, compararea.
1. AMINTIREA CUNOŞTINŢELOR - recunoaşterea şi reamintirea conceptelor şi informaţiilor relevante din memoria pe termen lung. Fig. 5. Piramida cunoaşterii. Etapele învăţării
Statistică şi Informatică pentru chimie medicală şi farmaceutică
23
Model de Instruire Asistată de Calculator Fundamente
Navigaţie / Hyperlegături
Expert / Interviu
Teoretice
T E O R I E
SCENARIUL Model
Literatură
(Didactic)
Internet / Cercetare
Studii de caz/ Exercitii
P R A C T I C Ă
Vizualizare / Simulări
COMPUTER 16 May 2015
Technical University Gh. Asachi, Iași & University of Bucharest, România
19
Fig. 6. Model de instruire asistată de calculator (A. Adăscăliței, M. Vlada, 2015)
Fig. 7. Metode de instruire On-Line (A. Adăscăliței, M. Vlada, 2015) Referință A. Adăscăliței, M. Vlada, „Didactică cu programe software educaţionale, Blended-Learning și Moodle”, Prima Conferinţă Naţională Moodle în Educaţie, 16 mai 2015, Liceul Tehnologic „V. Sav”, ISJ Roman
MARIN VLADA
24
1.2 Exemple privind studiul fenomenelor Exemplu. Studiul fenomenelor fizice și chimice. Studiul și modelarea mișcării corpurilor (corp real versus punct material) în 2D și 3D.
1.2.1 Fenomenul mișcării corpurilor în 2D / 3D Cinematica (Kinemat=mișcare) este ramura Mecanicii clasice ce s-a dezvoltat ca ramură a Fizicii. Cinematica studiază mişcarea sistemelor materiale (punct material, sistem de puncte materiale, solid rigid, sisteme de corpuri rigide) fără a ţine seama de mase şi forţe. Fizica a fost fundamentată ca știintă de către Galileo Galilei și Isaac Newton în sec. XVII, prin formularea unui set de principii ale dinamicii corpurilor. Dinamica este o ramură a mecanicii clasice care se ocupă cu studiul mișcării corpurilor, în special cu efectul forțelor asupra mișcării corpurilor respective. Legile fundamentale ale dinamicii au fost formulate inițial de către Isaac Newton. În mecanica cuantică, dinamica se ocupă cu studiul cuantificării forțelor, cum este în cazul electrodinamicii cuantice și cromodinamicii cuantice. Se pot formula următoarele constatări: Principiile sunt adevăruri unanim recunoscute, verificabile prin consecințe într-o multitudine de situații din viața reală. Împreună cu observația și experimentul, acestea servesc la formularea legilor fizice, care reprezintă legături cantitative de tip cauză-efect, între mărimile relevante într-un proces fizic. Structura matematică a mecanicii clasice a fost dezvoltată ulterior prin lucrările lui Lagrange, în secolul al XVIII-le și Hamilton în secolul al XIX-lea. Evoluția și dezvoltarea Mecanicii clasice și Fizicii-precum și a multor științe, se datorează teoriilor și metodelor oferite și de Matematică: geometrie, algebra, calculul diferențial și integral, statistica matematică etc. Astfel, a fost posibilă apariția de noi discipline ale Fizicii: Mecanica analitică, Teoria relativității, Mecanica cuantică etc., ce servesc la înțelegerea lumii înconjurătoare, fiind instrumente necesare pentru rezolvarea a nenumărate probleme din viața reală. În ultimele decenii Mecanica clasică a revenit în atentia fizicienilor după ce Matematica și Informatica au oferit noi instrumente și abordări pentru analiza dinamicii sistemelor a căror evoluție este descrisă de ecuații neliniare și rezolvate prin utilizarea calculatoarelor tot mai performante. Deși, Fizica clasică folosește Modele liniare, lumea fizică înconjurătoare este în mod preponderent neliniară. În acest sens, au apărut tehnici de abordare modernă a evoluției unor sisteme mecanice descrise de dinamici neliniare, așa cum apar ele în Teoria haosului: atractori, analiza în spatiul fazelor, bifurcații, coeficienți Lyapunov, teoria fractală etc. Aceste instrumente descriu comportarea haotică a sistemelor fizice guvernate de legi deterministe, pentru care ecuațiile de mișcare și condițiile inițiale permit determinarea evoluției sistemului la orice moment de timp.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
25
Modelarea vitezei și a accelerației-conceptul de derivată a unei funcții Studiul mişcării implică alegerea unui sistem de referinţă. În Cinematică, trei probleme sunt esenţiale: problema traiectoriilor, problema vitezelor, problema acceleraţiilor. Conceptele și reprezentările oferite de Matematică sunt aspecte virtuale/abstracte care modelează într-un spațiu virtual realitatea fizică înconjurătoare (lumea reală): Modelul virtual vs. Modelul fizic. Aspectele modelării (reprezentarea corpurilor în mișcare, traiectoria și ecuațiile mișcării): Modelul punctului material – se aplică cu succes, atât pentru studierea mișcării unor corpuri de dimensiuni și mase gigantice (macrocosmoscorpurile din interiorul sistemului solar), cât și unor corpuri de dimensiuni nanoscopice (microcosmic – atomi, nuclee, electroni etc.). Modelul traiectoriei și mișcarea – într-un sistem de coordonate (cartezian, cilindric, sferic, polare, n-dimensional) traiectoria este reprezentată de poziția unui mobil/punct material în mișcare (curbe în spațiu 2D, 3D sau Rn), iar legea mișcării este reprezentată de ecuațiile mișcării. Modelul 3D (spațiul tridimensional R3, reperul OXYZ în spațiu) Orice corp material din mediul înconjurător (spațiul fizic, lumea reală) este caracterizat de dimensiuni spațiale finite și de masa m. În lumea reală, spațiul ocupat de corp conține o infinitate de puncte, de aceea nu este posibilă precizarea poziției lui în spațiu utilizând coordonatele carteziene (x, y, z) din spațiul virtual OXYZ (oferit de geometria 3D). Din acest motiv corpul material este reprezentat/asimilat cu un punct geometric în care este concentrată toata masa m a corpului. Astfel, studiul mișcării corpului se reduce la descrierea mișcării unui punct geometric în spațiu. Această simplificare poartă denumirea de aproximația corpului material, iar punctul geometric cu care este asimilat corpul se numește punct material.
Fig. 8. Modelarea corpului fizic ca punct material (T. Petrișor, 2011) Pentru studiul diverselor fenomene, în matematică, există două modalități de identificare (poziționare) a unui punct material în spațiu (aceste reprezentări conduc la calcule specifice fiecărei modalități): 1. Mărimi scalare spațiale – coordonate carteziene (x, y, z) din spațiul virtual OXYZ – valori reale R, raportate la axele OX, OY și OZ; aceste coordonate definesc în mod unic poziția punctului în spațiu (obținut prin proiecția punctului pe planele XOY, YOZ, respectiv ZOX); în general, Geometria analitică utilizeaza mărimi scalare spațiale.
MARIN VLADA
26
2. Mărimi vectoriale spațiale – Vectorul r se numește raza vectoare/vectorul de poziție asociată/asociat punctului material. Vectorul r definește în mod unic poziția punctului în spațiu, deoarece el are modulul, direcția și sensul determinate de poziția punctului ce reprezintă un mobil în mișcare; majoritatea cazurilor studiate în Fizică utilizeaza mărimi vectoriale spațiale.
Z
Z
z
z P(x,y,z)
k
y i
Y
r j
P(x,y,z) y Y
x x X X a) Mărimi scalare spațiale – coordonate carteziene (x, y, z)
b) Mărimi vectoriale spațiale – Vectorul
r
Fig. 9. Identificarea poziției în spațiu-coordonate carteziene (a), raza vectoare (b) Relația ce demonstrează echivalența dintre cele modalități de a defini poziția unui punct în spațiu: unde x, y, z R și
i, j, k
r = xi
+ y j + zk ,
sunt vectorii versori ai direcțiilor x, y și z. Modulul
vectorilor versori este egal cu unitatea: | i | = | j | = | k | =1. În studiul fenomenelor, diversitatea din lumea reală necesită utilizarea mai multor sisteme de coordonate, cu facilităti de conversie între ele: 1. Coordonate carteziene – coordonatele carteziene (x, y, z) din spațiul virtual OXYZ oferă poziția unui mobil ce generează traiectoria într-o mișcare în spațiul R3 funcție de timpul t. Ecuațiile parametrice vor fi: x=x(t), y=y(t), z=z(t), iar vectorul de poziție
r = xi
+ y j + z k , unde x, y, z R 2. Coordonate cilindrice - coordonatele cilindrice (r, Ɵ, z) transformă mișcarea unui mobil pe o traiectorie într-o mișcare pe suprafața unui cilindru. Acestea sunt o generalizare a coordonatelor polare în plan obținută prin adăugarea celei de-a treia dimensiuni, cota z. Domeniile pentru coordonatele cilidrice sunt (raza polară, unghiul polar și cota):
Statistică şi Informatică pentru chimie medicală şi farmaceutică
27
r (0, ) , (0,2 ) , z (, ) . Ecuațiile parametrice vor fi: r=r(t), Ɵ =Ɵ(t), z=z(t). Versorii sistemului cilindric sunt
, n, k ,
unde
= cos(Ɵ) i
versorul cu direcția identică cu a proiecției vectorului
r
iar n = - sin(Ɵ) i + cos(Ɵ) j este normală pe . Vectorul r se transformă în r ' = r + z k = r cos(Ɵ) i + r sin(Ɵ) j + z k ;
+ sin(Ɵ) j este
pe planul
XOY,
Fig. 10. Identificarea poziției în coordonate cilindrice 3. Coordonate sferice – coordonatele sferice (r, Ɵ, φ) transformă mișcarea unui mobil pe o traiectorie într-o mișcare pe suprafața unei sfere. Domeniile pentru coordonatele cilidrice sunt (r = raza polară, φ = longitudinea, Ɵ = azimutul):
r (0, ) , (0, ) , (0, 2 ) . Ecuațiile parametrice vor fi: r = r(t), Ɵ =Ɵ(t), φ = φ (t).
, n , , unde este este normală pe .
Versorii sistemului sferic sunt identică cu a vectorului
r , iar
r se transformă în
Vectorul
r ' = r = r sin(Ɵ) cos(φ) i
versorul cu
+ r sin(Ɵ)sin(φ) j + r cos(Ɵ) k ;
direcția
MARIN VLADA
28
Exemplu. Sistemul de coordonate geografic1, (GPS – poziția unui mobil pe suprafața pământului dată de latitudine (λ) și longitudine (φ)). Utilizarea coordonatelor sferice în Geografie. Sistemul de coordonate sferic ≈ sistemul de coordonate geografic, și anume, în sistemul de coordonate geografic r=R, unde R este raza Pământului (R≈6371km). Unghiul φ reprezintă longitudinea, iar unghiul θ colatitudinea (θ=900-λ). Latitudinea – unghiul λ, este unghiul pe care îl face raza Pământului cu proiecția ei în planul ecuatorului.
Fig. 11. Identificarea poziției în coordonate sferice 4. Coordonate polare – sistem în 2D (planul XOY) identic cu sistemul cilindric din 3D, cu coordonata (cota) z=0. Coordonatele polare (r, Ɵ) transformă mișcarea unui mobil pe o traiectorie într-o mișcare pe circumferința unui cerc. Domeniile pentru coordonatele polare sunt (r-raza polară, Ɵ = unghiul polar): r (0, ) , (0,2 ) . Ecuațiile parametrice vor fi: r=r(t), Ɵ =Ɵ(t).
, n , unde este versorul cu direcția n este normală pe . Vectorul r se transformă în r ' = r = r cos(Ɵ) i + r sin(Ɵ) j .
Versorii sistemului sunt vectorului
1
r , iar
identică cu
Sistemul de coordonate geografice este un sistem de referință care utilizează coordonatele unghiulare, latitudine (nordică sau sudică) și longitudine (estică și vestică) și servește la determinarea unghiurilor laterale ale suprafeței terrestre (sau mai general ale unui sferoid). Globul este împărțit în 360° (grade) longitudine și 180° (grade) latitudine.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
29
Fig. 12. Identificarea poziției în coordonate polare
Exemplu. a) definirea unui cerc de rază r și centru O, C(O, r) prin coordonate polare (ecuații parametrice): x = r cos (Ɵ), y = r sin (Ɵ), unde (0,2 ) . Această reprezentare se poate exprima prin definirea unei curbe în R2, adică o funcție c: (0, 2π) R2, unde c(Ɵ) = (x(Ɵ), y(Ɵ) ) și x(Ɵ) = r cos (Ɵ), y(Ɵ) = r sin (Ɵ) De asemenea, elipsa de centru O și semiaxe a,b> 0, E(O,a,b), se reprezintă parametric printr-o curbă în R2, adică funcția c: (0, 2π) R2, unde c(Ɵ) = (x(Ɵ), y(Ɵ) ) și x(Ɵ) = a cos (Ɵ), y(Ɵ) = b sin (Ɵ) b) Curba definită prin coordonatele polare r = – 1 – 2 sin(Ɵ) ), unde (0,2 ) , este o curbă cu 2 vârfuri (vârfuri de bucle), conform cu Dennis DeTurck, Herman Gluck, Daniel Pomerleano, and David Shea Vick, The four vertex theorem and its converse. Notices Amer. Math. Soc., 54(2): 192-207, 2007.
MARIN VLADA
30
Fig. 13. O posibilă traiectorie a mișcării unui mobil. Curba cu 2 vârfuri, Andrei-Dan Halanay [1] Astăzi, în Geometrie există un număr mare de curbe ce au o definiţie „dinamică” ca urmare a generării lor prin mișcarea unui anumit punct: cicloidă - curba descrisă de un punct care se află pe un cerc care se rostogoleşte fără frecare pe o dreaptă. epicicloidă - curba descrisă de un punct aflat pe un cerc de rază r care se mişcă fără frecare pe exteriorul unui cerc de rază R. hipocicloidă - curba descrisă de un punct aflat pe un cerc de rază r care se mişcă fără frecare pe interiorul unui cerc de rază R.
Fig. 14. Cicloida (Eric W. Weisstein [2]) Hipocicloide
Statistică şi Informatică pentru chimie medicală şi farmaceutică
31
Epicicloide Fig. 15. Epicicloide și Hipocicloide (Eric W. Weisstein [2]) Problema reginei Didona Se consideră o curbă netedă (cu derivate continue de orice ordin) c: [0, a] R2, c(t) = (x(t), y(t)), a> 0 cu proprietatea că y(0) = y(a)=0. Domeniul mărginit de curbă şi de axa OX are arie maximă atunci când curba c este un cerc. Observație. Pentru rezolvare se va folosi formula pentru aria unui domeniu mărginit de o curbă simplă închisă şi pozitiv orientată c: [a, b] R2, și inegalitatea: L2 4A , unde L este lungimea curbei c, iar A este aria domeniului mărginit de c. Există egalitate dacă şi numai dacă c este un cerc. Referință 1. Andrei Dan Halanay, Curs de geometrie, pag 29-31 http://gta.math.unibuc.ro/pages/ahalanay/Curs.pdf, accesare 2017 2. Eric W. Weisstein, http://scienceworld.wolfram.com/chemistry/, accesare 2017
Traiectoria și mișcarea corpurilor (mobil/punct material) Poziția unui mobil ce generează traiectoria dintr-o mișcare în spațiul R3 funcție de timpul t este reprezentată de ecuațiile parametrice: x=x(t), y=y(t), z=z(t), iar vectorul de poziție este
r = xi
+ y j + z k , unde x, y, z R . Legea mișcării – indică poziția mobilului în sistemul de coordonate în orice moment de timp t:
r
=
r (t).
- în coordonate carteziene r (t) = x(t) i + y(t) j + z(t) k , unde x = x(t), y = y(t), z = z(t) sunt ecuațiile parametrice ale traiectoriei. - în coordonate cilindrice
r (t) = r(t)
+ z(t) k = r cos(Ɵ) i + r sin(Ɵ) j + z k ,
MARIN VLADA
32
unde r=r(t), Ɵ =Ɵ(t), z=z(t) sunt ecuațiile parametrice ale traiectoriei, r (0, ) , (0,2 ) , z (, ) . - în coordonate sferice
r (t) = r(t) = r sin(Ɵ) cos(φ) i
+ r sin(Ɵ)sin(φ) j + r cos(Ɵ) k , unde r=r(t), Ɵ =Ɵ(t), φ = φ(t) sunt ecuațiile parametrice ale traiectoriei, r (0, ) , (0, ) , (0, 2 ) . Modelarea vitezei și a accelerației ale unei funcții au fost introduse pentru modelarea vitezei Conceptele de derivate ( v ) și a accelerației ( a ) unui corp în mișcare: - Viteza – în fizică/mecanică, viteza medie reprezintă raportul dintre spațiul/ distanța parcursă [s1,s2] și durata deplasării [t1, t2] unui corp, adică
| v |
s , s s2 s1 , t t 2 t1. t
- Accelerația – în fizica/mecanică, accelerația medie reprezintă raportul dintre variația vitezei [v1,v2] și durata deplasării [t1, t2] unui corp, adică
| a |
v , v v2 v1 , t t 2 t1. t
Valoarea exactă a vitezei/accelerației se poate determina prin utilizarea expresiilor rezultate din calculul derivatei sau integralei. Calculul diferențial și integral din Matematică oferă instrumente puternice pentru modelarea și rezolvarea multor fenomene și procese din fizică, chimie, biologie, medicină, astronomie etc. Definiția vitezei în Rn Fie c: I Rn o curbă neteda (cu derivate continue de orice ordin) în spatiul Rn dată prin c(t ) ( x1 (t ), , xn (t )), t I . Pentru t I R , t cu semnificația de timp, vectorul
c(t ) R n se numește vectorul tangent sau vectorul viteză al curbei în punctul t. Viteza în punctul t este dată de norma euclidiană
| c(t ) |
n
[x (t )] i 1
i
2
.
A nu se confunda “traiectoria” ce este o curbă în spațiul fizic XYZ, cu curba/funcția atașată ecuației de mișcare s(t). Legea vitezei – indică viteza mobilulului (derivata deplasării) în orice moment de timp t și este - în coordonate carteziene
dr dx dy dz v v (t ) i j k dt dt dt dt
Statistică şi Informatică pentru chimie medicală şi farmaceutică
33
- în coordonate cilindrice
dr d (r ) dz dr d dz v v (t ) k r n k , dt dt dt dt dt dt
unde r=r(t), Ɵ =Ɵ(t), z=z(t) sunt ecuațiile parametrice ale traiectoriei, r [0, ) , [0,2 ) , z (, ) . Trebuie precizat că în sistemul cilindric și n nu sunt
d d n, constanți în timp. Avem dt dt
= cos(Ɵ) i
+ sin(Ɵ) j ,
n = - sin(Ɵ) i + cos(Ɵ) j
Legea accelerației – indică accelerația mobilulului (derivata vitezei) în orice moment de timp t și este - în coordonate carteziene
dv d 2 r d 2 x d 2 y d 2 z a a (t ) i 2 j 2 k dt dt 2 dt 2 dt dt
- în coordonate cilindrice
dv d 2r d 2 dr d d 2 d 2 z a a (t ) ( 2 r( ) ) ( . r 2 )n 2 k dt dt dt dt dt dt dt
Fig. 16. Viteza și accelerația unui mobil în 3D
MARIN VLADA
34 Modelul 2D (spațiul bidimensional R2, reperul OXY în plan) Mișcarea pe o traiectorie curbilinie oarecare
În planul 2D se consideră un mobil ce se mișcă pe o traiectorie curbilinie oarecare pe care se precizează două puncte A și B. Se notează cu A , B versorii tangentelor la traiectorie în punctele A și B. Normalele (perpendicularele) la aceste tangente se intersectează în punctul C –centrul de curbură, iar lungimea R=|AC| |se numește raza de curbură. Dacă punctul B tinde spre punctul A, arcul de curbă s se suprapune peste arcul de cerc de raza R cu centrul în C.
a) Vectorul deplasare r deplasării pe curba s
și lungimea
b) Curbura și raza de curbura a traiectoriei
Fig. 17. Mișcarea pe o traiectorie curbilinie (T. Petrișor, 2011) Prin această observație se definește raza de curbura a traiectoriei în punctul A:
R
s 0 ds 1 d . Curbura este inversul razei de curbură c . d R ds
Normalele la curba traiectoriei: Normala principală – versorul n din A cu directța de-a lungul razei R și îndreptat spre centrul de curbură C; Binormala – are versorul definit de produsul vectorial n .
Dacă punctul A tinde spre punctul B, atunci A B = , iar | |=1 si
devine perpendicular pe . În acest caz sunt valabile formulele lui Frénet: 0 d d 1 n, n. d ds R
Statistică şi Informatică pentru chimie medicală şi farmaceutică
a) Viteza și vectorul de viteză
35
b) Accelerația și vectorul de accelerație
Fig. 18. Viteza și acceleratia pe o traiectorie curbilinie (T. Petrișor, 2011) Viteza pe o traiectorie curbilinie: Viteza instantanee – viteza în punctul A la momentul t ca urmare a distanței ds parcursă de mobil, intervalul de timp dt tinzând către 0:
v
s t 0 ds t dt
Vectorul viteză instantanee – vectorul obținut când A B și t 0 ,
r t 0 dr ds v v , t dt dt
unde
este versorul tangentei la traiectorie în sensul creșterii arcului ds. Accelerația pe o traiectorie curbilinie: Accelerația instantanee – accelerația este derivata de ordinul unu a vitezei sau
v derivata de ordinul doi a vectorului de poziție în raport cu timpul a t Vectorul accelerație instantanee - vectorul obținut când A B și t 0 ,
r
v t 0 d (v ) dv v 2 a n, t dt dt R
coeficientți lui ,
n , sunt
accelerația tangențiala (at) ce este tangentă la traiectorie și are aceiași direcție și
sens cu viteza v , fiind datorată variației în timp a modulului vitezei, respectiv, accelerația normală (an) ce este normală la traiectorie fiind îndreptată spre interiorul acesteia și este datorată variației direcției vitezei în timp.
MARIN VLADA
36 Modelul mișcării uniform variate
O mișcare se numește uniform variată dacă accelerația tangențială at a mobilului pe traiectorie este constantă în timp. În cazul unei mișcari rectilinii uniforme accelerația tangențiala este egală cu accelerația totală a = at , deoarece în acest caz accelerația normală este egală cu zero an = 0. Acest lucru este ușor de demonstrat știind că raza de curbură a unei drepte tinde la infinit R . Dependența de timp a vitezei instantanee are următoarea expresie:
dv a dv adt v v0 at , unde dt v0 este viteza inițială a mobilului la momentul t =0. Analog, dependența de timp a deplasării/spațiului instantanee are următoarea expresie
ds 1 v ds vdt (v0 at )dt s s0 v0t at dt 2
2
,
unde s0 este spațiul/deplasarea/ inițială a mobilului la momentul t =0. Prin urmare, ecuațiile mișcării uniforme variate sunt: Ecuația vitezei
v(t ) v0 at ,
Ecuația de mișcare - deplasare/spațiul
1 s (t ) s0 v0t at 2 , 2
v 2 v0 2a . Ecuația accelerației s s0 2
Ultima ecuație (relația dintre cele 3 concepte: deplasare, viteză, accelerație), numită ecuația lui Galileo Galilei se obține prin eliminarea parametrului t din primele două. De asemenea, trebuie precizat că mișcarea poate fi accelerată, deci acelerația poate fi pozitivă (a>0), sau poate fi încetinită, deci acelerația poate fi negativă (a 30). Pentru k > 30 să se determine numărul cifrelor şi cifrele puterii 2k (de exemplu, să se verifice că 2100 are 31 de cifre şi 2100 = 1267650600228229401496703205376 , iar 21000 are 302 cifre). Evident, problema ar fi simplă dacă s-ar rezolva printr-o singură instrucţiune scrisă într-un limbaj de programare. Acest lucru se poate realiza doar dacă ar exista restricţia k < 31. Ţinând seama de reprezentarea tipului integer în memoria internă a calculatorului, astăzi microprocesoarele şi limbajele de programare pot stoca/reprezenta o valoare întreagă doar pe 4 bytes (32 biţi). Prin urmare 231−1 = 2147483647 este cea mai mare valoare întreagă pe care o poate stoca. Este necesar să concepem un algoritm pentru calculul puterilor 2k, k>30. Vom lua în consideraţie următorul tabel (generat printr-un simplu program, sau folosind facilităţile unor programe de calcul, de exemplu programul Excel inclus în pachetul Microsoft Office, versiunile 2003-2007; versiunea 2010 oferă precizie mai mare): k 2k
1 2
2 4
3 8
4 16
5 32
6 64
7 128
8 256
9 512
10 1024
11 2048
12 4096
13 8192
14 16384
Folosind programul Excel (ce oferă funcţia Power şi operaţia de putere „^ “) se poate constata că 236 = 68719476736 (dacă se utilizează pentru celule formatul „General”) este puterea maximă ce se poate calcula, şi 249 = 562949953421312 (dacă se utilizează pentru celule formatul „Number” cu 0 zecimale) este puterea maximă ce se poate calcula. În tabelul de mai jos avem următoarele concluzii (se folosește formula =2^k sau functia =POWER(2,k)):
Statistică şi Informatică pentru chimie medicală şi farmaceutică
69
Pentru k=50 rezultatele sunt eronate (versiunea Excel 2010 oferă precizie mai mare, în acest caz), şi anume se poate observa că ultimele cifre din dreapta sunt eronate: pentru k=50, prima cifra din dreapta, pentru k=51, ultimele 2 cifre, s.a.m.d. Rezultate corecte calculate cu Web 2.0 scientific calculator (http://web2.0calc.com/): 250= 1125899906842624 și 251 = 2251799813685248. Tabelul 2. Puterile lui 2 calculate programul Excel k=
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
2 4 8 16 32 64 128 256 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864 134217728
k = 28 29 30 31 32 33 34 35 36 37 38 39 40
268435456 536870912 1073741824 2147483648 4294967296 8589934592 17179869184 34359738368 68719476736 EROARE 1.37439E+11 2.74878E+11 5.49756E+11 1.09951E+12
…
…
49 50 51 52 53 54 55 56 57 58
Corect 562949953421312 1125899906842620 2251799813685250 4503599627370500 9007199254740990 18014398509482000 36028797018964000 72057594037927900 144115188075856000 288230376151712000
Rezultate eronate !
b) Utilizarea programului online Web 2.0 (scientific calculator)
268435456 536870912 1073741824
Astăzi, nu este nevoie să se apeleze frecvent la algoritmi de calcul care să utilizeze un limbaj de programare (C++, Java, Visual Basic etc.), deoarece până în prezent s-a dezvoltat foarte mult piaţa sistemelor de programe specializate, ce au
MARIN VLADA
70
programe eficiente şi comode pentru a fi utilizate de elevi, studenți, specialişti. De altfel, dezvoltarea tehnologiilor Web a făcut posibilă apariţia unui număr foarte mare de programe specializate pentru calcule și reprezentări grafice. Un astfel de program este dat de site-ul http://web2.0calc.com/ ce are un Web 2.0 Scientific Calculator. Rezultate obţinute prin utilizarea acestui program: 2100=1267650600228229401496703205376 2300=20370359763344860862684456884093781610514683936659362506361404493543 81299763336706183397376
Fig. 35. Pagina Web http://web2.0calc.com/ Observaţie: programul lucrează cu 14 zecimale exacte! = 3.14159265358979, e = 2.71828182845905 (reprezentare cu 14 zecimale exacte) Acest program se poate utiliza pentru obţinerea diverselor calcule matematice şi inginereşti (cu utilizarea unităţilor de măsura: Units), rezolvarea de ecuaţii (Solve), operaţii cu matrice (Matrix), reprezentarea grafică a funcţiilor (Draw, Plot) etc. c) Utilizarea platformei https://www.wolframalpha.com Platforma pune la dispoziție, prin accesarea https://www.wolframalpha.com/ examples/, o varietate de calcule și reprezentări grafice pentru următoarele domenii științifice: Mathematics, Statistics & Data analysis, Chemistry, Phsics, Astronomy, Engineering, Computation Sciences, Web & Computer Sciences, Heath & Medicine, Materials, Life Sciences, Transportist, Words & Linguistics, People & History, Art & Disign, Music,
Statistică şi Informatică pentru chimie medicală şi farmaceutică
71
Places & Geography, Earth sciences, Weather & Meteorology, Technological World, Educational etc. Prin accesarea adresei https://www.wolframalpha.com/examples/Math.html și prin indicarea calculului 2^1000, platforma calculează valoarea și indică cele 302 cifre.
Fig. 36. Calculul 2^100 folosind platforma www.wolframalpha.com/examples/Math.html Exemplul. Reprezentarea grafică a funcţiilor În funcţie de metoda utilizată de programul specializat, şi funcţie de complexitatea unei funcţii, pot apărea erori frecvente în astfel de situaţii. Aceste erori pot apărea în primul rând din cauza neînţelegerii noţiunilor matematice despre funcţii sau ca urmare a unei slabe experienţe în acest tip de probleme. Vom realiza acest lucru printr-un simplu exemplu. Să presupunem că trebuie să se reprezinte grafic funcţia f(x) = x*sin (x), unde x aparţine intervalului [–50,50]. Evident, funcţia este o compunere de funcţii, o dreaptă şi o sinusoidă. Metoda matematică învăţată de elevi la liceu nu este chiar comodă în acest caz. Nici nu se recomandă să se utilizeze procedura rezultată din metoda matematică.
MARIN VLADA
72
Astăzi, nici studentul de anul I nu se mai gândeşte la metoda matematică. Ştie şi intuieşte că sunt foarte multe programe care oferă posibilitatea reprezentării grafice a funcţiilor. Problema este aceea a alegerii unui astfel de program ţinând seama de licenţa de utilizare şi funcţiile acelui produs software. Majoritatea programelor ştiinţifice (2D și 3D) au această posibilitate. a) cazul programului Excel Pentru testarea modului de a utiliza programul Excel în cazul reprezentării grafice a funcţiilor, considerăm ca exemplu funcția g(x)=sin(x) pe intervalul [-10, 10]. Pentru test, să considerăm că graficul trebuie obţinut pe intervalul [0,10]. Primul lucru, care se realizează rapid şi fără să se intuiască eroarea, se generează valorile naturale 1, 2, 3, ... , 10 pentru argumentul x. Evident că va rezulta graficul unei linii poligonale şi nu graficul real al funcţiei sin(x), după cum se vede din graficul de mai sus. 1.50000
1.00000
0.50000
0.00000
Series1 1
3
5
7
9 11 13 15 17 19 21 23 25 27 29 31
-0.50000
-1.00000
-1.50000
Fig. 37. Reprezentarea grafică greșită a functiei sin(x) Eroarea provine de la faptul ca trebuie să se realizeze discretizarea intervalului (tabelarea funcţie cu un pas cât mai mic p= 10-1, 10-2 etc. ce are legatură cu funcţia studiată; afișajul grafic trebuie să “cuprindă” convexităţile şi cancavităţile graficului). În cazul funcţiei sin(x) este suficientă discretizarea cu pasul p= 10-1, dar tabelarea va produce 10x10 = 100 puncte pe axa pozitivă şi tot atâtea pe axa negativă. E nevoie să se genereze tabelarea funcţiei, și apoi se poate trece la realizarea graficului f(x) = x*sin (x), pe intervalul [–10,10]. Va rezulta graficul corect,care este mai fidel şi mai realist. Tabelarea funcţiei. Discretizare și Calculul integral. Rezoluţie Sistemul de diviziuni (proces de discretizare) din calculul integral este analog rezoluţiei (matricea de pixeli; un „pixel” este unitatea grafică indivizibilă a unui display grafic-device) dată de un display grafic (CRT sau LCD). Această structură de pixeli reprezintă în informatică ceea ce reprezintă calculul integral în analiza matematică
Statistică şi Informatică pentru chimie medicală şi farmaceutică
73
(Newton, Riemann, Darboux, Leibniz etc.). Cu cât rezolutia este mai mare cu atât reprezentarea este de calitate mai bună. Mai jos, este rezoluţia dată de un ecran grafic. Display Properties Screen Resolution: Less-800x600 pixels, More-1680x1050 pixels. Odată cu apariţia display-ului grafic (Graphic Display) în anul 1953, s-a trecut la o nouă etapă în dezvoltarea şi răspândirea calculatorului. Utilizarea bit-ului prin organizarea eficientă a memoriei calculatorului, nu oferea posibilitatea de modelare spaţială a işirilor (OUTPUT), nici prin hardware, nici prin software. Reprezentările grafice folosind caractere (numerice sau alfanumerice) nu era o soluţie care să realizeze o reprezentare fidelă a obiectelor reale. Suportul hardware fiind inventat, în perioada 1960-1980 au fost nevoie de cercetări şi experimente, modele, algoritmi si programe care să foloseacă aprinderea unui „pixel” (unitatea grafică indivizibilă oferită de un display grafic) ce oferea şi culoare, dar mai ales o structură de reprezentare grafică. Atunci, s-a născut Grafica pe calculator: trasarea unui segment de dreaptă (algoritmul Bresenham), trasarea cercului şi elipsei, trasarea şi aproximarea curbelor, algoritmi de decupare (clipping) (algoritmul Cohen – Sutherland, algoritmul Suitherland-Hodgman, algoritmul Weiler- Atherton), tehnici de vizualizare 2D şi 3D, modele de iluminare şi reflexie, modele de tip rastru, modele vectoriale, tehnici de textură. Astfel, s-au pus bazele pentru soluţii integrate software şi hardware pentru proiectare, analiză şi producţie asistată de calculator (CAD) – Computer Aided Design. După anul 1990, s-au obţinut rezultate deosebite în domeniul modelării şi simulării obiectelor din lumea reală, atât prin elaborarea de tehnici şi algoritmi specifici, cât și prin apariţia produselor software care să sprijine acest domeniu. Astfel, Realitatea Virtuală (Virtual Reality) este un nou domeniu al Informaticii, ce are un impact deosebit în utilizarea calculatorului pe scară largă şi pentru o diversitate mare de teme. b) cazul programului online Web 2.0 scientific calculator Se accesează adresa programului, https://web2.0calc.com/ şi se va urmări ce pune la dispozișie programul pentru ca graficul să fie executat corect.
Fig. 38. Meniul programului Web 2.0 scientific calculator
MARIN VLADA
74
Se accesează adresa programului ce oferă fereastra pentru reprezentarea grafică a mai multor funcții, în același sistem de coordonate. Atenție! E nevoie să se valideze opțiunea „Rad” pentru ca argumentul funcției să fie în radiani (valori reale). Se accesează „draw graph” din partea dreapta-jos, ce oferă fereastra pentru reprezentarea grafică, după care se indică: expresia analitică a funcției (în variabila x), limitele intervalului pentru x (xmin, xmax), respectiv limitele valorilor funcției pe acest interval (ymin, ymax). Se acționează tasta „Enter” după ce apare graficul și se pot utiliza butoanele ce oferă schimbarea diviziunilor pentru cele două axe, sau se poate realiza Zoom.
Fig. 39. Grafic obținut cu Web 2.0 scientific calculator
c) cazul platformei www.wolframalpha.com Cu această platformă se pot realiza reprezentări grafice, dar în același timp (prin acționarea link-ului „Compute”) se realizează calculul integralei corespunzător funcției indicate și descrierea funcției sub formă de serie Taylor. Se va accesa adresa https://www.wolframalpha.com/examples/PlottingAndGraphics.html și, în caseta pentru comanda privind funcția analizată, se pot opta pentru următoarele variante: 1. plot x*sin(x) from x=−50 to 50, cu indicarea intervalului; 2. plot (x*sin(x), x=−50..50), cu indicarea intervalului; 3. plot x*sin(x), fără indicarea intervalului. În cazul primelor două variante, când sunt indicate limitele intervalului de definiție, programul calculeaza și integrala pe acest interval, așa cum se vede în figura 40. În cazul variantei 3, platforma oferă două variante de grafice, pe un interval mai mic, și pe un interval mai mare. De exemplu, pentru funcția f(x) = xsin(x), platforma realizează două grafice, unul pe intervalul [−6.3 , 6.3], iar altul pe intervalul [−37.7, 37.7].
Statistică şi Informatică pentru chimie medicală şi farmaceutică
Fig. 40. Grafic cu www.wolframalpha.com/examples/PlottingAndGraphics.html
Se pot reprezenta și funcții de două variabile (suprafețe în 3D). De exemplu, pentru funcția f(x,y)=xsin(y), suprafața reprezentată apare în figura alăturată.
75
MARIN VLADA
76
Fig. 41. Grafic obținut cu varianta 3
Fig. 42. Seria Taylor pentru funcția f(x) = xsin(x)
Statistică şi Informatică pentru chimie medicală şi farmaceutică
d) cazul programului http://www.mathe-fa.de
Fig. 43. Meniul și graficul realizat cu www.mathe-fa.de (D.Schmidt-Loebe)
77
MARIN VLADA
78
1.4.2 Rezolvarea problemei lui Gauss Problema lui Gauss. Un vas conţine 2000 litri dintr-un lichid cu o concetraţie de 80 % alcool. În fiecare zi se scot din vas 15 litri şi se înlocuiesc cu alţi 12 litri dintr-un lichid a cărui concentraţie în alcool este de numai 40 %. După câte zile concentraţia lichidului din vas ajunge la 50 % ? În cele ce urmează vom aborda 3 variante de rezolvări ale problemei pentru a evidenţia atât evoluţia metodelor şi tehnicilor de rezolvare (teorii şi metode numerice), cât şi obstacole în utilizarea diverselor metode (de exemplu, problema propagării erorilor în calcule): 1. Modelarea matematică-metoda matematică – modelarea matematică va reprezenta o ecuaţie funcţională ce se poate aborda ca o ecuaţie funcţională cu diferenţe finite de ordinul I neomogenă; 2. Algoritm de calcul-program într-un limbaj de programare – conceperea procesului de calcul ce realizează un proces iterativ al operaţiilor pentru rezolvarea problemei; 3. Rezolvare cu programul Excel – se vor utiliza facilităţile programului Excel şi forma algoritmică dată de metoda algoritmică. Modelarea matematică şi Metoda algoritmică. Problema este prezentată în [1] și aparent enunţul ei este al unei probleme simple, dar interesantă din punctul de vedere al rezolvării ei, deoarece problema a fost menţionată la vremea respectivă chiar de GAUSS. În [2] apare rezolvarea problemei cu calculatorul. Rezolvarea problemei nu este evidentă, după cum se va vedea în cele ce urmează. Din punct de vedere matematic, rezolvarea necesită noţiuni şi concepte de matematică superioară din domeniul ecuaţiilor funcţionale, şi anume a ecuaţiilor cu diferenţe finite de ordinul I neomogene. În două articole ştiinţifice, problema a fost rezolvată de către W. Lorey (1935) şi A. Walther (1936). Din punct de vedere numeric, rezolvarea problemei necesită cunoaşterea metodelor numerice specifice rezolvării ecuaţiilor cu diferenţe finite. De altfel, W. Lorey a şi utilizat o maşină de calcul pentru rezolvarea numerică a unei ecuaţii cu diferenţe finite, aceasta deoarece a sesizat faptul că soluţia se obţine după un număr considerabil de iteraţii. Din punct de vedere informatic, rezolvarea va fi simplă, deoarece nu se va utiliza modelul matematic (ecuaţia funcţională) obţinut din modelarea analitică a problemei, ci un proces de calcul care simulează operaţiile şi stările unor locaţii de memorie (acesta este de fapt algoritmul care codifică rezolvarea problemei), şi care, implementat într-un limbaj de programare (de exemplu C sau Pascal), va rezolva problema în cazul general. Pentru a face comparaţia între soluţia algoritmică obţinută pentru calculator şi soluţia analitică, prezentăm succint rezolvarea dată de W. Lorey. Vom considera problema în cazul general, de accea vom face următoarele notaţii: a - cantitatea de lichid (în litri) conţinută iniţial în vas; b - cantitatea de lichid ce se scoate zilnic din vas;
Statistică şi Informatică pentru chimie medicală şi farmaceutică
79
c - cantitatea de lichid ce se adaugă zilnic în vas; y0 - cantitatea de alcool pe litru (concentraţia de alcool) a lichidului din vas la momentul iniţial; yp - cantitatea de alcool pe litru a lichidului ce se adaugă; yf - cantitatea de alcool pe litru a lichidului din vas, la momentul final; x - numărul de zile (operaţii de înlocuire a lichidului); y(x) - cantitatea de alcool pe litru a lichidului din vas după x operaţii de înlocuire a lichidului. Ecuaţia funcţională (ecuaţia cu diferenţe finite) pentru determinarea funcţiei y(x), se obţine exprimând cantitatea totală de alcool din vas după x zile, în două moduri : i) (a - bx + cx ) y(x) ii) (a - bx + c(x-1) ) y(x-1) + c yp, unde cazul ii) se obţine adunând cantitatea de alcool din lichidul rămas în vas după (x-1) zile, din care s-au scot b litri, cu cantitatea de alcool a celor c litri care se adaugă. Prin urmare, se obţine următoarea ecuaţie funcţională: (1) (a - bx + cx) y(x) - (a - bx + c(x-1)) y(x-1) = c yp , ecuaţie cu diferenţe finite de ordinul I neomogenă. Rezolvarea acestei ecuaţii este prezentată în [1], soluţia generală fiind
a b a x bc bc , ( x) et t x 1dt , y ( x) y0 ( y0 y p ) 0 a ac x bc bc unde (x) este funcţia lui Euler. În cazul particular a=2000, b=15, c=12, y0=0,8, yp=0,4, y(x) este un polinom de gradul IV:
3x 3x 3x 3x y ( x) 0,4 0,4 1 1 1 1 , 1988 1991 1994 1997
MARIN VLADA
80
de unde, prin aproximare se deduce că y(194) = 0,50048, y(195) = 0,49963, prin urmare, după x=195 zile se ajunge la concentraţia de 0,5. Metoda algoritmică - proces de calcul şi codul algoritmului În cazul rezolvării algoritmice, vom abandona metoda obţinerii ecuaţiei funcţionale şi rezolvarea ei analitică sau numerică, şi vom concepe algoritmul ce realizează procesul de calcul generat de cerinţele problemei. Pe lângă variabilele x, a, b, c, yp, yf cu semnificaţiile prezentate mai sus, vom utiliza şi următoarele variabile: z – cantitatea de alcool din vas la un moment dat; t – cantitatea de lichid din vas la un moment dat; y0 – concentraţia de alcool din vas la un moment dat. Algoritmul în limbaj pseudo-cod este următorul: algorithm Gauss; int x; float a,b,c,y0,yp,yf,z,t; begin // main read a,b,c ; // cantităţi de lichid read y0,yp,yf; //concentraţii // initializations x1; z(a-b)*y0+c*yp; ta-b+c while yf < z/t do begin xx+1; y0 z/t; //concentraţie z(t-b)*y0+c*yp; tt-b+c; end write x; // soluţia end Prin execuţia programului de mai sus (în limbaj de programare C, Pascal etc.), pentru valorile b=15, c=12, y0 (iniţial) = 0,8, yp= 0,4, yf = 0,5 se obţin următoarele rezultate: a = 2000, yf = 0,5004515, x(zile) = 195 a = 5000, yf = 0,5001438, x(zile) = 488
Statistică şi Informatică pentru chimie medicală şi farmaceutică
81
a = 10000, yf = 0,5000983, x(zile) = 976 a = 100000, yf = 0,5000064, x(zile) = 9763 Referinţe [1] Gabriel Sudan, Câteva probleme matematice interesante, Biblioteca SSM, Editura Tehnică, Bucureşti, 1969. [2] Marin Vlada, O problemă a lui K.F. Gauss rezolvată cu calculatorul, Gazeta Matematică, nr. 5/1995.
Rezolvare cu programul Excel Pentru a realiza în Excel calculul iterativ din algoritmul de mai sus, vom introduce mai înainte, în celulele corespunzătoare, valorile datelor cunoscute: a 2000.000
b 15.000
c 12.000
y0 0.800
yp 0.400
yf 0.500
Calculul iterativ şi valorile parametrilor/variabilelor acestui calcul trebuie să fie implementate într-un tabel de forma: x 0 1 2 3
ycurent 0.800 0.800 0.798 0.795
z 1600.000 1592.800 1585.636 1578.508
t 2000.000 1997.000 1994.000 1991.000
Deoarece în algorimul de calcul precedent variabila y0 este folosită şi pentru concentraţia de alcool din vas la un moment iniţial, dar şi pentru concentraţia de alcool din vas la un moment curent, vom introduce variabila: - ycurent = concentraţia de alcool din vas la un moment curent. Din aceste motive, trebuie să implementăm în Excel un calcul iterativ de forma: while yf < z/t do begin xx+1; ycurent z/t; //concentraţia z(t-b)*ycurent+c*yp; tt-b+c; end Trebuie să se realizeze următoarele etape (capul de tabel este pe rândul 6): 1. se generează cu Edit Fill valorile pentru variabila (număr de zile) x: 0..200 pe coloana A corespunzătoare acesteia, şi anume pe rândurile 7-207;
MARIN VLADA
82 2.
3.
4.
se introduc valorile pentru starea iniţială (x=0), adică pentru ycurent, în B7 valoare 0.800, pentru z în C7 formula =A$4*D$4, iar pentru t, în celula D7, valoarea 2000; se introduc formulele pentru prima iteraţie (x=1) ţinând seama de calcul iterativ de mai sus (a se vedea imaginea capturată din programul Excel), şi anume, - pentru ycurent, B8= =C7/D7 - pentru z, C8 =(D7-B$4)*B8+C$4*E$4 - pentru t, D8 =D7-B$4+C$4. se generează formulele (prin Copy sub Excel) pentru iteraţiile x= 2..200, adică se selectează domeniul de celule B8:D8, se eliberează butonul de mouse, după care se aduce cursorul cruce (mare) al mouse-lui către colţul dreapta-jos al cadrului, care a selectat domeniul de celule, determinând apariţia cursorului de cruce mică; după aceea se apasă butonul din stânga şi se trage până la rândul 207 (x=200), realizându-se astfel calcule corespunzătoare pentru cele 3 coloane din tabel.
Fig. 44. Rezolvarea problemei lui Gauss folosind programul Excel Valorile generate de calculul iterativ sunt prezentate în continuare. Concluzia este că soluţia în acest caz este x=195, adică identică cu soluţia determinată prin algoritmul/ programul precedent.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
83
Tabelul 3. Tabelul valorilor obținute prin calculul iterativ 0 1 2 3 4 5 6 7 8
182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200
0.800 0.800 0.798 0.795 0.793 0.790 0.788 0.786 0.783
0.512 0.511 0.510 0.509 0.508 0.507 0.507 0.506 0.505 0.504 0.503 0.502 0.501 0.500 0.500 0.499 0.498 0.497 0.496
1600.000 1592.800 1585.636 1578.508 1571.416 1564.359 1557.338 1550.351 1543.400
2000.000 1997.000 1994.000 1991.000 1988.000 1985.000 1982.000 1979.000 1976.000
743.148 740.282 737.429 734.590 731.764 728.952 726.154 723.369 720.597 717.838 715.092 712.360 709.640 706.934 704.240 701.558 698.890 696.233 693.590
1454.000 1451.000 1448.000 1445.000 1442.000 1439.000 1436.000 1433.000 1430.000 1427.000 1424.000 1421.000 1418.000 1415.000 1412.000 1409.000 1406.000 1403.000 1400.000
9 10 11 12 13 14 15 16 17
0.781 0.779 0.776 0.774 0.772 0.770 0.767 0.765 0.763
1536.484 1529.603 1522.756 1515.944 1509.166 1502.422 1495.712 1489.036 1482.394
1973.000 1970.000 1967.000 1964.000 1961.000 1958.000 1955.000 1952.000 1949.000
Soluţia corectă!
Concluzii Din analiza celor 3 rezolvări ale problemei lui Gauss se poate exprima concluzia că metoda matematică (rezolvarea unei ecuaţii funcţionale) este laborioasă şi incomodă, iar metoda algoritmică susţinută de un program scris într-un limbaj de programare este cea mai comodă şi eficientă. De asemenea, rezolvarea folosind facilităţile programului Excel este comodă şi eficientă, în primul rând pentru că se bazează pe procesul de calcul iterativ din metoda algoritmică. Incoveniențele (eliminate în cazul programului scris într-un limbaj de programare) apar atunci când în vas cantitatea de lichid este foarte mare (5000, 10000 etc.), caz în care tabelul de calcul necesită dimensiuni mari. Mai jos, vom exemplifica
MARIN VLADA
84
printr-o situaţie, modul în care propagarea erorilor poate denatura obţinerea rezultatului corect în cazul acestei probleme. Exemplu privind propagarea erorilor Pentru cantitatea de lichid de 2000 litri, numărul de iteraţii este considerabil (x=195, soluţia) şi astfel, aceste iterații pot determina un proces de propagare a erorilor. Astfel, formula variabilei/parametrului z din algoritmul de calcul utilizează valoarea concentraţiei de la pasul precedent, z(t-b)*ycurent + c*yp . Vom modifica formula astfel ca să se utilizeze valoare concentraţiei la momentul curent, adică formula C8 = (D7-B$4)*B8+C$4*E$4 va fi modificată astfel: C8 = (D7-B$4)*B7+C$4*E$4. În urma refacerii calculelor obţinem rezultatele de mai jos. Tabelul 4. Tabelul valorilor obținute prin calculul iterativ x 0 1 2 3
ycurent 0.800 0.800 0.798 0.798
4
0.795
5 6 7 8 9 10 11 12
0.795 0.793 0.793 0.790 0.790 0.788 0.788 0.786
z 1600.000 1592.800 1590.400 1583.243
t 2000.000 1997.000 1994.000 1991.000
1580.843 1988.000 1573.730 1571.330 1564.259 1561.859 1554.831 1552.432 1545.446 1543.047
1985.000 1982.000 1979.000 1976.000 1973.000 1970.000 1967.000 1964.000
186 187 188 189 190 191 192 193 194 195 196 197 198 199 200
0.607 0.607 0.606 0.605 0.604 0.604 0.602 0.602 0.601 0.600 0.599 0.599 0.597 0.597 0.595
875.596 871.634 869.466 865.531 863.367 859.459 857.300 853.418 851.263 847.408 845.257 841.428 839.282 835.479 833.337
1442.000 1439.000 1436.000 1433.000 1430.000 1427.000 1424.000 1421.000 1418.000 1415.000 1412.000 1409.000 1406.000 1403.000 1400.000
Rezultate eronate !
În acest caz, soluţia are valoare mai mare decât valoarea corectă. O implementare greșită a influenţat propagarea erorilor și obţinerea unor rezultate eronate. Evident, numărul mai mare de iterații a condus la astfel de rezultate.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
85
2 Prelucrarea, reprezentarea și interpretarea datelor 2.1 Seturi de date și indicatori statistici Indicatorii statistici sunt definiţi pentru a surprinde (a analiza) variaţii de manifestare a unor valori măsurate pentru fenomene şi procese, şi care necesită elaborarea unor metodologii şi tehnici de rafinare, transformare şi aplicare a unor operaţii speciale de calcul pentru obţinerea unor determinări cantitativ-numerice. Indicatorul statistic, în forma sa generală, este expresia numerică a manifestărilor unor fenomene, procese, activităţi sau categorii economice şi sociale, delimitate în timp, spaţiu. Pentru cunoaşterea proceselor şi fenomenelor, indicatorii statistici îndeplinesc mai multe funcţii şi anume: de măsurare; de comparare; de analiză sau de sinteză; de estimare; de verificare a ipotezelor şi/sau de testare a semnificaţiei parametrilor utilizaţi. Indicatorii statistici se pot grupa în: Indicatori primari (mărimi absolute) – exprimă direct valori inițiale (măsurări) pentru obiectivele cercetate; se pot obţine prin înregistrarea directă, centralizarea datelor sau prin însumarea parţială sau totală a datelor individuale; prezintă o capacitate relativ limitată de descriere a fenomenului/procesului analizat, şi nu permite realizarea unor aprecieri calitative;
MARIN VLADA
86
Indicatori derivaţi – se obţin prin prelucrarea indicatorilor primari şi fac posibilă analiza aspectelor calitative ale fenomenelor şi proceselor analizate (ex: mărimi relative, mărimi medii, indicatori ai variaţiei, indici, indicatori ai corelaţiei etc).
Indicatorii tendinţei centrale În general, indicatorii tendinţei centrale se determină ca indicatori medii sau indicatori de poziţie (de localizare), în funcţie de natura caracteristicilor urmărite în colectivitatea investigată, de scopul investigaţiei. Sunt multe situaţiile când tendinţa centrală se caracterizează printr-un anumit tip de medie (aritmetică, armonică, pătratică, geometrică), dar şi situaţii de utilizare a indicatorilor sintetici de poziţie (localizare: modul, cuantile).
Diverse tipuri de medii ale valorilor primare (seturilor de date): Media aritmetică – În sens statistic, media aritmetică a valorilor individuale (x1, x2, …, xn) ale variabilei / parametrului X = (x1, x2, …, xn) reprezintă acea valoare x care s-ar fi înregistrat dacă toţi factorii de influenţă ar fi acţionat constant (cu aceeaşi intensitate) la nivelul fiecărei valori măsurare/înregistrare. Prin urmare, n
x x2 ... xn , sau x x 1 n
x i 1
n
i
, şi avem min xi x max xi . i
i
Media ponderată – Într-o colectivitate statistică, suficient de mare (n valoare mare), unde de obicei, multe valori prezintă o anumită frecvenţă de apariţie, media aritmetică se calculează ca o medie ponderată: n
x
fx i
i 1
n
i
n
, unde fi reprezintă frecvenţa valorii xi, şi avem
f i 1
i
n.
Media armonică – Media armonică este folosită numai în anumite situaţii, şi anume, atunci când valorile/seturile de date sunt alcătuite din valori exprimate sub formă de rapoarte, cum ar fi preţurile, vitezele (în mp/h), preţurile (în u.m./kg), sau productivitatea (produse/oră-om). Media armonică se defineşte ca valoare inversă a mediei aritmetice a inverselor valorilor elementelor individuale înregistrate; relaţia de calcul a mediei armonice simple a şirului de valori X = (x1, x2, …, xn) este următoarea:
ma
n n
1 i 1 x i
;
Pentru o serie de distribuţii de frecvenţe, media armonică ponderată se calculează după relaţia:
Statistică şi Informatică pentru chimie medicală şi farmaceutică
87
n
ma
f i 1
i
n
1 fi i 1 xi
,
Media geometrică – Media geometrică este o mărime specializată, folosită pentru a calcula media creşterilor procentuale (media creşterilor procentuale a salariilor sau preţurilor bunurilor). Media geometrică reprezintă acea valoare a caracteristicii observate care, dacă ar înlocui fiecare valoare individuală din serie, produsul acestora nu s-ar modifica, adică 1
n n m g xi i 1 . Indicatori de poziţie Indicatorii de poziţie calculează şi se identifică în cadrul unui set de valori cu câte o variantă reală, care posedă o anume proprietate, conform căreia respectiva variantă oferă o informaţie satisfăcătoare despre setul de valori studiat:
Mediana (Median) – aceasta reprezintă valoarea centrală a unei serii de date aranjate crescător sau descrescător, şi are proprietatea că împarte seria în 2 grupuri egale, astfel încât jumătate dintre valori sunt mai mici decât mediana şi jumătate sunt mai mari decât mediana. Este cuartila de mijloc, cuartilele fiind valori care împart seria în 4 grupe, sau este percentila de mijloc, percentilele fiind valori care împart seria în 10 grupe egale. Pentru o serie cu număr impar de valori, valorile seriei sunt în ordine crescătoare şi valoarea care împarte seria în două părţi egale este mediana. Valoarea de mijloc a unei distribuţii este definită drept cel mai mic număr astfel încât jumătate dintre valori să nu fie mai mari decât el. Cu alte cuvinte, jumătate dintre valori sunt mai mici sau egale cu mediana, jumătate sunt mai mari decât mediana. De remarcat că, deşi este utilizat în general ca un indicator de tendinţă centrală, mediana oferă mai degrabă informaţii asupra repartizării observaţiilor (indicator de împrăştiere). De regulă, mediana este raportată împreună cu quartilele distribuţiei în aşa-zisa rezumare
MARIN VLADA
88
prin cinci valori. Dacă x1, x2, . . . , xn sunt valorile observate, mediana este calculată, după ordonarea crescătoare a valorilor, x(1) ≤ x(2) ≤ . . . ≤ x(n), astfel:
xk 1 , N 2k 1 Me N 2k ( xk xk 1 ) / 2, Este de notat că mediana realizează minimul sumei abaterilor absolute ale n
valorilor distribuţiei de la un punct fixat:
|xi – m| este minimă pentru m egală
i 1
cu mediana distribuţiei (în cazul unui număr par de valori, mediana – aşa cum a fost definită – nu este singura valoare cu această proprietate). Programul Excel are functia MEDIAN pentru calculul aceste valori. În pagina precedenta apare fereastra Help pentru utilizarea acestei funcții. Funcţia Excel: MEDIAN(number1, number2,...) Number1, number2, ...
are 1 to 30 numbers for which you want the median.
Exemplu: Median (18,19,20,21,22,23,24,25,26,27,28,29,30,31,32)=25 (număr impar de valori); Median (18,19,20,21,22,23,24,25,26,27,28,29,30,31) = 24.5
Modulul (Mode) – valoarea modală, adică dominanţa unei variabile, reprezintă valoarea care înregistrează cea mai mare frecvenţă de apariţie. Valoarea modală se utilizează ca indicator al tendinţei centrale atunci când media nu se poate calcula sau nu are sens să fie calculată. Valoarea modulului este cea mai frecventă valoare dintr-o mulţime de valori. Grafic, dintr-o histogramă, o valoare modulului este identificată printr-un maxim relativ. O distribuţie poate avea astfel, mai multe valori modul (distribuţii unimodale, bimodale etc.). Funcţia Excel: MODE (number1,number2,...) Number1, number2, ... are 1 to 30 arguments for which you want to calculate the mode. You can also use a single array or a reference to an array instead of arguments separated by commas. Exemplu: Mode (18,19,20,21,22,20,24,20,26,27,20,29,30,31,32)=20, Mode (18,19,20,18,22,18,24,25,26,27,18,29,30,31) = 18
Așadar, în programul Excel, funcţiile corespunzătoare parametrilor media arimetică, mediana şi modulul sunt: AVERAGE, MEDIAN, MODE.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
89
Indicatori ai împrăştierii (variaţiei)
Amplitudinea (Range) – sau indicele de dispersie (Dispersion indexes) – este definită ca xmax–xmin, unde xmax şi xmin sunt valorile extreme ale unui set de numere observate. Oferă o imagine a răspândirii datelor, dependentă însă de numărul de valori observate. Cu cât se măsoară mai multe elemente, cu atât şansa de a observa valori mai depărtate creşte, deci și şansa de a obţine o amplitudine mai mare. Abaterea medie (Mean Deviation) – deviaţia sau abaterea medie reprezintă media abaterilor valorilor individuale faţă de valoarea medie:
1 n DM | xi x | n i 1
Abaterea standard (Standard Deviation – SD) este radical din media abaterilor pătratice datelor individuale şi se calculează cu formula: n
xi x 2
s
i 1
n 1
n
x
,X
i
i 1
x
2
n
(în programul Excel este funcţia STDEV, pentru un eșantion sau STDEVP, pentru o populație). Varianţa (Variance) sau dispersia este pătratul abaterii medii pătratice, n
V x
2 xi x i 1
n 1
n
, x2
x i 1
i
x
2
n
(în Excel este funcţia VAR, pentru un eșantion sau VARP, pentru o populație).
Intervalul de confidenţă (Confidence interval) – interval de încredere pentru estimarea unui parametru (de exemplu, media, dispersia etc). În cazul unei distribuţii normale, de tip Gauss (a se vedea capitolul 3): a) x x , cu probabilitate de 0,682. b) x x 2 , cu probabilitate de 0,954. c)
x x 3 , cu probabilitate de 0,997.
În programul Excel există funcţia CONFIDENCE (alpha,standard_dev,size), Alpha is the significance level used to compute the confidence level. The confidence level equals 100*(1 - alpha)%, or in other words, an alpha of 0.05 indicates a 95 percent confidence level. Standard_dev is the population standard deviation for the data range and is assumed to be known. Size is the sample size.
MARIN VLADA
90
2.2 Reprezentarea grafică a datelor În matematică termenul/conceptul de funcție reprezintă relația dintre două seturi de date (mulțimi de valori), un set de date semnificând domeniul de definiție, de exemplu mulțimea A, și un set de date semnificând domeniul de valori (codomeniul), de exemplu mulțimea B. În limbaj matematic, această relație se notează prin f : A B, unde A, B R , iar ecuația/relația y=f(x) indică faptul că pentru x A y B , y este o valoare calculată printr-o expresie algebrică f(x), ceea ce reprezintă corespondența dintre valorile x și y, adică x y. În studiul fenomenelor și proceselor din diverse domenii (fizică, chimie, biologie, medicină, sociologie, economie etc.), există o mare varietate de seturi de date, corespunzătoare mulțimilor A și B, elementele acestora fiind marimi/valori ce au diverse unități de măsură. Mulțimea T (timp)
T1 T2 … x … Tn
Mulțimea P (presiune)
o o
P1 P2 … y … Pn
f
o
y = f(x)
o
o o o o
În programul Excel, reprezentarea acestei relații se realizează printr-un tabel vertical (eventual orizontal). Timp Presiune
T1 P1
T2 P2
... ...
x y
... ...
Exemplu. Nr. crt. 1 2 3 4 5
Tabelul 5. Tabelul cu date ale unor persoanele Vârsta Masa Nume și prenume pacient [ani] corporală [kg] Popescu Mihai 42 85,67 Iancu Stelian 56 90,70 Voicu Ion 67 88,90 Marinoiu Ștefan 80 92,45 Albescu Valeriu 37 78,67
Tn Pn
Statistică şi Informatică pentru chimie medicală şi farmaceutică
91
Fig. 45. Diagrama „2D-Column” pentru variabila „Vârstă“ Se selectează coloana „Nume și prenume pacient”, apoi și se selectează coloana „Masa corporală”.
Fig. 46. Diagrama „2D-Column” pentru variabila „Masa corporală“ 2.2.1 Prelucrări și reprezentări grafice în Excel Facilități generale și specifice prelucrărilor de date: date numerice și nenumerice, calcule numerice și prelucrări prin sortare numerică sau sortare text, reprezentări grafice ale seturilor de date. Bara de meniu: Home; Insert; Page Layout; Formulas; Data; Review; View
MARIN VLADA
92 Bara de instrumente – Meniul Home
Alignment (Wrap text, Merge & Center)
Number (General, ...)
(partea dreaptă)
Cells (Insert, Delete, Format)
AutoSum (Sum, More Functions) Fill Sort &Filter
Bara de instrumente - Meniul Insert
Table Picture Shapes
Charts
Text Box
Object
Symbol
Bara de instrumente - Meniul Formulas
Function Autosum (partea dreaptă)
More Functions
Define Names
Statistică şi Informatică pentru chimie medicală şi farmaceutică
Formula Auditing
93
Calculation
Bara de instrumente – Meniul Data
Get External Data
Connections
Sort & Filter
(partea dreaptă)
Data Tools Outline Formatarea celulelor. Meniul Format Format Cells: Number; Allignment; Font; Border; Fill; Protection
Categorii Number: General, Number, Currency, Accounting, Date, Time, Percentage, Fraction, Scientific, Text, Special, Custom.
MARIN VLADA
94
Categoria Currency
Categoria Percentage
Statistică şi Informatică pentru chimie medicală şi farmaceutică
Categoria Scientific
Categoria Custom
95
MARIN VLADA
96
Alignment Text alignment Text control: Wrap text; Shrink to fit; Merger cells Right-to-left Orienttation
Tipuri de diagrame / grafice în Excel 2016, 2013, 2010, 2007 Programul Excel acceptă multe tipuri de diagrame, pentru a afișa datele în diverse modalități, care să reprezinte ceva în interpretarea acestora: comparații de mărimi, creșteri de mărimi, evoluția în timp a unor mărimi etc. Când se creează o diagramă sau se modifică o diagramă existentă, există posibilitatea să se selecteze dintr-o varietate de tipuri de diagrame (Exemplu: o diagramă coloană sau o diagramă radială) și din subtipurile lor (Exemplu: o coloană stratificată sau o structură radială într-o diagramă 3-D). De asemenea, există posibilitatea să se creeze o combinație de diagrame, utilizând mai multe tipuri de diagrame în diagramă: diagrame bidimensionale (2D) sau tridimensionale (3D). Prezentarea structurii/elementelor unei diagrame. O diagramă are mai multe elemente în prezentare. Unele dintre aceste elemente sunt afișate în mod implicit, altele pot fi adăugate după necesitate. Axistă posibilitatea să se modifice afișarea elementelor diagramei mutându-le în alte locații din diagramă, redimensionând sau modificând formatul. De asemenea, axistă posibilitatea să se elimine elementele de diagramă. Folosind click-dublu pe suprafața diagramei, în bara de sus va apărea meniul Design ce permite adăugarea/modificarea acestor elemente. Alegerea structurii diagramei se face prin submeniul Chart Layouts:
Statistică şi Informatică pentru chimie medicală şi farmaceutică
Suprafața grafic
Titlul diagramei
97
Legenda Etichete, Valori mărimi
Titlul axa Y Diviziune axa Y
Titlul axa X
Diviziune axa Y
Fig. 47. Structura unei diagrame și Meniul Design
Chart Layouts: Modele pentru structura diagramei
MARIN VLADA
98
Pentru afișarea etichetelor de valori în grafic, se selectează obiectul reprezentat și apoi se face click-dreapta, ce deschide fereastra în care apare Add Data Labels.
Fig. 48. Afișarea etichetelor folosind Add Data Labels
Fig. 49. Reprezentarea unei suprafețe https://store.office.com/en-us/surface-chart-WA104380632.aspx
Statistică şi Informatică pentru chimie medicală şi farmaceutică
99
Varietatea tipurilor de diagrame/grafice oferite de programul Excel răspunde diversității seturilor de date pentru diverse domenii (științific, tehnic, economic, sociologic etc.), de unde provin aceste seturi de date. Trebuie să precizăm că, în funcție de natura acestor seturi de date, este nevoie de o analiză înainte de a alege tipul de diagramă ce trebuie utilizat, acesta să fie adecvat acestora. Sunt situații când tipul de diagramă nu are sens să fie realizat pentru un anumit set de date. De exemplu, în ultimii ani este disponibil tipul „Surface”, ce poate fi folosit de matematicieni, statisticieni, ingineri, economiști etc., în reprezentarea suprafețelor în spațiul 3D (tridimensional, XYZ). Suprafețele sunt exprimate de relația z=f(x,y), unde f: AxB R, este o funcție de 2 variabile x și y, valoarea z fiind numită cotă. Evident, mai există și alte produse software ce permit astfel de reprezentări ale suprafețelor în spațiul XYZ. Pentru a descrie varietatea reprezentărilor seturilor de date, vom considera un exemplu de set de date și vom verifica ce tip de diagramă/grafic este adecvat acestui set de date. Vom descrie acele seturi de date pentru care este adecvat să se utilizeze tipurile de grafice oferite de programul Excel. Exemplu. Vânzări de medicamente pe cele 4 trimestre în anii 2014-2016. Trimestru An 2014 An 2015 Trim 1 2000 2200 Trim 2 1600 2500 Trim 3 1500 2100 Trim 4 2400 2800
An 2016 2500 2200 2200 3000
Modele (Templates) Chart (diagrame/grafice): 1. Column (Coloană) – Un astfel de grafic este folosit pentru a arăta variaţia în timp a unor mărimi discrete. Acest tip de diagramă utilizează bare verticale pentru a reprezenta măsurări făcute la intervale de timp diferite. Graficele coloană sunt folosite frecvent pentru compararea diferitelor elemente prin plasarea lor unele lângă altele. Barele verticale pot fi înlocuite cu graficele de tip cilindru, con, piramidă;
100
MARIN VLADA
Stacked Column (Stiva)-se realizează sumele mărimilor
2. Line (Linie) – Un astfel de grafic, la care intervalele de variație sunt egale, arată evoluția unei mărimi. Dacă intervalele de variaţie sunt neegale, se va utiliza un grafic (dispersat) de tip X Y (Scatter). Pentru fiecare serie de date, se obţine câte o linie;
3. Pie (Sector) – Un astfel de grafic de tip sector (circular) evidenţiază mărimea părţilor în raport cu întregul (sunt reprezentate procentele părților). Într-un astfel de grafic, se poate reprezenta o singură serie de date. Pentru a scoate mai bine în evidenţă valorile pe care le reprezintă, sectoarele din grafic pot fi scoase în afara cercului;
Statistică şi Informatică pentru chimie medicală şi farmaceutică
101
Observație. În cazul diagramei de tip sector, dacă se selecteză toate coloanele, nu se realizează graficul decât pentru datele anului 2014. Pentru a realiza diagrama referitoare la datele anului 2015, se selectează prima coloană, se apasă , și apoi se selectează coloana cu datele pentru anul 2015. 4. Bar (Bare) – Este utilizat pentru compararea mărimilor neconectate în timp. Acest tip de grafic nu permite o imagine prea bună a evoluţiei în timp a unor mărimi. Acesta utilizează bare orizontale pentru a arăta variaţia pozitivă sau negativă faţă de un punct de referinţă. Barele aflate la stânga punctului de referinţă arată o variaţie negativă, iar cele din dreapta arată o variaţie pozitivă;
102
MARIN VLADA
5. Area (Arie) – Un astfel de grafic ilustrează continua schimbare în volum a unor serii de date. Acest tip de grafic însumează datele din toate seriile individuale pentru a crea linia de vârf care cuprinde zona, oferind privitorului o imagine asupra modului în care diferitele serii contribuie la volumul total. Exercitiu: Să se utilizeze graficul „Area” pentru cifrele referitoare la vânzări şi la producţie, pentru a arăta modul în care volumul se modifică în timp şi pentru a evidenţia cantitatea sau volumul schimbării; 6. X Y (Scatter) (Dispersie-nor de puncte) – Graficele de tip XY (Puncte dispersate) reprezintă doar punctele date de coordonatele X și Y. Un grafic de tip XY (Dispersie) este asemănător cu unul de tip Linie, numai că ilustrează evoluţia unor mărimi la care intervalele de variaţie nu sunt egale; Acest tip de grafic este necesar atunci când se dorește crearea modelelor de aproximare/regresie liniare/ neliniare în cadrul aproximării evoluției unui proces/fenomen; 7. Stock (Stoc) – Se utilizează pentru activități de investiții la mai multe societăți pe acțiuni sau investitori. În general, un tabel de valori cuprinde data de asigurare stoc, volumul de stoc, prețul de deschidere, prețul de închidere, cel mai mare preț și cel mai mic preț (Exemplu: https://www.extendoffice.com/documents/excel/ 2138-excel-create-stock-chart.html); 8. Surface (Suprafață) – Această diagramă este folosită de obicei de matematicieni și statisticieni pentru analiza specială a datelor și reprezentarea suprafețelor în 3D, în spațiul XYZ. Acest grafic nu este utilizat pentru a vizualiza puncte de date 3D arbitrare. Pentru a forma o suprafață z=f(x,y), pe axele X și Y mărimea valorilor x și y trebuie să aibă distanțe egale între ele. Reprezentarea suprafeței se poate realiza doar dacă este dată o discretizare, o rețea (grid) pentru direcțiile X și Y. De obicei, aceste valori pot fi construite prin utilizarea funcției Meshgrid din
Statistică şi Informatică pentru chimie medicală şi farmaceutică
103
Matlab sau alte funcții echivalente. Valorile date de relația z=f(x,y) reprezintă o funcție de evaluare care este vizualizată în diagramă. Sunt necesare 3 coloane de date numerice corezpunzătoare penru x, y, z. (Detalii: https://store.office.com/enus/surface-chart-WA104380632.aspx). Reprezentarea grafică de mai jos nu are sens deoarece nu respectă relația z=f(x,y), unde x,y,z sunt mărimi corespunzătoare celor 3 direcții din spațiul XYZ.
9. Doughnut (Inel) – Graficele de tip Inel, la fel ca şi graficele de tip Pie (circulare), scot în evidenţă mărimea părţilor dintr-un întreg. Deosebirea este că structura diagramelor de tip Inel permite reprezentarea mai multor serii de date. Fiecare inel concentric conţine datele dintr-o serie de date;
MARIN VLADA
104
10. Bubble (Bule) – O diagramă Bubble este o variantă a unei diagrame X Y (dispersie), în care punctele de date sunt înlocuite cu bule, și o dimensiune suplimentară a datelor este reprezentată în mărimea bulelor. La fel ca și o diagramă de dispersie, o diagramă cu bule nu utilizează o axă categorie – axele, cea orizontală și cea vertical, sunt axe de valoare; 11. Radar (Radar) – Un astfel de grafic ilustrează mărimi raportate la propria axă. Fiecare categorie (fiecare etichetă care ar fi afişată pe axa X la un grafic în două dimensiuni) are propria axă. Punctele de date sunt plasate de-a lungul acestor axe. Un grafic de tip radar rezultă prin unirea punctelor de date care au aceeaşi semnificaţie pe toate axele.
Tipuri de diagrame și varietatea lor – varietate dată de programul Excel.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
Diagrame Coloane (Column 2 D , 3D ... )
Diagrame Linie (Line 2 D , 3D ... )
105
106
MARIN VLADA
Diagrame Sector (Pie 2 D, 3D ... )
Diagrame Bare (Bar 2 D , 3D ... )
Statistică şi Informatică pentru chimie medicală şi farmaceutică
107
Diagrame Arie (Area 2 D , 3D ... )
Diagrame Puncte (Scatter)
MARIN VLADA
108
Diagrame Altele (Other Charts )
2.2.2 Etapele de elaborare a unei diagrame Definiție. O diagramă (Chart), denumită și grafic, este o reprezentare vizuală a unor seturi de date selectate dintr-o foaie de calcul și stocate într-un tabel. Diagramele/ Graficele sunt folosite pentru a afișa serii de date numerice într-un format grafic în scopul facilitării înțelegerii unei cantități mari de date și a relației dintre serii diferite de date (seturi de date). Având în vedere că în practică, în multe domenii de activitate, există o mare diversitate de seturi de date, ce reclamă diverse comparații, evoluții etc., programul Excel oferă multe tipuri de diagrame, cu posibilitatea de a afișa datele în modalități care să reprezinte diverse semnificații în interpretarea seturilor de date. Când se realizează o diagramă sau se modifică, există posibilitatea să se selecteze dintr-o varietate de tipuri de diagrame (cum ar fi o diagramă coloană sau o diagramă radială) și din subtipurile lor (cum ar fi o coloană stratificată sau o structură radială într-o diagramă 3-D). De asemenea, există posibilitatea să se creeze o combinație de diagrame, utilizând mai multe tipuri de diagrame. Exemplu. Facilități recente în Excel 2016, Excel pentru Tablete Android, Excel Mobile. Pentru accesare este nevoie de abonament Office 365 de la Microsoft.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
109
Crearea unei diagrame Funnel Chart (Pâlnie). Diagramele pâlnie afișează valori în mai multe etape dintr-un proces. De exemplu, puteți utiliza o diagramă pâlnie pentru a afișa numărul de vânzări potențiale din fiecare etapă a unei oportunități de vânzări. De obicei, valorile scad treptat, făcând ca barele să semene cu o pâlnie.
Fig. 50. Diagramă Pâlnie. Ref.: https://support.office.com/ro-ro/ Exemplu. Crearea unei diagrame Combo cu o axă secundară. Există cazuri când numerele dintr-o diagramă variază foarte mult de la o serie de date la alta, sau când există tipuri amestecate de date (cum ar fi preț și volum). În aceste cazuri, se pot reprezenta una sau mai multe serii de date pe o axă verticală secundară (valorică). Scara axei verticale secundare arată valorile pentru seria de date asociată. O axă secundară funcționează bine într-o diagramă care afișează o combinație de diagrame coloană și linie. Mai jos, se dă un exemplu de diagramă combinație care utilizează tipurile de diagrame de tip coloană și de tip linii. Axa verticală secundară
Fig. 51. Diagramă Combo.Ref. https://support.office.com/
MARIN VLADA
110
Pentru a crea o diagramă sau un grafic în Excel, se parcurg etapele: 1. se deschide o foaie de calcul/lucru; 2. se introduc datele numerice pentru diagramă în foaia de calcul; 3. se utilizează meniul Insert Chart, reprezentarea datelor într-o diagramă se realizează dacă se selectează tipul de diagramă dorit a fi utilizat; 4. se modifică sau se completează structura diagramei cu diverse opțiuni (titlul diagramă, titlul axe, legendă, etichete mărimi etc.). Eventual, utilizatorul poate opta ca diagrama construită să fie salvată ca șablon pentru următoarele diagrame ce vor fi construite. Diagrame predefinite și stil de diagramă cu aspect profesionist În loc de a adăuga sau a modifica manual elementele dintr-o diagramă sau a formata diagrama, există posibilitatea de a aplica rapid aspecte și stiluri predefinite de diagramă, Excel furnizând o varietate de aspecte și stiluri predefinite. Astfel, un aspect sau un stil pot fi reglate în detaliu prin modificări manuale efectuate asupra aspectului și formatării elementelor individuale ale diagramei, cum ar fi zona de diagramă, suprafața de reprezentare grafică, seriile de date sau legenda diagramei.
Când se aplică un aspect predefinit de diagramă, un set specific de elemente de diagramă (cum ar fi titluri, o legendă, un tabel de date sau etichete de date) sunt afișate într-un aranjament specific în diagramă. există posibilitatea de a selecta dintr-o varietate de aspecte furnizate pentru fiecare tip de diagramă. Când se aplică un stil de diagramă predefinit, diagrama este formatată pe baza temei de document aplicate, pentru ca diagrama să corespundă culorilor tematice (un set de culori), fonturilor tematice (un set de fonturi de antet și corp de text) și efectelor tematice (un set de linii și efecte de umplere) care sunt specifice organizației.
Observație. Nu se pot crea aspecte sau stiluri de diagramă proprii, dar se pot crea șabloane de diagramă, care includ aspectul de diagramă și formatarea dorite. Modificarea unei diagrame de bază în funcție de cerința de utilizare După ce se realizează o diagramă, se poate modifica oricare dintre elementele sale. De exemplu, se poate modifica modul de afișare a axelor, să se adăuge un titlu de diagramă, să se mute sau să se ascundă legenda, sau să se afișeze elemente suplimentare de diagramă. Pentru a modifica o diagramă, se alege una sau mai multe dintre următoarele variante:
Modificarea afișării axelor diagramei – Se poate specifica scala axelor și să se ajusteze intervalul dintre valorile sau categoriile afișate. Pentru ca diagrama să fie mai simplu de citit, se poate adăuga gradații la o axă și specificații privind intervalul la care vor apărea.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
111
Adăugarea titlurilor și etichetelor de date la o diagramă – Pentru a ajuta la clarificarea informațiilor care apar în diagramă, este posibil să se adăuge un titlu, titluri de axă și etichete de date. Adăugarea unei legende sau a unui tabel de date – Există posibilitatea să se afișeze sau să se ascundă o legendă, să se modifice locația sau să se modifice intrările de legendă. În anumite diagrame, există posibilitatea să se afișeze și un tabel de date care să afișeze simboluri de legendă și valorile prezentate în diagramă. Aplicarea opțiunilor speciale pentru fiecare tip de diagramă – Liniile speciale (cum ar fi cele maxim-minim și liniile de tendință), barele (cum ar fi barele verticale și barele de eroare), marcatorii de date și alte opțiuni sunt disponibile pentru diferite tipuri de diagrame.
Facilitățile meniului Design asupra structurii diagramei Aceste acțiuni asupra elementelor de diagramă se vor realiza după ce se va face click-dublu pe suprafața diagramei. Imediat, în bara de sus va apărea Meniul Design ce oferă adăgarea/modificarea acestor elemente.
Fig. 52. Meniul Design
Fig. 53. Submeniul Chart Layout
MARIN VLADA
112
Facilități ale Meniul Design: Alegerea tipului (Type) – Change Chart Type, Save as Template; Modificare, adăugare Data – Switch Row/Column, indicarea seturilor de date pentru axa X și axa Y; Alegerea structurii diagramei se face prin submeniul Chart Layouts – se aleg componentele dorite în structura diagramei; Alegerea stilului pentru diagramă – Chart Styles. Exemplu. În diagrama de mai jos, manual, s-au folosit aceste modificări și adăugiri – etichetele privind valoarea mărimii s-au realizat doar pentru anul 2016.
Fig. 54. Diagramă cu informații multiple
Statistică şi Informatică pentru chimie medicală şi farmaceutică
113
Exemplu. Pentru a indica etichete pentru mărimile din grafic, se selectează acele mărimi și se face click-dreapta, iar în fereastra ce apare, se alege Add Data Labels. Se poate observa că această fereastră oferă Add Trendline, opțiune ce va fi folosită în cadrul elaborării modelelor de aproximare (modele de regresie), pornind de la un grafic de tip X Y Scatter (puncte dispersate) (a se vedea capitolul 4). Facilitățile meniului Layout asupra structurii diagramei Dacă se realizează click-dublu pe suprafața unei diagrame, atunci se activează meniul principal Chart Tools, ce oferă instrumente de prelucrare prin cele 2 meniuri: 1. Design – cu submeniurile Type, Data, Chart Layouts, Chart Styles; 2. Layout – cu submeniurile Curent selection, Insert, Labels, Axes, Background, Analysis, Properties.
Fig. 55. Submeniul Layout Submeniul Labels oferă instrumente pentru adăugarea/modificarea componetelor din structura unei diagrame: Chart Title, Axis Titles, Legend, Data Labels, Data Table. Pentru fiecare din aceste facilități se oferă variante de eliminare sau de apariție sub o anumită formă.
Fig. 56. Layout Data Table
MARIN VLADA
114
Fig. 57. Show Data Table – Apariția tabelului cu date sub diagramă
Legend
Date Labels
Statistică şi Informatică pentru chimie medicală şi farmaceutică
115
Axis Titles Chart Title Fig. 58. Submeniurile Legend, Date Labels, Chart Title, Axis Titles
Modificarea sursei de date (Source Data) Definiție. O sursă de date (Source Data) este un domeniu de celule al unei foi de calcul, date ce urmează a fi reprezentate grafic printr-o diagramă, ce semnifică forme geometrice corespunzătoare valorilor numerice din domeniul de celule specificat. O serie este formată din următoarele componente: numele seriei – este indicată de celula care conține textul din dreptul înregistrării cu valori, pentru cazul nostru numele seriilor vor fi An 2014, An 2015 și An 2016 pentru coloane și Trim 1, Trim 2, Trim 3, Trim 4 pentru linii; valorile seriei – este reprezentată de linia de date (sunt cazuri în care valorile seriei pot fi regăsite și pe coloane) ce conține valorile individuale; etichetele de categorii – reprezintă linia de celule (sunt cazuri în care etichetele de categorii sunt și pe coloană) ce indică numele fiecărei serii de date, adică linia de celule de deasupra (din fața) datelor. Meniul Design oferă submeniul (Butonul) Switch Row/Column ce determină interschimbarea celor 2 axe: X și Y.
Fig. 59. Show Data Table – Apariția pe diagramă Rezultatul este diagrama de mai jos.
MARIN VLADA
116
Fig. 60. Switch Row/Column – schmbarea axelor X ↔Y
Fig. 61. Switch Row/Column De asemenea, Meniul Design oferă submeniul (Butonul) Select Data, ce determină apariția ferestrei Select Data Source. Aceasta oferă facilități pentru indicarea Legendei (Legend Entriee-Series) și axei orizontale ( X, Horizontal Axis). În același grup de comenzi, butonul Select Data oferă posibilitatea de a redefini sursa de date prin fereastra Select Data Source, în care se poate: alege un alt domeniu de celule de reprezentare (Chart Data Range), schimba seriile în categorii și invers (butonul Switch Row/Column), edita lista de componente ale seriilor de date prin adăugare (butonul Add), modificare a numelui de serie (Edit) sau ștergere a acestora (Remove),
Statistică şi Informatică pentru chimie medicală şi farmaceutică
117
modifica ordinea de reprezentare a acestora, prin folosirea butoanelor Move Up și Move Down, în lista de serii, numită Legend Entries (Series). Facilități privind axele (Axes) sau liniile de rețea (Gridlines) din diagrame Meniul Layout oferă submeniul (Butonul) Axes ce determină apariția ferestrei ce oferă alegerea axei orizontale (Primary Horizontal Axis) sau alegerea axei verticale (Primary Vertical Axis). Pentru fiecare, apare o fereastră unde se indică opțiunile privind apariția diviziunilor corespunzătoare axei respective.
Fig. 62. Switch Row/Column
Fig. 63. Switch Row/Column
MARIN VLADA
118
De asemenea, Meniul Layout oferă submeniul (Butonul) Gridlines, care determină apariția ferestrei ce oferă alegerea axei orizontale (Primary Horizontal Gridlines) sau alegerea axei verticale (Primary Vertical Gridlines). Pentru fiecare, apare o fereastră unde se indică opțiunile privind apariția tipului de grilă (Major Gridlines sau Minor Gridlines, mărimea echidistanței dintre liniile grilei) corespunzătoare axei respective.
Fig. 64. Switch Row/Column Exemplu. Utilizare Gridlines Primary Horizontal Gridlines Minor Gridlines.
Fig. 65. Switch Row/Column
Statistică şi Informatică pentru chimie medicală şi farmaceutică
119
Adăugarea unei formatări atractive la diagramă Pe lângă aplicarea unui stil de diagramă predefinit, există posibilitatea să se aplice cu ușurință formatări la elementele individuale de diagram, cum ar fi marcatorii de date, suprafața diagramei, suprafața reprezentată grafic sau numerele și textul din titluri și etichete pentru a oferi diagramei un aspect particularizat, atractiv. Există posibilitatea să se indice stiluri specifice de forme și stiluri WordArt, și de asemenea, este posibil să formatați manual formele și textul elementelor din diagramă. Pentru a adăuga formatare, se poate utiliza una (sau mai multe) dintre următoarele: Umplerea elementelor diagramei – Se pot utiliza culori, texturi, imagini și umpleri cu gradiente pentru a atrage atenția către elemente specifice ale diagramei. Modificarea sublinierii elementelor din diagramă – Se pot utiliza culori, stiluri de linie și grosimi de linii pentru a sublinia elementele de diagramă. Adăugarea de efecte speciale la elementele de diagramă – Există posibilitatea să se aplice efecte special, cum ar fi umbre, reflecții, străluciri, muchii atenuate, teșiturile și rotiri 3-D la formele elementelor diagramei, ceea ce oferă diagramei un aspect finisat. Formatarea textului și a numerelor – Există posibilitatea să se formateze textul și numerele în titlurile, etichetele și casetele text dintr-o diagramă la fel cum se formatează textul și numerele într-o foaie de lucru. Pentru a evidenția textul și numerele, este posibil să se aplice și stiluri WordArt. Reutilizarea diagramelor prin crearea șabloanelor de diagramă (My Templates) Dacă se dorește să se reutilizaze o diagramă, care a fost particularizată conform necesităților, există posibilitatea să se salveze acea diagramă ca șablon de diagramă (*.crtx), în folderul șabloanelor de diagramă. Când e creată o diagramă, există posibilitatea să se aplice apoi șablonul de diagram, la fel cum se procedează cu oricare alt tip de diagramă predefinită. De fapt, șabloanele de diagramă sunt tipuri de diagramă particularizate. De asemenea, acestea se pot utiliza pentru a modifica tipul de diagramă al diagramei existente. Dacă se utilizează frecvent un șablon de diagramă specific, există posibilitatea să se salveze ca tip de diagramă implicit. Exemplu. Pentru ca diagrama de mai sus (Fig. 65) să devină un șablon cu care să se creeze următoarele diagrame, se va face click-dublu pe suprafața diagramei. Imediat, în bara de sus va apărea Meniul Desing ce oferă la submeniul Type, butonul Save as Template, și care va salva un fișier (*.crtx) în Microsoft/Templartes/Charts.
MARIN VLADA
120
Fig. 66. Fișierul șablon Chart-medicamente Pentru a fi utilizat acest model (template) se selectează seturile de date și se acționează Insert Other Charts Templates My Templates se alege modelul propriu.
Fig. 67. Alegerea modelului propriu
Statistică şi Informatică pentru chimie medicală şi farmaceutică
121
Fig. 68. Șoblon propriu în Excel Pentru finalizarea diagramei se introduc texte pentru cele 3 titluri. Referințe 1. Microsoft Office , Excel 2016, 2013, 2010, 2007, https://support.office.com/ro-ro/article/Crearea-unei-diagrame-de-la-%c3%aenceput-lasf%c3%a2r%c8%99it-0baf399e-dd61-4e18-8a73-b3fd5d5680c2?ui=ro-RO&rs=roRO&ad=RO#__toc255902069 2. L. Boiculese, C. Dascălu, G. Dimitriu, M. Moscalu, A. Doloca, Metode Descriptive și Elemente de Analiză Statistica a datelor medicale. Exemple practice în Excel și Access, Editura Performantica, Iași, 2009.
2.3 Reprezentarea datelor în studiile clinice 2.3.1 IMC – Indicele de masă corporală Influențele alimentației zilnice și stilul de viață al oamenilor, precum și unele perturbări metabolice în timpul vieții, determină variații ale masei corporale (M) și ale înălțimii (H). Indicele de masă corporală (IMC) (Body mass index – BMI) este un indicator statistic al masei unei persoane raportată la înălțimea persoanei respective. Prin urmare, indicatorul este util numai pentru măsurarea unei populații și nu este folosit pentru a pune diagnosticul asupra unei singure persoane. A fost inventat între anii 1830 și 1850 ce către belgianul Adolphe Quetelet în timpul dezvoltării „fizicii sociale”. Valoarea este aproximativă si nu se aplică la copii și la cei în vârstă. Valoarea IMC este o măsură care poate indica dacă o persoană are o masă corporală sănătoasă pentru înălțimea sa. Practic, nu contează neapărat forma corpului, deoarece masa corporala optimă este calculată pentru o anumită înălțime. Indicele de masă corporală este definit ca raportul dintre masa corporală (M), exprimată în kilograme, și pătratul înălțimii (H), exprimată în metri. Formula are ca rezultat o cantitate exprimată în kg/m2:
MARIN VLADA
122
IMC
M [kg] . H 2 [m]
S-au definit nivele de risc pentru a indica o stare funcție de valoarea IMC: 1. Sub-ponderal – dacă IMC < 18.5; 2. Normal-ponderal – dacă 18.5 ≤ IMC < 25.0; 3. Supra-ponderal - dacă 25.50 ≤ IMC < 30.0; 4. Obezitate I - dacă 30.0 ≤ IMC < 35.0; 5. Obezitate II - dacă 35.0 ≤ IMC < 40.0; 6. Obezitate III – dacă IMC ≥ 40.0. Exemplu. Pentru 23 de persoane se dau masa corporală și înălțimea. În tabelul următor este calculat indicatorul IMC și este determinat nivelul acestui indice. MH– IMC=M/H^2 StareNr. Crt. Masă[kg] înălțime[m] [kg/m2] indice Norm-P 1 67 1.8 20.679012 2 35 1.5 15.555556 Sub-P 3 67 1.8 20.679012 Norm-P 4 108 2 27 Supra-P 5 89 1.7 30.795848 Obez-I 6 105 1.9 29.085873 Supra-P 7 90 1.5 40 Obez-III 8 81 1.7 28.027682 Supra-P 9 47 1.4 23.979592 Norm-P 10 106 1.7 36.678201 Obez-II 11 76 1.7 26.297578 Supra-P 12 65 1.9 18.00554 Sub-P 13 111 2 27.75 Supra-P 14 53 1.9 14.68144 Sub-P 15 120 1.6 46.875 Obez-III 16 35 1.4 17.857143 Sub-P 17 95 1.5 42.222222 Obez-III 18 104 1.7 35.986159 Obez-II 19 70 2.1 15.873016 Sub-P 20 97 1.8 29.938272 Supra-P 21 101 1.8 31.17284 Obez-I 22 40 1.4 20.408163 Norm-P 23 77 2.1 17.460317 Sub-P
D10
Pentru a determina nivelele de risc (Stare indice), se va utiliza funcția Excel, IF(logical_test,value_if_true,value_if_false).
Statistică şi Informatică pentru chimie medicală şi farmaceutică
123
Celula E10 va conține formula „=IF(D10 100 se aplică testul Grubbs.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
203
Indicație. Într-o celulă vom scrie formula „=RAND()*(b-a)+a”, unde a=10, b=50, după care o vom copia pe coloană, până la 110 valori generate. Referințe 1. Marius Bulgaru, Prelucrarea statistică a șirurilor de date. Eliminarea valorilor aberante, Universitatea Tehnică Cluj-Napoca, www.cermi.utcluj.ro/doc/Lucr_03.pdf 2.Sorana D. Bolboacă, Informatică medicală și Biostatistică. Estimarea parametrilor statistici, prezentare ppt, Universitatea de Medicină și Farmacie, Cluj-Napoca, http://sorana.academicdirect. ro/pages/doc/MV2012/MVRom01.pdf 3.http://www.info.umfcluj.ro/ro/did-ro/biostat-ro/mg1ro-ro/itemlist/category/203-cursuri2 4.http://www.info.umfcluj.ro/ro/component/k2/item/790-curs-7-introducere-in-statistica-medicala
3.5
Probabilități și funcții de repartiție
Lumea reală oferă o mare diversitate de probleme pe care omul trebuie să le rezolve cu teoriile, metodele și tehnicile pe care le cunoaște la un moment dat, și care sunt influențate de nivelul de dezvoltare a științelor. Științele sunt cele care se dezvoltă permanent, și care oferă omului aceste cunoștințe și instrumente, cunoaștera lor depinzând de capacitatea omului de învățare si de perfecționare continuă. Teoria probabilităților și Statistica matematică s-au dezvoltat pentru rezolvarea problemelor în care apare aspectul aleator/probabilist. Fiecare fenomen sau proces în natură este constituit dintr-o mulțime de evenimente ce se desfășoară aleator. În activitatea de cunoaștere, pentru studiul fenomenelor, omul apelează la diverse experimente pentru rezolvarea problemelor și pentru controlul unor fenomene. Definiție. Un experiment reprezintă realizarea unui ansamblu de condiţii conform unui criteriu de cercetare ce se referă la un studiu pentru rezolvarea unor probleme. Definiție. Un eveniment reprezintă rezultatul unui experiment și care apare ca urmare a satisfacerii unor condiţii din criteriile de cercetare. Definiție. Un câmp de evenimente reprezintă totalitatea evenimentelor care pot avea loc în cadrul unui experiment. Acesta include evenimentul sigur, evenimentul imposibil şi toate evenimentele aleatoare care pot avea loc. Exemplu. Extragerea unei bile albe dintr-o urnă în care se găsesc bile albe şi negre. Acest tip de experiment este în corespondenţă cu extragerea unei piese defecte dintr-un lot de fabricaţie, lot în care se găsesc piese bune (bile albe) şi piese defecte (bile negre). Realizarea condiţiilor, conform unui criteriu de cercetare, impune ca bilele să fie toate de aceeaşi mărime, uniform amestecate, observatorul care face extragerea să nu poată observa culoarea bilelor. Apariţia unei bile de culoare albă reprezintă un eveniment. Noțiuni fundamentale din Teoria probabilităților: Experiment, Eveniment; Câmp de evenimente; Tipuri de evenimente (compatibile/incompatibile, dependente, independente); Algebra evenimentelor; Definiția probabilității; Funcții de repartiție;
MARIN VLADA
204
Principiul certitudinii practice; Formula probabilității totale; Teorema de limită centrală; Teorema lui Bayes, Testarea ipotezelor. În Teoria probabilităților se definesc numeroase funcții/legi de repartiție în frecvență, pentru variabile aleatoare continue sau discrete. Studiind diverse fenomene, se constată că, deşi acestea aparţin din domenii diferite, repartiţia în frecvenţă a acestora este asemănătoare, adică histogramele au aceeaşi formă. Se constată că 90% din fenomenele fizice se supun legii normale de repartiţie (Legea Gauss-Laplace). Un studiu amănunţit a pus în evidentă proprietăţile acestora şi gradul lor de aplicare. Unele legi de repartiţie devenite clasice, având un grad ridicat de utilizare: Repartiții discrete – repartiţia binomială; repartiţia hipergeometricã; repartiţia Poisson (repartiția evenimentelor rare); Repartiții continue – repartiţia normală Gauss; repartiţia χ2 (repartiția multinomială); repartiţia Student; repartiţia Fischer. Notații: A = eveniment eleator, E = eveniment sigur, Փ = evenimentul imposibil (vid),
A = nagarea evenimentului A. Definiție. Dacă A este un eveniment aleator, atunci probabilitatea de apariție a evenimentului A este P(A), unde
P( A)
nr. aparitii eveniment A m nr. cazuri favorabile ; P( A) n nr. cazuri posibile nr. total incercari
0 P( A) 1, P( ) 0, P( E ) 1, P( A ) 1 P( A). Probabilitatea ca mărimea măsurată/observată x să ia valori cuprinse în intervalul (x1, x2) se notează prin
P( x1 x x2 ) sau P( x ( x1 , x2 )) .
Exemple: 1.
2.
Probabilitatea apariției cifrei 4 (x=4) la aruncarea zarului (zarul are 6 fețe și are cifrele 1-6). Avem, m – numărul cazurilor favorabile (=1), n – numărul cazurilor egal posibile (=6), P(x=4) = 1/6; Probabilitatea găsirii unei persoane bolnave dintr-o mulțime de persoane a unei populații dintr-o localitate. Această probabilitate se numește coeficientul de îmbolnăvire. Presupunem că dintr-o populație de 1000 de persoane există 100 persoane găsite bolnave. Care este probilitatea găsirii unei persoane bolnave? A={persoana bolnavă}, P(A)=? Avem, m – numărul cazurilor favorabile (= 100), n – numărul cazurilor posibile (= 1000), P(A) = 100/1000 = 0,1 = 10%. Coeficientul de îmbolnăvire este b = 10%.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
205
Distribuţia probabilităţilor şi relaţia cu funcţia de repartiţie17 Variabile aleatoare discrete Rezultatul aleatoriu al măsurării pentru o variabila X devine o variabilă (aleatoare) discretă, dacă este expimată printr-un număr finit de măsurări, și anume valorile rezultate x1, x2, ..., xn, iar probabilitatea ca o valoare oarecare să aibă valoarea xi este: P (x = xi) = pi. Definiție. Pentru toate valorile măsurate corespunzătoare variabilei X, se poate construi tabloul sub următoarea formă:
x X : 1 p1
x2 p2
... xn , ... pn
unde xi sunt măsurări, iar pi sunt probabilități de apariție, 0≤ pi ≤1. Acest tablou se numește tabloul repartiției. Tabloul poate fi și sub forma tabelului orizontal: X1 X2 ... P1 P2 ...
X P
Xn Pn
Definiție. Legea de probabilitate este legătura care există între variabila aleatoare X şi probabilitatea de apariţie a acesteia, aceasta putând fi reprezentată grafic sub forma unei diagrame cu bare (asemănătoare unei histograme de frecvențe) sau poligon de frecvențe (diagrama tip linie). P
X 1 2 3 4 5 6 7 8 9 10 11 12
17
0,561182 0,870117 0,0073 0,798116 0,860924 0,021148 0,886638 0,932441 0,892959 0,559867 0,482275 0,8676
=RAND()
13 14 15 16 17 18 19 20 21 22 23 24 25
Cuvintele repartiție și distribuție sunt termeni sinonimi.
0,037017 0,03265 0,495111 0,101 0,284196 0,558985 0,489949 0,063005 0,46365 0,873015 0,097949 0,160145 0,223894
MARIN VLADA
206
Fig. 124. Reprezentarea probabilităților – sub forma 2D Column
Fig. 125. Reprezentarea probabilităților – sub forma 2D Line Definiție. Funcţia de repartiție determină o expresie analitică prin care se stabilește o legătură între variabila aleatoare şi probabilitate. Deoarece, orice măsurare poate avea un singur rezultat, totalitatea valorilor distincte şi posibile formează un sistem complet de evenimente incompatibile. Probabilitatea ca X să aibă valorea xi este P(x=xi)=pi. Pentru mulţimea ale cărei perechi ordonate definesc repartiţia, se poate scrie
n
p i 1
i
1. În multe aplicaţii interesează
probabilitatea evenimentului x < xi . În acest caz, se poate construi un tablou al repartiţiei care are forma: X P
X1 P1
X2 P1+P2
... ...
Xn P1+ P2+ ... +Pn
Statistică şi Informatică pentru chimie medicală şi farmaceutică
207
Functia de repartiţie se poate determina prin calculul probabilității pentru care X1), în raport cu o origine arbitrarã δ este:
Mk
n 1 n 1 n k k ( xi ) ( xi ) ai ( xi ) k f i ). n i 1 n i 1 i 1
Observație. Dacă δ este chiar media aritmeticã, atunci Mmmentul centrat de ordinul k se noteazã cu Mk , şi pentru k=2, avem M2 = D[X] (momentul centrat de ordinul 2 este egal cu dispersia). În acest caz, între momentele absolute şi cele centrate, se pot scrie următoarele relaţii: M1 = 0; M2 = m2 – m12 = D[X]; M3 = m3 -3m1m2 + 2 m13; M4 = m4 – 4 m1m3 + 6 m1m2 – 3 m1. Indicatori pentru asimetrie şi aplatizare Folosind indicatorii obținuti cu ajutorul momentelor, se pot studia diferite moduri prin care se poate aprecia asimetria unei repartiţii (coeficientul de asimetrie) şi aplatizarea unei repartiții (gradul de ascuțire/aplatizare a graficului/formei unei repartiții) (coeficientul de exces), Indicatorii obținuți cu ajutorul momentelor sunt exprimați de relaţiile (γ1 = Coeficientul de asimetrie, γ2 = Coeficientul de exces):
Statistică şi Informatică pentru chimie medicală şi farmaceutică
1
M3 ( D[ X ] )
3
, 2
223
M4 3. ( D[ X ]) 2
Fig. 143. Indicatorul γ1 – simetrie la dreapta γ1>0, simetrie γ1=0, asimetrie la stânga γ10: Γ(p+1)=pΓ(p); Γ(n)= (n-1)!; Γ(1/2)= sqrt(π). Tabelul 19. Indicatorii teoretici, Distribuția Gamma (Γ)– Media, Dispersia, Momente Media
M[X], μ
M [ X ] xf ( x)dx p 0
Dispersia
D[X], σ 2 , s2
( x M [ X ] f ( x)dx m2 m1 2 p 2
0
Momente
mk
m1 M [ X ] p, mk (k p 1)( k p 2)...( p 1) p
p=4
Fig. 160. p=4, plot ((x^3)*e^(-x))/gamma(4) from x=0 to 15
MARIN VLADA
240
p=6
Fig. 161. p=6, plot ((x^3)*e^(-x))/gamma(4) from x=0 to 15
Fig. 162. Graficul folosind www.wolframalpha.com
Statistică şi Informatică pentru chimie medicală şi farmaceutică
241
Distribuția χ2 - hi patrat (Helmert-Laplace) Repartiţia χ2 (hi patrat) are densitatea de probabilitate dată de următoarea expresie:
f ( x)
x
n 1 x / 2 2
e , x (0, ), f ( x) 0, x 0, n 0, 2 n / 2 (n / 2)
unde funcția Γ(p) este funcția lui Euler (integrala lui Euler de al II-lea tip), iar n este un parametru ce semnifică numărul gradelor de libertate. Se spune că o variabilă X are repartiţia χ2 cu n grade de libertate. Tabelul 20. Indicatorii teoretici, Distribuția χ2 – Media, Dispersia, Momente
M [ X ] xf ( x)dx n
M[X], μ
Media
0
Dispersia
D[X], σ2 , s2
2 ( x M [ X ] f ( x)dx m2 m12 2n 0
Momente
mk
m1 M [ X ] n, mk n(n 2)...(n 2k 2)
Fig. 163. N=4 plot (x*e^(-x/2))/(2^2*gamma(2)) from x=-0 to 20
242
MARIN VLADA
Fig. 164. N=8 plot (x^4*e^(-x/2))/(2^4*gamma(4)) from x=-0 to 20
Fig. 165. N=20 plot (x^4*e^(-x/2))/(2^4*gamma(4)) from x=-0 to 50
Statistică şi Informatică pentru chimie medicală şi farmaceutică
243
Fig. 166. N=100 plot (x^49*e^(-x/2))/(2^50*gamma(50)) from x=-0 to 200 Teoremă. Dacă variabilele aleatoare indepedente X1, X2, ..., Xn au fiecare distribuții normale standard N(μ, σ2), atunci variabila aleatoare X = X12+X22+ ... + Xn2 are repartiția χ2 cu n grade de libertate. Distribuția Student (t). Legea Cauchy Distribuţia Student (t) are densitatea de probabilitate dată de următoarea expresie:
n 1 n 1 2 x 2 1 2 , x (, ), f ( x) n (n / 2) n unde funcția Γ(p) este funcția lui Euler (integrala lui Euler de al II-lea tip), iar n este un parametru ce semnifică numărul gradelor de libertate. Se spune că o variabila X are distribuţia Student (t) cu n grade de libertate.
MARIN VLADA
244
Tabelul 21. Indicatorii teoretici, Distribuția Student (t) – Media, Dispersia, Momente
Media
M [ X ] xf ( x)dx 0
M[X], μ
0
Dispersia
Momente
D[X], σ2 , s2 mk
2 ( x M [ X ] f ( x)dx m2 m1 2 0
n n2
n k (2k 1)!! m1 M [ X ] n, m2 k 1 0, m2 k (n 2)(n 4)...(n 2k )
Legea lui Cauchy. Pentru n=1 Legea (distribuţia) Student se mai numeşte Legea (distribuţia) Cauchy. O variabilă aleatoare X cu distribuţie Cauchy are densitatea de probabilitate:
f ( x)
1 x2 , x (, ),
Fig. 167. N=1 plot (1/pi)*(1+x^2) from x=0 to 30
Statistică şi Informatică pentru chimie medicală şi farmaceutică
245
Fig. 168. N=1 (legea lui Cauchy) plot (gamma(1)/(sqrt(pi)*gamma(1/2)))*(1+x^2) from x=-0 to 30
Fig. 169. N=5 plot (gamma(3)/(sqrt(5*pi)*gamma(5/2)))*(1+x^2/5)^3 from x=-0 to 50
MARIN VLADA
246
Legăturile dintre distribuţia Student şi distribuţia normală sunt prezentate în următoarele două teoreme. Teoremă. Dacă variabilele aleatoare X1, X2, ..., Xn, ... , cu fi(x), i>0, au densitatea de probabilitate a unei distribuţii Student(t), cu n grade de libertate, atunci
lim f n ( x) f ( x), n
unde f(x) este densitatea de probabilitate normală standard N(0,1). Teoremă. Dacă fiecare dintre variabilele aleatoare independente X1, X2, ..., Xn
+1
are
distribuţie normală cu parametrii N(0, σ ), atunci variabila aleatoare 2
X n
X n 1 X 1 X 2 ... X n 2
2
2
,
are distribuţie Student cu n grade de libertate. Distribuția Snedecor. Legea Fisher Distribuţia Snedecor are densitatea de probabilitate dată de următoarea expresie:
m f ( x) x n
m 1 2
mn m2 2 1 m x 2 , x (0, ), (m / 2)(n / 2) n
f ( x) 0, x 0, m, n 0, unde funcția Γ(p) este funcția Euler (integrala lui Euler de al II-lea tip), iar m și n sunt parametri ce semnifică numărul gradelor de libertate. Se spune că o variabilă X are repartiţia Snedecor cu m și n grade de libertate. Distribuţia Fisher are densitatea de probabilitate dată de următoarea expresie:
mn m 2 2 m 2x 2 m mx f ( x) e 1 e , x R, (m / 2)(n / 2) n n
Teoremă. Dacă variabila aleatoare X are o distribuție Snedecor cu parametrii m și n, atunci variabila aleatoare Y=(lnX)/2 are o distribuție Fisher cu parametrii m şi n.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
247
Tabelul 22. Indicatorii teoretici, Distribuția Fisher – Media, Dispersia, Momente
Media
M [ X ] xf ( x)dx
M[X], μ
Dispersia
Momente
D[X], σ2 , s2 mk
n ,n 2 m2
2 ( x M [ X ] f ( x)dx m2 m12
2n 2 (m n 2) m(n 4)(n 2) 2
n k m(m 2)...(m 2k 2) m1 M [ X ], mk k , 2k n m (n 2)( n 4)...(n 2k )
Fig. 170. M=2 și N=3 plot (2/3)*gamma(5/2)/(gamma(1)*gamma(3/2)) *(1+2*x/3)^(5/2) from x=-30 to 50
MARIN VLADA
248
Fig. 171. Legea Fisher, M=1 și N=2 plot (1/2)*e^x*gamma(3/2)/(gamma(1)*gamma(1/2)) *(1+(1/2)*e^(2*x))^(3/2) from x=-1 to 2
Legătura dintre distribuţia normală şi distribuţia Snedecor este dată de următoarea teoremă. Teoremă. Dacă fiecare dintre variabilele aleatoare independente X1, X2, ..., Xm , Xm+1 ... , Xm+n are distribuţie normală cu parametrii N(0, σ2), atunci variabila aleatoare
n X 1 ... X m X , m X m1 2 ... X m n 2 2
are distribuţie Snedecor, cu m și n grade de libertate.
2
Statistică şi Informatică pentru chimie medicală şi farmaceutică
249
3.8 Estimarea parametrilor. Testarea ipotezelor statistice 3.8.1 Intervalul de încredere Dacă se consideră o populație statistică a cărei valoare medie μ nu este cunoscută, se cere determinarea acestei valori pentru a face interpretări și a utiliza această valoare în alte calcule. În acest scop, se consideră un eșantion aleator de dimensiune n și pentru care se poate calcula media valorilor M[X]. De exemplu, în biologie, multe variabile aleatoare (din diverse procese) urmează o distribuție normală Gauss N(μ,σ2). Definiție. O estimare/determinare a unui parametru γ a unei populații statistice este o valoare g a unei statistici corespunzătoare. Definitie. Un interval de estimare/determinare a unui parametru γ a unei populații statistice este intervalul (γ-a, γ +b), folosit pentru a estima valoarea parametrului γ. Valorile a și b sunt determinate funcție de eșantionul care este folosit pentru estimarea parametrului γ. γ γ -a
γ- b Eșantion (E)
Populație statistică (P) Fig. 172. Interval de estimare pentru parametrul γ Inițial, se consideră că media valorilor eșantionului, M[X] estimează valoarea medie a populației μ. În general, M[X] și μ sunt diferite, chiar daca M[X] aproximează cu o anumită precizie pe μ. Această precizie poate fi apreciată cu ajutorul unui interval de încredere centrat în μ. Prin urmare, media eșantionului M[X] este un estimator punctual al mediei populației μ. Definitie. O statistică a poziției este scorul standard (sau z – scor), numit și gradul de încredere (confidenţă), dat de poziția valorii x față de media valorilor M[X] în unități de deviație standard (s), adică
z
x M[X ] . s
Determinarea intervalului de estimare Fie o populație statistică având o deviație standard σ cunoscută, o medie μ necunoscută și un eșantion aleator simplu de mărime n și medie M[X] cunoscute. Fie un interval centrat în μ, adică (μ-ε, μ + ε). Gradul de încredere (confidenţă)/Scorul standard pentru mediile eșantioanelor este
MARIN VLADA
250
z
x x
x
x n (x ) . / n
Condiția ca valoarea M[X] să fie în intervalul (μ-ε, μ + ε) determină următoarele:
x
x z . / n / n / n / n / n
Prin urmare, intervalul de estimare (a,b) are extremitățile date de expresiile:
a
n
, b
n .
Caz particular ε=1. Definiție. Nivelul de neîncredere, notat α, este probabilitatea ca statistica eșantionului să aibă valoarea în afara intervalului de estimare. Definiție. Nivelul de încredere/coeficientul de încredere, notat (1-α), este probabilitatea ca statistica eșantionului să se afle în intervalul de estimare ales. Dacă se consideră că variabila X este N(0,1), conform teoremei de limita centrală avem:
n n n 2 P 0 z P( 1 x 1) P z n 1 x t 2 / 2 , unde F ( x) 2 F e dt. 2 0 Prin urmare, nivelul de neîncredere α, respectiv nivelul de încredere, sunt:
n n , 1 2 F .
1 2 F
Definiție. Intervalul de încredere este un interval de estimare cu un nivel de încredere (1-α) specificat. Exemplu. Fie o populație statistică având o deviație standard σ cunoscută, o medie μ necunoscută și un eșantion aleator simplu de mărime n și medie M[X] cunoscute. Fie un interval centrat în μ, adică (μ-1, μ + 1). Scorul standard, intervalul de estimare și nivelul de încredere (1-α) sunt următoarele:
Statistică şi Informatică pentru chimie medicală şi farmaceutică
z
n (x )
251
n n n , 1 2 F , , .
Definiție. Pentru calculul parametrilor funcției de repartiție sunt definite următoarele noțiuni: Ɵa, Ɵb – limitele de încredere/semnificație, sunt valori ce reprezintă valorile limită între care se plasează cu o probabilitate dată, adevarata valoare a parametrului necunoscut; (1-α) – nivel de încredere/semnificație, ce reprezintă probabilitatea corespunzătoare; [Ɵa, Ɵb] – interval de încredere/semnificație, ce reprezintă mulțimea valorilor care include, cu o probabilitate apreciată ca satisfacătoare, adevarata valoare necunoscută; α – nivel de neîncredere/valoarea de risc; probabilitatea ca statistica eșantionului să aibă valoare în afara intervalului de estimare; (-∞, Ɵa) U (Ɵb, -∞) – interval de neîncredere; Definiție. Eroarea standard/maximă de estimare este jumătatea lungimii intervalului de încredere cu nivelul de încredere (1-α) și are următoarea formulă:
Err z , 2
unde
n
1 1 z este soluția ecuației F ( z ) , F ( x) 2 2 2
x
0
et
2
/2
dt.
Prin urmare, intervalul de încredere cu nivelul de încredere (1- α) este (M[X] - ε, M[X] + ε). Exemplu. Fie o populație de pacienți pentru care se studiază nivelul glicemiei. Pentru un eșantion format din n=121 pacienți, se măsoară nivelul glicemiei și se deduce că media este M[X]=105. Valoarea aleatoare X ce indică valori ale glicemiei este o variabilă ce urmează o distibuție normală N(μ,σ2) – distibuție Gauss. Știind că s-a extras eșantionul cu nivelul de neincredere α = 0.05 (deci nivelul de incredere (1 - α) = 0.95) corespunzător scorului de încredere z = 1.96, iar dispersia σ2 = 36 (adică σ = 6), să se determine intervalul de încredere pentru media glicemiei la populația din care s-a extras eșantionul. Vom avea,
6 Err z 1.96 2
n
121
1.069091,
și astfel intervalul de încredere este (M[X] - ε, M[X] + ε), adică (103.9309, 106.0691).
MARIN VLADA
252
Intervalul de încredere pentru frecvenţe Această situație se studiază în cazul eșantioanelor pentru care se verifica relația nf > 10, unde n=dimensiunea eșantionului, f = m/n este frecvența, iar m= numărul de apariții. Definiție. Intervalul de încredere pentru frecvenţe corespunzător scorului de încredere z este intervalul
f (1 f ) f (1 f ) , f Z f Z . n n Exemplu. Se dorește estimarea frecvenţei cancerului de sân la femeile, cu vârsta între 50 şi 54 de ani, care au antecedente familiale pozitive. Într-un studiu randomizat la care au participat 10000 de femei, s-a constatat că 400 dintre acestea au fost diagnosticate cu cancer de sân. Care este intervalul de încredere de 95% (cu scorul de încredere Z=1.96) asociat frecvenţei observate? Avem: n=10000, m=400, f=400/10000=0.04, Z=1.96, și astfel intervalul de încrederea este (f - ε, f + ε), unde ε = 1.96*sqrt(0.04*0.96/10000) = 0.003841. Intervalul de încredere este [0.036159, 0.0438410]. Riscul (valoarea de risc) α poate fi: unilateral (dreapta sau stânga), și în acest caz, pentru o funcția de distribuție oarecare, legătura dintre nivelul de semnificație (1-α) și intervalul de semnificație [Ɵa, Ɵb] este dată de relația (pentru dreapta) P(Ɵ > Ɵb) = 1-α, respectiv P(Ɵ < Ɵb) = 1-α, pentru stânga; bilateral simetric, și în acest caz, pentru o funcția de distribuție oarecare, legătura dintre nivelul de semnificație (1-α) și intervalul de semnificație [Ɵa, Ɵb] este dată de relația P(Ɵ1- α/2 < Ɵ < Ɵα/2) = 1-α;
Fig. 173. Riscul unilateral dreapta
Statistică şi Informatică pentru chimie medicală şi farmaceutică
253
Fig. 174. Riscul bilateral stânga-dreapta 3.8.2 Determinarea parametrului statistic – limitele intervalului de semnificație Se dă probabilitatea / nivelul de semnificație (1-α) (sau valoarea de risc α) și se cere să se determine parametrului statistic, limitele intervalului de semnificație (intervalele (-∞ , Ɵα); (Ɵα, ∞); (Ɵ1-α/2, Ɵα/2)), pentru funcția de repartiție corespunzătoare: zα pentru repartiția normală Gauss; χα2 pentru repartiția χ2; tα pentru repartiția Student; Fm,n,α pentru repartiția Fisher. Determinarea probabilității / nivelului de semnificație (1-α) Se dă parametrul statistic, limitele intervalului de semnificație pentru funcția de repartiție corespunzătoare, și se cere să se determine probabilitatea / nivelul de semnificație (1-α) (sau valoarea de risc α). Se utilizează NormSdist(z) Distribuția normală standard N(0,1) Exemplu. Pentru distribuția normala N(0,1) cu un risc unilateral dreapta, se dă valoarea lui zα=1.58. Se cere să se determine riscul α.
MARIN VLADA
254
Densitatea de probabilitate N(0,1) se calculează folosind Excel, fiind dată de funcția NORMSDIST(z) care calculează valoarea nivelul de semnificație (1-α). Avem, NORMSDIST(1.58) = 0.942947 (94.29%), prin urmare, riscul α=0.057053 (5.70%). Tabelul de mai jos realizează pentru valori ale lui zα, cu pasul 0.1, valorile riscului α.
z 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3
1-alfa
alfa
0,5 0,539828 0,57926 0,617911 0,655422 0,691462 0,725747 0,758036 0,788145 0,81594 0,841345 0,864334 0,88493 0,9032 0,919243 0,933193 0,945201 0,955435 0,96407 0,971283 0,97725 0,982136 0,986097 0,989276 0,991802 0,99379 0,995339 0,996533 0,997445 0,998134 0,99865
0,5 0,460172 0,42074 0,382089 0,344578 0,308538 0,274253 0,241964 0,211855 0,18406 0,158655 0,135666 0,11507 0,0968 0,080757 0,066807 0,054799 0,044565 0,03593 0,028717 0,02275 0,017864 0,013903 0,010724 0,008198 0,00621 0,004661 0,003467 0,002555 0,001866 0,00135
Se utilizează NormSinv(p)
Statistică şi Informatică pentru chimie medicală şi farmaceutică
255
Exemplu. Pentru distribuția normală N(0,1) cu un risc unilateral dreapta, se dă valoarea nivelului de semnificație (1-α)=0.95 (95%). Se cere să se determine valoarea limitei zα. Valoarea se calculează folosind Excel, fiind dată de funcția NORMSINV(p) care calculează valoarea limitei zα, dacă se dă ca argument valoarea unei probabilități p. Această funcție este inversa funcției NORMSDIST(z). Avem NORMSINV(0.95) = 1.644854, prin urmare, valoarea limitei zα=1.644854. Tabelul de mai jos realizează pentru valori probabilității și valorile limitei zα, cu pasul 0,001. p
z
0,94000 0,94100 0,94200 0,94300 0,94400 0,94500 0,94600 0,94700 0,94800 0,94900 0,95000 0,95100 0,95200 0,95300 0,95400 0,95500 0,95600 0,95700 0,95800 0,95900 0,96000 0,96100 0,96200 0,96300 0,96400 0,96500 0,96600 0,96700
1,554773595 1,563223647 1,571786817 1,580466818 1,589267557 1,59819314 1,607247892 1,616436371 1,625763386 1,635234015 1,644853627 1,654627902 1,664562861 1,674664889 1,684940768 1,69539771 1,706043397 1,716886018 1,727934322 1,739197665 1,750686071 1,762410298 1,77438191 1,786613365 1,799118107 1,811910673 1,825006821 1,838423669
0,96800 0,96900 0,97000 0,97100 0,97200 0,97300 0,97400 0,97500 0,97600 0,97700 0,97800 0,97900 0,98000 0,98100 0,98200 0,98300 0,98400 0,98500 0,98600 0,98700 0,98800 0,98900 0,99000 0,99100 0,99200 0,99300 0,99400 0,99500 0,99600 0,99700 0,99800 0,99900
1,852179859 1,866295743 1,880793608 1,895697924 1,911035648 1,926836573 1,943133751 1,959963985 1,977368428 1,99539331 2,014090812 2,033520149 2,053748911 2,074854734 2,096927429 2,12007169 2,144410621 2,170090378 2,197286377 2,226211769 2,257129244 2,290367878 2,326347874 2,365618127 2,408915546 2,45726339 2,512144328 2,575829304 2,652069808 2,747781385 2,878161739 3,090232306
256
MARIN VLADA
Exemplu. Pentru distribuția normală cu un risc bilateral simetric de α=0.05 (5%), se cere determinarea intervalului de semnificație. Se cere să se determine valoarea limitei zα. Valoarea se calculează folosind Excel, fiind dată de funcția NORMSINV(p) care calculează valoarea limitei zα, dacă se dă ca argument valoarea unei probabilități p. Avem: α/2=0.025 si (1-α)=0.975 (97,5%). Avem NORMSINV(0.975) = 1.959963985, prin urmare valoarea limitei zα/2=1.959963985. Deoarece funcția de repartiție normală este simetrică, intervalul de semnificație/încredere este (-zα/2, zα/2) = (-1.959963985, 1.959963985). Se utilizează Tdist(t,v,ind) Distributia χ2 Exemplu. Pentru distribuția χ2 cu un risc unilateral dreapta, se dă valoarea lui χα2=13.362, și numărul gradelor de libertate m+n=8. Se cere determinarea riscului α. Valoarea se calculează folosind Excel, fiind dată de funcția CHIDIST(x,v) care calculează valoarea riscului α, dacă se dă ca argumente valoarea χα2 și v=numărul gradelor de libertate. Avem CHIDIST(13.362;8) = 0.09999. Prin urmare, valuarea riscului este α = 0.09999 (9%). Se utilizează TInv(2a,v) Exemplu. Pentru distribuția χ2 cu un risc unilateral dreapta, se dă valoarea nivelului de semnificație 1-α=95% și numărul gradelor de libertate ν=10. Se cere determinarea limitei χα2. Valoarea se calculează folosind Excel, fiind dată de funcția CHIINV(α,v) care calculează valoarea limitei χα2, dacă se dă ca argumente valoarea riscului α și v=numărul gradelor de libertate. Cum 1-α=95%, înseamnă că α=5%, adică α=0.05 și CHIINV(0.05;10) = 18.30703805. Prin urmare, valoarea χα2=18.30703805. Exemplu. Pentru distribuția χ2 cu un risc bilateral simetric, se dă valoarea α=5% și numărul gradelor de libertate ν=15. Se cere determinarea intervalului de semnificație, limitele χ2α/2 și χ21-α/2. Valoarea se calculează folosind Excel, fiind dată de funcția CHIINV(α,v) care calculează valoarea limitei χα2, dacă se dă ca argumente valoarea riscului α și v=numărul gradelor de libertate. Cum α=5%, înseamnă că 1-α=95%, adică α/2=2.5%=0.025 și CHIINV(0.025;15) = 27.48839286. Prin urmare, valoarea limitei din dreapata χ2α/2 = 27.48839286. Pentru a determina valoarea limitei din stînga, vom calcula valoarea nivelului de semnificație: 1-α/2 = 100%-2.5%=97.5%=0.975 și CHIINV(0.975;15) = 6.262137817. Prin urmare, valoarea limitei din stânga χ21-α/2 = 6.262137817. Intervalul de semnificație/încredere este (χ21-α/2, χ21-α/2) = (6.262137817, 27.48839286). Se utilizează ChiDist(x,v) Distribuția Student (t) Exemplu. Pentru distribuția Student cu un risc unilateral dreapta, se dă valoarea lui tα=1.812 și ν=10 grade de libertate. Se cere să se determine riscul α. Valoarea se calculează folosind Excel, fiind dată de funcția TDIST(tα,v,ind) care calculează valoarea riscului α, dacă se dă ca argumente valoarea lui tα, v = numărul gradelor de libertate și
Statistică şi Informatică pentru chimie medicală şi farmaceutică
257
ind=1, în cazul repartiției Student cu risc unilateral, respectiv ind=2, în cazul repartiției Student cu risc bilateral. Avem TDIST(1.812, 10,1) = 0.050037629. Prin urmare, valoarea riscului este α = 0.050037629 (5%). Se utilizează ChiInv(x,v) Exemplu. Pentru distribuția Student cu un risc unilateral dreapta, se dă valoarea riscului α =10% și ν=15 grade de libertate. Se cere să se determine valoarea limitei tα. Valoarea se calculează folosind Excel, fiind dată de funcția TINV(2α,v) care calculează valoarea limitei tα, dacă se dă ca argumente valoarea lui 2α (funcția TINV() este implementata pentru cazul distribuției bilaterale), v = numărul gradelor de libertate. Avem, TINV(0.2, 15) = 1.340605608. Prin urmare, valoarea limitei este tα = 1.340605608. Exemplu. Pentru distribuția Student cu un risc bilateral, se dă valoarea riscului α =10% și ν=20 grade de libertate. Se cere să se determine limitele intervalului de semnificație (-tα/2 ,tα/2). Valoarea se calculează folosind Excel, fiind dată de funcția TINV(α/2,v) care calculează valoarea limitei tα, dacă se dă ca argumente valoarea lui α/2, v = numărul gradelor de libertate. Avem, TINV(0.05, 20) = 2.085963441. Prin urmare, valoarea limitei este tα = 2.085963441, adică intervalul (-tα/2 ,tα/2) = (-2.085963441, 2.085963441. Se utilizează FInv(a,m,n) Distributia Fisher (F m,n,α) Exemplu. Pentru distribuția Fisher cu un risc unilateral dreapta, se dă valoarea riscului α =10% și m=10, n=15 grade de libertate. Se cere să se determine valoarea limitei de semnificație Fm,n,α. Valoarea se calculează folosind Excel, fiind dată de funcția FINV(α,m,n) care calculează valoarea limitei tα, dacă se dă ca argumente valoarea lui α, și m, n = numărul gradelor de libertate. Avem, FINV(0.1, 10, 15) = 2.059319496. Prin urmare, valoarea limitei este Fm,n,α = 2.059319496. Exemplu. Pentru distribuția Fisher cu un risc bilateral, se dă valoarea riscului α =20% și m=15, n=20 grade de libertate. Se cere să se determine valoarea limitei de semnificație (Fm,n,1-α/2, Fm,n,α/2). Valoarea se calculează folosind Excel, fiind dată de funcția FINV(α/2,n,m) care calculează valoarea limitei Fm,n,α/2, dacă se dă ca argumente valoarea lui α/2, și m, n = numărul gradelor de libertate. Avem FINV(0.1, 20, 15) = 1.924314491. Prin urmare, valoarea limitei este Fm,n,α/2 = 1.924314491. Pentru calculul lui Fm,n,1-α/2, avem FINV(0.1, 15, 20) = 1.844935151. Prin urmare, intervalul (Fm,n,1-α/2 , Fm,n,α/2) = (1.844935151, 1.924314491). 3.8.3 Testarea ipotezelor statistice În domeniul deciziilor privind credibilitatea unei aserțiuni/propoziții/ipoteze din analiza și studiul masurărilor/datelor experimentale, Statistica matematică a dezvoltat o procedură pentru verificarea ipotezelor statistice. În general, rezolvarea practică a problemelor de prelucrare statistică a datelor, implică aproximarea unei distribuții experimentale (obţinută din datele măsurate/observate ale unui fenomen/proces) cu o
MARIN VLADA
258
distribuție teoretică, care o aproximează în mod satisfăcător. Pentru eliminarea aproximărilor „grosolane” este recomandat să se aplice un test de verificare, acest test parcurgând următoarele etape: 1. 2. 3. 4.
Enunțarea ipotezei, o presupunere asupra uneia sau a mai multor distribuții, sau asupra unuia sau a mai multor parametrii ai distribuției respective; Alegerea parametrilor μ, α, n etc.; Calculul funcției de repartiție pe baza datelor şi stabilirea regulilor/criteriilor ce vor definii decizia (adaptarea sau respingerea unei repartiții); Luarea deciziei, acceptarea sau respingerea funcției de repartiție.
Definiție. Un test statistic reprezintă o metodă a deciziei (de exemplu, în cazul deciziilor medicale) prin utilizarea datelor experimentale din diverse domenii. Un rezultat se numeşte semnificativ statistic dacă este puţin probabil să apară datorită întâmplării. Definiție. O ipoteză statistică este o presupunere/asumpție asupra unui parametru al populaţiei. Această presupunere/asumpţie poate să fie adevărată sau nu. Definiție. Ipoteza nulă H0 se referă la verificarea faptului că valoarea presupusă nu diferă (diferența este 0) de valoarea parametrului. Definiție. Ipoteza alternativă H1 se referă la verificarea faptului că valoarea presupusă diferă (diferența nu este 0) de valoarea parametrului, adică diferită de valoarea din ipoteza H0. Un test statistic este o variabilă aleatoare folosită pentru a respinge sau nu ipoteza H0. Testul statistic este o statistică de eșantioane sau alte valori rezultate dintr-un eșantion. Probabilitățile care apar în acest test statistic sunt determinate presupunând că H0 este adevărată. Definiție. O ipoteză clinică reprezintă o propoziţie sau un set de propoziţii, prezentate ca explicaţie a apariţiei unui grup de fenomene/procese. Această explicaţie poate să fie o ipoteză de lucru sau o ipoteză foarte probabilă în lumina faptelor stabilite. Aceasta poate fi o explicaţie posibilă a unei observaţii sau a unui fenomen, sau o problemă care necesită investigaţii. Există diferite metode şi teste de verificare ce se aplică repartițiilor teoretice. Cum, majoritatea fenomenelor/proceselor se supun legii de repartiție normală Gauss-Laplace, cel mai frecvent test utilizate se referă la verificarea normalității. Pentru verificarea repartițiilor, trebuie să se specifice un prag de semnificație sau o valoare de risc pentru care să poată fi luată decizia de acceptare a ipotezelor. De asemenea, există 2 situații, prima, enunțul unei ipoteze cu privire la un parametru necunoscut la nivelul unei populații statistice, și a doua, enunțul unei ipoteze cu privire la un parametru necunoscut la nivelul unui eșantion.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
Probabilitatea
259
Populația – enunțul unei ipoteze cu privire la un parametru necunoscut la nivelul unei populații. Eșantionul – enunțul unei ipoteze cu privire la un parametru necunoscut la nivelul unui eșantion.
Statistica inferențială
Etapele testării ipotezelor statistice 1. Definirea/enunțul ipotezele statistice (presupuneri privind parametrii) H 0 (ipoteza nulă) şi H1 (ipoteza alternativă); 2. Alegerea nivelului de semnificaţie și stabilirea regiunii critică; 3. Calculul statisticii testului şi valoarea probabilitatii p asociate; 4. Concluzia statistică a testului Etapa 1: Transpunerea problemei cercetate în termeni statistici prin presupuneri asupra unor parametri ai distribuției ce se studiază. Se face o afirmație relativă la un parametru al unei populații (de exemplu μ, α, n etc.). Ipoteza nulă H0 se referă la verificarea faptului că valoarea presupusă nu diferă (diferența este 0) de valoarea parametrului. Ipoteza alternativă H1 se referă la verificarea faptului că valoarea presupusă diferă (diferența nu este 0) de valoarea parametrului, adică diferită de valoara din ipoteza H0. Aceste ipoteze se pot referi și la cazul unilateral (distribuție cu un prag de semnificație), și la cazul bilateral (distribuție cu un interval de semnificație). Exemplu. Ipoteze statistice referitoare la parametrii unei populații (de exemplu media μ): Cazul unilateral dreapta/stânga H0: μ = 115 H1: μ > 115 sau μ < 115
Cazul bilateral stânga-dreapta H0: μ = 115 H1: μ ≠ 115
În etapa 4 (luarea deciziilor) se va face următoarea analiză: Decizia Ipoteza H0 adevărată Ipoteza H0 falsă Acceptare H0 Decizie corectă tip A Eroare tip II Respingere H0 Eroare tip I Decizie corectă tip B Concluzii:
O decizie corectă de tip A: apare când H0 este adevărată și acceptăm H0 O decizie corectă de tip B: apâre cand H0 este falsă și respingem H0 O eroare de tip I: apare când H0 este adevarată și respingem H0 O eroare tip II: apare când H0 este falsă și acceptăm H0.
260
MARIN VLADA
Probabilități: α – nivelul de semnificaţie = probabilitatea erorii de tip I (probabilitatea de a respinge ipoteza nulă în condiţiile în care H0 este adevărată); β – probabilitatea erorii de tip II (probabilitatea de a accepta ipoteza nulă în condiţiile în care ipoteza alternativă este adevărată). Etapa 2: Metoda de verificare a ipotezelor constă din identificarea unui test statistic, specificarea valorii lui α, determinarea regiunii critice și a valorii critice. Probabilități: α – nivelul de semnificaţie = probabilitatea erorii de tip I (probabilitatea de a respinge ipoteza nulă în condiţiile în care H0 este adevărată); β – probabilitatea erorii de tip II (probabilitatea de a accepta ipoteza nulă în condiţiile în care ipoteza alternativă este adevărată). Nivelul de semnificație este probabilitatea α de a face o eroare de tip I, adică de a respinge H0 adevărat. Regiunea critică este mulțimea de valori W pentru care P(X din W) ≤ α și care determină să se respingă ipoteza H0. Valoarea critică este prima valoare din regiunea critică. Dacă pentru un eșantion valoarea testului statistic X depăsește valoarea critică, ipoteza H0 este respinsă. Dacă valoarea parametrului statistic aparţine regiunii critice, ipoteza nulă H0 va fi respinsă şi va fi acceptată ipoteza alternativă H1. Dacă valoarea parametrului statistic nu aparţine regiunii critice, ipoteza nulă H0 va fi acceptată. Etapa 3: Se calculează parametrul statistic al testului corespunzător distribuției (de exemplu, Ztest, Ttest, Ftest etc.), care este informaţia/valoarea care se va utiliza pentru a decide dacă respingem sau nu ipoteza nulă H0.
Fig. 175. Regiunea critică. Condiții de acceptare sau nu pentru H0
Statistică şi Informatică pentru chimie medicală şi farmaceutică
261
Etapa 4: Se analizează concluzia statistică a testului. Decizia se ia comparând valoarea testului statistic cu regiunea critică determinată la Etapa 3. Regula de decizie: Dacă valoarea testului statistic este în regiunea critică respingem ipoteza H0, dacă nu, atunci acceptăm ipoteza H0. Ansamblul de valori ale testului statistic care nu sunt în regiunea critică formează regiunea de acceptabilitate pentru H0. Aplicație. La Facultatea de Chimie s-a realizat măsurarea greutății (masa corporală) tuturor studenților din facultate, în număr de 457 de studenți, și s-a obținut media greutății μ= 54,4 Kg. Această valoare este contestată de profesorul de sport. Pentru a face un test statistic, se selecționează un eșantion aleator de 100 de studenți și se găsește că media M[X]= 53,75 kg. Este această valoare suficientă pentru a respinge afirmația cu nivelul de semnificație α = 0,05 (5%)? Rezolvare. Etapa 1: Definirea ipotezelor statistice H0: μ = 54,4 Kg ; H1: μ ≠ 54,4 Kg. Etapa 2: Metoda de verificare a ipotezelor constă din identificarea unui test statistic, specificarea valorii lui α, determinarea regiunii critice și a valorii critice. Când în ipoteza nulă H0, media populației și deviația standard sunt cunoscute, atunci scorul standard z este folosit ca și test statistic. Nivelul de semnificație α = 0,05 (5%)? este dat. Conform teoremei de limită centrală, distribuția mediilor eșantioanelor este aproape normală. Prin urmare, distribuția normală va fi folosită pentru determinarea regiunii critice. Regiunea critică este egală cu mulțimea valorilor scorului standard z care determină respingerea ipotezei H0. Media eșantionului este o estimare a mediei populației. Ipoteza alternativă H1 este susținută de medii de eșantioane în intervalul (53,75, 54,4). Ipoteză nulă H0 este susținută de medii de eșantioane în jurul valorii 54,4. Regiunea critică este formată din două părți egale, situate la cele două extremități ale distribuției normale. Aria corespunzătoare fiecărei porțiuni este α/2, iar probabilitatea fiecărei părți a regiunii critice, este α/2 = 0,025 (2,5%). Eroarea standard de estimare, intervalul de semnificație (-Zα/2, Zα/2 ), adică Zα/2=1,96 se determină ca soluție a ecuației (folosind Excel, se va apela funcția NORMSINV(0.025) = −1,959963985)
2
1 2
z
e t
2
/2
dt.
Etapa 3: Se calculează parametrul statistic al testului corespunzător distributiei Ztest, aceasta fiind informaţia/valoarea care se va utiliza pentru a decide dacă respingem sau nu ipoteza nulă H0. Gradul de încredere / Scorul standard pentru mediile eșantioanelor este:
z
x x
x
x n(x ) , Z test 1.204. / n
MARIN VLADA
262
Acceptare H0
Respingere H0
Respingere H0
Z=-1.204
-1.96
α/2=0.025
1.96
Fig. 176. Regiunea critică Etapa 4: Se analizează concluzia statistică a testului. Valoarea testului statistic nu este în regiunea critică. Decizia: Nu respingem ipoteza H0. Justificarea deciziei: Valoarea testului nu este în dezacord cu H0 la nivelul de risc α = 0,05. Aceasta nu înseamnă că H0 este adevărată. Concluzie: Media M[X]= 53,75 kg nu contravine ipotezei că media este 54,4 kg, cănd dispersia este 5,4 kg. O decizie de respingere a lui H0 înseamnă că valoarea testului implică faptul că H0 este falsă și indică H1. Rezumat privind verificarea ipotezelor statistice asupra mediei (varianta clasică) Ipoteza H0 specifică o valoare particulară a mediei populației. Ipoteza H1 are trei forme. Fiecare dintre acestea determină o locație specifică a regiunii critice așa cum apare în tabelul de mai jos. Semne în ipoteza H1 Regiunea critică
< Test unilateral stânga, regiunea stânga
≠ Test bilateral stânga – dreapta, regiunea stănga
> Test unilateral dreapta, regiunea dreapta
Valoarea lui α se numește nivel de semnificație și reprezintă riscul (probabilitatea) respingerii lui H0, atunci când aceasta esta adevărată. Nu putem determina dacă ipoteza H0 este adevărată sau falsă. Putem doar decide dacă o respingem sau dacă o acceptăm.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
263
Probabilitatea cu care respingem ipoteza adevărată are valoarea lui α, dar nu știm probabilitatea cu care facem o decizie „greșită”. O eroare de tip I și o „greșeală în decizie” sunt termeni diferiți. Testul χ2 pentru verificarea normalității De regulă, acest test de verificare a normalității unei distribuții, se utilizează pentru populații statistice cu n > 100. Pentru un studiu de caz, se consideră un set de date/eșantion de volum n=120 cu valorile înălțimii a 120 de persoane. Folosind funcția RAND() ce generează valori aleatoare în intervalul (0, 1), vom genera cu Excel 120 valori aleatoare cuprinse în intervalul (1.50, 2.10) cu formula „= a+RAND()*(b-a)”, unde a=1.50 și b=2.10 . Definirea ipotezei H0: datele statistice (variabila aleatoare X) sunt o variabilă aleatoare repartizată normal N(0,1), pentru un nivel de încredere de 1−α = 0.95 (95%). Se vor parcurge următorii pași: 1. 2.
3.
4.
Se determină Xmin și Xmax prin sortarea valorilor sau folosind în Excel, funcțiile MIN() și MAX(); Se calculează numărul de clase cu formula lui H. A. Sturges, r = [1+ 3.322 ∗ lgn], unde [ ] este funcția partea întreagă (Exemplu, n=120, r=1+3.322*LOG10(120) = 8 clase). Se determină amplitudinea variaţiei, notată cu A, și este diferenţa dintre cea mai mare valoare posibilă şi cea mai mică valoare posibilă, din setul de date: A = Xmax – Xmin = 0.59; Se determină mărimea intervalelor de grupare a datelor, notată cu K= A/r, deci K = 0.07431; Se determină limitele pentru fiecare grupă și se va stabili cea mai mică valoare şi cea mai mare valoare pentru fiecare grupă; prin urmare, intervalele vor fi [Xmin , Xmin + K ], (Xmin + K, Xmin + 2K], ... (Xmin +(r-1)K, Xmax]; Tabelul 23. Valoarea limitelor (intervalelor) celor 8 clase Clasa 1 1.50 1.58 Clasa 2 1.59 1.63 Clasa 3 1.64 1.69 Clasa 4 1.71 1.79 Clasa 5 1.80 1.88 Clasa 6 1.89 1.92 Clasa 7 1.93 1.99 Clasa 8 2.00 2.09
5. Se determină frecvenţele pentru fiecare interval. În gruparea datelor statistice pe intervale este util să se construiască o distribuţie a frecvenţelor absolute cumulate şi o distribuţie a frecvenţelor relative cumulate, pentru analiza şi
MARIN VLADA
264
interpretarea datelor statistice. Dacă a1 , a2 , ... , ar sunt frecvențele absolute pe intervale, iar f1 , f2 , ... , fr sunt frecvențele relative pe interval, se va utiliza funcția COUNT(). Tabelul 24. Grupe, frecvențe și probabilități Nr. crt. Grupe Frecvențe fi 0.116667 1 1.50-1.58 14 0.116667 2 1.59-1.63 14 0.133333 3 1.64-1.69 16 0.15 4 1.71-1.79 18 0.125 5 1.8-1.88 15 0.108333 6 1.89-1.92 13 0.116667 7 1.93-1.99 14 0.133333 8 2.00-2.09 16 1 Suma 120
Observație. În acest capitol, la descrierea numerelor reale, delimitatorul pentru partea zecimală este « . » (punctul), această opțiune este setată prin sistemul de operare utilizat. Alternativa este utilizarea « , » (virgulei) pentru delimitarea părții zecimale. Dacă se utilizează un fișier Excel, de la un sistem de operare la altul, automat, se face conversia corespunzătoare setării din sistemul de operare „sursă” în cel „destinație”.
Fig. 177. Histogramă
Statistică şi Informatică pentru chimie medicală şi farmaceutică
265
6. Determinarea indicatorilor statistici, media M[X], dispersia D[X]2 și abaterea medie patratică D[X]:
M[X ]
1 n 1 n 2 x , D [ X ] i ( xi M [ X ]) 2 , D[ X ] D 2 [ X ]. n i 1 n i 1
Pentru valorile generate, avem următoarele rezultate: M[X] = 1.788583333 D2[X] = 0.02654882, D[X] = 0.162938106, obținute folosind funcțiile AVERAGE() și STDEVP(). 7. Se face transformarea de variabilă z = (x - μ ) / σ, și folosind această transformare, pentru repartiția normală, se poate determina probabilitatea pi corespunzătoare intervalului (xi, xi+1), cu ajutorul funcției Laplace:
F ( x)
1 2
x
e 0
t 2 / 2
dt.
Vom avea, valorile (zi)i=1,8 calculate cu valorile extremității stângi a intervalului (clasei). Pentru calculul probabilităților (pi)i=1,8 se va utiliza formula „=NORMDIST(z,0,1,FALSE)”, care calculează F(z), probabilitatea funcției de repartiție F(z). Observație. Funcția NORMDIST(x,0,1,TRUE) calculează densitatea de probabilitate f(x).
Fig. 178. Transformarea Z 8. Se calculează probabilitățile corespunzătoare intervalelor/claselor. Ținând seama de proprietățile funcției de repartiție F(x), avem F(-∞)= 0, F(-t)=1-F(t), F(∞)=1, și astfel p1 = F(z1)-F(-∞) = F(z1), p8 = F(∞) - F(z8) = 1-F(z8), iar pentru i=2,7, avem pi = F(zi) - F(zi-1). 8 (a 8 pi ) 2 9. Se calculează valoarea dată de formula c 2 i 1131.2545. 8 pi i 1
MARIN VLADA
266 xi
ai
Zi
χc2
Pi =F(Pi)
Pi+1 – Pi
0.08312782
0.083128
267.3918657
1.50
14
-1.77112
1.59
14
-1.21877
0.18982871
0.106701
202.4674368
1.64
16
-0.9119
0.263231935
0.073403
404.5353777
1.71
18
-0.48229
0.355141101
0.091909
405.3877309
1.80
15
0.070068
0.397964187
0.042823
627.1144974
1.89
13
0.622424
0.328688544
-0.06928
-331.495437
1.93
14
0.867916
0.273739587
-0.05495
-474.30793
2.00
16
1.297527
0.828080217
0.554341
30.16096462
Suma Σ
1131.254505
10. Se calculează valoarea funției χ2 pentru v grade de libertate și un nivel de încredere de 1-α = 0.95, adică se utilizează formula χ2=CHIINV(0.95,v) = 2.167349919, unde v= m-1 =7, m fiind numărul de intervale/clase. Se verifică relația χ2 ≤ χc2 , și cum avem 2.167349919 < 1131.254505, deduce, CONCLUZIA: Repartiția studiată SE ACCEPTĂ ca fiind o repartiție normală. Referințe 1. Marius Bulgaru, Prelucrarea statistică a șirurilor de date. Eliminarea valorilor aberante, Universitatea Tehnică Cluj-Napoca, www.cermi.utcluj.ro/doc/Lucr_05.pdf. 2. Sorana D. Bolboacă, Informatică medicală și Biostatistică. Estimarea parametrilor statistici, Universitatea de Medicină și Farmacie, Cluj-Napoca.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
267
4 Modele de aproximare liniare și neliniare 4.1 Modele matematice în analiza datelor În activitatea practică din diverse domenii ştiinţifice, economice, sociale etc., apar cele mai complexe probleme, care trebuie rezolvate. Ştiinţele şi cercetarea ştiinţifică s-au dezvoltat influenţate de complexitatea acestor probleme şi de proiectele societăţii umane. Tezaurul conoaşterii umane este influenţat de ştiinţă şi tehnică, de cultură şi artă, şi în special de modul de rezolvare a problemelor nerezolvate din societatea umană. Astfel de probleme apar în chimie, biologie şi medicină, în fizică şi geologie, în economie şi sociologie etc. Pentru studierea şi analiza proceselor şi fenomenelor aceste activităţi reclamă metode şi tehnici valide şi eficiente, astfel că modele utilizate să elimine căt mai mult incertitudinile şi aproximările. În cercetare şi în analiza datelor experimentale din diverse domenii ştiinţifice, trebuie să se realizeze proceduri de calcul şi modele care să conducă la concluzii privind interpretarea măsurărilor, calculelor şi rezultatelor modelelor teoretice sau empirice (aproximative). Modelele matematice (liniare sau neliniare) ce estimează evoluţia proceselor sau fenomenelor sunt exprimate de: Modele teoretice – acestea se bazează pe diverse legi şi principii ale domeniului teoretic; sunt modele raţionale ce se determină prin funcţii şi legi obţinute prin raţionamente teoretice și care exprimă funcţii şi ecuaţii ale unor teorii studiate în domeniul respectiv: chimie, fizică, biologie etc.
MARIN VLADA
268
Modele empirice (de aproximare) – acestea au la bază un suport teoretic pentru a utiliza observaţii (măsurări) empirice ale unor parametri, care definesc procesele şi fenomenele, în vederea realizării de calcule şi aproximări (fitare) ale datelor.
Modele teoretice Exemplu. Legea densităţii de probabilitate Gauss privind distribuţia erorilor de măsurare (numită şi clopotul lui Gauss), distribuţia normală standard N(0,1), având media 0 şi dispersia 1:
f ( x)
h
e (h
2
x2 )
, x (,) , h
1 2
(precizia),
şi lim f ( x) lim f ( x) 0 . x
x
Exemplu. Ecuaţia Eyring–Polanyi (1935), chemical kinetics (teoria stării de traziţie – “transition state theory”) – descrie dependenţa de temperatură a ratei de reacţie într-o reacţie bimoleculară. Principiile teoriei stării de tranzitie: există un echilibru termodinamic între starea de tranziţie şi starea de reactanţi în partea de sus a barierei de energie; rata de reacţie chimică este proporţională cu concentraţia de particule în stare de tranziţie de înaltă energie. Modelul dat de ecuaţia Eyring este folosit în studiul gazelor prin reacţii condensate şi mixte (Ref.: Peter Keusch, University of Regensburg, http://www.demochem.de/eyr-e.htm): ‡
‡
H S k B T RT k e e R , h
unde variabila dependentă k este funcţie de temperatura T şi de parametri S‡ (entropia de activare), H‡ (entalpia de activare), şi kB = constanta Boltzmann [1.381 · 10-23 J · K-1 ] T = temperatura absolută, în grade Kelvin [K] h = constanta Planck [6.626 · 10-34 J · s ] R = constanta universală a gazelor = 8.3144621 [ J · mol-1 · K-1] S‡ = entropia de activare [J · mol-1 · K-1 ] H‡ = entalpia de activare [kJ · mol-1 ] Prin logaritmare, ecuaţia Eyring se transformă într-un model liniar:
ln k ln
ln
kB H ‡ 1 S ‡ T h R T R
k H ‡ 1 k S ‡ ln B . T R T h R
Statistică şi Informatică pentru chimie medicală şi farmaceutică
269
Modele empirice de aproximare Exemplu. Ecuaţia Arrhenius – ecuaţia se poat aplica numai la cinetica reacţiilor de gaz şi se bazează pe observaţia empirică a faptului că o reacţie se desfăşoară cu o creştere a ratei de reacţie la o temperatură mai ridicată:
k Ae
Ea RT
,
unde A factor și Ea este energia de activare,
Ea H ‡ RT
ln k
Ea ln A (forma liniară). RT
Exemplu. The Beer-Lambert Law – Legea lui Beer (Spectrofotometrie): A = ε L C, unde A este absorţia, ε (epsilon) este absorbtivitatea molară, care depinde de lungimea de undă a luminii ce patrunde într-un material absorbant pe o distanță L, iar C este concentrația analitului; ε se mai numește și coeficient de extincție. Sursa: David N. Blauch, Beer's Law: http://www.chm.davidson.edu/vce/spectrophotometry/beerslaw.html, http://teaching.shu.ac.uk/hwb/chemistry/tutorials/molspec/beers1.htm.
Fig. 179. Virtual Chemistry Experiments by David N. Blauch – http://www.chm.davidson.edu/vce/
MARIN VLADA
270
Metode și modele de aproximare Presupunem că trebuie să se studieze variabila Y (dependentă) în funcţie de variabila X (independentă), adică dependenţa Y = f(X). De exemplu, dacă X reprezită parametrul „temperatură”, iar Y parametrul „presiune”, în acest caz variabila Y se exprimă ca o funcţie de o singură variabilă. Considerăm că s-au determinat (prin observații, măsurări) n perechi de valori (xi,yi), i=1,…,n corespunzătoare celor două variabile, pentru care se doreşte să se studieze asocierea şi relaţia dintre ele. O primă apreciere asupra distribuţiei comune o vom avea dacă realizăm diagrama de împrăştiere a valorilor, de fapt reprezentarea într-un sistem de axe XOY pentru punctele având coordonatele (x, y). Se poate utiliza Excel, diagrama tip X Y Scatter. Analiza vizuală a organizării şi formei norului de puncte obţinut poate oferi indicii importante asupra relaţiei dintre variabile. Datele vor susţine ipoteza asocierii între variabile, dacă forma norului de puncte se apropie de o curbă dată cu expresie analitică cunoscută. Astfel, se pot aprecia asocieri liniare, curbilinii etc. Dacă în norul de puncte nu se poate distinge o tendinţă, se va spune că variabilele nu sunt corelate. Diversitatea proceselor şi fenomenelor studiate determină obţinerea unei mari diversităţi de tendinţe: liniare şi neliniare (curbilinii). În figurile următoare sunt ilustrate câteva tendinţe ale acestor asocieri. Y Y
X
X
a) asociere liniară pozitivă
Y
b) asociere liniară negativă
Y
X c) fără (nu există) asociere
X d) asociere neliniară (curbilinie)
Fig. 180. Diferite tipuri de asociere pentru variabilele X şi Y
Statistică şi Informatică pentru chimie medicală şi farmaceutică
271
Pentru a sintetiza (estima) modul în care schimbările variabilei Y sunt asociate cu schimbările variabilei X, se utilizează metoda matematică „Metoda celor mai mici pătrate – MCMP” (concepută de Carl Friedrich Gauss, în anul 1795, și publicată de Legendre, 1805). Aplicată în cazurile a) și b), asocierea dintre X şi Y este reprezentată printr-o dreaptă trasată printre punctele diagramei de împrăştiere. Dreapta estimată (dreapta de regresie), notată f(x) = ax + b, unde a și b sunt coeficienți ce urmează a fi determinați/ estimați. În acest caz, aceasta dreaptă este „cea mai bună”, în sensul că exprimă cel mai central drum printre puncte: linia pentru care suma pătratelor distanţelor (pe verticală) dintre puncte şi dreaptă, este minimă.
Y
f(x) = ax + b
X Fig. 181. Dreapta de regresie în cazul a) Distanţele/lungimile yi – f(xi), i=1,…,n sunt considerate ca erori (reziduuri) dintre valorile măsurate şi valorile estimate.
Y
f(x) = ax + b
x1
x2 x3 x4
x5
X
Fig. 182. Valorile măsurate şi valorile estimate. Erorile yi – f(xi), i=1,n Dreapta de regresie f(x) = ax + b realizează valoarea minimă a pătratelor erorilor (parametri dreptei a şi b urmează a fi determinaţi prin MCMP), n
S [ yi f ( xi )]2 , i 1
MARIN VLADA
272
în sensul că orice altă dreaptă produce o sumă de pătrate mai mare. Este de amintit, faptul că o proprietate a mediei aritmetice, este aceea că suma pătratelor diferenţelor de la medie are o valoare minimă. Astfel, se poate spune că după cum media reprezintă punctul de echilibru pentru o distribuţie univariată de scoruri, la fel dreapta de regresie reprezintă punctul de echilibru într-o distribuţie bivariată. Utilitatea dreptei de regresiei este aceea că serveşte ca bază pentru predicţia valorilor lui Y asociate valorilor lui X. În cazul asocierii neliniare (curbilinie), curba care estimează asocierea dintre varabilele Y şi X va fi exprimată prin intermediul unor parametri, care urmează a fi determinați prin MCMP. În practică, în funcţie de natura datelor experimentale şi procesul analizat, trebuie să se determine „evoluţia” procesului pe baza datelor experimentale. Aceasta este reprezentată şi estimată de modele matematice date de funcţii liniare sau neliniare (curbe). Corelaţie, covarianță și abaterile standard – măsuri de asociere a variabilelor Definiție. Coeficientul de corelaţie (Correlation coefficient, Pearson) este o măsură a asocierii liniare dintre două variabile, cu alte cuvinte a gradului în care reprezentarea bivariată sub forma unei diagrame de împrăştiere, se apropie de o dreaptă. Notând cu X şi Y cele două variabile şi cu xi, yi, i=1,…,n, valorile variabilelor, formula de calcul este n
rXY
x
i
i 1
n
x i 1
i
x yi y
,x
n
x yi y 2
2
1 n 1 n x , y i yi . n i 1 n i 1
.
i 1
Coeficientul de corelaţie18 este o valoare din intervalul [–1,+1], cu semnificaţia de asociere pozitivă/negativă, după semnul coeficientului, şi de lipsă de asociere pentru rXY = 0. În Excel, se apelează funcţia CORREL(Array1, Array2), unde Array1, Array2 sunt, respectiv, zonele care conţin valorile celor două variabile (trebuie să aibă, evident, acelaşi număr de valori), adică X şi Y. Definiție. Coeficientul de covarianţă (Covariance) este o măsură a asocierii liniare n
dintre două variabile X şi Y, Cov X , Y
x i 1
i
x yi y n
, unde x şi y reprezintă
mediile vectorilor X şi Y. În Excel, se apelează funcţia COVAR(Array1, Array2), unde Array1, Array2 sunt, respectiv, zonele care conţin valorile celor două variabile (trebuie să aibă, evident, acelaşi număr de valori), adică X şi Y.
18
Conceptul statistic de corelaţie și termenul de „regresie” au fost inventate de către Francis Galton (1822-1911), în secolul al XIX-lea pentru a descrie un fenomen biologic. A promovat pe scară largă regresia folosind conceptul de medie.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
273
Definiție. Abaterile standard (standard deviation) este o măsură a abaterilor valorilor n
unei variabile X față de media valorilor (populație), adică S X
x i 1
i
x
n
2
.
Pentru calculul abaterilor standard SX se apelează funcţia STDEVP(number1, number2, …), number1, number2, … are 1 to 30 number arguments corresponding to a population. Proprietate. Calculul coeficientului de corelaţie al celor doi vectori de date se poate exprima şi folosind formula de mai jos:
rXY
Cov( X , Y ) S X SY ,
unde Cov(X,Y) este covarianţa celor doi vectori X si Y, iar SX , SY sunt abaterile standard pentru X, respectiv Y. Exemplu. Pentru un set de date ce reprezintă valorile a două variabile aleatoare X şi Y, vom calcula în trei moduri coeficientul de corelaţie rXY : a) folosind funcţia CORREL (X,Y) din Excel, b) folosind Excel pentru calculele directe ale formulei de mai sus, şi c) folosind covarianţa COVAR (X,Y) din Excel. Se dau seturile de date X șiY. Tabelul 25. Tabelul valorilor pentru X și Y. Calculul corelației folosind Excel
Varianta a) Varianta b) Varianta c) Corelaţia
Corelaţia Corelaţia Corelaţia
0.775901 0.775901 0.775901
Valori identice!
MARIN VLADA
274 (X,Y) Medie X Medie Y 13.8 10.03771 Suma C Suma D Suma E 57.6555 13 424.7427 Numărător Numitor 57.6555 74.30784 A -1.2 -1.1 -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2
B -9.61406 -8.34566 -7.07439 -5.81329 -4.57554 -3.37425 -2.22234 -1.13243 -0.11667 0.813378 1.646889 2.373869 2.985289 3.473193 3.830792 4.052551 4.134267 4.073128 3.867761 3.518267 3.02624 2.394767 1.628419 0.733221 -0.28339
C 11.53687 9.180231 7.074386 5.231962 3.660432 2.361972 1.333405 0.566217 0.04667 -0.24401 -0.32938 -0.23739 0 0.347319 0.766158 1.215765 1.653707 2.036564 2.320656 2.462787 2.420992 2.15529 1.628419 0.806543 -0.34007
D 1.44 1.21 1 0.81 0.64 0.49 0.36 0.25 0.16 0.09 0.04 0.01 0 0.01 0.04 0.09 0.16 0.25 0.36 0.49 0.64 0.81 1 1.21 1.44
E 92.43017 69.65011 50.04693 33.79435 20.93556 11.38554 4.938799 1.282406 0.013613 0.661584 2.712245 5.635252 8.91195 12.06307 14.67496 16.42317 17.09216 16.59037 14.95957 12.3782 9.158127 5.734909 2.651749 0.537613 0.080312
Vectorii intermediari:
A X X ; B Y Y ; C A B ; D A2 ; E B 2
în cazul a) se apelează funcţia CORREL(Array1,Array2), unde Array1, Array2 sunt, respectiv, zonele care conţin valorile celor două variabile (trebuie să aibă, evident, acelaşi număr de valori), adică X şi Y. Mai jos, este fereastra oferită prin apelul funcţiei CORREL. Se va indica, pe rând, fiecare argument în parte: X și Y. Rezultatul obţinut este următorul: rXY = 0.775901.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
275
în cazul b) trebuie să se realizeze calculul direct, adică este nevoie să se utilizeze 5 vectori A, B, C, D, E definiţi ţinând seama de expresia din formula coeficientului de corelaţie rXY .
Deasupra tabelului de mai sus în care se calculează cei 5 vectori, se calculează valorile intermediare din structura expresiei coeficientului de corelaţie şi se va obţine acelaşi rezultat rXY = 0.775901. C=A*B
A
n
rXY
x i 1
i
B
x yi y
n n 2 2 xi x yi y i 1 i 1
D=A2
,x
1 n 1 n x , y i yi . n i 1 n i 1
E=B2
în cazul c). Calculul coeficientului de corelaţie al celor doi vectori de date se poate exprima, şi folosind formula de mai jos:
rXY
Cov( X , Y ) , S X SY
unde Cov(X,Y) este covarianţa celor doi vectori X și Y, iar SX , SY sunt abaterile standard pentru X, respectiv Y. Avem: n
SX
n
2 xi x i 1
n
şi
SY
y i 1
i
y
n
2
.
În acest fel, şi în cazul c) se va obţine acelaşi rezultat rXY = 0.775901. Pentru diverse probleme complexe care necesită anumite calcule statistice, trebuie să se cunoască şi să se înţeleagă semnificaţia termenilor şi calculelor statistice corespunzătoare, şi apoi să se utilizeze instrumentele statistice (Analysis ToolPak, Analysis ToolPak – VBA, Solver Add-in etc.) oferite de programul Excel. Acest lucru este valabil şi în cazul problemelor ce necesită rezolvarea ecuaţiilor şi a sistemelor. Trebuie să se utilizeze meniul Tools Add-Ins (va apărea submeniul Data Analysis în meniul Tools).
276
MARIN VLADA
4.2 Metoda celor mai mici pătrate (MCMP) Istoricul metodei MCMP (The Method of Least Squares Fitting) În anul 1809, matematicianul german Carl Friedrich Gauss (1777-1855) a publicat metoda lui de calcul a orbitelor corpurilor cerești. În această lucrare el a pretins că a fost în posesia metodei celor mai mici pătrate, începând cu anul 1795 (http://mathworld.wolfram.com/LeastSquaresFitting.html). De obicei, Metoda celor mai mici pătrate (MCMP) este atribuită lui Carl Friedrich Gauss19 (calculul orbitelor corpurilor cerești, anul 1795), dar se ştie, că aceasta a fost publicată, pentru prima dată de Adrien Marie Legendre20, în anul 1805 [Bretscher, O., 1995], iar mai târziu, în anul 1809, și de Carl Friedrich Gauss. Astăzi, pentru această metoda se folosește și denumirea „metoda de regresie”, termenul de „regresie” fiind inventat de către Francis Galton (1822-1911), în secolul al XIX-lea, pentru a descrie un fenomen biologic. De asemenea, a introdus conceptul statistic de corelaţie şi a promovat pe scară largă regresia folosind conceptul de medie [Bulmer M., Francis Galton, 2003]. Definiție. Analiza de regresie (Regression Analysis) este o metodă matematică simplă, concepută pentru investigarea relațiilor dintre două variabile X și Y, variabila Y fiind variabila dependentă de variabila X, acestea descriind un proces sau un fenomen. Pornind de la valorile experimentale ale variabilelor X și Y, metoda are ca scop determinarea unui model liniar sau neliniar, pentru aproximarea evoluției dependenței Y= f(X), funcția f fiind o curbă (nu neapărat o linie dreaptă), care va realiza o aproximare (fitare, fitting) pentru setul de puncte (xi, yi), i=1,n, valorile măsurate ale variabilelor X și Y. Aproximarea cea mai bună este obținută prin criterii optime (goodness-of-fit) și prin alegerea unui model (funcție) cel mai adecvat, conform unui criteriu bine definit. Cel mai frecvent tip de regresie este regresia liniară, dar în natură există și multe alte tipuri de regresii neliniare: polinomiale de grad 2,3, ..., 6, exponențiale, logaritmice, putere etc. Deși, această analiză (metodă) este oferită de Statistică, realizarea unei aplicații de succes privind utilizarea analizei de regresie, necesită un echilibru al rezultatelor teoretice, cu reguli empirice, și cu o judecată subiectivă. Prin analiza de regresie se explică principiile care stau la baza analizei datelor experimentale, subliniind analiza datelor, mai degrabă, decât teoria statistică. Astăzi, această analiză de regresie este actualizată prin progresele recente din domeniu, oferind analize de profunzime privind date de diagnosticare în medicină, sau în alte domenii, analiza seriilor de timp, multicoliniaritate și regresia logistică, acesta întâlnite în mod obișnuit în lumea reală. 19
Carl Friedrich Gauss (1777-1855) - German mathematician who contributed significantly to many fields, including number theory, algebra, statistics, analysis, differential geometry, geodesy, geophysics, mechanics, electrostatics, astronomy, matrix theory, and optics. 20 Legendre, Adrien-Marie (1805), Nouvelles méthodes pour la détermination des orbites des comètes [New Methods for the Determination of the Orbits of Comets] (in French), Paris: F. Didot
Statistică şi Informatică pentru chimie medicală şi farmaceutică
277
Fiecare dintre metodele descrise prin analiza de regresie pot fi efectuate cu pachete software statistice performante și disponibile sub diverse forme. Cele mai frecvente sunt oferite de programul Excel prin „Add Tredline” (Regession type).
Fig. 183. Fereastra „Add Tredline” (Regession type) oferită de Excel Metoda – Formularea problemei Definiție. Fiind date valorile observate/măsurate pentru două variabile aleatoare X şi Y, variabila Y dependentă (variabilă-efect) de variabila X (variabilă-cauză), fie acestea (xi,yi), i=1,…,n. Prin funcţie de regresie /model matematic se va înţelege acea funcţie unidimensională, Y = f(X) care aproximează cel mai bine setul de date observate, unde f: DX DY, DX este domeniul de valori pentru X, iar DY este domeniul de valori pentru Y. De regulă, criteriul ales este dat de metoda celor mai mici pătrate (MCMP), adică acea funcţie f pentru care se minimizează suma pătratelor erorilor dintre valorile măsurate şi cele estimate (procedeu de fitare), adică suma n
S [ y i f ( xi )] 2 . i 1
Dacă f este o funcţie liniară (model liniar), atunci se obţine regresia liniară, reprezentată grafic printr-o dreaptă (dreapta de regresie). Dreapta de regresie, împreună cu abaterile standard ale variabilelor X şi Y, sau cu coeficientul de corelaţie, pot constitui o rezumare rezonabilă a distribuţiei comune a celor două variabile X și Y. Descrierea modelului liniar este mai bună atunci când diagrama de împrăştiere are formă de elipsă.
MARIN VLADA
278
Dacă f este o funcţie neliniară (model neliniar), atunci se obţine regresia neliniară, reprezentată grafic printr-o curbă (curba de regresie): polinom de gradul 2, 3, ..., exponețială, logaritmică, putere, sinusoidă etc. Distanţele/lungimile yi – f(xi), i=1,…,n sunt considerate ca erori (reziduuri) dintre valorile măsurate şi valorile estimate. f(x) – funcție ce estimează evoluția procesului
Y
x1 x2
x3
x4
x5
X
Fig. 184. Valorile măsurate şi valorile estimate, Erorile/Distanţele yi – f(xi), i=1,n Dependenţa funcţională a unei variabile aleatoare Y (dependentă-efect) faţă de altă variabilă X (independentă-cauză) poate fi studiată empiric, pe cale experimentală, efectuîndu-se o serie de măsurări asupra variabilei Y pentru diferite valori ale variabilei X. Rezultatele se pot prezenta sub formă de tabel sau grafic. Problema care apare în acest caz, este de a găsi reprezentarea analitică a dependenţei funcţionale căutate (procedeu de fitare), adică de a alege o expresie (formulă sau model matematic) care să descrie rezultatele experimentului printr-un model matematic. Formula (modelul matematic-expresia analitică) se alege dintr-o mulţime de formule determinate (modele de aproximare liniare și neliniare), de exemplu: y = ax + b (dreapta),
y = ax2 + bx + c (parabola),
y = ax3 + bx2 + cx + d (polinom gradul 3),
y = ax4 + bx3 + cx2 + dx + e (polinom gradul 4),
y = a + b ln x (logaritm),
y = aebx (exponenţiala),
y = a / ( 1 - c e-bx ) (scădere exponențială); y = a / ( 1 + c e-bx ) (logistic),
y = a exp(-(x- c)/ b)2 (modelul gaussian)
y = a xb (putere),
y = a sin( bx + c) + d (sinusoida).
Statistică şi Informatică pentru chimie medicală şi farmaceutică
279
Pin urmare, problema constă în a determina parametrii a, b, c etc., în timp ce formula (expresia analitică) este cunoscută dinainte, ca urmare a unor considerente teoretice sau după forma prezentării grafice a datelor, în mod empiric. Să considerăm, cazul general, când funcția f se definește cu p parametri necunoscuți, şi astfel vom nota dependenţa funcţională prin y = f(x; a1, a2, …, ap). Parametrii a1, a2,…, ap nu se pot determina exact, pe baza valorilor empirice y1, y2,…,yn ale funcţiei, deoarece acestea din urmă conţin erori aleatoare. Problema reprezintă obţinerea unei estimări „suficient de bune”. Dacă toate măsurările valorilor varabilei Y sunt y1, y2,…,yn, atunci estimaţiile parametrilor a1, a2,…, ap se determină din condiţia ca suma pătratelor abaterilor valorilor măsurate yk , față de cele calculate f(xk; a1, a2,…, ap), să ia valoarea minimă (Legendre, 1805), adică sa fie minimă expresia (funcția S(a1, a2,..., ap) fiind considerată o funcție cu p variabile, S: Rp R): n
S [ y k f ( xk ; a1 , a2 ,..., a p )]2 . k 1
Consideraţia formulată se păstrează şi în general, pentru determinarea parametrilor unei funcţii f, de mai multe variabile (2, 3 etc.), adică Z, o variabilă dependentă (efect) şi mai multe variabile independente (cauze). De exemplu, pentru variabila Z (efect), care depinde de două variabile independente (cauze) X şi Y, adică Z=f(X,Y), estimaţiile parametrilor a0, a1,…, ap se determină din condiţia ca expresia n
S [ z k f ( xk , y k ; a1 , a2 ,..., a p )]2 să fie minimă. k 1
Determinarea valorilor parametrilor a1, a2,..., ap, se face prin aplicarea condiţiilor de obtinere a valorii minime, în derivatele parţiale ale funcţiei S, considerată în variabilele a1, a2,..., ap , adică funcţia cu p variabile S(a1, a2,..., ap). Deoarece valorile (xi ,yi), i=1,..., n sunt cunoscute, expresia S este de fapt, o functie de p variabile, S(a1, a2,..., ap), unde S: Rp R. Din analiza matematică, se cunoaște faptul că determinarea extremelor funcției S, și anume, căutarea valorilor necunoscute a1, a2,..., ap, pentru care S(a1, a2,..., ap) atinge valoarea minimă, se realizează prin sistemul de ecuații în care derivatele parțiale ale lui S sunt nule. Determinarea acestor valori înseamnă rezolvarea sistemului de p ecuaţii cu p necunoscute:
S S S 0. 0 ,…, 0, a p a 2 a1
Referințe 1. M. Vlada, Informatică aplicată. Modele de aproximare, software şi aplicaţii, Editura Universităţii din Bucureşti, 2012. 2. Chatterjee, S., Hadi, A. and Price, B., Regression Analysis by Example, 3rd ed. New York: Wiley, 2000. 3. Larry, D. Schroeder, David, L. Sjoquist, Paula, E. Stephan, Understanding Regression Analysis: An Introductory Guide, 2nd Edition, SAGE Publications, 2017.
MARIN VLADA
280
4.3 Modele liniare. Dreapta de regresie Regresia liniară (Linear Regression) În cazul modelului liniar (cel mai simplu) se studiază numai două variabile X (cauză), Y (efect), şi se doreşte găsirea dependenţei Y = f(X), unde f(x) = ax + b este o dependenţă liniară (funcţie de gradul I), cu 2 parametrii a şi b. Teoremă. Dacă pentru variabilele X (cauză), Y(efect) se cunosc n probe (măsurări, observaţii) prin valorile datelor (xi ,yi), i=1,..., n, modelul liniar f(x)= a x+ b este determinat de coeficienţii a și b, având următoarele expresii:
a n
x y i 1
i
i
Sx S y nSxy (Sx ) nSxx 2
n
x
Sxy
i 1
2 i
Sxx
1 S y aS x n
şi b n
x i 1
i
Sx
n
y i 1
i
Sy .
Demonstraţie. În urma celor n probe (măsurări, observaţii) se cunosc datele (xi ,yi), i=1,..., n şi trebuie să se determine coeficienţii a şi b, astfel încât suma n
S y i (ax i b) să fie minimă. 2
i 1
Y
f(x) = ax + b
x1
x2 x3 x4
x5
X
Fig. 185. Erorile/Distanţele yi – f(xi), i=1,n Deoarece valorile (xi ,yi), i=1,..., n sunt cunoscute, expresia S este o functie de 2 variabile, S(a,b), unde S: R2 R. Din analiza matematică, se cunoaște faptul că determinarea extremelor funcției S, și anume, căutarea valorilor necunoscutele a și b, pentru care S(a,b) atinge valoarea minimă, se realizează prin sistemul de ecuații în care derivatele parțiale ale lui S sunt nule. Condiţiile de obţinere a parametrilor a şi b sunt:
Statistică şi Informatică pentru chimie medicală şi farmaceutică
S a 0 S 0 b
281
, ceea ce conduce la sistemul de 2 ecuaţii cu 2 necunoscute:
n 2 y i (ax i b)( x i ) 0 i 1 n 2 y (ax b) 0 i i i 1
n n n 2 2 x i y i 2 ax i 2 bx i 0 i 1 i 1 i 1 n n n 2 y 2 ax 2 b 0 i i i 1 i 1 i 1
Se notează: n
n
x i y i Sxy
x2i Sxx
i 1
i 1
n
n
x i Sx
y
i 1
i 1
i
Sy
și sistemul de ecuaţii devine:
Sxy aSxx bSx 0 . S aS nb 0 y x Se obţin următoarele expresii pentru cei doi coeficienți a şi b:
a
Sx S y nSxy
(Sx ) nSxx 2
şi b
1 S y aS x n
Cei doi parametri ai funcţiei model f(x) = ax + b reprezintă: a – panta dreptei de regresie, adică a=tg(α), unde α este unghiul dintre graficul funcţiei f şi axa OX (axa absciselor); b – valoarea pe axa OX unde graficul funcţiei f intersectează axa OY (axa ordonatelor). Trebuie să facem observaţia că indiferent de gradul de împrăştiere al punctelor, întotdeauna se poate găsi o dreaptă de regresie, dar în cazul unei dispersii mari aceasta devine inutilă. De aceea, un studiu preliminar al distribuţiei punctelor (norul de puncte) se impune cu necesitate. Definiție. Coeficientul de determinare R2 (R-squared value on chart) pătratul coeficientului de corelaţie multiplă, exprimă calitatea unei drepte de regresie privind performanța modelarii observațiilor (calitatea fitării). Acest coeficient are valori în intervalul [0,1] şi se calculează cu relaţia: n
R2 1
[ yi f ( xi )]2 i 1
n
[ y i 1
i
y]
2
n
sau R 2 1
[ y i 1
i
f ( xi )]2
1 n n f ( xi ) f ( xi ) i 1 i 1 n
2
.
Valoarea 1 pentru acest coeficient are semnificaţia că funcţia model f explică întreaga variabilitate (dependență) a lui Y, iar valoarea 0, are semnificaţia că nu există nici o relaţie liniară între variabila Y şi variabila X. O valoare de 0,5 a lui R2 poate fi
MARIN VLADA
282
interpretată, în sensul că aproximativ 50% din variaţia variabilei Y poate fi determinată de către variabila independentă X. Definiție. Indicatorul RMSE (Root Mean Square Error) sau RMSD (Root Mean Square Deviation), eroarea medie pătrată a rădăcinii sau deviația medie pătrată, este unul dintre cei mai utilizați indicatori statistici în domeniile Meteorologie, GIS (Geographic Information System) etc. Indicatorul RMSE măsoară cât de mare este eroarea ce există între două seturi de date, care compară o valoare estimată cu o valoare observată sau cunoscută. Dacă valorile observate/cunoscute sunt date de variabila Y ( yi ) i 1,n și valorile estimare sunt Yˆ ( yˆ i ) i 1,n , atunci formula pentru acest indicator este:
RMSE
1 n ( yi yˆ i ) 2 . n i 1
De exemplu, un punct de altitudine LiDAR – Light Detection and Ranging, (valoarea estimată) poate fi comparat cu o măsurare realizată la sol (valoarea observată).
Fig. 186. LiDAR. Sursa: http://gisgeography.com/lidar-light-detection-and-ranging/ Din studiile realizate folosind indicatorul RMSE se constată ca erorile sunt imparțiale și urmează o distribuție normală Gauss. Vom exemplifica acest aspect printr-o aplicație. Aplicație. Vom presupune datele valorilor măsurate (xi ,yi), i=1,..., n corespunzătoare variabilelor X și Y, cu dependența Y =f(X), de la secțiunea următoare „Exemple şi aplicaţii practice”, pag. 285. În urma utilizarii programului Excel și apariţiei graficului (determinarea modelului liniar), care reprezintă dreapta de regresie, se obţin următoarele rezultate: y = f(x) = -83.636x + 1317.6, a = -83.636, b = 1317.6 și R2 = 0.999. Prin urmare, vom considera ca valorile estimate pentru Y sunt valorile f(yi), i=1,..., n, și să calculăm pentru această estimare indicatorul RMSE.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
283
Tabelul 26. Pătratele abaterilor față de valorile estimate X Y f(X) [Y-f(X)]^2 0,1
1310
1309,236
0,583085
0,2
1300
1300,873
0,76178
0,3
1293
1292,509
0,240885
0,4
1283
1284,146
1,312399
0,5
1276
1275,782
0,047524
0,6
1267
1267,418
0,175059
0,7
1260
1259,055
0,893403
0,8
1251
1250,691
0,095357
0,9
1243
1242,328
0,452122
1
1233
1233,964
0,929296
Fig. 187. Norul de puncte pentru erori Vom verifica dacă erorile urmează o distribuție normală Gauss. Pentru valorile (yi), i=1,..., n vom calcula: probability density function (PDF), NORMDIST (y, mean, standard_dev, FALSE) cumulative distribution function (CDF), NORMDIST (y, mean, standard_dev,TRUE), unde mean=AVERAGE(Y) și standard_dev = STDEV(Y).
MARIN VLADA
284
Tabelul 27. Calculul valorilor PDF și CDF [Y-f(X)]^2 PDF CDF =NORMDIST(F32;F$44; 1310 0,583085 0,004989 0,935298 H$44;FALSE) 1300 0,76178 0,0084 0,868972
Y
1293
0,240885 0,011024
0,800974
1283
1,312399 0,014236
0,673714
1276
0,047524 0,015519
0,56897
1267
0,175059 0,015497
0,427922
1260
0,893403 0,014185
0,323438
1251
0,095357 0,011316
0,207958
1243
0,452122 0,008325
0,129352
1233
0,929296
0,063708
0,00493
=NORMDIST(F32;F$44; H$44;TRUE)
Fig. 188. Densitatea de probabilitate (PDF)
Statistică şi Informatică pentru chimie medicală şi farmaceutică
285
Fig. 189. Funcția de repartiție. Distribuția cumulativă (CDF) Referințe 1. Root Mean Square Error RMSE in GIS , http://gisgeography.com/root-mean-square-error-rmse-gis/ 2. T. Chai and R.R. Draxler, Root mean square error (RMSE) or mean absolute error (MAE)?Arguments against avoiding RMSE in the literature Geosci. Model Dev. 7, 1247-1250, 2014, http://www.statisticshowto.com/rmse/ 4. RMSE: Root Mean Square Error, http://www.statisticshowto.com/rmse/ 5. Chapter 9, the SD of the Prediction Errors (RMSE), University of Illinois, http://www.stat. illinois.edu/courses/stat100/Notes/Chap9.pdf
Exemple şi aplicaţii practice Folosind programul Excel să se determine drepta de regresie pentru două variabile X şi Y (de exemplu, în cadrul unui proces electric: variabila intensitate I(mA) şi variabila Tensiune U(mV) ce depinde de aceasta) şi să se obţină calitatea aproximării (fitării) prin calculul coeficientului de determinare R2. Într-o foaie de calcul Excel, să presupunem că apar valorile măsurate pentru variabilele X şi Y. Pentru obţinerea dreptei de regresie şi a coeficientului de determinare R2 , trebuie să se parcurgă următorii 2 paşi: Pasul 1. Reprezentarea norului de puncte (diagrama de împrăştiere) pentru variabilele X şi Y. Pentru acest lucru trebuie să se selecteze valorile aflate în cele 2 coloane ale celor 2 variabile, se acţionează Insert Chart şi se alege tipul de grafic XY (Scatter) (Standard Types), de unde din cele 5 variante de grafice, se optează pentru prima variantă (Scatter-Compares pairs of values); se parcurg etapele pentru a genera graficul respectiv (acesta apare în fig. 190).
MARIN VLADA
286 Dreapta de regresie 1320 1310 1300 1290
Y
1280 1270
Y
1260 1250 1240 1230 1220 0
0.2
0.4
0.6
0.8
1
1.2
X
Fig. 190. Alegerea graficului de tip XY (Scatter) (norul de puncte) Pasul 2. Determinarea şi reprezentarea dreptei de regresie. Se selectează graficul obţinut la pasul 1 (norul de puncte) şi se acţioneaza Chart Add Trendline, de unde se alege tipul Linear (Standard Types). Eticheta Add Trendline Options este prezentată în figura următoare (fig. 191) şi permite definirea altor atribute ale Liniei de trend: Display equation on chart – marcarea boxei de control are efectul trecerii pe grafic a ecuaţiei estimate, Display R-squared value on chart – este utilă pentru afişarea coeficientului de determinare R2 (pătratul coeficientului de corelaţie multiplă).
Desplay -Ecuation -R-squared value
Fig. 191. Alegerea modelului şi opțiunilor pentru display
Statistică şi Informatică pentru chimie medicală şi farmaceutică
287
În urma apariţiei graficului, care reprezintă dreapta de regresie, se obţin următoarele rezultate: și R2 = 0.999.
y = f(x) = -83.636x + 1317.6, a = -83.636, b = 1317.6
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Y 1310 1300 1293 1283 1276 1267 1260 1251 1243 1233
Dreapta de regresie 1320 y = -83.636x + 1317.6 R2 = 0.999
1310 1300 1290 1280
Y
X
Series1
1270
Linear (Series1)
1260 1250 1240 1230 1220 0
0.2
0.4
0.6
0.8
1
1.2
X
Fig. 192. Setul de valori şi dreapta de regresie (modelul liniar) Trebuie să precizăm că programul Excel oferă prin Trendline mai multe tipuri de regresii (modele liniare şi neliniare): Linear – modelul liniar (regresia simplă) y = a + bx. Polynomial – modelul polinomial de ordin 2, 3, 4, 5 sau 6. y a0 a1 x a2 x 2 ak x k .
Logarithmic – modelul logaritmic y = a + b ln x. Exponential – modelul exponenţial y = aebx Power – modelul putere y = a xb. Moving Average – modelul de tip MA (medii glisante), în care se calculează o serie nouă cu valori obţinute ca medie aritmetică a valorilor din seria iniţială: yn = (xn + xn-1 + … + xn-k+1)/k, unde k este ordinul modelului. Este modelul prin care se elimină influenţele pe termen foarte scurt sau scurt. Pentru o alegere corectă, se poate utiliza informaţia cunoscută din cercetări anterioare, sau cea furnizată vizual de aspectul norului de puncte.
Exemplu. Pentru dozarea unui antibiotic într-un lichid biologic, se propun două metode: o metodă radio-imunologică (R-I) şi o metodă imuno-enzimatică (I-E). Se se realizeze testarea comparativă a celor două metode. Datele pentru cele două metode sunt prezentate în tabelul de mai jos (fig. 193): coeficientul de corelaţie între vectorii R-I (X) şi I-E (Y), dreapta de regresie şi coeficientul de determinare.
MARIN VLADA
288
Coeficientul de corelaţie se obţine apelând funcţia Excel CORREL (X,Y) = 0.964795. În urma apariţiei graficului, care reprezintă dreapta de regresie, se obţin următoarele rezultate: y = f(x) = 0.8983 x + 0.146, a = 0.8983, b = 0.146 și R2 = 0.9308. Y Comparatia metodelor R-I si I-E 0.60 0.67 4 1.08 3.5 1.25 3 1.44 2.5 1.53 1.96 2 2.21 1.5 2.23 1 2.44 0.5 2.95 0 2.25 0 1 2 3 3.71 Metoda R-I: X 3.46 Fig. 193. Norul de puncte – grafic tip X Y (Scatter) Metoda I-E: Y
X 0.56 0.65 1.11 1.29 1.42 1.52 1.84 2.18 2.19 2.40 3.01 3.21 3.57 3.70
Series1
4
Comparatia metodelor R-I si I-E 4 y = 0.8983x + 0.146 R2 = 0.9308
3.5
Metoda I-E: Y
3 2.5 Series1
2
Linear (Series1)
1.5 1 0.5 0 0
1
2
3
4
Metoda R-I: X
Fig. 194. Dreapta de regresie - Trendline Linear, R2 = 0.9308 Exemplu. Se presupune că se dau măsurări (observaţii) ale variabilei dependente Y faţă de variabila X. Să se determine modelele: exponenţial şi logaritmic.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
289 Domeniul valorilor X Y
Rezolvare: Modelul exponenţial: y = 48.336e0.0836x, R2 = 0.876 ; Modelul logaritmic: y = 18.505Ln(x) + 47.345, R2 = 0.6989
Fig. 195. Modelul exponenţial
1 2 3 4
60 50 60 70
5 6 7
70 80 90
8
95
Fig. 196. Modelul logaritmic
4.4 Modele neliniare. Metoda regresiei De regulă, multe modele sunt liniare, dar în natură sunt multe procese și fenomene care au o evoluție neliniară. Astfel de probleme apar în chimie, biologie şi medicină, în fizică şi geologie, în economie şi sociologie etc. Pentru studierea şi analiza proceselor şi fenomenelor aceste activităţi reclamă metode şi tehnici valide şi eficiente, astfel că modele utilizate să elimine căt mai mult incertitudinile şi aproximările. Regresia neliniară (Nonlinear Regression) Date fiind valorile observate pentru două variabile aleatoare X şi Y, fie acestea (xi,yi), i=1,…,n, prin funcţie de regresie se va înţelege acea funcţie Y = f(X) care aproximează cel mai bine setul de date observate. De regulă, criteriul ales este dat de metoda celor mai mici pătrate (MCMP), adică acea funcţie f pentru care se minimizează suma patratelor erorilor între valorile măsurate şi cele estimate (procedeu de fitare), adică suma: n
S [ yi f ( xi )]2 . i 1
MARIN VLADA
290
Dacă f este o funcţie neliniară, atunci se obţine regresia neliniară, reprezentată grafic printr-o curba de regresie. Modelul logaritmic Modelul logaritmic f(x)= a +b ln(x) În cazul modelului logaritmic se studiază numai două variabile X (cauză), Y(efect) şi se doreşte găsirea dependenţei Y = f(X), unde f(x) = a + b lnx este o dependenţă neliniară (funcţie logaritmică), cu p=2 parametri a şi b. Teoremă. Dacă pentru variabilele X (cauză), Y(efect) se cunosc n probe (măsurări, observaţii), prin valorile datelor (xi ,yi), i=1,..., n, modelul logaritmic f(x)= a + b ln(x) este determinat de coeficienţii a și b având următoarele expresii:
n n n n yi (ln xi )2 ln xi yi ln xi i 1 i 1 a i 1 i 1 2 n n n (ln xi )2 ln xi i 1 i 1
b
n
n
i 1
i 1
yi ln xi a ln xi n
(ln x )
2
i
i 1
n
sau b
y i 1
i
na .
n
ln x i 1
i
Demonstraţie. În urma celor n probe (măsurări, observaţii) se cunosc datele (xi ,yi), i=1,..., n, şi trebuie să se determine coeficienţii a şi b astfel încât suma n
S (a, b) [ yi (a b ln xi )]2 i 1
să fie minimă. Vom avea următoarele calcule:
[ yi (a b ln xi )] 2 a 2 2ab ln xi 2ayi 2byi ln xi b 2 (ln xi ) 2 yi , 2
prin urmare, n
S (a, b) [ yi (a bLn xi )] 2 i 1
n
n
n
n
i 1
i 1
i 1
i 1
n
na 2 2ab ln xi 2a yi 2b yi ln xi b 2 ln xi yi2 . 2
Statistică şi Informatică pentru chimie medicală şi farmaceutică
291
Derivatele parţiale ale funcţiei S(a,b) sunt: n n S 2na 2b ln xi 2 y i a i 1 i 1 n n n S 2a ln xi 2 ( y i ln xi ) 2b (ln xi ) 2 . b i 1 i 1 i 1
Condiţiile de determinare a parametrilor a şi b sunt:
S a 0 , ceea ce conduce la sistemul de 2 ecuaţii cu 2 necunoscute: S 0 b n
n
2na 2b ln xi 2 y i 0 i 1
i 1
n
n
n
i 1
i 1
i 1
2a ln xi 2 ( y i ln xi ) 2b (ln xi ) 2 0
Pentru rezolvarea acestui sistem se înmulţeşte prima ecuaţie cu expresia n
(ln xi ) 2 , iar a doua ecuaţie cu expresia i 1
n
ln x i 1
i
, după care din prima ecuaţie se scade
a doua ecuaţie. Se va obţine următoarea ecuaţie: n
n
n
n
n
n
i 1
i 1
i 1
i 1
i 1
i 1
2na (ln xi ) 2 2a( ln xi ) 2 2 ( y i ln xi )( ln xi ) 2( y i ) (ln xi ) 2 0 , n
n
n
n
( y i ) (ln xi ) ( ln xi )( y i ln xi ) 2
a
i 1
i 1
i 1
n
i 1
,
n
n (ln xi ) ( ln xi ) 2
i 1
2
i 1
şi prin urmare, din a doua ecuaţie, respectiv prima ecuaţie, avem determinat coeficientul b: n
b
y i 1
n
i ln xi a ln xi i 1
n
(ln x ) i 1
i
2
n
sau b
y i 1
i
na .
n
ln x i 1
i
MARIN VLADA
292 Aplicaţie. Pentru variabilele X și Y avem următoarele măsurări (observaţii): Tabelul 19. Valorile măsurate pentru variabilele X și Y X Y 0.1 1310 0.2 1300 0.3 1293 0.4 1283 0.5 1276 0.6 1267 0.7 1260 0.8 1251 0.9 1243 1 1233
Pentru a realiza calculul direct al coeficienţilor a şi b, conform teoremei, vom realiza în Excel, calculele din tabelul de mai jos: Tabelul 20. Calcule pentru coeficienții modelului logaritmic X Y Ln X Y ln X (lnX)2 0.1 1310 -2.30259 -3016.39 5.301898 0.2 1300 -1.60944 -2092.27 2.59029 0.3 1293 -1.20397 -1556.74 1.449551 0.4 1283 -0.91629 -1175.6 0.839589 0.5 1276 -0.69315 -884.456 0.480453 0.6 1267 -0.51083 -647.216 0.260943 0.7 1260 -0.35667 -449.41 0.127217 0.8 1251 -0.22314 -279.153 0.049793 0.9 1243 -0.10536 -130.963 0.011101 1 1233 0 0 0 Suma 12716 -7.92144 -10232.2 11.11083
În celula B44, de exemplu, se scrie formula: „=(B41*E41-C41*D41) /(10*E41-C41*C41)”; pentru calculul expresiei lui a, iar în celul B45 se scrie formula: „=(B41-10*B44)/C41”; pentru calculul, expresiei lui b (a doua expresie). Se obţin următoarele valori: a = 1245.508 și b = -32.9391, f(x)= 1245.508 -32.9391 ln(x), R2 = 0.9083.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
293
1330 y = -32.939Ln(x) + 1245.5 R2 = 0.9083
1320 1310 1300 1290 1280
Series1
1270
Log. (Series1)
1260 1250 1240 1230 1220 0
0.2
0.4
0.6
0.8
1
1.2
Fig. 197. Curba exponențială obținută cu Excel Mai jos este o captură de ecran cu prelucrările realizate în programul Excel (valorile pentru a şi b obţinute, conform teoremei, sunt identice cu valorile obţinute prin aplicarea modelului logaritmic dat de programul Excel):
Fig. 198. Foaia de calcul din programul Excel
MARIN VLADA
294 Modelul exponenţial Modelul exponenţial f(x)= aebx
În cazul modelului exponenţial se studiază numai două variabile X (cauză), Y(efect), şi se doreşte găsirea dependenţei Y = f(X), unde f(x) = a ebx, este o dependenţă neliniară (funcţie exponenţială) cu p=2 parametri, a şi b. Teoremă. Dacă pentru variabilele X (cauză), Y(efect) se cunosc n probe (măsurări, observaţii), prin valorile datelor (xi ,yi), i=1,..., n, modelul exponenţial f(x) = a ebx este determinat de coeficienţii a şi b, având următoarele expresii:
b
n
n
n
i 1
i 1 n
i 1 n
xi ln yi n ( xi ln yi ) ( xi ) 2 n xi i 1
n
( xi ln yi ) b xi i 1
sau p
i 1
i 1
n
2
n
x
2
i 1
n
p
şi a= ep , unde
n
ln yi b xi i 1
i 1
n
.
i
Demonstraţie. În urma celor n probe (măsurări, observaţii), se cunosc datele (xi ,yi), i=1,..., n, şi trebuie să se determine coeficienţii a şi b astfel încât suma, n
S (a, b) [ yi a e bxi ]2 i 1
să fie minimă. Analog, calculelor de la teorema precedentă se poate realiza demonstraţia pentru determinarea coeficienţilor a şi b. Calcululee şi rezolvarea sistemului de ecuaţii sunt mai laborioase. În cele ce urmează, vom aplica o altă metodă, şi anume, vom face transformările necesare pentru a aplica modelul liniar. De aceea, datele celor două variabile X şi Y, (xi ,yi), i=1,..., n, vor fi transformate astfel (xi , lnyi), i=1,..., n, iar modelul exponenţial va fi transformat într-un model liniar astfel: g(x) = ln(f(x), adică g(x) = bx + lna, prin urmare, este vorba de un model liniar g(x) cu coeficienţii b (panta) şi lna (termenul liber), care trebuie aplicat datelor (xi , lnyi), i=1,..., n. Din acest motiv, în expresiile coeficienţilor, obținute pentru modelul liniar, se va substitui yi cu lnyi . Să presupunem că
Statistică şi Informatică pentru chimie medicală şi farmaceutică
295
modelul liniar căutat, este notat cu h(x) = x + , atunci, dacă expresiile pentru coeficienţii şi sunt determinate, pentru modelul iniţial (exponenţial), avem: b = şi a = e . Dacă vom considera un model liniar , notat prin h(x) = ax + b (pentru comoditate a nu se confunda coeficienţii a şi b cu cei de la funcţia g), sistemul de ecuaţii ce rezultă din anularea derivatelor parţiale ale modeluluil h (dreapta de regresie), conduce la următoarele:
n 2 y i (ax i b)( x i ) 0 i 1 n 2 y (ax b) 0 i i i 1
n n n 2 2 x y 2 ax 2 bx i 0 i i i i 1 i 1 i 1 n n n 2 y 2 ax 2 b 0 i i i 1 i 1 i 1
Se notează: n
x y i 1
i
Sxy
i
n
x i 1
Sxx
2 i
n
x i 1
Sx
i
n
y i 1
i
Sy
,
iar sistemul de ecuaţii devine:
Sxy aSxx bSx 0 . S aS nb 0 x y Se obţin următoarele expresii pentru cei doi parametri a şi b:
a
Sx S y nSxy
(Sx ) nSxx 2
şi b
S aS xx 1 S y aS x sau b xy . n Sx
Cei doi parametri ai funcţiei model h(x) = ax + b s-au obţinut pentru datele (xi ,yi), i=1,..., n, de aceea, prin substituirea yi cu lnyi vom obţine: n
a
n
x ln y n ( x ln y ) i 1
i
n
n
i 1
i
i 1
2
i
i
2 xi n xi i 1 i 1 n
n
, b
( x ln y ) a x i 1
i
i
i 1
n
x i 1
n
b
n
2 i
sau
i
n
ln yi a xi i 1
i 1
n
Concluzie. În cazul modelului exponenţial pentru datele (xi ,yi), i=1,..., n, trebuie să se determine coeficienţii a şi b, prin transformări asupra datelor iniţiale şi asupra modelului exponenţial, pentru a se aplica modelul liniar. Se vor urma următoarele etape: 1. datele celor două variabile X și Y, (xi ,yi), i=1,..., n, vor fi transformate, astfel: (xi , lnyi), i=1,..., n; 2. modelul exponenţial va fi transformat într-un model liniar, astfel: g(x) = ln(f(x) = bx + lna;
MARIN VLADA
296
3. se determină modelul liniar, notat cu h(x) = x + , care se aplică datelor transformate; 4. coeficienţii b şi a sunt determinaţi pentru modelul iniţial (exponenţial), folosind relaţiile b = şi a = e. Aplicaţie. Vom aplica modelul exponenţial pentru variabilele X şi Y de mai sus. Tabelul 28. Transformarea (logaritmarea) valorilor variabilei Y X Y Ln Y 0.1 1310 7.177782 0.2 1300 7.17012 0.3 1293 7.16472 0.4 1283 7.156956 0.5 1276 7.151485 0.6 1267 7.144407 0.7 1260 7.138867 0.8 1251 7.131699 0.9 1243 7.125283 1 1233 7.117206 Conform pasului 3 se aplică modelul liniar datelor transformate şi astfel se obţine y = -0.0658x + 7.184, coeficientul de determinare R2 = 0.999. La pasul 4, coeficienţii a şi b sunt determinaţi pentru modelul iniţial (exponenţial), folosind relaţiile b = şi a = e, adică b = –0.0658 şi a = e7.184 = 1318.218. 7.19
y = -0.0658x + 7.184 R2 = 0.999
7.18 7.17 7.16 Series1
7.15
Linear (Series1)
7.14 7.13 7.12 7.11 0
0.2
0.4
0.6
0.8
1
1.2
Fig. 199. Modelul liniar folosit pentru modelul exponenţial
Statistică şi Informatică pentru chimie medicală şi farmaceutică
297
Pentru a argumenta şi compara rezultatele obţinute, conform etapelor de mai sus, vom aplica modelul exponenţial datelor iniţiale (xi ,yi), i=1,..., n, cu ajutorul programului Excel, şi astfel se obţine: y = 1318.2e-0.0658x, coeficientul de determinare R2 = 0.999. 1320 y = 1318.2e-0.0658x R2 = 0.999
1310 1300 1290 1280
Series1
1270
Expon. (Series1)
1260 1250 1240 1230 1220 0
0.2
0.4
0.6
0.8
1
1.2
Fig. 200. Curba exponențială obținută cu programul Excel Pentru a realiza calculul direct al coeficienţilor a şi b, conform teoremei, vom realiza în Excel, calculele din tabelul de mai jos: Tabelul 29. Calculul direct al coeficienților pentru modelul exponenţial X 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 5.5
Y 1310 1300 1293 1283 1276 1267 1260 1251 1243 1233 12716
Ln Y X^2 XLnY 7.177782 0.01 0.717778 7.17012 0.04 1.434024 7.16472 0.09 2.149416 7.156956 0.16 2.862783 7.151485 0.25 3.575743 7.144407 0.36 4.286644 7.138867 0.49 4.997207 7.131699 0.64 5.705359 7.125283 0.81 6.412755 7.117206 1 7.117206 71.47853 3.85 39.25891
MARIN VLADA
298
Pentru calculul expresiei coeficientului b, în celula C45, se scrie formula „=(A43*C43-10*E43)/(A43*A43-10*D43)”, iar pentru calculul expresiei coeficientului a, în celula C46, se scrie formula „=EXP((E43-C45*D43)/A43)”, respectiv, în celula D46, se scrie formula „=EXP((C43-C45*A43)/10)”: b a
−0.06579 1318.218 1318.218
Mai jos (fig. 201), este captura ecranului cu prelucrările realizate în programul Excel (valorile pentru a şi b obținute, conform teoremei, sunt identice cu valorile obţinute, prin aplicarea modelului exponenţial oferit de programul Excel):
Fig. 201. Foaia de calcul din Excel Tipuri de modele exponenţiale În practică, la studiul diverselor procese şi fenomene, apare o mare varietate de modele exponenţiale. Diversitatea acestor modele neliniare este funcţie de varietatea domeniile: chimie, fizică, medicină, biologie, sociologie, economie etc. Mai jos, prezentăm câteva din aceste modele exponenţiale (Fig. 202, 203, 204).
Statistică şi Informatică pentru chimie medicală şi farmaceutică
f(x) = a ebx , b > 0, Exponential Growth
f(x) = a ebx , b< 0, Exponential Decay
Fig. 202. Forma exponențială convexă (crescătoare și descrescătoare)
f(x) = a(1- ebx ) b < 0, Exponential Decay
f(x) = a/(1+ c ebx ) b < 0, Logisitics Growth Model
Fig. 203. Forma exponențială concavă (crescătoare) și forma de creșterea logistică
299
MARIN VLADA
300
f(x) = (ak1/(k1 – k2))(e-K2 x – e-K1 x), f(x) = a exp(-(x- c)2/ b2), Absortion-Elimination Model (Bateman) Gaussian Model Fig. 204. Modelul de tip Gauss și modelul de absorbție – eliminare Aplicaţie. Să se determine modelul exponenţial, pentru variabilele X (cauză, Timp), Y (efect, Temperatură), cănd se cunosc n=14 probe (măsurări, observaţii), prin valorile datelor (xi ,yi), i=1,..., n, modelul exponenţial fiind f(x) = a ebx , determinat de coeficienții a şi b. Tabelul 30. Tabelul măsurărilor pentru cele două variabile Timp (min) 0 5 8 11 15 18 22 25 30 34 38 42 45 50
Temp ( º F) 179.5 168.7 158.1 149.2 141.7 134.6 125.4 123.5 116.3 113.2 109.1 105.7 102.2 100.5
Prin utilizarea programului Excel, se va obţine următorul model exponenţial: y = 171.46e-0.0118x, coeficientul de determinare R2 = 0.9701, unde a = 171.46, b = − 0.0118.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
301
200 y = 171.46e-0.0118x R2 = 0.9701
180 160 140 120
Series1
100
Expon. (Series1)
80 60 40 20 0 0
10
20
30
40
50
60
Fig. 205. Modelul exponențial, R2 = 0.9701
4.5 Modele neliniare în Farmacocinetică Matematica şi Informatica au schimbat esenţial metodele şi analiza pivind evaluarea de laborator a medicamentelor şi monitorizarea clinică a tratamentelor medicamentoase. Farmacocinetica este disciplina care a beneficiat din plin de dezvoltarea teoriilor, metodelor şi tehnicilor din Matematică şi Informatică, prin intermediul calculatorului. Astăzi, procedurile pentru testarea medicamentelor, includ rezultate importante obţinute în cercetarea, privind utilizarea medicamentelor la tratarea diverselor boli. Bioinformatica, Biostatistica şi Biofarmacia sunt discipline aplicative, care oferă diverse metode şi analize privind domeniul Farmacocineticii. În analiza şi practica din domeniul Farmacocineticii, se studiază efectul administrării medicamentelor, în scopul tratării bolilor. Administrarea unui medicament se realizează prin mai multe moduri (locul administrării), şi are efecte în funcţie de substanţa activă a medicamentului asupra distribuirii acesteia în plasmă, urmând un model farmacocinetic: monocompartimental – medicament administrat extravascular (intramuscular, subcutan, rectal sau oral), care se distribuie numai în compartimentul central, apos, intracelular şi extracelular, de la locul administrării substanţa activă,
302
MARIN VLADA
pentru a ajunge în plasmă, şi suferă un proces de absorbţie (funcţia de variaţie C1(t)), după care se va realiza procesul de eliminare; se spune că medicamentul se distribuie doar în compartimentul numit generic sânge, iar concentraţia substanţei active în sânge, este dată de funcţia de variaţie C2(t); bicompartimental – medicament administrat extravascular care se distribuie în două compartimente, numite generic sânge şi lipide; modelul este caracterizat de funcţiile de variaţie C1(t), C2(t), C3(t), care reprezintă concentraţia substanţei active la locul administrării, concentraţia substanţei active în sânge, şi respectiv, concentraţia în lipide; tricompartimental – utilizat în cazul medicamentelor cu indice terapeutic scăzut (de exemplu digoxina, Ref.: Prof. dr. Constantin Mircoiu), pentru care medicamentul administrat extravascular, se distribuie în trei compartimente, unde se studiază variaţia concentraţiei substanţei active în cele trei compartimente: C1(t) , C2(t), C3(t). „Considerarea organismului ca un singur compartiment reprezintă o simplificare drastică. Astfel, pentru a se absorbi bine, substanţele medicamentoase ar trebui sa fie solubile în membranele celulare şi deci lipofile, iar pentru a rămâne în sânge în concentraţii mai mari, ar trebui să fie hidrofile. Practic toate medicamentele sunt amfifile, având o parte hidrofilă şi o parte lipofilă. Ca urmare a caracterului parţial lipofil, ele se vor repartiza şi în lipidele organismului şi nu vor mai respecta modelul monocompartimental.” (Prof. dr. Constantin Mircoiu, Universitatea de Medicină şi Farmacie „Carol Davila” din Bucureşti). În teza sa de doctorat, din anul 2010, Flavian Ştefan Rădulescu utilizează modele monocompartimentale şi bicompartimentale la studiul diverselor medicamente: Diltiazem, Dezacetil-Diltiazem, N-Desmetil-Diltiazem, Loratadina, Descarboetoxi-Loratadina, Tramadol, O-Desmetil-Tramadol. Mai jos (tabelul 31), se prezintă rezultatele obţinute de cercetările din teza de doctorat, prin comparaţie între modelul monocompartimental şi cel bicompartimental. „Datele experimentale au fost fitate cu soluţia unui model mono- şi, respectiv, bicompartimental, atât pentru medicamentul părinte, cât si pentru metabolitul activ. În cazul mianserinului şi al risperidonei, datele experimentale nu au putut fi fitate, constatându-se un proces de absorbţie mult mai rapid decât cel considerat în planificarea experimentului. Astfel, concentraţiile plasmatice maxime au fost raportate la timpi corespunzători primelor probe prelevate după administrarea medicaţiei de studiu. Rezultatele modelării compartimentale ilustrează astfel multitudinea căilor alternative de metabolizare (reacţii succesive sau paralele).” (Flavian Ştefan Rădulescu, Studiul farmacocineticii medicamentelor cu metaboliţi activi prin analiza compartimentală şi prin modele de farmacocinetică fiziologică, Teză de doctorat – coordonator științific: Prof. Dr. Constantin Mircioiu, Universitatea de Medicină şi Farmacie „Carol Davila” din Bucureşti, 2007).
Statistică şi Informatică pentru chimie medicală şi farmaceutică
303
Tabelul 31. Substanțe active studiate (Flavian Ştefan Rădulescu [13])
Modelul monocompartimental În acest caz, se studiază un medicament administrat extravascular (intramuscular, subcutan, rectal sau oral), care se distribuie numai în compartimentul central, apos, intracelular şi extracelular. Prin acţiunea de administrare a substanţei active, se poate aproxima că, medicamentul urmează un model farmacocinetic monocompartimental, dacă între sânge şi apă intracelulară şi extracelulară se stabileşte foarte rapid un echilibru. Modelul farmacocinetic monocompartimental se poate reprezenta schematic astfel:
(locul administrării) C1
ka
(sânge) C2
ke
C1(t) C2(t) Fig. 206. Modelul monocompartimental Prin administrarea medicamentului, în locul administrării C1 (concentraţia iniţială a medicamentului este C0), se declanşează un proces de absorbţie (viteza de absorbţie este exprimată prin constanta de absorbţie ka), prin care substanţa activă este îndepărtată din depozitul creat la locul de administrare, şi totodată să apară în plasmă (în sânge, unde la prima administrare, concentraţia iniţială este 0). De asemenea, se declaşează un proces de eliminare (viteza de eliminare este exprimată prin constanta de eliminare ke), prin care substanţa activă este îndepărtată din plasmă.
MARIN VLADA
304
Se cunosc: C0 – concentraţia iniţială a medicamentului în locul administrării; Momentul iniţial determinat de C1(0)= C0 si C2(0)= 0; ka – constanta de absorbţie; ke – constanta de eliminare. Se cere determinarea modelelor C1(t), C2(t), care reprezintă evoluţia în timp a concentraţiei substanţei active. Pentru determinarea acestor modele, se va ajunge la rezolvarea unui sistem de ecuaţii diferenţale, pentru care se va utiliza transformata Laplace. În continuare, vom scoate în evidenţă proprietăţile şi rolul transformatei Laplace. Aplicaţii ale transformatei Laplace (operator liniar) se utilizează în: matematică – teoria probabilitaţilor, rezolvarea ecuaţiilor şi sistemelor diferenţiale şi integrale (transformă operaţiile de derivare în operaţii algebrice); fizică – optică, oscilatori armonici, dispozitive optice, sisteme mecanice; inginerie electrică – automatică, circuite electrice, prelucrarea semnalelor și mecatronică; teoria sistemelor – evoluţia şi comportamentul sistemelor, modele de simulare. Definiţie. O funcţie f : [0, ) R se numeşte funcţie original, dacă este derivabilă şi are proprietatea: kt M 0 si K 0, astfel ca f (t ) M e , t [0, )
(k = indice de creştere a funcţiei f). Exemplu.
f : [0, ) R , f t c0 e0.3t . Definiţie. Transformata Laplace a funcţiei original f : [0, ) R este un operator liniar definit de funcţia
£[f(t)] =
şi se notează
0
f (t ) e p t dt ,
L f ( p) f (t ) e p t dt , L f : R R , adică Lf = £[f(t)] numită funcţia 0
imagine. Teoremă. Dacă se consideră funcţiile original f , g : [0, ) R , atunci au loc următoarele proprietăţi ale transformatei Laplace:
Statistică şi Informatică pentru chimie medicală şi farmaceutică
305
1.
£[f(t) ± g(t)] = £[f(t)] ± £[g(t)] (teorema transformării liniare);
2.
£[f(at)](p) =
3. 4. 5.
£[eatf(t)](p) = Lf (p-a) (teorema translaţiei); £[ f (x) ](p) = pLf (p) – f(0) (teorema derivatei I); £[ f (x) ](p) = p2 Lf (p) – p f (0) – f (0) (teorema derivatei II);
6.
£[eat](p) =
1 £[f(t)] a
p (teorema scalării); a
1 ; pa 1 £[e-at](p) = . pa
7.
t
Exemplu. Dacă f(t) = e este o funcţie original, atunci transformata Laplace corespunzătoare (imaginea funcţiei f) este: £[f(t)]
=
0 e
t
e
pt
dt e
f t e
pt
0
( p )t
0
dt L f ( p) =
1 dt e pt p
L f ( p) f (t ) e p t dt 0
=
0
1 p
1 . p
Teoremă. Modelul monocompartimental. Pentru un model monocompartimental, în care se studiază un medicament administrat extravascular, există un proces de absorbţie (funcţia de variaţie C1(t), concentraţia substanţei active) şi un procesul de eliminare (funcţia de variaţie C2(t), concentraţia substanţei active). Dacă se cunosc: C0 – concentraţia iniţială a medicamentului în locul administrării; Momentul iniţial determinat de C1(0)= C0 și C2(0)= 0; ka – constanta de absorbţie; ke – constanta de eliminare, atunci, la locul administrării substanţei active, funcţia de variaţie C1(t) în procesul de absorbţie, este
,
C1 t c0 ekat
iar în sânge, funcţia de variaţie C2(t), în procesul de eliminare, este
C2 t
k a c0 kat ket e e ke k a
.
MARIN VLADA
306
Demonstraţie. Pentru comoditatea scrierii, vom face următoarele notaţii: f(t) = C1(t), g(t) = C2(t). În domeniul Farmacocineticii, conform axiomelor farmacocineticii liniare, cantitatea de substanţă activă ce părăseşte un compartiment, este proporţională cu cantitatea existentă în acel compartiment. Prin urmare, variaţia concentraţiei în timp, poate fi descrisă de următorul sistem de ecuaţii diferenţiale:
f (t ) k a f (t ) g (t ) k a f (t ) k e g (t )
(1)
sistem ce va fi rezolvat aplicând metoda transformatei Laplace. Dacă ţinem seama de proprietăţile teoremei de la pag. 305, vom folosi următoarele proprietăţi: £[ f (x) ](p) = pLf (p) – f(0) (teorema derivatei I); £[f(t) ± g(t)] = £[f(t)] ± £[g(t)] (teorema transformării liniare); £[e-at](p) =
1 . pa
Prin aplicarea transformatei Laplace ecuaţiilor sistemului (1), vom obţine:
pL f C 0 k a L f pLg k a L f k e L g
( p k a ) L f C0 k a L f ( p k e ) L g 0
(2)
sistem cu 2 ecuaţii şi 2 necunosctute (imaginile funcţiilor f şi g) Lf şi Lg . a) determinarea lui Lf . Din prima ecuaţie, se determină Lf =
C0 şi conform proprietaţii 7 de la p ka
teorema de mai sus, transformata Laplace, care are această expresie, este funcţia f(t) = c0
e . Prin urmare, funcţia de variaţie C (t) în procesul de absorbţie este: ka t
1
C1 t c0 ekat
Funcţia de variaţie C1(t), în procesul de absorbţie, are următoarea evoluţie, arătată mai jos, pentru cazul particular: C0 = 10; ka = 0.3 (constanta de absorbţie).
.
C1 t c0 ekat
Statistică şi Informatică pentru chimie medicală şi farmaceutică
307
Fig. 207. Utilizare software: https://www.wolframalpha.com plot (10*(EXP(–0.3*x)), x=0..30) Funcţia de variaţie C1(t) are o evoluţie, de la o valoare maximă (iniţială) a concentraţiei (C0 = 10), la valori ce scad exponenţial spre 0. b) determinarea lui Lg . Pentru a determina Lg , se va folosi regula lui Cramer:
Lg
p ka ka p ka ka
C0 0 0 p ke
k a C0 ( p k a )( p k e )
A B k a C0 1 1 . k a C0 p k a p ke ke k a p k a p ke
MARIN VLADA
308 Ţinând seama de proprietatea £[e-at](p) =
1 , se deduce că, în procesul de pa
eliminare, funcţia de variaţie C2(t) este:
C2 t
ka c0 kat ket e e ke k a
.
În domeniul farmacocineticii, această curba se numeşte curba de absorbţie-eliminare.
Fig. 208. Utilizare software: http://web2.0calc.com/ (3/(0.03–0.3))*(EXP(–0.3*x)-EXP(–0.03*x)),x=0..120
Fig. 209. Utilizare software: programul Excel
Statistică şi Informatică pentru chimie medicală şi farmaceutică
309
Funcţia de variaţie C2(t), în procesul de eliminare, are o evoluţie din origine (0,0), creşte până la o valoare maximă a concentraţiei, apoi scade exponenţial spre 0. Formula de calcul pentru tabelarea funcţiei: =(3/(0.03-0.3))*(EXP(-0.3*B450)-EXP(-0.03*B450)). Tabelul 32. Valori pentru t și C2(t) t
C2(t) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
0 2.551415 4.366143 5.63735 6.508069 7.084198 7.444126 7.645865 7.732332 7.735266 7.678124 7.578229 7.448362 7.297944 7.133903 6.961324 6.783929 6.604431 6.424796 6.246439 6.070365 5.897283 5.727677 5.56187 5.400063 5.242372 5.088848 4.939495 4.794285 4.653166 4.516069 4.382914 4.253613 4.128072
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68
4.006197 3.887891 3.773057 3.661598 3.55342 3.448429 3.346534 3.247645 3.151674 3.058537 2.968149 2.880432 2.795306 2.712695 2.632524 2.554723 2.479221 2.405949 2.334843 2.265839 2.198873 2.133887 2.070821 2.00962 1.950226 1.892589 1.836654 1.782373 1.729696 1.678576 1.628966 1.580823 1.534103 1.488763 1.444763
69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
1.402064 1.360627 1.320414 1.28139 1.243519 1.206768 1.171102 1.136491 1.102903 1.070307 1.038675 1.007977 0.978187 0.949277 0.921222 0.893996 0.867574 0.841933 0.81705 0.792903 0.769469 0.746728 0.724659 0.703242 0.682458 0.662288 0.642715 0.62372 0.605286 0.587397 0.570037 0.55319
Aplicaţie. Metoda reziduurilor – determinarea ka şi ke. Se consideră cazul unui medicament administrat oral, care iniţial a realizat în intestin o concentraţie iniţială
MARIN VLADA
310
C0=10µg/ml. Conform teoremei de mai sus, în ipoteza unui model monocompartimental, concentraţia în sânge este dată de variaţia concentraţiei substanţei active în timp, exprimată de expresia:
C t
k a c0 e ket e k a t k a ke
Se presupune că se dau măsurări (observaţii) ce apar în tabelul alăturat. Ipoteza de lucru: ka ke pentru un t (variabila timp) suficient de mare. Pe baza măsurărilor date în tabel, se cer valorile (parametrilor) constantelor ka şi ke, ce determină modelul variaţiei concentraţiei substanţei : active în sânge.
T[min] 1 3 7 16 30 57 83 85 93
t 16 30 57 83 85 93
a) determinarea constantei de eliminare – ke . Se determină timpul în care se obţine concentraţia maximă (maximulul funcţiei), pentru a aplica modelul liniar pentru „coada” curbei de variaţie a concentraţiei, deci pentru Ln C(t).
Ln C(t)
C(t) [µg/ml] 2.551415 5.63735 7.645865 6.783929 4.516069 2.00962 0.921222 0.867574 0.682458
ln C 1.914556 1.507642 0.697945 -0.08205 -0.14205 -0.38205
y = -0.0299x + 2.3984 R2 = 1
2.5
2
1.5
1
ln C Linear (ln C)
0.5
0 0
20
40
60
80
100
-0.5
Fig. 210. Graficul funcției Ln C(t) Dacă se reprezintă grafic Ln C(t), panta dreptei obţinute, este chiar valoarea ke .
Statistică şi Informatică pentru chimie medicală şi farmaceutică
311
Dreapta de regresie, pentru valorile din tabelul de mai sus, se determină folosind programul Excel. Rezultatul este următorul: y= −0.0299x + 2.3984, coeficientul de determinare R2 = 1. Panta dreptei găsite este valoare căutată a constantei de eliminare ke, adică avem ke = –0.0299. b) determinarea constantei de absorbţie – ka . Având în vedere ipoteza de lucru, şi anume: ka ke , pentru un t (variabila timp) suficient de mare, se face aproximarea:
C1 t
k a c0 kat e A e k t , unde A ka c0 k a ke k a ke a
.
Prin logaritmarea lui C1, se obţine ln C1 (t ) ln A ka t . Dacă se reprezintă grafic ln C1 (t ) , panta dreptei obţinute, este chiar valoarea ka. Se presupune că se dau observaţii, în partea de început, pentru timpi, până la atingerea concentraţiei maxime: t 1 3 7
C1 0.823131 0.451744 0.136063
Se face logaritmarea pentru a aplica modelul liniar utilizat în programul Excel: t 1 3 7
C1 0.823131 0.451744 0.136063
Ln C1 –0.19464 –0.79464 –1.99464
0 0
2
4
6
8 y = -0.3x + 0.1054 R2 = 1
-0.5
-1 Series1 Linear (Series1) -1.5
-2
-2.5
Fig. 211. Graficul fucției Ln C1(t)
312
MARIN VLADA
Rezultatul este următorul: y = –0.3x +0.1054, iar coeficientul de determinare este R2 = 1. Panta dreptei găsite este valoare căutată a constantei de absorbţie ka, adică avem ka= –0.3. Referinţe 1. Lucian Boiculese – Biostatistica teme, Şcoala doctorală, UMF Iaşi. 2. David W. A. Bourne, Pharmacokinetics and Biopharmaceutics, (Java Applets – On line Graphs, JavaScript Calculators Online), http://www.boomer.org/c/p1/ 3. David W. A. Bourne, Mathematical modeling of pharmacokinetic data, Technomic Publishing Co., ISBN 1-56676-204-9, 1995. 4. Ion Crăciun , http://www.mec.tuiasi.ro/diverse/sem_cdif_mec.pdf 5. Sorin Istrail, http://cs.brown.edu/~sorin/pdfs/venter2.pdf 6. James Jones, http://people.richland.edu/james/lecture/m116/logs/models.html 7. Peter Keusch, University of Regensburg, http://www.demochem.de/eyr-e.htm 8. Dalia Simona Miron, Constantin Mircioiu, Seminarii de matematici aplicate în Farmacie, Editura Tehnoplast, Bucureşti 2010. 9. Constantin Mircioiu, Roxana Colette Sandulovici, Statistică aplicată în farmacie şi studii clinice, Ediţia II, Editura Universitară „Carol Davila” Bucureşti, 2009. 10. Joseph W. Ochterski, Thermochemistry in Gaussian, http://www.gaussian.com/g_whitepap/thermo. html,Saeid Nourian 11. Marjorie Olmstead, http://courses.washington.edu/phys431/index.php 12. Saeid Nourian, http://calculator.runiter.com/graphing-calculator/ 13. Flavian Ştefan Rădulescu, Studiul farmacocineticii medicamentelor cu metaboliţi activi prin analiza compartimentală şi prin modele de farmacocinetică fiziologică, Teză de doctorat (coord. şt.: Prof. dr. Constantin Mircioiu), Universitatea de Medicină şi Farmacie „Carol Davila” Bucureşti, 2007. 14. Online 3D, http://www.livephysics.com/ptools/online-3d-function-grapher.php 15. M. Vlada, „Modele neliniare. Teorie şi aplicaţii”, În Lucrările celei de-a X-a Conferință de Învățământ Virtual, Editura Universității din București, CNIV 2012, ISSN 1842-4708, 2012, pp. 57-65.
4.6 Aplicație. Problema călugărului Vom descrie câteva idei prin care vom atrage atenția asupra schimbării de paradigmă, în domeniul rezolvării de probleme. Așa cum, limbile naturale sunt într-o continuă evoluție, schimbare și se dezvoltă, astfel o limbă este ca un organism viu, tot așa, și științele sunt într-o continuă evoluție, schimbare și se dezvoltă. Științele sunt considerate limbaje ale cunoașterii, care oferă teorii, metode, tehnici și instrumente pentru a modela și prelucra cunoașterea. Se pornește de la concluzia că, 78% dintre elevi nu consideră curriculumul corelat la așteptările, nevoile şi interesele lor, iar 60% consideră că, în forma actuală, curriculumul nu îi pregătește pentru piața muncii. Se evidențiază, cu un exemplu, prin care elevii au posibilitatea să înțeleagă și să poată vedea utilitatea teoriilor și a metodelor oferite de matematică și informatică. Procesul învățării se va schimba, iar prin atractivitatea acestor cautări și aplicații în rezolvarea problemelor, elevii vor avea o altă perspectivă, privind domeniul cunoașterii. Astăzi, se descriu și se memoreaza lecții teoretice, și apoi, se fac fel și fel de exerciții, pe care elevii nici nu le văd că au legatură cu realitatea, cu activitatea practică. Ca metodă, mult mai natural ar fi ca la o lecție sau în manual, să se înceapă cu enunțul unei probleme, sau contextul în care apar o serie de probleme, să se analizeze și să se discute probleme, pentru ca apoi, să se explice teoria sau metodele ce se vor aplica pentru rezolvare.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
313
Problemă. Un călugăr trăiește într-o mănăstire din vârful unui munte. Periodic, dimineața, la o anumită oră, trebuie să coboare pe un drum, într-o localitate de la poalele muntelui, unde va înnopta. Dimineața următoare, la aceeași oră, din ziua precedentă, acesta se va întoarce la mănăstire pe același drum. Să se demonstreze că există un loc de pe drumul parcurs de călugăr, prin care trece la aceeași oră, la ducere și la întoarcere. (© M. Vlada, 2016) Rezolvare. Analizând cu atenție enunțul problemei (la școală și în universități, se tratează cu superficialitate definițiile și enunțurile și, de aici se ajunge la înțelegerea greșită a problemelor și teoriilor), se poate întreba, dacă problema este o problemă de matematică, de fizică, de geografie, sau de ce nu, de informatică.
Fig. 212. Manăstirea Arnota, Râmnicu Vâlcea, Sursa: http://www.ramnicuvalceaweek.ro/?p=16711 De fapt, este vorba de o schimbare de atitudine a profesorilor față de învățare. Enunțul problemei îl găsisem, în timpul liceului, într-o carte de matematică, la capitolul „proprietatea lui Darboux”. Prin urmare, se poate spune că este o problemă de matematică. Dar, vom vedea cum va fi rezolvată. E mult timp de atunci. Recent, mi-am propus să găsesc enunțul problemei. Cum era firesc, am apelat la Google (se zice că acceptă orice întrebare!). Fără suscces. Planul B a fost să merg la Biblioteca Facultății de Matematică, și să caut în 2-3 cărți, pe care le bănuiam că ar conține enunțul. Dezamăgire! Nu am găsit. Nu mai aveam inspirație să concep planul C, D etc. După câteva căutari de strategie (nu cum face Google), m-am hotărât: voi fi capabil să reinventez enunțul, și să rezolv problema! Experiența din această activitate de rezolvare, mi-a aratat că am ajuns la enunțul problemei, în același timp în care am terminat rezolvarea ei. De fapt, așa se întâmplă în activitatea de cercetare. Multe au fost cazurile, când credeam că am juns să spun, că am reușit să descopăr enunțul. Trebuie să recunosc: am ajuns la două enunțuri ce erau greșite. S. Marcus spunea: „să-i lăsăm pe elevi să caute singuri soluția, chiar dacă fac greșeli, deoarece prin acest proces de căutare și de corectare a ceea ce s-a greșit, se ajunge la învățarea adevărată, și nu la o învățare superficială, prin metoda memorării și prin utilizarea inteligenței altora”. E drept că, am citit dintr-un studiu american că „învățăm mai mult din succese, decât din eșecuri”. Probabil că, „eșecul”, aici nu are sensul „greșelilor”, din activitatea de căutare a unei rezolvări. Metoda. Teoretic, trebuie să analizăm evoluția în timp a procesului în cele două etape de parcurgere a distanței, care trebuie să fie parcursă, între cele două puncte ale drumului
MARIN VLADA
314
parcurs. Dacă notăm cu Y variabila timp, iar cu X variabila distanța parcursă, atunci această evoluție (depentența) se exprimă matematic printr-o funcție f: R R, y=f(x), unde aplicația f este necunoscută și trebuie determinată. Aplicația f modelează prima etapă (de ducere). Analog, pentru etapa a doua (de întoarcere), vom nota funcția g: R R, y=g(x), unde aplicația g este necunoscută și trebuie determinată. Practic, pentru a determina cele două funcții (evoluția timpului în cele două etape), vom utiliza metoda folosită și în determinarea orbitelor planetelor din sistemul solar. Orbita unui corp ceresc este traiectoria urmată de acel corp prin spațiul cosmic. În astronomie, există cele 3 legi ale lui Kepler ce descriu mișcările planetelor în jurul soarelui (a se vedea capitolul 1). Se va folosi Metoda celor mai mici pătrate (MCMP, Legendre, 1805) pentru dependenţa funcţională a unei variabile Y (dependenţă-efect) faţă de altă variabilă X (independentă-cauză), care poate fi studiată empiric, pe cale experimentală. Date fiind valorile observate pentru două variabile aleatoare X şi Y, fie acestea (xi,yi), i = 1,…, n. Prin funcţie de regresie se va înţelege acea funcţie Y = f(X) care aproximează cel mai bine setul de date observate. De regulă, criteriul ales este dat de metoda celor mai mici pătrate (MCMP), adică acea funcţie f pentru care se minimizează suma pătratelor erorilor dintre valorile măsurate şi cele estimate (procedeu de fitare), adică suma: n
S [ yi f ( xi )] 2 i 1
Pentru aceste date experimentale, în cazul nostru, vom simula valori pentru distanța (variabila x) și timp (variabila y), atât pentru etapa I, dependența y=f(x), cât și pentru etapa II , dependența y=g(x). Pentru cei care vor să nu aibă nelămuriri în cele ce urmează, precizăm că dacă la simularea lui f, pentru timp (y), valorile sunt crescătoare, în schimb, la simularea lui g, pentru timp (y), valorile sunt descrescătoare. Explicație: „un loc de pe drumul parcus” trebuie să fie unic determinat față de un reper fix, de exemplu „mănăstire”, iar în reprezentarea grafică a celor două funcții f și g, să fie originea sistemului cartezian XOY. Dacă în cazul lui g, valorile pentru timp (y), sunt crescătoare, ar fi o modelare greșită, deoarece ar însemna ca g să simuleze tot plecarea de la mănăstire. În tabelul 33 sunt prezentate aceste valori ce simulează evoluțiile f și g. Tabelul 33. Valori experimentale pentru cele două evoluții f și g Evoluția timpului la ducere Distanța Timp-d 0 0 10 5 20 7 30 10 40 13 50 16 60 20 70 25 80 30 90 33 100 38 110 50 120 60
Evoluția timpului la întoarcere Distanța Timp-i 0 60 10 55 20 43 30 35 40 24 50 20 60 15 70 10 80 7 90 6 100 5 110 3 120 0
Evoluția timpului la D/I Distanța Timp-d Timp-i 0 0 60 10 5 55 20 7 43 30 10 35 40 13 24 50 16 20 60 20 15 70 25 10 80 30 7 90 33 6 100 38 5 110 50 3 120 60 0
Statistică şi Informatică pentru chimie medicală şi farmaceutică
315
Calculele pentru aplicarea MCMP sunt implementare în programul Excel, care oferă serviciul „Tredline” în cazul unor date experimentale, ce urmează să aproximeze modelul/evoluția.
Fig. 213. Rezultate obținute cu programul Excel pentru f
Fig. 214. Rezultate obținute cu Excel pentru g
Fig. 215. Rezultate obținute cu Excel pentru f și g (simultan)
MARIN VLADA
316 Rezultate.
Determinarea locului din drumul parcus, când călugărul trece la aceeași oră, se obține prin intersecția graficelor f și g, care sunt reprezentate în fig. 215. Evident, trebuie găsite rădăcinile ecuației h(x) = 0, unde funcția h(x)= f(x) – g(x) = 0.002*x*x – 1.176*x +59,18.
Fig. 216. Graficele celor două parabole f și g folosind calculatorul științific http://web2.0calc.com Metoda 1 – calcul direct: x1 = 532,4239921; x2 = 55,57600792. Metoda 2 – folosind Goal Seek din Excel, Inițial: x = 50 h(x) = 0,000763387 Final: x = 55,57520747 Soluția: distanța = 55,57 față de locul mănăstirii (în această simulare nu am utilizat unități de măsură pentru valori). Sinteza rezolvării: Se simulează evoluția timpului la ducere, respectiv, la întoarcere. Folosind regresia neliniară (Excel) se determină funcțiile f(x) și g(x), funcții continue ce au proprietatea lui Darboux. Folosind calculatorul științific http://web2.0calc.com se obțin graficele celor două parabole f și g (fig. 216). Intersecția celor două grafice indică valoarea locului (punctului) căutat. Se determină prin meteda 1-direct, și metoda 2, folosind Goal Seek din Excel.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
317
Verificare suplimentară: Verificarea evoluției timpului de parcurcere (ducere, întoarcere) folosind un alt software, și anume limbajul JavaScript și biblioteca de primitive grafice: wzjsgraphics.js by Walter Zorn, 2009. Referință: http://unibuc.ro/prof/vlada_m/Computer_Graphics.php
Fig. 217. Reprezentarea grafică a evoluțiilor f și g folosind JavaScript și biblioteca Walter Zorn PROGRAMUL JavaScript
// Problema calugarului: Evolutia timpului, la ducere si la intoarcere, f(d) = 0.002d*d + 0.117d + 2.670; g(d)= 0.004d*d 1.059d + 61.85, d din [0, 120] (M. Vlada 2016)
MARIN VLADA
= hy - 30 = hy - 30 = hy - 30 = hy - 30 -
Observație. Problema admite și o altă rezolvare, doar prin „reconstituirea” realității, și anume, prin utilizarea unor produse software care să simuleze cele două etape? Rezolvarea va fi corectă? Referințe [1] Daniel Ford and Josh Batson, Languages of the World (Wide Web), News on Google Research, 2011, https://research.googleblog.com/2011/07/languages-of-world-wide-web.html, accesat 2016 [2] M. Vlada, Matematica pentru elevi, abstractă sau utilă ?, În Lucrările celei de-a XI-a Conferință de Învățământ Virtual, Editura Universității din București, ISSN 1842-4708, 2013, pp. 107-114. [3] M. Vlada, O. Istrate, Concursul „Didactica Nova” – curriculum academic inovativ, în Lucrările celei de-a XI-a Conferință de Învățământ Virtual, Editura Universității din București, ISSN 1842-4708, 2013, pp. 19-24. [4] M. Vlada, Structuri şi obiecte matematice cu aplicaţii în chimie şi fizică, în Lucrările celei de-a XI-a Conferință de Învățământ Virtual, Editura Universității din București, ISSN 1842-4708, 2013, pp.102-106. [6] M. Vlada, Modele neliniare. Teorie şi aplicaţii, în Lucrările celei de-a X-a Conferință de Învățământ Virtual, Editura Universității din București, CNIV 2012, ISSN 1842-4708, 2012, pp. 57-65. [7] M. Vlada, Informatică aplicată. Modele de aproximare, software şi aplicaţii, Editura Universităţii din Bucureşti, print, ISBN 778-606-16-0190-5, 257 pag., 2012. [8] M. Vlada, Noi abordări în rezolvarea problemelor – exemple, în Lucrările celei de-a XIV-a Conferință de Învățământ Virtual, Editura Universității din București, CNIV 2016, ISSN 18424708, online, http://c3.icvl.eu/papers2016/cniv/documente/pdf/sectiuneaA/sectiuneaA_lucrarea4. pdf, pp. 49-57, 2016.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
319
5 Proiecte şi aplicații practice Motto: „Cel care dobândeşte cunoaşterea, dar nu o pune în practică, este ca acela care ară pământul, dar nu-l seamănă.” Ralph Waldo Emerson „Raţiunea nu lucrează instinctiv, ci cere încercări, practică şi învăţare pentru a progresa treptat de la un nivel de înţelegere la celălalt.” Immanuel Kant „Trebuie să învăţăm cât timp trăim. Nu pentru şcoală, ci pentru viaţă învăţăm. Ce nebunie să înveţi lucruri de prisos, când e atâta lipsă de timp!” Seneca „Învăţătura este frumuseţea cea mai aleasă a omului, avere ascunsă şi tăinuită; învăţătura procură plăceri; ea dă glorie şi bucurie; învăţătura este învăţătorul învăţătorilor.” Bhartrhari „Este esenţial ca studentul să dobândească o înţelegere şi un sentiment viu al valorilor. El trebuie să aibă un simţ puternic al lucrurilor frumoase şi bune din punct de vedere moral, în caz contrar, şi posedând o cunoaştere specializată, el va semăna mai degrabă cu un câine bine dresat decât cu o persoană dezvoltată armonios.” Albert Einstein
Ştiinţele sunt modele şi reprezentări virtuale ale cunoaşterii: Ştiinţele au apărut ca urmare a necesităţii omului de a-şi organiza CUNOAŞTEREA, în scopul măsurării, comparaţiei, analizei şi operaţiilor ce trebuie realizate, în diverse activităţi de existenţă şi de adaptare în natură. În acest proces complex al evoluţiei omului şi evoluţiei cunoaşterii, s-a conturat şi definit necesitatea omului de a rezolva problemele folosind diverse teorii, metode şi tehnici: raţionament, experiment etc. Exemple: geometrie (măsurarea pământului), algebră (numărare şi calcule), geologie (studiul pământului), biologie (studiul organismelor vii), chimie
MARIN VLADA
320
(studiul substanţelor: kēme vine de la cuvântul egiptean, care însemnă pământ), fizică (studiul materiei), cibernetică (studiul sistemelor), astronomie (studiul cosmosului) etc. Rezolvarea problemelor se poate realiza la nivel: de amator, de specialist, de expert. Evident că, rezultatele şi efectele pot fi diferite în cele trei cazuri. Experienţa în rezolvarea problemelor are un rol primordial în acest caz. Din aceste motive, sistemele educaţionale din diverse ţări ale lumii caută soluţii pentru un echilibru între pregătirea teoretică şi pregătirea aplicativă (ativităţi practice). Teoriile pedagogice şi psihologice tradiţionale trebuie să se adapteaze la impactul calculatorului în viaţa omului. Experimentul, lucrul în echipa, stilurile de învăţare, modalităţile de formare a competenţelor, vor reprezenta pentru sistemele educaţionale provocări continue, având în vedere nivelul general de dezvoltare. „Research in education demonstrates that, by working hard, virtually all students are capable of high achievement. People can become smart by working hard at the right kinds of learning tasks.” Source: Institute for Learning, University of Pittsburgh – http://www.instituteforlearning.org/
5.1 Determinarea modelelor liniare şi neliniare Aplicaţie. Analiza datelor experimentale-Modele de aproximare. Exemple: modele liniare şi modele neliniare (Software Excel 2007-2010): PASUL 1: determinarea norului de puncte (se va face o copie pentru fiecare model de la pasul 2); PASUL 2: se determină modelele de aproximare (expresia analitică şi coeficientul de determinare R2). Se presupune că se dau măsurări (observaţii) ale variabilei dependente Y faţă de variabila independentă X: Pasul 1: norul de puncte (X Y Scatter) •se selectează domeniul valorilor X și Y, Insert Diagrame Prin Puncte (X Y Scatter) •se face copie a diagramei prin puncte Pasul 2: determinarea modelelor pentru fiecare model. Se execută următoarele acţiuni: •se execută „Paste” pentru diagrama „prin puncte” •se selectează diagrama, apoi Aspect Analiză Linie tendinţă (Trendline) - din meniul dat se face click pe „Mai multe opţiuni …” - din fereasta „Formatare” se alege modelul (tendinţa) şi se validează „Afişare ecuaţie” şi „Afişare abaterea medie patratică”
Valorilor observate X Y 1 60 2 50 3 60 4 70 5 70 6 80 7 90 8 95
Folosind versiunea 2007-2010 a programului Excel vom determina toate modelele oferite de acest program.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
321
Pasul 1: Determinarea norului de puncte
Fig. 218. Foaia de calcul din Excel
Norul de puncte
Fig. 219. Norul de puncte Pasul 2: se determină modelele de aproximare (expresia analitică şi coeficientul de determinare R2)
MARIN VLADA
322
Fig. 220. Foaia de calcul din Excel
Y 100 90 80 70 60 50 40 30 20 10 0
Y y = 6.0119x + 44.821 R 2 = 0.8946
0
2
4
6
L inear (Y )
8
10
Fig. 221. Modelul liniar (dreapta), y = 6.0119x + 44.821, R2 = 0.8946
Statistică şi Informatică pentru chimie medicală şi farmaceutică
Fig. 222. Modelul exponenţial, y = 48.336e0.0836x, R2 = 0.876
Fig. 223. Modelul logaritmic, y = 18.505Ln(x) + 47.345, R2 = 0.6989
Fig. 224. Modelul polinom gr. II, y = 0.625x2 + 0.3869x + 54.196, R2 = 0.9333
323
324
MARIN VLADA
Fig. 225. Modelul polinom gr. III, y = –0.2399x3 + 3.8636x2 – 11.968x + 66.071, R2 = 0.9534
Fig. 226. Modelul polinom gr. IV, y = 0.0994x4 – 2.0297x3 + 14.673x2 –36.769x + 82.946, R2 = 0.964
Fig. 227. Modelul polinom gr. V, y = –0.1074x5 + 2.5153x4 – 22.072x3 + 89.565x2 158.66x + 148.75, R2 = 0.9942
Statistică şi Informatică pentru chimie medicală şi farmaceutică
325
Fig. 228. Modelul polinom gr. VI, y = 0.0104x6 – 0.3886x5 + 5.4888x4 – 37.626x3 + 131.3x2 – 211.86x + 173.13, R2 = 0.9947
Fig. 229. Modelul putere y = 49.875x0.26, R2 = 0.6995 Concluzii. Analiza rezultatelor, comparația după criteriul dat de R2. Model
R2
Concluzie
Pol. gr. 3
0.953
DA
Liniar
0.894
NU
Pol. gr. 4
0.964
DA
Exp.
0.876
NU
Pol. gr. 5
0.994
DA
Ln
0.698
NU
Pol. gr. 6
0.994
DA
Pol. gr. 2
0.933
DA
Putere
0.699
NU
Max(R2)
0.994
326
MARIN VLADA
5.2 Parametrizarea şi rezolvarea problemelor Atât în teorie, cât şi în practică, problemele se pot clasifica în clase de probleme, clase ce necesita teorii, metode, tehnici specifice pentru rezolvare. Odată cu apariţia calculatorului, şi cu dezvoltarea algoritmicii (algoritmi de calcul) şi programării (limbaje de programare), s-au creat programe specializate pentru rezolvarea problemelor specifice domeniilor. În Informatică (domeniul dezvoltării algoritmilor şi programelor) sunt cunoscute proprietăţile pe care trebuie să le îndeplinească forma finală a unui algoritm ce rezolvă o clasă de probleme: corectitudine – furnizarea de soluţii corecte bazate pe teorii, metode şi tehnici; generalitate – algoritmul nu este conceput pentru rezolvarea unei probleme particulare, ci este elaborat pentru rezolvarea unei clase sau categorii largi de probleme; claritate şi verificabilitate – nu există ambiguităţi în fluxul de calcul, şi există posibilitatea ca toţi paşii algoritmului să fie verificaţi cu date de test sau date reale; finitudine şi optimalitate – pentru orice date de intrare acceptate, rezultatul calculelor se obţine după un număr finit de paşi (nu conduce la cicluri în execuţie), iar complexitatea algoritmului este dată de numărul minim de paşi pentru obţinera soluţiilor; eficienţa – pentru obţinerea soluţiilor se utilizează eficient memoria de către structurile de date folosite, iar timpul de execuţie nu este foarte mare, ci rezonabil (de ordinul secundelor, minutelor). Utilizarea calculatorului în diverse domenii de activitate, reclamă folosirea de algoritmi şi programe, care să rezolve o mare diversitate de probleme, mai simple sau mai complexe. S-au dezvoltat programe specializate pentru rezolvarea problemelor complexe din diverse domenii de activitate, s-au dezvoltat sisteme informatice ce implementează informatizarea tuturor activităţilor unui proces (firme sau organizaţii, companii mari, sisteme mari economice, sociale etc.). În domeniul chimiei, fizicii, biologiei, medicinii etc., procesele şi fenomenele pot fi descrise şi controlate dacă exista studii ale acestora, care să conducă la diverse soluţii ce trebuie să fie implementate în vederea rezolvării problemelor complexe ale acestora. În matematică, în cazul „generalizării” unei probleme, pot să apară soluţii şi rezolvări foarte complexe, faţă de cazul particular, sau chiar să nu existe soluţii de rezolvare pentru cazul general. Este o obligaţie a cercetătorilor dintr-un anumit domeniu de activitate, să studieze procesele şi fenomenele într-un context general, pentru ca apoi să compare evoluţia pentru cazurile particulare. Experienţa şi competenţele unui cercetător sau specialist, sunt cele care contribuie primordial la rezolvarea diverselor probleme din activitatea ştiinţifică. De altfel, rezultatele obţinute în domeniul cercetării contribuie la extinderea clasei de probleme rezolvate pentru un anumit domeniu de activitate. Definiție. Parametrizarea enunţului unei probleme reprezintă descrierea enunţului iniţial al problemei sub forma unui enunţ general, care să înlocuiască descrierea particulară cu înlocuirea (substituirea) constantelor sau valorilor din enunţ cu nume de parametri. Astfel că, enunţul problemei va genera o clasă întreagă de probleme ce trebuie să fie rezolvate
Statistică şi Informatică pentru chimie medicală şi farmaceutică
327
printr-un algoritm (flux de calcul) sau program, care respectă raţionamentul de rezolvare pentru cazul particular al problemei. 5.2.1 Problema celor n vase cu azot Două vase de azot (N), ce au volumele V1 = 4 10-3, V2 = 8 10-3, aflate la temperatura de T = 300 grade K(Kelvin), sunt conectate printr-un furtun de dimensiuni neglijabile prevăzut cu un robinet care iniţial este închis. Iniţial, în vasul 1, presiunea azotului este P1 = 3 105 N/m2, iar în vasul 2, presiunea este P2 = 2 105 N/m2, robinetul fiind inchis. Să se determine: a) masa totală a gazului aflat în cele două vase şi masa de gaz din fiecare vas, după deschiderea robinetului, temperatura fiind neschimbată în cele două vase; b) presiunea finală din fiecare vas, după inchiderea robinetului, şi dacă vasul 1 este încălzit la temperatura T1 = 400 K; c) viteza termică şi concentraţia moleculară din cele două vase, după ce robinetul s-a închis, iar vasul 1 s-a încălzit la temperatura T1. Se cunosc: μ = 28 Kg/ kmol masa moleculară a gazului (N); R = 8.31 103 J/ (Kmol · K) constanta gazelor perfecte; NA = 6.023 10 26 molecule/ Kmol Numărul lui Avogadro. Aplicația 1. Parametrizarea şi rezolvarea problemei Cazul: n vase cu azot Un număr de n (n>1) vase de azot (N), ce au volumele Vi , i=1,n, aflate la temperatura de T grade K (Kelvin), sunt conectate printr-un furtun de dimensiuni neglijabile, prevăzut cu un robinet, care iniţial este închis. Iniţial, în vase, presiunile sunt Pi , i=1,n (N/m2), robineţii fiind închişi. Să se determine: a) masa totală a gazului aflat în vase şi masa de gaz din fiecare vas, după deschiderea robineţilor, temperatura fiind neschimbată în cele n vase; b) presiunea finală din fiecare vas, după închiderea robineţilor, şi dacă vasul 1 este încălzit la temperatura T1 (K); c) viteza termică şi concentraţia moleculară din cele n vase, după ce robineţii s-au închis, iar vasul 1 s-a încălzit la temperatura T1. Se cunosc: μ = 28 Kg/ kmol masa moleculară a gazului (N); R = 8,31 103 J/ (Kmol · K) constanta gazelor perfecte; NA = 6,023 10 26 molecule/ Kmol · Numărul lui Avogadro.
MARIN VLADA
328 Rezolvare. Stabilirea fluxului de calcul Problema celor n ( n 2 ) vase cu azot. a) Se utilizează ecuaţia termică de stare a gazului ideal:
pV
m
RT ,
unde p = presiune, V = volum, m = masa gazului, = masa moleculară a gazului, R = constanta gazelor perfecte, T = timp. Prin urmare, avem următoarea formulă:
( pV ) . RT
m
masa totală a gazului din cele n vase, înainte de deschiderea robinetelor: (1) m
n
m i 1
i
n
p V , deoarece mi RT RT i
i 1
piVi , i 1, n .
i
dupa deschiderea robinetelor, presiunea în cele n vase se echilibrează, devine aceeaşi, şi anume p, iar masa totală a gazului rămâne aceeaşi, adică, (2) m
p
n
V RT i 1
i
, unde p este presiunea de echilibru.
prin identitatea, conform cu (1) și (2), avem: n
p RT
n
V i 1
i
=
n
p V , rezultă
RT
i 1
i
i
p
pV i 1 n
i
V i 1
i
,
i
adică presiunea de echilibru, după deschiderea robintelor. după deschiderea robinetelor, masele de gaz în fiecare din cele n vase, sunt date de: n
mi
RT
pVi
Vi RT
pV i 1 n
i
i
V i 1
i
m
Vi
, adică mi m
n
V i 1
i
Vi n
V i 1
, i=1,n.
i
Se închid toate robinetele dintre cele n vase. Vasul numărul 1 este încălzit la temperatura de 400K. deoarece în vasele 2, 3, … n, temperatura nu s-a modificat (T=300K), presiunea în aceste vase este aceeaşi indentică cu valoarea ce era înainte de închiderea robinetelor, adică presiunea de echilibru: b)
n
p2 = p3= … = p n
pV i 1 n
i i
V i 1
i
.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
329
în vasul 1 (încălzit la temperatura T1 = 400K), încălzirea se face la volum constant (transformare izocoră – Legea Charles:
p1
p1 p 2 const . ), deci T1 T2
T1 p , unde p este presiunea de echilibru. T
c) calculul pentru viteza termică şi concentraţia moleculară viteza termică din vasul 1, după închiderea robinetelor şi temperatura T1 = 400, este dată de formula:
1
Vt1 3RT1
încălzirea la
.
vitezele termice pentru vasele 2, 3, … n , înainte de deschiderea robinetelor, sunt date de:
1
Vti 3RT
, i 2, n , T=300K.
concentraţia de molecule (numărul de molecule din unitatea de volum) Cmol se obţine cunoscând masa de gaz din vas. Dacă m1 este masa de gaz din vasul 1, într-un Kmol există NA (numărul lui Avogadro) molecule, deci în
m1
m1
Kmoli vor exista N A
molecule, prin urmare, avem:
1 m molecule Cmol N A 1 . V1 m3
Observaţie. Concentraţia moleculară este aceeaşi pentru fiecare vas din cele n vase cu azot. FLUXUL DE CALCUL Fluxul de calcul: algoritmul de calcul – ordinea de executare a calculelor rezultată din raţionamentul de rezolvare. masa totală a gazului din cele n vase, înainte de deschiderea robinetelor
m
n
pV RT i
i 1
i
; calcul intermediar
presiunea de echilibru,după deschiderea robinetelor n
p
pV i 1 n
i
V i 1
i
; calcul intermediar
i
masele de gaz în fiecare vas, după deschiderea robinetelor
mi m
Vi n
V i 1
i
, i=1,n
MARIN VLADA
330
presiunea în vasul 1, după încălzire la T1 = 400K
p1
T1 p , p = presiunea de echilibru T
presiunile în vasele 2, 3, … n pi p , p = presiunea de echilibru
viteza termică din vasul 1
Vt1 3RT1
, T1 = 400
vitezele termice pentru vasele 2, 3, … n
Vti 3RT
1
1
, i 2, n , T=300K
concentraţiile moleculare
Cmol
m molecule 1 , i=1,n NA i Vi m3
Rezolvarea folosind programul Excel Tabelul 34. Calcule realizate în foaia de calcul din programul Excel Cazul cu 6 vase cu azot (n=6) Date cunoscute T 300 T1 400 miu 28 R 8.31E+03 Na
*10 6.023 ^26
Calcule intermediare Nr. vas Volum Presiune 1 4.00E-03 3.00E+05 2 8.00E-03 2.00E+05 3 7.00E-03 4.00E+05 4 5 6 Sume Masa totală Pres. ech.
5.00E-03 6.00E-03 7.00E-03 3.70E-02 1.05576E-01 2.54054E+05
1.00E+05 2.00E+05 3.00E+05
Vol · Pres 1.20E+03 1.60E+03 2.80E+03 5.00E+02 1.20E+03 2.10E+03 9.40E+03
Statistică şi Informatică pentru chimie medicală şi farmaceutică
331
Fig. 230. Utilizarea programului Excel pentru rezolvare Tabelul 35. Tabelul calculelor în programul Excel
Aplicaţia 2. Utilizarea programului Excel pentru calcule matriciale şi rezolvarea sistemelor de ecuaţii.
MARIN VLADA
332 Tabelul 36. Operații cu matrice folosind programul Excel CALCULE MATRICIALE & REZOLVAREA SISTEMELOR DE ECUATII Se vor utiliza functiile: MDETERM (), MINVERSE (), MMULT ()
Pentru afisarea rezultatelor (tip array) se utilizeaza combinatia de taste ++ 1. Calculul determinantului unei matrice - MDETERM () 2. Calculul inversei unei matrice - MINVERSE () 3. Calculul puterilor unei matrice - MMULT () 4. Rezolvarea unui sistem linear de ecuatii - MMULT ()
A=
5 6 9 2
8 14 2 7
5 4 4 1
4 45 7 7
1. Calculul determinantului unei matrice det(A)= 5051 2. Calculul inversei unei matrice -0.14571 -0.047317363 0.176797 0.210651 -1 A 0.00495 -0.026925361 -0.0291 0.199366 0.348248 0.065531578 -0.1277 -0.49258 -0.01307 0.031082954 -0.00317 -0.04633 3. Calculul puterilor unei matrice 2 A 126 190 240 567 107 157 75 165
81 147 76 49
443 997 203 379
3385 7919 2567 2564
6931 17131 4627 5661
2157 5053 1670 1610
12722 34483 9446 10721
103368 256824 74519 82718
217482 554673 154776 178033
A3
A4
65999 429588 162814 1079323 47469 296295 52625 351318
Statistică şi Informatică pentru chimie medicală şi farmaceutică
333
Tabelul 37. Rezolvarea matriceală a unui sistem liniar folosind Excel 4. Rezolvarea unui sistem linear de ecuatii Rezolvarea unui sistem liniar cu 4 ecuatii si 4 necunoscute sistem A*X=B, A-matrice 4 x 4 -1 solutia X = A * B Sistemul este dat de urmatoarele ecuatii: 3x - 7y + z + 5t = 2 x + 4y - 11z - t = 23 A = x - 14y - 32z + 3t=0 12x + 4y - 3z + 9t=13
3 1 1 12
Matricea sistemului: -7 1 4 -11 -14 -32 4 -3
5 -1 3 9
Vectorul termenilor liberi: B = 2 23 0 13 Rezolvarea sistemului Inversa matricei sistemului -3.0578 -3.207197383 -1 A 1.043621 1.194111232 -0.22028 -0.280261723 3.539804 3.652126499
-1
X = A
*B
0.909487 -0.34678 0.051254 -1.04144
1.039258 -0.33152 0.074155 -1.10251
-66.37077426 25.24209378 -5.92257361 76.74591058
Verificarea solutiei
A*X=B
Vectorul termenilor liberi: 2 B = 2 23 23 5.68434E-14 0 13 13
Temă. Rezolvarea sistemelor de ecuatii liniare de tip Cramer folosind programul Excel și comparația cu rezolvarea matriceală. Problemă. Fie un sistem Cramer de dimensiune n reprezemtat prin formula explicită a ecuațiilor și prin forma matriceală.
MARIN VLADA
334
I.
Tabelul 38. Forma explicită și matriceală a sistemului Forma explicită a ecuațiilor II. Forma matriceală a sistemului
a)
b)
n
a j 1
x j b1
1j
n
a j 1
n
2j
x j b2 aij x j bi , i 1, n j 1
… n
a j 1
nj
x j bn
A X = B, unde A = matricea sistemului, X = vectorul necunoscutelor, B = vectorul termenilor liberi
A aij
i , j 1, n
X xi
i 1, n
B bj
j 1, n
Exemplu. Fie sistemul de ecuații de dimensiune n=5, 2x1 – x2 +11x3 –x4 +x5= 21 5x1 +13x2 –9x3 +2x4 –2x5= 7 x1 –23x2 +4x3 –10x4 +2x5= 3 10x1 +3x2 +4x3 +7x4 –32x5= -23 –23x1 +3x2 +4x3 –2x4 +56x5= 12 Rezolvare. Metoda I. Rezolvare folosind metoda lui Cramer și funcții Excel pentru operații matriceale: - se verifică valoarea det(A); dacă aceasta valoare este nenulă, det(A)≠0, atunci soluțiile sistemului sunt:
xi
dxi , i 1, n , det( A)
unde dxi este este determinantul obţinut din matricea sistemului prin înlocuirea coloanei coeficienţilor lui xi cu coloana termenilor liberi. B=vectorul A=matricea sistemului termenilor liberi 2 –1 11 –1 1 21 5 15 -9 2 -2 7 1 –23 4 –10 2 B= 3 A= 10 3 4 7 –32 –23 –23 3 4 –2 56 12
detA = –99758
Statistică şi Informatică pentru chimie medicală şi farmaceutică
335
Pentru calculul determinantului det(A) se apelează funcția MDETERM (array) din Excel. MDETERM(array), Array is a numeric array with an equal number of rows and columns. Se selectează celula B43 și în caseta de formulă se scrie formula: „=MDETERM(B37:F41)” sau cu mouse-ul se indică domeniul B37:F41, unde sunt stocate elementele matricei A. Soluțiile sistemului sunt:
xi
dxi , i 1, n , det( A)
unde dxi este este determinantul obţinut din matricea sistemului prin înlocuirea coloanei coeficienţilor lui xi cu coloana termenilor liberi. Se calculează determinanții dxi , i=1,5.
dx1=
21 7 3 –23 12
–1 15 –23 3 3
11 –9 4 4 4
–1 2 –10 7 –2
1 –2 2 det(dx1) –32 56
742537
dx2=
2 5 1 10 –23
21 7 3 –23 12
11 –9 4 4 4
–1 2 –10 7 –2
1 –2 2 det(dx2) –32 56
-607317
dx3=
2 5 1 10 –23
–1 15 –23 3 3
21 7 3 –23 12
–1 2 –10 7 –2
1 –2 2 det(dx3) –32 56
-282758
MARIN VLADA
336
dx4=
2 5 1 10 –23
–1 15 –23 3 3
11 –9 4 4 4
21 7 3 –23 12
1 –2 2 det(dx4) –32 56
1465641
dx5=
2 5 1 10 –23
–1 15 –23 3 3
11 -9 4 4 4
–1 2 –10 7 –2
21 7 3 det(dx5) –23 12
388670
x1 = x2 = x3 = x4 = x5 =
–7.44338 6.087903 2.834439 –14.692 –3.89613
SOLUȚIA
Metoda II. Rezolvare folosind Metoda matriceală și funcții Excel pentru operații matriceale. Analog, ca la Metoda I, se verifică valoarea det(A). Dacă aceasta valoare este nenulă, det(A)≠0, atunci sistemul este de tip Cramer. Proprietate. Dacă sistemul are det(A)≠0, atunci soluția sistemului se determină folosind formula X=inv(A) *B . METODA. Pornind de la forma matriceală a sistemului Cramer, A*X = B, se înmulțește această egalitate, membrul stâng și membrul drept, cu inv(A), se obtine inv(A)*A*X = inv(A)*B, și cum inv(A)*A = I, I=matricea unitate, rezultă X = inv(A)*B. Prin urmare, pentru calculul valorilor vectorului soluțiilor X, trebuie să se determine inversa matricei A și apoi se înmulțesc matriceal inv(A)*B. Vom folosi funcțiile din Excel: MINVERSE (), determină inversa unei matrice; MMULT (), determină înmulțirea a două matrice. MINVERSE(array), Array is a numeric array with an equal number of rows and columns. MMULT(array1, array2), Array1, array2 are the arrays you want to multiply.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
337
1. Pentru calculul inv(A), se selectează domeniul unde va returna funcția MINVERSE() rezultatul, adică domeniu B132:F136; se apelează funcția MINVERSE() prin formula „=MINVERSE(B132:F136)”, după care se apasă simultan tastele Ctrl+Shift+CR. 2. Pentru calculul inv(A)*B, se selectează domeniul unde va returna funcția MMULT() rezultatul, adică domeniu H185:H189; se apelează funcția MMULT() prin formula „=MMULT(B185:F189,H132:H136)”, după care se apasă simultan tastele Ctrl+Shift+CR. Tabelul 39. Foaia de calcul din programul Excel
A=
invA =
2 5 1 10 –23
–1 15 –23 3 3
detA = –0.10371 0.122797
–99758 0.581347 –0.22825
0.523216 0.678422 0.391598 -0.27309 –0.36755 –0.21062
0.102849 –0.26486 –0.06598
-0.0973 0.600072 0.279376
–0.08914 –0.10213 –0.06049 0.596213 0.940195 0.542122 0.257182 0.339201 0.213657
11 –9 4 4 4
Verificare B=AX B=
–1 2 –10 7 –2
21 7 3 –23 12
1 –2 2 –32 56
B=
21 7 3 –23 12
–7.44338 6.087903 X=
2.834439 –14.692 –3.89613
SOLUȚIA
5.2.2 Problema celor 5 pahare Berzelius În 5 pahare Berzelius s-au amestecat diferite substanțe cunoscute, în proporții diferite, necunoscându-se volumul din fiecare substanță. Să se determine volumul pentru fiecare din cele 5 substanțe, dacă se cunosc doar următoarele date: 1. în primul pahar se introduc, 2 volume din prima substanță, un volum din a doua, 3 volume din a treia, 7 volume din a patra și 5 volume din a 5-a, obținându-se 15 ml soluție; 2. în al doilea pahar se introduc, 3 volume din prima substanță, 5 volume din a doua, 2 volume din a treia, 4 volume din a patra și 8 volume din a 5-a, obținându-se 20 ml soluție;
MARIN VLADA
338
3. în al treilea pahar se introduc, 5 volume din prima substanță, 4 volume din a doua, 6 volume din a treia, 6 volume din a patra și 1 volum din a 5-a, obținându-se 22 ml soluție; 4. în al patrulea pahar se introduc, 6 volume din prima substanță, 2 volume din a doua, 4 volume din a treia, 5 volume din a patra și 2 volume din a 5-a, obținându-se 16 ml soluție; 5. în al cincilea pahar se introduc, 1 volum din prima substanță, 3 volume din a doua, un volum din a treia, 2 volume din a patra și 3 volume din a 5-a, obținându-se 5 ml soluție. Indicație. Rezolvarea problemei se reduce la rezolvarea unui sistem de 5 ecuații cu 5 necunoscute: 2x+y+3z+7t+5u=15 3x+5y+2z+4t+8u=20 5x+4y+6z+6t+u=22 6x+2y+4z+5t+2u=16 x+3y+z+2t+3u=5 Inversa matricei A (matricea sistemului): Soluția sistemului: x =0.069364 0.190751 –0.10983 –0.39306 0.317919 –0.06358 y =0.247913 –0.26268 0.033398 0.447013 –0.28966 0.23571 z =0.106615 –0.42903 0.294155 0.321773 0.02569 –0.11625 t =0.204239 0.39499 –0.26782 -0.04624 –0.11946 0.090559 u =0.430957 0.157354 0.104689 –0.36802 0.188182 –0.12653 Aplicaţia 3. Scenarii - Repetarea unor calcule pentru mai multe seturi de date. Tabelarea unei funcţii de mai multe variabile f : Rn → R. Definiţie. Un scenariu reprezintă o foaie de calcul ce conţine valoarea unei funcţii de mai multe variabile y = f(x1 , x2 , … , xn) pentru un set de valori ale argumentelor x1 , x2 , … , xn. Pentru o funcţie de n variabile (argumente) se pot ataşa mai multe scenarii, fiecare scenariu având ataşat un nume distinct. Exemplu. Pentru generarea unor scenarii, să presupunem că zilnic, în cadrul unui proces tehnologic, trebuie să se măsoare valoarea unui parametru (de exemplu, temperatura, presiunea etc.) în diverse locuri, de exemplu la 4 aparate de măsură. Vom nota cele patru măsurări prin x1, x2, x3, x4. Se cere ca zilnic, să se calculeze deviaţia standard estimată (rădăcina pătrată a dispersiei estimate) corespunzătoare celor 4 valori. Dacă x1, x2,…, xn sunt aceste valori, dispersia estimată a valorilor x1, x2,…, xn este notată cu SX. Prin urmare, trebuie să se calculeze valori ale funcţiei de n variabile f(x1, x2,…, xn), unde
x x n
f : R n R, f ( x1 ,..., xn ) S X
i 1
2
i
n 1
,x
1 n xi . n i1
Statistică şi Informatică pentru chimie medicală şi farmaceutică
339
Într-o foaie de calcul vom memora în celulele B2 :B5 valorile parametrului măsurate la început, scenariu numit Curent Values. Deviaţia standard estimată (rădăcina pătrată a dispersiei estimate) corespunzătoare celor 4 valori se calculează în celula B7, prin introducerea formulei =STDEV(B2 :B5). Pentru crearea mai multor scenarii (în esenţă, acest scop îl are comanda Scenario Manager), se selectează Date What-if-Analysis Scenario Manager care determină deschiderea ferestrei de dialog Scenario Manager.
Fig. 231. Fereastra Scenario Manager din Excel Gestionarea (crearea, afişarea, editarea) scenariilor se face prin următoarele acţiuni: 1. după ce în foaia de calcul s-a memorat un set de valori (de exemplu, în regiunea B2 :B5), şi s-a introdus într-o celulă formula pentru calculul corespunzător (de exemplu, în celula B7), se utilizează meniul Date Whatif-Analysis pentru a selecta comanda Scenario Manager; se va deschide ferestra de dialog Scenario Manager, care oferă mai multe butoane (Add, Delete, Edit, Merge, Summary, inclusiv Show, Close) cu ajutorul cărora se pot realiza prelucrări asupra scenariilor; 2. în fereastra de dialog Scenario Manager se acţionează butonul Add (adăugare scenariu) prin care se cere crearea unui nou scenariu; se afişeaza fereastra de dialog Add Scenario, în care utilizatorul trebuie să indice un nume pentru scenariu (Scenario name), zona de celule care intră în calcul (Changing cells), opţional comentariu (Comment), şi opţiuni de protecţie (Protection); în linia Changing cells se tastează, sau se indică cu mouse-ul, referinţa la celulele, care conţin valorile ce vor intra în calcul; pentru desemnarea celulelor neadiacente cu mouse-ul, în timpul selectării celulelor, se va ţine apăsată tasta ; dacă este activată opţiunea Prevent chages, scenariul generat este protejat la ştergere şi la editare (în acest caz şi foaia de calcul trebuie să fie protejată prin Protect Sheet); în final, se acţioneaza butonul OK, prin care se va afişa fereastra de dialog Scenario Values;
MARIN VLADA
340
3.
fereasta de dialog Scenario Values oferă specificarea valorilor corespunzătoare celulelor, care trebuie să se modifice, şi care reprezintă argumentele funcţiei (formulei) ce se evaluează ; în liniile corespunzătoare, se vor introduce noile valori ale argumentelor, numărul maxim de argumente fiind 32; în final, se va acţiona butonul OK, care determină revenirea la fereastra principală Scenario Manager, sau se va acţiona butonul Add, pentru a se afişa fereastra de dialog Add Scenario, pentru crearea unui nou scenariu;
Fereastra principală pentru gestionarea scenariilor Scenario Manager oferă butoane, care au funcţii bine definite: Add – adăugarea de noi scenarii prin afişarea ferestrei de dialog Add Scenario; Delete – ştergerea scenariului, care a fost selectat din lista Scenarios; Edit – afişarea ferestrei de dialog Edit Scenario, care este identică cu ferestra Add Scenario, şi care permite editarea scenariului selectat (numele, referinţele la celulele care se modifică, comentariile), modificările efectuate sunt urmărite şi sunt afişate în partea inferioară a ferestrei, în zona destinată comentariilor;
Statistică şi Informatică pentru chimie medicală şi farmaceutică
341
Merge – interclasarea în foaia de calcul actuală a diferitelor scenarii, care se află în diverse agende de lucru, deschise simultan, şi care trebuie să aibă aceeaşi structură; prin acţionarea butonului Merge se afişeaza ferestra de dialog Merge Scenarios care oferă casetele Book şi Sheet, și care se indică numele agendelor de lucru şi numelor scenariilor ce trebuie interclasate; Summary – crearea unui raport întro foaie separată a agendei de lucru activă; se pot crea două tipuri de rapoarte, sumarul scenariilor, şi un tabel pivot corespunzător scenariilor; ferestra afişată oferă două botoane de validare (Scenario summary, Scenario Pivot Table) şi caseta Result cells. Dacă se validează butonul Scenario summary, se creează un raport, care afişeaza toate scenariile definite (valorile de intrare şi rezultatele corespunzătoare), în cazul în care agenda de lucru este gestionată în regim monoutilizator; dacă se validează butonul Scenario Pivot Table, se va genera un tabel pivot, care conţine şi un control de tip listă ascunsă; elementele listei permit filtrarea rezultatelor în rapor cu numele utilizatorului, acest lucru se face dacă agenda de lucru este partajată între mai multi utilizatori; linia Result cells conţine referinţa sau referinţele la acele celule, pentru care se doreşte recalcularea rezultatelor pentru scenariul aplicat; prin crearea celor două rapoarte, automat se creează două foi de calcul, cu numele corespunzătoare tipului de raport:
Scenario Pivot Table Foaia de calcul Scenario Pivot Table
Fig. 232. Scenario Pivot Table
MARIN VLADA
342
Scenario Summary
Raport Summary
Fig. 233. Scenario Summary
5.3 Teme practice pentru Laborator Statistică & Informatică pentru chimie medicală și farmaceutică – TEME și aplicații practice pentru Laborator (M. Vlada, 2017). Laborator 1 Tema 1. Calcule statistice, funcții matematice și statistice – facilități oferite de Excel Ref.: M, Vlada, C3-C5-Informatica.pdf, a) ∑ (Autosum) Excel www.unibuc.ro/prof/vlada_m b) Sum (...) Excel c) fx Excel , AVERAGE (...) Excel , - Într-un tabel, să se genereze pe orizontală și pe verticală, serii de numere consecutive folosind Edit Fill Series. Să se utilizeze funcțiile indicate în a)-c) și să se verifice rezultatele. Suma Verificare 1 2 3 … 20 2 ∑ (Autosum) 3 …
AVERAGE ()
20 Media Verificare
SUM () /n
n( n 1) Gauss 2
Statistică şi Informatică pentru chimie medicală şi farmaceutică
343
Tema 2. Indicatori statistici: corelația (Pearson), covarianța, abaterea standard - Se consideră datele (măsurările) a două variabile aleatoare/seturi de date X și Y, X=(xi)i=1,n și Y=(yi)i=1,n, adică (xi ,yi), i=1,..., n. Să se calculeze corelația dintre vectorii X și Y cu formula: rXY ,
A, B , A X X,B Y Y. || A || || B ||
a) folosind funcția CORREL (X,Y) Excel , b) folosind covarianța COVAR(X,Y) Excel și abaterea standard STDEVP (X) Excel (Observație. Nu se utilizează STDEV, aceasta va fi pentru un eșantion statistic) n
Pentru calculul Sx și Sy nu se utilizează STDEV, deoarece în formulă, la numitor, are expesia (n-1).
rXY
Cov( X , Y ) , Cov X , Y S X SY n
SX
x i 1
i
i 1
i
x yi y
2
SY
,
n n
x
n
x
y i 1
y
2
i
n
,
unde Cov(X,Y) este covarianța , SX , SY sunt abaterile standard. Folosiți HELP Excel , c) folosind Excel pentru calculele directe: se utilizează calculele intermediare (vectori)
A X X ; B Y Y ; C A B ; D A2 ; E B 2 Laborator 2 Calcule și reprezentări grafice Tema 1. Puterile lui 2: Puterile 2k, k > 0. Folosind Fill (generare Series) Să se genereze într-un tabel valori pentru k de la 1 la 200. Pentru k > 30 să se determine numărul cifrelor şi cifrele puterii 2k (de exemplu, să se verifice că 2100 are 31 de cifre şi 2100 = 1267650600228229401496703205376, iar 21000 are 302 cifre). Verificare pentru 2200, 2300. a) folosind operatorul putere „^”, adică 2^k; b) folosind funcția POWER () Excel ; c) folosind http://web2.0calc.com/ (Web 2.0 Scientific Calculator) d) folosind www.wolframalpha/examples/Math.html (Knowledge Computable platform). k 1 …
2^k 2 …
POWER(2,k) 2 …
MARIN VLADA
344 Tema 2. Reprezentarea grafică a funcțiilor
a) f : [-10, 10] R , f(x) = x*sin (x), pasul de discretizare interval, p=0.1 b) f : [-2, 2] R, f(x) = e-x*x (clopotul lui Gauss), pasul de discretizare, p=0.1 c) C2 : [0, 120] R, pasul de discretizare interval, p=1
C2 t
k a c0 kat ket e e ke k a
(curba de absorbție-eliminare în Farmacocinetică), unde C0 =10, ka =0.3, ke =0.03. 1. folosind tabelerea funcției și programul Excel (DEFINIȚIE. Tabelarea unei funcții înseamnă generarea unui tabel cu 2 coloane, în care prima conține valori ale argumentului x generate cu pasul p=1 , 0.1 sau 0.01, și a doua, ce conține valorile f(x) ale funcției în aceste valori ale lui x) 2. folosind http://web2.0calc.com/ (Web 2.0 Scientific Calculator) 3. folosind http://www.wolframalpha.com/examples/PlottingAndGraphics.html 4. folosind http://www.mathe-fa.de/ro 1. Să se genereze pentru argumentul x, respectiv t, într-un tabel pe verticală, serii de numere consecutive folosind Edit Fill Series, cu pasul pas = 0.1. Se vor calcula valorile funcției în aceste valori generate, după care să se realizează graficul folosind Chart Line Excel . 2. Comenzi pentru programele care realizează reprezentări grafice – http://web2.0calc.com și http://www.wolframalpha.com/examples/PlottingAndGraphics.html: comanda: plot (x*sin(x), x=−50..50), respectiv plot x*sin(x) from x=−50 to 50 comanda: plot (exp(−x*x),x=−2..2) comanda: plot ((3/(0.03−0.3))*(exp(−0.3*x)-exp(−0.03*x)), x=0..120) Laborator 3 Rezolvarea de probleme și prelucrarea datelor Aplicație Indicele de masă corporală (IMC) (Body mass index – BMI) este un indicator statistic al greutății (G) unei persoane, raportate la înălțimea (H) persoanei respective. Formula are ca rezultat o cantitate exprimată în kg/m2:
IMC
G [kg] . H 2 [ m]
S-au definit nivele de risc pentru a indica o stare, funcție de valoarea IMC: 1. Sub-ponderal – dacă IMC < 18.5; 2. Normal-ponderal – dacă 18.5 ≤ IMC < 25.0; 3. Supra-ponderal – dacă 25.50 ≤ IMC < 30.0; 4. Obezitate I – dacă 30.0 ≤ IMC < 35.0; 5. Obezitate II – dacă 35.0 ≤ IMC < 40.0; 6. Obezitate III – dacă IMC ≥ 40.0.
Statistică şi Informatică pentru chimie medicală şi farmaceutică
345
Exemplu. Pentru 100 de persoane să se genereze aleator valori de greutate (cuprinse între 30 și 130) și de înăltime (cuprinse între 1.4 și 2.10). În tabelul următor să se calculeze IMC și să se determine nivelul acestui indice. Separat, în 2 coloane se generează aleator valori pentru G și H, folosind funcția RAND(), cu formula „=a+RAND()*(b-a)”, intervalul de generare fiind [a,b]. Formula se bazează pe bijecția f : [0,1] [a,b], f(t) = a+ t(b-a); f(0) = a și f(1) = b. Pentru a nu se modifica valorile generate la orice acțiune din Excel, acestea se copiază prin Paste SpecialValues, în coloanele corespunzătoare din tabel. Pentru determinarea nivelului IMC se va utiliza funcția IF(logical_test,value_if_true,value_if_false). Ggreutate 67 35 …
Nr. crt. 1 2 …
HStareIMC=G/H^2 inaltime indice 1.8 20.679012 Norm-P 1.5 15.555556 Sub-P … … …
D10
Celula E10 va conține formula „=IF(D10