35 0 2MB
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Inteligență computațională Proiect
Student: Ana Alexandru-Teodor Grupa: 1063 Seria: B
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Cuprins I.
Obiectiv si sursa datelor ........................................................................................................................ 3
II.
Statistici descriptive in R ...................................................................................................................... 4
III.
Analizarea Componentelor Principale ............................................................................................ 10
IV.
Analiza Cluster................................................................................................................................ 20 Clusterizarea Fuzzy ............................................................................................................................. 29
V. VI.
Clasificare ....................................................................................................................................... 39
a)
Metoda celor mai apropiati vecini(KNN) ....................................................................................... 39
b)
Masina cu suport vectorial .............................................................................................................. 43
c)
Arbori de decizie ............................................................................................................................. 46
VII.
Regresia Logistica Binomiala ......................................................................................................... 48
VIII.
Retele neuronale.............................................................................................................................. 51
Concluzii ..................................................................................................................................................... 53
2
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
I.
Obiectiv si sursa datelor
Pentru acest proiect am ales domeniul IT, mai exact piata de laptopuri din Romania pentru a urmari ce modele sunt optime pentru cumparatori prin analiza unui set de indicatori specifici. In acest sens, am folosit Excel pentru prelucrarea datelor si programul R pentru analiza acestora. Datele au fost gasite pe diferite site-uri de specialitate, precum pcgarage.ro, cel.ro, emag.ro, dar si site-urile producatorilor HP si Dell. Astfel, printre indicatorii de performanta gasiti, se numara: Date cantitative: FP – Frecventa Procesorului, masurat in Ghz DCP – Dimensiunea Cache Procesor, masurata in MB PC – Putere Consumata, masurat in W HDD – Capacitatea de stocare, masurata in TB RAM – Capacitatea memoriei RAM, masurata in GB FM – Frecventa memoriei RAM, masurata in Mhz DiagLCD – Diagonala ecranului, masurata in Inch GL – Greutatea Laptopului, masurata in kg PV – Placa Video, masurata in GB Pret – Pretul laptopului la momentul actual, masurat in mii lei. Date calitative Nivel – Nivel pretului. Ulterior, in analiza, se va adauga si o variabila calitativa ce va exprima daca pretului laptopului este Mic, Mediu, Mare Ulterior, cu ajutorul programului Excel, am ajuns la o prelucrare eficienta a datelor, dupa cum se poate vedea si in imaginea de mai jos:
3
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig1. Date in Excel
II.
Statistici descriptive in R
Pentru aceasta, am incarcat datele fisierului Excel in R cu cele 38 modele de laptop:
4
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig2. Summary In urma analizei prin comanda summary, deducem cateva observatii:
Pretul minim al unui laptop este 989 lei, pentru Dell Insprion 3552, care este unul din cele mai ieftine modele de la Dell de pe piata, iar pretul maxim pentru un laptop este de 13709 lei, Dell XPS 15. Media pretului pe piata din Romania pentru un laptop Dell sau HP este de 5670 lei. De asemenea, observam ca 75 % din laptopurile de pe piata din Romania depasesc 2540 lei. Capacitatea memoriei de stocare (HDD) pentru 75% din laptopuri depaseste 256 GB. Greutatea medie a unui laptop este de aproximativ 2 kg. Pentru a afla cu cat difera valoarea asteptata a unui indicator cu valoarea reala, am folosit abaterea standard:
Fig3. Abaterea standard Abaterea standard pentru pret este de 3.38% ceea ce indica faptul ca valoarea pretului se abate cu 3.38% fata de media acestuia. 5
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Pentru diagonala ecranului exista o abatere de doar 1.22% fata de valoare medie a acestui indicator. Cea mai mica abatere se inregistreaza la greutatea laptopului, de doar 0.57%.
Fig4. Skewness si kurtosis Coeficientul de asimetrie( Skewness) se caracterizeaza prin gradul de asimetrie a unei repartitii, si alaturi de coeficientul de aplatizare (Kurtosis), indica forma repartitiei (prezentata sub forma unei histograme). Din figura de mai sus, se poate deduce ca valoarea coeficientului de asimetrie este de 0.506, care este mai mare ca 0, ceea ce inseamna o usoara inclinatie a distributiei spre stanga, avand mai multe valori extreme spre dreapta. Coeficientul de aplatizare este de 2.24 < 3, distributia fiind mezokurtica, astfel avand valori imprastiate pe un interval mai mare in jurul mediei. Frecventa memoriei RAM, analizat prin prisma celor doi indici, arata o distributie usor inclinata spre dreapta, cu valori extreme spre stanga ( gradul de asimetrie -0.522 < 0), totodata fiind si platikurtica avand la randu-I mai multe valori in jurul mediei. Memoria RAM prezinta o distributie inclinata spre stanga, avand valori extreme in partea dreapta (skewness 1.57 > 0), leptokurtica (6.22 >0), ceea ce ar putea indica faptul ca exista probabilitati ridicate pentru valori extreme. Pentru a sustine ceea ce am mentionat si mai sus, vom folosi reprezentarea grafica a distributiilor identificate cu ajutorul histogramelor. Cu alte cuvinte, o histograma este de fapt o diagrama, care, impartite pe intervale de date si pe numarul de observatii, vor rezulta o multime de arii proportionate.
Fig5.1 Histograma preturilor
6
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Histograma preturilor arata ca distributia este inclinata spre stanga, cu valori extreme in partea dreapta, fapt dovedit si prin valoarea coeficietului de asimetrie de 0.506%. De altfel, distributia este mezokurtica, valorile fiind imprastiate in jurul mediei.
Fig5.2 Histograma frecventa procesor Histograma frecventei procesorului indica o distributie aproape simetrica, cu un coeficient de asimetrie de -0.06, foarte apropiata de 0. Distributia este mezokurtica, valori imprastiindu-se in jurul mediei.
Fig5.3 Histograma memoriei RAM
Histograma aferenta memoriei RAM prezinta o distributie inclinata spre stanga, avand valori extreme spre dreapta (skewness 1.57%), leptokurtica cu variatii mici, dar valori extreme(kurtosis 6.29%).
7
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig6. Matricea de corelatie
Pentru a observa o legatura intre indicii de performanta si variabile, voi folosi matricea de corelatie, ilustrata mai sus. Coeficientul de corelatie are valori in intervalul -1 si 1. Daca valorile sunt apropiate de 0, corelatia dintre doua variabile este slaba Daca valorile sunt apropiate de -1 sau 1, corelatia este mai puternica. Daca coeficientul este negative, legatura este inversa, iar daca coeficientul este pozitiv, legatura este una directa.
Fig7. Matricea de corelatie forma grafica 8
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Din urma matricei si a graficului de mai sus, putem obtine urmatoarele informatii: Intre valoarea pretului si memoria ram exista o legatura directa, destul de puternica, cu un coeficientul de corelatie de 0.81. Intre memoria RAM si greutatea laptopului exista o legatura directa, destul de slaba, cu un coeficient de 0.07 si nu se influenteaza reciproc. Intre frecventa procesorului si ceilalti indicatori, cu exceptia pretului, exista o legatura directa, destul de slab, concluzionand faptul ca nu se influenteaza reciproc. Diagrama Boxplot ofera informatii, la fel ca si Histograma, privind forma distributiei. De asemenea, un Boxplot se rezuma la cinci aspecte: valoarea minima, valoarea maxima, prima quartile, mediana si a 3a quartile. Totodata, exista si valori outside the box, denumite outlier. Boxplot-urile de mai jos sustin rezultatele obtinute anterior despre coeficientul de aplatizare pentru indicatorii de performanta analizati. Cu exceptia unui indice de performanta (greutatea laptopului), toti ceilalti sunt lipsiti de outlieri, ceea ce inseamna ca nu influenteaza media sau skewness si kurtosis.
Fig8. Boxplot Pentru a observa daca media este reprezentativa sau nu, vom folosi coeficientul de variatie. In unele situatii, cum ar fi in cazul puterii consumate de catre laptop, media nu este reprezentativa (53.6% > 35%), dar in cazul Pretului pentru un laptop, media este reprezentativa ( 29,1% < 35%). 9
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig8. Coeficientul de variatie
III.
Analizarea Componentelor Principale
Deoarece avem indicatori de performanta ce se masoara in unitati de masura diferite, vom utiliza standardizarea datelor. Standardizarea datelor presupune substituirea valorilor cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile:
unde
reprezinta media lui i variabile, iar Si reprezinta abaterea standard a variabilei Xi.
10
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig9. Standardizarea datelor O metoda de a ne asigura ca datele au fost corect standardizate este compararea matricei de covarianta cu cea de corelatie. In cazul in care acestea sunt identice, rezulta ca standardizarea a fost realizata corect.
11
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig10. Covarianta
Fig11. Matricea de corelatie
12
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Dupa cum se poate observa, datele din cele doua matrici sunt identice, astfel standardizarea este realizata corect.
Alegerea numarului de componente principale – Criterii A. Criteriul lui Kaiser
Fig12. Numarul de componente principale este dat de numarul componentelor ce au varianta mai mare ca 1. In figura de mai sus, componentele 1,2 si 3 au valori peste 1, acestea preluand cele mai mari procente ale informatiei totale. B. Criteriul pantei ScreePlot
13
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig13.
In figura de mai sus: Valp – reprezinta valoarea varianței fiecarei componente ProcentA – reprezinta procentul de informatie din informatia totala ProcentC – reprezinta varianța cumulate
Fig14. ScreePlot Conform criteriului pantei, componentele ce au varianța mai mare decat 1 sunt componente principale. Astfel, conform figurei de mai sus, numarul de componente principale este egal cu 3. C. Criteriul Procentului de variatie 77,23% reprezinta procentul din informatia totala a primelor 3 componente principale. Analizand, observam ca 22,77% din informatia totala se pierde.
14
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig15. Din figura de mai sus, vom folosi primele 3 componente principale pentru a scrie forma generala: W1=0.314*Pret + 0.226*FP + 0.312*PC + 0.394*DCP + 0.277*HDD+ 0.306*RAM+ 0.346*FM + 0.256*DiagLCD + 0.286*GL + 0.401*PV W2=0.427*Pret + 0.107*FP – 0.259*PC + 0.13*DCP – 0.21*HDD + 0.461*RAM +0.124*FM -0.451*DiagLCD – 0.497*GL W3=0.303*Pret + 0.612*FP + 0.262*PC -0.315*DCP -0.42*HDD – 0.399*FM +0.122*DiagLCD+0.122*GL
Fig16. Matricea corelatiei factoriale Calculul scorurilor principale; putem exemplicam pentru prima observatie si se calculeaza pentru fiecare componenta principala: 15
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică EB(Comp1)=0.314*1.472 + 0.226*(-0.789) + 0.312*(-0.788) + 0.394*1.206 + 0.277*(-0.776)+ 0.306*1.089+ 0.346*0.726 + 0.256*0.715 + 0.286*(-0.36) + 0.401*(-0.139)=0.7 EB(Comp2)=0.427*1.472 + 0.107*(-0.789) – 0.259*(-0.788) + 0.13*1.206 – 0.21*(-0.776) + 0.461*1.089 +0.124*0.726 -0.451*0.715 – 0.497*(-0.36)=0.55 EB(Comp3)=0.303*1.472 + 0.612*(0.789) + 0.262*(-0.788) -0.315*1.206 -0.42*(-0.776) – 0.399*0.726 +0.122*0.715+0.122*(-0.36)=0.3
Din figura 16., in care este reprezentata matricea corelatiei factoriale, putem deduce mai multe observatii precum: W1 are o legatura directa puternica cu valoarea pentru Placa Video (0.89) si Dimensiunea Cache Procesor (0.88) W2 are o legatura directa, dar destul de slaba cu valoarea pentru Placa Video (0.01) dar si o legatura inversa directa cu Greutatea Laptopului (-0.64) W3 are o legatura directa destul de puternica cu valoarea pentru Frecventa Procesor (0.61) dar foarte slaba, tinzand catre 0 cu Placa Video (0.007)
Fig16. Cercul corelatiilor pentru W1 si S2
16
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig17. Cercul corelatiilor pentru W1 si W3
Fig18. Cercul corelatiilor pentru W2 si W3
17
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Grafice componente
Fig 19. Corelatia dintre prima componenta si a doua Figura de mai sus descrie legatura dintre observatii si componentele principale(in cazul nostru, prima componenta si a doua) in functie de nivelul de corelatie. Astfel, HP Elitebook 820 G4 este una din observatiile care ies din tipar, fiind corelata pozitiv de ambele componente, insa mai puternic de a doua componenta. De asemenea, laptopul Dell Alienware 15 are o legatura directa puternica cu prima componenta, insa o legatura inversa cu a doua componenta. Urmatoarele grafice ilustreaza aceleasi corelatii bazandu-se pe a doua si a treia componenta, respectiv prima si a treia componenta.
18
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig 20. Graficul corelatiilor dintre component 2 si 3
Fig 21. Graficul corelatiilor dintre component 1 si 3
19
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Fig22. Grafic Biplot
IV. Analiza Cluster Analiza cluster poate fi privită ca un instrument care are ca scop reducerea unor mulțimi de obiecte, sau chiar de variabile, la un număr mai restrâns de entități informaționale, care sunt clasele sau clusterele. Totuși, deși analiza cluster, privită ca un ansamblu de metode și tehnici de clasificare a obiectelor, se aplică în spațiul variabilelor, utilizările frecvente ale acestor tehnici de analiză se remarcă pentru clasificarea obiectelor. Vom utiliza scorurile principale pentru fiecare observație în cele 3 componente stabilite la analiza componentelor principale. Pentru început vom utiliza metoda ierarhică și vom începe cu calculul matricei de distanțe.
20
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
După calculul matricii distanțelor folosim dendograma clusterelor pentru a realiza o ierarhie.
In continuare, observam faptul ca prin agregare medie se realizeaza o clusterizare mai eficienta fata de cea precedenta.
21
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Ultima metoda de ierarhizare este metoda Ward.
In final, se poate observa ca cea mai eficienta metoda de ierarhizare este metoda Ward. Astfel, putem imparti datele in 3 clustere.
22
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
a) Algoritm de clusterizare ierarhica Pas 1: Taietura in dendograma
23
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Pas 2 – Apartenenta obiectelor la cluster
Avem urmatoarea repartitie, astfel:
Cluster 1 – 14 modele de laptop Cluster 2 – 14 modele de laptop Cluster 3 – 10 modele de laptop
Pas 3 – Calculam mediile in fiecare cluster
Pentru a observa ce componente sunt cel mai bine reprezentate de clustere de mai sus, se alege valoarea cea mai mare din cadrul componentelor. Astfel:
Pentru componenta 1, este reprezentata cel mai bine de modelele de laptop din cluster 3 Pentru componenta 2, este reprezentata cel mai bine de modelele de laptop din cluster 1 Pentru componenta 3, este reprezentata cel mai bine de modelele de laptop din cluster 2.
24
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Pas 4 – Reprezentare grafica
Variabilitatea intercluster este foarte scazuta intrucat se observa ca suprafetele se suprapun.
Pas 5 – graphic silhouette
25
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Avem valori negative, ceea ce inseamna ca exista posibilitatea ca unele observatii sa fie incluse in clustere diferite.
Algoritmul K-means
Urmam pasii algoritmului si alegem 3 observatii de baza, alocam obiectele in clustere si calculam centroizii. Prin alocarea obiectelor in cluster am obtinut:
Fiecare observatie a fost alocata unui cluster din cele 3.
26
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Graficul silhouette arata ca nu avem valori negative, deci observatiile sunt clasate corect.
Pentru a vedea daca observatiile au fost descompuse efficient in clustere vom calcula variabilitatea totala, variabilitatea intraclasa si variabilitatea interclasa.
Variabilitatea interclasa are o valoare mare, insa pentru variabilitatea intraclasa avem valori mici.
Reluam algoritmul de la pasul 2 Din dendograma obtinuta prin metoda ward se poate observa ca putem alege 3 sau 5 clustere. Vom aplica metoda k-means pentru cele 5 clustere.
Obtinem alocarea pe cele 5 clustere a observatiilor:
27
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Din calculul centrozilor obtinem:
Prin realizarea graficului silhouette de aceasta data
28
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Graficul silhouette arata ca nu avem valori negative, deci clasate corect. Atunci cand calculam variabilitatea totala, intraclasa si interclasa obtinem:
Asadar, avem: 1. O valoare mult mai mare a variabilitatii interclasa fata de situatia incare am impartit observatiile in 3 clustere 2. Valori mult mai mici ale variabilitatii intraclasa. Asadar, modelul este mult mai eficient cu 5 clustere.
V.
Clusterizarea Fuzzy
Se observa ca avem un numar de 3 clustere cu gradul de fuzzyficare 2.
29
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Daca interogam coordonatele centroizilor putem interpreta in functie de acestea componenta clusterelor.
Se poate observa ca: Clusterul 1 este caracterizat in mod invers dependent de componenta 3 Clusterul 2 are o dependenta invers de componenta 1 Clusterul 3 inregitreaza cele mai representative valori pentru componenta 1
30
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
De asemenea, putem observa prin apelarea sectiunii de cluster unde este plasata fiecare observatie. Cu ajutorul functiei de apartenenta putem observa in ce masura fiecare observatie studiata se regaseste in fiecare cluster, luandu-se gradul cel mai mare de pe linie. Suma acestora trebuie sa fie mereu 1.
31
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Putem da exemplu modelul de laptop HP Elitebook 850 G5, unde cel mai reprezentativ cluster este clusterul 1, regasindu-se cel mai putin in clusterul 3. Putem identifica pentru fiecare componenta observatiile representative si carui cluster ii apartin acestea in graficul de mai jos.
32
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Daca dorim sa obtinem clusterul de care apartine o observatie in functie de valoarea componentei vom apela functia table intre componentele din datele initiale si cluster.
33
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
34
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Spre exemplu, pentru primul model de laptop, componenta 1 este reprezentativa pentru cluster 2, iar componenta 3 se regaseste in clusterul 3. Folosim functia FKM pentru o noua impartire a datelor in clustere. Se aplica fuzzy-cmeans pentru 3 clustere.
35
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Cu ajutorul functiei cl.size observam ca primul cluster contine 12 observatii, clusterul 2 contine 15 observatii iar clusterul 3 11 observatii. Desi valorile sunt diferite fata de analiza cluster simpla, proportiile s-au pastrat in principiu.
36
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Pentru a vizualiza mai bine clusterele vom realiza diagrama VAT.
Fiecare celula din figura se refera la disimilaritatea dintre o pereche de obiecte. Disimilaritatile mici sunt reprezentate prin umbre mai intunecate, iar disimilaritatile mai mari prin umbre mai deschise. Putem calcula apartenenta modelelor de laptop si vom obtine:
37
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Gradul cel mai mare de apartenenta se gaseste la primul model de laptop(cluster 1), modelul 17(cluster 3), modelul 4(cluster 2), avand cele mai representative valori ale componentelor descries de cluster.
38
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
VI. Clasificare Algoritmi de clasificare sunt folositi pentru a grupa date multi-dimensionale în grupe (clusters) definite algoritmic. Aceasta metoda este utila pentru cuantificarea unor cantitati mari de informatie, fiecare grupa reprezentând mai multe puncte având caracteristici similare. Clusterele distincte sunt disjuncte. Analiza clasificarii consta dintr-o serie de algoritmi ce exploateaza mai multe euristici bazate în principal pe experienta noastra „vizuala” în gruparea punctelor în regiuni de puncte. În general, pentru a putea folosi un algoritm de clasificare, este nevoie de urmatoarele informatii: distanta între punctele unui spatiu multidimensional; strategia de alegere a punctului reprezentativ (adica a „centrului”) pentru orice grupare de puncte; distanta între doua grupe de puncte. Cei mai importanti algoritmi de clasificare sunt: metoda celor mai apropiati vecini(KNN), metoda SVM si arbori decizionali.
a) Metoda celor mai apropiati vecini(KNN) Setul de date se va imparti intr-un set de antrenare si un set de testare. Pe baza algoritmului celor mai apropiati vecini aplicat in setul de antrenare se va efectua o predictie a variabilei calitative pentru setul de testare. In aceasta etapa, datele vor fi normalizate, iar statisticile descriptive ale acestora vor arata ca in figura de mai jos
39
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Rezultatele obtinute in urma normalizarii sunt adaugate intr-un nou data frame folosind functia as.data.frame(), dupa ce functia lapply() intoarce o matrice de aceeasi lungime cu setul de date initial. Fiecare element este rezultatul aplicarii normalizarii. Pentru a putea aplica algoritmul, vom imparti setul de date in 2 parti: una de antrenare si una de testare. Datele vor fi impartite in 2/3 = 67% din datele originale pentru setul de antrenare si 1/3 = 33% pentru setul de testare. Pentru a ne crea seturile, setam un “seed”, mai exact un numar in generatorul de numere aleatoare in R. Ne asiguram ca datele sunt amestecate si se pastreaza aceeasi proportie in modelele de laptopuri in seturile de antrenare si testare. Folosim functia sample() pentru a crea un esantion egal cu numarul de obiecte din baza de date care va lua valoarea 1 sau 2 in functie de cele 2 probaiblitati stabilite anterior. Definim seturile de antrenare si testare, fara a lua in calcul nivelul de pret al laptopului.
40
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Adaugam eticheta “Nivel” la setul de antrenare si testare si cream etichetele.
41
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Predictie: Folosin functia knn() care foloseste distanta Euclidiana pentru a gasi cei mai apropiati k vecini. Setam k-3 vecini.
Rezultatul comenzii este vectorul factor cu toate clasele previzionate pentru fiecare rand din setul de date. Afisam proportia fiecarei linii
42
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Din tabelul de mai sus, putem vedea numarul de predictii corecte si incorecte. In cazul de fata, cele 2 modele de laptopuri cu un nivel de pret “Mare” au fost previzionate corecte, similar pentru “Mediu” si “Mic” cu numar de 3 predictii corecte. Gradul de previzionare corecta a setului de date.
Setul a fost previzionat corecte in proportie de 62,5%.
b) Masina cu suport vectorial Este o tehnica pentru eficientizarea aproximarii functiilor multidimensionale. Se determina un clasificator care minimizeaza eroare setului de date. Se bazeaza pe hiperplan de separare care delimiteaza anumite clase. Obiectele sunt mapate folosind un set de functii matematice (nuclee).
43
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
44
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
45
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Analizand datele din matricea de confuzie, observam ca toate datele au fost previzionate corect, iar algoritmul are o precizie de 100%.
c) Arbori de decizie Este cea mai intalnita tehnica de clasificare. Acestia sunt utilizati pentru a predictiona apartenenta obiectelor la diverse clase si au avantajul vizualizarii sugestiv. Sunt usor de inteles si interpretat si pot fi aplicati datelor nominale si categoriale. Sunt eficienti mai ales in cazul seturilor mari de date. Pentru aceasta, vom incarca biblioteca party si vom construe arborele cu functia ctree.
46
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Predictia:
Conform tabelului de mai sus, toate nivelurile de pret ale laptopurile au fost previzionate corect.
47
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
VII. Regresia Logistica Binomiala Variabila dependenta lua in cazul acesta este Pretul. Vom folosi o variabila binara pentru a afla ce modele au valoarea peste media pietei (0) si ce modele nu (1).
Calculam noile seturi de antrenare si testare realizate pe baza variabilei binare.
48
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Realizam modelul de regresie intre variabila binara si capacitatea de memorie(HDD) si pret.
In continuare determinam probabilitatile de raspuns pentru setul de testare si matricea de confuzie.
Observam ca pentru 4 modele a fost previzionat corect iar 5 au fost previzionat incorect.
49
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Obtinem curba ROC si calculam aria acesteia.
Avem o valoare a ariei de sub curba ROC de 1, deci modelul se accepta.
50
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
VIII. Retele neuronale Retelele neuronale artificiale caracterizeaza ansambluri de elemente de procesare simple, puternic interconectate si operand in parallel, care urmaresc sa interactioneze cu mediul inconjurator intr-un mod asemanator creierelor biologice si care prezinta capacitatea de a invata.
Urmeaza sa contruim setul de testare si de antrenare, iar cu ajutorul functiei neuralnet vom contrui in final reteaua neuronala.
51
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
In reteaua noastra, avem 10 neuroni de intrare, reprezentati de cei 10 indicatori alesi initial, care preiau datele de intare si 3 date de iesire, ce reprezinta modelul de laptop in functie de nivelul pretului. Liniile negre arata legaturile dintre variabile si ponderile lor pe fiecare conexiune.
52
Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică
Concluzii Cu ajutorul statisticilor descriptive, al analizei componentelor principale, al arborilor de decizie si al retelelor neuronale am putut sa ne facem o imagine mai clara asupra situatiei economice a modelelor de laptop Asus si Dell din Romania. Pentru estimare a fost aleasa variabila Pret, puterea consumata si capacitatea acestuia. Din realizarea unor estimari si a unor predictii a mai multor modele si tipuri de functii, schimband pe rand metodele, variabilele si numarul acestora, concluzionam ca majoritatea modelelor luate in calcul sunt valide din punct de vedere statistic. Dintre acestea, s-a putut observa faptul ca metoda arborelui decizional este una optima pentru datele noastre, dar si metoda masinii cu suport vectorial.
53