Proiect Inteligenta Computationala [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Inteligență computațională Proiect

Student: Ana Alexandru-Teodor Grupa: 1063 Seria: B

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Cuprins I.

Obiectiv si sursa datelor ........................................................................................................................ 3

II.

Statistici descriptive in R ...................................................................................................................... 4

III.

Analizarea Componentelor Principale ............................................................................................ 10

IV.

Analiza Cluster................................................................................................................................ 20 Clusterizarea Fuzzy ............................................................................................................................. 29

V. VI.

Clasificare ....................................................................................................................................... 39

a)

Metoda celor mai apropiati vecini(KNN) ....................................................................................... 39

b)

Masina cu suport vectorial .............................................................................................................. 43

c)

Arbori de decizie ............................................................................................................................. 46

VII.

Regresia Logistica Binomiala ......................................................................................................... 48

VIII.

Retele neuronale.............................................................................................................................. 51

Concluzii ..................................................................................................................................................... 53

2

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

I.

Obiectiv si sursa datelor

Pentru acest proiect am ales domeniul IT, mai exact piata de laptopuri din Romania pentru a urmari ce modele sunt optime pentru cumparatori prin analiza unui set de indicatori specifici. In acest sens, am folosit Excel pentru prelucrarea datelor si programul R pentru analiza acestora. Datele au fost gasite pe diferite site-uri de specialitate, precum pcgarage.ro, cel.ro, emag.ro, dar si site-urile producatorilor HP si Dell. Astfel, printre indicatorii de performanta gasiti, se numara: Date cantitative:  FP – Frecventa Procesorului, masurat in Ghz  DCP – Dimensiunea Cache Procesor, masurata in MB  PC – Putere Consumata, masurat in W  HDD – Capacitatea de stocare, masurata in TB  RAM – Capacitatea memoriei RAM, masurata in GB  FM – Frecventa memoriei RAM, masurata in Mhz  DiagLCD – Diagonala ecranului, masurata in Inch  GL – Greutatea Laptopului, masurata in kg  PV – Placa Video, masurata in GB  Pret – Pretul laptopului la momentul actual, masurat in mii lei. Date calitative  Nivel – Nivel pretului. Ulterior, in analiza, se va adauga si o variabila calitativa ce va exprima daca pretului laptopului este Mic, Mediu, Mare Ulterior, cu ajutorul programului Excel, am ajuns la o prelucrare eficienta a datelor, dupa cum se poate vedea si in imaginea de mai jos:

3

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig1. Date in Excel

II.

Statistici descriptive in R

Pentru aceasta, am incarcat datele fisierului Excel in R cu cele 38 modele de laptop:

4

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig2. Summary In urma analizei prin comanda summary, deducem cateva observatii: 

  

Pretul minim al unui laptop este 989 lei, pentru Dell Insprion 3552, care este unul din cele mai ieftine modele de la Dell de pe piata, iar pretul maxim pentru un laptop este de 13709 lei, Dell XPS 15. Media pretului pe piata din Romania pentru un laptop Dell sau HP este de 5670 lei. De asemenea, observam ca 75 % din laptopurile de pe piata din Romania depasesc 2540 lei. Capacitatea memoriei de stocare (HDD) pentru 75% din laptopuri depaseste 256 GB. Greutatea medie a unui laptop este de aproximativ 2 kg. Pentru a afla cu cat difera valoarea asteptata a unui indicator cu valoarea reala, am folosit abaterea standard:

Fig3. Abaterea standard Abaterea standard pentru pret este de 3.38% ceea ce indica faptul ca valoarea pretului se abate cu 3.38% fata de media acestuia. 5

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Pentru diagonala ecranului exista o abatere de doar 1.22% fata de valoare medie a acestui indicator. Cea mai mica abatere se inregistreaza la greutatea laptopului, de doar 0.57%.

Fig4. Skewness si kurtosis Coeficientul de asimetrie( Skewness) se caracterizeaza prin gradul de asimetrie a unei repartitii, si alaturi de coeficientul de aplatizare (Kurtosis), indica forma repartitiei (prezentata sub forma unei histograme). Din figura de mai sus, se poate deduce ca valoarea coeficientului de asimetrie este de 0.506, care este mai mare ca 0, ceea ce inseamna o usoara inclinatie a distributiei spre stanga, avand mai multe valori extreme spre dreapta. Coeficientul de aplatizare este de 2.24 < 3, distributia fiind mezokurtica, astfel avand valori imprastiate pe un interval mai mare in jurul mediei. Frecventa memoriei RAM, analizat prin prisma celor doi indici, arata o distributie usor inclinata spre dreapta, cu valori extreme spre stanga ( gradul de asimetrie -0.522 < 0), totodata fiind si platikurtica avand la randu-I mai multe valori in jurul mediei. Memoria RAM prezinta o distributie inclinata spre stanga, avand valori extreme in partea dreapta (skewness 1.57 > 0), leptokurtica (6.22 >0), ceea ce ar putea indica faptul ca exista probabilitati ridicate pentru valori extreme. Pentru a sustine ceea ce am mentionat si mai sus, vom folosi reprezentarea grafica a distributiilor identificate cu ajutorul histogramelor. Cu alte cuvinte, o histograma este de fapt o diagrama, care, impartite pe intervale de date si pe numarul de observatii, vor rezulta o multime de arii proportionate.

Fig5.1 Histograma preturilor

6

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Histograma preturilor arata ca distributia este inclinata spre stanga, cu valori extreme in partea dreapta, fapt dovedit si prin valoarea coeficietului de asimetrie de 0.506%. De altfel, distributia este mezokurtica, valorile fiind imprastiate in jurul mediei.

Fig5.2 Histograma frecventa procesor Histograma frecventei procesorului indica o distributie aproape simetrica, cu un coeficient de asimetrie de -0.06, foarte apropiata de 0. Distributia este mezokurtica, valori imprastiindu-se in jurul mediei.

Fig5.3 Histograma memoriei RAM

Histograma aferenta memoriei RAM prezinta o distributie inclinata spre stanga, avand valori extreme spre dreapta (skewness 1.57%), leptokurtica cu variatii mici, dar valori extreme(kurtosis 6.29%).

7

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig6. Matricea de corelatie

  

Pentru a observa o legatura intre indicii de performanta si variabile, voi folosi matricea de corelatie, ilustrata mai sus. Coeficientul de corelatie are valori in intervalul -1 si 1. Daca valorile sunt apropiate de 0, corelatia dintre doua variabile este slaba Daca valorile sunt apropiate de -1 sau 1, corelatia este mai puternica. Daca coeficientul este negative, legatura este inversa, iar daca coeficientul este pozitiv, legatura este una directa.

Fig7. Matricea de corelatie forma grafica 8

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

  

Din urma matricei si a graficului de mai sus, putem obtine urmatoarele informatii: Intre valoarea pretului si memoria ram exista o legatura directa, destul de puternica, cu un coeficientul de corelatie de 0.81. Intre memoria RAM si greutatea laptopului exista o legatura directa, destul de slaba, cu un coeficient de 0.07 si nu se influenteaza reciproc. Intre frecventa procesorului si ceilalti indicatori, cu exceptia pretului, exista o legatura directa, destul de slab, concluzionand faptul ca nu se influenteaza reciproc. Diagrama Boxplot ofera informatii, la fel ca si Histograma, privind forma distributiei. De asemenea, un Boxplot se rezuma la cinci aspecte: valoarea minima, valoarea maxima, prima quartile, mediana si a 3a quartile. Totodata, exista si valori outside the box, denumite outlier. Boxplot-urile de mai jos sustin rezultatele obtinute anterior despre coeficientul de aplatizare pentru indicatorii de performanta analizati. Cu exceptia unui indice de performanta (greutatea laptopului), toti ceilalti sunt lipsiti de outlieri, ceea ce inseamna ca nu influenteaza media sau skewness si kurtosis.

Fig8. Boxplot Pentru a observa daca media este reprezentativa sau nu, vom folosi coeficientul de variatie. In unele situatii, cum ar fi in cazul puterii consumate de catre laptop, media nu este reprezentativa (53.6% > 35%), dar in cazul Pretului pentru un laptop, media este reprezentativa ( 29,1% < 35%). 9

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig8. Coeficientul de variatie

III.

Analizarea Componentelor Principale

Deoarece avem indicatori de performanta ce se masoara in unitati de masura diferite, vom utiliza standardizarea datelor. Standardizarea datelor presupune substituirea valorilor cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile:

unde

reprezinta media lui i variabile, iar Si reprezinta abaterea standard a variabilei Xi.

10

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig9. Standardizarea datelor O metoda de a ne asigura ca datele au fost corect standardizate este compararea matricei de covarianta cu cea de corelatie. In cazul in care acestea sunt identice, rezulta ca standardizarea a fost realizata corect.

11

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig10. Covarianta

Fig11. Matricea de corelatie

12

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Dupa cum se poate observa, datele din cele doua matrici sunt identice, astfel standardizarea este realizata corect.

Alegerea numarului de componente principale – Criterii A. Criteriul lui Kaiser

Fig12. Numarul de componente principale este dat de numarul componentelor ce au varianta mai mare ca 1. In figura de mai sus, componentele 1,2 si 3 au valori peste 1, acestea preluand cele mai mari procente ale informatiei totale. B. Criteriul pantei ScreePlot

13

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig13.

  

In figura de mai sus: Valp – reprezinta valoarea varianței fiecarei componente ProcentA – reprezinta procentul de informatie din informatia totala ProcentC – reprezinta varianța cumulate

Fig14. ScreePlot Conform criteriului pantei, componentele ce au varianța mai mare decat 1 sunt componente principale. Astfel, conform figurei de mai sus, numarul de componente principale este egal cu 3. C. Criteriul Procentului de variatie 77,23% reprezinta procentul din informatia totala a primelor 3 componente principale. Analizand, observam ca 22,77% din informatia totala se pierde.

14

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig15. Din figura de mai sus, vom folosi primele 3 componente principale pentru a scrie forma generala: W1=0.314*Pret + 0.226*FP + 0.312*PC + 0.394*DCP + 0.277*HDD+ 0.306*RAM+ 0.346*FM + 0.256*DiagLCD + 0.286*GL + 0.401*PV W2=0.427*Pret + 0.107*FP – 0.259*PC + 0.13*DCP – 0.21*HDD + 0.461*RAM +0.124*FM -0.451*DiagLCD – 0.497*GL W3=0.303*Pret + 0.612*FP + 0.262*PC -0.315*DCP -0.42*HDD – 0.399*FM +0.122*DiagLCD+0.122*GL

Fig16. Matricea corelatiei factoriale Calculul scorurilor principale; putem exemplicam pentru prima observatie si se calculeaza pentru fiecare componenta principala: 15

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică EB(Comp1)=0.314*1.472 + 0.226*(-0.789) + 0.312*(-0.788) + 0.394*1.206 + 0.277*(-0.776)+ 0.306*1.089+ 0.346*0.726 + 0.256*0.715 + 0.286*(-0.36) + 0.401*(-0.139)=0.7 EB(Comp2)=0.427*1.472 + 0.107*(-0.789) – 0.259*(-0.788) + 0.13*1.206 – 0.21*(-0.776) + 0.461*1.089 +0.124*0.726 -0.451*0.715 – 0.497*(-0.36)=0.55 EB(Comp3)=0.303*1.472 + 0.612*(0.789) + 0.262*(-0.788) -0.315*1.206 -0.42*(-0.776) – 0.399*0.726 +0.122*0.715+0.122*(-0.36)=0.3

  

Din figura 16., in care este reprezentata matricea corelatiei factoriale, putem deduce mai multe observatii precum: W1 are o legatura directa puternica cu valoarea pentru Placa Video (0.89) si Dimensiunea Cache Procesor (0.88) W2 are o legatura directa, dar destul de slaba cu valoarea pentru Placa Video (0.01) dar si o legatura inversa directa cu Greutatea Laptopului (-0.64) W3 are o legatura directa destul de puternica cu valoarea pentru Frecventa Procesor (0.61) dar foarte slaba, tinzand catre 0 cu Placa Video (0.007)

Fig16. Cercul corelatiilor pentru W1 si S2

16

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig17. Cercul corelatiilor pentru W1 si W3

Fig18. Cercul corelatiilor pentru W2 si W3

17

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică 

Grafice componente

Fig 19. Corelatia dintre prima componenta si a doua Figura de mai sus descrie legatura dintre observatii si componentele principale(in cazul nostru, prima componenta si a doua) in functie de nivelul de corelatie. Astfel, HP Elitebook 820 G4 este una din observatiile care ies din tipar, fiind corelata pozitiv de ambele componente, insa mai puternic de a doua componenta. De asemenea, laptopul Dell Alienware 15 are o legatura directa puternica cu prima componenta, insa o legatura inversa cu a doua componenta. Urmatoarele grafice ilustreaza aceleasi corelatii bazandu-se pe a doua si a treia componenta, respectiv prima si a treia componenta.

18

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig 20. Graficul corelatiilor dintre component 2 si 3

Fig 21. Graficul corelatiilor dintre component 1 si 3

19

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Fig22. Grafic Biplot

IV. Analiza Cluster Analiza cluster poate fi privită ca un instrument care are ca scop reducerea unor mulțimi de obiecte, sau chiar de variabile, la un număr mai restrâns de entități informaționale, care sunt clasele sau clusterele. Totuși, deși analiza cluster, privită ca un ansamblu de metode și tehnici de clasificare a obiectelor, se aplică în spațiul variabilelor, utilizările frecvente ale acestor tehnici de analiză se remarcă pentru clasificarea obiectelor. Vom utiliza scorurile principale pentru fiecare observație în cele 3 componente stabilite la analiza componentelor principale. Pentru început vom utiliza metoda ierarhică și vom începe cu calculul matricei de distanțe.

20

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

După calculul matricii distanțelor folosim dendograma clusterelor pentru a realiza o ierarhie.

In continuare, observam faptul ca prin agregare medie se realizeaza o clusterizare mai eficienta fata de cea precedenta.

21

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Ultima metoda de ierarhizare este metoda Ward.

In final, se poate observa ca cea mai eficienta metoda de ierarhizare este metoda Ward. Astfel, putem imparti datele in 3 clustere.

22

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

a) Algoritm de clusterizare ierarhica Pas 1: Taietura in dendograma

23

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Pas 2 – Apartenenta obiectelor la cluster

Avem urmatoarea repartitie, astfel:   

Cluster 1 – 14 modele de laptop Cluster 2 – 14 modele de laptop Cluster 3 – 10 modele de laptop

Pas 3 – Calculam mediile in fiecare cluster

Pentru a observa ce componente sunt cel mai bine reprezentate de clustere de mai sus, se alege valoarea cea mai mare din cadrul componentelor. Astfel:   

Pentru componenta 1, este reprezentata cel mai bine de modelele de laptop din cluster 3 Pentru componenta 2, este reprezentata cel mai bine de modelele de laptop din cluster 1 Pentru componenta 3, este reprezentata cel mai bine de modelele de laptop din cluster 2.

24

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Pas 4 – Reprezentare grafica

Variabilitatea intercluster este foarte scazuta intrucat se observa ca suprafetele se suprapun.

Pas 5 – graphic silhouette

25

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Avem valori negative, ceea ce inseamna ca exista posibilitatea ca unele observatii sa fie incluse in clustere diferite. 

Algoritmul K-means

Urmam pasii algoritmului si alegem 3 observatii de baza, alocam obiectele in clustere si calculam centroizii. Prin alocarea obiectelor in cluster am obtinut:

Fiecare observatie a fost alocata unui cluster din cele 3.

26

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Graficul silhouette arata ca nu avem valori negative, deci observatiile sunt clasate corect.

Pentru a vedea daca observatiile au fost descompuse efficient in clustere vom calcula variabilitatea totala, variabilitatea intraclasa si variabilitatea interclasa.

Variabilitatea interclasa are o valoare mare, insa pentru variabilitatea intraclasa avem valori mici.

Reluam algoritmul de la pasul 2 Din dendograma obtinuta prin metoda ward se poate observa ca putem alege 3 sau 5 clustere. Vom aplica metoda k-means pentru cele 5 clustere.

Obtinem alocarea pe cele 5 clustere a observatiilor:

27

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Din calculul centrozilor obtinem:

Prin realizarea graficului silhouette de aceasta data

28

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Graficul silhouette arata ca nu avem valori negative, deci clasate corect. Atunci cand calculam variabilitatea totala, intraclasa si interclasa obtinem:

Asadar, avem: 1. O valoare mult mai mare a variabilitatii interclasa fata de situatia incare am impartit observatiile in 3 clustere 2. Valori mult mai mici ale variabilitatii intraclasa. Asadar, modelul este mult mai eficient cu 5 clustere.

V.

Clusterizarea Fuzzy

Se observa ca avem un numar de 3 clustere cu gradul de fuzzyficare 2.

29

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Daca interogam coordonatele centroizilor putem interpreta in functie de acestea componenta clusterelor.

Se poate observa ca:  Clusterul 1 este caracterizat in mod invers dependent de componenta 3  Clusterul 2 are o dependenta invers de componenta 1  Clusterul 3 inregitreaza cele mai representative valori pentru componenta 1

30

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

De asemenea, putem observa prin apelarea sectiunii de cluster unde este plasata fiecare observatie. Cu ajutorul functiei de apartenenta putem observa in ce masura fiecare observatie studiata se regaseste in fiecare cluster, luandu-se gradul cel mai mare de pe linie. Suma acestora trebuie sa fie mereu 1.

31

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Putem da exemplu modelul de laptop HP Elitebook 850 G5, unde cel mai reprezentativ cluster este clusterul 1, regasindu-se cel mai putin in clusterul 3. Putem identifica pentru fiecare componenta observatiile representative si carui cluster ii apartin acestea in graficul de mai jos.

32

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Daca dorim sa obtinem clusterul de care apartine o observatie in functie de valoarea componentei vom apela functia table intre componentele din datele initiale si cluster.

33

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

34

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Spre exemplu, pentru primul model de laptop, componenta 1 este reprezentativa pentru cluster 2, iar componenta 3 se regaseste in clusterul 3. Folosim functia FKM pentru o noua impartire a datelor in clustere. Se aplica fuzzy-cmeans pentru 3 clustere.

35

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Cu ajutorul functiei cl.size observam ca primul cluster contine 12 observatii, clusterul 2 contine 15 observatii iar clusterul 3 11 observatii. Desi valorile sunt diferite fata de analiza cluster simpla, proportiile s-au pastrat in principiu.

36

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Pentru a vizualiza mai bine clusterele vom realiza diagrama VAT.

Fiecare celula din figura se refera la disimilaritatea dintre o pereche de obiecte. Disimilaritatile mici sunt reprezentate prin umbre mai intunecate, iar disimilaritatile mai mari prin umbre mai deschise. Putem calcula apartenenta modelelor de laptop si vom obtine:

37

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Gradul cel mai mare de apartenenta se gaseste la primul model de laptop(cluster 1), modelul 17(cluster 3), modelul 4(cluster 2), avand cele mai representative valori ale componentelor descries de cluster.

38

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

VI. Clasificare Algoritmi de clasificare sunt folositi pentru a grupa date multi-dimensionale în grupe (clusters) definite algoritmic. Aceasta metoda este utila pentru cuantificarea unor cantitati mari de informatie, fiecare grupa reprezentând mai multe puncte având caracteristici similare. Clusterele distincte sunt disjuncte. Analiza clasificarii consta dintr-o serie de algoritmi ce exploateaza mai multe euristici bazate în principal pe experienta noastra „vizuala” în gruparea punctelor în regiuni de puncte. În general, pentru a putea folosi un algoritm de clasificare, este nevoie de urmatoarele informatii: distanta între punctele unui spatiu multidimensional; strategia de alegere a punctului reprezentativ (adica a „centrului”) pentru orice grupare de puncte; distanta între doua grupe de puncte. Cei mai importanti algoritmi de clasificare sunt: metoda celor mai apropiati vecini(KNN), metoda SVM si arbori decizionali.

a) Metoda celor mai apropiati vecini(KNN) Setul de date se va imparti intr-un set de antrenare si un set de testare. Pe baza algoritmului celor mai apropiati vecini aplicat in setul de antrenare se va efectua o predictie a variabilei calitative pentru setul de testare. In aceasta etapa, datele vor fi normalizate, iar statisticile descriptive ale acestora vor arata ca in figura de mai jos

39

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Rezultatele obtinute in urma normalizarii sunt adaugate intr-un nou data frame folosind functia as.data.frame(), dupa ce functia lapply() intoarce o matrice de aceeasi lungime cu setul de date initial. Fiecare element este rezultatul aplicarii normalizarii. Pentru a putea aplica algoritmul, vom imparti setul de date in 2 parti: una de antrenare si una de testare. Datele vor fi impartite in 2/3 = 67% din datele originale pentru setul de antrenare si 1/3 = 33% pentru setul de testare. Pentru a ne crea seturile, setam un “seed”, mai exact un numar in generatorul de numere aleatoare in R. Ne asiguram ca datele sunt amestecate si se pastreaza aceeasi proportie in modelele de laptopuri in seturile de antrenare si testare. Folosim functia sample() pentru a crea un esantion egal cu numarul de obiecte din baza de date care va lua valoarea 1 sau 2 in functie de cele 2 probaiblitati stabilite anterior. Definim seturile de antrenare si testare, fara a lua in calcul nivelul de pret al laptopului.

40

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Adaugam eticheta “Nivel” la setul de antrenare si testare si cream etichetele.

41

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

 Predictie: Folosin functia knn() care foloseste distanta Euclidiana pentru a gasi cei mai apropiati k vecini. Setam k-3 vecini.

Rezultatul comenzii este vectorul factor cu toate clasele previzionate pentru fiecare rand din setul de date. Afisam proportia fiecarei linii

42

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Din tabelul de mai sus, putem vedea numarul de predictii corecte si incorecte. In cazul de fata, cele 2 modele de laptopuri cu un nivel de pret “Mare” au fost previzionate corecte, similar pentru “Mediu” si “Mic” cu numar de 3 predictii corecte. Gradul de previzionare corecta a setului de date.

Setul a fost previzionat corecte in proportie de 62,5%.

b) Masina cu suport vectorial Este o tehnica pentru eficientizarea aproximarii functiilor multidimensionale. Se determina un clasificator care minimizeaza eroare setului de date. Se bazeaza pe hiperplan de separare care delimiteaza anumite clase. Obiectele sunt mapate folosind un set de functii matematice (nuclee).

43

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

44

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

45

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică Analizand datele din matricea de confuzie, observam ca toate datele au fost previzionate corect, iar algoritmul are o precizie de 100%.

c) Arbori de decizie Este cea mai intalnita tehnica de clasificare. Acestia sunt utilizati pentru a predictiona apartenenta obiectelor la diverse clase si au avantajul vizualizarii sugestiv. Sunt usor de inteles si interpretat si pot fi aplicati datelor nominale si categoriale. Sunt eficienti mai ales in cazul seturilor mari de date. Pentru aceasta, vom incarca biblioteca party si vom construe arborele cu functia ctree.

46

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică



Predictia:

Conform tabelului de mai sus, toate nivelurile de pret ale laptopurile au fost previzionate corect.

47

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

VII. Regresia Logistica Binomiala Variabila dependenta lua in cazul acesta este Pretul. Vom folosi o variabila binara pentru a afla ce modele au valoarea peste media pietei (0) si ce modele nu (1).

Calculam noile seturi de antrenare si testare realizate pe baza variabilei binare.

48

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Realizam modelul de regresie intre variabila binara si capacitatea de memorie(HDD) si pret.

In continuare determinam probabilitatile de raspuns pentru setul de testare si matricea de confuzie.

Observam ca pentru 4 modele a fost previzionat corect iar 5 au fost previzionat incorect.

49

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Obtinem curba ROC si calculam aria acesteia.

Avem o valoare a ariei de sub curba ROC de 1, deci modelul se accepta.

50

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

VIII. Retele neuronale Retelele neuronale artificiale caracterizeaza ansambluri de elemente de procesare simple, puternic interconectate si operand in parallel, care urmaresc sa interactioneze cu mediul inconjurator intr-un mod asemanator creierelor biologice si care prezinta capacitatea de a invata.

Urmeaza sa contruim setul de testare si de antrenare, iar cu ajutorul functiei neuralnet vom contrui in final reteaua neuronala.

51

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

In reteaua noastra, avem 10 neuroni de intrare, reprezentati de cei 10 indicatori alesi initial, care preiau datele de intare si 3 date de iesire, ce reprezinta modelul de laptop in functie de nivelul pretului. Liniile negre arata legaturile dintre variabile si ponderile lor pe fiecare conexiune.

52

Academia de Studii Economice, București Facultatea de Cibernetică, Statistică și Informatică Economică Specializarea: Cibernetica Economică

Concluzii Cu ajutorul statisticilor descriptive, al analizei componentelor principale, al arborilor de decizie si al retelelor neuronale am putut sa ne facem o imagine mai clara asupra situatiei economice a modelelor de laptop Asus si Dell din Romania. Pentru estimare a fost aleasa variabila Pret, puterea consumata si capacitatea acestuia. Din realizarea unor estimari si a unor predictii a mai multor modele si tipuri de functii, schimband pe rand metodele, variabilele si numarul acestora, concluzionam ca majoritatea modelelor luate in calcul sunt valide din punct de vedere statistic. Dintre acestea, s-a putut observa faptul ca metoda arborelui decizional este una optima pentru datele noastre, dar si metoda masinii cu suport vectorial.

53