Professional Documents
Culture Documents
Economica
2016
Pagina 1
Cuprins
1.
Prezentarea datelor..................................................................................................... 3
2.
3.
Analiza Cluster....................................................................................................... 16
4.
Analiza discriminanta............................................................................................... 23
2016
Pagina 2
1. Prezentarea datelor
In vederea realizarii proiectului am luat datele de pe site-ul: http://www.util21.ro/util21/judeteRomania-informatii.htm. Cele 6 variabile sunt:
Judete
Alba
Arad
Arges
Bacau
Bihor
BistritaNasaud
Botosani
Braila
Brasov
Bucuresti
Buzau
Calarasi
Caras-Severin
Cluj
Constanta
Covasna
Dambovita
Dolj
Galati
Giurgiu
Gorj
Harghita
Hunedoara
Ialomita
Iasi
Ilfov
2016
Populatie
382,999
416,730
653,903
708,751
600,223
312,325
454,023
373,897
588,366
1,921,751
494,982
324,629
333,396
703,269
715,172
222,274
541,326
734,823
619,522
298,022
387,407
326,020
487,115
296,486
819,044
300,109
Suprafata/km Nr,
Nr,
2
Locuitori/urban
Locuitori/rural
Densitate/km2
6,242
220,011
162,988
61.4
7,754
234,016
227,714
59.5
6,861
297,034
356,869
95.8
6,621
327,419
381,332
107
7,544
287,398
312,825
79.6
5,355
4,986
4,766
5,363
228
6,103
5,088
8,520
6,674
7,071
3,710
4,054
7,414
4,466
3,526
5,602
6,639
7,063
4,453
5,476
1,583
Pagina 3
113,260
166,461
239,700
435,159
1,921,751
191,352
120,231
182,964
472,650
502,048
111,700
159,021
368,516
351,820
88,756
162,620
148,885
369,873
115,478
388,642
30,548
199,065
287,562
134,197
153,207
0
303,630
204,398
450,432
230,619
213,124
110,574
382,305
366,307
267,702
209,266
224,787
182,135
117,242
181,008
430,402
269,561
58.3
91.1
78.5
109.7
8074.6
81.1
63.8
39.1
105.4
101.1
59.9
133.5
99.1
138.7
84.5
69.2
49.1
69
66.6
149.6
189.6
Maramures
Mehedinti
Mures
Neamt
Olt
Prahova
Salaj
Satu-Mare
Sibiu
Suceava
Teleorman
Timis
Tulcea
Valcea
Vaslui
Vrancea
510,688
306,118
579,862
557,084
490,276
829,224
248,407
369,096
422,224
690,941
436,926
677,744
258,639
413,570
455,550
390,268
6,304
4,933
6,714
5,896
5,498
4,716
3,864
4,418
5,432
8,553
5,790
8,697
8,499
5,765
5,318
4,857
268,472
141,297
282,839
204,054
186,840
420,005
98,657
162,503
277,717
230,084
140,205
407,606
123,556
161,755
178,953
149,880
242,216
164,821
297,023
353,030
303,436
409,219
149,750
206,593
144,507
460,857
296,721
270,138
135,083
251,570
276,597
240,388
Dup ce au fost trecute n revist toate aceste lucruri, vom trece la analiza matricei de date
prezentat n tabelul de mai sus, cu scopul de a identifica civa indicatori relevani pe baza crora
s putem obine o clasificare ct mai precis a judetelor; astfel problema formulat n acest mod ne
conduce spre ideea utilizrii tehnicii analizei componentelor principale.
2016
Pagina 4
81
62.1
86.4
94.5
89.2
175.8
64.3
83.5
77.7
80.8
75.5
77.9
30.4
71.7
85.7
80.4
Pagina 5
-0.18486
-0.39699
-0.52346
-0.18026
-3.13225
0.24514
-0.33836
-0.55818
-0.37161
-0.11476
0.57072
5.78422
-0.28431
-0.53374
-0.51629
0.35579
-1.15552
-0.96819
-2.47795
0.51413
-0.46374
-0.17733
-0.15073
-0.16095
-0.13564
6.32429
-0.15884
-0.17287
-0.65972
0.67986
0.72297
-1.06217
0.09335
0.79414
0.37655
-0.78783
-0.4641
-0.68643
-0.10299
-0.79339
1.09916
-0.78027
-0.01762
-0.75851
0.23291
1.63462
0.5734
0.80162
-1.13053
-0.93278
0.9988
-0.69593
-1.23631
-0.04287
0.55328
0.79702
-0.7034
-0.1153
-2.35329
0.36069
-0.42746
0.59639
-0.31373
0.7022
0.8053
-0.56366
-0.3977
0.337
0.27845
-0.64412
-0.38508
-0.43325
0.34176
-0.55041
0.40758
-0.84826
-0.01385
-0.45986
0.03653
1.96077
-0.20535
-0.37775
-1.38831
1.28942
1.13177
0.16008
-0.41577
-0.26282
-0.68312
-1.3226
-0.69423
1.76338
0.1784
-0.09107
-0.85374
0.44902
-0.1929
-0.13913
-0.14262
-0.17603
-0.11634
-0.14424
-0.11212
-0.15608
-0.16849
-0.18479
-0.16865
-0.1706
-0.10328
-0.07084
-0.15892
-0.17425
-0.15454
Pagina 6
Neamt
Olt
Prahova
Salaj
Satu-Mare
Sibiu
Suceava
Teleorman
Timis
Tulcea
Valcea
Vaslui
Vrancea
0.15042
-0.09154
1.13603
-0.96752
-0.53042
-0.33801
0.63521
-0.28476
0.58741
-0.93046
-0.36935
-0.21731
-0.45374
0.12614
-0.10266
-0.55221
-1.042
-0.72352
-0.1406
1.65359
0.06521
1.73637
1.62254
0.05084
-0.20613
-0.47115
-0.23977
-0.30014
0.51757
-0.6094
-0.38549
0.01857
-0.14848
-0.46369
0.47409
-0.52208
-0.38811
-0.3278
-0.42976
1.00093
0.51222
1.55464
-1.00226
-0.44211
-1.05392
2.0635
0.44605
0.18409
-1.14679
0.00111
0.24774
-0.10908
-0.14797
-0.15227
-0.08203
-0.17247
-0.15689
-0.1616
-0.15908
-0.16338
-0.16144
-0.19996
-0.16646
-0.15511
-0.15941
Pagina 7
In casuta Extraction vom alege metoda componentelor principale, care va fi aplicat pe matricea
corelaiilor, dar la fel de bine puteam s folosim i matricea de covaria ntruct datele sunt
standardizate, dup ci factori dorim s facem analiza (2) i s ne afieze graficul ataat valorilor
proprii (Sree plot), dup care Continue.
2016
Pagina 8
In Factor Scores alegem ca scorurile judetelor pe fiecare dintre cele dou axe analizate s fie
salvate ca variabile n tabelul SPSS imediat dup variabilele standardizate, i totodat selectnd
i a doua opiune vom obine versorii axelor u, apoi Continue.
Dup parcurgerea pailor de mai sus, vom trece la interpretarea rezultatelor obinute. Astfel
primul tabel (Descriptive Statistics) , ne ofer informaii cu privire la media i abatarea standard
a fiecrui indicator i avnd n vedere faptul c media este 0 iar dispersia este 1, confirm faptul
c datele sunt standardizate, dup cum putei observa n urmtorul tabel:
2016
Pagina 9
Matricea de corelatie ofera informatii cu privire la taria legaturii dintre variabile si, deasemenea, in
functie de valorile coeficientilor ne putem da seama de cate componente principale este necesar in
cadrul analizei.
Din analiza matricei de corelatie se observa faptul ca cea mai puternica legatura, 0.939 este intre
populatie si numarul de locuitori din mediul urban, urmata de corelatia puternica de 0.918 intre
numarul de locuitori din mediul urban si densitatea populatiei.
Din acest tabel reiese faptul ca toate variabilele folosite contribuie major la explicarea
variabilelor artificiale obtinute ulterior. Variabila care contribuie cel mai putin la explicarea
variabilelor este suprafata cu o cantitate de informatie recuperate de doar 0.651.
2016
Pagina 10
Din analiza acestuia se observa ca prima variabila are o contributie majora la explicarea
variabilelor artificiale care se obtin ulterior. Cantitatea de informatie recuperata din acesta
variabila este de 0.979, urmata in aproape de ultima variabila care recupereaza 0.946 din
informatie, dupa cum reiese din coloana Extraction din tabelul de mai sus.
Pentru a stabili numarul de componente principale necesare, se folosesc informatiile din
tabelul Total Variance Explained. Tabelul ne ofera informatii cu privire la valoriile proprii ale
matricei de corelatie, dar si informatii referitoare la componentele principale si cantitate de
informatie retinuta de acestea. O valoare proprie mai mare decat 1, pentru o componenta, indica
faptul ca acea componenta are o contributie mai mare decat a unei variabile initiale, deci este
indicat a fi extrasa.
descresctoare, i anume:
=3,944 ,
2016
Pagina 11
2016
Pagina 12
Se observa astfel ca prima componenta principala se poate analiza din punctul de vedere al
densitatii, al numarului de locuitori din mediul urban precum si in functie de populatie, toate
avand un coeficient de corelatie de peste 0.800.
A doua componenta este puternic influentata de numarul de locuitori din merdiul rural.
Astfel cel dou coloane (Factorul 1 i Factorul 2) conin componentele principale sau noii
indicatori sintetici calculaii pentru cele 42 judete .
Factorul
1
-0.4344
-0.22657
0.39028
0.54462
0.24614
-0.64923
-0.23685
-0.50388
0.12282
5.51739
-0.08981
-0.61995
-0.06914
0.49669
0.53618
-0.96629
0.01152
0.63452
0.21684
-0.73232
-0.42449
-0.57441
-0.12925
-0.72096
0.84095
-0.74332
-0.0541
-0.68523
0.16398
0.09179
-0.11816
0.84927
2016
Pagina 13
Factorul
2
-0.46389
0.40365
1.12547
1.25103
1.01404
-0.57241
-0.02323
-1.07947
-0.59644
-2.66604
0.43939
-0.60799
1.91711
0.35823
0.38118
-1.66824
0.3472
1.41832
-0.14757
-1.06353
-0.27787
-0.28328
-0.40239
-0.9606
1.30636
-1.28134
0.14464
-0.90754
0.65648
0.73054
0.25563
0.96306
-0.87924
-0.50971
-0.34815
0.56112
-0.26346
0.48498
-0.73118
-0.34063
-0.22694
-0.43142
-1.36467
-0.75249
-0.77783
2.28064
0.25337
1.16775
-0.08056
-0.04574
0.01038
-0.40136
2016
Pagina 14
Dup care alegem cordonatele axelor X factorul 1 i Y factorul 2, iar la Label Case by
alegem Judete, i pentru a ne afia judetele pe grafic din Options... bifm csua
corespunztoare Display chart with case labels , apoi Continue i n final OK i vom obine
urmtorul grafic:
n acest grafic putem observa un grup destul de compact ce par a avea un comportament
asemntor n raport cu noii indicatori, dar si judete/municipii, anume Bucuresti, Suceava, CarasSeverin , care se detaeaz de grup.
2016
Pagina 15
3. Analiza Cluster
Analiza cluster are ca scop identificarea de clase/clustere in cadrul unei multimi de
obiecte/judete astfel incat elementele care apartin aceleasi clase sa fie cat mai asemanatoare, iar
cele care apartin claselor diferite sa fie cat mai deosebite intre ele.
Criteriul general de clasificare-clasificarea obiectelor sau formelor in clase, grupe sau clustere se
face astfel incat sa se asigure o valoare minima in interiorul claselor si o valoare maxima intre
clase. Fiecare obiect din multimea analizata este atribuit unei singure clase.
n continuare, tot pentru aceiai matrice a datelor standardizate vom aplica tehnici de clasificare
bazate pe algoritmi ierarhici pentru a putea exemplifica att gruparea firmelor ct i gruparea
indicatorilor.
Avem matricea de date standardizate in SPSS, apelam Analyse Classify Hierarchical
Cluster. Alegem variabilele dup care s se fac analiza i anume acele variabile standardizate.
2016
Pagina 16
n aceast csua Statistics vom alege s ne afieze n outputul SPSS modul n care se
agregreaz firmele (variabilele) pas cu pas i matricea de proximitate.
n aceast csua Plots vom alege s ne afieze n outputul SPSS, reprezentarea grafic a
nivelului de agregare al judetelor(variabilelor) prin intermediul dendogramei, aici bifndu-se
csua aferent Dendogram; dup care dm Continue.
2016
Pagina 17
n aceast csua Method vom alege metoda dup care s se fac gruparea firmelor i anume:
Nearest neighbor (vecinii cei mai apropriai), Furthest neighbor ( vecinii cei mai ndeprtai ),
sau Between-groups sau Within-groups linkage (nlnuirea prin medii ) deci vom avea 3
aplicaii cte una pentru fiecare metod. Tot aici alegem i modul de calcul a distanei dintre
dou obiecte (clase), i anume distana euclidian.
2016
Pagina 18
2016
Pagina 19
Din dendrograma se observa cel mai usor formarea claselor. Aceasta ne indica modul de
grupare al judetelor in functie de asemanarile dintre ele, dar si nivelul lor de agregare.
2016
Pagina 20
n aceast csua Save vom alege s ne afieze n outputul SPSS, membrii clusterului, dup care
dm Continue.
2016
Pagina 21
In casuta Options alegem sa se afiseze centrele initiale ale clusterelor si tabelul ANOVA.
In urma acestei analize, am incercat gruparea unor entitati informationale n clase sau clustere
alcatuite din entitati informtionale cu grad ridicat de similaritate
2016
Pagina 22
4. Analiza discriminanta
Analiza discriminanta reprezinta procesul de utilizare a unei game variate de metode, tehnici si
algoritmi in copul de a determina care dintre caracteristicile anumitor obiecte au cea mai mare
releventa din punctul de vedere al recunosterii apartenentei acestor obiecte la anumite clase
definit aprioric.
Functiile discriminant(Di) reprezinta functii utilizate pentru separarea claselor si servesc la
determinarea unor noi variabile numite variabile discriminante di.
Apelam Analyse Classify Discriminant si alegem variabilele pe care vrem sa le
analizam(nu mai alegem variabilele standardizate)
2016
Pagina 23
2016
Pagina 24
Tabelul de mai jos rezuma setul de date de analiza in ceea ce privete cazurile valabile i
cazurile excluse. n acest exemplu, toate observaiile din setul de date sunt valide.
In tabelul de mai jos este prezentata distribuia observailor n cele doua grupuri. Putem
vedea numrul de observaii care se ncadreaz n fiecare dintre cele 2 grupuri.
2016
Pagina 25
Gradul de libertate pentru functia data este 5 , acestase bazeaz pe numrul de grupe
prezente n variabila categoric i numrul de variabile discriminante continue.
Avem ipoteza nul H0, care afirama ca functia de corelatie canonic i toate corelaiile canonice
mai mici sunt egale cu zero. Aceasta ipoteza este evaluata cu ajutorul coeficientului p-value
(Sig.). Pentru un nivel dat alfa= 0.05, n cazul n care valoarea p este mai mic dect alfa, ipoteza
nul este respins. Dac nu, atunci nu respinge ipoteza nul. Se obs ca Sig. =0<0,05, rezulta ca se
respinge ipoteza H0.
Clasificarea statistica
Putem vedea in tabelulde mai jos ,ca toate observaiile din setul de date au fost clasificate
cu succes.
2016
Pagina 26
In urmatorul tabel este prezentata distribuia de observaii n grupuri folosite ca punct de plecare
n analiza.
Predicted group Membership- acestea sunt frecvenele prezise de grupuri din analiza. Numerele
fiecrei coloane indic cate au fost clasificate in mod corect si/sau incorect. In cazul analizei
noastre, 97.6% dintre valori au fost clasificate in mod corect.
2016
Pagina 27