Professional Documents
Culture Documents
Conţinut
Scorurile și clasamentele pentru fericire utilizează date din Gallup World Poll. Scorurile se
bazează pe răspunsurile la întrebarea principală referitoare la evaluarea vieții. Această
întrebare, cunoscută sub numele de scara Cantril, solicită respondenților să se gândească la o
scară cu cea mai bună viață posibilă pentru ei fiind o viață de 10 și cea mai gravă posibilă
fiind 0 și să-și evalueze propriile vieți curente pe acea scară. Scorurile provin din eșantioane
reprezentative la nivel național pentru anii 2013-2016 și utilizează greutățile Gallup pentru a
face estimările reprezentative. Coloanele după scorul de fericire estimează măsura în care
fiecare dintre cei șase factori - producția economică, sprijinul social, speranța de viață,
libertatea, absența corupției și generozitatea - contribuie la creșterea evaluărilor vieții în
fiecare țară decât la Dystopia țară ipotetică care are valori egale cu cele mai scăzute medii
naționale din lume pentru fiecare dintre cei șase factori. Ele nu au nici un impact asupra
punctajului total raportat pentru fiecare țară, dar explică de ce unele țări sunt mai înalte decât
altele.
1. Descrierea datelor
1
https://www.kaggle.com/unsdsn/world-happiness
2
Tabel 1 - Date
Analiza în componente principale (ACP) este cea mai utilizată metodă de analiză a
datelor. A fost propusă de Hotteling în 1938, dar necesitând numeroase şi laborioase calcule
s-a impus în practică abia începând cu anii 70 odată cu apariţia calculatoarelor. ACP
sintetizează informaţia conţinută în tabelele de date cantitative de mari dimensiuni.
Colectivitatea statistică studiată este descrisă printr-un număr mare de variabile. Studiul
colectivităţii printr-un număr mare de variabile este greu de realizat. ACP determină un număr
mai mic de variabile noi, numite componente principale, care concentrează informaţia ,
esenţialul, la nivelul colectivităţii studiate. Componentele principale sunt construite sub formă
de combinaţie liniară de variabile iniţiale, care concentrează o cât mai mare parte de
informaţie , şi sunt caracterizate de o mare variabilitate. Astfel, prima componentă principală
preia maximul din varianţa variabilelor originale, a doua componentă preia maximu l de
varianţă rămasă după eliminarea primei componente şamd
3
O primă imagine asupra variabilității este dată de matricea de corelații dintre
variabilele observate. Corelațiile puternice sunt cele care indică variabile intre care există
legătură, deci aduc redundanță informațională în setul de date. Aceste variabile sunt cele din
care se vor construi componentele principale. În figura 1 este prezentată corelograma
variabilelor observate. Din analiza graficului rezultă că PIB pe cap de locuitor și Speranța de
viață generează cele mai mari corelații, deci aceste variabile vor contribui cel mai mult la
constituirea componentelor principale.
Rezultatele modelului pornesc de la calculul vectorilor și valorilor proprii. În tabelul 2
este prezentată varianța componentelor principale, individual, cumulat și procentual. Conform
criteriilor Cattell și Kaiser sunt semnificative primele 5 componente, aspect scos în evidență și
de graficul distribuției varianței este prezentat în Figură 1
Se observă ca pentru a recupera o cantitate cat mai mare de informație din datele
inițiale avem nevoie de primele cinici componente principale.Acestea corespund valorilor
proprii cele mai mari,valori proprii peste 1,iar aceste valori reprezinta variantele
corespunzatoare celor două componente reținute . Utilizand cinci componente
principale,cantitatea de informație total recuperată este de 97.4% din informația ințilă,asa cum
se observă în coloana Proc.Cumulat.Varianta.Dintre cele cinci componente principale ,prima
acopera 67% din varianta finala, a doua componentă 12%, a treia 8%, cea de-a patra 5,8% și a
cincea componentă 4,2%.
Pentru a stabili numarul de component principale necesare se mai poate folosi si
metoda grafica. În Figură 2 - Plot varianta și cu ajutroul Criteriului Cattell se poate observa că
avem nevoie de cinci componente principale.
Figură 1
Prima componentă principală este mult mai semnificativă decât celelalte două, acoperind
aproximativ 67% din variabilitate, în timp ce a doua acoepră 12%.
5
4. Calculul corelațiilor dintre variabilele observate și componentele principale
În Tabel 2 sunt prezentate aceste corelații pentru cea mai semnificativă componentă
principală. Aceste corelații sunt cele mai importante în încercarea de a eticheta componentele
principale, "eticheta" asociată fiind legată de ceea ce au în comun variabilele puternic corelate
cu componenta respectivă.
Astfel, se poate observa că prima componentă principală este puternic corelată cu PIB
per capita, încrederea acordată guvernului libertatea,familia, speranța de viață, dar și
generozitatea. Cu alte cuvinte prima componentă principală poate fi asociată cu conditiile
economice din țara respectivă. Componenta 2 este legată în principal de speranța de viață.
Componenta 2 putem spune că este o componentă care ține de durata vieții. Corelațiile din
Tabel 2sunt prezentate grafic prin cercul corelațiilor (pentru primele două componente Figură
3 Cercul corelatiilor). Componenta 3 este legată în maare parte despre familie și o puntem
eticheta ca stabilitatea și condițiile din familie.
Tabel 2
6
Figură 3 Cercul corelatiilor
5. Calculul scorurilor
Scorurile sunt proiecțiile normalizate ale țărilor în axele principale (axele
componentelor principale).
Pot fi observate valorile relativ mari pentru țările Moldova, România, Rusia, Ungaria,
Grecia, Lituania și mici pentru Luxemburg, Elveția etc. Valorile mari pe axa componentei 1
înseamnă valori mici pentru PIB pe cap de locuitor,încrderea în guvern și importanța libertășii
deoarece sunt puternic, dar invers corelate cu componenta 1. În județul Luxemburg, Elveția și
altele apropiate situația este inversă.
7
În Moldova se înregistrează rate mari ale speranței de viața, ceea ce reprezintă
componenta 2. La poul opus este Grecia cu o rată foarte mică a speranței de viață. România se
află undeva la mijloc împreună cu Finlanda, Norvegia, Germania etc.
6. Concluzii
Pe baza analizei efectuate asupra celor 26 de țări ,și asupra celor 6 factori de influență
am putut sa concluzionăm care sunt cele mai dezvoltate tari si ce caracteristici are fiecare.În
cadrul analizei efectuate pe acest eșantion s-a putut observa că unele variabile erau puternic
corelate între ele astfel încat nu aduceau un plus de informație.
În concluzie,analiza componentelor principale ne-a permis să realizam o sintetizare
informaționala și să caracterizăm un șir de observații .Astfel,am putut realiza comparții între
observații.