Professional Documents
Culture Documents
Din aceste date putem trage unele concluzii privind nivelul de pregătire şi de prezentare la
examen a studenţilor.
Analiza statistică a unui fenomen, în raport cu o singură caracteristică conduce la
prezentarea unei serii de perechi de valori, pe care o vom numi serie statistică.
În cazul caracteristicilor calitative, prima valoare a perechii din seria statistică nu mai este
numerică.
Exemplu: Să considerăm drept exemplu distribuţia după caracteristica sex a unei populaţii
statistice:
Sex Masculin Feminin Total
Nr. unit. statistice 86 94 180
Din motive practice se pot face grupări pe intervale mai mari ale vârstei subiecţilor, de
exemplu din 5 în 5 ani sau din 10 în 10 ani, astfel:
Grupe de vârstă 18 - 20 21 - 30 31 – 40 41 - 50 51 - 60 61 - 62
Nr. unit. statistice
Frecvenţă absolută. Frecvenţă relativă. Frecvenţă cumulate.
Numim frecvenţă absolută a unei valori a caracteristicii numărul de unităţi ale populaţiei
statistice corespunzătoare acelei valori.
De exemplu, în tabela distribuţiei după caracteristica sex, valoarea 86 reprezintă numărul
persoanelor masculine sau frecvenţa absolută respectivă. Analog, 94 reprezintă frecvenţa absolută
sau numărul persoanelor de sex feminin.
Suma frecvenţelor absolute ale tuturor valorilor caracteristicii este egală cu totalul
populaţiei statistice.
Numim frecvenţă relativă a unei valori m a caracteristicii raportul dintre frecvenţa absolută
a valorii respective m a caracteristicii şi totalul populaţiei statistice.
Vom scrie:
m
f=
n
unde:
f – este frecvenţa valorii respective a caracteristicii;
m – este frecvenţa absolută a acestei valori;
n – este totalul populaţiei statistice.
Revenind la exemplul anterior, frecvenţele relative vor fi:
86
f1 = = 0,48 sau 48%
180
94
f1 = = 0,52 sau 52%
180
Tabela respectivă devine:
Masculin Feminin
0,48 0,52
Seria statistică asociată unei caracteristici statistice se poate asocia cu distribuţia unei
variabile aleatoare, care, reamintim, este un tabel de forma:
x1 x2 ... xn
p1 p2 ... pn
în care x1, x2 ... xn sunt valorile aleatoare corespunzătoare cu probabilităţile p1, p2 ... pn .
Evident, avem că p1 + p2 +... + pn = 1
De multe ori, putem folosi termenul de variabilă statistică în loc de caracteristică.
Numim frecvenţă absolută cumulată a unei valori x a variabilei statistice, suma
frecvenţelor absolute ale tuturor valorilor variabilei care apar până la valoarea x inclusiv.
Reprezentarea grafică a seriilor statistice
Să considerăm distribuţia investiţiilor în câteva sectoare ale economiei naţionale:
Investiţii
Sectorul
procentuale
A ………………………………………………. 5,5%
B ………………………………………………. 14,5%
C ……………………………………………….. 20%
D ………………………………………………. 25%
E ………………………………………………. 35%
Total investiţii 100%
5,5
14,5
35
20
25
40 35
30 25
20
20 14,5
10 5,5
0
A B C D E
40 35
35
30 25
25 20
20 14,5
15
10 5,5
5
0
A B C D E
Vom numi valoare centrală a unei clase de variaţie media aritmetică a extremităţilor
acestei clase.
Modul dau dominanta unei serii statistice este valoarea caracteristicii corespunzătoare celei
mai mari frecvenţe.
Mediana unei serii este un număr x cu proprietatea că există atâtea unităţi statistice
corespunzătoare valorilor mai mici decât x cât şi cele corespunzătoare valorilor mai mari decât x.
Media aritmetică. Dacă x1, x2, … xn sunt n valori, atunci media aritmetică a lor este:
x 1 + x 2 + ... + x n
n
În cazul distribuţiei variabilei x:
Valori x1 x2 ……………………. xn
Frecvenţe y1 y2 ……………………. yn
Valoarea medie a variabilei respective este:
x 1 y1 + x 2 y 2 + ... + x n y n
x=
y1 + y 2 + ... + y n
x = x 1f1 + x 2 f 2 + ... + x n f n
yi
unde f i = , i = 1, 2, …, n.
N
Dispersia
Fiind date n valori x1, x2,…..,xn cu media x , numim dispersia acestor valori, mărimea:
1 n
σ2 = ∑ (x i − x)
n i =1
x1 x2 … x m y1 y2 … yn
Dacă X: Y:
p1 p2 …. Pm q1 q2 … qn şi a∈ R o constantă,
atunci se definesc v.a. următoare:
a x1 a x2 …. a xn
aX
p1 p2 … pn
a + x1 a + x2 …. a +xn
a+X
p1 p2 ….. pn
x1 + y1 x2 + y2 …… xm + yn
X+Y
p11 p12 …….. pnm
unde pij este probabilitatea realizării simultane a evenimentelor X = xi , Y = yj
x1y1 x2y2 …… xmym
X·Y
p11 p12 …… pnm
unde pij este definit ca mai sus.
σ = σ 2 = D(X) = M (X 2 ) − M 2 (X)
se numeşte abatere medie pătratică.
Inegalitatea lui Cebâşev:
σ2
P( x − m < ε ) ≥ 1 − .
ε2
Unde m=M(X) iar σ 2 este dispersia v.a.X
Covarianţa a 2 v.a. X şi Y este coeficientul
[( )( )]
µ xy = M X − X Y − Y = M(XY) – M(X)M(Y)
σy
y − M(Y) = − (X − M(X) ) , cazul ρ = −1
σx
∑d
i =1
2
i
ρ = 1− 6 (n > 1)
n ( x 2 − 1)
Proprietăţi: − 1 ≤ ρ ≤ 1
Coeficientul de corelaţie a rangurilor lui Kendall
2( P − Q )
r=
n (n − 1)
unde P este un indicator al concordanţei pozitive, iar Q un indicator al concordanţei negative.
Coeficienţi de corelaţie parţială şi multipă
xi y z
Dacă X : , Y : i , Z : i sunt 3 v.a. şi m11 = M(x – m1)2;
pi qi ri
m12 = M(x – m1)(y – m2), m22 = M(x – m2)2
atunci
m12
σ12 =
m11 m 22
M
σ1.23 = 1 −
m11 M 11
m 11 m12 m13
unde M = m 21 m 22 m 23
m m m
31 32 33
În mod analog,
M
σ 2.31 = 1 − şi
m 22 M 22
M
σ 3.12 = 1 −
m 33 M 33
Coeficientul multiplu între variabilele Xi şi grupul (X1, …, Xi-1, Xi+1, …, Xn) este dat de formula:
M
ρ i;1, 2,...,i −1,i +1,..., n = 1 −
m ii M ii
Analiza de regresie
Fie o distribuţie teoretică discretă de 2 variabile bidimensionale, X şi Y de repartiţii
a bj
X : i , Y:
q
pi j
şi P(X=ai), Y=bj)
Se pune problema determinării parametrilor α si β astfel încât:
M (Y − αX − β) 2 = min sau
n n
∑∑ p
i =1 j=1
ij (b j − αa i − β) 2 = min im
analiza de regresie rezolvă această problemă a niminizării sau a găsirii dreptelor de cea mai bună
aproximare, abţinându-se dreptele de regresie:
σX
y − M(Y) = ρ (X − M (X)) şi
σY
σY
y − M(Y) = ρ (X − M (X))
σX
cu centrul de greutate: (M(X), M(Y))
Analiză cauzală
Termeni echivalenţi: “path analiysis”, “cauzal analysis”, “analiză de dependenţă”.
Problema care se pune este determinarea relaţiilor într-un ansamblu de variabile în
contextul unei structuri cauzale.
Numim variabilă orice criteriu de clasificare fie că este vorba de o însuşire dichotomică
(sexul), de ordin (nivelul de şcolarizare) sau variabilă cantitativă (precum venitul).
Metodele mai importante aparţin lui Simon, H. Blalock şi R. Boudon.
Metodele se bazează pe observaţia coeficienţilor de corelaţie liniară între variabile care au
la bază tehnicile clasice ale analizei de regresie.
Modelul recursiv
(M. Simon, H. Blalock şi R. Boudon, Duncan şi Alker).
Ipoteze:
I. Relaţiile sunt liniare.
Orice variabilă a graficului este exprimată ca funcţie liniară de una sau mai multe variabile.
Ex. x2 = a12x1 + e2
x1 x1
x2 x3 e2 x2
x4
x4 = a24x2 + a34x3 + e4
II. Nu există efect de interacţiune.
III. Rezidurile ei nu sunt corelate între ele.
X1 Sistemul de ecuaţii ataşat graficului orientat alăturat:
x2 = a12x1 + e2
X3 x3 = a23x2 + e3
x4 = a14x1 + a24x2 + a34x3 + e4
X2
x4
Eşantionarea
Eşantionarea reprezintă acel procedeu statistic prin care se prelevă un lot al populaţiei
statistice intrate în studiu, numit eşantion, şi ale cărei caracteristici pot fi extinse, prin interferenţă
statistică, la întreaga populaţie statistică, numită adesea şi universul de eşantionare.
Principiul de bază al eşantionării este ca fiecare element al colectivităţii statistice să aibă
şanse reale, de apariţie în lotul de selecţie numit eşantion.
Reprezentativitatea eşantionului este capacitatea acestuia de a reproduce cât mai fidel
structurile şi caracteristicile populaţiei din universul de eşantionare.
Gradul de reprezentativitate este măsurat de 2 indicatori:
- d = eroarea maximă care exprimă diferenţa cea mai mare pe care o aceptăm între o valoare
v* din eşantion şi v- valoarea corespunzătoare populaţiei;
- P – nivelul de încredere care arată ce şanse sunt ca eroarea reală comisă să nu depăşească
eroarea maximă admisă (v* - d, v* +d) – interval de încredere.
Gradul de reprezentativitate al unui eşantion depinde de:
- caracteristicile populaţiei;
- mărimea eşantionului;
- procedura de eşantionare folosită.
Tehnici de eşantionare:
Eşamtionare
- aleatoatre (probabilistică);
- nealeatoare.
Tipuri de eşantionare:
- Eşantionarea simplă aleatoare;
- Eşantionarea prin stratificare;
- Eşantionarea multistadială;
- Eşantionarea pe cote;
- Eşantionarea fixă (panel).
Tipuri de erori:
- de eşantionare;
- de observare.
Organizarea unui sondaj statistic.
Dosarul unui sondaj.
Construirea unei baze de sondaj.
Construirea unui model de eşantion naţional.
Teste de semnificaţie:
- testul χ 2
mi – frecvenţe teoretice;
hi – frecvenţe experimentale.
- Grade de libertate, prag de semnificaţie.
- Interpretare. Ipoteza nulă.
Chestionarul psiho-sociologic
Tipuri de întrebări:
- după conţinut:
o factuale, de opinie, de cunoaştere.
- după forma de înregistrare a răspunsurilor:
o închise, deschise, întrebări cu posibilităţi multiple de răspuns.
Analiza scalară (de ierarhizare):
Tipuri de scale:
- scale nominale;
- scale ordinale;
- scale cu intervale;
- scale proporţionale.
Analiza non-răspunsurilor.
Analiza metodelor bazate pe ierarhii.
Paradoxul lui Condorcet.
Indicatorii de agregare.
BIBLIOGRAFIE FACULTATIVĂ