You are on page 1of 14

STATISTICĂ SOCIALĂ

Titular de curs: Conf.univ.Dr. Petruş Alexandrescu

Noţiuni de bază ale statisticii


- Sinteză curs –

Statistica socială se ocupă cu gruparea, analiza şi interpretarea datelor referitoare la un


fenomen social. Totodată se are în vedere şi efectuarea unor previziuni privind producerea
fenomenului în viitor.
Analiza statistică a unui fenomen comportă două etape:
- Statistica descriptivă, care înseamnă procesul de culegere a datelor asupra unui fenomen şi
înregistrarea acestora.
- Statistica matematică care se ocupă cu gruparea datelor, analiza şi interpretarea lor în
vederea unor predicţii asupra comportării în viitor a fenomenului.
Prin populaţie statistică vom înţelege orice mulţime care formează obiectul de studiu al
analizei statistice.
Exemple de populaţii statistice: populaţia şcolară, populaţia adultă (de peste 18 ani), etc.
Elementele unei populaţii statistice se numesc unităţi statistice iar însuşirea comună a tuturor
elementelor statistice se va numi caracteristică.
O analiză statistică a unui fenomen social se efectuează după una sau mai multe caracteristici
care pot pune în lumină aspectele relevante ale fenomenului luat în studiu.
Exemple:
1. Dacă ne interesează rezultatele obţinute de studenţii unei facultăţi, atunci mulţimea
tuturor studenţilor formează populaţia statistică. Fiecare student al facultăţii respective
va fi o unitate statistică iar notele obţinute la examen vor constitui caracteristica studiată.
2. Dacă în studiu avem în vedere numărul locuitorilor fiecărei localităţi din ţară la o
anumită dată, atunci mulţimea localităţilor constituie populaţia statistică, fiecare
localitate devine o unitate statistică iar numărul locuitorilor la data respectivă a fiecărei
localităţi devine caracteristica studiată.
O caracteristică care se poate măsura se va numi caracteristică cantitativă. În caz contrar,
caracteristica se va numi calitativă.
Caracteristicile din exemplele anterioare sunt cantitative. Alte exemple de caracteristici
cantitative sunt: vârsta, salariul lunar, venitul obţinut, etc. Exemple de caracteristici calitative:
sexul, profesia, culoarea ochilor, etc.
Unele caracteristici se constată că pot lua numai valori întregi (numărul de locuitori ai unui
oraş, numărul pensionarilor dintr-o localitate, numărul firmelor, etc.). Aceste caracteristici se vor
numi discrete.
O caracteristică care poate lua orice valoare, număr real, dintr-un interval finit sau infinit se
numeşte continuă. Astfel de caracteristici pot fi: greutatea fiecărui individ al unei populaţii
statistice, înălţimea indivizilor unei populaţii, etc.
Gruparea datelor

Să presupunem că s-au înregistrat notele obţinute de sudenţii anului II la examenul de


statistică socială. Rezultatele sunt prezentate aceste date grupat astfel:
Nota 1 2 3 4 5 6 7 8 9 10
Nr. stud. 0 1 2 5 10 25 31 25 15 6

Din aceste date putem trage unele concluzii privind nivelul de pregătire şi de prezentare la
examen a studenţilor.
Analiza statistică a unui fenomen, în raport cu o singură caracteristică conduce la
prezentarea unei serii de perechi de valori, pe care o vom numi serie statistică.
În cazul caracteristicilor calitative, prima valoare a perechii din seria statistică nu mai este
numerică.
Exemplu: Să considerăm drept exemplu distribuţia după caracteristica sex a unei populaţii
statistice:
Sex Masculin Feminin Total
Nr. unit. statistice 86 94 180

De asemenea, distribuţia după caracteristica grupe de vârstă a unuei populaţii active în


câmpul muncii, ar genera o serie statistică a cărei primă valoare este cuprinsă între 18 şi 62 ani.
Vârsta 18 19 20 ……………………………………………………………………..62
Nr. unit. statistice …………………………………………………………………………………

Din motive practice se pot face grupări pe intervale mai mari ale vârstei subiecţilor, de
exemplu din 5 în 5 ani sau din 10 în 10 ani, astfel:
Grupe de vârstă 18 - 20 21 - 30 31 – 40 41 - 50 51 - 60 61 - 62
Nr. unit. statistice
Frecvenţă absolută. Frecvenţă relativă. Frecvenţă cumulate.
Numim frecvenţă absolută a unei valori a caracteristicii numărul de unităţi ale populaţiei
statistice corespunzătoare acelei valori.
De exemplu, în tabela distribuţiei după caracteristica sex, valoarea 86 reprezintă numărul
persoanelor masculine sau frecvenţa absolută respectivă. Analog, 94 reprezintă frecvenţa absolută
sau numărul persoanelor de sex feminin.
Suma frecvenţelor absolute ale tuturor valorilor caracteristicii este egală cu totalul
populaţiei statistice.
Numim frecvenţă relativă a unei valori m a caracteristicii raportul dintre frecvenţa absolută
a valorii respective m a caracteristicii şi totalul populaţiei statistice.
Vom scrie:
m
f=
n
unde:
f – este frecvenţa valorii respective a caracteristicii;
m – este frecvenţa absolută a acestei valori;
n – este totalul populaţiei statistice.
Revenind la exemplul anterior, frecvenţele relative vor fi:
86
f1 = = 0,48 sau 48%
180
94
f1 = = 0,52 sau 52%
180
Tabela respectivă devine:
Masculin Feminin
0,48 0,52
Seria statistică asociată unei caracteristici statistice se poate asocia cu distribuţia unei
variabile aleatoare, care, reamintim, este un tabel de forma:
x1 x2 ... xn
p1 p2 ... pn

în care x1, x2 ... xn sunt valorile aleatoare corespunzătoare cu probabilităţile p1, p2 ... pn .
Evident, avem că p1 + p2 +... + pn = 1
De multe ori, putem folosi termenul de variabilă statistică în loc de caracteristică.
Numim frecvenţă absolută cumulată a unei valori x a variabilei statistice, suma
frecvenţelor absolute ale tuturor valorilor variabilei care apar până la valoarea x inclusiv.
Reprezentarea grafică a seriilor statistice
Să considerăm distribuţia investiţiilor în câteva sectoare ale economiei naţionale:
Investiţii
Sectorul
procentuale
A ………………………………………………. 5,5%
B ………………………………………………. 14,5%
C ……………………………………………….. 20%
D ………………………………………………. 25%
E ………………………………………………. 35%
Total investiţii 100%

5,5
14,5
35

20

25

Reprezentarea grafică corespunzătoare poartă denumirea de diagramă.


Seriile cu caracteristică cantitativă se reprezintă grafic în raport cu un sistem de axe. Astfel,
distribuţia de mai sus poate fi reprezentată grafic prin mai multe feluri:
a) Reprezentarea prin batoane

40 35

30 25
20
20 14,5

10 5,5

0
A B C D E

b) Reprezentarea prin histograme

40 35
35
30 25
25 20
20 14,5
15
10 5,5
5
0
A B C D E

c) Reprezentarea prin poligonul frecvenţelor


În cazul reprezentărilor spaţiale se utilizează cartodiagramele.
Diagramele în cerc sau dreptunghiulare se mai numesc diagrame de structură.
Histogramele se utilizează în cazul seriilor cu intervale egale. Ulterior se poate construi
poligonul frecvenţelor.
Dacă unim punctele poligonului de frecvenţă printr-o curbă oarecare, obţinem curba
frecvenţelor sau curba de distribuţie.

Forma distribuţiilor cu o caracteristică


1. Distribuţii simetrice. Se prezintă sub forma unui clopot. Cele mai răspândite distribuţii
simetrice sau distribuţiile normale care urmează legea normală de probabilitate studiată
de Laplace şi K.J. Gauss.

2. Distribuţii uşor asimetrice.


3. Distribuţii pronunţat asimetrice.
4. Distribuţii în formă de J.
5. Distribuţii în formă de U.
Elemente caracteristice ale unei serii statistice

Vom numi valoare centrală a unei clase de variaţie media aritmetică a extremităţilor
acestei clase.
Modul dau dominanta unei serii statistice este valoarea caracteristicii corespunzătoare celei
mai mari frecvenţe.
Mediana unei serii este un număr x cu proprietatea că există atâtea unităţi statistice
corespunzătoare valorilor mai mici decât x cât şi cele corespunzătoare valorilor mai mari decât x.
Media aritmetică. Dacă x1, x2, … xn sunt n valori, atunci media aritmetică a lor este:
x 1 + x 2 + ... + x n
n
În cazul distribuţiei variabilei x:
Valori x1 x2 ……………………. xn
Frecvenţe y1 y2 ……………………. yn
Valoarea medie a variabilei respective este:
x 1 y1 + x 2 y 2 + ... + x n y n
x=
y1 + y 2 + ... + y n

dacă N= y1 + y 2 + ... + y n este totalul populaţiei, atunci:

x = x 1f1 + x 2 f 2 + ... + x n f n

yi
unde f i = , i = 1, 2, …, n.
N

Dispersia
Fiind date n valori x1, x2,…..,xn cu media x , numim dispersia acestor valori, mărimea:
1 n
σ2 = ∑ (x i − x)
n i =1

iar mărimea σ = σ 2 se numeşte abaterea medie pătratică.


Abaterea medie pătratică indică gradul de împrăştiere a valorilor în jurul mediei aritmetice. Din
inegalitatea Cebâşov rezultă că în intervalul
[x − 2σ, x + 2σ]
se află mai mult de ¾ din numărul abaterilor.
Variabile aleatoare
O variabilă aleatoare este un tabel de forma:
x1 x2 ... xn
X:
p1 p2 ... pn
unde xi sunt valorile pe care le poate lua variabila x cu probabilităţile pi. În plus, este îndeplinită
conotaţia:
p1 + p 2 + ... + p n =1
Pot exista variabile aleatoare diferite cu aceeaşi distribuţie.

Operaţii cu variabile aleatoare

x1 x2 … x m y1 y2 … yn
Dacă X: Y:
p1 p2 …. Pm q1 q2 … qn şi a∈ R o constantă,
atunci se definesc v.a. următoare:
a x1 a x2 …. a xn
aX
p1 p2 … pn

a + x1 a + x2 …. a +xn
a+X
p1 p2 ….. pn
x1 + y1 x2 + y2 …… xm + yn
X+Y
p11 p12 …….. pnm
unde pij este probabilitatea realizării simultane a evenimentelor X = xi , Y = yj
x1y1 x2y2 …… xmym
X·Y
p11 p12 …… pnm
unde pij este definit ca mai sus.

Variabile aleatoare independente

V.a. X şi Y sunt independente dacă evenimentele X = xi şi Y = yi sunt independente pentru


toate cuplurile i si j.
Putem scrie:
pij = P(X = xi şi Y = yj) = P((X = xi) ∩ (Y = yj)) = P(X = xi) · P(Y = yj) = pi · qj
Valoarea medie a unei v.a.
Valoarea medie a v.a. X este:
M(X) = m = x = p1x1 + p2x2 + … + pnxn
Numim moment de ordin k al v.a. X, valoarea medie a v.a. Xk:
Mk(X) = M(Xk) = p1 x 1k + … + pn x kn
Variabila X-M(X) se numeşte abaterea de la medie a v.a. X.
Cel mai bun indicator al împrăşierii unei v.a. este dat de expresia:
[
M (X − m )
2
]
Care este un moment centrat de ordinul al doilea numit dispersia v.a.X.
[
σ 2 = D2(X) = M (X − m ) ,
2
] m = M(X)

σ = σ 2 = D(X) = M (X 2 ) − M 2 (X)
se numeşte abatere medie pătratică.
Inegalitatea lui Cebâşev:
σ2
P( x − m < ε ) ≥ 1 − .
ε2
Unde m=M(X) iar σ 2 este dispersia v.a.X
Covarianţa a 2 v.a. X şi Y este coeficientul
[( )( )]
µ xy = M X − X Y − Y = M(XY) – M(X)M(Y)

Coeficientul de corelaţie a 2 v.a. X şi Y este


µ xy M (XY) − M (X) ⋅ M (Y)
ρ xy = =
σxσy M(X 2 ) − M 2 (X) ⋅ M(Y 2 ) − M 2 (Y)
Proprietăţi:
1. − 1 ≤ ρ xy ≤ 1

2. Dacă ρ = ±1 , între v.a. X şi Y există o dependenţă liniară. Astfel:


σy
y − M(Y) = (X − M(X) ) , cazul ρ = 1
σx

σy
y − M(Y) = − (X − M(X) ) , cazul ρ = −1
σx

3. Dacă v.a. X şi Y sunt independente, atunci ρ xy = 0

Coeficientul de variaţie (sau de împrăşiere)


σx
V=
M(X)
Corelaţia rangurilor
Fie n unităţi statistice A1, A2, …., An fiecare fiind definită prin 2 caracteristici:
(x1, y1), (x2, y2), …, (xn, yn)
Ne punem problema existenţei unei corelaţii între aceste caracteristici.
Coeficientul de corelaţie a rangurilor al lui Spearman:
n

∑d
i =1
2
i
ρ = 1− 6 (n > 1)
n ( x 2 − 1)
Proprietăţi: − 1 ≤ ρ ≤ 1
Coeficientul de corelaţie a rangurilor lui Kendall
2( P − Q )
r=
n (n − 1)
unde P este un indicator al concordanţei pozitive, iar Q un indicator al concordanţei negative.
Coeficienţi de corelaţie parţială şi multipă
xi  y  z 
Dacă X :   , Y :  i  , Z :  i  sunt 3 v.a. şi m11 = M(x – m1)2;
 pi  qi   ri 
m12 = M(x – m1)(y – m2), m22 = M(x – m2)2
atunci
m12
σ12 =
m11 m 22

este coeficientul de corelaţie parţială între variabilele X şi Y. În mod analog se defineşte


ρ 23 si ρ31
Corelaţia dintre variabila X şi grupul Y şi Z se stabileşte de către coeficientul de corelaţie multiplu:

M
σ1.23 = 1 −
m11 M 11

 m 11 m12 m13 
 
unde M =  m 21 m 22 m 23 
m m m 
 31 32 33 

iar M ij este minorul elementului mij din M

În mod analog,

M
σ 2.31 = 1 − şi
m 22 M 22

M
σ 3.12 = 1 −
m 33 M 33
Coeficientul multiplu între variabilele Xi şi grupul (X1, …, Xi-1, Xi+1, …, Xn) este dat de formula:

M
ρ i;1, 2,...,i −1,i +1,..., n = 1 −
m ii M ii

Analiza de regresie
Fie o distribuţie teoretică discretă de 2 variabile bidimensionale, X şi Y de repartiţii

a  bj 
X :  i  , Y: 
q 
 pi   j
şi P(X=ai), Y=bj)
Se pune problema determinării parametrilor α si β astfel încât:

M (Y − αX − β) 2 = min sau
n n

∑∑ p
i =1 j=1
ij (b j − αa i − β) 2 = min im

analiza de regresie rezolvă această problemă a niminizării sau a găsirii dreptelor de cea mai bună
aproximare, abţinându-se dreptele de regresie:
σX
y − M(Y) = ρ (X − M (X)) şi
σY

σY
y − M(Y) = ρ (X − M (X))
σX
cu centrul de greutate: (M(X), M(Y))

Analiză cauzală
Termeni echivalenţi: “path analiysis”, “cauzal analysis”, “analiză de dependenţă”.
Problema care se pune este determinarea relaţiilor într-un ansamblu de variabile în
contextul unei structuri cauzale.
Numim variabilă orice criteriu de clasificare fie că este vorba de o însuşire dichotomică
(sexul), de ordin (nivelul de şcolarizare) sau variabilă cantitativă (precum venitul).
Metodele mai importante aparţin lui Simon, H. Blalock şi R. Boudon.
Metodele se bazează pe observaţia coeficienţilor de corelaţie liniară între variabile care au
la bază tehnicile clasice ale analizei de regresie.
Modelul recursiv
(M. Simon, H. Blalock şi R. Boudon, Duncan şi Alker).
Ipoteze:
I. Relaţiile sunt liniare.
Orice variabilă a graficului este exprimată ca funcţie liniară de una sau mai multe variabile.
Ex. x2 = a12x1 + e2

x1 x1

x2 x3 e2 x2

x4
x4 = a24x2 + a34x3 + e4
II. Nu există efect de interacţiune.
III. Rezidurile ei nu sunt corelate între ele.
X1 Sistemul de ecuaţii ataşat graficului orientat alăturat:
x2 = a12x1 + e2
X3 x3 = a23x2 + e3
x4 = a14x1 + a24x2 + a34x3 + e4
X2

x4
Eşantionarea
Eşantionarea reprezintă acel procedeu statistic prin care se prelevă un lot al populaţiei
statistice intrate în studiu, numit eşantion, şi ale cărei caracteristici pot fi extinse, prin interferenţă
statistică, la întreaga populaţie statistică, numită adesea şi universul de eşantionare.
Principiul de bază al eşantionării este ca fiecare element al colectivităţii statistice să aibă
şanse reale, de apariţie în lotul de selecţie numit eşantion.
Reprezentativitatea eşantionului este capacitatea acestuia de a reproduce cât mai fidel
structurile şi caracteristicile populaţiei din universul de eşantionare.
Gradul de reprezentativitate este măsurat de 2 indicatori:
- d = eroarea maximă care exprimă diferenţa cea mai mare pe care o aceptăm între o valoare
v* din eşantion şi v- valoarea corespunzătoare populaţiei;
- P – nivelul de încredere care arată ce şanse sunt ca eroarea reală comisă să nu depăşească
eroarea maximă admisă (v* - d, v* +d) – interval de încredere.
Gradul de reprezentativitate al unui eşantion depinde de:
- caracteristicile populaţiei;
- mărimea eşantionului;
- procedura de eşantionare folosită.

Tehnici de eşantionare:
Eşamtionare
- aleatoatre (probabilistică);
- nealeatoare.
Tipuri de eşantionare:
- Eşantionarea simplă aleatoare;
- Eşantionarea prin stratificare;
- Eşantionarea multistadială;
- Eşantionarea pe cote;
- Eşantionarea fixă (panel).
Tipuri de erori:
- de eşantionare;
- de observare.
Organizarea unui sondaj statistic.
Dosarul unui sondaj.
Construirea unei baze de sondaj.
Construirea unui model de eşantion naţional.
Teste de semnificaţie:
- testul χ 2
mi – frecvenţe teoretice;
hi – frecvenţe experimentale.
- Grade de libertate, prag de semnificaţie.
- Interpretare. Ipoteza nulă.

Chestionarul psiho-sociologic

Tipuri de întrebări:
- după conţinut:
o factuale, de opinie, de cunoaştere.
- după forma de înregistrare a răspunsurilor:
o închise, deschise, întrebări cu posibilităţi multiple de răspuns.
Analiza scalară (de ierarhizare):
Tipuri de scale:
- scale nominale;
- scale ordinale;
- scale cu intervale;
- scale proporţionale.
Analiza non-răspunsurilor.
Analiza metodelor bazate pe ierarhii.
Paradoxul lui Condorcet.
Indicatorii de agregare.
BIBLIOGRAFIE FACULTATIVĂ

1. C.A. Moser, Metode de anchetă în investigaţia fenomenelor sociale, Ed. Ştiinţifică şi


Enciclopedică, Bucureşti, 1967.
2. D. Sandu, Statistica în ştiinţele sociale, Universitatea Bucureşti, 1992.
3. T. Rotariu, P. Iluţ, Ancheta sociologică şi sondajul de opinie, Ed. Polirom, Iaşi, 1997.
4. S. Chelcea, Metodologia cercetării sociologice – Metode cantitative şi calitative, Ed.
Economică, Bucureşti, 2001.
5. Dumitru Porojan, Statistica şi teoria sondajului, Ed. Şansa – S.R.L., Bucureşti, 1993.
6. M.G. Yule, G.V. Kendall, Introducere în statistică, Ed. Ştiinţifică, Bucureşti, 1969.
7. M. Cobianu-Băcanu, P. Alexandrescu, Ozana Cucu-Oancea, Cultura, identitatea naţională
şi educaţia în dezvoltatea durabilă a societăţii româneşti, Ed. Paralela 45, 2002.
8. M. Cobianu-Băcanu, P. Alexandrescu, Elena Cobianu, Adolescenţii – Primăvara Europei.
Cultura procesului de integrare europeană, Ed. Arvui Press, 2004.
Bibliografie obligatorie
P. Alexandrescu, Introducere în statistica socială, Ed. Paralela 45, 2004.

Concepte cheie (care se regăsesc în bibliografia obligatorie).


Statistica descriptivă, statistica matematică, caracteristici cantitative, calitative, serii
statistice, frecvenţe (absolute, relative, cumulate), diagrame, histograme, curba frecvenţelor,
variabile aleatoare, modul, medie, mediana, dispersie, abatere medie pătratică, coeficient de
corelaţie, corelaţia rangurilor, regresie, analiză cauzală (de dependenţă), eşantion
(eşantionare), grad de reprezentativitate, teste de semnificaţie, intervale de încredere,
analiza scalară, metode de ierarhizare, indicatori de agregare.

Teste de autoevaluare (model).


1. Caracteristici ale variabilelor aleatoare.
2. Principalele tipuri de eşantionare.
3. Testul χ 2 .
4. Analiza non-răspunsurilor dintr-un chestionar de opinie.

You might also like