You are on page 1of 22

Inferență statistică

Observațiile sau investigările statistice presupun studierea unei caracteristici corespunzătoare


unei populații.
Datorită faptului că accesul la întreaga populație (toate observațiile posibile) este mai dificil de
realizat (populație finită sau infinită), această colectare a datelor cu privire la o caracteristică
(caracteristici) se realizează în general prin eșantionarea.
Inferența statistică reprezintă procesul de extrapolare (generalizare) a informațiilor rezultate în
urma studierii unui eșantion, la nivelul întregii populații.
Inferența statistică reprezintă partea statisticii ce se ocupă cu dezvoltarea metodelor și tehnicilor
de investigare a unei populații.
• Importanța acestei operații poate fi mai bine sesizată dacă luăm în considerare faptul că
eșantionul reprezintă un procent infim din întreaga populație (1:10000).
• Concluziile obținute pot fi eronate dacă eșantionul analizat nu reprezintă întreaga diversitate
pe care o întâlnim în populație.
Eșantionul (lot) - reprezintă o submulțime a populației statistice asupra căreia experimentatorul
aplică metode statistice propriu-zise.
• Extragerea unui eșantion dintr-o populație se bazează pe anumite metode de alegere a
elementelor eșantionului.
• Metode de alegere:
• metode bazate pe reprezentativitate (elemente ce dețin toate caracteristicile
populației);
• metode probabiliste (elementele au aceeași șansă de a fi selectate din populație).
• Eșantionarea unei populații se poate face:
• cu returnare (după extragerea unui element, acesta se introduce din nou în cadrul
populației, putând fi ulterior extras);
• fără returnare.
• Dintr-o populaţie de volum N se pot extrage eşantioane de volum n, unde n<N.
• Rezultă că numărul de eșantioane ce pot fi extrase este mare.
• Valoarea indicatorilor statistici (ex. media) analizați variază de la un eșantion la altul.
Exemplu:
Se consideră o populație în care o variabila poate lua orice valoare întreagă între 0 și 4 (valoare
numerică ce reprezintă numărul de defecte ale unui produs).
• Se consideră populația ca fiind formată din 5 obiecte, fiecare având 0, 1, 2, 3 sau 4 defecte.
• Se extrag eșantioane formate din două exemplare.
• Eșantionarea se face atât cu returnare de element cât și fără
returnare de element.

• După extragerea unui element, acesta NU se reintroduce în


populație
• Se obțin 10 de eșantioane;
• Fiecare element are asociat un număr de defecte;
• Media calculate pentru fiecare eșantion diferă de la un eșantion la
altul.
• După extragerea unui element, acesta se reintroduce în
populație
• Se obțin 25 de eșantioane;
• Fiecare element are asociat un număr de defecte;
• Media calculate pentru fiecare eșantion diferă de la un
eșantion la altul.

• Se extrag eșantioane formate din trei si patru exemplare.

Se observa ca media este aceeași iar deviația standard variază (scade pe măsura ce creste
volumul eșantionului).
La eşantionarea cu returnare, relaţia dintre σ2x̅ și σ2 este:
2
 =
2
x
n
La eşantionarea fără returnare:
2  N −n
 x2 =  
n  N −1 
Pentru n<=0.05N factorul de corecţie poate fi ignorat
Pe măsură ce n crește, repartiția se apropie de cea normală.
• Tendința este adevărată pentru toate eșantioanele, indiferent de distribuția populației.
• Această tendință se numește teorema limită centrală.
• Pe măsură ce volumul eşantionului crește, distribuția tinde spre una normală (chiar în
situația când populația are o altfel de distribuție).
• Proprietățile repartiției normale pot fi aplicate pentru determinarea erorii ce apare datorită
eșantionării.
• În practică teorema limită centrală se aplică pentru eșantioane de volum 𝑛 ≥ 30

Estimări:
În practică studiul unei populații se efectuează pe o submulțime a sa, un eșantion, iar concluziile
obținute sunt extinse prin inferență statistică la nivelul întregii populații.
Concluziile rezultate în urma studiului sunt afirmații adevărate la nivelul eșantionului, dar la nivelul
populației ele au aceeași valoare numai cu o anumită probabilitate.
Determinarea valorilor parametrilor populației pe baza valorilor unor indicatori, obținute pe
eșantioane, se numește estimare statistică.
• Mărimile caracteristice ale unei populații se numesc parametri.
₋ media populației 𝜇
₋ deviația standard a populației 𝜎
₋ eroarea standard a mediei 𝜎𝑥̅
• Mărimile caracteristice ale unui eșantion se numesc statistici sau indicatori statistici.
₋ media eșantionului 𝑥̅
₋ deviația standard a eșantionului 𝑆
₋ eroarea standard a mediei 𝑆𝑥̅
Estimatorul reprezintă o statistică utilizată pentru a aproxima un parametru.
Ex: media eșantionului 𝑥̅ este un estimator al mediei populației 𝜎.
Estimația reprezintă valoarea pe care o ia un estimator într-o determinare concretă.
• Un estimator trebuie sa aibă cel puțin doua calități:
– să reflecte corect rezultatele obținute;
– să aibă o precizie suficient de mare.

• Media unui eşantion poate fi considerată o estimare punctuală.


• În cazul estimării punctuale a mediei se consideră abaterea standard  a populaţiei cunoscută.
• Condiții necesare pentru o estimare bună
– Estimare eficientă (deviația standard să fie cât mai mică posibil);
– Estimare nedeplasată (media eșantionului este egală cu parametrul estimat);
– Estimare consistentă (valoarea estimată tinde spre valoarea adevărată pe măsură ce
volumul eșantionului creşte).
În statistică se consideră că valoarea adevărată a unui parametru reprezintă un element
necunoscut, o valoare intrinsecă.
Valoarea adevărată poate fi estimată cu ajutorul unor măsurări repetate asupra aceleiași mărimi,
corespunzătoare parametrului respectiv, sau asupra unor entități de același tip, ce conține informații
despre parametru căutat.
• O singură estimare a mediei diferă de media populației, datorită erorii de eșantionare.
• Din acest motiv, în multe situații se preferă estimarea printr-un interval de încredere:
Intervalul de încredere reprezintă “o plaje de valori” în interiorul căruia poate fi stabilit cu o
anumită certitudine poziția parametrului populației estimat.
• Intervalul estimat cu un nivel de încredere 1 − 𝛼 se numește interval de încredere (unde 𝛼
este nivelul de semnificație).
• 100(1 - ) este nivelul de încredere
• Z/2 este valoarea variabilei Z ce exclude la fiecare extremitate a distribuției o arie de /2
• /2-cvantila distribuției normale standard.

• Astfel estimarea unui parametru teoretic nu se face printr-o singura valoare ci printr-un
interval în care parametrul estimat se găsește cu o probabilitate mare.
𝜎
𝜇 = 𝑥̅ ± 𝑍𝛼⁄2
√𝑛
𝜎
𝜎𝑥̅ = 𝑥̅ ± 𝑍𝛼⁄2
√𝑛

Valoarea corespunzătoare mediei populației este o cantitate fixă, dar necunoscută.


Este incorect să se interpreteze estimare pe baza intervalului de încredere ca o probabilitate
corespunzătoare mediei populației 𝝁.
• Estimarea cu ajutorul unui interval de încredere pentru media µ a distribuției normale se
bazează pe un eșantion de volum n și medie 𝑥̅ .
• Se pot utiliza diferite nivele de încredere în estimarea intervalului valorii medii.
• În practică s-a demonstrat că nivelul de încredere de 95% pentru media  a populației satisface
optim cerințele în majoritatea cazurilor concrete.
Exemplu:
În cadrul unui studiu clinic s-a constatat că media glicemiei la un eșantion de 121 de pacienți este
105 iar varianța este 36.
– Care este intervalul de încredere corespunzător mediei populației, ce are o distribuție normală,
din care s-a extras eșantionul analizat cu un prag de semnificație 𝛼 = 0.05.

Un interval de încredere prea mare (larg) conferă foarte puține informații.


• De exemplu se realizează o estimare a salariului unui inginer debutant, cu un interval de
încredere de 95%.
– Cu limitele între 2000 lei și 10000 lei.
– Cu limite între 2500 și 2700 lei.
– Cea de-a doua estimare este cu un interval mai îngust, ceea ce confer informații mai
precise cu privire la salariul unui debutant.
Dimensiunea intervalului de încredere este o funcție ce depinde de
– Nivelul de încredere;
– Deviația standard a populației;
– Dimensiunea eșantionului.
𝜎
𝑥̅ ± 𝑍𝛼⁄2
√𝑛
Creșterea dimensiunii eșantionului conduce la diminuarea intervalului de încredere pentru
același nivel de încredere.
• Un nivel de încredere mare conduce la un interval de încredere mare.

• O deviație standard mare a populației conduce la un interval de încredere mai larg.


• În mod uzual,  este o mărime necunoscută (informaţii certe sunt cele legate de eşantion).
• Se poate demonstra, că S este o estimare nedeplasată a abaterii standard.
– În cazul eşantioanelor de volum mare, estimarea este foarte bună;
– În cazul eşantioanelor de volum mic, S poate fi subestimat.
Din acest motiv la eşantioanele de volum mic, trebuie lărgit intervalul de încredere. Acest lucru
se realizează prin utilizarea repartiţiei t.
• În cazul în care 𝑥̅ este media unui eșantion mic (N< 30), abaterea 𝑆 nu este aproape de
valoarea parametrului 𝜎.
• În acest caz mediile eșantioanelor au o distribuție t ce este caracterizată de numărul
gradelor de libertate 𝜈 = 𝑁 − 1
• Similar cu repartiția normală 𝜇 = 𝑥̅ ± 𝑡𝛼⁄2,𝜈 ∙ 𝑆𝑥̅
𝑆
unde 𝑡(1 − 𝛼⁄2 , 𝑛 − 1) iar 𝑆𝑥̅ =
√𝑛
Exemplu:
Masa unor persoane ce utilizează un ascensor este prezintă o distribuție normală. În urma
extragerii unui eșantion avem următoarele valori: 71 85 68 72 58 76 74 80.
Să se estimeze cu o probabilitate de 95% valoarea medie.

• Pentru o estimare corectă a unui parametru statistic se utilizează intervalul de încredere.


• Intervalul de încredere depinde de volumul eșantionului și de eroarea standard.
• Cu cât volumul eșantionului este mai mic cu atât intervalul de încredere este mai larg.
• Cu cât eroarea standard este mai mare cu atât intervalul de încredere este mai larg.
Testarea ipotezelor

Informațiile legate de o anumită populație statistică se obțin prin selectarea unui eșantion, cu
ajutorul căruia se estimează parametrii populației respective.
Pe baza acestor parametri se poate forma o imagine asupra caracteristicilor analizate.
Exemplu:
• Dintr-un lot de piese se extrage un eșantion de n elemente și se efectuează măsurări ale
greutății G
• Greutatea presupusă va fi o variabilă repartizată normal cu media 𝜇 și dispersia 𝑆.
Pentru eșantionul extras s-a determinat prin calcul media experimentală.
• Se pune problema dacă, rezultatul obținut constituie o ipoteză statistică, adică o presupunere
(supoziție) asupra populației statistice luate în studiu.
Se numește ipoteză statistică orice presupunere relativă la parametrii uneia sau mai multor
populații statistice sau presupuneri legate de distribuția de probabilitate a populației statistice.
În multe probleme din inginerie se pune problema dacă se acceptă sau se resping valorile obținute.
• Chiar dacă ipoteza statistică este avansată pe baza unui eșantion, concluzia referitoare la
valoarea parametrului sau la natura repartiției se referă la întreaga populație.
• O presupunere asupra unor elemente ale repartiției (μ = G ̅) poate admite o alternativă (μ ≠
̅
G).
• Ipotezele pot fi acceptate sau nu cu anumite probabilități de corectitudine a deciziei.
Ipoteza inițială se mai numește și ipoteză nulă și se notează H0.
• Ipoteza nulă presupune că toate măsurătorile pe care dorim să le comparăm sunt egale, iar
eventualele diferențe se datorează exclusiv întâmplării.
• Ipoteza nulă este ipoteza care se testează statistic.
• În funcție de rezultatul testării se acceptă sau se respinge ipoteza inițială.
Pe baza ipotezei nule se pot compara:
• O valoare medie (obținută pe baza unui eșantion) cu o valoare data;
• Două valori medii (obținute pe baza a două eșantioane);
• O distribuție experimentală cu una teoretică;
• Două distribuții experimentale;
• Două sau mai multe dispersii.
Cealaltă ipoteză se numește ipoteza alternativă sau concurentă se notează H1.
• Dacă ipoteza alternativă este acceptată, decizia susține faptul că variația fenomenului studiat
nu se datorează doar întâmplării (intervin și alți factori).
• Se acceptă ipoteza alternativă dacă diferențele constatate sunt vizibil astfel încât nu pot fi
explicate prin efectul întâmplării.
• Ipotezele statistice nu sunt echivalente cu ipotezele științifice.
• În cazul unei ipoteze științifice este suficient un singur exemplu contrar pentru a o infirma, dar
o ipoteză statistică poate fi adevărată, chiar dacă într-o anumită situație a fost respinsă ca
fiind falsă.
• Toate concluziile statistice se fac cu privire la ipoteza nula.
• Ca si cercetatori (investigatori) respingem ipoteza nula sau nu reusim sa respingem ipoteza
nula.
• Acest lucru se datoreaza faptului ca se pleaca de la idea ca ipoteza nula este adevarata
(respingerea sau nu a asumarii).
• Daca se respinge ipoteza nula, se trage concluzia ca datele sustin ipoteza alternative.
• Daca nu se respinge ipoteza nula, acest lucru nu inseamna ca ipoteza nula este “adevarata”.
• Ipotezele statistice sunt însoţite de două tipuri de erori:
• O eroare - probabilitatea de a respinge ipoteza H0, când în realitate ea este adevărată.
Eroarea :
 = P(respinge H0H0 adevărată).
• O eroare –probabilitatea de acceptare a ipotezei H0, când în realitate ea este falsă. Eroarea
:
 = P(acceptă H0H0 falsă).
Aceste erori se mai numesc erori de tip I şi II.

Metoda efectivă de luare a deciziei asupra acceptării sau respingerii ipotezei H0 se face cu
ajutorul unui test sau criteriu statistic.
• Testul impune luarea uneia dintre cele două decizii (acceptare sau respingere a ipotezei
nule) cu un anumit risc.
• 1 -  este probabilitatea de respingere a ipotezei nule când aceasta este falsă.
• 1 -  se consideră ca fiind puterea testului respectiv
Din punct de vedere practic, pentru a verifica ipoteza H0 cu alternativa H1 sunt necesare:
• o statistică a cărei repartiție să fie cunoscută;
• o valoare considerată “critică” cu care să se compare valoarea calculată a statisticii;
• o regulă de decizie prin care să se accepte sau să se respingă Ho;
• o valoare a riscului ales , ce se mai numeşte nivel de semnificaţie al testului.
Etapele aplicării unui test statistic:
• Formularea ipotezei nule şi a celei alternative.

• Alegerea nivelului de semnificație 𝛼 (uzual este 5% sau 1%).


• Selectarea statisticii şi a valorii critice.
Ipoteze
Tip test
H0 H1
x Z t
2 extremităţi =0   0 0  Z / 2 x  Z/2  t(/2,)
o extremitate =0   0  0 + Z  x + Z + t(,)
o extremitate =0   0  0 − Z  x - Z - t(,)

• Determinarea statisticii testului (media experimentală sau valoarea transformată în format


standard Z sau t).

• Formularea deciziei
– se acceptă H0, dacă 𝑥̅ aparține intervalului de acceptare (se respinge H0 dacă acest lucru
nu se întâmplă)
– Dacă utilizăm Z sau t se acceptă H0 dacă valoarea Z, respectiv t cade în interiorul
domeniului de acceptare (în caz contrar se respinge)
– se acceptă H0 dacă 𝑥̅ , Z sau t este mai mare sau mai mic decât valoarea critică (în funcţie
de ipoteza alternativă) și se respinge în caz contrar
Exemplu:
În urma unui studiu statistic cu privire la procesul de sudare a caroseriilor unor mașini, s-a
constatat că un robot sudează în medie 5 caroserii pe oră cu o deviație standard de 0.8. Analizând
un eșantion de 60 de caroserii sudate de un al doilea robot s-a constatat că procesul de asamblare
are o medie de 5.45 caroserii pe oră.
– Să se testeze ipoteza că producția de 5.45 diferă de cea de 5. Se admite un nivel de
semnificație de 0.05.
o Deoarece se cunoaşte valoarea lui , se aplică distribuţia normală, cu variabila Z.
o Date iniţiale:
•  = 5;  = 0.8; n = 60
o Ipoteze:
• H0: 0 = ; H1: 0  
o Nivel de semnificaţie  = 0.05  Z/2 = Z0.025 = 1.96
Deviaţia standard a mediei:
 0 .8
x = = = 0.1033
n 60
o Valori critice (limitele):

– pentru 𝑥̅ :
5  1.960.1033  4.7975 şi 5.2025
– pentru Z:  Z/2  -1.96 şi 1.96

5.45 − 5
Z= = 4.3562
0.1033
o Formularea deciziei:
– Valoarea 𝑥̅ = 5.45
cade în afara intervalului determinat de valorile critice (5.45> 5.2025)
– Valoarea Z = 4.3562
se găseşte în afara intervalului determinat de valorile critice.
Concluzia: Indiferent de testul aplicat se poate afirma că se respinge ipoteza nulă cu un interval de
încredere de 95%, deci media producției în cel de-al doilea caz diferă de prima.
Nu se poate afirma că media eșantionului este mai mare, deoarece s-a utilizat un test cu două
extreme.
• Se testeze dacă media eșantionului este mai mare decât media populației
• Ipoteze:
H0: 0 = ; H1: 0 > 
• Nivel de semnificaţie
 = 0.05  Z = Z0.05 = 1.645
• Deviaţia standard a mediei:  x = 0.1033
• Valori critice (limitele):
– pentru 𝑥̅ : 0 + Z  x 5 + 1.6450.1033 = 5.1699
– pentru Z: + Z -1.645
Formularea deciziei:
– Valoarea 𝑥̅ = 5.45 > 5.1699.
x −  0 5.45 − 5
Z= = = 4.3562
x 0.1033
– Valoarea 𝑍 = 4.3562 > 1.645
Concluzia: În ambele teste se respinge ipoteza nulă şi cu un interval de încredere de 95% se acceptă
ipoteza alternativă (productivitatea celei de-al doilea robot este mai mare).

Exemplu:
Pentru determinarea nivelului de pregătire profesionala, in cadrul unei facultati, au fost testați
studenți de la doua cicluri de master. Au fost formate două eșantioane de 15 studenți, iar rezultatele
centralizate sunt prezentate în continuare (valoarea înregistrată fiind notele obținute).

Datorită faptului că studenții provin de la două module de master diferite, nu sunt motive să se
presupună că varianţele cele două populaţii ar fi egale.
Se va aplica testul t, varianțele fiind necunoscute și volumul eșantioanelor mic.
• Ipoteze:
H0: 0 = ; H1: 0  
• Nivel de semnificaţie:
𝛼 = 0.05
• Deviaţia standard a mediei:

7.12 9.32
S x1 − x2 = + = 3.0210
15 15
• Valori critice  t/2 =  2.05 cu  = 28
(S n1 + S 22 n2 )
2 2

= = 28.1  28
1

 S12   S 22 
  ( n1 − 1) +   ( n2 − 1)
 n1   n2 
• Testul
( x − x ) 7.5 − 6.2 = 0.43
t= 1 2 =
S x1 − x2 3.0210
Concluzie: Deoarece |t| < |t/2| nu se respinge ipoteza nulă, deci între cele două cicluri de master nu
există diferenţe statistice semnificative
Analiza exploratorie a datelor

Analiza Exploratorie a Datelor (Exploratory Data Analysis – EDA) reprezintă o nouă metodă de
abordare a prelucrării datelor ce constă în diferite tehnici (preponderent grafice) ce permit
evidențierea unor structuri în date.
• Această metodă a fost creată de statisticianul american John Tukey în 1977.
• Scopul constă în evidențierea caracteristicilor datelor astfel încât analistul să înțeleagă cât
mai bine procesul, să-l poată analiza și modela.
• EDA reprezintă un pas premergător, necesar pentru o analiză aprofundată a datelor.
• Conform acestei metode, datele trebuie explorate fără a presupune apriori anumite relații
între diferite mărimi sau variabile.
• Analiză statistică clasică

• Analiză exploratorie

În analiza exploratorie, modelarea se face doar după depistarea principalelor caracteristici ale
setului de date, ceea ce face ca modelul să aibă șanse mult mai mari să fie unul corect.
Tehnicile EDA evidențiază caracteristicile setului de date, pe baza acestora se stabilește modelul
corespunzător al datelor, iar validarea modelului se face cu metode cantitative.
Exemplu de date experimentale:

Analizarea datelor:
12 12

10
10
8
8
6
6
4

4 2
0 5 10 15 0 5 10 15

14 14

12 12

10 10

8 8

6 6

4 4
0 5 10 15 5 10 15 20
• Primul set de date are un comportament liniar, fără valori aberante, la care modelul dreptei
de regresie este corespunzător;
• Al doilea set de date are un comportament pătratic, fără valori aberante, modelul ar trebui
să fie un polinom de gradul doi;
• Al treilea set de date prezintă o valoare aberantă, care ar trebui eliminată;
• Ultimul set de date este rezultatul unui experiment prost organizat (conţine o singură
valoare mult distanţată de restul valorilor).
Ipotezele de bază care se verifică în cazul analizei exploratorii sunt:
– caracterul aleator;
– apartenenţa la o anumită repartiţie;
– menţinerea localizării constante;
– menţinerea variabiliăţii constante.

• Previziunea este un ţel important în inginerie.


• Dacă ipotezele sunt valabile, se pot face previziuni asupra unui proces.
• Dacă cele patru ipoteze nu sunt valabile, procesul este în derivă imprevizibil și necontrolabil.
• Orice caracterizare a unui astfel de proces va conduce la concluzii eronate.
În cazul unei serii de date, cel mai frecvent prin analiza statistică se urmărește înlocuirea seriei de
date cu o valoare, la care se asociază un interval de incertitudine. 𝑦𝑖 = 𝑐 + 𝑒𝑖 .
• Pentru ca modelul matematic asociat să fie corect este necesar să fie îndeplinite toate cele
patru ipoteze fundamentale.
Testarea ipotezelor asigură valabilitatea concluziilor
Tehnicile utilizate :
• graficul secvențial al punctelor Yi(i)- Run Sequence Plot
• graficul punctelor succesive Yi(Yi-1) – Lag Plot
• histograma
• graficul probabilității normale – Normal Probability Plot – Yexp (Y estimat normal)
Graficul secvenţial al punctelor (Run Sequence Plot)
Scop: verifică deplasări ale localizării, variabilităţii şi prezenţa valorilor aberante.
Se reprezintă Yi(i)

Graficul trebuie să poată fi aproximat cu o dreaptă paralelă cu axa absciselor, să aibă amplitudinea în
direcţia axei 0y aproximativ constantă, să nu apară valori situate la distanţă mare de restul valorilor.

• În primul grafic se observă că localizarea setului de date este constantă și variabilitatea


șirului este de asemenea constantă.
• În cel de-al doilea grafic apar modificări ale localizării (în prima jumătate tendință
crescătoare iar în a doua jumătate una descrescătoare) dar nu apar modificări de variabilitate sau
valori aberante.
• În al treilea exemplu de grafic se remarcă modificarea de variabilitate care apare în a doua
jumătate a setului de date, există câteva valori aberante (datorită creșteri variabilitații) dar
localizarea este constantă.
• În ultimul grafic secvențial localizarea și variabilitatea sunt constante dar există suspiciunea
unei valori aberante.
Graficul punctelor succesive (Lag Plot)
Scop: verifică caracterul aleator al datelor.
În cazul datelor aleatoare nu trebuie să apară nici o structură în reprezentare.
Se reprezintă Yi(Yi-1).

caracter puternic nealeator; model periodic de tip model de autoregresie cu


model liniar; armonic autocorelaţie puternică;
nu apar valori aberante; nu apar valori aberante;
se remarcă cum punctele se apar valori aberante. se remarcă gruparea clară a
grupează de-a lungul se remarcă gruparea eliptică datelor de-a lungul bisectoarei.
bisectoarei. a datelor (caracteristică a
modelelor sinusoidale).

Histograma
Scop: reprezentarea rezumativă a şirului de dateîn intervale de lungime constantă.
Histograma indică: localizarea datelor, variabilitatea acestora, asimetria, prezenţa valorilor aberante,
caracterul uni sau multimodal al repartiţiei. Aceste caracteristici furnizează indicaţii clare referitoare
la modelul potrivit repartiţiei datelor.

Se observă: simetrie, extremităţi de anvergură moderată,


clasica formă de clopot. Această repartiţie apare cel mai
frecvent în natură. Dacă histograma este simetrică, cu
anvergură moderată la extremităţi se poate considera
repartiţia normală.
histograma indică o repartiţie Indică o anvergură mare la indică o repartiție cu asimetrie
diferită de cea normal; extremități (cozi mari); dreapta;
are extremităţile fără coadă probabilitatea de apariție asimetria poate apare datorită
(short tail) - caracter scade lent, există limitării inferioare sau superioare
trunchiat; probabilitate de apariție la a datelor;
Probabilitatea de apariție distanță mare de corpul repartiţiile asimetrice ridică
este constantă pe un repartiției; probleme de estimare, media nu
domeniu și zero în rest; modelul clasic pentru un mai are consistenţă, modulul nu
se poate considera că setul astfel de set de date este prezintă semnificație deosebită;
de date provine dintr-o repartiția Cauchy;
repartiție uniform;

histogramă cu caracter histogramă ce indică


bimodal; prezența valorilor aberante;
pentru a găsi explicații se recomandă verificarea
trebuie continuată analiza prezenței valorilor aberante
datelor cu graficul box-plot sau teste
se construieşte graficul cantitative;
secvenţial al punctelor se analizează pentru a se
pentru a verifica eventualele identifica cauza apariției
tendinţe ce apar; valorilor aberante.
se construieşte graficul
punctelor succesive pentru a
verifica caracterul armonic.
• Media este un estimator bun al localizării în cazul repartiţiei normale (anvergură medie), este
o alegere nepotrivită pentru pentru repartiţii fără anvergură şi eronată în cazul repartiţiei cu
anvergură mare.
• Pentru repartiţia uniformă cel mai bun indicator al localizării este mijlocul amplitudinii.
• Pentru repartiţii tip Cauchy, mediana este cel mai bun estimator al valorii centrale.
• Repartiţiile asimetrice se caracterizează prin doi indicatori, preferabil toţi trei (medie, mediană
şi modul).
Pentru ca reprezentarea histogramei să poată fi comparată cu funcția densitate de probabilitate este
necesar să se facă normalizarea histogramei, adică suma ariilor dreptunghiurilor trebuie să fie egală
cu 1.
Graficul probabilităţii normale
Scop: verificarea normalităţii repartiţiei datelor.
Reprezentare: pe axa verticală setul de date ordonat, iar pe axa orizontală cvantila corespunză-toare
din repartiţia normală.
Interpretare: Îndepărtarea de dreaptă indică abateri de la repartiţia normală.

• Metoda furnizează răspunsuri la


următoarele întrebări:
– sunt datele repartizate normal;
– care este natura îndepărtării de la
normalitate (asimetria, extremități de anvergură
mică sau prea mare).
• Această metodă grafică oferă răspuns la
ipoteza apartenenței la o anumită repartiție.
• Majoritatea modelelor statistice sunt de
forma:
𝑦𝑖 = 𝑐 + 𝑒𝑖

În cazul când anvergura extremităţilor este mică, graficul probabilităţii normale are o formă de „S”
mai atenuată.

la anvergură mică: punctele de început sunt situate sub dreapta corespunzătoare repartiției
normale, iar punctele de sfârșit sunt situate deasupra dreptei;
la anvergură mare forma de „S” este mai accentuate;
punctele de început sunt situate deasupra, iar cele de sfârşit sunt sub dreaptă.
se întâlnesc de obicei la date ce provin dintr-o repartiție Cauchy.

În cazul unei repartiții uniforme forma de „S” este mai accentuate;

în cazul unei repartiții cu asimetrie stânga, curba probabilităţii normale are punctele de început şi
sfârşit situate în partea superioară a dreptei corespunzătoare repartiției normale.
modelul corespunzător unui astfel de set de date este cel al unei repartiții exponențiale.

în cazul unei repartiții cu asimetrie dreapta, anvergura repartiţiei este amplă în partea dreaptă a
axei;
curba probabilităţii normale are punctele de început şi sfârşit situate în partea inferioară dreptei
corespunzătoare repartiției normale.

Graficul celor 4
Scop: verificarea ipotezelor statistice fundamentale: caracterul aleator, apartenenţa la o anumită
repartiţie, localizarea şi variabilitatea constantă.
Acest grafic este, de fapt o colecţie de 4 tehnici grafice:
• graficul secvenţial al punctelor (Run Sequence Plot);
• graficul punctelor succesive (Lag Plot);
• histograma;
• graficul probabilităţii normale.
Dacă cele 4 ipoteze fundamentale ale unui proces de măsurare sunt respectate, cele 4 grafice vor
avea o alură caracteristică. Dacă una din ipoteze nu este respectată, acest lucru este evident printr-o
alură diferită în unul sau mai multe grafice.

 Procesul are o localizare constantă, variabilitate constantă, caracter aleator, aparent are o
repartiţie normală fără valori aberante.
Graficul de autocorelare
Scop: Graficul de autocorelare verifică caracterul aleator al datelor.
• Caracterul aleator se verifică prin calcularea autocorelaţiei pentru setul de date
corespunzătoare la diferite valori ale decalajului.
• Dacă procesul este aleator, atunci autocorelaţia trebuie să fie 0 pentru orice decalaj.
• Dacă setul de date nu este aleator pentru unul sau mai multe decalaje, atunci autocorelaţia
este semnificativ diferită de 0.
Reprezentare: Graficul se construieşte prin reprezentarea
− pe axa verticală a mărimii Rh, unde:

− pe axa orizontală se reprezintă decalajul h = 1, 2,..., n-1.


− Se mai trasează şi 5 segmente de referinţă:
o un segment central la cota 0;
o două segmente (limita inferioară și superioară) ce delimitează intervalul de
încredere de 95%;
o două segmente (limita inferioară și superioară) ce delimitează intervalul de
încredere de 99%;
o Construirea acestui grafic şi interpretarea corectă asigură una din caracteristicile
fundamentale – caracterul aleator.
nu apare o autocorelaţie semnificativă;
date sunt aleatoare. Valorile sunt în intervalul de incertitudine de 95%, nu apare nici un tipar
caracterul aleator.
câteva valori în afara intervalului de încredere de 95% (pentru un interval de 95% este normal ca
o valoare din 20 să fie în afara intervalului de încredere).
Nu apare asociativitate între Yi şi Yi+1. Acest lucru este chiar esenţa caracterului aleator.

model de autoregresie cu autocorelaţie puternică.


autocorelare mare la decalaj 1 şi scade până la valori negative.
descreşterea este liniară cu zgomot scăzut.
autocorelare puternică, adică o previziune ridicată.
se indică estimarea parametrilor pentru modelul de autoregresie.
Yi = A0 + A1  Yi −1 +  i

datele provin din model armonic.


apare o secvenţă alternativă de vârfuri pozitive şi negative, care manifestă tendinţă de scădere.

Graficul de incertitudini (bootstrap plot)


Scop: se utilizează pentru determinarea intervalului de incertitudine al unei statistici (ex: medie,
mediană, intervalul de variație, intervalul intercvantilic).
• Pentru a realiza o estimare a unei statistici cu un anumit interval de încredere pe baza unui
set de date, se extrage un eşantion de volum mai mic sau cel mult egal cu volumul datelor
iniţiale.
• Eşantionul se obţine cu înlocuire, astfel încât fiecare element poate fi prelevat de mai multe
ori sau deloc.
• Acest proces se repetă de mai multe ori, de obicei, între 500 și 1000 de ori.
• Valorile calculate se constituie într-o estimare a distribuției de eșantionare.
• De exemplu, pentru a realiza o estimare a incertitudinii medianei la un set de date de 50 de
elemente, se va genera un eșantion tot de 50 de elemente și se va calcula mediana.
• Acest lucru se repetă de cel puțin 500 de ori astfel încât să avem cel puțin 500 de valori
pentru mediana.
• Deși numărul de eșantioane necesare pentru a genera un astfel de grafic este unul arbitrar,
500 de eșantioane este de obicei suficient.
• Dacă se dorește calcularea cu un interval de încredere de 90%, medianele eșantioanelor se
sortează crescător, iar a 25 valoare a medianei reprezintă limita inferioară, iar a 475 valoare
reprezintă limita superioară a intervalului de încredere.
Reprezentarea graficului de incertitudini
• Axa verticală: valoarea calculată a statisticii pentru un eșantion.
• Axa orizontală: numărul eșantionului.
• Acest grafic, de obicei, este imediat urmat de o histogramă pentru a arăta locația și variația
distribuției de eșantionare a statisticii calculate.
Graficul de incertitudini se generează cel mai des pentru medie.
• Graficul are rolul de a determina incertitudinea în situațiile în care formulele de incertitudine
sunt matematic greu de rezolvat.
• Graficul de incertitudini nu este adecvat pentru toate tipurile de distribuții.
– De exemplu, în cazul distribuției uniforme, nu este adecvat pentru o statistică ce
depinde de cozi (IV).

Graficul de incertitudini vine să răspundă la întrebări precum


– Cum arată distribuția de eșantionare a unei anumite statistici?
– Ce este un interval de încredere de 95% pentru o statistică?
– Ce statistică are o distribuție de eșantionare cu cea mai mică variație? (care statistică
generează cel mai îngust interval de încredere)
Graficul cvantila-cvantila (q-q Plot)
Scopul: graficul cvantila-cvantila este o tehnică ce verifică dacă două seturi de date provin din
aceeași distribuție de probabilitate.
• se reprezinta cvantila primului set de date în raport cu cvantila setului al doilea.
• în cazul când datele provin din populaţii cu aceeaşi repartiţie, punctele prezintă doar o
abatere uşoară faţă de dreapta de referinţă.
• cu cât punctele sunt situate la o distanţă mai mare de linia de referinţă, cu atât este mai
evident faptul că seturile provin din repartiţii diferite.
• graficul oferă informaţii calitative şi pentru ca rezultatul să aibă credibilitate este necesar ca
volumul datelor să fie mare.
Avantajele graficului q-q Plot
• Dimensiunea eșantioanelor nu trebuie să fie egale.
• Pot fi testate simultan mai multe aspecte legate de distribuție
– de exemplu, se pot determina deplasări ale localizării datelor, deplasări de scară,
modificări de simetrie și prezența valorilor aberante;
– în cazul în care cele două seturi de date provin din populații ale căror distribuții
diferă numai prin deplasări ale localizării, punctele ar trebui să se întindă de-a lungul
unei linii drepte, care este deplasată în sus sau în jos de la linia de referință de 45 de
grade.
• Graficul q-q plot se utilizează pentru a răspunde a întrebări precum:
– Dacă două seturi de date provin din populații cu același tip de distribuție;
– Dacă cozile seturilor de date au aceeași anvergură;
– Dacă două seturi de date au aceeași localizare;
– Dacă forma distribuției seturilor de date este similară.

You might also like