Professional Documents
Culture Documents
Se observa ca media este aceeași iar deviația standard variază (scade pe măsura ce creste
volumul eșantionului).
La eşantionarea cu returnare, relaţia dintre σ2x̅ și σ2 este:
2
=
2
x
n
La eşantionarea fără returnare:
2 N −n
x2 =
n N −1
Pentru n<=0.05N factorul de corecţie poate fi ignorat
Pe măsură ce n crește, repartiția se apropie de cea normală.
• Tendința este adevărată pentru toate eșantioanele, indiferent de distribuția populației.
• Această tendință se numește teorema limită centrală.
• Pe măsură ce volumul eşantionului crește, distribuția tinde spre una normală (chiar în
situația când populația are o altfel de distribuție).
• Proprietățile repartiției normale pot fi aplicate pentru determinarea erorii ce apare datorită
eșantionării.
• În practică teorema limită centrală se aplică pentru eșantioane de volum 𝑛 ≥ 30
Estimări:
În practică studiul unei populații se efectuează pe o submulțime a sa, un eșantion, iar concluziile
obținute sunt extinse prin inferență statistică la nivelul întregii populații.
Concluziile rezultate în urma studiului sunt afirmații adevărate la nivelul eșantionului, dar la nivelul
populației ele au aceeași valoare numai cu o anumită probabilitate.
Determinarea valorilor parametrilor populației pe baza valorilor unor indicatori, obținute pe
eșantioane, se numește estimare statistică.
• Mărimile caracteristice ale unei populații se numesc parametri.
₋ media populației 𝜇
₋ deviația standard a populației 𝜎
₋ eroarea standard a mediei 𝜎𝑥̅
• Mărimile caracteristice ale unui eșantion se numesc statistici sau indicatori statistici.
₋ media eșantionului 𝑥̅
₋ deviația standard a eșantionului 𝑆
₋ eroarea standard a mediei 𝑆𝑥̅
Estimatorul reprezintă o statistică utilizată pentru a aproxima un parametru.
Ex: media eșantionului 𝑥̅ este un estimator al mediei populației 𝜎.
Estimația reprezintă valoarea pe care o ia un estimator într-o determinare concretă.
• Un estimator trebuie sa aibă cel puțin doua calități:
– să reflecte corect rezultatele obținute;
– să aibă o precizie suficient de mare.
• Astfel estimarea unui parametru teoretic nu se face printr-o singura valoare ci printr-un
interval în care parametrul estimat se găsește cu o probabilitate mare.
𝜎
𝜇 = 𝑥̅ ± 𝑍𝛼⁄2
√𝑛
𝜎
𝜎𝑥̅ = 𝑥̅ ± 𝑍𝛼⁄2
√𝑛
Informațiile legate de o anumită populație statistică se obțin prin selectarea unui eșantion, cu
ajutorul căruia se estimează parametrii populației respective.
Pe baza acestor parametri se poate forma o imagine asupra caracteristicilor analizate.
Exemplu:
• Dintr-un lot de piese se extrage un eșantion de n elemente și se efectuează măsurări ale
greutății G
• Greutatea presupusă va fi o variabilă repartizată normal cu media 𝜇 și dispersia 𝑆.
Pentru eșantionul extras s-a determinat prin calcul media experimentală.
• Se pune problema dacă, rezultatul obținut constituie o ipoteză statistică, adică o presupunere
(supoziție) asupra populației statistice luate în studiu.
Se numește ipoteză statistică orice presupunere relativă la parametrii uneia sau mai multor
populații statistice sau presupuneri legate de distribuția de probabilitate a populației statistice.
În multe probleme din inginerie se pune problema dacă se acceptă sau se resping valorile obținute.
• Chiar dacă ipoteza statistică este avansată pe baza unui eșantion, concluzia referitoare la
valoarea parametrului sau la natura repartiției se referă la întreaga populație.
• O presupunere asupra unor elemente ale repartiției (μ = G ̅) poate admite o alternativă (μ ≠
̅
G).
• Ipotezele pot fi acceptate sau nu cu anumite probabilități de corectitudine a deciziei.
Ipoteza inițială se mai numește și ipoteză nulă și se notează H0.
• Ipoteza nulă presupune că toate măsurătorile pe care dorim să le comparăm sunt egale, iar
eventualele diferențe se datorează exclusiv întâmplării.
• Ipoteza nulă este ipoteza care se testează statistic.
• În funcție de rezultatul testării se acceptă sau se respinge ipoteza inițială.
Pe baza ipotezei nule se pot compara:
• O valoare medie (obținută pe baza unui eșantion) cu o valoare data;
• Două valori medii (obținute pe baza a două eșantioane);
• O distribuție experimentală cu una teoretică;
• Două distribuții experimentale;
• Două sau mai multe dispersii.
Cealaltă ipoteză se numește ipoteza alternativă sau concurentă se notează H1.
• Dacă ipoteza alternativă este acceptată, decizia susține faptul că variația fenomenului studiat
nu se datorează doar întâmplării (intervin și alți factori).
• Se acceptă ipoteza alternativă dacă diferențele constatate sunt vizibil astfel încât nu pot fi
explicate prin efectul întâmplării.
• Ipotezele statistice nu sunt echivalente cu ipotezele științifice.
• În cazul unei ipoteze științifice este suficient un singur exemplu contrar pentru a o infirma, dar
o ipoteză statistică poate fi adevărată, chiar dacă într-o anumită situație a fost respinsă ca
fiind falsă.
• Toate concluziile statistice se fac cu privire la ipoteza nula.
• Ca si cercetatori (investigatori) respingem ipoteza nula sau nu reusim sa respingem ipoteza
nula.
• Acest lucru se datoreaza faptului ca se pleaca de la idea ca ipoteza nula este adevarata
(respingerea sau nu a asumarii).
• Daca se respinge ipoteza nula, se trage concluzia ca datele sustin ipoteza alternative.
• Daca nu se respinge ipoteza nula, acest lucru nu inseamna ca ipoteza nula este “adevarata”.
• Ipotezele statistice sunt însoţite de două tipuri de erori:
• O eroare - probabilitatea de a respinge ipoteza H0, când în realitate ea este adevărată.
Eroarea :
= P(respinge H0H0 adevărată).
• O eroare –probabilitatea de acceptare a ipotezei H0, când în realitate ea este falsă. Eroarea
:
= P(acceptă H0H0 falsă).
Aceste erori se mai numesc erori de tip I şi II.
Metoda efectivă de luare a deciziei asupra acceptării sau respingerii ipotezei H0 se face cu
ajutorul unui test sau criteriu statistic.
• Testul impune luarea uneia dintre cele două decizii (acceptare sau respingere a ipotezei
nule) cu un anumit risc.
• 1 - este probabilitatea de respingere a ipotezei nule când aceasta este falsă.
• 1 - se consideră ca fiind puterea testului respectiv
Din punct de vedere practic, pentru a verifica ipoteza H0 cu alternativa H1 sunt necesare:
• o statistică a cărei repartiție să fie cunoscută;
• o valoare considerată “critică” cu care să se compare valoarea calculată a statisticii;
• o regulă de decizie prin care să se accepte sau să se respingă Ho;
• o valoare a riscului ales , ce se mai numeşte nivel de semnificaţie al testului.
Etapele aplicării unui test statistic:
• Formularea ipotezei nule şi a celei alternative.
• Formularea deciziei
– se acceptă H0, dacă 𝑥̅ aparține intervalului de acceptare (se respinge H0 dacă acest lucru
nu se întâmplă)
– Dacă utilizăm Z sau t se acceptă H0 dacă valoarea Z, respectiv t cade în interiorul
domeniului de acceptare (în caz contrar se respinge)
– se acceptă H0 dacă 𝑥̅ , Z sau t este mai mare sau mai mic decât valoarea critică (în funcţie
de ipoteza alternativă) și se respinge în caz contrar
Exemplu:
În urma unui studiu statistic cu privire la procesul de sudare a caroseriilor unor mașini, s-a
constatat că un robot sudează în medie 5 caroserii pe oră cu o deviație standard de 0.8. Analizând
un eșantion de 60 de caroserii sudate de un al doilea robot s-a constatat că procesul de asamblare
are o medie de 5.45 caroserii pe oră.
– Să se testeze ipoteza că producția de 5.45 diferă de cea de 5. Se admite un nivel de
semnificație de 0.05.
o Deoarece se cunoaşte valoarea lui , se aplică distribuţia normală, cu variabila Z.
o Date iniţiale:
• = 5; = 0.8; n = 60
o Ipoteze:
• H0: 0 = ; H1: 0
o Nivel de semnificaţie = 0.05 Z/2 = Z0.025 = 1.96
Deviaţia standard a mediei:
0 .8
x = = = 0.1033
n 60
o Valori critice (limitele):
– pentru 𝑥̅ :
5 1.960.1033 4.7975 şi 5.2025
– pentru Z: Z/2 -1.96 şi 1.96
5.45 − 5
Z= = 4.3562
0.1033
o Formularea deciziei:
– Valoarea 𝑥̅ = 5.45
cade în afara intervalului determinat de valorile critice (5.45> 5.2025)
– Valoarea Z = 4.3562
se găseşte în afara intervalului determinat de valorile critice.
Concluzia: Indiferent de testul aplicat se poate afirma că se respinge ipoteza nulă cu un interval de
încredere de 95%, deci media producției în cel de-al doilea caz diferă de prima.
Nu se poate afirma că media eșantionului este mai mare, deoarece s-a utilizat un test cu două
extreme.
• Se testeze dacă media eșantionului este mai mare decât media populației
• Ipoteze:
H0: 0 = ; H1: 0 >
• Nivel de semnificaţie
= 0.05 Z = Z0.05 = 1.645
• Deviaţia standard a mediei: x = 0.1033
• Valori critice (limitele):
– pentru 𝑥̅ : 0 + Z x 5 + 1.6450.1033 = 5.1699
– pentru Z: + Z -1.645
Formularea deciziei:
– Valoarea 𝑥̅ = 5.45 > 5.1699.
x − 0 5.45 − 5
Z= = = 4.3562
x 0.1033
– Valoarea 𝑍 = 4.3562 > 1.645
Concluzia: În ambele teste se respinge ipoteza nulă şi cu un interval de încredere de 95% se acceptă
ipoteza alternativă (productivitatea celei de-al doilea robot este mai mare).
Exemplu:
Pentru determinarea nivelului de pregătire profesionala, in cadrul unei facultati, au fost testați
studenți de la doua cicluri de master. Au fost formate două eșantioane de 15 studenți, iar rezultatele
centralizate sunt prezentate în continuare (valoarea înregistrată fiind notele obținute).
Datorită faptului că studenții provin de la două module de master diferite, nu sunt motive să se
presupună că varianţele cele două populaţii ar fi egale.
Se va aplica testul t, varianțele fiind necunoscute și volumul eșantioanelor mic.
• Ipoteze:
H0: 0 = ; H1: 0
• Nivel de semnificaţie:
𝛼 = 0.05
• Deviaţia standard a mediei:
7.12 9.32
S x1 − x2 = + = 3.0210
15 15
• Valori critice t/2 = 2.05 cu = 28
(S n1 + S 22 n2 )
2 2
= = 28.1 28
1
S12 S 22
( n1 − 1) + ( n2 − 1)
n1 n2
• Testul
( x − x ) 7.5 − 6.2 = 0.43
t= 1 2 =
S x1 − x2 3.0210
Concluzie: Deoarece |t| < |t/2| nu se respinge ipoteza nulă, deci între cele două cicluri de master nu
există diferenţe statistice semnificative
Analiza exploratorie a datelor
Analiza Exploratorie a Datelor (Exploratory Data Analysis – EDA) reprezintă o nouă metodă de
abordare a prelucrării datelor ce constă în diferite tehnici (preponderent grafice) ce permit
evidențierea unor structuri în date.
• Această metodă a fost creată de statisticianul american John Tukey în 1977.
• Scopul constă în evidențierea caracteristicilor datelor astfel încât analistul să înțeleagă cât
mai bine procesul, să-l poată analiza și modela.
• EDA reprezintă un pas premergător, necesar pentru o analiză aprofundată a datelor.
• Conform acestei metode, datele trebuie explorate fără a presupune apriori anumite relații
între diferite mărimi sau variabile.
• Analiză statistică clasică
• Analiză exploratorie
În analiza exploratorie, modelarea se face doar după depistarea principalelor caracteristici ale
setului de date, ceea ce face ca modelul să aibă șanse mult mai mari să fie unul corect.
Tehnicile EDA evidențiază caracteristicile setului de date, pe baza acestora se stabilește modelul
corespunzător al datelor, iar validarea modelului se face cu metode cantitative.
Exemplu de date experimentale:
Analizarea datelor:
12 12
10
10
8
8
6
6
4
4 2
0 5 10 15 0 5 10 15
14 14
12 12
10 10
8 8
6 6
4 4
0 5 10 15 5 10 15 20
• Primul set de date are un comportament liniar, fără valori aberante, la care modelul dreptei
de regresie este corespunzător;
• Al doilea set de date are un comportament pătratic, fără valori aberante, modelul ar trebui
să fie un polinom de gradul doi;
• Al treilea set de date prezintă o valoare aberantă, care ar trebui eliminată;
• Ultimul set de date este rezultatul unui experiment prost organizat (conţine o singură
valoare mult distanţată de restul valorilor).
Ipotezele de bază care se verifică în cazul analizei exploratorii sunt:
– caracterul aleator;
– apartenenţa la o anumită repartiţie;
– menţinerea localizării constante;
– menţinerea variabiliăţii constante.
Graficul trebuie să poată fi aproximat cu o dreaptă paralelă cu axa absciselor, să aibă amplitudinea în
direcţia axei 0y aproximativ constantă, să nu apară valori situate la distanţă mare de restul valorilor.
Histograma
Scop: reprezentarea rezumativă a şirului de dateîn intervale de lungime constantă.
Histograma indică: localizarea datelor, variabilitatea acestora, asimetria, prezenţa valorilor aberante,
caracterul uni sau multimodal al repartiţiei. Aceste caracteristici furnizează indicaţii clare referitoare
la modelul potrivit repartiţiei datelor.
În cazul când anvergura extremităţilor este mică, graficul probabilităţii normale are o formă de „S”
mai atenuată.
la anvergură mică: punctele de început sunt situate sub dreapta corespunzătoare repartiției
normale, iar punctele de sfârșit sunt situate deasupra dreptei;
la anvergură mare forma de „S” este mai accentuate;
punctele de început sunt situate deasupra, iar cele de sfârşit sunt sub dreaptă.
se întâlnesc de obicei la date ce provin dintr-o repartiție Cauchy.
în cazul unei repartiții cu asimetrie stânga, curba probabilităţii normale are punctele de început şi
sfârşit situate în partea superioară a dreptei corespunzătoare repartiției normale.
modelul corespunzător unui astfel de set de date este cel al unei repartiții exponențiale.
în cazul unei repartiții cu asimetrie dreapta, anvergura repartiţiei este amplă în partea dreaptă a
axei;
curba probabilităţii normale are punctele de început şi sfârşit situate în partea inferioară dreptei
corespunzătoare repartiției normale.
Graficul celor 4
Scop: verificarea ipotezelor statistice fundamentale: caracterul aleator, apartenenţa la o anumită
repartiţie, localizarea şi variabilitatea constantă.
Acest grafic este, de fapt o colecţie de 4 tehnici grafice:
• graficul secvenţial al punctelor (Run Sequence Plot);
• graficul punctelor succesive (Lag Plot);
• histograma;
• graficul probabilităţii normale.
Dacă cele 4 ipoteze fundamentale ale unui proces de măsurare sunt respectate, cele 4 grafice vor
avea o alură caracteristică. Dacă una din ipoteze nu este respectată, acest lucru este evident printr-o
alură diferită în unul sau mai multe grafice.
Procesul are o localizare constantă, variabilitate constantă, caracter aleator, aparent are o
repartiţie normală fără valori aberante.
Graficul de autocorelare
Scop: Graficul de autocorelare verifică caracterul aleator al datelor.
• Caracterul aleator se verifică prin calcularea autocorelaţiei pentru setul de date
corespunzătoare la diferite valori ale decalajului.
• Dacă procesul este aleator, atunci autocorelaţia trebuie să fie 0 pentru orice decalaj.
• Dacă setul de date nu este aleator pentru unul sau mai multe decalaje, atunci autocorelaţia
este semnificativ diferită de 0.
Reprezentare: Graficul se construieşte prin reprezentarea
− pe axa verticală a mărimii Rh, unde: