You are on page 1of 15

Distribuia multinomial Testele chi-ptrat Lect.univ. dr. Gh.

Perea Distribuia multinomial Evenimentele de tip binomial se caracterizeaz prin caracterul dihotomic, putnd lua doar dou valori. Exist ns i evenimente care pot lua mai mult de dou valori posibile (trei sau mai multe). De exemplu, dac presupunem c exist doar trei tipuri de liceu, atunci absolvenii de liceu, ar putea face parte dintr-una din urmtoarele categorii: umanist, real, artistic. Dac raportm frecvena de apariie a fiecrei categorii (numrul subiecilor care au absolvit un anumit tip de liceu) la totalul subiecilor, probabilitile aferente fiecrui tip de liceu sunt, respectiv, P, Q i R. ntr-o asemenea situaie P+Q+R=1. Pe aceast baz, putem scrie probabilitile pentru fiecare eveniment dup modelul: Q=1-P-R. S lum n considerare situaia n care toate liceele ar avea acelai numr de absolveni. In acest caz, P=Q=R=1/3=0.33 (alegerea unor ponderi diferite, aa cum este i cazul n realitate, nu ar schimba datele raionamentului care urmeaz, dar l-ar face mai puin evident). Mai departe, s ne imaginm c analizm tipul de liceu absolvit de studenii unei faculti de psihologie i constatm c din 100 de studeni 60 sunt absolveni de liceu umanist, 30 au absolvit un liceu cu profil artistic i 10, unul cu profil real. Ponderea studenilor la facultatea respectiv este, evident, diferit de ponderea din cadrul populaiei de absolveni. Pe baza acestor date, se poate afirma c absolvenii de profil umanist i artistic prefer psihologia mai mult dect care au absolvit un profil real? Sau, ntr-o formulare mai larg, se poate afirma c exist o relaie ntre tipul de liceu absolvit i preferina pentru psihologie ca specialitate universitar? nainte de a rspunde la aceast ntrebare, s analizm puin datele sugerate de exemplul de mai sus. Aa cum am spus, numrul studenilor la facultatea de psihologie este, n funcie de tipul de liceu absolvit, de 60, 30, respectiv, 10. Aceste valori se numesc frecvene observate sau frecvene calculate (notate cu fo de la Observed), fiind rezultatul msurrii n contextul cercetrii. Dac preferina pentru facultatea de psihologie nu ar fi n legtur cu liceul absolvit (ipoteza de nul), atunci cercetarea ar trebui s consemneze un numr egal de studeni provenind din fiecare tip de liceu. n exemplul dat, acest numr ar trebui s fie, pentru fiecare tip de liceu 100/3=33.3, care se numete frecven teoretic sau frecven ateptat (notat cu fe de la Expected). Este uor de intuit faptul c, cu ct frecvenele calculate (reale) sunt mai ndeprtate de cele ateptate (teoretice), cu att ele se apropie de situaia de a fi semnificativ diferite de acestea. Mai departe, nu ne rmne dect s gsim o procedur pentru calcularea distanei dintre cele dou tipuri de frecvene i un model de distribuie pentru rezultatul acestui calcul, n raport cu care s putem lua o decizie cu privire la ipoteza de nul. Datele din exemplul dat nu mai pot fi analizate prin prisma distribuiei binomiale deoarece implic mai mult dect dou evenimente posibile. De aceea, distribuia acestora se numete distribuie multinomial. Desigur, procedura de calcul pentru acest caz ar putea urma modelul celei binomiale dar, din cauza complexitii acestei soluii, s-a apelat la o soluie mai simpl. Aceasta este fundamentat pe o aproximare derivat din formula binomial a lui z, care este pur si simplu ridicat la ptrat, devenind:

Dac nainte de ridicarea la ptrat z urmeaz o distribuie normal, dup ridicarea la ptrat z urmeaz un alt tip de distribuie, numit chi-ptrat, simbolizat cu litera greceasc , cu indicele de ridicare la ptrat (2). Valorile distribuiei 2 se calculeaz ca raport dintre frecvenele observate i cele teoretice, iar caracteristicile ei eseniale sunt urmtoarele; este, la fel ca distribuia normal, o familie de distribuii; are form asimetric; are originea n zero (din cauza ridicrii la ptrat); are o form dependent de numrul de grade de libertate. Imaginea de mai jos prezint mai multe distribuii chi-ptrat, pentru diferite grade de libertate (vom vedea mai trziu cum se calculeaz acestea). Curbele distribuiilor chi-ptrat pentru 1, 2, 4, 6 i 10 grade de libertate

Tabelul de coresponden (contingen) pentru date nominale nainte de a trece la testul propriu-zis, este util s aruncm o privirea asupra modului de organizare a datelor pentru o situaie similar exemplului de mai sus. n acest scop, putem s ne permitem o lrgire a cadrului de investigare. S presupunem c avem cele trei categorii de liceu i ne intereseaz distribuirea lor, nu n legtur cu o singur facultate (cea de psihologie), ci n legtur cu trei tipuri de faculti: umaniste, artistice i tehnice. Dac realizm un cadru de reprezentare sintetic al valorilor celor dou variabile, obinem ceea ce se numete un tabel de coresponden. Iat cum ar arta un astfel de tabel, pentru un set de date ipotetice: Liceu umanist 45 14 20 79 Liceu real 20 60 13 93 Liceu artistic 30 12 50 92 Total pe linii 95 86 83 264

Fac. Umaniste Fac. Tehnice Fac. Artistice Total pe coloane

Acesta este un tabel de coresponden pentru dou variabile nominale, fiecare avnd cte trei valori distincte (categorii)1. Valorile din celule reprezint numrul de cazuri (frecvenele observate) care corespund fiecrei combinaii dintre categoriile celor dou variabile. Totalul pe linii exprim numrul de studeni din fiecare facultate, consemnai n
1

n mod similar, se pot crea tabele de coresponden pentru variabile categoriale avnd, fiecare, un numr diferit de valori (categorii).

cercetare, indiferent de tipul de liceu absolvit, totalul pe coloane, exprim numrul de absolveni din fiecare tip de liceu, indiferent de facultatea la care sunt nscrii, iar la intersecia celor dou totaluri regsim totalul general al subiecilor cercetrii (N=264). Fundamentarea testului statistic Avnd un numr de 95 de studeni n faculti umaniste, aceast nseamn c ei reprezint 36% din totalul subiecilor cercetrii (95/264*100=36). Acest procent indic se refer la absolvenii care au ales o facultate de tip umanist, indiferent de liceul absolvit. n mod similar, calculm procentele corespunztoare celorlalte tipuri de faculti. Valorile astfel calculate, pentru fiecare linie a tabelului, se numesc frecvene marginale. Dac alegerea facultii nu ar avea nici o legtur cu tipul de liceu absolvit atunci, n mod normal, ar trebui s regsim, pentru fiecare tip de liceu, acelai procent care exprim ponderea studenilor din fiecare facultate n totalul subiecilor cercetai. Avnd procentele studenilor din fiecare facultate i numrul absolvenilor din fiecare tip de liceu, putem calcula frecvenele teoretice (ateptate) pentru fiecare celul a tabelului. De exemplu, dintre cei 79 de absolveni de liceu umanist consemnai de cercetare, 36% ar trebui s se afle n faculti umaniste, ceea ce nseamn: (79*36)/100=28.4. n mod similar, ar trebui s avem 32.5% (25.6) n faculti tiinifice i 31.5% (24.8) n faculti artistice. Acelai raionament se aplic mai departe i celorlalte tipuri de liceu, cu utilizarea procentului corespunztor fiecrei faculti. Precizm c frecvenele teoretice (ateptate) vor fi aceleai, n fiecare celul, chiar dac vor fi calculate pe baza frecvenelor marginale de pe coloane. Liceu umanist 45 (28.4) 14 (25.6) 20 (24.8) 79 Liceu real 20 (33.4) 60 (30.2) 13 (29.2) 93 Liceu artistic 30 (33.1) 12 (29.9) 50 (28.9) 92 Total pe linie 95 86 83 264 % pe linii (95/264)* 100=36% (86/264)* 100=32,5% (83/264)* 100=31.5%

Fac. Umaniste Fac. Tehnice Fac. Artistice Total pe coloan

Aa cum constatm, ntre frecvenele observate i cele ateptate sunt diferene. Suma frecvenelor ateptate (teoretice) este egal cu suma frecvenelor observate (poate rezulta o anumit diferen ntre totaluri, ca urmare a aproximrii zecimalelor). n final, problema cercettorului este aceea de a stabili dac ntre frecvenele observate i cele teoretice (calculate) este o diferen care s justifice aprecierea c ntre cele dou variabile exist sau nu o legtur. Datele de acest gen nu mai pot fi analizate prin prisma distribuiei binomiale, deoarece implic mai mult dect dou evenimente posibile. De aceea, distribuia acestora se numete distribuie multinomial. Desigur procedura de calcul pentru acest caz ar putea urma modelul celei binomiale dar, din cauza complexitii ei, s-a apelat la o soluie mai simpl. Aceast soluie este fundamentat pe o aproximare derivat din formula binomial a lui z, care este pur si simplu ridicat la ptrat, devenind:

Dac nainte de ridicarea la ptrat z urmeaz o distribuie normal, dup ridicarea la ptrat z urmeaz un alt tip de distribuie, numit chi-ptrat, simbolizat cu litera greceasc cu indicele de ridicare la ptrat (2). Fr a intra n amnunte, vom preciza c distribuia 2 prezint urmtoarele caracteristici:

este, la fel ca i distribuia normal, o familie de distribuii; are form asimetric; are originea n zero (din cauza ridicrii la ptrat); are o form dependent de numrul de grade de libertate.

La fel ca i distribuiile t i F, distribuia 2 este dependent de numrul gradelor de libertate. Acestea se calculeaz pe baza tabelului de coresponden dintre cele dou variabile, astfel: df=(numr coloane-1)*(numr linii-1) Formula de calcul pentru testul chi-ptrat, derivat din formula 4.8, este :

unde fO este frecvena observat, iar fE, frecvena ateptat. Decizia pentru testul chi-ptrat se bazeaz pe compararea valorii calculate cu o valoare critic, corespunztoare nivelului alfa ales (0.05 sau, opional, mai mic). Valorile critice pentru distribuia chi-ptrat se gsesc ntr-o tabel special (vezi anexa). Dac valoarea calculat a lui 2 este egal sau mai mare dect valoarea critic pentru nivelul ales al lui alfa, atunci ipoteza de nul poate fi respins, iar ipoteza cercetrii confirmat. Pe aceast structur formal se bazeaz dou variante distincte ale testului chiptrat: testul corespondenei (Goodness of Fit) i testul asocierii. Primul, compar frecvenele observate ale valorilor unei singure variabile cu frecvenele ateptate pentru acele valori. Al doilea, compar frecvenele valorilor observate pentru dou variabile cu frecvenele lor ateptate, cu scopul de a testa relaia (asocierea) dintre cele dou variabile. Chi-ptrat pentru gradul de coresponden (Goodness of Fit) Aceast variant a testului chi-ptrat compar frecvenele observate ale unei distribuii cu frecvenele teoretice (ateptate) ale acelei variabile. De exemplu, dac avem frecvenele unei variabile putem afla dac aceasta se distribuie dup curba normal (z), prin compararea cu frecvenele cunoscute ale acestei distribuii (aria de sub curb). S presupunem c a fost aplicat un test de cunotine unui eantion de 200 de elevi, care a fost evaluat cu calificative, astfel: F.Slab, Slab, Mediu, Bun, F.Bun. Problema cercetrii: Calificativele obinute se distribuie normal la nivelul clasei? Populaia 1: Calificativele obinute de elevi.

Populaia 2: Calificativele, aa cum s-ar distribui pe o curb normal: FS=2.5%, B=14%, M=67%, B=14% i FB=2.5% (procentele sunt cele tipice unei curbe z, mprite n cinci clase valorice). Ipoteza cercetrii (H1): Distribuia calificativelor urmeaz legea curbei normale la nivelul eantionului de elevi. Ipoteza de nul (H0): Distribuia calificativelor nu urmeaz legea curbei normale n rndul elevilor examinai. Determinarea caracteristicilor deciziei statistice: alegem =0.05 (n cazul testului 2 decizia nu poate fi dect unilateral, deoarece acest test nu poate lua valori negative) gsim valoarea critic pentru 2=9.48 n tabela pentru distribuia 2, pentru df=(2-1)*(5-1)=4 i =0.05

Tabelul urmtor conine datele de cercetare i algoritmul de calcul:

Decizia statistic: 2 calculat (18,33) este mai mare dect 2 critic (9,48) Respingem ipoteza de nul i tragem concluzia c distribuia calificativelor urmeaz forma curbei normale. Concluzia statistic poate fi interpretat, n acest caz, ca fiind negativ din punctul de vedere al eficienei procesului didactic. n mod normal, dac activitatea de nvare ar fi eficient, rezultatele elevilor ar trebui s se distribuie asimetric negativ, adic cu tendin de grupare a valorilor spre calificativele superioare. Rezultatele procesului de nvare nu se distribuie normal, nefiind un proces natural, ci unul n care valorile (calificativele) sunt supuse unei influene sistematice (prin efortul profesorilor i al elevilor nii) nspre valorile mari. Facem, nc o dat, precizarea c aceast form a testului chi-ptrat se aplic atunci cnd vrem s comparm frecvene observate cu frecvene teoretice (ateptate), pe care le cunoatem deja. El este echivalentul testului z pentru proporii pentru distribuia binomial, cu specificaia c se utilizeaz atunci cnd avem mai mult de dou categorii. Testul chi-ptrat pentru gradul de coresponden (goodness of fit) nu are un indice de mrime a efectului. Iat cteva exemple posibile de cercetri ale cror date pot fi analizate cu testul chi-ptrat al gradului de coresponden: Vrem s tim dac exist o preferin pentru o anumit categorie de muzic (clasic, popular, pop-rock). n acest caz, dac distribuia preferinelor nu ar fi influenat de nici o anumit preferin (ipoteza de nul) atunci frecvena ateptat (teoretic) pentru fiecare gen muzical ar trebui s fie echivalent cu 100/3=33.3% numrul subiecilor. Mai departe, nu ne rmne dect s testm diferena dintre cele dou categorii de frecvene (teoretice i observate), conform modelului de calcul de mai sus. ntr-un studiu asupra relaiei dintre atractivitate i preferina pentru profesori, unui numr de studeni li se prezint fotografiile preselectate ale unor ase poteniali profesori, ale cror portrete sugereaz grade diferite de atractivitate, i li se cere s aleag dintre acetia pe cel pe care ar dori s l aib ca profesor. Dac gradul de atractivitate nu are

nici un impact asupra preferinei ca profesor, atunci frecvenele cu care sunt alese fotografiile ar trebui s fie egale (100/6=16.6%). ntr-un studiu de marketing, o companie trebuie s aleag dintre patru propuneri imagini. Acestea sunt prezentate unui eantion de subieci i se consemneaz numrul de preferine exprimate pentru fiecare imagine. Dac toate ar avea acelai impact, atunci numrul de preferine ar trebui s fie egal (25%, pentru fiecare imagine).

Chi-ptrat - testul asocierii (independence chi-square)2 Aceast variant a testului chi-ptrat este mai frecvent utilizat. Ea compar frecvenele observate ale unei distribuii (variabile) cu frecvenele corespondente ale altei distribuii (variabile), ambele msurat pe scale de tip categorial, cu scopul de a vedea dac exist o asociere ntre cele dou variabile. S presupunem c avem rezultatele la testul de statistic (msurate pe o scal ordinal i notate, convenional, cu A, B, C, D, E, unde A reprezint nivelul de performan cel mai ridicat iar E, cel mai sczut). Problema cercetrii: Dorim s aflm dac exist o diferen semnificativ ntre biei (M) i fete (F) la testul de statistic. Ipoteza cercetrii: Distribuia performanei depinde de genul masculin sau feminin. Ipoteza de nul: Rezultatele la testul de statistic nu au legtur cu variabila sex. Determinarea criteriilor de decizie statistic: alegem =0.05 df=(2-1)*(5-1)=4 citim valoarea critic pentru 2 n tabela pentru distribuia 2: 2critic= 9.49 Datele cercetrii ar putea fi astfel centralizate n urmtorul tabel de coresponden3: A Masculin Feminin Total

B 34 32 66

C 140 97 237

D 10 6 16

F 6 5 11

10 10 20

Total 200 = 57.14% din total general 150 = 42.86% din total general Total general=350

Frecvenele marginale sunt: 200 (57.14%) pentru biei i 150 (42.86%) pentru fete Dac performana la test nu are nici o legtur cu genul subiecilor, trebuie s regsim aceste procente pentru fiecare dintre calificativele acordate. Aceasta nseamn c, teoretic, n celula A/Masculin, ar trebui s gsim, proporional, tot atia biei ci sunt pe ntregul lot (57.14%). Adic (20*57.14)/100=11.42, care reprezint frecvena ateptat pentru celula respectiv din tabelul de coresponden. La fel, pentru celula A/Feminin ar trebui s avem 42.86% din totalul pentru feminin, adic: (20*42.86)/100=8.52. n acelai mod de calculeaz frecvenele observate pentru fiecare celul a tabelului.

Cunoscut i sub numele testul chi-ptrat Pearson al asocierii, a fost elaborat de Karl Pearson. 3 Datele din acest exemplu nu se refer la o situaie real.

Pentru o mai uoar nelegere a mecanismului de calcul, vom rearanja tabelul astfel:

Se compar 2 critic (9.49) cu 2 calculat (1.85) pentru df = (2-1)(5-1) = 4 Valoarea calculat a testului este mai mic dect valoarea critic, ca urmare, acceptm ipoteza de nul. Rezultatele la test nu confirm ipoteza c rezultatele se distribuie n funcie de apartenena de gen a subiecilor. Condiii pentru aplicarea testului 2

Cele dou variabile nu trebuie s se intersecteze (s nu existe subieci care s fie inclui n mai mult de o celul de tabel) Selecie aleatoare a eantioanelor Este recomandabil ca frecvena ateptat s nu ia valori mai mici de 5 (sau, cel puin, n nu mai mult de 20% din celule). Nici o celul nu trebuie s aib frecvena ateptat mai mic de 1.

Pentru situaiile n care frecvenele ateptate sunt mai mici dect specificaiile de mai sus, sau atunci cnd tabelul de coresponden dintre variabile are dou linii i dou coloane, se recomand aplicarea unei corecii la formula de baz. Aceasta se numete corecia

Yeates i const n scderea unei constante (0.5) din expresia de la numrtor, luat n valoare absolut:

Utilizarea testului chi-ptrat al asocierii Testul chi-ptrat al asocierii se utilizeaz atunci cnd dorim s testm relaia dintre dou variabile, ambele msurate pe scal de tip categorial. Facem precizarea c variabilele categoriale dei sunt, de regul, de tip nominal, pot fi att ordinale ct i de interval sau de raport. Ceea ce caracterizeaz o variabil categorial nu este att scala de msurare, ct faptul c primete puine valori, care mpart distribuia n categorii de valori. De exemplu, ntr-un studiu cu privire la relaia dintre gravitatea accidentelor de circulaie (fr rnii, cu rnii uor, cu rnii grav, cu mori) i puterea motoarelor (1400 cm3, 1600 cm3, 2000 cm3, 2500 cm3, 3000 cm3), ambele variabile sunt de tip categorial, dar prima este pe scal nominal, iar a doua pe scal cantitativ. Testul chi-ptrat al asocierii (independenei) poate fi vzut ca un veritabil test de corelaie pentru date categoriale. De asemenea, poate fi folosit n locul testului t sau ANOVA, dac nu sunt ndeplinite condiiile pentru variabila dependent. ntr-un asemenea caz, variabila dependent cantitativ se transform, prin gruparea n frecvene, n variabil de tip categorial. Aceast opiune se va alege numai dac ne aflm n faa unei flagrante violri a condiiei de normalitate, deoarece testele parametrice au o putere mai mic dect cele neparametrice. La fel ca i n cazul altor teste statistice, nu se vor putea trage concluzii de tip cauzal dect numai dac variabilele sunt msurate n contextul unui experiment psihologic. Marimea efectului pentru testul chi ptrat al asocierii Coeficientul (fi) Atunci cnd utilizm testul pentru asocierea variabilelor, valoarea 2 certific faptul c cele dou variabile sunt relaionate. Dar mrimea lui 2 nu ne spune nimic cu privire la intensitatea relaiei dintre variabile. De fapt, mrimea lui 2 este n funcie de N. Dac multiplicm frecvenele celulelor cu o constant, valoarea lui 2 se multiplic i ea cu acea constant, singura consecin fiind aceea c se diminueaz probabilitatea ca valoarea respectiv s fie obinut din ntmplare. Pentru completarea interpretrii valorii 2 este necesar un indicator suplimentar, care s ne spun ceva i despre intensitatea legturii, nu doar despre semnificaia acesteia. Un astfel de indicator este coeficientul (fi), care se calculeaz pentru asocierea variabilelor care prezint fiecare doar dou valori posibile (tabele de contingen 2x2). Formula dup care se calculeaz este:

Coeficientul Cramer Coeficientul este adecvat doar pentru tabelele de contingen de tip 2x2, cnd ambele variabile sunt dihotomice. O uoar modificare a acestuia, denumit Cramer, l face utilizabil pentru intensitatea asocierii dintre variabile avnd un numr diferit de categorii.

Indicele Cramer se calculeaz dup formula:

unde:

N este volumul eantionului L este valoarea cea mai mic dintre numrul liniilor sau al coloanelor tabelului de coresponden (de exemplu, pentru un tabel de coresponden 4x3 - patru linii i patru coloane - L are valoarea 31=2).

n cazul coeficienilor , dac frecvenele fiecrei celule din tabelul de coresponden sunt multiplicate cu o constant, att 2 ct i N cresc concomitent, iar valoarea coeficientului rmne aceeai. Coeficientul se modific numai dac se modific i raporturile dintre proporii, ceea ce nseamn c mrimea lui nu este influenat de N. El reprezint un indicator numeric al intensitii relaiei i poate lua valori ntre zero - absena relaiei i unu - relaie perfect ntre cele dou variabile. De exemplu, pentru testul chi-ptrat al asocierii dintre gen i performana la testul de statistic (care a rezultat nesemnificativ), al crui tabel de coresponden este de forma 2x5, valoarea coeficientului c este:

Interpretarea coeficienilor Valoarea coeficientului se asociaz interpretrii testului chi-ptrat, atunci cnd acesta este semnificativ, pentru a aduga o informaie suplimentar cu privire la intensitatea relaiei. Prin ridicarea la ptrat a expresiei de calcul, coeficientul 2 poate fi interpretat procentual, la fel ca i coeficientul de determinare (r 2), indicnd proporia variaiei unei variabile determinat de variaia celeilalte variabile. n cazul nostru, numai 0.4% (0.072*100) din variaia calificativelor la testul de statistic este explicat prin diferena de gen (masculin/feminin), ceea ce, n conformitate cu decizia statistic, s-a dovedit a fi nesemnificativ. n conformitate cu recomandrile lui Cohen, cit. de Kotrlik i Williams (2003), valorile lui vor fi interpretate dup cum urmeaz: (Cohen) 0.10 0.25 0.40 efect mic efect mediu efect mare

Raportarea rezultatului n cazul testului 2 elementele care vor fi incluse n raport sunt urmtoarele: gradele de libertate, valoare testului, nivelul p i coeficientul sau Cramer . n varianta narativ, pentru exemplul de mai sus, prezentarea rezultatelor ar putea avea urmtoarea form: Rezultatele testului de statistic, evaluate pe cinci clase valorice (A,B,C,D,E) au fost comparate pe sexe. Testul 2 pentru asocierea variabilelor indic faptul c rezultatele nu difer semnificativ n funcie de gen, 2(4) = 1.85, p >0 .05, cu un coeficient =0.07, care indic o asociere slab. n cazul n care testul ar fi fost semnificativ, raportarea rezultatelor ar fi trebuit s conin i referine cu privire la procentele consemnate n celulele tabelului de coresponden, astfel nct s fie scoase n eviden diferenele releavnte dintre categoriile comparate.

Testul exact Fisher Aa cum am precizat, testul chi-ptrat este calculat pe baza unei formule ale crei rezultate nu urmeaz cu maxim precizie distribuia 2. Dac n cele mai multe situaii acest lucru nu reprezint un neajuns notabil, sunt si cazuri n care rezultatele pot fi alterate suficient de mult pentru a putea fi luate n considerare: atunci cnd volumul eantionului este redus (N<20); atunci cnd valorile fe pentru una sau mai multe dintre celulele tabelei de coresponden sunt foarte mici. n aceste situaii, precum i atunci cnd tabelul de coresponden este compus din dou linii i dou coloane, este recomandabil utilizarea testului exact Fisher. El se bazeaz pe calcularea tuturor tabelelor posibile ce pot fi construite pentru frecvenele marginale. Deoarece necesit un mare volum de calcule, testul exact Fisher se efectueaz numai cu ajutorul programelor computerizate. Rezumat Distribuia binomial deriv din serii de evenimente independente dihotomice. Cele dou posibiliti ale fiecrui eveniment au probabilitile P i Q, a cror sum este 1 (de unde Q=1-P). Atunci cnd P=Q=0.5, distribuia binomial este simetric. Pe msur ce numrul evenimentelor (N) crete, distribuia binomial se apropie de forma normal. Chiar i atunci cnd PQ distribuia binomial se apropie de forma normal odat cu creterea lui N. Atunci cnd N crete la infinit, distribuia binomial devine normal, avnd media=N*P i abaterea standard= Ca urmare, probabilitatea ca un anume eveniment s cad n categoria P poate fi aproximat prin calcularea unui scor z i evaluarea ariei corespunztoare de sub curba normal. Dac P=0.5, distribuia normal devine o aproximare bun pentru distribuia normal ncepnd cu N=25. Testul semnului poate fi utilizat n locul testului t pentru eantioane dependente atunci cnd nivelul diferenei dintre cele dou determinri nu poate fi evaluat, ci numai direcia diferenei. Dat fiind faptul c fiecare diferen poate fi ntr-una din categorii (+ sau -) distribuia binomial poate fi utilizat pentru a estima n ce msur dezechilibrul ntre cele dou categorii este posibil s apar din ntmplare (prin raportare la distribuia normal). Atunci cnd N nu este foarte mare, utilizarea distribuiei normale pentru aproximarea distribuiei binomiale introduce o eroare sistematic care poate fi compensat prin corecia de continuitate, extrgnd 0.5 din valoare absolut a diferenei de la numrtorul scorului z. Dac evenimentele probabilistice pot avea mai mult dect dou posibiliti (de ex., adevrat-fals), probabilitatea cu care fiecare eveniment cade ntr-una din categoriile posibile se supune distribuiei multinomiale. Din cauza complexitii procesului de evaluare a probabilitilor multinomiale, este utilizat o estimare a acestora prin distribuia chi-ptrat. Numrul gradelor de libertate pentru distribuia multinomial este dat de numrul categoriilor minus 1. Testul chi-ptrat are dou variante: (1) Testul chi-ptrat al asocierii testeaz diferena dintre valorile a dou variabile categoriale (nominale sau ordinale). (2) Testul chi ptrat al corespondenei (goodness of fit) msoar diferena (potrivirea)dintre valorile unei variable categoriale i probabilitile teoretice dinainte cunoscute ale acestor valori. Diferenele mari dintre frecvenele observate i cele ateptate produc valori ridicate ale testului chi-ptrat, care cad n zona dreapt (pozitiv) a distribuiei de nul i

conduc la respingere a ipotezei de nul. Diferenele mici, produc valori ale testulu chi-ptrat apropiate de zero, conducnd la acceptarea ipotezei de nul. Atunci cnd fiecare dintre cele dou variabile au doar dou categorii, situaie n care frecvenele ateptate sunt prea mici pentru a justifica o estimare chi-ptrat, se utilizeaz testul exact Fischer.

EXERCIII Pentru a verifica ipoteza c exist o legtur ntre numrul de internri psihiatrice i anotimp, au fost numrate internrile pentru fiecare anotimp, obinndu-se urmtoarele valori: primvara=30; vara=40; toamna=20; iarna=10. Testai ipoteza c internrile psihiatrice sunt inegal distribuite n funcie de anotimp (pentru alfa=0.05).
1. 2. ntr-un serviciu de psihologie clinic rezultatele mai multor psihologi n terapia unor pacieni cu tulburri severe au fost evaluate astfel: Ameliorare, Fr modificri, nrutire. rezultatele studiului se afl n tabelul alturat:

mbuntire Nemodificat nrutire


psih. A 15 5 0

psih. B 11 3 6

psih. C 16 0 4

psih. D 13 4 3

psih. E 10 6 4

Enunai ipoteza cercetrii i ipoteza de nul Gsii 2 critic pentru =0.01 Testai ipoteza i prezentai rezultatul n format standard Calculai i interpretai coeficientul c

Not: Ignorai faptul c dou din celulele tabelului au valoarea zero!

11/13

ntrebri pregtitoare pentru evaluarea parial 1. Care este coeficientul de determinare, dac r=-0.80? 2. n cazul testului t pentru eantioane dependente, pe ce scar se exprim valorile variabilei independente? 3. Care este numele celui care a introdus testul de corelaie pentru date parametrice? 4. Care este valoarea lui r pentru o corelaie perfect? 5. Care dintre urmtorii coeficieni de corelaie este semnificativ: r=-0.70 (p=0.05) sau r=+0.70 (p=0.05)? 6. n ce caz o valoare a lui r apropiat de 0 (zero), indic, totui, existena unei corelaii ntre variabile? 7. Distribuia binomial este... 8. Care este probabilitatea lui P pentru un eveniment dihotomic aleator (DA/NU)? 9. Care este echivalentul parametric al testului z pentru proporii? 10. n cazul testului chi-ptrat, frecvena ateptat se refer la... 11. Testul chi-ptrat goodness-of-fit se utilizeaz pentru a... 12. Care sunt caracteristicile distribuiei chi-ptrat?

12/13

Tabelul 2 (parial, pn la 30 de grade de libertate)4 df\aria .100 .050 .025 .010 .005 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 2.70554 4.60517 6.25139 7.77944 9.23636 3.84146 5.99146 7.81473 9.48773 5.02389 7.37776 9.34840 6.63490 9.21034 11.34487 7.87944 10.59663 12.83816 14.86026 16.74960 18.54758 20.27774 21.95495 23.58935 25.18818 26.75685 28.29952 29.81947 31.31935 32.80132 34.26719 35.71847 37.15645 38.58226 39.99685 41.40106 42.79565 44.18128 45.55851 46.92789 48.28988 49.64492 50.99338 52.33562 53.67196

11.14329 13.27670

11.07050 12.83250 15.08627

10.64464 12.59159 14.44938 16.81189 12.01704 14.06714 16.01276 18.47531 13.36157 15.50731 17.53455 20.09024 14.68366 16.91898 19.02277 21.66599 15.98718 18.30704 20.48318 23.20925 17.27501 19.67514 21.92005 24.72497 18.54935 21.02607 23.33666 26.21697 19.81193 22.36203 24.73560 27.68825 21.06414 23.68479 26.11895 29.14124 22.30713 24.99579 27.48839 30.57791 23.54183 26.29623 28.84535 31.99993 24.76904 27.58711 30.19101 33.40866 25.98942 28.86930 31.52638 34.80531 27.20357 30.14353 32.85233 36.19087 28.41198 31.41043 34.16961 37.56623 29.61509 32.67057 35.47888 38.93217 30.81328 33.92444 36.78071 40.28936 32.00690 35.17246 38.07563 41.63840 33.19624 36.41503 39.36408 42.97982 34.38159 37.65248 40.64647 44.31410 35.56317 38.88514 41.92317 45.64168 36.74122 40.11327 43.19451 46.96294 37.91592 41.33714 44.46079 48.27824 39.08747 42.55697 45.72229 49.58788 40.25602 43.77297 46.97924 50.89218

You might also like