You are on page 1of 15

ESTUDO DO MTODO DA ANLISE DE VARINCIAS

ESTATSTICA
Prof Renata

Andr Boing (EQ) -7649604 Andressa Artico (EB) - 7549589 Diogo Alves (EB) - 7639121 Eduardo Alcova (EB) - 7549589 Igor Leonardo (EQ) - 7711569 Leonardo Simes (EM) - 7648965 Marina Magalhes (EB) - 7549763 Rayane Camargo (EM) - 7692941 Sarah Viana (EB) - 7549492

ANLISE DE VARINCIAS
INTRODUO
Talvez o problema mais frequente no trabalho estatstico seja testar se duas amostras diferem significativamente com relao a alguma propriedade. Os experimentadores quase sempre projetam um experimento para comparar uma nova tcnica ou processo com uma tcnica/processo-padro. Um educador pode julgar que descobriu uma maneira mais eficiente de ensinar lnguas estrangeiras do que a usada at ento; ou um qumico pode ter descoberto um novo plstico que reputa superior ao usado na sua fbrica; em ambo os casos, preciso elaborar um novo experimento para testar se o novo mtodo ou material realmente superior ao antigo. Frequentemente ocorrem situaes em que h vrios mtodos ou produtos, e no apenas dois competindo entre si. Por exemplo, em um produto de misturas de bolo pode variar a quantidade de certos ingredientes para obter seis diferentes misturas a serem comparadas entre si, quanto qualidade. Geralmente muito incomodo e ineficiente compararmos duas amostras tomando-as duas a duas (o mtodo do teste das hipteses se aplica apenas a comparaes entre dois fatores). Se tivssemos, por exemplo, seis amostras para compararmos, haveria quinze pares de comparao. Alm do que, a probabilidade associada com o ato de testarmos uma nica diferena no mais aplicvel quando tivermos de testar vrias simultaneamente. Outra desvantagem na comparao de pares de amostras que os experimentadores s acostumados a este tipo de comparao so levados a criar experimentos pobres para chegar a seu objetivo final. O produtor de misturas para bolo, por exemplo, que s mudava um nico ingrediente por vez e depois retinha a melhor das duas misturas poderia ter-se sado melhor ao tentar uma mistura variando diversos ingredientes e alterando suas misturas. Em experincias agrcolas relacionadas ao teste de diferentes tipos e quantidades de fertilizantes e a diferentes variedades de sementes, perde-se muito em eficincia se no se consideram as diferentes combinaes dessas quantidades simultaneamente. A anlise de varincia um mtodo que resolve problemas com vrias variveis contnuas. Consiste em dividir a varincia da amostra em componentes teis.

UMA CLASSIFICAO: AMOSTRAS DE MESMO TAMANHO

AMOSTRAGEM E ERRO AMOSTRAL Conjunto de procedimentos atravs dos quais se seleciona uma Amostra de uma Populao. AMOSTRAGEM PROBABILSTICA Procedimento em que todos os elementos da Populao tm uma probabilidade conhecida e superior a zero de integrar a Amostra. Pode ser: Intencional Amostragem subordinada a objetivos especficos do investigador. No intencional Amostragem regida por critrios de convenincia e/ou de disponibilidade dos inquiridos.

O Erro amostral ou variabilidade amostral a diferena entre a estimativa da amostra e o parmetro da populao. Decorre da prpria noo de amostra. Quando se recolhe uma amostra, alguma coisa se perde da populao de onde foi retirada, pelo que, embora cuidadosamente recolhida, uma amostra pode no ser representativa da populao. Do mesmo modo, no se pode esperar que duas amostras, independentemente retiradas da mesma populao, forneam resultados iguais. Porque existe esta variabilidade nas estimativas e porque a amostra no uma perfeita representao da populao, os resultados que ela fornece so de alguma forma errados. Na ANOVA, o mais simples modelo aquele no qual as observaes so classificadas em grupos baseados em uma nica propriedade.

Vamos considerar que temos k amostras de tamanho n, retiradas de k populaes cuja mdia (i= 1, 2, ..., k) queremos comparar. Para entender melhor, consideremos os dados da tabela a seguir, que representam
os pontos conseguidos por 24 datilgrafos durante um experimento para determinar se h diferenas entre trs

marcas de mquina de escrever. Os datilgrafos foram divididos em 3 grupos iguais, por escolha casual; cada grupo de 8 foi designado para um tipo de mquina; Mquina I Mquina II Mquina III 44 40 54 39 37 50 33 28 40 56 53 55 43 38 45 56 51 66 47 45 49 58 60 65
Tabela 1 Pontos obtidos em trs marcas distintas de mquinas de escrever (Fonte: HOEL, Paul G. Estatstica Elementar, cap. 11, pg. 294 So Paulo: Atlas, 1981)

So hipteses implcitas bsicas aplicao do modelo que vamos estudar as de que as k populaes tenham a mesma varincia homocedasticidade) e que a varivel de interesse seja normalmente distribuda em todas as populaes. Entretanto o mtodo robusto, isso querendo dizer que algum afastamento das hipteses bsicas ainda leva e resultados vlidos com razovel aproximao. Por outro lodo, devemos considerara diferena entre os modelos fixo e aleatrio da Anlise de Varincia. A fim de esclarecer a diferena existente entre as duas situaes, imaginemos que as k populaes que vo ser comparadas quanto a suas mdias resultem da aplicao de k diferentes tratamentos sobre os elementos em estudo. Queremos, portanto, saber se aceitamos ou rejeitamos a hiptese de que todos os tratamentos produzem, em mdia, o mesmo efeito. Ora, pode ocorrer que os k tratamentos representem a totalidade dos tratamentos que nos interessa examinar, mas tambm pode ocorrer que os k tratamentos utilizados sejam apenas uma amostra aleatria de uma populao de possveis tratamentos. Note-se que, em ambos os casos, desejamos fazer uma induo sobre a populao de tratamentos, mas existe uma diferena bsica aleatria. No primeiro caso, temos o modelo fixo da Anlise de Varincia; no segundo, o modelo aleatrio. Note-se tambm que, e se o experimento objeto da AV precisasse ser repetido, no primeiro caso os mesmos tratamentos seriam aplicados, ao passo que, no segundo, deveramos ter uma outra amostra aleatria de tratamentos para que a induo fosse conduzida de acordo com a condio real. Entretanto, embora ambos os casos mencionados sejam diversos em essncia, o modelo da AV conduz a uma mesma montagem formal da soluo do problema. A ANOVA baseia-se em que, sendo verdadeira uma dada hiptese, existem 3 maneiras pelas quais a Estimativa Total Estimativa entre amostras Estimativa Residual Resultado possvel no h desvantagem em uma marca de mquina sobre as outras e, se simbolizarmos os pontos da mdia da populao correspondente s trs marcas como 1, 2 e 3, basta testarmos a hiptese: H0: 1 = 2 = 3 Isso significaria tomarmos uma amostra de tamanho 24 de uma NICA populao. Ou seja, seria como se os 24 datilgrafos utilizassem a mesma mquina e as variaes de pontos ao datilografar fosse resultante do datilgrafo. 2 Se representa a varincia da populao, podemos utilizar as 24 medidas para estimar uma varincia amostral familiar. Poderamos tambm utilizar a varincia de uma coluna apenas (dentre as trs) como uma estimativa vlida no tendenciosa, embora no seja to boa quanto uma estimativa baseada em todas as 2 2 2 medidas. Se s 1, s 2 e s 3 representam as varincias amostrais para as trs colunas, e a estimativa familiar simbolizada por Vc, temos: 2 2 2 Vc = (s 1 + s 2 + s 3)/3 Pode-se obter outra estimativa a partir da relao entre a varincia de uma mdia amostral e a varincia da populao: 2 2 x = /n Em geral, a varincia amostral de um conjunto de medidas uma estimativa vlida da varincia da populao das medidas (sejam estas simples ou mdias de medidas simples ou outras funes de medidas 2 2 simples). Temo que, se dispomos de uma estimativa x, devemos multiplica-la por n para obter ; no exemplo, temos trs mdias das trs colunas, cuja mdia representa a grande mdia (de todas as medidas); temos uma estimativa no tendenciosa baseada nas mdias:

Vm = 8. j=1 (j - ) 2 J temos duas estimativas no tendenciosas: Vc e Vm. Ambas so vlidas quando H0 verdadeira, portanto deveriam ter valores aproximadamente iguais e sua razo deveria estar prxima de 1. No entanto, quando H0 no verdadeira e as mdias de cada coluna so bem diferentes entre si, tambm o faro as estimativas: diferiro muito em valor. Isso pois, enquanto Vc (varincia de cada coluna) no afetada pela alterao das mdias dessas colunas, V m calculada a partir desses valores. Dessa forma, se H0 no for verdadeira, essa razo F = Vm/Vc (quantidade desejada para se testar a hiptese H0) exceder 1. Aplicando essas frmulas ao experimento relativo s maquinas, os clculos com os dados da Tabela I nos fornecem os seguintes valores: _ _ _ x1 = 47 x2 = 44 x3 = 53 s
2 1

= 81,1

s 2 = 106,3 Vm = 168

2 3

= 82,3

Vc = 89,9

F = 1,87

Agora no perguntamos: o valor de F grande demais quando comparado aos valores de F que poderiam ser esperados em experimentos repetidos desse tipo com mquinas idnticas (ou seja, na suposio de que H 0 fosse verdadeira)? Para isso precisaramos avaliar a distribuio amostral de F. Distribuio de F: esta pode ser obtida por repetidos experimentos amostrais e histogramas com os respectivos resultados de F. A distribuio exata de F, no entanto, pode ser obtida por mtodos matemticos, desde que sejam feitas as suposies corretas. No caso, devemos supor que as variveis das 24 clulas sejam normais e 2 independentes, todas com a mesma mdia e a mesma varincia . Dessa forma, a distribuio de F depende apenas da quantidade de dados disponveis para a estimativa do numerador da varincia e para a estimativa do denominador. A tabela de Distribuio de F lista os valores crticos de 5% e 1% da cauda direita de F correspondente aos diferentes valores dos parmetros v1 e v2; estes valores so chamados nmero de graus de liberdade do numerador e denominador de F, aqueles naturalmente associados varincia amostral usada. Como v = n 1 (ou seja, um menos que o nmero de medidas), o n de graus de liberdade para o numerador F neste problema dado por v1 = 2, porque a estimativa baseada na mdia das trs amostras. J para o denominador, seria v 2 = 21, pois a varincia de cada coluna contribui com 7 graus de liberdade e so usadas as varincias de 3 colunas. Pela tabela encontramos que, o valor crtico de 5% de F corresponde a v 1 = 2 e v2 = 21 3,47. Como F = 1,87 para esse problema, aceita-se essa hiptese. Dessa forma, os dados esto de acordo com o ponto de vista de que a habilidade de datilografar no afetada pelas trs marcas das mquinas usadas. Pudemos demonstrar que o teste F, quando aplicado para testar a igualdade das mdias das duas colunas, equivalente ao do teste T para o mesmo problema. Portanto, o teste baseado em F uma generalizao do teste anterior de duas colunas baseado em t.

DUAS CLASSIFICAES SEM REPETIO


Os elementos observados sero classificados de acordo com dois critrios, constituindo duas classificaes cruzadas. Em um desses critrios sero consideradas n amostras em k elementos, enquanto no outro k amostras e n elementos, dando um total de nk observaes. Esses nk elementos sero dispostos segundo uma matriz com k linhas e n colunas (conforme o modelo a seguir). Segundo critrio (colunas) X11 X12 X1j X1n ... ... X21 Primeiro critrio (linhas) X i1 Xk1 X22 ... Xi2 Xk2 ... X2j ... Xij Xkj ... X2n Xin Xkn

A anlise da varincia permitir testar simultnea e independentemente as hipteses (H 01 e H02). H01, 1. = 2. = ... = k. ; H02= .1 = .2 = ... = .n A aceitao da primeira hiptese indica que no h comprovao de diferena significativa entre as mdias () segundo a classificao usando o critrio de linhas (k). O mesmo ocorre com a aceitao da segunda hiptese, mas segundo a classificao que usa o critrio de colunas (n). Na tabela xij (linha x coluna) representa o tratamento a que cada elemento foi submetido e ao todo so nk tratamentos aplicados aos elementos amostrais. De acordo com as hipteses j vistas na anlise de uma classificao com amostras de mesmo tamanho, para todos os tratamentos a varivel de interesse dever ser normalmente distribuda e com a mesma varincia. Para fazer a analise de varincia deve-se considerar: 1. o modelo de anlise a se escolher, entre: 2. modelo fixo: se os efeitos resultantes as classificaes segundo linhas e colunas forem ambos fixos, ou seja, se as condies dadas pelas linhas e colunas representarem a totalidade de todas as condies existentes. modelo aleatrio: se as condies de linhas e colunas forem amostras de duas populaes de possveis condies experimentais. modelo misto: se o efeito de uma das classificaes for fixo o da outra for aleatrio.

a possibilidade de existncia de interao entre duas classificaes.

Por exemplo: Supondo que o tempo gasto para produzir uma pea seja a varivel de interesse. As diferentes mquinas usadas na produo da pea sero as linhas e os diferentes operrios que as manipulam sero as colunas. As diferenas entre as linhas e colunas pode ser causado por: uma mquina ser mais difcil de se operar que outra; diferena entre a eficincia do funcionrio; dificuldade ou facilidade que o operrio pode ter para lidar com determinada mquina;

Nesta ltima h interao entre as classificaes (operrios e mquinas). Com a presena de interao s R no mais seja mais uma estimativa vlida de . Por isso deve-se ter cuidado quanto as hipteses implcitas ao se aplicar o modelo. No modelo fixo h hiptese implcita de inexistncia de interao entre linhas e colunas (sendo semelhante ao caso de uma nica classificao). O modelo aleatrio vlido independentemente da hiptese de existncia ou no de interao. E no misto o teste da hiptese referente classificao com efeito fixo prescinde a hiptese de no-interao, ao passo que o teste que o teste da hiptese referente classificao com efeito aleatrio parte da validade dessa hiptese.

A sistemtica de teste ser a mesma para qualquer dos modelos fixos e ser vista a seguir:

3.

A varincia pode ser estimada de quatro modos: 1 estimativa total sT

2 estimativa entre linha sL (SQL)

3 estimativa entre colunas sC (SQC)

4 estimativa residual sR (SQR)

Ento SQT = SQL + SQC + SQR, sendo que SQL, SQC e SQR so termos independentes. Pode-se testar ento a igualdade entre as medias segundo as linhas e colunas.

Obs.: A hiptese 1 no sendo verdadeira no impedir que se teste a hiptese 2 e vice-versa. A disposio prtica para se realizar a Anlise de Varincia no presente caso ser vista na tabela a seguir:

Tabela 2 Aplicao de frmulas na Anlise de Varincia

Exemplo de duas classificaes sem repetio: Numa experincia agrcola, foram usados seis diferentes fertilizantes em duas variedades de milho, tendo sido obtidas as colheitas dadas a seguir, em sacas, para os vrios canteiros de mesma rea que foram plantados. Utilizar a Anlise de Varincia para verificar se existem diferenas significativas entre os fertilizantes e entre as variedades ao nvel de 1% de significncia.

Fertilizante Variedade 1 Variedade 2

A 5,4 5,7

B 3,2 4,0

C 3,8 4,2

D 4,6 4,5

E 5,0 5,3

F 4,4 5,0

Tabela 3 Fertilizantes utilizados em experimento agrcola

Soluo: Adotando uma disposio semelhante utilizada na Tab. 2, construmos a Tab.4, a qual facilita o clculo das vrias quantidades necessrias.

Tabela 4 Valores necessrios aplicao da Anlise de Varincia

Temos:

O valor de SQR pode ser calculado por diferena: SQR = SQT SQL SQC 0,234

Podemos, ento, montar o quadro da Anlise de Varincia conforme indicado na Tab. 2, o que feito na Tab. 5. Vemos que, ao nvel de 1% de significncia, existe diferena significativa entre as linhas, ou seja, entre os fertilizantes, mas no existe diferena significativa entre as colunas, ou seja, entre as variedades.

Tabela 5 Quadro da Anlise de Varincia

DUAS CLASSIFICAES (DOIS FATORES) COM REPETIO


certo que podemos obter mais informaes sobre o experimento atravs da repetio. Neste caso, haver mais de uma clula correspondente a um tratamento e um bloco. Admitir-se- que haver C clulas para cada posio; mudanas apropriadas podero ser efetuadas quando os nmeros de repeties forem desiguais. Devido a repetio, deve ser usado um modelo apropriado para substituir o fornecido pela equao Xjk= + j + k + jk. Usa-se: Xjkl = = + j + k + jk + jkl (1)

Onde os ndices j, k e l de x(jkl) correspondem linha de ordem j (tratamento), coluna de ordem k(bloco) e a repetio de ordem l na equao (1) , j e k so definidos como anteriormente, (jkl) um termo aleatrio ou erro, enquanto jk representa a linha-coluna (tratamento-bloco), efeitos de interao, muitas vezes denominada interaes. Tem-se as restries: j = 0 k = 0 jk = 0 jk =0 j k j k (2)

e os x(jkl) so supostos serem normalmente distribudos com mdia e varincia . Como j visto: V=Vr + Vc +Vi + V onde : V = j,k,l (xjkl \bar{x}) (3)

Os valores esperados das variaes podem ser obtidos como anteriormente. Fazendo-se uso de um nmero apropriado de grau de liberdade para cada fonte de variao, pode-se montar a tabela de anlise de varincia, como apresentada na Tabela 6 abaixo. As razes F da ltima coluna podem ser usadas para testar as hipteses nulas: H0(1): Todas as mdias dos tratamento (linhas)so iguais, isto , j=0. H0(2): Todas as mdias dos blocos (colunas) so iguais, isto , k=0. H0(3): No h interaes entre os tratamentos e os blocos, isto , jk=0.

Variao Entre tratamento , Vr Entre blocos , Vc Interao,

Graus de liberdade a-1

Quadrado mdio Sr= Vr/a-1

b-1

Sc= Vc/b-1

(a-1)(b-1)

Si= Vt/

F Sr/ Se= com a-1 e abc(c-1) graus de liberdade Sr/Se com (a-1)(b-1) graus de liberdade St/Se com

vt Residual ou aleatria, Ve Total Ab(c-1)

(a-1)(b-1) Se = Ve/ ab(c-1)

(a-1)(b-1) graus de liberdade

Abc-1
Tabela 6

Sob um ponto de vista prtico, decidiramos, inicialmente, se H0(3) pode ou no ser rejeitado ao nvel de significncia apropriado, usando-se a razo F equivalente a Si/Se da tabela 6. Dois casos so possveis: 1-H0(3) no pode ser rejeitado. Nesse caso conclumos que as interao no so demasiadamente grandes. Testa-se H0(1) e H0(2) usando as razes de F. 2- H0(3) pode ser rejeitada. Neste caso conclumos que as interaes so significativamente grandes. Diferenas nos fatores seriam, ento, importantes somente se elas fossem grandes quando comparadas com tais interaes. A anlise de varincia com repetio realizada mais facilmente totalizando-se, inicialmente, os valores de repetio que correspondem a tratamentos (linhas) e os blocos(colunas) particulares. Exemplo de duas classificaes com repetio Um fabricante quer determinar a eficincia de quatro tipos de maquinas A, B, C e D, na produo de parafusos. Para atingir tal intento, obtm-se os nmeros de parafusos defeituosos produzidos por cada maquina nos dias de uma certa semana em cada um dos turnos de trabalho; os resultados esto apresentados na Tabela 7. Efetuar uma anlise da varincia para determinar, ao nvel de significncia 0,05, (a) se existe diferena entre as maquinas e (b) entre os turnos de trabalho. Soluo: Os dados podem ser dispostos como na Tabela 8 na qual esto indicados os dois fatores principais: maquinas e turno. Note-se que esto indicados 2 turnos para desempenho de cada mquina para os 2 turnos. A variao total para todos os dados da Tabela 8 : V= 6 + 4+ 5 + ... + 7 + 10 - (268)/40 = 1946-1795,6 = 150,4 Mquina A B C D Primeiro turno Qua. Qui. 5 5 7 7 6 5 6 5 Segundo turno Qua. Qui. 4 6 12 8 5 4 9 7

Seg. 6 10 7 8

Ter. 4 8 5 4

Sex. 4 9 9 5
Tabela 7

Seg. 5 7 9 5

Ter. 7 9 7 7

Sex. 8 8 6 10

Repeties Fator I: Mquina A B C D TOTAL Fator II: Turno {1 {2 {1 {2 {1 {2 {1 {2 Seg. 6 5 10 7 7 9 8 5 57 Ter. 4 7 8 9 5 7 4 7 51


Tabela 8

Qua. 5 4 7 12 6 5 6 9 54

Qui. 5 6 7 8 5 4 5 7 47

Sex. 4 8 9 8 9 6 5 10 59

TOTAL 24 30 41 44 32 31 28 38 268

J a Tabela 9 representa a variano subtotal Vs que dada por:

Vs= (24)/5 +(41)/5 +(32)/5 +(28)/5 +(30)/5 +(44)/5 + (31)/5 +(38)/5 +(268)/5 = 65,6 A variao entre as linhas dada por: Vr= (54)/10 +(85)/10 +(63)/10 +(66)/10 +(268)/10 = 51 A variao entre as colunas dada por: Vc= (125)/20 + (143)/20 + (268)/20 = 8,1

Mquina A B C D

1 turno 24 41 32 28
Tabela 9

2 turno 30 44 31 38

TOTAL 54 85 63 66

Se agora subtrairmos da variao subtotal Vs a soma das variaes entre as linhas e colunas, que dada por Vi= Vs Va Vc= 65,6 51 8,1= 6,5 Finalmente, a variao residual, que pode ser considerada aleatria ou devida a erro (desde que acreditamos que os dias da semana no proporcionem quaisquer diferenas importantes) obtidas subtraindose a variao subtotal, isto , a soma das variao linha, coluna e interaes, da varincia total, o que produz: Ve= V (Vr + Vc + Vi) = V Vs = 150,4 65, 6 = 84,8. Essas variaes esto apresentadas na Tabela 10 que representa a anlise de varincia devida s duas colunas, e tem 2-1=1 grau de liberdade. Para determinar-se os graus de liberdade devidos interseco, deve-se notar que existem 8 entradas na tabela 1.5; por conseguinte , o total de graus de liberdade 8-1=7. Como 3 destes 7 graus so devidos as linhas e um s colunas, os restantes, 7 (3+1)= 3 so devidos interao. Como existem 40 entradas na tabela 1.3, o total de graus de liberdade 40 1 =39. Assim, os graus de liberdade devidos variao aleatria ou residual so 39-7=32.

Variao Linhas (maquinas) Vr=51 Colunas (turnos) Vc=8,1 Interao, Vi=6,5 Subtotal Vs=65,6 Residual ou aleatria, Ve=84,8 Total V=150,4

Graus de liberdade 3 1 3 7 32 39
Tabela 10

Quadrado mdio Sr= 17 Sc= 8,1 Sr=2,167

F 17,0/2,65=6,42 8,1/2,65=3,06 2,167/2,65=0,817

Se =2,65

Alm disso, para prosseguir, devemos inicialmente determinar se existe qualquer interao significante entre os fatores bsicos, isto , as linhas e colunas da Tabela 9. Da Tabela 10 vemos que para a interao F= 0,817, que mostra no ser ela significativa, isto , no podemos rejeitar a hiptese H 0(3). Seguindo as regras estabelecidas quando se abordou os experimentos de 2 fatores com repetio, vemos que o F calculado para as linhas 6,42. Como F(0,95)=2,90 para 3 e 32 graus de liberdade, podemos rejeitar a hiptese H0(1) de que as linhas possuem as mesmas mdias. Isto equivale a dizes que, ao nvel 0,05, podemos concluir que as mquinas no so igualmente eficientes. Para 1 e 32 graus de liberdade , F=4,15, e como o F calculado para as colunas so iguais, ou seja, ao nvel 0,05, no existe diferena significante entre os turnos. Se decidssemos analisar os resultados combinando-se as variaes de interao e residual, encontraramos Vi + Ve = 6,5 + 84,8 = 91,3 para a variao combinada, e Vi + Ve = 3 + 32 = 35 para os graus de

liberdade combinados, fornecendo uma varincia combinada de 91,3 /35 = 2,61. Usando-se este valor ao invs de 2,65 para o denominador de F na tabela 1.5, tal fato no afetar as concluses obtidas anteriormente.

COMPARAES MLTIPLAS
O mtodo de Anlise de Varincia aceita ou rejeita as hipteses H 0 de igualdade das mdias populacionais. Se H0 for rejeitada pode-se dizer que pelo menos uma das mdias diferente das demais. Existem alguns mtodos para se descobrir quais mdias entre as vrias que foram comparadas, diferem entre si ao nvel de significncia estipulado. Teste de Tuckey Quando as amostras tm tamanhos iguais este teste mais adequado considerando que as amostras devem ser aleatrias e independentes sendo extradas de populaes normais e as populaes devem ter varincias iguais ( 1 = L = k = 2 ). O teste HSD de Tuc key foi originalmente desenvolvido para amostras de igual tamanho, no entanto, muitos estatsticos sustentam que este um mtodo robusto a desvios moderados deste pressuposto. Este teste feito comparando-se a diferena absoluta (em mdulo) entre as vrias mdias pareadas duas a duas, a um valor (), previamente calculado. __________ = q (QMR)/n Onde: k= nmero de amostras n= nmero de elementos de cada amostra v (nmero de graus de liberdade da estimativa de QMR) = k.(n-1) q = amplitude total studentizada, valor obtido em uma tabela (de acordo com o nvel de significncia desejado) de dupla entrada com k e v; QMR = quadrado mdio do resduo e n = nmero de observaes por tratamento (repeties). Caso o nmero de observaes por tratamento seja diferente, o ser calculado da seguinte forma: __________________ = 12(1n1+ 1n2) *QMR No entanto, nesse caso os resultados so aproximados e devem ser encarados com reserva. Sero consideradas significativas ao nvel de sign ificncia pr determinado () aquelas diferenas entre mdias cujo valor absoluto for maior que o calculado. Portanto as mdias so considerada s distintas e Ho rejeitado se: _________ | | q k,vR, . (QMR)/n Teste de Scheff Alm de ser um teste efetivo quando as amostras tem tamanhos diferentes apresenta a vantagem de utilizar os prprios valores do quadro da Anlise de Varincia. Uma forma geral para o teste nos casos vistos de modelo fixo seria: ____________________________ = QMR.(p-1).(1/nl + 1/nm) . Fp-1 , vR, p= nmero de linhas ou colunas vR( nmero de graus de liberdade de QMR)= k.(n-1) = diferena crtica que deve ser superada pela diferena das mdias amostrais EXEMPLO: Trs chapas de uma liga metlica de mesma procedncia foram submetidas a trs diferentes tratamentos trmicos, A, b e C. Aps o tratamento, foram tomadas 5 medidas de dureza superficial de cada chapa, obtendo-se os seguintes resultados: Tratamento A B C Dureza 68 74 77 70 71 67 65 69 66 67 73 77 76 69 80 Mdia A B C

|A- B| = 5,2

|A c| = 3

|B- C| = 8,2

Em funo de k =3 ; vR= k. (n-1) = 3.(5-1) = 12 . Para um nvel de significncia 5 % a tabela nos fornece q 3, 12, 5% = 3,77 . O Quadrado Mdio do Resduo dado por: QMR= residual de quadrados / vR = 128,8 / 12 = 10, 733 Pelo Mtodo de Tukey: _______ ________ q k,vR, . QMR/ n = 3,77 . 10, 733/ 5 = 5,52 Logo, so significamente distintas as mdias cujas diferenas superem 5,52. Portanto existe diferena assinalvel ao nvel = 5% entre tratamentos B e C. Pelo Mtodo de Scheff, teramos 5% . Como F k-1 , k (n-1), = F 2, 5; 5% = 3,89, temos: __________________ 5%= 10,733 . 2(3-1)/5 . 3,89 = 5,78 Logo, leva mesma concluso do teste anterior, porm, como 5,78 5,52, notamos que o mtodo de Tukey mais poderoso para efeito de comparao das mdias duas a duas. Contrastes A ideia de diferena entre duas mdias generalizada d-se pelos contrastes entre k mdias, definido por k coeficientes tais que sua soma seja nula. EXEMPLO: Tomates de determinada espcie foram submetidos a quatro diferentes tratamentos com fertilizantes em iguais quantidades e foram feitas n verificaes do peso destes depois de cada tratamento e calculadas as mdias : tratamento 1: sem fertilizante = 1 tratamento 2 : fertilizante = A2 tratamento 3: fertilizante B = 3 tratamento 4: fertilizante A+B= 4 Pode-se construir diferentes contrates entre as mdias das amostras, que representam comparaes: C1=(-1, 1, -1,1) = (- 1/2 + 2/2 - 3/2 + 4/2) C2= (-1, -1, 1, 1)= (- 1/2 - 2 /2 + 3 /2 + 4/2 ) C3= (-1, 1, 1, -1)= (-1/2 + 2 /2 + 3/2 + 4/2 ) Nota-se que no havendo interao C1 mede apenas o efeito do fertilizante A, considerando que o efeito de B foi somado e subtrado. Analogamente C2 mede apenas o efeito de B e C3 mede o efeito da eventual interao entre os fertilizantes A e B sendo que no havendo de fato interao, o valor esperado desse contraste nulo. Indues quanto aos contrastes Pode-se desejar construir intervalos de confiana ou testar hipteses a respeito de certos contrates. Para isso basta calcular a estimativa do desvio padro admitindo que todas as populaes tenham a mesma varincia, estimada pelo Quadrado da Mdia Residual QMR, e o mesmo tamanho n, temos para C1 o seguinte intervalo de confiana: _______ (- 1/2 + 2/2 - 3/2 + 4/2) t 4(n-1) , /2 QMR/n Se for desejado estimar ou testar simultaneamente diversos contrastes, em geral, recomendvel que se use o procedimento de Scheffl. O procedimento de Scheffl para estabelecer o intervalo de confiana para diversos contrastes C com estimativas pode ser resumido na expresso:

S . S __________________ S= QMR . ( 1/ n1 + 1/ n2 ) k= nmero de mdias a serem contrastadas ni- k = nmeros de graus de liberdade do quadrado da estimativa do QMR. _________________ S = ( k-1) . F k-1, ni- k , que em geral igual ao nmero de graus

ANLISE DE VARINCIA APLICADA A REGRESSO


Para o estudo dos problemas envolvendo a comparao de vrias mdias, a tcnica principal e mais importante para determinar a soluo a anlise de varincia. Esta consegue identificar diferenas entre as mdias devido a vrias causas atuantes. O teste de regresso linear atravs da Anlise de Varincia de interesse imediato e tambm devido a suas extenses.
n i=1

(yi ) =

n i=1 (i

) +

n i=1 (yi

Sendo o 1 termo: Varincia total. o 2 termo: Desvio da reta de mnimos quadrados em relao a . o 3 termo: Varincia residual. Para efetuar o teste, deve-se ter como hiptese no ter regresso (=0). No havendo regresso, a varincia total se confunde com a varincia residual. Essa Varincia r comum, pode ser estimada pela varincia amostral de Y: Sy = Mas a varincia amostral : r =
n i=1

(yi )/(n-1) = Syy / (n-1)

n i=1

(yi i)/(n-2) = Syy - b.Sxx

Logo, o Quociente F = b.Sxx / r pode ser usado para testar a hiptese de no haver regresso. Sendo falsa a hiptese de Ho = 0, o numerador tender a crescer, pois b.S xx corresponde a parcela de variao explicada pela reta de regresso.

Exemplo: Testar pela Anlise de Varincia a existncia da regresso para a seguinte relao: X Y 1 0,5 2 0,6 3 0,9 4 0,8 5 1,2 6 1,5 7 1,7 8 2

Xi 1 2 3 4 5 6 7 8 ----------------36 Sxx = Sxy =

yi 0,5 0,6 0,9 0,8 1,2 1,5 1,7 2 ----------------9,2


n i=1 xi

xi*yi 0,5 1,6 2,7 3,2 6,0 9,0 11,9 16,0 ----------------50,5

xi 1 4 9 16 25 36 49 64 ----------------204

yi 0,25 0,36 0,81 0,64 1,44 2,25 2,89 4,00 ----------------12,64

- (

n i=1 xi)

/ n Sxx = 204 (36/8) Sxx = 42 Sxy = 50,5 (36*9,2)/5 Sxy = 9,1

n i=1 xi*yi

n i=1 xi *

n i=1 yi)/n

Syy =

n i=1 yi

- (

n i=1 yi)/n

Syy = 12,64 (9,2)/8 Syy = 2,06

b = Sxy/Sxx b = 9,1/42 b = 0,216667 Como r = Syy b*Sxx = 2,06 (0,21667)*42 r = 0,0833 Logo: F= b*Sxx/ r F = 1,97166/0,0833 F = 284,146 Como o quociente muito grande, est provado que existe regresso linear .

ANLISE DE VARINCIA NA REGRESSO LINEAR MLTIPLA


A anlise da varincia pode ser usada para verificar se a equao obtida significativa como explicao do fenmeno. O problema semelhante ao teste da regresso linear para o caso da reta em que a variao total medida pela soma dos quadrados total Syy e a variao residual em torno do hiperplano de regresso mltipla medida pela soma dos quadrados residual. A diferena corresponde a parcela da variao total explicada pelo hiperplano da regresso mltipla. A soma de quadrados dada por R. Syy, em que R o coeficiente de correlao da regresso linear mltipla. R1. S1y + R2. S2y+.....+ R2k. Sky Onde k o n da sua populao. A diferena da quantidade (equacionada acima) com Syy a soma dos quadrados residual. A soma dos quadrados residual possui nmero de graus de liberdade igual a: n-(k+1)= n-k-1. O princpio da melhoria tambm pode ser aplicado a regresso mltipla. No caso da regresso linear mltipla podese incluir sucessivas variveis, mesmo que as variveis no seja significante para melhorar o ajuste. So utilizados diversos programas de computadores para tentar solucionar esse problema como a utilizao do processo stepwise. Com isso procura-se chegar em uma equao (com todas as variveis colocadas) que represente bem o fenmeno a sem sobrecarregar com variveis insignificantes.

ANLISE DE MELHORIA
Como a regresso linear gera um problema, j que no conhecemos previamente o modelo adequado para a equao que iremos determinar, surge a necessidade de encontrar a equao de um polinmio que melhor representa o fenmeno em estudo. Porm, esse processo matemtico nada tem de estatstico, uma vez que sempre encontraramos um polinmio de grau n-1 que se ajustaria sem desvio a todos os pontos experimentais. Surge ento a ideia de se buscarem equaes mais elaboradas at o ponto em que a melhoria de ajuste conseguida em relao ao modelo anterior seja significativa. Por exemplo: se procuramos uma equao polinomial que possa ser considerada satisfatria, antes devemos achar a equao da reta de regresso. Da mesma forma, procuramos uma parbola, que no lugar da reta, de uma melhoria de ajuste significativa. Se tivermos sucesso, verificamos se a cbica de regresso apresenta melhoria de regresso em relao parbola. Procedemos dessa maneira at que duas etapas sucessivas no tenham produzido melhoria significativa. Sempre buscamos o modelo mais simples, desde que um mais elaborado no apresente uma melhoria significativa que represente o fenmeno em estudo. O princpio da Anlise de Melhoria est em que a participao da variao total, no caso da reta, pode ser, de modo anlogo, verificada para polinmios de maior grau. Assim, a soma de quadrados devida variao residual em torno da reta de mnimos quadrados pode, por sua vez, ser desdobrada em uma parcela de melhoria de ajuste explicada pela adoo da parbola e uma parcela devida variao residual em torno da parbola.

FONTES BIBLIOGRFICAS
1. SPIEGEL, Murray R. Estatstica (3 Edio) So Paulo: Pearson Makron Books, 1993. (Coleo Schaum) 2. TRIOLA, Mario F. Introduo Estatstica (Dcima edio) Rio de Janeiro: LTC, 2008. 3. HOEL, Paul G. Estatstica Elementar So Paulo: Atlas, 1981. 4. HINES, William W. ... [et al]. Probabilidade e estatstica na engenharia Rio de Janeiro: LTC, 2006. 5. COSTA NETO, Pedro L. de Oliveira. Estatstica So Paulo: Edgard Blcher, 1977.

You might also like