Professional Documents
Culture Documents
Regresso e Correlao
A Regresso e a Correlao so duas tcnicas estreitamente relacionadas que envolvem uma forma de estimao. A diferena entre essas duas tcnicas e o tipo de estimao estudado anteriormente que aquelas tcnicas foram utilizadas para estimar um nico parmetro populacional, enquanto que as tcnicas que veremos a partir de agora referem-se estimao de uma relao que possa existir na populao.
A anlise de correlao e regresso compreende a anlise de dados amostrais para saber SE e COMO duas ou mais variveis esto relacionadas uma com a outra numa populao.
Regresso e Correlao
1.
Anlise de correlao: fornece um nmero que resume o grau de relacionamento entre duas variveis. til em trabalhos exploratrios. Determina quais as variveis so potencialmente importantes. O interesse est no grau ou na fora do relacionamento. Ex: educao, psicologia.
2.
Anlise de regresso: tem como resultado uma equao matemtica que descreve o relacionamento. A equao pode ser utilizada para estimar, ou predizer, valores futuros de uma varivel quando se conhece ou se supe conhecidos valores de uma outra varivel. Ex: administrao, economia, pesquisa mdica, agricultura.
Regresso e Correlao
Os dados para ambas as tcnicas provem de observaes de variveis EMPARELHADAS, ou seja, para cada observao origina dois valores, um para cada varivel (x,y). Ex: Idade e altura Para cada indivduo observado temos duas caractersticas fsicas associadas.
O termo REGRESSO foi introduzido por Francis Galton, ele verificou que, embora houvesse uma tendncia de pais altos terem filhos altos e de pais baixos terem filhos baixos, a altura mdia dos filhos de pais de uma dada altura tendia a se deslocar ou regredir at a altura mdia da populao como um todo. Em outras palavras, a altura dos filhos de pais extraordinariamente altos ou baixos tende a se mover para a altura mdia da populao. A lei de regresso universal de Galton foi confirmada por seu amigo Karl Pearson, que coletou mais de mil registros da alturas dos membros de grupos de famlias. Ele verificou que a altura mdia dos filhos de um grupo de pais altos era inferior altura de seus pais, e que a altura mdia dos filhos de um grupo de pais baixos era superior altura de seus pais. Assim, tanto os filhos altos como baixos regrediram em direo altura mdia de todos os homens (Gujarati, 2000, pp. 3).
Mas hoje sabemos que ...
A anlise da regresso ocupa-se do estudo da dependncia de uma varivel, VARIVEL DEPENDENTE, em relao a uma ou mais variveis, VARIVEIS DEPENDENTES, com o objetivo de estimar e/ou prever a mdia (da populao) ou o valor mdio da dependente em termos dos valores conhecidos ou fixos (em amostragem repetida) das explicativas. A regresso linear simples constitui uma tentativa de estabelecer uma equao
matemtica linear (linha reta) que descreva o relacionamento entre duas variveis. Algumas utilizaes: 1. Estimar valores de uma varivel com base em valores conhecidos da outra varivel. Ex: resistncia e dureza de um metal substituio. 2. Explicar valores de uma varivel em termos da outra. Pode-se suspeitar de uma relao de causa e efeito entre as duas variveis. Ex: quantidade de fertilizante e safra causa e efeito.
ATENO: a anlise de regresso apenas indica qual o relacionamento matemtico pode existir, se existir algum. Nem a regresso nem a correlao podem mostrar que uma varivel tenda a causar certos valores de outra varivel. 3. Predizer valores futuros de uma varivel. Ex: resultado do teste e o potencial futuro previso.
Equao linear: y = a + bx ou ainda Yi = 0 + 1 X i + i Caractersticas da reta: b chamado de coeficiente angular da reta indica a variao de Y por unidade de variao de X. a inclinao da reta. Portanto, mede o aumento ou a reduo em Y para cada aumento de uma unidade em X. a chamado de coeficiente linear = intercepto. a e b so valores que se determinam com base em dados amostrais. A varivel Y a varivel que deve ser predita e X o valor preditor. Ex: y = 5 + 3x. A reta intercepta o eixo do ys no ponto em que y=5. O coeficiente angular da reta 3, o que significa que a cada unidade de x, correspondem 3 unidades de variao de y.
Nem todas as situaes aproximam-se de uma equao linear. Alguns exemplos de distribuies de valores de X e Y ver Levine et al., 2008 pgina 449 figura 13.2. Relao linear positiva; Relao linear negativa; Relao curvilnea positiva; Relao curvilnea em formato de U; Relao curvilnea negativa; Nenhuma relao entre X e Y.
Ex: Queremos saber se h alguma relao entre a quilometragem de um carro usado e seu preo de venda. Queremos saber se o preo dependa da quilometragem do carro. Em linguagem de regresso a quilometragem seria a varivel INDEPENDENTE ou EXPLANATRIA, e o preo de venda a varivel DEPENDENTE ou RESPOSTA. x = independente y = dependente
Outras denominaes
Varivel Independente Varivel Explicativa Preditor Regressor Estmulo ou varivel de controle Exgena
Uma
reta
descreve os
adequadamente dados?
evidente
a de
impossibilidade
achar uma reta que passe por cada um dos pontos do grfico de disperso.
O mtodo mais usado para ajustar uma linha reta a um conjunto de pontos conhecido como tcnica dos MNIMOS QUADRADOS. A reta resultante tem duas caractersticas importantes: A soma dos desvios verticais dos pontos em relao reta zero e; A soma dos quadrados desses desvios mnima. Significa que nenhuma outra reta daria menor soma de quadrado de tais desvios. O valor que minimizado :
(y
os valores verdadeiros (yi) e os valores previstos (yc). yi = um valor observado de y yc = o valor calculado de y utilizando-se a equao de MQ com o valor de x correspondente a yi.
Os valores de a e b para a reta yc = a +bx que minimiza a soma dos quadrados dos desvios so as solues das chamadas equaes normais:
y = na + b( x )
xy = a( x ) + b( x )
2
y b x a=
n
= 21.825; y 2 = 39.960.000
= 38,56
a=
Substituindo os valores de a e b na reta de regresso, temos; Yc = a +bx yc = 2.934 38,56x O preo de venda esperado para um carro $2.934 menos $38,56 para cada mil milhas que o carro tenha rodado.
ATENO: Trata-se de uma relao mdia. Um carro com determinada quilometragem no obter necessariamente o preo de venda EXATO indicado pela equao. Seria arriscado extrapolar uma equao para preos e quilometragens fora do mbito dos dados.
O intercepto de y representa a mdia aritmtica do valor de y quando x = 0 (em alguns casos, no faz sentido ter x = 0 e esse intercepto de y no possui uma interpretao prtica).
Mesmo na populao, os valores no se dispe segundo uma nica linha reta e tendem a apresentar um certo grau de disperso. Se no houvesse disperso na populao, todas as observaes amostrais estariam sobre uma reta e no seria necessrio fazer inferncia quanto aos verdadeiros valores populacionais.
A disperso significa que as estatsticas amostrais tendem a diferir dos parmetros efetivos da populao.
se =
Onde y = cada valor de y;
(y
yc )
n2
se =
a y b xy n2
O clculo do desvio padro se baseia na hiptese de disperso uniforme dos pontos em torno da reta de disperso, ou seja, se supe que as distribuies condicionais dos valores de y tenham desvios padres iguais (homoscedasticidade). No exemplo da Km e preo de venda:
se =
Se a razo relativamente pequena, isto tende a implicar que o verdadeiro valor possa efetivamente ser zero, enquanto que se a razo relativamente grande, a implicao contrria. A distribuio amostral da diferena relativa uma distribuio t com n-2 g.l. Onde sb :
sb = s e
x2
[( x) / n]
2
t=
Com nvel de significncia de 0,01 e 12 g.l. o valor t tabelado t0,005 = 3,055 Concluso: H alguma relao. O coeficiente angular diferente de zero.
O intervalo de confiana (IC) tem duas finalidades: 1. 2. Indicar o intervalo provvel em que o verdadeiro valor pode estar; Testar a significncia de um coeficiente angular amostral.
Por exemplo, se um IC para B incluir o zero, equivale a um teste de significncia a H0) B = 0, portanto, a hiptese nula no pode ser rejeitada. No exemplo da Km e preo da venda, temos: IC: 95% b tsb = -38,56 2,179 *(5,40) = -50,33 B -26,79
O coeficiente de determinao mede o grau de ajuste a um conjunto de dados da reta de regresso ajustada, ou seja, iremos verificar o quo bem a reta de regresso da amostra se ajusta aos dados.
Portanto, medir o grau em que as predies baseadas na equao de regresso superam as predies baseadas em y .
Ver grficos (a) e (b) da figura 14.4 (Stevenson, 2001, pp. 359).
Variao _ total = y i y
Os desvios verticais dos yis em relao reta de regresso chamam-se variao no-explicada e dada por:
r2 =
var iao _ total var iao _ no _ exp licada var iao _ exp licada = var iao _ total var iao _ total
A percentagem de variao explicada, (r2), a razo da variao explicada para a variao total. Usando as varincias:
2 s y s e2 2 sy
r2 =
=1
s e2
2 sy
[ ( y y ) ]/(n 2) =1 [ (y y ) ]/(n 2)
2 i c 2 i
2 y
( y ) ( y ) =
2
/n
n2
r2 pode variar de 0 a 1. Indica que aproximadamente 81% da variao no preo da venda de carros esto relacionados com a variao na Km rodado. Ou seja, 19% da variao no so explicadas pela Km. As predies baseadas na equao de regresso se aproximaro satisfatoriamente dos preo efetivos. O fato de r2 no est prximo de zero sugere que a equao melhor que a mdia como preditor.
SQT = y i y
SQE = y c y
SQD = ( y i y c )
O valor do teste F exatamente igual ao quadrado do valor encontrado quando testamos a significncia do coeficiente angular da reta. Veja: (t = -7,14; t2 = (-7,14)2 = 50,98). O teste F com 1 g.l. no numerador igual a um teste t.
Quadrado mdio
SQE = (y
y)
1
2
(y
y /1
SQD = ( y i y c )
SQT = y i y
n-2
(y
y c ) /(n 2) = s e2
2
2 sy
n-1
(x
x2
[( x) / n]
2
Exemplo: A associao local de vendedores de automveis quer estimar o preo mdio de venda de um carro com 18.000 milhas.
2.
Valor individual de y:
y i ts yi
xg x 1 s yi = se 1 + + n x 2 ( x )2 / n
Exemplo: Um vendedor, em particular, quer estimar o preo que ele espera receber por determinado automvel. Tero distribuio t com n-2 g.l.
A regresso mltipla envolve trs ou mais variveis. H ainda uma nica varivel dependente (explicada), porm duas ou mais independentes (explicativas). A finalidade das variveis independentes adicionais melhorar a capacidade de predio em confronto com a regresso simples. Yc = a + b1x1 + b2x2 + ... + bkxk Onde: a = intercepto. bi = coeficientes angulares. k = nmero de variveis independentes.
r=
n( xy) ( x ) y n x 2 ( x ) . n y 2 ( y )
2
ou
se2 r = r = 1 2 sy
2