You are on page 1of 32

ESTATSTICA II

Prof. Ms. Simone Regina dos Reis

I INTRODUO
1.DEFINIO
A Estatstica uma cincia de mltiplas aplicaes e de fundamental importncia no campo
da investigao cientfica, sendo de utilizao cada vez mais acentuada em qualquer
atividade profissional. Ento, razovel que os profissionais de diversas reas adquiram
um mnimo de conhecimento tcnico sobre estatstica que possibilitem a compreenso de
termos como: variabilidade, regresso, correlao, significncia, e que aparecem com
frequncia no nosso cotidiano e em artigos de publicaes especializadas.
A Estatstica um conjunto de mtodos destinados a coleta, organizao, resumo,
apresentao e anlise de dados de observao, bem como a tomada de decises
razoveis baseadas em tais anlises. Ela pode ser dividida em dois campos:
Estatstica descritiva: trata da coleta, da organizao, classificao,
apresentao e descrio dos dados de observao. Se refere a maneira de apresentar um
conjunto de dados em tabelas e grficos e a maneira de resumir, atravs de certas
medidas, as informaes contidas nestes dados.
Estatstica inferencial: visa tirar concluses sobre a populao a partir de
amostras. Se refere a maneira de estabelecer concluses para toda uma populao quando
se observar apenas parte desta populao.

2. CONCEITOS BSICOS
POPULAO X AMOSTRA
Populao (N): conjunto de todos os elementos relativos a um determinado fenmeno
que possuem pelo menos uma caracterstica em comum, podendo ser finita (apresenta um
nmero limitado de observaes, que passvel de contagem) ou infinita (apresenta um
nmero ilimitado de observaes que impossvel de contar e geralmente est associada
a processos).
Amostra (n): um subconjunto da populao. A amostra deve ser selecionada seguindo
certas regras e para ser representativa, de modo que ela represente todas as
caractersticas da populao como se fosse uma fotografia desta.

PARMETROS X ESTATSTICA
Parmetros: so medidas obtidas quando se investiga a populao em sua totalidade,
neste caso impossvel fazer inferncias pois toda a populao foi investigada.
Estatsticas ou Estimadores: so medidas obtidas da amostra. Torna-se possvel neste
caso, utilizarmos as teorias de inferncias para que possamos fazer concluses sobre a
populao.

II TESTES DE HIPTESES
1.INTRODUO
Na teoria de deciso estatstica, os testes de hipteses assumem uma importncia
fundamental, j que estes permitem nos dizer, por exemplo, se duas populaes so de
fato iguais ou diferentes, utilizando para isso amostras destas populaes. Desta forma, a
tomada de deciso de um pesquisador, deve estar baseada na anlise dos dados a partir
de um teste de hipteses.
Ento voc pode definir as hipteses a ser testado, retirar amostras das populaes a
ser estudado, calcular as estatsticas delas e, por fim, determinar o grau de aceitao de
hipteses baseadas se uma determinada hiptese ser vlida ou no.
Para voc decidir se uma hiptese verdadeira ou falsa, ou seja, se ela deve ser aceita
ou rejeitada, considerando uma determinada amostra, precisamos seguir uma srie de
passos:
I) Formular as hipteses e
0 : hiptese nula a hiptese inicial.
1 : hiptese alternativa a hiptese contrria a 0 .
Observe que as hipteses 0 e 1 so hipteses mutuamente excludentes, ou seja,
aceitando-se uma das hipteses como sendo verdadeira, a outra, automaticamente, ser
rejeitada.
Ao testarmos uma 0 , chegamos a uma concluso: aceit-la ou rejeit-la. Desse modo
podemos cometer dois tipos de erros:
Erro Tipo I: consiste em rejeitar 0 , quando ela verdadeira. Pode ser limitado pela
escolha de .
Erro Tipo II: consiste em aceitar 0 , quando ela falsa. a potncia do teste.
4

O quadro mostra as possibilidades de se cometer os erros.

II) Definir o nvel de significncia ()


O nvel de significncia de um teste dado pela probabilidade de se cometer um erro tipo
I. Dizemos ento, que o nvel de significncia de um teste a probabilidade mxima com
que desejamos correr risco de um erro tipo I. O valor de tipicamente predeterminado,
geralmente usamos = 0,05 ou = 0,01.
III) Definir a distribuio amostral a ser utilizada
A estatstica a ser utilizada no teste, voc definir em funo da distribuio amostral a
qual os dados seguem. Podemos utilizar a distribuio normal (z), t de Student ou QuiQuadrado. Note que o conhecimento das distribuies amostrais muito importante.
IV) Definir os limites da regio de rejeio
Teste Bilateral
H0 : = nmero
H1 : nmero

/2

1-

/2

Neste tipo de teste, se aceita H0 se o valor calculado com base na amostra, estiver entre
os dois valores tabelados, como na figura acima.
5

Teste unilateral direita


H0 : = nmero
H1 : >

1-

Neste tipo de teste, se aceita H0 se o valor calculado com base na amostra for menor que
o valor tabela, como na figura acima.
Teste unilateral esquerda
H0 : = nmero
H1 : <

1-

Neste tipo de teste, se aceita H0 se o valor calculado com base na amostra for maior que
o valor tabela, como na figura acima.
V) Tomar a deciso
Para tomar a deciso, voc deve calcular a estimativa do teste estatstico que ser utilizado
para rejeitar ou no H0 .

2. TESTES NO PARAMTRICOS
A Estatstica no-paramtrica no exige suposies quanto a distribuio da
populao da qual se tenha retirado amostras para anlise. Vamos estudar agora um teste
no-paramtrico, assim chamado por no depender dos parmetros populacionais nem
de suas respectivas estimativas.
Para a realizao desse teste no-paramtrico ns utilizaremos uma nova distribuio
estatstica chamada Qui-Quadrado, cuja medida baseia-se no grau de concordncia entre
as frequncias observadas e as frequncias esperadas de acordo com as regras de
probabilidade.
Suponha um experimento realizado vezes, onde se observou um conjunto
1 , 2 , , com as respectivas frequncias 1 , 2 , , . No entanto, de acordo com as
regras de probabilidade deveriam apresentar as seguintes frequncias tericas ou
esperadas 1 , 2 , , .
Exemplo 1: Lanamento de um dado 60 vezes. O resultado deste experimento aparece na
tabela a seguir.

O modelo que serve para determinar as discrepncias existentes entre as frequncias


observadas e esperadas dado pela estatstica:

(1 1 )2 (2 2 )2
( )2
( )
2
=
=
+
++

1
2

Onde a frequncia observada e a frequncia esperada, sob a hiptese em estudo.


A distribuio amostral da distribuio Qui-quadrado 2 ter a seguinte forma
aproximada:

A 2 assim como a t de Student, ter graus de liberdade associados sua


distribuio, que sero definidos de acordo com o procedimento a ser adotado.
Procedimento do teste:
H0 : fo = fe

a) Enunciar as hipteses H0 e H1 .

H1 : fo fe

b) Escolher o nvel de significncia .

c) Estatstica calculada

= =1

( )2

2
2
d) Estatstica Tabelada:
= ,

2
2
e) Comparar
com
e concluir:

f) Concluso

1 caso Teste de adequao do ajustamento


Suponhamos uma amostra de tamanho . Sejam 1 , 2 , , , um conjunto de
eventos possveis da amostra.

Este teste indicado para verificar se as frequncias observadas dos eventos (


classes em que varivel dividida) concordam ou no com as frequncias tericas
esperadas.
As frequncias esperadas ( ) so obtidas multiplicando-se o nmero total de
elementos pela proporo terica da classe (. ).
2
Para encontrar
necessita-se do nvel de significncia e dos graus de liberdade os

quais podem ser obtidos da seguinte forma:


a) = 1, quando as frequncias esperadas puderem ser calculadas sem que
faam estimativas dos parmetros populacionais a partir das distribuies
amostrais.
b) = 1 , quando para a determinao das frequncias esperadas
parmetros tiverem suas estimativas calculadas a partir das distribuies amostrais.

Exemplo 1: Deseja-se testar se o nmero de acidentes numa rodovia se distribui


igualmente pelos dias da semana. Para tanto foram levantados os seguintes dados ( =
5%):

Exemplo 2: O nmero de livros emprestados por uma biblioteca durante certa semana est
a seguir. Teste a hiptese que o nmero de livros emprestados no depende do dia da
semana, com = 1%.

10

2 caso Teste da independncia


Uma importante aplicao do teste 2 ocorre quando se quer estudar a relao
entre duas ou mais variveis de classificao. A representao das frequncias observadas,
nesse caso, pode ser feita por meio de uma tabela de contingncia.
0 : As variveis so independentes (no esto associadas)
1 : As variveis no so independentes (esto associadas)
O nmero de graus de liberdade dado por: = ( 1) ( 1), onde L o nmero
de linhas e C o nmero de colunas da tabela de contingncia.

Exemplo 1: Verifique se h associao entre os nveis de renda e os municpios onde foram


pesquisados 400 moradores. Use a = 1%.

11

EXERCCIOS PROPOSTOS
1. As diferenas entre os sonhos das pessoas dos sexos masculinos e femininos foram documentadas
(Winget & Kramer, 1979). Um pesquisador, atravs de uma amostra, analisou essa diferena entre os
sonhos de homens e mulheres. Cada sonho julgado de acordo com as seguintes categorias, referentes a
agressividade; baixa, mdia ou alta. As frequncias observadas esto mostradas na tabela abaixo:
Baixa agressividade

Mdia agressividade

Alta agressividade

Mulheres

34

18

Homens

33

20

Verificar se h alguma relao entre o gnero (masc./fem.) e a agressividade dos sonhos. Adotar o nvel
= ,

de significncia de 1%.

rejeita-se H0

2. Uma bibliotecria fez uma pesquisa, durante uma certa semana, sobre o nmero de livros retirado pelos
estudantes. Testar a hiptese de que nmero de livros emprestados no depende do dia da semana, com
nvel de significncia de 1%.
Dias da semana

Seg

Ter

Qua

Qui

Sex

No de livros emprestados

100

138 130

152

118

= ,

Aceita-se H0

3. Um pesquisador deseja saber se existe alguma faixa etria mais propensa ao risco de morte pela ao
da gripe (influenza). Foi colhida uma amostra de 80 pessoas que morreram devido a esse tipo de problema.
Abaixo de 15 anos

De 15 a 50 anos

10 casos

Acima de 50 anos

20 casos

50 casos

No local onde essa amostra foi selecionada, os valores padres para esse tipo de morte so; 15% da
populao com menos que 15 anos; 35% entre 15 e 50 anos e 50% acima de 50 anos. O pesquisador pode,
ao nvel de 5%, concluir que o risco de morte est associado a faixa etria? = , Aceita-se H0
4. Um psiclogo submeteu um grupo de pacientes a um teste, ministrando sonfero a um grupo e plulas
de farinha (placebo) a outro grupo. Perguntado aos pacientes se o medicamento ajudou ou no a dormir
melhor, as respostas foram as seguintes:
Plulas

Dormiram melhor Dormiram pior

Indiferente

Sonfero

32

15

23

Placebo

35

20

30

Testar, ao nvel de 5%, a hiptese de no haver diferena entre o fato do doente tomar sonfero e dormir
melhor.

= ,

Aceita-se H0

12

3. TESTES DE HIPTESES PARAMTRICOS


Muitas vezes o pesquisador tem alguma ideia ou conjectura sobre o comportamento de
uma varivel. Nesse caso, o planejamento da pesquisa deve ser de tal forma que permita,
com os dados amostrais, testar a veracidade de suas ideias sobre a populao em estudo.
Considera-se que a populao seja o mundo real e as ideias sejam as hipteses de pesquisa,
que podero ser testadas por tcnicas estatsticas denominados de testes de hipteses.

3.1 TESTE DE HIPTESES PARA MDIA POPULACIONAL


Quando voc retira uma amostra de uma populao e calcula a mdia desta amostra
possvel verificar se a afirmao sobre a mdia populacional verdadeira. Para tanto,
basta verificar se a estatstica do teste estar na regio de aceitao ou de rejeio de H0 .

1 caso Desvio padro da populao () conhecido e amostra considerada grande


( > 30).

Distribuio amostral z e a estatstica do teste ser

Exemplo 1: O desvio padro da populao 22 unidades. Se uma amostra de 100


elementos retirados dessa populao forneceu mdia 115,8 podemos afirmar que a mdia
dessa populao inferior a 120 unidades, ao nvel de 5% de significncia?

13

Exemplo 2: Registros dos ltimos anos de funcionrios de uma determinada empresa


atestam que sua mdia num teste de QI foi 115 com desvio padro de 20. Para saber se
uma nova equipe de funcionrios tpica desta empresa, retirou-se uma amostra aleatria
de 50 funcionrios desta nova equipe, encontrando mdia de 118. Com uma significncia
de 5%, teste a hiptese de que esta nova equipe apresente a mesma caracterstica dos
funcionrios da empresa, com relao ao QI.

14

2 caso Desvio padro da populao () desconhecido e amostra considerada pequena


( 30).

Distribuio amostral t de Student e a estatstica do teste ser

Exemplo 1: Os registros dos ltimos anos de um colgio atestaram para os calouros


admitidos a nota mdia de 115 (teste vocacional). Para testar a hiptese de que a mdia
da nova turma a mesma, retirou-se ao acaso uma amostra de 20 notas, obtendo-se mdia
118 e desvio padro 20. Admitindo-se um nvel de 5% de significncia, faa o teste de
hipteses.

Exemplo 2: O tempo mdio gasto para profissionais da rea de Cincias Contbeis


realizarem um determinado procedimento tem sido de 50 minutos. Um novo
procedimento est sendo implementado. Neste novo procedimento, retirou-se uma
amostra de 12 pessoas, com um tempo mdio de 42 minutos e um desvio padro de 11,9
15

minutos. Teste a hiptese de que a mdia populacional no novo procedimento menor


que 50 a um nvel de 5% de significncia.

3.2 TESTE DE HIPTESES PARA A PROPORO


Este tipo de teste ser realizado quando temos uma populao e uma hiptese sobre
a proporo de indivduos portadores de certa caracterstica. Esta hiptese afirma que essa
proporo igual a certo nmero p0 .
Procedimento do teste:
a) Enunciar as hipteses H0 e H1 .
b) Fixar .

H0 : p = p0
H1 : p p0
p > p0
p < p0

c) Determinar a regio crtica em funo da varivel tabelada. Escolhe-se a varivel normal


padro z.
d) Calcular o valor da varivel do teste

0
.
0 0

onde

e) Concluso
16

Exemplo 1: O consumidor de certa vacina acusou o laboratrio fabricante, dizendo que


"mais de 3% das suas vacinas esto vencidas". Para confirmar (ou no) sua acusao, ele
usou uma amostra de 80 vacinas, das quais 4 estavam vencidas. Com base nestes
resultados, o que podemos concluir sobre a acusao do consumidor, ao nvel de 6% de
significncia?

Exemplo 2: Para testar a alegao de uma nutricionista de que pelo menos 75% das
crianas com menos de seis anos de idade de certo estado tem dietas deficientes em
protenas, um levantamento amostral revelou que 206 de 300 crianas com menos de seis
anos daquele estado tem dietas deficientes em protenas. Teste a hiptese nula = 0,75
contra a hiptese alternativa < 0,75 ao nvel de 0,01 de significncia.

17

Exerccios propostos
1. Um agente de viagem alega que dentre todas as pessoas que solicitam informaes sobre cruzeiros
transatlnticos, no mximo 5% delas realmente faz um desses cruzeiros dentro de um ano. Se, numa
amostra aleatria de 16 pessoas que solicitaram informaes sobre tais cruzeiros, 3 realmente fizeram
um cruzeiro, isso evidncia suficiente para rejeitar a alegao da agente de viagens = 0,05 contra a
alternativa > 0,05 ao nvel de 0,01 de significncia?
2. Um cientista social alega que, entre pessoas residindo em reas urbanas, 50% so contra a pena de
morte (enquanto que os outros so a favor ou indecisos). Teste a hiptese nula = 0,50 contra a hiptese
alternativa 0,05 ao nvel de 0,10 de significncia se, num amostra aleatria de = 20 pessoas
residindo em reas urbanas, 14 so contra a pena de morte.
3. Um processo deveria produzir bancadas com 0,85 m de altura. O engenheiro desconfia que as bancadas
que esto sendo produzidas so diferentes que o especificado. Uma amostra de 8 valores foi coletada e
indicou = 0,87. Sabendo que o desvio padro 0,010, teste a hiptese do engenheiro usando um nvel
de significncia de 5%

zcal=5,66

rejeita-se H0

4. Um empresrio desconfia que o tempo mdio de espera para atendimento de seus clientes superior
a 20 minutos. Para testar essa hiptese ele entrevistou 20 pessoas e questionou quanto tempo demorou
para ser atendido. O resultado dessa pesquisa aparece a seguir. Teste ao nvel de significncia de 5% se o
tempo de espera para atendimento superior a 20 minutos.

S=1,4

tcal=5,75

rejeita-se H0

5. Uma oceangrafa, com base numa amostra aleatria de tamanho = 35 e ao nvel 0,05 de
significncia, quer testar se a profundidade mdia do oceano numa determinada rea de 72,4 metros,
conforme registrado. O que ela decidir se obtiver = 73,2 metros e se puder supor, usando irformaes
de estudos anteriores anlogos que = 2,1 metros?
6. A safra de alfafa de uma amostra aleatria de seis lotes de teste dada por 1,4; 1,6; 0,9; 1,9; 2,2 1,2
tonelada por acre. Teste ao nvel 0,05 de significncia, se isso corrobora a alegao de que a safra mdia
para esse tipo de alfafa de 1,5 toneladas por acre.

18

4. EXERCCIOS DE FIXAO
1. A Debug Company vende um repelente de insetos que alega ser eficiente pelo prazo de
400 horas no mnimo. Uma anlise de 90 itens aleatoriamente inspecionados acusou uma
mdia de eficincia de 380 horas.
a) Teste a afirmativa da companhia, contra a alternativa que a durao inferior a 400
horas, ao nvel de 1%, seu desvio padro de 60 horas.
b) Repita o teste, considerando um desvio padro populacional de 90 horas.

2. Ao final de 90 dias de uma dieta alimentar envolvendo 32 pessoas, constataram-se os


seguintes ganhos mdio de peso 40 g, e desvio padro de 1,378g.
a) Supondo que o ganho de peso mdio dessas pessoas de 45 g, teste a hiptese para
= 5%, se esse valor o mesmo.
b) Supondo que a varincia dessas pessoas de 1.8 g, teste a hiptese para = 5%, se
esse valor o mesmo.

3. Uma pesquisa feita alega que 15% das pessoas de uma determinada regio sofrem de
cegueira aos 70 anos. Numa amostra aleatria de 60 pessoas acima de 70 anos constatouse que 12 pessoas eram cegas. Teste a alegao para = 5% contra p >15%.

4. Uma experincia tem mostrado que 40% dos estudantes de uma Universidade reprovam
em pelo menos 5 disciplinas cursada na faculdade. Se 40 de 90 estudantes fossem
reprovados em mais de 5 disciplinas, o que poderamos concluir quanto a proporo
populacional, usando = 1%.

19

5. Testar para = 5% se h alguma relao entre as notas escolares e o salrio.

6. Com o objetivo de investigar a relao entre a situao do emprego no momento em


que se aprovou um emprstimo e saber se o emprstimo est, agora, pago ou no, o
gerente de uma financeira selecionou ao acaso 100 clientes obtendo os resultados da
tabela. Teste a hiptese nula de que a situao de emprego e a de emprstimo so
variveis independentes, com = 5%.

20

III - CORRELAO E REGRESSO


1. CORRELAO
Ao se estudar uma varivel o interesse eram as medidas de tendncia central, disperso,
assimetria, etc. Com duas ou mais variveis alm destas medidas individuais tambm de
interesse conhecer se elas tem algum relacionamento entre si, isto , se valores altos
(baixos) de uma das variveis implicam em valores altos (ou baixos) da outra varivel. Por
exemplo, pode-se verificar se existe associao entre a taxa de desemprego e a taxa de
criminalidade em uma grande cidade, entre verba investida em propaganda e retorno nas
vendas, etc.
A associao entre duas variveis poder ser de dois tipos: correlacional e experimental.
Numa relao experimental os valores de uma das variveis so controlados pela
atribuio ao acaso do objeto sendo estudado e observando o que acontece com os valores
da outra varivel. Por exemplo, pode-se atribuir dosagens casuais de uma certa droga e
observar a resposta do organismo; pode-se atribuir nveis de fertilizante ao acaso e
observar as diferenas na produo de uma determinada cultura.
No relacionamento correlacional, por outro lado, no se tem nenhum controle sobre
as variveis sendo estudadas. Elas so observadas como ocorrem no ambiente natural,
sem nenhuma interferncia, isto , as duas variveis so aleatrias. Assim a diferena entre
as duas situaes que na experimental ns atribumos valores ao acaso de uma forma
no tendenciosa e na outra a atribuio feita pela natureza.

21

Frequentemente necessrio estudar o relacionamento entre duas ou mais variveis. Ao


estudo do relacionamento entre duas ou mais variveis denominamos de correlao e
regresso. Se o estudo tratar apenas de duas variveis tem-se a correlao e a regresso
simples, se envolver mais do que duas variveis, tem-se a correlao e a regresso
mltiplas. A regresso e a correlao tratam apenas do relacionamento do tipo linear entre
duas variveis.
A anlise de correlao fornece um nmero que resume o grau de relacionamento linear
entre as duas variveis. J a anlise de regresso fornece uma equao que descreve o
comportamento de uma das variveis em funo do comportamento da outra varivel.

1.1. PADRES DE ASSOCIAO


Independente do tipo (correlacional ou experimental) a relao entre as variveis pode ser
resumida atravs de uma equao indicando o padro de associao entre as duas
variveis. As relaes mais comuns encontradas esto ilustradas na figura acima. Quando
no possvel perceber uma relao sistemtica entre as variveis dito que as variveis
so no correlacionadas, so independentes ou ainda que so ortogonais.

1.2. INDICADORES DE ASSOCIAO


Diagramas de disperso. As tabelas fornecem somente a indicao grosseira da relao
entre duas variveis, a no ser o fato de que os valores esto situados acima e abaixo da
mediana, qualquer outra informao desperdiada. Vamos considerar um exemplo,
envolvendo duas variveis contnuas.
Um comerciante de temperos est curioso sobre a grande variao nas vendas de loja para
loja e acha que as vendas esto associadas com o espao nas prateleiras dedicados a sua
linha de produto em cada ponto de venda. Dez lojas foram selecionadas ao acaso atravs
do pas e as duas seguintes variveis foram mensuradas: (1) total de espao de frente
22

(comprimento x altura em cm2) dedicados sua linha de produtos e (2) total das vendas
dos produtos, em reais, no ltimo ms. Os dados so apresentados na tabela abaixo.
Tabela Vendas x espao dedicado aos produtos (em cm2).
Local

Espao

Vendas

340

71

230

65

405

83

325

74

280

67

195

56

265

57

300

78

350

84

10

310

65

Pela observao da tabela no fcil perceber o tipo de relacionamento que possa existir
entre as duas variveis. Para ter uma ideia melhor, as variveis so colocadas no que
denominado de diagrama de disperso. Uma das variveis (X) representada no eixo
horizontal e a outra varivel (Y) no eixo vertical.
Uma olhada rpida no diagrama de disperso mostra a existncia de um relacionamento
entre as variveis, com altos valores de uma das variveis associados a altos valores da
outra varivel. Se no houvesse relacionamento entre elas, os pontos estariam distribudos
ao acaso no grfico sem mostrarem alguma tendncia.

23

1.3. O COEFICIENTE DE CORRELAO


Apesar do diagrama de disperso nos fornecer uma ideia do tipo e extenso do
relacionamento entre duas variveis X e Y, seria altamente desejvel ter um nmero que
medisse esta relao. Esta medida existe e denominada de coeficiente de correlao.
Quando se est trabalhando com amostras o coeficiente de correlao indicado pela letra
r que , por sua vez, uma estimativa do coeficiente de correlao populacional: (rho).
O coeficiente de correlao pode variar de 1,00 a + 1,00, com um coeficiente de +1,
indicando uma correlao linear positiva perfeita. Neste caso, as duas variveis sero
exatamente iguais em termos de escores padronizados z, isto , um elemento
apresentando um escore padronizado de 1,5 em uma das variveis vai apresentar o mesmo
escore padronizado na outra varivel. Um coeficiente de correlao de 1, indica
correlao linear perfeita negativa, com os escores padronizados exatamente iguais em
valores absolutos, diferindo apenas no sinal.
Uma correlao de +1 ou 1 raramente observado. O mais comum que o coeficiente
fique situado no intervalo entre estes dois valores. Um coeficiente de correlao 0,
significa que no existe um relacionamento linear entre as duas variveis.

1.4. HIPTESES BSICAS


A suposio bsica sobre o coeficiente de correlao que o relacionamento entre as duas
variveis seja linear. Isto , o coeficiente de correlao adequado para avaliar somente o
relacionamento linear. As duas variveis podem estar perfeitamente relacionadas, mas se
no for de forma linear o valor do coeficiente pode ser zero ou prximo de zero.
Uma segunda hiptese que as variveis envolvidas sejam aleatrias e que sejam medidas
no mnimo em escala de intervalo. Ele no se aplica a variveis em escala nominal ou

24

ordinal ou quando uma das variveis manipulada experimentalmente, pois neste caso, a
escolha dos valores experimentais vai influenciar o valor de r obtido.
Uma terceira hiptese que as duas variveis tenham uma distribuio conjunta normal
bivariada. Isto equivalente a dizer que para cada x dado a varivel y normalmente
distribuda. Suponha-se que existam apenas duas variveis X e Y. Uma amostra da varivel
X, assumindo os valores particulares X1 , X2, ..., Xn e uma amostra da varivel Y
assumindo os valores particulares Y1, Y2, ..., Yn so obtidas e suponha-se ainda que o objetivo
saber se existe algum tipo de relacionamento linear entre estas duas variveis. Isto
poder ser medido pelo coeficiente de correlao linear de Pearson que fornece o grau de
relacionamento linear entre duas variveis.

1.5. DEFINIO
Na populao o coeficiente de correlao representado por e na amostra por r.
Assim dadas duas amostras, uma da varivel X e outra da varivel Y, o coeficiente de
correlao amostral poder ser calculado atravs da seguinte expresso:
=

Onde =

; = 2

( )2

e = 2

( )2

1.6. PROPRIEDADES DE r
As propriedades mais importantes do coeficiente de correlao so:
Intervalo de variao vai de -1 a +1.
Coeficiente de correlao uma medida adimensional, isto , ele independente das
unidades de medida das variveis X e Y.
25

Quanto mais prximo de +1 for r, maior o grau de relacionamento linear positivo entre
X e Y, ou seja, se X varia em uma direo Y variar na mesma direo.
Quanto mais prximo de -1 for r, maior o grau de relacionamento linear negativo entre
X e Y, isto , se X varia em um sentido Y variar no sentido inverso.
Quanto mais prximo de zero estiver r menor ser o relacionamento linear entre X e
Y. Um valor igual a zero, indicar ausncia apenas de relacionamento linear.

1.7. COEFICIENTE DE DETERMINAO


Indica a proporo de variao da varivel independente que explicada pela varivel
dependente, ou seja, uma ferramenta que avalia a qualidade do ajuste.
2

2 = ( ) , 0 2 1
Quanto mais prximo da unidade o R estiver, melhor a qualidade do ajuste. O seu valor
fornece a proporo da varivel Y explicada pela varivel X atravs da funo ajustada.

EXEMPLO: Dez alunos foram submetidos a um teste de estatstica e um de matemtica


obtendo as seguintes notas.
Aluno

Matemtica 6

10

Estatstica

10

a) Construa o diagrama de disperso.


b) Calcule o coeficiente de correlao linear de Pearson.
c) Determine a proporo que Y explicada por X.
26

EXERCCIOS
1. Vamos supor que 5 pessoas tenham sido questionadas a respeito das seguintes
perguntas:
a) Durante quantos anos voc frequentou a escolar regularmente?
b) Quantos livros voc tem em sua biblioteca particular?
As respostas foram apresentadas na tabela abaixo. Com base nestes dados verifique se
existe correlao entre os anos que estas pessoas frequentaram a escolar e o nmero de
livros que possuem em sua biblioteca.
Sujeito

Frequncia a escola 5

10

12

15

Nmero de livros

30

45

50

75

10

2. Uma empresa de propaganda testou o grau de memorizao proporcionado por 10


anncios de televiso atravs de 2 grupos: um de homens e outro de mulheres. Ambos os
grupos possuiam idnticas caractersticas scio-econmicas. Os resultados em termos do
grau de memorizao relative encontram-se na tabela abaixo. Qual o coeficiente de
correlao para os efeitos de memorizao entre os sexos?
Anncio

Homens

10

Mulheres

10

27

2 REGRESSO
2.1 INTRODUO
Um dos problemas frequentemente encontrados na prtica descrever e predizer
fenmenos observados. Isso pode ser resolvido atravs da construo de um modelo
matemtico que relacione as variveis envolvidas no fenmeno podendo este modelo ser
utilizado para fins de predio.
Suponha que Y (dependente) seja uma varivel que nos interessa estudar e prever seu
comportamento. esperado que os valores da varivel X (independente) sofram influncia
dos valores de um nmero finito de variveis 1 , 2 , 3 , , (independentes) e que exita
uma funo f que expresse tal dependncia.
fcil perceber que se torna impraticvel a utilizao de todas as n variveis, ou por
desconhecimento de algumas, ou pela dificuldade de mensurao e tratamento de outras.

2.2 ESPECIFICAO DO MODELO


Sabe-se que muitas variveis independentes influenciam a varivel dependente. O
problema encontrar o tipo de funo: linear, polinomial, exponencial, etc., que relacione
as variveis.
Pode-se identificar a relao funcional quando considerada apenas uma varivel
independente, atravs do diagrama de disperso. Basta representar os pares ( , ).
Observando este grfico tem-se uma ideia da relao functional entre as variveis.
Considerando-se o modelo linear: = + + onde so os parmetros da reta
e representa a influncia de outros fatores, ou seja, a componente aleatria (erro ou
resduo) do modelo.
28

2.3 ESTIMAO DOS PARMETROS


Estimaremos os parmetros da reta atravs dos valores estimados a e b
fornecidos pela amostra, logo: = + + ser a formula geral da equao de
regresso, onde:
a o coeficiente linear, ponto onde a reta corta o eixo da varivel y;
b o coeficiente angular, tangente do ngulo que a reta forma com o eixo da varivel
x;
o erro aleatrio.

2.4 PRESSUPOSIES BSICAS PARA REALIZAR A REGRESSO


a) a relao entre X e Y linear (os acrscimos em X produzem acrscimos proporcionais
em Y e a razo de crescimento constante);
b) os valores de X so fixados arbitrariamente, ou seja, X no uma varivel aleatria;
c) Y uma varivel aleatria que depende entre outras coisas dos valores de X;
d) o erro aleatrio, ou seja, a variao de Y que no explicada pela varivel
independente X;
e) os erros so considerados independentes.
Com isto temos o objetivo de:
a) Estimar valores de uma varivel, com base em valores conhecidos da amostra;
b) Explicar valores de uma varivel em termos da amostra.
Para estimarmos Y a partir de X expressamos Y como uma funo linear de X,
interpolando a nuvem de pontos em uma reta, sendo que a reta que forneceu melhor
ajustamento deve ser escolhida.
29

A escolha dessa reta obedece ao critrio do Mnimos Quadrados. A reta de regresso


tem a propriedade de sempre passar pelo ponto (, ).

2.5 MTODO DOS MNIMOS QUADRADOS


O MMQ aquele que torna mnima a soma dos quadrados das distncias da reta aos
pontos experimentais, medidas no sentido da variao aleatria, ou seja, devemos
procurar uma reta que minimiza ( ), que so os erros.
O MMQ consiste em adotar como estimativa dos parmetros os valores que minimizem a
soma dos quadrados dos desvios.
Como a reta a ser determinada ser utilizada para fins de previso necessrio
determinar a equao que fornea os menores erros de previso. Erro de previso a
diferena entre o valor real e o previsto, isto , .
Assim, obtemos a equao = + onde = e =

Interpretao do coeficiente angular b


a) Se b for positivo significa que acrscimos da varivel independente correspondero
a acrscimos da varivel dependente, assim a regresso direta;
b) Se b for negativo significa que acrscimos da varivel independente correspondero
a decrscimos da varivel dependente, assim a regresso inversa;
c) Se b for nulo no h relao entre x e y e a reta ser paralela ao eixo x.

30

EXEMPLO: A velocidade mxima de automveis de Frmula I com motores de mesma


potncia funo, entre outras variveis, do peso do veculo, no intervalo entre 700 e 800
kg. Assim, verificou-se qual a velocidade mxima atingida em uma reta de 1200 m. Os
resultados foram:
Peso (kg)

790

780

770

760

750

Velocidade (km/h)

280

284

291

295

301

a) Faa o diagrama de disperso.


b) Determine o coeficiente de correlao de Pearson e o coeficiente de determinao
e interprete-os.
c) Determine a equao de mnimos quadrados para os dados.
d) Qual a velocidade esperada para um carro que pesa 730 kg?

31

2.7 EXERCCIOS
1. Uma empresa, estudando como varia a procura de certo produto em funo de preo
de venda, obteve as informaes contidas a tabela. Com esses dados:
Preo de venda (x)

250

275

300

325

350

Procura (y)

275

213

152

85

25

a) fazer o diagrama de disperso


b) encontrar o coeficiente de correlao
c) encontrar a equao de regresso
d) qual a procura do produto se o preo for R$ 260,00

32

You might also like