You are on page 1of 127

Mtodos Quantitativos para Cincia da Computao Experimental Regresso Linear

Jussara Almeida DCC-UFMG 2013


Apresentacao derivada dos slides originais de Virgilio Almeida

Modelos de Regresso Linear


! ! ! ! ! O que um bom modelo? Como estimar os parmetros do modelo? Como alocar variaes? Intervalos de Confiana para Regresses Inspeao Visual

Apresentacao derivada dos slides originais de Virgilio Almeida

O que um bom modelo?


! Para dados correlacionados, um modelo deve prever uma resposta dado uma entrada. ! Modelo deve ser a equao que se adequa (fit) aos dados. ! Uma definio padro de fits est diretamente relacionada aos mnimos quadrados (least-squares) ! Minimizar o erro ao quadrado ! Enquanto mantm o erro mdio em zero ! Equivalente a minimizar a varincia dos erros

Apresentacao derivada dos slides originais de Virgilio Almeida

Erro do Mnimo Quadrado


! Se ento o erro na estimativa para xi

ei = yi - ! y !i
i

! Minimizar a Soma dos Erros ao Quadrado (SSE)

! Sujeita as restries

Apresentacao derivada dos slides originais de Virgilio Almeida

Estimando os Parmetros do Modelo


! Os melhores parmetros da regresso (levam ao menor erro) so:

onde

Apresentacao derivada dos slides originais de Virgilio Almeida

Estimativa dos parmetros exemplo


! Tempo de execuo de um query para vrias palavras:

= 6.8,

= 2.32,

!xy = 88.54, !x2 = 264

! b0 = 2.32 - (0.29)(6.8) = 0.35


Apresentacao derivada dos slides originais de Virgilio Almeida

Grfico dos Parmetros de Estimativa exemplo

Apresentacao derivada dos slides originais de Virgilio Almeida

Variantes da Regresso Linear


! Algumas relaes no lineares podem ser tratadas por transformaes:
! Para y = aebx pegue o logaritmo de y, faa a regresso sobre log(y) = b0+b1x, sendo b = b1,

! Para y = a+b log(x), tome o log de x antes dos parmetros de fitting, seja b = b1, a = b0

! Para y = axb, tire o log de ambos x e y, e faa b = b 1,


Apresentacao derivada dos slides originais de Virgilio Almeida

Alocando a Variao
! Sem regresso, a melhor estimativa de y ! Valores observados de y diferem de aumentando os erros (variao) ! Regresso prov uma melhor estimativa, mas ainda existem erros ! Ns podemos avaliar a qualidade da regresso pela alocao das fontes de erros.

Apresentacao derivada dos slides originais de Virgilio Almeida

Grfico dos Parametros de Estimativa exemplo: regresso e a mdia

Apresentacao derivada dos slides originais de Virgilio Almeida

Notao
! SSE Sum of Squared Errors ! SST Total Sum of Squares

! SSY Sum of Squares of ! SS0 Sum of Squares of ! SSR Sum of Squares explained by Regression

Apresentacao derivada dos slides originais de Virgilio Almeida

A Soma Total dos Quadrados


! Sem regresso, o erro ao quadrado

Apresentacao derivada dos slides originais de Virgilio Almeida

A Soma dos Quadrados da Regresso


! A soma dos erros quadrados sem regresso (=SST):

! SSE (com regressao):

! Assim a regresso explica SSR = SST - SSE ! Qualidade da regresso medida pelo coeficiente de determinao:

! Quanto maior o valor de R2, melhor a regresso.


Apresentacao derivada dos slides originais de Virgilio Almeida

Avaliao do Coeficiente de Determinao


! Calcule ! Calcule ! Calcule

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo de Coeficiente de Determinao


! Para o exemplo anterior de regresso

!y = 11.60, !y2 = 29.79, !xy = 88.54, ! SSE = 29.79-(0.35)(11.60)-(0.29)(88.54) = 0.05 ! SST = 29.79-26.9 = 2.89 ! SSR = 2.89-.05 = 2.84 ! R2 = (2.89-0.05)/2.89 = 0.98
Apresentacao derivada dos slides originais de Virgilio Almeida

Desvio Padro de Erros


! Variancia de erros SSE dividido pelos graus de liberdade (DOF): ! DOF: n-2 porque calculamos 2 parametros de regresso dos dados. ! Assim a varincia (mean squared error, MSE):

! Desvio padro dos erros a raiz quadrada:

Apresentacao derivada dos slides originais de Virgilio Almeida

Coeficiente de Determinao X Correlao da Amostra


! Coeficiente de determinao

! Correlao da Amostra (premissa: linearidade)

Apresentacao derivada dos slides originais de Virgilio Almeida

Calculando os graus de liberdade de vrias soma de quadrados


SST SSY SS0 SSE SSR n-1 n 1 n-2 1 Precisa computar No depende de nenhum outro parmetro Precisa computar Precisa computar dois parmetros da regresso =SST-SSE

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo de Desvio Padro de Erros


! Para o exemplo de regresso, SSE era 0.05, ento MSE = 0.05/(5-2) = 0.05/3 = 0.017 se = = 0.13 ! Observe a alta qualidade da regresso do exemplo: ! R2 = 0.98 ! se = 0.13

Apresentacao derivada dos slides originais de Virgilio Almeida

Intervalos de Confiana para Regresses


! Regresso calculada de uma nica amostra da populao (tamanho n) ! Diferentes amostras devem dar resultados diferentes. ! Modelo verdadeiro y = !0 + !1x ! Parmetros b0 e b1 so na verdade mdias (estimativas para parametros reais) retiradas das amostras da populao.

Apresentacao derivada dos slides originais de Virgilio Almeida

Clculo de Intervalos para Parmetros da Regresso


! Desvio Padro dos Parmetros:

! Intervalos de confiana so bi

sbi

! Onde t tem n - 2 graus de liberdade ! o desvio padro dos erros


Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo do Intervalo de Confiana da Regresso


! Lembre que se = 0.13, n = 5, !x2 = 264, ! Assim = 6.8

! Usando um intervalo de confiana de 90%: t0.95;3 = 2.353

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo do Intervalo de Confiana da Regresso


! Assim, o intervalo b0 0.35 2.353(0.16) = (-0.03,0.73)

! b 1
0.29 2.353(0.004) = (0.28,0.30)

Apresentacao derivada dos slides originais de Virgilio Almeida

Intervalos de Confiana para Predies


! Intervalos de confiana vistos so para os parmetros ! Quo certo podemos estar que os parmetros esto corretos? ! Finalidade da regresso a predio ! Quo precisas so as predies? ! Regresso oferece APENAS uma mdia das respostas previstas, baseadas nas amostras usadas.

Apresentacao derivada dos slides originais de Virgilio Almeida

Predies baseadas em m amostras


! Desvio padro para a mdia de futuras amostras de m observaes em xp S

ymp

! Note que o desvio diminui qdo ! Varincia mnima em x =

m"#

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo de Confiana das Predies


! Usando modelo desenvolvido, qual o tempo previsto para uma execuo com 8 palavras? ! Tempo = 0.35 + 0.29(8) = 2.67 ! Desvio padro de erros se = 0.13 S
yp

! 90% do intervalo ento

Apresentacao derivada dos slides originais de Virgilio Almeida

Verificando as hipteses (assumptions) visualmente


! Regresses so baseadas em hipteses: ! Relao linear entre a resposta y e previsor x ! Previsor x livre de erro ! Erros do modelo so estatisticamente independentes ! Com distribuio normal N(0,c) para desvio padro constante c ! Se as hipteses so violadas, o modelo pode ser inadequado ou invlido.

Apresentacao derivada dos slides originais de Virgilio Almeida

Testando a Linearidade
! Grficos de pontos x vs. y para ver o tipo bsico da curva

Linear

Linear por partes

Outlier/Exceco

No linear (Funo de Potncia)


Apresentacao derivada dos slides originais de Virgilio Almeida

Testando a Independncia dos Erros


! Grfico de pontos "i versus yi ! No deve haver tendncia visvel ! Exemplo do ajuste de curva feito:
$

"i

yi
Apresentacao derivada dos slides originais de Virgilio Almeida

Testando a Independncia

Apresentacao derivada dos slides originais de Virgilio Almeida

Testando a Independncia
! Pode ser til plotar os resduos de erro versus o nmero do experimento ! No exemplo anterior d o mesmo grfico, exceto para a escala de x

Apresentacao derivada dos slides originais de Virgilio Almeida

Testando a Independncia

Apresentacao derivada dos slides originais de Virgilio Almeida

Testando Erros Normais


! Preparar um grfico quantil-quantil ! Exemplo da regresso anterior:

Apresentacao derivada dos slides originais de Virgilio Almeida

Testando Erros Normais

Apresentacao derivada dos slides originais de Virgilio Almeida

Testando para Desvio-Padro Constante


! Homoscedasticity (esta hiptese assume que a varincia ao longo da linha de regresso a mesma para todos previsores x) ! Retorno ao grfico de independncia ! Verificar tendncia no espalhamento ! Exemplo:

Apresentacao derivada dos slides originais de Virgilio Almeida

Testando para Desvio-Padro Constante

Apresentacao derivada dos slides originais de Virgilio Almeida

Regresso linear pode ser enganadora (misleading)


! Regresso despreza alguma informao sobre os dados ! Para permitir uma sumarizao compacta ! Algumas vezes caractersticas vitais so perdidas ! No geral, examinando os grficos de dados pode-se determinar se ha um problema ou no

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo de Regresses Inadequadas


x 10 8 13 9 11 14 6 4 12 7 5 I y 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 x 10 8 13 9 11 14 6 4 12 7 5 II y 9.14 8.14 8.74 8.77 9.26 8.10 6.13 3.10 9.13 7.26 4.74 III x 10 8 13 9 11 14 6 4 12 7 5 y 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73 IV x y 8 6.58 8 5.76 8 7.71 8 8.84 8 8.47 8 7.04 8 5.25 19 12.50 8 5.56 8 7.91 8 6.89

Apresentacao derivada dos slides originais de Virgilio Almeida

O que a regresso nos diz sobre esses conjuntos de dados?


! ! ! ! ! ! ! ! Exatamente a mesma coisa para cada um deles! N = 11 Mdia de y = 7.5 Y = 3 + .5 X Erro padro da regresso 0.118 Todas as somas de quadrados so as mesmas Coeficiente de correlao = .82 R2 = .67

Apresentacao derivada dos slides originais de Virgilio Almeida

Agora, observe estes grficos ...


I II

III

IV

Apresentacao derivada dos slides originais de Virgilio Almeida

Sobre os grficos anteriores

! Importncia da inspeo visual dos dados experimentais...

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
! The number of disk I/O's and processor times of seven programs were measured as: (14, 2), (16, 5), (27, 7), (42, 9), (39, 10), (50, 13), (83, 20) ! For this data: n=7, ! xy=3375, ! x=271, ! x2=13,855, ! ! y=66, ! y2=828, = 38.71, = 9.43. Therefore,

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo Computacao do Erro

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo Alocacao da Variacao

Modelo explica 97% da variacao: MUITO BOM!!!


Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo Desvio Padrao dos Erros

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo Desvio Padrao dos Parametros

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo IC de 90% dos Parametros


0.95 quantil of t variate with 5 degrees of freedom = 2.015

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo Testes Visuais


Linearity? Independence? Homoscedasticity? Normality of errors?

Apresentacao derivada dos slides originais de Virgilio Almeida

Outros Mtodos de Regresso


! Regresso Linear Mltipla ! mais de uma varivel previsora ! Previsores Categricos ! alguns dos previsores no so quantitativos, mas representam categorias ! Regresso Curvilinear ! relaes no lineares ! Transformaes ! quando erros no so normalmente distribudos ou varincia no constante ! Tratamento de outliers ! pontos fora do corpo principal ! Erros mais comuns na anlise de regresso
Apresentacao derivada dos slides originais de Virgilio Almeida

Regresso Linear Mltipla


! Modelos com mais de uma varivel previsora ! Mas cada varivel previsora tem uma relao linear com a varivel de resposta ! Conceitualmente, seria equivalente a fazer um grfico de uma linha de regresso num espao n-dimensional, ao invs de 2-dimenses

Apresentacao derivada dos slides originais de Virgilio Almeida

Frmula Bsica de Regresso Linear Mltipla


! A resposta y uma funo de k variveis previsoras x1,x2, . . . , xk

y = b0 + b1x1 + b2x2 + . . . + bkxk + e

Apresentacao derivada dos slides originais de Virgilio Almeida

Um Modelo de uma Regresso Linear Mltipla


Dada uma amostra de n observaes
...

o modelo consiste de n equaes:


... ...
. . .

...
Apresentacao derivada dos slides originais de Virgilio Almeida

Sob a forma de aritmtica matricial


y = Xb +e
... ...

...

Apresentacao derivada dos slides originais de Virgilio Almeida

Anlise de Regresso Linear Mltipla


! Est descrita no box 15.1 do Jain. ! No essencialmente importante saber como foi derivada, pois nosso curso no de estatstica e nem essa a finalidade de um curso de mtodos quantitativos. ! importante no entanto saber que existe e como us-la. ! A maior parte do material similar a regresso linear simples. ! Um exemplo de duas variveis.
Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo de uma Regresso Linear Mltipla


! Considere uma equipe de segurana de redes desenvolveu vrios esquemas alternativos para conter ataques aos servidores e rede. O grupo quer avaliar os mecanismos e definiu um ndice de sucesso dos esquemas. O ndice foi atribudo pela equipe. ! O ndice de sucesso baseado em dois fatores ! Tempo do experimento (durao) ! Nmero de ataques no perodo ! Produz uma regresso ndice = b0 + b1(#ataques) +b2(durao)
Apresentacao derivada dos slides originais de Virgilio Almeida

Dados amostrais
Esquema
A B C D E F G H

#Ataques Durao
5 13 20 28 41 49 61 62 118 132 119 153 91 118 132 105

ndice
8.1 6.8 7.0 7.4 7.7 7.5 7.6 8.0

Apresentacao derivada dos slides originais de Virgilio Almeida

Aritmtica Matricial
! Precisa-se calcular X, XT, XTX, (XTX)-1 e Xty ! Por qu? ! Para obter b = (8.373, .005, -.009 ) ! Indicando que a regresso prediz: indice = 8.373 + 0.005*#ataques 0.009*durao
Apresentacao derivada dos slides originais de Virgilio Almeida

Matriz X do Exemplo

Apresentacao derivada dos slides originais de Virgilio Almeida

Matriz Transposta XT

Apresentacao derivada dos slides originais de Virgilio Almeida

Multiplicao Matricial XTX

Apresentacao derivada dos slides originais de Virgilio Almeida

Inverso Matricial (XTX)-1

Apresentacao derivada dos slides originais de Virgilio Almeida

Multiplicao para obter XTy

Apresentacao derivada dos slides originais de Virgilio Almeida

Multiplicao de (XTX)-1(XTy) para obter b

Apresentacao derivada dos slides originais de Virgilio Almeida

Quo bom este modelo de regresso?


! Qual a preciso do modelo na previso do ndice de um esquema baseado no #ataques e tempo de durao? ! A melhor forma para determinar isto analiticamente calcular

ou

Apresentacao derivada dos slides originais de Virgilio Almeida

Clculo dos Erros


Indice ndice 8.1 6.8 7.0 7.4 7.7 7.5 7.6 8.0 #At. 5 13 20 28 41 49 61 62 Dur. 118 132 119 153 91 118 132 105 estimado 7.4 7.3 7.4 7.2 7.8 7.6 7.5 7.8 ei -0.71 0.51 0.45 -0.20 0.10 0.11 -0.05 -0.21 ei
2

0.51 0.26 0.21 0.04 0.01 0.01 0.00 0.04

Apresentacao derivada dos slides originais de Virgilio Almeida

Clculo dos Erros


! Assim SSE = 1.08 ! SSY = ! SS0 = ! SST = SSY - SS0 = 452.91- 451.5 = 1.4 ! SSR = SST - SSE = .33 !

! Isto , esta regresso est RUIM!

Apresentacao derivada dos slides originais de Virgilio Almeida

Por que ruim?


! Vamos examinar as propriedades dos parmetros da regreso

Graus de liberdade: n -3 (3 parametros) ! Vamos calcular o desvio padro dos parmetros da regresso
Apresentacao derivada dos slides originais de Virgilio Almeida

Clculo do Desvio Padro


! So estimativas, pois estamos trabalhando com uma amostra ! Desvio padro estimado de:

Apresentacao derivada dos slides originais de Virgilio Almeida

Clculo de Intervalos de Confiana


! Em um nvel de 90%, por exemplo ! Intervalos de confiana so:

b0 = 8.37 (2.015)(1.29) = (5.77, 10.97) b1 = .005 (2.015)(.01) = (-.02, .02) b2 = -.009 (2.015)(.008) = (-.03, .01)
! Somente b0 significativo, neste nvel

Apresentacao derivada dos slides originais de Virgilio Almeida

Anlise da Varincia
! Podemos ento dizer que realmente nenhuma das variveis previsoras significativa? ! O teste F pode ser usado para essa finalidade ! Por exemplo, para determinar se o SSR significativamente maior que o SSE ! Equivalente a testar se y no depende de qualquer das variveis previsoras

Apresentacao derivada dos slides originais de Virgilio Almeida

Executando o F-Teste
! Calcule SSR e SSE e seus graus de liberdade: ! SSR tem k graus de liberdade ! SST tem n-1 graus de liberdade ! Logo: SSE tem n-(k+1) graus de liberdade (k+1 parametros) ! Calcule o quadrado das mdias da regresso (MSR) e dos erros (MSE) ! MSR = SSR/DOF(SSR) ! MSE = SSE/DOF(SSE) ! MSR/MSE tem uma distribuio F ! Se MSR/MSE > F-tabela, os previsores explicam uma frao significativa da variao da resposta ! Em outras palavras: SSR e significativamente maior que SSE ! OU: y depende de pelo menos uma variavel previsora ! Vide Tabela 15.3 do Jain: Tabela ANOVA
Apresentacao derivada dos slides originais de Virgilio Almeida

O F-Teste do Exemplo
! ! ! ! ! ! ! SSR = .33 SSE = 1.08 MSR = SSR/k = .33/2 = .16 MSE = SSE/(n-k-1) = 1.08/(8 - 2 - 1) = .22 F-calculado = MSR/MSE = .76 F[90; 2,5] = 3.78 (em 90%) Assim o teste F falha em 90%

Apresentacao derivada dos slides originais de Virgilio Almeida

Multipla colinearidade
! Se dois previsores so linearmente dependentes, eles so co-lineares ! Significa que so relacionados ! E assim uma segunda varivel no melhora a regresso ! Pode inclusive piorar a regresso. ! Sintoma tpico so resultados inconsistentes em vrios testes de significncia. ! F-teste da que SSR e significativamente maior que SSE ! Mas ICs para coeficientes incluem 0
Apresentacao derivada dos slides originais de Virgilio Almeida

Determinao de Multipla colinearidade


! Deve uma haver uma correlao entre as variveis previsoras. ! Se a correlao for alta, elimine uma e repita a regresso sem ela. ! Se a significncia da regresso melhorar, devese provavelmente a co-linearidade entre as duas variveis.

Apresentacao derivada dos slides originais de Virgilio Almeida

A mltipla co-linearidade um problema no nosso exemplo?


! Provavelmente no, pois no h testes inconsistentes. ! Como verificar? ! Calcular a correlao de #ataques e durao ! O clculo indica: -.25 ! No so correlacionados ! Ponto importante: adicionar uma varivel previsora nem sempre aumenta a preciso da regresso.
Apresentacao derivada dos slides originais de Virgilio Almeida

Calculo da Correlacao

Apresentacao derivada dos slides originais de Virgilio Almeida

Por que a regresso no funcionou bem neste exemplo?


! Verifique os grficos de pontos ! ndice vs. #ataques ! ndice vs. durao ! Independente de quo boa ou ruim a regresso (coeficiente de determinao), sempre verifique os grficos de pontos.

Apresentacao derivada dos slides originais de Virgilio Almeida

Olhe os grficos!

8.5

Indice

7.5

6.5

6 80 100 120 Durao


Apresentacao derivada dos slides originais de Virgilio Almeida

140

160

Olhe os grficos!
9 8.5 8

ndice

7.5 7 6.5 6

20

40

60

80

#Ataques
Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
Sete programas foram monitorados quanto as suas demandas por recursos, particularmente, o numero de operacoes de I/Os (disco), o consumo de memoria (em KB) e o tempo de CPU (em ms). Os dados sao mostrados a seguir
Tempo de CPU yi 2 Disk I/Os x1i 14 Tamanho da Memoria x2i 70 5 16 75 7 9 27 42 144 190 10 13 39 50 210 235 20 83 400

Encontre um modelo linear para estimar o tempo de CPU em funcao dos outros dois recursos
Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
CPU time = b0 + b1 (# disk I/Os) + b2 (tamanho da mem)

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
CPU time = b0 + b1 (# disk I/Os) + b2 (tamanho da mem)

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
CPU time = b0 + b1 (# disk I/Os) + b2 (tamanho da mem)

A equacao de regressao: Cpu time = -0.1614 + 0.1182(# disk I/Os) + 0.0276(tam. Mem)
Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
Vamos fazer a analise de variancia (ANOVA) da regressao: Calculo das previsoes, erros e erros quadrados
yi x1i x2i 2 14 70 3.3490 ei 5 16 75 3.7180 7 27 144 9 42 190 10 39 210 13 50 235 20 83 400 20.2529 -0.2529 0.0639

6.8472 9.8400 10.0151 11.9783 0.1528 -0.8400 -0.0151 0.0233 0.7053 0.0002 1.0217 1.0439

-1.3490 1.2820 1.6436

(ei)2 1.8198

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
Calculo dos SS*

A regressao explica 97% da variabilidade dos dados: BOM!


Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
Calculo do desvio padrao dos erros e dos coeficientes

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
Calculo dos CI de 90%: 95% da variavel t com 4 graus de liberdade t0.95,4 = 2.132

Nenhum parametro e significativo

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
Realizando o teste F: SSE = 5.3 Graus de liberdade do SSE = n-(k+1) = n-3 = 4 MSE = SSE/n-(k+1) = 5.3/4 = 1.33 SSR = 200.41 Graus de liberdade do SSR = k = 2 MSR = 200.41/2 = 100.205 MSR / MSE = 75.40 Tabela F: 4.32 Ja que MSR/MSE > F -> regressao passou o teste F Isto significa que a hipotese de que todos parametros sao 0 nao pode ser aceita. Inconsistencia???
Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
Vamos calcular a correlacao entre as variaveis previsoras (numeros de I/Os e tamanho de memoria)

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
! Alta correlacao: multicolineariedade prejudica a regressao. ! Precisa refazer regressao somente com # de I/Os e, separadamente, com tamanho de memoria, e escolher melhor previsor (isto e, aquele que resulta no maior R2) ! Neste caso e regressao linear simples

Apresentacao derivada dos slides originais de Virgilio Almeida

Regresso com Previsores Categricos


! Os mtodos de regresso vistos ate aqui assumiram valores numricos! ! O que acontece se algumas variaveis so por natureza categricas, no numricas? Por exemplo, o tipo de processador pode ser uma varivel categrica. ! Existem tcnicas se todas variveis so categricas. ! Projetos fatoriais: estatisticamente mais precisos ! As tecnicas apresentadas a seguir sao para regressoes com previsores mistos (alguns categoricos e outros numericos) ! Nveis nmero de valores que uma categoria pode assumir.
Apresentacao derivada dos slides originais de Virgilio Almeida

Trabalhando com Previsores Categricos


! Se somente dois nveis so usados, defina xi assim: ! xi = 0 para primeiro valor, xi = 1 para segundo valor bi representa a diferenca no efeito das duas alternativas ! Pode-se usar +1 and -1 como valores, tambm. 2bi representa a diferenca entre duas alternativas

Apresentacao derivada dos slides originais de Virgilio Almeida

Trabalhando com Previsores Categricos


! Precisa-se de k-1 variveis previsoras para k nveis ! Para evitar implicaes de ordem nas categorias

Reflete B no meio entre A e C Parametros sem significado

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo de Variveis Categricas


! O desempenho de uma chamada de procedimento remota (RPC) foi comparada em dois sistemas operacionais UNIX e ARGUS. A metrica avaliada foi o tempo total para diferentes tamanhos de dados. A Tabela abaixo mostra os resultados das medicoes. Unix:
Data bytes 64 64 64 64 234 590 846 1060 1082 1088 1088 1088 1088 Tempo 26.4 26.4 26.4 26.2 33.8 41.6 50.0 48.4 49.0 42.0 41.8 41.8 42.0

Argus:
Data bytes 92 92 92 92 348 604 860 1074 1074 1088 1088 1088 1088 Tempo 32.8 34.2 32.4 34.4 41.4 51.2 76.0 80.8 79.8 58.6 57.6 59.8 57.4

Qual o custo de processamento por byte para os dois sistemas? E o custo de setup?
Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo de Variveis Categricas


!

y = b0 + b1x1 + b2x2 ! y = tempo de processamento da RPC ! x1= numero de bytes ! x2= 1 se sistema e Unix, e 0 se sistema e Argus

! Resultado da Regressao: Parametro Media Desvio Padrao b0 36.739 3.251 b1 0.025 0.004 b2 -14.927 3.165 R2 = 0.765 IC (31.1676,42.3104) (0.0192, 0.0313) (-20.3509,-9.5024)

Custo por byte em ambos sistemas e 0.025 milisegundos Custo de setup e 36.73 ms no ARGUS e (36.739 14.927) no UNIX Premissa da solucao: custo per byte independe do sistema operacional. E se isto nao for verdade? Apresentacao derivada dos slides originais de Virgilio Almeida

Regresso Curvilinear
! Regresso linear assume relaes lineares entre variveis previsoras e a resposta. ! O que acontece quando essas relaes no so lineares? ! Coeficientes de determinao R2 pobres ! necessrio encontrar outro tipo de funo para a relao entre previsores e resposta.

Apresentacao derivada dos slides originais de Virgilio Almeida

Quando devemos usar uma regresso curvilinear?


! A forma mais direta fazer uma inspeo visual nos dados. ! Faa um grfico de pontos ! Se o grfico no se apresenta como linear (alguma indicao de linearidade), use ento uma regresso curvilinear. ! Ou ento quando h outras razes para suspeitar que as relaes no so lineares (ex., fenmenos claramente modelados por power laws, Zipfs Law, etc). ! Relaes devem ser convertidas para formas lineares.
Apresentacao derivada dos slides originais de Virgilio Almeida

Tipos de Regresso Curvilinear


! Existem muitos tipos possveis, baseados numa variedade de relaes entre as variveis:

! Existem vrias outras possibilidades


Apresentacao derivada dos slides originais de Virgilio Almeida

Transformao para Relaes Lineares


! Use qualquer transformao que leve a representar a relao atravs de funes de forma linear, como : logaritmos, multiplicao, diviso, etc. ! Quer se obter algo como: y = a + bx ! y e x obtidos com a transformacao
Apresentacao derivada dos slides originais de Virgilio Almeida

Funes de Regresso CurviLineares

NaoLinear " Linear y = a + b x " y = a + b( 1 x ) y =1/( a + bx ) " 1 y = a + bx y = a # bx y = a + bx


n

x' = 1 x y' = 1 y

" ln y = ln a + x ln b " y = a + b( x )
Apresentacao derivada dos slides originais de Virgilio Almeida

Transformaes
! O termo transformao usado quando uma funo da varivel de resposta medida usada no lugar da prpria varivel. ! Usar alguma funo da varivel resposta y (w = h(y)) em lugar do prprio y. ! Regresso curvilinear um exemplo dessa transformao.

! As tcnicas tem aplicao mais geral

Apresentacao derivada dos slides originais de Virgilio Almeida

Quando transformar?
1.! Quando as propriedades fsicas conhecidas do sistema medido sugerem que a funo da resposta, ao invs da prpria resposta, uma varivel melhor para o modelo. Exemplo: mediu-se tempos entre chegadas mas sabe-se que relacao linear e valida para taxa de chegadas.

2.

Quando o intervalo dos dados medidos cobre vrias ordens de grandeza e a amostra e pequena. Deve-se buscar uma transformacao que reduza a variabilidade. Exemplo:

3.

Quando a hiptese de uma varincia homognea dos resduos violada (i.e. Homoscedasticity).
Apresentacao derivada dos slides originais de Virgilio Almeida

Transformao Devida a Homoscedasticity


! Se num grfico de pontos dos resduos (erros) versus a resposta prevista, o espalhamento no homogneo. ! Ento os resduos so ainda uma funo das variveis previsoras. ! A transformao da resposta pode resolver o problema.

Apresentacao derivada dos slides originais de Virgilio Almeida

Qual transformao deve-se usar?


! Calcule o desvio padro dos resduos para cada estimativa "i. ! Deve haver mais de um residuo para cada valor estimado para xi. ! Considere mltiplos experimentos para um conjunto de valores previsores.

Apresentacao derivada dos slides originais de Virgilio Almeida

Qual transformao deve-se usar?


! Coloque num grfico de pontos esses desvios como funo da mdia das observaes para "i. ! se for linear ento use a transformao logaritmica.
s = a "i + b w = h(y) = ln(y)

Apresentacao derivada dos slides originais de Virgilio Almeida

Outros testes para transformaes


! Se a varincia versus a mdia das observaes medidas linear, use uma transformao de raz quadrada: w = sqrt(y)

Apresentacao derivada dos slides originais de Virgilio Almeida

Outros testes para transformaes


! Se o desvio padro versus o quadrado da mdia linear, use uma transformao inversa: w = 1/sqrt(y) ! Se o desvio padro versus a mdia elevada a uma potncia a linear use uma transformao de potncia: w = y1-a ! Outras transformaes esto descritas no livro do Jain. ! Ao final basta fazer a regressao para w = b0 + b1x1 + + bkxk + e

Apresentacao derivada dos slides originais de Virgilio Almeida

Outliers
! Medidas observadas em experimentos tipicamente contem outliers (i.e., valores muito fora do corpo da curva) ! Medidas que no so uma caracterstica verdadeira do sistema. ! Erros podem ter ocorrido no processo experimental de medio. ! Comportamentos atpicos de usurios do sistema podem existir (ex: um nerd que joga um game 15 horas consecutivas, quando se est analisando tempos de conexo a um provedor de servios) ! Isso resulta no seguinte problema: ! Devemos ou no incluir os outliers nas anlises que estamos fazendo?

Apresentacao derivada dos slides originais de Virgilio Almeida

Como tratar os outliers?


1.! Determine os outliers, analisando por exemplo os grficos de pontos. 2.! Verifique cuidadosamente os erros experimentais 3. Repita os experimentos com valores previsores para os outliers e valores proximos a eles. 4.! Decida se deve ou no incluir os outliers:
! ! ! Verifique se os outliers so parte do sistema ou se so exceces que podem ser desprezadas. Analise os dados com e sem os outliers e veja o que faz mais sentido. Todas as anlises dependem da natureza do sistema em estudo.

Apresentacao derivada dos slides originais de Virgilio Almeida

Erros mais comuns nas anlises usando regresses


! Geralmente baseadas em atalhos ou simplificao excessiva dos dados. ! Realizada sem cuidados e tcnicas fundamentadas. ! Falta de entendimento dos princpios fundamentais de estatstica. ! Falta de entendimento dos princpios fundamentais do mtodo cientfico.

Apresentacao derivada dos slides originais de Virgilio Almeida

No verificao da linearidade

! Desenhe o grfico de pontos ! Se no for linear, verifique as possibilidades curvilineares e suas transformaes. ! O uso de uma regresso linear quando as relaes entre resposta e previsores no so lineares um ERRO!

Apresentacao derivada dos slides originais de Virgilio Almeida

Basear em resultados sem uma inspeo visual

! Sempre verifique o grfico de pontos, como parte das anlises usando regresses. ! Examine a linha de regresso prevista versus os pontos reais obtidos pelo experimento. ! Isso particularmente importante no caso de uso de pacotes que fazem regresses automaticamente.

Apresentacao derivada dos slides originais de Virgilio Almeida

Atribuio de importncia aos valores dos parmetros


! Valores numricos da regresso dependem da escala das variveis previsoras. ! No devido ao fato de um valor ser pequeno ou grande que necessariamente uma indicao de importncia. ! Exemplo: ! Converter segundos para microsegundos no muda nada fundamental no problema ! Mas muda a magnitude dos valores dos parmetros associados.
Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo
! Tempo de CPU em segundos = 0.01*(# oper. E/S) + 0.001*(tamanho da memria em Mbytes) ! Tempo de CPU em milisegundos = 10*(# oper. E/S) + 1*(tamanho da memria em Mbytes) ! Valores absolutos dos parmetros podem ser enganadores!

! A forma correta de comparar a significncia de um parmetro da regresso atravs de seu intervalo de confiana.

Apresentacao derivada dos slides originais de Virgilio Almeida

Ausncia de clculo de Intervalos de Confiana


! As amostras das observaes medidas so aleatrias. ! Assim, a regresso executada nessas amostras gera parmetros com propriedades aleatrias tambm. ! Sem intervalos de confiana, impossvel entender o significado e a confiana que se tem nos valores dos parmetros.

Apresentacao derivada dos slides originais de Virgilio Almeida

Ausncia de clculo do Coeficiente de Determinao (R2)

! Sem o clculo de R2, difcil determinar quanto da variao explicada pela regresso.

Apresentacao derivada dos slides originais de Virgilio Almeida

Uso Inadequado do Coeficiente de Correlao


! Coeficiente de determinao R2 ! Coeficiente de correlao R ! R2 d o percentual da variacao que explicada pela regresso, e isso diferente de R ! Exemplo ! se R 0.6, ento R2 = 0.36 ! a regresso explica apenas 36% da variao nos dados ! no 60%!!

Apresentacao derivada dos slides originais de Virgilio Almeida

Uso de variveis previsoras altamente correlacionadas


! Se duas variveis previsoras so correlacionadas, o uso de ambas variveis degrada a regresso. ! Exemplo: ! num servidor Web provvel haver correlao entre tamanho de um arquivo e sua popularidade ! assim, no use os dois num modelo de previso de cache hit ratio ! O exemplo mostra que necessrio conhecer bem as variveis previsoras e suas possveis relaes

Apresentacao derivada dos slides originais de Virgilio Almeida

Uso de regresso muito alm do intervalo de observao


! A regresso baseada no comportamento observado de uma amostra em particular (ou conjunto de amostras). Refere se ao comportamento do sistema numa certa faixa de valores ! mais seguro prever dentro de uma faixa compatvel com o intervalo de valores observados na medio ! Valores muito alm podem ser previstos? ! Exemplos ! Uma regresso do tempo de execuo de mdulos de cdigo que so menores que o tamanho de memria disponvel, pode no ser capaz de prever o tempo de mdulos que fazem muito uso de memria virtual. ! A previso do nmero de queries que chega numa mquina de busca baseada numa regresso sobre valores de um log de vrios dias pode no ser capaz de prever o que acontecer meses a frente.
Apresentacao derivada dos slides originais de Virgilio Almeida

Uso de muitas variveis previsoras

! O acrscimo de mais variveis previsoras no necessariamente melhora a qualidade do modelo. ! Pode-se criar problemas como o de multi-colinearidade ! Quais variveis devem ento ser usadas? ! o que estamos tentando aprender neste curso

Apresentacao derivada dos slides originais de Virgilio Almeida

Medindo um intervalo pequeno de valores ou medindo intervalos no significativos


! Uma regresso somente prev bem valores prximos do intervalo observado de medioes. ! Se no forem feitas medies dos intervalos mais comuns de operao do sistema, a regresso no ir prever muita coisa. ! Exemplos ! Se muitos programas so maiores que a memria real disponvel, ento medir aqueles que so menores, pode ser um erro, pois fatores como overhead estariam sendo ignorados quando fosse feita uma previso de programas maiores. ! Se o experimento mede os tempos de execuo de queries de um conjunto de palavras pouco frequentes, ento prever os tempos de palavras muito frequentes, pode ser um erro, pois h efeitos como caching que no estariam sendo considerados.
Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo 2
! A Lei de Amdahl para operacoes de I/Os em sistemas de computacao diz que a taxa de I/O e proporcional a velocidade do processador. Para cada instrucao executada, ha um bit de I/O em media. Para validar a lei, os numeros de I/Os e as utilizacoes de CPU de um numero de computadores foram medidos. Usando a taxa MIPS nominal para o sistema e a sua utilizacao, a taxa de processamento de instrucoes (em MIPS) e a taxa de I/O (em KB/s) foram computados para um periodo. Os dados foram mostrados abaixo. Voce consegue validar/refutar a Lei de Amdahl com os dados abaixo?
Sistema MIPS Usado Taxa de I/O 1 2 3 4 5 6 7 19.63 5.45 2.63 8.24 14 9.87 11.27 288.6 117.3 64.6 356.4 373.2 281.1 149.6 8 10.13 120.6 9 1.01 31.1 10 1.26 23.7

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo 2
! Vamos assumir, por hora, o seguinte modelo curvilinear: I/O rate = % (MIPS rate)b log(I/O rate) = log % + b log(MIPS rate) Os parametros b0 = log % e b1 = b podem ser estimados via regressao linear simples Parametro b0 b1 Media 1.423 0.888 Desvio Padrao 0.119 0.135 CI 90% (1.20, 1.64) (0.64,1.14)

R2 = 0.84 -> boa regressao Os dois coeficientes sao significativos com a confianca de 90%. Alem disto, como o CI para b1 contem 1, podemos aceitar a hipotese de que o relacionamento entre I/O rate e MIPS rate e linear.
Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo 3
Os resultados de uma regressao linear multipla baseada em nove observacoes estao mostrados na tabela abaixo. Baseado nestes resultados responda as perguntas a seguir. j 1 2 3 4 bj 1.3 2.7 0.5 5.0 sbj 3.6 1.8 0.6 0.3 Ponto de Intersecao = 75.3 Coeficiente de correlacao multipla = 0.95 Desvio padrao dos erros = 12.0

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo 3
Qual porcentagem da variacao e explicada pela regressao?

R = 0.95 & R2 = 0.95*0.95 = 0.9025 90.25% da variacao e explicada pela regressao


A regressao e significativa, com uma confianca de 90%?

Desvio padrao dos erros se = sqrt (SSE/n-k-1) SSE = (n-k-1)* (se)2 = (9 5)*12*12 = 576 R2 = SSR / SST = SSR / (SSR + SSE) SSR/(SSR + 576) = 0.9025 & SSR = 519.84/0.0975 = 5331.69 MSR = SSR/k = 5331.69/4 = 1332.92 MSE = SSE/(n-k-1) = 576/4 = 144 MSR/MSE = 9.256 F-value (0.9,4,4) = 4.11 & sim, a regressao e significativa
Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo 3
Quais parametros sao significativos com uma confianca de 90%? Calcular IC : bj t*sbj 0.95 quantil da variavel t com n-k-1 (= 4) graus de liberdade = 2.132 CI para b1 = 1.3 2.132*3.6 = (-6.38, 8.98) : nao e significativo pois inclui zero. CI para b2 = 2.7 2.132*1.8 = (-1.14, 6.54) : nao e significativo CI para b3 = 0.5 2.132*0.6 = (-0.78, 1.7792) : nao e significativo CI para b4 = 5.0 2.132*8.3 = (-12.70,22.70): nao e significativo Nenhum parametro e significativo com confianca de 90%

Apresentacao derivada dos slides originais de Virgilio Almeida

Exemplo 3

Qual o problema com a regressao e qual seria o seu proximo passo? Pode ser um problema de multicolinearidade. Testar correlacao entre varios pares de previsores. Dentre os pares que tiverem alta correlacao, testar a regressao com cada previsor separadamente e escolher aquele que resulta no melhor R2

Apresentacao derivada dos slides originais de Virgilio Almeida

You might also like