You are on page 1of 19

CONSIDERACIONES PREVIAS:

La siguiente lista son nombre utilizados en los comandos: entrega, Distancia, Numero, diabetes, diastolic, pima, stat500, fit1, tiempo, aov1, scres, modeloc, fc3

>entrega=read.table("entrega.txt",T) Comando read.table sirve para cargar el archivo de datos txt.

>summary(entrega) Comando summary sirve para presentar un cuadro resumen de lo que se solicite

>par(mfrow=c(1,3)) Comando par(mfrow=c(1,3)) sirve para preparar una hoja con 3 espacios para presentar grficos

>hist(entrega$Distancia) Comando hist(entrega$Distancia) sirve para graficar un histograma entre 2 variables

>plot(density(entrega$Numero,na.rm=TRUE)) Comando plot(density(entrega$Numero,na.rm=TRUE)) suavizado mediante una lnea sirve para presentar el histograma

>plot(sort(entrega$Numero),pch=".") Comando plot(sort(entrega$Numero),pch=".") sirve para presentar el plot entre dos variables

>plot(diabetes ~ diastolic,pima) Comando plot(diabetes ~ diastolic,pima) sirve para el ploteo de las variables diabetes y diastolic que pertenecen a la data pima.

>pairs(entrega)IMPORTANTE Comando pairs(entrega) sirve para graficar el ploteo de todas las variables consideradas en la data

>scale(stat500) Comando scale(stat500) sirve para dar una escala estndar a todas las variables consideradas en la data de manera que se puedan graficar; en otras palabras: redimensiona los datos proporcionalmente.

>cor(entrega) Comando cor(entrega) sirve para obtener el cuadro de correlacin entre las variables de la data

> Numero=entrega[,2] No es un comando; lo que se est haciendo es nombrar la segunda columna de la data entrega como Numero.

> fit1=lm(tiempo~Numero+Distancia) Comando lm(tiempo~Numero+Distancia) sirve para ejecutar la regresin; en este caso es la regresin de la variable dependiente tiempo y la variables regresoras Numero y Distancia IMPORTANTE: si en este caso se aplica el comando summary para fit1 (modelo de regresin entre y=tiempo y xs= Numero y Distancia) se obtiene el resumen de la regresin. En ese resumen se pueden observar el intercepto y los coeficientes beta de cada variable; adems, el error estndar, el R, el Fc, etc

> fit2=lm(tiempo~.,entrega) Es otra forma de ejecutar la regresin; en este caso tambin participa la variable dependiente tiempo y el resto de variables de la data entrega IMPORTANTE: otras formas del comando lm

>lm(tiempo~Numero+Distancia) es similar a escribir: >lm(tiempo~.,entrega), o lm(tiempo~Numero+Distancia,data=entrega); cual de ellas se usa depender de cmo se han denominado las variables.

> x=estres[,-1] debe acompaarse de> x=as.matrix(x) Estos comandos sirven para declarar la variable x, y luego confirmar que x es una matriz. Deben ir acompaadas para que se reconozca a las variables predictoras como una matriz.

> aov1=aov(tiempo~regresoras) Comando aov(tiempo~regresoras) sirve para realizar el anlisis de varianzas del modelo

>confint(fit1) Comando confint(fit1) sirve para mostrar los intervalos de confianza de cada una de las variables regresoras. Por defecto utiliza un nivel de significacin de 0.975

>confint(fit1,level=0.99) Comando confint(fit1,level=0.99) sirve para mostrar los intervalos de confianza de cada una de las variables regresoras a un nivel de significacin de 0.99

>predict(fit1,data.frame(Numero=10,Distancia=550),se.fit=T,level=0.99,interval="confidence") Comando predict(fit1 interval="confidence") sirve para mostrar los intervalos de confianza de la variable dependiente cuando se predicen las variables regresoras. En este caso el modelo de regresin es fit1 , las variables regresoras Numero y Distancia son 10 y 550 respectivamente, el nivel de significacin (level) es 0.99. Finalmente, considerando si se quiere un intervalo promedio de la variable dependiente se utiliza como interval=confidence , de lo contrario se utiliza interval=predict .

>scres=deviance(fit1) Comando deviance(fit1) sirve para mostrar la suma de cuadrados residual.

>modeloc$df.residual Comando modeloc$df.residual sirve para mostrar los grados de libertad; en este caso son los grados de libertad residuales del modelo de regresin modeloc

>pf(fc3,2,modeloc$df.residual) Comando pf(fc3,2,modeloc$df.residual) sirve para calcular el Pvalue o funcin de densidad para una distribucin F teniendo como parmetros el Fc y los grados de libertad.

>qchisq(0.99,22) Comando qchisq(0.99,22) sirve para calcular el Chi-cuadrado calculado o funcin de densidad para una distribucin Chi cuadrado con un nivel de significacin de 0.01 y 22 gl.

>pchisq(x2c,df.residual(fit1)) Comando pchisq(x2c,df.residual(fit1)) sirve para calcular el P value del Chi-cuadrado calculado o funcin de densidad para una distribucin Chi cuadrado con un nivel de significacin de 0.01 y 22 gl.

Ejem

>scres=deviance(fit1) > x2c=scres/4 >pvalue=1-pchisq(x2c,df.residual(fit1)) >pvalue [1] 3.443979e-05

>cpm=leaps(x,y) Comando leaps(x,y) sirve calcular el cpm

Otros comandos: >attributes(fit1) Comando attributes(fit1) sirve para listar todos los atributos que se pueden utilizar con el modelo de regersin fit1

>rep(1,25) ????????????????? Comando rep(1,25) sirve para agregar una columna de unos (1s)

>cbind(a,b) Comando cbind(a,b) sirve para combinar dos matrices

> x=as.numeric(x) Este comando sirve para hacer nmero un dato

>sqrt(x) Este comando sirve para hacer sacar la raz cuadrada de un dato

>variables=cpm$which Comando cpm$which sirve para agregar asignar cul de las variables debe ser considerada en el cpm; arroja TRUE o FALSE

> p=cpm$sizeycp=cpm$Cp Los comandos cpm$size (p) y cpm$Cp (Cp) sirvenpara mostrar los parmetros y el Cp

>data.frame(variables,p,cp,dif) Comando data.frame(variables,p,cp,dif) sirve para mostrar el pedido que se encuentra entre parntesis.

>sort(d) Comando sort(d) sirve para ordenar los datos de la columna d .

>step(fit1) Comando step(fit1) sirve para seleccionar las variables considerando el modelo AIC.

Apuntes: y y y y Residual standard error: es la desviacin estandar de los residuales Sum of Squares: es la suma de cuadrados Std. Error: el error estandar de i, es su desviacin tpica (raz cuadrada de su varianza). Coef de Determinacin: Tiene un pequeo inconveniente y es que no tiene en cuenta el nmero de variablespredictoras que estamos utilizando para predecir la variable respuesta. Unapequea modificacin de R2 para incorporar esta informacin es el coeficiente dedeterminacin ajustado que podemos denotar R2-ajustado.

El R2 ajustado

Para subsanar la tendencia del R2 de elegir como mejor modelo aquel que tiene un gran nmero de variables predictoras se ha definido un R2 ajustado de la siguiente manera:

2 Rajus ! 1 

SCRes / n  p SCTotal / n  1

!1

n  1 1  R 2 n  p

(18)

Donde p=k-1 es el nmero de parmetros en el modelo. El R2 ajustado podra disminuir al incluirseuna variable adicional en el modelo. Nuevamente, el modelo que se busca es aquel que tiene un R2-ajustado alto con pocas variables.
Luego de operar, se tiene que el intervalo de confianza para una observacin Y que tiene predictores x0 es el siguiente:

Estimacin por intervalo y Prueba de Hiptesis para un F i

Bajo la suposicin de que los errores

I i para

i ! 1, 2, K , n son variables aleatorias

independientes distribuidas normalmente con media cero y variancia comn W 2 , entonces se puede demostrar que F i ~ N ( F i , W 2Ci 1, i 1 ), donde Ci 1, i 1 es el i+1-simo elemento de la matriz (X'X) -1 , para i = 0,1,2, ,k. Entonces

z!
y

Fi  Fi W Ci 1,i 1
2

~ N (0,1)

Fi  Fi t! z G2 n  k 1 ! W 2Ci 1,i 1 SCRes W2 n  k 1 ! Fi  Fi SCRes Ci 1,i 1 n  k 1 ! Fi  Fi SCResCi 1,i 1 ! Fi  Fi ~ t( n k 1) SF


i

2 Ntese que W F ! W 2 Ci 1.i 1 , donde Ci 1.i 1 es el i+1-simo elemento de la diagonal de la


i

matriz
2

X Xd

1

2 , esta variancia es estimada por S F ! CMResCi 1,i 1 ! S 2 Ci 1,i 1 , donde


i

S ! CMRes . Luego, para probar la hiptesis

Caso I H p : Fi ! Fi 0 Ha : Fi { Fi0

Caso II H p : Fi u Fi 0 o H P : Fi ! Fi 0 H a : Fi
F i0

Caso III H P : Fi e Fi 0 o H P : Fi ! Fi 0 H a : F i " F i0

Entonces, se puede usar la siguiente estadstica para probar estas hiptesis

tc !

Fi  Fi ~ t ( n  k 1) S F
i

H p es cierta

(23)

Luego, se toma la siguiente decisin a una nivel de significacin de E

Decisin Se acepta H p

Caso I

Caso II

Caso III

t E

;n  k 1 2

e tc e t

E 1 ;n  k 1 2

tc u t E ;n  k 1 tc t E ;n  k 1

tc e t 1E ;n  k 1 tc " t 1E ;n  k 1

Se rechaza H p

tc tE

1 ;nk 2

o tc t

E 1 1 ;nk 2

Un intervalo de (1- E ) v 100% de confianza esta dado por

S F e Fi e Fi  t E SF Fi  t E i i 1 ; n  k 1 1 ; n k 1 2 2

(24)

Ejemplo

Para el ejemplo del tiempo de entrega probar la siguiente hiptesis:

H p : F1 ! 2 contra H a : F1 { 2 a un nivel de significacin E =0.01


1.61537263  2 (10.67719)(0.00274378329)

tc :

! 2.247174

t(0.005,22) ! 2.818756,

y t(0.995,22) ! 2.818756, se acepta la H p : F1 ! 2

Un intervalo de confianza del 99% para F1 esta dado por LIC ( F1 ) ! F1  t(0.995,22) S F ! 1.61537263  (2.818756) (10.67719)(0.00274 378329) ! 1.132913
1

LSC ( F1 ) ! F1  t (0.995,22) S F ! 1.61537263  (2.818756) (10.67719)(0. 00274378329) ! 2.097832


1

[1.132913, 2.097832]

> > > > >

entrega<-read.table("entrega.txt",T) regresoras<-as.matrix(entrega[,-1]) tiempo<-entrega[,1] fit1<-lm(tiempo~regresoras) fit1

Call: lm(formula = tiempo ~ regresoras) Coefficients: (Intercept) 2.34392 regresorasNumero 1.61537 regresorasDistancia 0.01438

> summary(aov(fit1)) Df Sum Sq Mean Sq F value Pr(>F) regresoras 2 5547.1 2773.56 259.76 4.975e-16 *** Residuals 22 234.9 10.68 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

> fit2<-lm(tiempo~.,entrega) > summary(fit2)

Call: lm(formula = tiempo ~ ., data = entrega)

Residuals: Min 1Q Median 0.4379 3Q 1.1587 Max 7.4402

-5.8778 -0.6565

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.343915 Numero Distancia --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 1.615373 0.014380 1.099464 0.171160 0.003622 2.132 0.044430 * 9.438 3.42e-09 *** 3.970 0.000649 ***

Residual standard error: 3.268 on 22 degrees of freedom Multiple R-squared: 0.9594, Adjusted R-squared: 0.9557 p-value: 4.975e-16

F-statistic: 259.8 on 2 and 22 DF,


> confint(fit2) 2.5 % 97.5 % (Intercept) 0.06376686 4.62406319 Numero 1.26040756 1.97033771 Distancia 0.00686818 0.02189169 > confint(fit2,level=0.99) 0.5 % 99.5 % (Intercept) -0.755204956 5.44303500 Numero 1.132913036 2.09783223 Distancia 0.004170145 0.02458973

Intervalos de Confianza: #Predicciones para los propios datos predict(savings.lm) #Intervalos de confianza para la prediccin de la media predict(savings.lm,interval="confidence") #Intervalos de confianza para la prediccin de la observacin predict(savings.lm,interval="prediction")

Prueba de hiptesis sobre la Variancia Comn W 2

Caso I H p : W 2 ! W 02
2 Ha : W 2 { W 0

Caso II H p :W 2 u W 02 o H P :W 2 ! W 02 H a :W 2 W 02

Caso III H P : W 2 e W 02 o H P : W 2 ! W 02 H a :W 2 " W 02

Se puede usar la siguiente estadstica de prueba:

G c2 !

SCRes ~ G (2n  k 1) 2 W0

H p es cierta

Entonces Decisin Se acepta H p Se rechaza H p Caso I


G 2E
G c2
; n  k 1 2

Caso II
e G c2 e G 2
E 1 ; n  k 1 2

Caso III
G c2 e G 21E ;n  k 1

G c2 u G 2E ;n  k 1

G 2E

2 ;n k 1

o G c2 " G 2

E 1 2 ;n k 1

G c2

G 2E ;n  k 1

G c2 " G 2 E ; n k 1 1

Un intervalo de (1- E ) v 100

de confianza est dado por:

SCRes SCRes 2 eW e 2 2 G E G1E ;n k 1 ;n k 1 2 2

Ejem

>scres=deviance(fit1) > scres [1] 234.8983 > x2c=scres/4 > x2c [1] 58.72456 > pvalue=1-pchisq(x2c,df.residual(fit1)) > pvalue

[1] 3.443979e-05

Estimacin por intervalo y Prueba de Hiptesis para un F i


aso I H p : Fi ! Fi 0 Ha : Fi { Fi0 aso II H a : Fi
F i0

aso III H : Fi e Fi 0 o H : Fi ! Fi 0 H a : F i " F i0


H p : Fi u Fi 0 o H : Fi ! Fi 0

Entonces, se puede usar la siguiente estadstica para probar estas hiptesis

tc !

Fi  Fi ~ t ( n  k 1) S F
i

H p es cierta

(23)

Luego, se toma la siguiente decisin a una nivel de significacin de E

Decisin Se acepta H p

Caso I

Caso II

Caso III

t E

;n  k 1 2

e tc e t

E 1 ;n  k 1 2

tc u t E ;n  k 1 tc t E ;n  k 1

tc e t 1E ;n  k 1 tc " t 1E ;n  k 1

Se rechaza H p

tc tE

1 ;nk 2

o tc t

E 1 1 ;nk 2

CONSULTAS:

Cul es la dif entre qchisq(0.99,22)y pchisq(0.99,22)?

II PARTE

CONSIDERACIONES PREVIAS:
La siguiente lista son nombres utilizados en los comandos: fit1, ri, ti

plot(x,y)

Grafica los puntos generados por dos variables

coeficients(fit1)

Muestra los coeficientes del modelo

influence.measures(lm(y~x))

Arroja los dffit, cov.r, y hat, que ayudan a identificar los puntos influyentes.

infl$***********

Es un atributo de influence.measures. Presenta todos los datos con mayor cantidad de decimales. Los hat son los hii y la frmula para detectar leverages es:

Con comandos R: abs(hii)-2p/n |hii|>2p/n Los dffit se usa la siguiente frmula que detecta los puntos influyentes:

Con comandos R:abs(dffit)-2*sqrt(5/82)

DFFITSi " 2
-

p n

Los dfbeta se obtienen de las primeras 5 columnas del infl$*********** . La frmula que detecta los puntos influyentes:

Con comandos R:abs(dfbeta)>2/sqrt(82)

DFBETAS

ji

"

2 n

Los covratio se obtiene de la 7ma columna del infl$*********** . La formula que detecta Con comandos R:covratio<(1-3*(5/82))

p CO ATIOi " 1  3 CO ATIOi n


y qf(0.5,5,77)

p 1 3 n

Arroja el F para compararlo con el CD2

CDi2 " F 0.5, p, n  p

ri<-rstandard(modelo1)

Arroja los ri . La frmula para detectar outlier es: Con comandos R:abs(ri)-2 |ri|>2

ti<-rstudent(model)

Arroja los ti . La frmula para detectar outlier es: abs(ti)-2 |ti|>2

summary(influence.measures(model))

Arroja un resumen, segun criterios de R, de los puntos influyentes

index<-seq(1,82)

Arroja puntos consecutivos del 1 al 82

Diagnsticos para detectar outliers y puntos de leverage alto Si |hii|>2p/n (algunos como el paquete R, usan 3p/n. Aqu p es el nmero de parmetros) entonces la i-sima observacin es considerado un punto leverage y pudiera ser influencial Si |ti|>2 ( o si |ri|>2) entonces la i-sima observacin es considerada un outlier y tambin puede ser influencial. Otros diagnsticos ms sofisticados son: DISTANCIA COOK - CD (Cook, 1977): Mide el cambio que ocurrira en el vector de coeficientes estimados de regresin (y por lo tanto en el valor ajustado de la variable de respuesta) si la i-sima observacin fuera omitida. En general un CDi2 " 1 indica que la i-sima observacin es potencialmente influencial. Una observacin con CDi2

0.1 no merece ninguna discusin y si su CDi2


2 i

0.5 merece un poco de


considerado como un

atencin. Ms especficamente una observacin con C valor influencial.

DFFITS (Belsley, Kuh, y Welsch, 1980). Es similar a la Distancia Cook excepto por un factor de
2 escala y el reemplazo de la varianza estimada s 2 por s i , la varianza estimada del error excluyendo la i-sima observacin en los clculos.

ITSi " 2

p indica un posible valor influencial. n

DFBETAS (Belsley, Kuh, y Welsch, 1980). Mide la influencia de la i-sima observacin en cada uno de los coeficientes de regresin. Un DFBETAS

ji

"

2 indica un posible valor influencial. n

"

0.5, p , n  p es

COVRATIO (Belsley, Kuh, y Welsch, 1980):Mide el efecto en la variabilidad de los coeficientes de regresin al remover la i-sima observacin.

Si CO ATIOi " 1  3

p o si CO ATIOi n

p 1  3 entonces la i-sima observacin tiene un n

valor influencial grande.

VERIFICACIN DE SUPUESTOS EN EL MODELO 1. Residuales contra las variables predictoras o explicatorias en el modelo Aqu se grafican los residuales de la regresin de Y sobre todas las predictoras incluyendo a

X . Si el modelo es adecuado los puntos se deberan alinear a lo largo de una franja j


horizontal. Si se observa algn patrn no lineal entonces la variable predictora debera ser transformada. Este grfico nos sirve para cuantificar la importancia de X en el modelo. Los

residuales no debe tener relacin con estas variables (ver posibles relaciones no lineales) y la dispersin de los residuales debe ser el mismo en todo el rango.

2. Residuales contra las variables predictoras o explicatorias no incluidas en el modelo Aqu se grafican residuales del la regresin de Y en funcin de las todas predictoras excepto x j ; en este caso se grafica los residuales de la regresin de y en funcin de todaslas variables predictoras excepto X j versus X j ,si la variable X entra al modelo en forma lineal

entonces la grfica deberamostrar una tendencia lineal. Si se observa una tendencia no lineal habraque considerar una transformacin de X .

3. Grfico de regresiones parciales ( o grfica de variable aadida) Aqu se grafica los residuales

e Y X-j versus e X j

X-j

En el grfico de regresiones parcial se grafica los residuales de la regresin de Y considerando todas las variables predictoras excepto X j versus los residuales de la regresin de X j contra todas las variables predictoras distintas a ella. Si la variable X j entra al modelo en forma lineal entonces su grfico de regresiones parciales debera mostrar una tendencia lineal que

pasa por el origen. Si se observa una tendencia no lineal habra que considerar una transformacin de X j . Tambin se puede localizar a los puntos que afecta el clculo del coeficiente de regresin correspondiente.

str(abono)

Sirve para conocer la estructura de la data

abono$trat=as.factor(abono$trat)

Convierte la data en factor

pairwise.t.test(tiempo,dieta,p.adjust.method="none")

-anova():Calcula ANOVA para muestras. Han de ser de distribucin normal ocumplir ciertos criterios. -anova(lm(folate~ventilation)):ANOVA lineal. -anova(lm(time~width*temp)):Estadstica de tiempos de coccin vs. anchohorno, temperatura, y la interaccin. Te devuelve 3 p. -attach():Cargar espacio de trabajo.-boxplot(variable1~variable2):Otro tipo de grficoboxplot(log())-data():Ver conjunto de datos que hay en R hasta el momento.-NombreNuevo<data.frame(datos):Para trabajar con estadstica metemoscarpeta en estructura especial: data.frame, para que no de error al calcularestadstica(mejor darle nombre corto: datos )detach():Cuando vas a convertir alguna variable en factor, primero hay quesacarlo de R. Tras convertirla, hay que volver a attach().-juul$sex<-factor(juul$sex,labels=c( M , F )):Conviertes variable sexo de lacarpetajuul en factor para tratarlo cualitativamente. R slo calculafrecuencias absolutas de las variables cualitativas cuando le das asummary().-is.factor( Nombre ): Te dice si la variable es un factor o no. Para convertiralgo en factor, es mejor trabajar en data.framehist():Histograma.Variable Cuantitativa-Kruskal.test(folate~ventilation):Clculo estadstico para variables que nosiguen distribucin normal.

You might also like