Professional Documents
Culture Documents
Descripcin de datos. Estadsticos de una variable Distribuciones de probabilidad e intervalos de confianza Contrastes de hiptesis. Tipos Relaciones entre atributos Nominales- Numricos: Tests de comparacin de medias (muestras dependientes e independientes) y anlisis de varianza. Numricos - Numricos: Anlisis de Regresin Nominales-Nominales: Tablas de Contingencia. Tests de independencia y comparacin de proporciones. Aplicacin de tcnicas estadsticas a la clasificacin Clasificacin mediante regresin numrica Clasificador bayesiano
Variables nominales
Estadsticos centrales
Media (esperanza) muestral: promedio de todos los valores
1 n yi n i =1 Moda: valor que aparece ms veces Mediana: valor que deja el mismo nmero de casos a ambos lados media ( y) = y =
mediana ( y) = yi | N casos y j yi = N casos ( y k yi )
equivale a ordenar el vector de datos y tomar el valor central menos sensible frente a valores extremos poco probables
Estadsticos de dispersin
Recorrido (intervalo, o rango): max(yi)-min(yi) Varianza: promedio de desviaciones con respecto a valor medio 1 n 1 n 2 2 2 Var ( y ) = ( yi y) = y i ny n 1 i =1 n 1 i =1 Desviacin estndar (tpica): raz cuadrada de la varianza desv ( y ) = y = Var ( y )
media, sigma
14 12 10 8 6 4 2 0 -2 0 -4
v r alo
Histograma
Estimacin de la distribucin de densidad de probabilidad: frecuencia absoluta o relativa de valores de yi por unidad de intervalo
histograma normal
140 frecuencia absoluta 120 100 80 60 40 20 0
-3 -2,4 -1,8 -1,2 -0,6 0 0,6 1,2 1,8 2,4 3
N de casos en intervalo
intervalos de clase
his togram a
acum ulado 1.2 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 acum ulado
frecuencia 80 60 40 20 0 0 1 2 3 4 5 6 7 8 9 10 calificacin
Recorrido inter-cuartlico: [1.4, 4]: contiene 50% datos Cuartil 1 Cuartil 2 Cuartil 3 Cuartil 4
7
max (n j ) j
alumnos
p = p(1 p)
10
Distribucin Normal
Curva de gran inters por explicar datos en muchas situaciones Aplicada por primera vez como distribucin por A. Quetelet (1830)
f (z) = 1 1 exp z 2 2 2
distribucin simtrica: coincide media y mediana en 0 se dispone del valor de la distribucin de probabilidad: rea bajo la curva de fZ(z) para cualquier valor: Tipificar o estandarizar variables: Se z FZ (z) -3 0.001349967 mide el desplazamiento respecto a la -2.5 0.00620968 -2 0.022750062 media en unidades de desviacin tpica:
-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 0.066807229 0.15865526 0.308537533 0.5 0.691462467 0.84134474 0.933192771 0.977249938 0.99379032 0.998650033
f(z)
F(z0)
2
y y zi = i i
z
11
0 -5 -4 -3 -2 -1 0 1 3
z0
f(z)
F(z0)
-3 -2 -1 0 1 3
Ej.: se conocen parmetros de una poblacin con distribucin normal: media: = 115; desviacin tpica:= 20 casos inferiores a 70? z=(70-115)/20, F(z)=0,012 casos superiores a 150? z=(150-115)/20, 1-F(z)=0,04 en intervalo 90-130? F((130-115)/20)-F((90-115)/20)=0,667 qu intervalos simtrico tienen el 80%, 95% de los casos (intervalos de confianza)? z=F-1(/2); y=z 80%: z0.1=1,28; 115 z0.1*20=[89.3, 140.6] 95%: z0.025=1,96; 115 z0.025*20=[75.8, 154.2]
12
Herramienta de anlisis: tests de hiptesis Numricas-numricas: anlisis de regresin y covarianza Nominales-nominales: tablas de contingencia Nominales-numricas: comparacin de medias, anlisis de varianza
13
14
Mnimos Cuadrados
Estima vector de coeficientes que minimiza error I r r r y i = g i ( X ) = a 0 + a p x p =( A t ) * X
p =1
r a1 L a I ]t ; X = [1 x1 L x I ]t Objetivo: dadas N muestras, determinar coeficientes que minimicen el error de prediccin global
2 r = [g ( X j ) y j ] n j=1
r ( A ) = [a 0
El mtodo de mnimos cuadrados selecciona, como estimacin de la recta de regresin poblacional, aquella para la cual esta suma de cuadrados es menor. Problema clsico de minimizacin de funcin cuadrtica: solucin nica
Tcnicas Clsicas de Anlisis de Datos
15
Mnimos Cuadrados
Solucin genrica matricial
1 1 r y1 y1 g (X1) 1 x1 L x I r 1 x 2 L x 2 r r I A = H*A 1 y = M ; g = M = M = r M M y N y N g ( X N ) M M 1 x N L x N I 1
Solucin MC:
r r A = [ H t H ]1 H t y
16
Ao 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984
Renta Consumo consumo E 1959,75 1751,87 1683,473374 2239,09 1986,35 1942,43325 2623,84 2327,9 2299,11261 3176,06 2600,1 2811,043671 3921,6 3550,7 3502,190468 4624,7 4101,7 4153,993607 5566,02 5012,6 5026,63666 6977,84 6360,2 6335,452914 8542,51 7990,13 7785,967518 9949,9 9053,5 9090,676976 11447,5 10695,4 10479,01488 13123,04 12093,8 12032,31062 15069,5 12906,27 13836,76054 16801,6 15720,1 15442,48976 18523,5 17309,7 17038,76316
ConsumoE = a 0 + a1 * Re nta
17
dependencia consumo
consumos
Consumo consumo E
5000
10000 renta
15000
20000
18
x1 Superficie 310 333 356 379 402 425 448 471 494 517 540
x2 Antigedad 20 12 33 43 53 23 99 34 23 55 22
y Valor 106,287 Euros 107,784 Euros 113,024 Euros 112,275 Euros 104,042 Euros 126,497 Euros 94,311 Euros 106,961 Euros 122,006 Euros 126,497 Euros 111,527 Euros
Valor predicho 109,180 Euros 112,283 Euros 108,993 Euros 108,128 Euros 107,262 Euros 115,215 Euros 99,800 Euros 115,469 Euros 119,233 Euros 113,518 Euros 122,132 Euros
19
valores predichos
140000 120000 valor (euros) 100000 80000 60000 40000 448 20000 402 356 0 310 10 20 30 40 50 60 70 80 90 100 110 antigedad (a)
superficie (m 2)
356
494
540
540
20
N(0,1)
-4 -3 -2 -1 0 1 2 3
/2
21
Factor de correlacin
Factor de correlacin entre datos y predicciones:
Corr ( y , y ) =
1 S yS y
(y
j=1
y )( y j y ) =
El factor de correlacin vara entre -1 y 1. En general, se puede hacer factores de correlacin entre cualquier par de variables numricas: indica el grado de relacin lineal existente. -1: existe asociacin lineal negativa perfecta. 1 positiva perfecta. 0 no hay asociacin lineal.
22
{X1 , X 2 ,..., X n }
23
Dos tipos de anlisis: Con dos medias o proporciones: significatividad de la diferencia tstudent Ms de dos valores distintos: Anlisis de Varianza
Variacin NE
Y1
Y2 Y
Y3
24
y1 > y2 y1 < y2
25
/2=0.025
3
z=1.96
z=+1.96
Hiptesis alternativa B:
=0.05
0 .4
-3 3
0 .3 5
z=1.65
0 .3
0 .2 5
Cuando las muestras son pequeas no es vlida la hiptesis de normalidad de los estadsticos de medias
y t / 2 ,GL
Tcnicas Clsicas de Anlisis de Datos
0 .2 0 .1 5
0 .1
0 .0 5
0 -5
-4
-3
-2
-1
26
Y1
Y2
Y3
n = ni Y Nmero total de elementos: i =1 I 1 Yi = Yij Media por nivel: variacin explicada: n i i =1 1 I ni variabilidad entre grupos Media total: Y = Yij n i =i j=1 variacin no explicada
Relacin entre cuadrados: (residual): variabilidad dentro de los grupos
M ni M
(Y
i =i j=1
ni
ij
Y ) 2 = (Yij Yi ) 2 + n i ( Yi Y ) 2
i =i j=1 i =1
27
Probabilidades marginales:
p1 p 2
30
Ejemplo
31
Hay relacin entre tiempo en retardo y: franja horaria (maana-tarde-noche), tipo de da (diario-finsemana), compaa Mayor grado de relacin?
32
fdp(T_finsemana-T_diario)
/2=0.025
-3
/2=0.025
3
0 1.5 +1.96 1.96 Mayor grado de relacin? Ms evidencia estadstica para rechazar la hiptesis de independencia
33
14 12 10 intervenciones 8
retardo
6 4 2 0 0 10 20 30 40 50
0 -20
10
20
30
40
50
operaciones
operaciones
34
35
2 = ( E ij Oij ) 2 / E ij
i =1j=1
p1 p 2
2
Tcnicas Clsicas de Anlisis de Datos
36