Professional Documents
Culture Documents
14.8
Consideremos el caso de las poblaciones g de p- variable aleatoria con medias r con r=1,2,.g, y matriz de covariancia comn
s11 S= s21
s12 . . . s1p
Siendo
sjj' =
( xij - j ) ( xij' -
' j)
La covariancia entre las variables j, j'. Naturalmente, multivalentes de tendencia central y dispersin.
y S son medidas
Si se nos da y una matriz de datos Y representando muestras de tamao n, del r- esimo grupo , r=1, . . . . . .g, dejada , denotan la muestra y estima la matriz de covarianza comn por W / v, donde "W" es la suma en conjunto de cuadrados y productos (SSP) de la matriz con "v" grados de libertad. Asume que el total (sin ponderar) significa es
Trabajaremos con la distancia de Mahalanobis En estadstica, la Distancia de Mahalanobis es una medida de distancia introducida por Mahalanobis en 1936. Su utilidad radica en que es una forma de determinar la similitud entre dos variables aleatorias multidimensionales. Se diferencia de la distancia eucldea en que tiene en cuenta la correlacin entre las variables aleatorias.
Formalmente, la distancia de Mahalanobis entre dos variables aleatorias con la misma distribucin de probabilidad define como: y con matriz de covarianza se
d2 rs = v (
s )'
W -1 (
s)
(14.8.2)
B=v
W -1
'
donde
'
=(
1,., g).
Por el (14.2.3)
B = HAH
si 1 = (1,,1)' es el vector columna de orden n x 1, y J =11' es la matriz n x n, ciertas caractersticas multivalentes se expresan mejor a partir de la matriz H, definida como
H=I- J
Por lo tanto B 0 y as D es euclidiana. Deja x ser la configuracin para B definida en el teorema 14.2.1 Teorema 14.2.1 Deja de ser D una matriz de distancia y define B por (14.2.3) donde B =HAH, entonces D es Euclidiana si y solo si B es p.s.d Continuando el resultado en particular consideramos: a) Si D es la matriz Euclidiana de distancia entre puntos para una configuracin Z = (Z1,Zn)', entonces
br s = (zr -
)'(zs -
r,s = 1,.n
(14.2.4 )
En la matriz que forma (14.2.4) hacerse B = (HZ) (HZ)' de esta manera B 0. Note que B puede ser interpretado como el matriz de producto interior para la configuracin Z. b) Conversamente si B es p.s.d de rango P, que una configuracin correspondiendo para B puede ser construida como sigue
1 > .> p denota el valor propio positivo de B con correspondientes vectores propios X =(x(1), ..x (p) ) normalizado
por Entonces el punto P en Rp con coordenadas x r = (xr1, esta manera xr es el r- esimo de la fila de x ) .
x'(i) x(i) = i ,
i= 1, .., p
(14.2.5 )
rp
)' ( de
y fijar k, 1 k p. entonces, el primer "k" columnas de "x" puede considerarse como las coordenadas de los puntos que representan las medios en g k dimensiones (k p). Esta configuracin tiene la propiedad ptima que es la "mejor" la representacin en "k" dimensiones. Tenga en cuenta que ' es la (no ponderada) entre los grupos ssp (suma en conjunto de cuadrados y productos) matriz Ii denota el vector cannico de la seccin 12.5 de usar este no ponderada entre los grupos ssp matriz, es decir, definir la Ii por
vw-1 '
Ii = i Ii
v-1 I'i w Ii = 1,
-1
donde i es el valor propio de vw ' ,que es el mismo que el valor propio de B. . a continuacin, las puntuaciones de los grupos g en el ith de coordenadas cannica estn dadas por
II
Ya que B II = i
I I y I 'i '
Por lo que II es tambin el vector propio de B. por lo tanto, las medias cannica en k dimensiones, es decir, las puntuaciones de los primeros k Variantes cannica en los grupos g, son las mismas que las coordenadas dadas por el teorema 14.2.1