You are on page 1of 28

Pgina 1

ANLSIS MULTIVARIADO
2012
ANLISIS DISCRIMINANTE
Introduccin

El problema de discriminacin que abordaremos, puede plantearse de varias formas y aparece
en muchas reas de la actividad humana: desde la diagnosis mdica a los sistemas de
concesin de crditos o de reconocimiento de falsas obras de arte. El planteamiento
estadstico del problema es el siguiente. Se dispone de un conjunto amplio de elementos que
pueden venir de dos o ms poblaciones distintas. En cada elemento se ha observado una
variable aleatoria p-dimensional X, cuya distribucin se conoce en las poblaciones
consideradas. Se desea clasificar un nuevo elemento, con valores de las variables conocidas, en
una de las poblaciones. Por ejemplo, la primera aplicacin del anlisis discriminante consisti
en clasificar los restos de un crneo descubierto en una excavacin como humano, utilizando
la distribucin de medidas fsicas para los crneos humanos y los de antropoides.
El problema de discriminacin aparece en muchas situaciones en que necesitamos clasificar
elementos con informacin incompleta. Por ejemplo, los sistemas automticos de concesin
de crditos (credit scoring) implantados en muchas instituciones financieras tienen que utilizar
variables medibles hoy (ingresos, antigedad en el trabajo, patrimonio, etc.) para prever el
comportamiento futuro. En otros casos la informacin podra estar disponible, pero puede
requerir destruir el elemento, como en el control de calidad de la resistencia a la tensin de
unos componentes. Finalmente, en otros casos la informacin puede ser muy costosa de
adquirir. En ingeniera este problema se ha estudiado con el nombre de reconocimiento de
patrones (pattern recognition), para disear mquinas capaces de clasificar de manera
automtica. Por ejemplo, reconocer voces y sonidos, clasificar billetes o monedas, reconocer
caracteres escritos en una pantalla de ordenador o clasificar cartas segn el distrito postal.
Otros ejemplos de aplicaciones del anlisis discriminante son: asignar un texto escrito de
procedencia desconocida a uno de varios autores por las frecuencias de utilizacin de palabras,
asignar una partitura musical o un cuadro a un artista, una declaracin de impuestos como
potencialmente defraudadora o no, una empresa como en riesgo de quiebra o no, las
enseanzas de un centro como tericas y aplicadas, un paciente como enfermo de cncer o
no, un nuevo mtodo de fabricacin como eficaz o no.
Las tcnicas que vamos a estudiar reciben tambin el nombre de clasificacin supervisada,
para indicar que conocemos una muestra de elementos bien clasificados que sirve de pauta o
modelo para la clasificacin de las siguientes observaciones. Existen varios enfoques posibles
para este problema. El primero, que se presenta en este captulo, es el anlisis discriminante
clsico debido a Fisher, basado en la normalidad multivariante de las variables consideradas y
que es ptimo bajo dicho supuesto. Si todas las variables son continuas, es frecuente que
aunque los datos originales no sean normales es posible transformar las variables para que lo
sean, y los mtodos de este captulo pueden aplicarse a las variables transformadas. Sin
embargo, cuando tengamos variables discretas y continuas para clasificar, la hiptesis de
normalidad multivariante es poco realista.



Pgina 2


ANLSIS MULTIVARIADO
2012
El anlisis discriminante es aplicable a muy diversas reas de conocimiento:
En la Medicina En el campo de los recursos humanos

En la meteorologa En la Banca









En la Investigacin de Mercados









Pgina 3


ANLSIS MULTIVARIADO
2012
ANTECEDENTES

KARL PEARSON (1857-1936)

Tiene su origen en un trabajo de PEARSON, usando datos
antropomtricos. El propuso un coeficiente "C", que "medira la
distancia" entre 2 poblaciones, para el ao de 1921.
Estadstico britnico. Inventor del contraste ji-cuadrado. Obtuvo
el estimador del coeficiente de correlacin en muestras y se
enfrent al problema de determinar si dos grupos de personas,
de los que se conocen sus medidas fsicas, pertenecen a la
misma raza (si dos muestras multivariantes provienen de la
misma poblacin).
Su trabajo de 1921, donde encuentra el plano de mejor ajuste a
un conjunto de observaciones astronmicas, da lugar a las componentes principales. Ambos
problemas son tambin resueltos desde otro enfoque (ms o menos simultneamente) por
Harold Hotelling.


P.C. Mahalanobis (1893-1972)






En 1925, MAHALANOBIS, propone el coeficiente D2 que
es "una medida de distancia generalizada" entre 2
poblaciones, usndolo para discutir la composicin de
mezclas raciales.
Estadstico hind. Considerado el padre de la Estadstica
en la India. Se interes por la estadstica como
instrumento para resolver los problemas econmicos y
culturales en la India. Inventor de la distancia de
Mahalanobis, que utiliz para investigar las diferentes
razas en la India.




Pgina 4


ANLSIS MULTIVARIADO
2012
En 1936, FISHER public su primer trabajo sobre Funciones Discriminantes. El enfoque de
FISHER no es aquel de medir "distancias" entre poblaciones, sino esencialmente clasificar un
valor de una muestra en alguna de 2 poblaciones tericas.

Ronald A. Fisher
(1890 1962)
Estadstico britnico, inventor del anlisis discriminante, el
mtodo de mxima verosimilitud y del diseo estadstico de
experimentos. Considerado el padre de la Estadstica en el siglo
XX.
Da la primera solucin al problema de la clasificacin,
inventando un mtodo general, basado en el anlisis de la
varianza. El problema era clasificar un crneo encontrado en
una excavacin arqueolgica como perteneciente a un
homnido o no. La idea de Fisher es encontrar una variable
indicadora, combinacin lineal de las variables originales de las
medidas del crneo, que consiga mxima separacin entre las
dos poblaciones en consideracin (MANOVA), fue este problema de antropologa (el famoso
problema de los crneos de las momias egipcias) que llevan a Fisher a desarrollar el anlisis
discriminante.
En 1937 visita la India invitado por Mahalanobis, donde descubre la relacin entre la distancia
de Mahalanobis y sus resultados en anlisis discriminante. Consigue unificar estas ideas y
relacionarlas con los trabajos de Hotelling sobre el contraste de medias de poblaciones
multivariantes.
Un estudiante de Mahalanobis, C. R. Rao, va a extender el anlisis discriminante de Fisher para
clasificar un elemento a ms de dos poblaciones. Desarroll tcnicas consideradas claves para
en la experimentacin comparativa: El diseo experimental en bloques, que permite el
control local del efecto introducido por factores no deseados, sobre las variables observadas.
La aleatorizacin, que constituye una proteccin contra la introduccin de factores
impredecibles, en el experimento. El diseo factorial, para el estudio del efecto de varios
factores, simultneos. Anlisis de varianza, tcnica de anlisis de los resultados de la
experimentacin que permite separar las fuentes de variacin, y poder determinar el grado de
influencia de cada factor. Ests tcnicas fueron aplicadas en reas agrcolas. Desarroll una
teora de estimacin basada en resumir los datos de un modo eficiente, que preserve la mayor
cantidad de informacin contenida en ellos. Fisher observ que la Funcin de Verosimilitud, la
probabilidad de obtener la muestra dada, es un resumen de la informacin contenida en los
datos. El mtodo de maximizar la verosimilitud, provee entonces, el estimador ms eficiente,
que no puede ser mejorado, segn su teora.




Pgina 5


ANLSIS MULTIVARIADO
2012
ANLISIS DISCRIMINANTE
1. DEFINICIN
- El anlisis discriminante es una tcnica estadstica capaz de decirnos qu
variables permiten diferenciar a los grupos y cuntas de estas variables son
necesarias para alcanzar la mejor clasificacin posible.
- Ayuda a identificar las caractersticas que diferencian (discriminan) a dos o ms
grupos y a crear una funcin capaz de distinguir con la mayor precisin posible
a los miembros de uno u otro grupo.
- Anlisis discriminante de dos grupos: Tcnica del anlisis discriminante en la
que variable de criterio tiene dos categoras, en este caso solo es posible
calcular una funcin discriminante.
- Anlisis discriminante mltiple: Tcnica del anlisis discriminante en la que la
variable de criterio comprende tres o ms categoras, en este caso se pueden
calcular ms de una funcin discriminante.

2. SIMILITUDES Y DIFERENCIAS ENTRE EL ANOVA, LA REGRESIN Y EL
ANLISIS DISCRIMINANTE:
ANOVA Regresin Anlisis Discriminante
SIMILITUDES
Numero de Variables dependientes Una Una Una
Numero de variables independientes Mltiples Mltiples Mltiples
DIFERENCIAS
Naturaleza de la variable dependiente Mtrica Mtrica Categrica
Naturaleza de la variable independiente Categrica Mtrica Mtrica

- El modelo en que se basa el anlisis el anlisis discriminante es:


Donde:
D = calificacin discriminante.
b = valores relativos o coeficientes discriminantes.
X = variable independiente o de prediccin.






Pgina 6


ANLSIS MULTIVARIADO
2012
i
i
1 +

3. OBJETIVOS
- Desarrollo de las funciones discriminantes, o combinaciones lineales de las
variables independientes o de prediccin, que discriminan mejor entre las
categoras de la variable dependiente o de criterio (grupos).
- Estudio para identificar diferencias significativas entre los grupos, en trminos
de las variables de prediccin.
- Determinacin de las variables de prediccin que contribuyen en mayor
medida a las diferencias entre los grupos.
- Clasificacin de los casos para uno de los grupos con base en los valores de las
variables de prediccin.
- Evaluacin de la exactitud de la clasificacin.

4. RESTRICCIONES O SUPUESTOS
Se tiene una variable categrica y el resto de variables son de intervalo o de razn y
son independientes respecto de ella.
Es necesario que existan al menos dos grupos, y para cada grupo se necesitan dos o
ms casos.
El nmero de variables discriminantes debe ser menor que el nmero de objetos
menos dos: x
1
,....., xp, donde: p < (n 2) y n: es el nmero de objetos.
Ninguna variable discriminante puede ser combinacin lineal de otras variables
discriminantes.
El nmero mximo de funciones discriminantes es igual al mnimo entre el nmero de
variables y el nmero de grupos menos 1 (con q grupos, (q1) funciones
discriminantes).
5. ESTADSTICOS RELACIONADOS CON EL ANLISIS DISCRIMINANTE
Lambda de Wilks:
Es un estadstico que mide el poder discriminante de un conjunto de variables. Viene
dada por la razn de las sumas de cuadrados dentro de los grupos con la suma total de
los cuadrados:

Correlacin cannica:
Mide el grado de asociacin entre las calificaciones discriminantes y los grupos.
Toma valores entre 0 y 1 de forma que, cuanto ms cerca de 1 est su valor,
mayor es la potencia discriminante de la i-esima funcin discriminante.

Cri =
i = 1,..., s



Pgina 7


ANLSIS MULTIVARIADO
2012
Centroide:
Est constituido por los valores medios de las calificaciones discriminantes para un
grupo en particular.
Existen tantos centroides como grupos.
Hay uno para cada grupo.

Matriz de clasificacin:
Se conoce tambin como matriz de confusin o prediccin, contiene el
nmero de casos que se clasifican en forma correcta y errnea.
Los elementos fuera de la diagonal representan los casos que se
clasifican en forma errnea.
La suma de los elementos de la diagonal dividida entre el nmero total
de casos representa la razn de aciertos.

6. COEFICIENTES DE LA FUNCIN DISCRIMINANTE NO ESTANDARIZADOS:

Son los multiplicadores de las variables, cuando estas se encuentran en las unidades de
mediciones originales.
Calificaciones discriminantes:
Los coeficientes discriminantes no estandarizados se multiplican por los valores de las
variables.

Valor especfico:
Para cada funcin discriminante, el valor especfico es la razn de las sumas de los
cuadrados entre y dentro de los grupos.

Valores F y su significancia:
Los valores F se calculan a partir del ANOVA unidireccional, con la variable de grupo
como variable independiente categrica. Cada indicador, a su vez, sirve como la
variable dependiente mtrica en el ANOVA.

Medidas y Desviaciones estndar de grupo:
Se calculan para cada indicador de cada grupo.
Matriz agrupada de correlaciones dentro de los grupos:
Se calculan mediante el promedio de las matrices de covarianza separadas para todos
los grupos.
Coeficientes estandarizados de funcin discriminante:
Se utilizan como los multiplicadores cuando las variables se estandarizan en una media
de 0 y una varianza de 1.

Correlaciones de estructura:
Tambin se les conoce como cargas discriminantes, representan las correlaciones
sencillas entre los indicadores y la funcin discriminante.



Pgina 8


ANLSIS MULTIVARIADO
2012

Matriz de correlacin total:
Si los casos se tratan como si fueran de una sola muestra y se calculan las
correlaciones, se obtiene una matriz de correlacin total.


PROCEDIMIENTO DEL ANLISIS DISCRIMINANTE
















Formulacin
Formular el problema por medio de la identificacin de los objetivos, la variable de
criterio y las variables independientes.
La variable de criterio debe consistir en dos o ms categoras mutuamente excluyentes
y colectivamente exhaustivas.
Cuando la variable dependiente tiene una escala de intervalo o razn, primero debe
convertirse en categoras.
Formular el Problema
Estimar los coeficientes de funcin discriminante
Determinar la significancia de las funciones
discriminantes
Interpretar los resultados
Evaluar la validez del anlisis discriminante







Pgina 9


ANLSIS MULTIVARIADO
2012
Sea un conjunto de n objetos divididos en q grupos donde: G
i;
i=1,..., q de tamaos n
g
;
g=1,..., q que constituyen una particin de la poblacin de la que dichos objetos
proceden.
Sea X = (X
1
,..., X
p
)' un conjunto de variables numricas observadas sobre dichos
objetos con el fin de utilizar dicha informacin para discriminar entre los q grupos
anteriores.
Mientras no se diga lo contrario, supondremos que las variables anteriores son
cuantitativas.

Los objetivos del Anlisis Discriminante pueden sintetizarse en dos:
Analizar si existen diferencias entre los grupos en cuanto a su comportamiento con
respecto a las variables consideradas y averiguar en qu sentido se dan dichas
diferencias.
Elaborar procedimientos de clasificacin sistemtica de individuos de origen
desconocido, en uno de los grupos analizados.
Ramas dentro del Anlisis Discriminante
El Anlisis Discriminante Descriptivo
El Anlisis Discriminante Predictivo.

Estimacin
Calculamos las funciones discriminantes:
El nmero de funciones discriminantes est dado por: Min {q-1, p} y
estimamos sus parmetros.

7. PROCEDIMIENTO DISCRIMINANTE DE FISHER

Enfoque de Fisher para 2 poblaciones:


Sea la combinacin lineal:
Donde:






Pgina
10


ANLSIS MULTIVARIADO
2012
EJEMPLO:
Considere los siguientes datos para la posibilidad de la deteccin de portadores de hemofilia A

Enfoque de Fisher para tres o ms poblaciones


En el anlisis discriminante de Fisher es una necesidad obtener una representacin de
las poblaciones que implica solamente algunas combinaciones lineales de las
observaciones tal como:


El propsito principal del anlisis discriminante de Fisher es separar las
poblaciones, sin embargo eso puede ser usado para la clasificacin.

Sin embargo nosotros asumimos que matriz de covarianzas p x p son iguales y de
rango completo.


Sea el vector de medias de las poblaciones combinadas y la suma entre grupos del
producto cruzado, de este modo:





Pgina
11


ANLSIS MULTIVARIADO
2012
Sea W, la matriz de la suma de cuadrados de las medias agrupadas dentro de los
grupos, de este modo:




Si denota auto valores diferentes de cero de
y los correspondientes auto vectores (de este modo que ). Entonces
el vector de coeficientes que maximize la razn:



Es determinado por . La combinacin lineal es llamada la primera
discriminante.
El valor maximiza la razn sujeto hacia la . La combinacin
lineal es llamada la segunda discriminante. Continuando maximiza la
razn sujeto haca y es llamada el k discriminante.
Adems donde i = 1,.., s.

Ejemplo:
Considere las observaciones en p = 2 variables de q = 3 poblaciones. Asumiendo que
las poblaciones tiene una matriz de covarianza comn.










0

...

2 1
> > > >
s
) , 1 min( p g s s
0
1
B

W
s
e e e ,..., ,
2 1
1 ' = e e

. 1 1
e =
2 2
e =
X
'
2

0 ) , (
'
2
'
1
= X X Cov
k k
e =
0 ) , (
' '
= X X Cov
i k

k i s X
k
'

1 ) (
'
= X Var
i

) 3 (
1 1
= n t ) 3 (
2 2
= n t ) 3 (
3 3
= n t
(


=
1 3 5
1 0 2
1
X
(



=
4 0 2
1 0 1
3
X
(

=
2 4 6
1 2 0
2
X
(


=
4 1
1 1
1
S
(


=
4 1
1 1
2
S
(

=
4 1
1 1
3
S
(

=
3
1
1
X
(

=
4
1
2
X
(

=
2
0
3
X


Pgina
12


ANLSIS MULTIVARIADO
2012

De este modo:







Solucin para la auto valores diferentes de cero
de ,la solucin resulta:





Usando la formula cuadrtica, hallamos y
Normalizando los auto vectores y resolviendo obtenemos:

Y escalando los resultados tal que:


Y luego la normalizacin,

Igualmente;

Entonces las dos discriminantes son:


(

=
3 5
0
X
(

= = B

=
3 62 1
1 2
)' )( (

1
0
X X X X
i
g
i
i
(


= + + = =

= =
24 2
2 6
) 3 ( )' ( ) (
3 2 1
1 1
pooled i ij
g
i
ni
j
i ij
S n n n X X X X W
(

6 2
2 24
140
1
1
W
(

= B

9000 . 0 0714 . 0
4667 . 0 3571 . 0

0
1
W
2 ) 2 , 2 min( ) , 1 min( = = s p g s
0
1

W
0
9000 . 0 0714 . 0
4667 . 0 3571 . 0

0
1
=
(

= I B

W
0 2881 . 0 2571 . 1 ) 0714 . 0 )( 4667 . 0 ( ) 9000 . 0 )( 3571 . 0 (
2
= + =
9556 . 0

1
=
2

)

(
0
1
= I B

i i
W
2 , 1 = i
(

=
(

= I B

0
0

9556 . 0 9000 . 0 0714 . 0


4667 . 0 9556 . 0 3571 . 0

)

(
12
11
0
1

i i
W
3015 . 0

2
=
1

1
'
1
=
pooled
S
| | 495 . 0 385 . 0

'
1
=
| | 112 . 0 938 . 0

'
2
=
| |
2 1
2
1 '
1 1
495 . 0 385 . 0 495 . 0 385 . 0

X X
X
X
X y + =
(

= =
| |
2 1
2
1 '
2 2
112 . 0 938 . 0 112 . 0 938 . 0

X X
X
X
X y =
(

= =


Pgina
13


ANLSIS MULTIVARIADO
2012
B W +
W
( )
( )
[

=
+
) p , 1 q min
1 i
i
1
1
( )
{ }

+ =
+
|
.
|

\
|
+

p , 1 q min
1 k j
j
1 log
2
q p
1 n

Determinacin del grado de significancia:
La lambda de wilks:

A= =

Sus valores fluctan entre 0 y 1 de forma que, cuanto ms cerca de 0 est, mayor es el
poder discriminante de las variables consideradas y cuanto ms cerca de 1, menor es
dicho poder.

Correlacin Cannica:





Mide el grado de asociacin entre las calificaciones discriminantes y los
grupos.

Toma valores entre 0 y 1 de forma que, cuanto ms cerca de 1 est su
valor, mayor es la potencia discriminante de la i-esima funcin
discriminante.

- Determinacin del nmero de funciones discriminantes
El nmero de funciones discriminantes significativas se determina mediante un
contraste de hiptesis secuencial.
H
o
: l
k+1
= = l
min{
G-1,p}
= 0
Y el estadstico de contraste viene dado por:


T =
El cual se distribuye como una c
2
(p-k)(q-k-1)
si H
o
es verdad.




Pgina
14


ANLSIS MULTIVARIADO
2012
PROCEDIMIENTOS DE SELECCIN DE VARIABLES:
Cuando se estn considerando varias variables para fines de discriminacin, el lector podra
hacer preguntas como:
1. En realidad son necesarias todas las variables para realizar una discriminacin
eficaz?
2. Cules variables son las mejores para discriminar?

Se han propuesto procedimientos de seleccin de las variables que pueden dar lugar a cierta
gua a los investigadores que estn deseando seleccionar un subconjunto de las variables de las
medidas para usarlas con fines de discriminacin. La mayora de los procedimientos existentes
de seleccin de variables son un tanto semejantes a los procedimientos correspondientes que se
usaron para los problemas de regresin mltiple.
Un procedimiento de seleccin hacia adelante.
Un procedimiento de eliminacin hacia atrs.
Un procedimiento de seleccin por pasos (combinacin de las dos anteriores).


INTERPRETACIN DE LOS RESULTADOS
Significado de las dimensiones de discriminacin entre los grupos proporcionadas por
las funciones discriminantes mediante el anlisis de la matriz de estructura y de la de los
coeficientes estandarizados de las funciones discriminantes.
Anlisis del sentido de la discriminacin entre dichos grupos, es decir, averiguar qu
grupos separa cada funcin discriminante y en qu sentido. Este anlisis se lleva a cabo
mediante representaciones grficas del espacio de discriminacin as como de perfiles
multivariantes correspondientes a cada grupo.













Pgina
15


ANLSIS MULTIVARIADO
2012
Aplicacin mediante SPSS

Primero debemos definir nuestras variables y grupos, luego introduciremos los valores a
SPSS

Figura 1: Introduccin de los datos
Ejercicio N1: Se consideran los datos recogidos sobre 32 crneos en el Tbet.
Los datos corresponden a dos tipos raciales diferentes en los que se practicaron
diferentes medidas antropomtricas de longitudes, anchuras de crneo y de cara. Se trata
de hacer un anlisis discriminante sobre los dos tipos raciales.



El men adecuado para realizar este anlisis ser:
Analizar
Clasicar
Discriminante






Pgina
16


ANLSIS MULTIVARIADO
2012



Figura 2: Ventana del anlisis


Para realizar el anlisis tendremos que introducir en variable de agrupacin la
variable discriminante. Esta variable solo podr tomar valores enteros, de tal manera
que indicaremos el mximo y el mnimo de los valores.
En variables independientes introducimos las variables con las que formular el
modelo. Es interesante sealar que si elegimos usar mtodo de inclusin por pasos
activamos otro botn. Finalmente con variable de seleccin podremos utilizara algn
procedimiento de seleccin de individuos.
Botn Clasificar
Probabilidades previas: Estos valores se utilizan para la clasicacin. Se puede
elegir entre:
1. Todos los grupos iguales: las probabilidades previas sern iguales para todos
los grupos.
2. Calcular segn tamaos de grupos: los tamaos de grupo observados en la
muestra determinan las probabilidades de la pertenencia al grupo.

Visualizacin:
1. Resultados para cada caso: muestran para cada caso los cdigos del grupo real
de pertenencia, el grupo pronosticado, las probabilidades posteriores y las
puntuaciones discriminantes.

2. Tabla de resumen: nmero de casos correctos e incorrectamente asignados a
cada uno de los grupos basndose en el anlisis discriminante. Suele recibir el nombre
de tabla de clasicacin

3. Clasicacin dejando uno fuera: se clasica cada caso del anlisis mediante la
funcin derivada a partir de todos los casos, excepto el propio caso.

Reemplazar los valores perdidos con la media.

Usar matriz de covarianzas. Se puede Clasicar usando alguna de estas matrices de
covarianzas:

1. Intra grupos: se utiliza la matriz de covarianza intra-grupos combinada para
Clasicar los casos.



Pgina
17


ANLSIS MULTIVARIADO
2012
2. Grupos separados: para la clasicacin se utilizan las matrices de covarianza de
los grupos separados.

Grficos.

1. Grupos combinados: crea un diagrama de dispersin de los valores en las
dos primeras funciones discriminantes. Si slo hay una funcin obtendremos un
histograma.

2. Grupos separados: crea diagramas de dispersin de los grupos por separado,
para los valores en las dos primeras funciones discriminantes. Un histograma en caso
de una funcin.

3. Mapa territorial: Grco de las fronteras utilizadas para Clasicar los casos en
grupos a partir de los valores en las funciones. Los nmeros corresponden a los
grupos en los que se clasican los casos. La media de cada grupo se indica mediante
un asterisco situado dentro de sus fronteras. No se mostrar el mapa si slo hay una
funcin discriminante.

Figura 3: Botn de clasificar


Botn Estadsticos

Descriptivos:
1. Medias: muestra la media y desviacin tpica totales y las medias y desviaciones
tpicas de cada grupo para las variables independientes.

2. Anovas univariados: realiza un anlisis de varianza de un factor sobre la igualdad
de las medias de grupo para cada variable independiente. Con este anlisis se puede
comprobar si las varianzas para cada grupo de cada variable son iguales.

3. M de Box: contraste sobre la igualdad de las matrices de covarianza de los
grupos.
Coecientes de la funcin :

1. De Fisher: muestra los Coecientes de la funcin de clasicacin de Fisher que
pueden utilizarse directamente para la clasicacin. Se obtiene un conjunto de
Coecientes para cada grupo, y se asigna un caso al grupo para el que tiene una
mayor puntuacin discriminante.

2. No tipicados.


Pgina
18


ANLSIS MULTIVARIADO
2012

Matrices:
- Correlacin intra-grupos.
- Covarianza intra-grupos.
- Covarianza de grupos separados.
- Covarianza total.



Figura 4: Botn estadsticos



2.1.- Verificacin de los supuestos.
Una de los supuestos necesarios para el mtodo es la igualdad de las matrices de
covarianza de grupo. Por ejemplo, las varianzas de longitud deben ser iguales en los dos
grupos razas ( o en todos los grupos en un problema multivariado), y la varianzas
poblacional entre longitud y altura deben ser iguales para los grupos. En el caso de que
las observaciones en un grupo sigan una distribucin normal multivariadas, los grupos
formaran elipsoides de concentracin de puntos, los cuales estaran construidos usando
la misma media, la desviacin estndar y la matriz de covarianza de cada grupo.

El SPSS provee el estadstico multivariado M de Box para probar la hiptesis nula que
las matrices de covarianzas son iguales.
Los valores de esta tabla Logaritmo de los determinantes dan una indicacin de las
matrices de covarianzas que ms difieren. En esta tabla se observan una dispersin de
los puntos del grupo 2 relativamente menor al otro grupo.





Logaritmo de los determinantes
Tipo
Rango
Logaritmo
del
determinante
1,00 5 16,164
2,00 5 15,773
Intra-grupos
combinada
5 16,727


Pgina
19


ANLSIS MULTIVARIADO
2012
Logaritmo de los determinantes
Tipo
Rango
Logaritmo
del
determinante
1,00 5 16,164
2,00 5 15,773
Intra-grupos
combinada
5 16,727
Los rangos y logaritmos naturales de los
determinantes impresos son los de las matrices
de covarianzas de los grupos.

Los resultados de la prueba se muestran en la tabla a continuacin. La hiptesis nula de
igual en las matrices de covariancias poblacionales no se rechaza. Note, sin embargo,
puede existir situaciones con matrices de covarianzas poblacionales no son demasiado
diferentes, en donde la prueba puede ser significativa. Esto puede ocurrir cuando los
tamaos muestrales intra-grupos son grandes o cuando es violada el supuesto de
normalidad multivariada.

Resultados de la prueba
M de Box 22,371
F Aprox. 1,218
gl1 15
gl2 3489,901
Sig. ,249
Contrasta la hiptesis nula
de que las matrices de
covarianzas poblacionales
son iguales.

Adems, es importante comparar las desviaciones estndar de cada variable dentro de
los grupos. En la tabla Estadstico del grupo es posible analizar estas diferencias de las
variables. Se observa que anchura de la cara presenta la mayor diferencia de las
varianzas en el grupo 1 y longitud en el grupo 2. Las otras variables no evidencia
diferencias en las varianzas.

Estadsticos de grupo
Tipo
Media
Desv.
tp.
N vlido (segn lista)
No
ponderados Ponderados
1,00 Longitud 174.8235 6.74755 17 17,000
Anchura 139.3529 7.60297 17 17,000
Altura 132.0000 6.00781 17 17,000


Pgina
20


ANLSIS MULTIVARIADO
2012
Altura.Cara 69.8235 4.57555 17 17,000
Anchura.Car
a
130.3529 8.13704 17 17,000
2,00 Longitud 185.7333 8.62692 15 15,000
Anchura 138.7333 6.11166 15 15,000
Altura 134.7667 6.02633 15 15,000
Altura.Cara 76.4667 3.91183 15 15,000
Anchura.Car
a
137.5000 4.23843 15 15,000
Total Longitud 179.9375 9.36513 32 32,000
Anchura 139.0625 6.84123 32 32,000
Altura 133.2969 6.08258 32 32,000
Altura.Cara 72.9375 5.39078 32 32,000
Anchura.Car
a
133.7031 7.44427 32 32,000

La siguiente matiz de covarianza permite comparar las varianzas de las variables en los
grupos.

Matrices de covarianzas
Tipo Longitu
d Anchura Altura
Altura.Car
a
Anchura.Car
a
1,00 Longitud 45,529 25,222 12,391 22,154 27,972
Anchura 25,222 57,805 11,875 7,519 48,055
Altura 12,391 11,875 36,094 -,313 1,406
Altura.Cara 22,154 7,519 -,313 20,936 16,769
Anchura.Car
a
27,972 48,055 1,406 16,769 66,211
2,00 Longitud 74,424 -9,523 22,737 17,794 11,125
Anchura -9,523 37,352 -11,263 ,705 9,464
Altura 22,737 -11,263 36,317 10,724 7,196
Altura.Cara 17,794 ,705 10,724 15,302 8,661
Anchura.Car
a
11,125 9,464 7,196 8,661 17,964

El estadstico Lambda de Wilks (Pruebas de la igualdad de las medias de los grupos) es
usado para probar la hiptesis nula que la media de todas las variables a travs de los
grupos son iguales. Los valores del estadstico lambda de Wilks son de 0 a 1. Los
valores ms pequeos indican una fuerte diferencias entre los grupos. Segn la tabla, los
valores del estadstico F indica que las diferencias son altamente significativas de las
medias de las variables entre los dos grupos, excepto para la variables Anchura y Altura.


Pgina
21


ANLSIS MULTIVARIADO
2012

Pruebas de igualdad de las medias de los grupos

Lambda de
Wilks F gl1 gl2 Sig.
Longitud ,651 16,072 1 30 ,000
Anchura ,998 ,063 1 30 ,803
Altura ,947 1,685 1 30 ,204
Altura.Cara ,610 19,210 1 30 ,000
Anchura.Car
a
,763 9,315 1 30 ,005

Modelo discriminante.

El propsito principal de una anlisis discriminante esta relacionado al tema de la
clasificacin predictiva de casos. Una vez que el modelo ha sido terminado y las
funciones discriminantes derivadas, debemos preguntarnos que tan bien podemos
predecir la pertenencia de un caso a un
grupo particular.



Funciones de clasificacin
Estas funciones son usadas para determinar la pertenencia de un caso a grupo. Se
obtienen tantas funciones de clasificacin como grupos existan. Las columnas de la
tabla coeficientes de la funcin de clasificacin contiene los coeficientes de la funcin
para cada grupo. Los coeficientes son calculados para maximizar las distancia entre los
dos grupos.

Coeficientes de la funcin de
clasificacin

Tipo
1,00 2,00
Longitud 1,468 1,558
Anchura 2,361 2,205
Altura 2,752 2,747
Altura.Cara ,775 ,952
Anchura.Cara ,195 ,372
(Constante) -514,956 -545,419
Funciones discriminantes lineales de
Fisher

La funcin de clasificacin para los 32 crneos en el Tbet para el grupo 1 es:

Z1 = 1.468 longitud + 2.361 Anchura + 2.752 Altura + 0.775 Altura.Cara + 0.195
Anchura.Cara 514.956


Pgina
22


ANLSIS MULTIVARIADO
2012

La funcin de clasificacin para los 32 crneos en el Tbet para el grupo 2 es:

Z2 = 1.558 longitud + 2.205 Anchura + 2.747 Altura + 0.952 Altura.Cara + 0.372
Anchura.Cara 545.419

Cada funcin permite calcular los puntajes de clasificacin para cada caso. Una vez
realizado esto, es fcil decidir como clasificar el caso: en general, un casos se dice
pertenecer a un grupo cuando su puntaje clasificacin a aquel grupo es mayor que a
otros grupos.

Funcin discriminante lineal de Fisher. Cuando hay dos grupos pueden utilizarse las
funciones clasificacin para obtener la funcin discriminante lineal. En un diagrama de
dispersin esta funcin representa a una lineal que divide a los dos grupos. Los
coeficientes de la funcin discriminante lineal son calculados mediante la diferencia
entre los coeficientes de las funciones de clasificacin 1 y 2.

FD = (1.468-1.558) longitud + (2.361-2.205) Anchura + (2.752-2.747)Altura+ (0.775-
0.952) Altura Cara + (0.195-0.372) AnchuraCara + (-514.956+545.419)

FD = -0.09 longitud +0.156Anchura +0.005Altura -0.177 Altua Cara 0.177
Anchura.Cara + 30.463

Resumen de la funcin cannica discriminante.

Autovalores.
Mide la dispersin del centroides de los grupos. En este caso el autovalor es uno que
indica que los centroides de los dos grupos estn relativamente cerca. El autovalor
corresponde al cociente entre la suma de cuadrados intra-grupos y suma de cuadrados
inter-grupos.

Correlacin cannica
Mide la asociacin entre los puntajes discriminantes y los del grupo. Cuando hay
solamente dos grupos sta es la correlacin de Pearson..


















Pgina
23


ANLSIS MULTIVARIADO
2012
Autovalores
Funcin
Autovalor
% de
varianza
%
acumulado
Correlacin
cannica
d
i
m
e
n
s
i
o
n
0
1 ,930
a
100,0 100,0 ,694
a. Se han empleado las 1 primeras funciones discriminantes
cannicas en el anlisis.

Lambda de Wilks.
Este indica la proporcin de la varianza total en los puntajes discriminantes que no son
explicados por las diferencias entre los grupo. En este caso, casi el 50% de la varianza
no es explicada por las diferencias de los grupos. El lambda es docimado con una
distribucion X. Con una X de 18.083 se tiene que la diferencia entre los dos centroides
es significativa, considerando las medias de las variables simultneamente.

Lambda de Wilks
Contraste de
las funciones
Lambda de
Wilks
Chi-
cuadrado gl Sig.
dimensi
on0
1 ,518 18,083 5 ,003


Matriz de estructura.
Una manera para determinar que variables son las que definen una funcin
discriminante es observar las correlaciones intra-grupo de cada variable predictora con
la variable cannica o funcion discriminante (mostradas en la matriz de estructura).
Haciando una anlogia al anlisis factorual, esstos correalaciones pueden pensarse como
cargas factoriales de las variables en cada funcion discriinante.











Pgina
24


ANLSIS MULTIVARIADO
2012
Matriz de estructura

Funcin
1
Altura.Cara ,830
Longitud ,759
Anchura.Car
a
,578
Altura ,246
Anchura -,048
Correlaciones intra-grupo combinadas entre las
variables discriminantes y las funciones
discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la
correlacin con la funcin.

Funciones en los centroides de los grupos.
Esta tabla indica los valores tomados por las funciones discriminantes cannicas no
tipificadas evaluadas en las medias de los grupos.

Funciones en los centroides de los
grupos
Tipo Funcin
1
1,00 -,877
2,00 ,994
Funciones discriminantes cannicas
no tipificadas evaluadas en las
medias de los grupos

Clasificacin de los casos.
Estadsticos por caso.
Esta tabla. permite comparar la informacin de los miembros de su grupo actual a los
miembros pronosticados por el mtodo. La pertenencia de un caso a uno de los dos
grupos, se calcula a travs de la funciones de clasificacin. Adems se entrega la
probabilidad de pertenencia de un caso a uno de los dos grupos.





Pgina
25


ANLSIS MULTIVARIADO
2012



Por ejemplo, para el caso 2 (Argentina) el puntaje de pertenencia a las zonas es:

Z1 = 1.468 longitud + 2.361 Anchura + 2.752 Altura + 0.775 Altura.Cara + 0.195
Anchura.Cara 514.956
La funcin de clasificacin para los pases en la zona templada son.

Z2 = 1.558 longitud + 2.205 Anchura + 2.747 Altura + 0.952 Altura.Cara + 0.372
Anchura.Cara 545.419
.
172.5 132 125.5 63 121

Z1=1.468*172.5+2.361*132+2.752*125.5+0.775*63+0.195*121-514.956 =467.722

Z2=1.558*172.5+2.205*132+2.747*125.5+0.952*63+0.372*121-545.419=464.1325

El puntaje de pertenencia del crneo 2 es mayor para el grupo 1. Por lo
tanto, el crneo 2 es clasificado como perteneciente a la raza 2.



Pgina
26


ANLSIS MULTIVARIADO
2012
Distancias Mahalanobis (D2)
Esta es una medida de distancias entre dos puntos en un espacio definido por dos o ms
variables (dimensiones) correlacionadas . Por ejemplo, si hay dos variables que no estn
correlacionadas, entonces las distancias Mahalanobis entre los puntos insertos en un
espacio bidimensional seria idntica a la distancia Euclidiana, esto es, la distancia, por
ejemplo, medida por una regla. ahora bien, en los casos de tener dos variables
correlacionadas los ejes que definen el espacio ya no serian ortogonales, por lo tanto, la
distancia Euclidiana no correspondera a una mtrica apropiada, mientras que la
distancias Mahalanobis explicara adecuadamente las similitudes entre los puntos.

Distancias Mahalanobis y la probabilidad de pertenencia de los casos. A cada grupo
puede definirse un punto que representa las media del grupo. Estos puntos son llamados
centroides del grupo. Entonces, para cada punto asociado a un caso puede calcularse las
distancias Mahalanobis con respecto a los centroides de los grupos. Por lo tanto,
podemos clasificar los casos pertenecientes a un determinado grupo, de acuerdo con el
criterio de la menor de las distancias Mahalanobis. Los casos con grandes valores
distancias Mahalanobis de la media del grupo pueden ser identificados como casos
atpicos. Para muestras grandes de una distribucin normal multivariada, la distancia
Mahalanobis de una caso a la media de su grupo es distribuida aproximadamente como
una c2 con grados de libertad igual al nmero de variables en la funcin.

La probabilidad de pertenencia indica que tanto se identifica un caso a las caractersticas
de un determinado grupo. Estas probabilidades son derivadas de las distancias
Mahalanobis.
Por ejemplo, la probabilidad de pertenecer el crneo 2 al grupo 1 (0.311) es bastante
alta comparada a la probabilidad de pertenencia al grupo 2 (0,022). Estas probabilidades
son derivadas del calculo de las distancias Mahalanobis entre el caso y el centroide del
grupo.

Prediccin.
Un resultado que cualquiera debera observar para determinar que tan bien las funciones
de
clasificacin pronostica que los casos sean miembros de un grupo es la matriz de
clasificacin.

Resultados de la clasificacin. Esta tabla muestra el nmero (o porcentaje) de casos
clasificados correctamente e incorrectamente. Entre los 32 craneos en el Tibet (grupo
1), 14 (82.4%) estn clasificados correctamente y 3 (17.6%) estn clasificados
incorrectamente. Para el grupo 2, 12 (80%) los 32 craneos en el Tibet estn
clasificados correctamente y 3 (20%) estn mal clasificados. En general, el 81.3% de los
casos de la muestra estn clasificados correctamente.











Pgina
27


ANLSIS MULTIVARIADO
2012
Resultados de la clasificacin
a


Tipo Grupo de pertenencia
pronosticado
Total

1,00 2,00
Original Recuento 1,00 14 3 17
2,00 3 12 15
% 1,00 82,4 17,6 100,0
2,00 20,0 80,0 100,0
Clasificados correctamente el 81.3% de los casos agrupados
originales.



Seleccin de variables

En los anlisis de discriminante se trabaja con muchas variables, evidentemente
algunas sern ms inuyentes que otras a la hora de discriminar a un individuo en un
grupo u otro. Lo que intentaremos con esta opcin ser utilizar solo aquellas variables
ms inuyentes con lo que simplicaremos el modelo.

Para seleccionar las variables tendremos que, en la ventana del anlisis seleccionar
usar mtodo de seleccin de variables, al hacer esto el botn de Mtodo se activa,
pudiendo seleccionar en esta ventana el mtodo por el cual se elegirn las variables a
utilizar. En nuestro caso usaremos el mtodo de la Lambda de Wilks.

Seleccin de variables


Una vez elegidas las variables con las que trabajar volveramos a repetir el anlisis
pero solo para esas variables.


Variables introducidas/excluidas
a,b,c,d



Pgina
28


ANLSIS MULTIVARIADO
2012
Paso
Introducidas
Lambda de Wilks
Estadstico gl1 gl2 gl3
F exacta
Estadstico gl1 gl2 Sig.
1 Altura.Cara ,610 1 1 30,000 19,210 1 30,000 ,000
En cada paso se introduce la variable que minimiza la lambda de Wilks global.
a. El nmero mximo de pasos es 10.
b. La F parcial mnima para entrar es 3.84.
c. La F parcial mxima para salir es 2.71
d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los clculos.


Variables en el anlisis
Paso Tolerancia F para salir
1 Altura.Cara 1,000 19,210

Por lo que en el modelo solo entran la variable Altura.Cara, simplicndose de modo
importante el modelo. Esto puede ser debido a que las otras variables presenten
multicolinealidad o que no aporten informacin a la discriminacin.

Coeficientes de las
funciones cannicas
discriminantes

Funcin
1
Altura.Cara ,234
(Constante) -17,047
Coeficientes no tipificados

Ecuacion optima :

D= 0.234 Altura.Cara -17.047


EJEMPLOS:
Anlisis Discriminante de 2 grupos:

Anlisis Discriminante Mltiple:

You might also like