Professional Documents
Culture Documents
El procedimiento de Análisis Discriminante es diseñado para ayudar a distinguir entre dos o más
grupos de datos basados en un conjunto de p variables cuantitativas observadas. Esto se hace
construyendo funciones discriminantes que son combinaciones lineales de las variables. El objetivo
de tal análisis es generalmente uno o ambos de los que siguen:
1. La habilidad para describir los casos observados matemáticamente de una manera que los
separa en grupos tan bien como sea posible.
2. La habilidad para clasificar nuevas observaciones como pertenencia a uno u algunos
grupos.
Las funciones discriminantes derivadas pueden utilizarse para clasificar nuevos casos dentro de los grupos. Las
probabilidades a priori de pertenencia para cada grupo serán ingresadas o derivadas de los datos observados.
D= u1 X1 + u2 X2 + + uk Xk
La matriz X'X es una matriz simétrica expresada en desviaciones respecto a la media, por
lo que puede considerarse como la matriz T de suma de cuadrados (SCPC) total de las
variables (explicativas) de la matriz X.
X'X = T = F + V
Con este criterio se trata de determinar el eje discriminante de forma que las distribuciones
proyectadas sobre el mismo estén lo más separadas posible entre sí (mayor variabilidad
entre-grupos) y, al mismo tiempo, que cada una de las distribuciones esté lo menos
dispersa (menor variabilidad intra-grupos).
maximizar λ =
u'Fu
u' Wu
2Fu(u' W u) 2 W u(u'Fu)
0 2Fu(u' W u) 2 W u(u'Fu) 0
u (u' W u)2
El resto de los ejes discriminantes vendrán dados por los vectores propios asociados a los
valores propios de la matriz W-1 F ordenados de mayor a menor. Así, el segundo eje
discriminante tendrá menos poder discriminante que el primero, pero más que cualquiera
de los restantes.
En el caso de análisis discriminante con dos grupos, los coeficientes (u1, u2, , uk )
normalizados correspondientes a las coordenadas del vector propio unitario asociado al
mayor valor propio de la matriz W-1 F obtenidos en el proceso de maximización, pueden
contemplarse como un conjunto de cosenos directores que definen la situación del eje
discriminante.
Con el criterio de la distancia de Mahalanobis se calculan para el punto i, las dos distancias
siguientes
EJEMPLO:
En la actualidad, el director del banco tiene otras dos nuevas solicitudes. El primer solicitante
dispone de un patrimonio neto de 10,1 (en diez mil euros) con unas deudas pendientes de 6,8 (en diez
mil euros). Para el segundo solicitante los valores de estas variables son 9,7 en patrimonio neto y 2,2
en deudas pendientes. ¿Cómo deberá reaccionar el director del banco, con la información que tiene
recogida?
El director con la información recogida sobre las variables patrimonio neto y deudas pendientes
trata de construir una función discriminante que clasifique con los menos errores posibles a los
clientes en dos grupos (fallidos y no fallidos).
Fallidos No Fallidos
Patrimonio Deuda Patrimonio Deuda
Cliente Cliente
neto pendiente neto pendiente
1 1,3 4,1 9 5,2 1,0
2 3,7 6,9 10 9,8 4,2
3 5,0 3 11 9,0 4,8
4 5,9 6,5 12 12,0 2,0
5 7,1 5,4 13 6,3 5,2
6 4,0 2,7 14 8,7 1,1
7 7,9 7,6 15 11,1 4,1
8 5,1 3,8 16 9,9 1,6
Total 40 40 Total 72 24
Media 5 5 Media 9 3
El punto de corte C1 se utilizará para clasificar a los clientes que se les ha concedido el préstamo. Si el
patrimonio neto es menor que 7 (en diez mil euros) se clasifica al cliente como fallido (I) , mientras
que se clasifica como no fallido (II) si el patrimonio neto es mayor que esa cifra.
Con este criterio, se refleja el porcentaje de clasificaciones correctas e incorrectas en cada grupo.
Del total de 16 clientes se ha clasificado correctamente a 12, lo que equivale a un 75% del total. En
concreto, se ha clasificado incorrectamente como fallidos a los clientes 5 y 7. Por el contrario, se
han clasificado erróneamente como no fallidos a los clientes 9 y 13.
Se utiliza la variable deudas pendientes como variable clasificadora, a la que se designa por X2 ,
para ver si se obtienen o no mejores resultados que con X1
Si las deudas pendientes son mayores que 4 (en diez mil euros) se clasifica al cliente como
fallido (I) , mientras que se clasifica como no fallido (II) si las deudas pendientes son menores que
esa cifra.
Del total de 16 clientes se ha clasificado correctamente a 9, lo que equivale a un 56,25% del total. En
concreto, se ha clasificado incorrectamente como fallidos a los clientes 3, 6 y 8. Por el contrario, se
han clasificado erróneamente como no fallidos a los clientes 10, 11, 13 y 15.
Los resultados obtenidos con esta segunda variable clasificadora son peores, ya que se clasifican
correctamente al 56,25% de los clientes.
Se han utilizado las dos variables clasificadoras de forma separada. Cabe preguntarse si se puede
mejorar el porcentaje de clientes clasificados correctamente si se utilizan las dos variables
clasificadoras de forma conjunta.
Para calcular la función discriminante de Fisher se utilizan las variables explicativas patrimonio neto
y deudas pendientes. Los centros de gravedad o centroides de los dos grupos son:
D 1,036 x X1 0,932 x X2
Sustituyendo en la función anterior X1, X2 por las medias X1,I y X2,I del grupo I, se obtiene:
Bajo las hipótesis señaladas, la función discriminante obtenida por Fisher es óptima. No
obstante, la hipótesis de que las variables clasificadoras sigan una distribución normal no
sería razonable para variables categóricas (utilizadas frecuentemente en el análisis
discriminante como variables clasificadoras). Conviene señalar que, cuando se utilizan
variables de este tipo, la función discriminante lineal de Fisher no tiene el carácter de
óptima.
H0 : 1 2
La hipótesis nula y alternativa para dar respuesta a la cuestión (c) son:
H1: 1 2
1
u'Fu
donde es precisamente el valor de la ratio que se obtiene al maximizar λ =
u' z
COMPARACIÓN DE GRUPOS
La Prueba de Lambda de Wilks compara las varianzas entre sí, mientas que la Prueba
de Box compara la igualdad de las covarianzas.
Desde el punto de vista práctico, la comparación de grupos (tanto la Prueba de Box como
la de Wilks) solo se utiliza para saber si se puede realizar el análisis discriminante