You are on page 1of 5

CLASIFICACIÓN DE MUESTRAS: ANÁLISIS DISCRIMINANTE Y DE

CLÚSTER.

Introducción.

El análisis de clusters y el análisis discriminante son métodos de clasificación de individuos en


categorías. La diferencia principal entre ellos escriba en que en el análisis discriminante se conoce
a priori el grupo de pertenencia, mientras que el análisis de cluster sirve para formar grupos
(conglomerados, clusters, racimos, etc.) lo más homogéneos posibles.

Análisis Discriminante.

El objetivo esencial del análisis discriminante es utilizar los valores previamente conocidos de las
variables independientes para predecir en qué categoría de la variable dependiente corresponde.
A veces el análisis discriminante se conoce en ocasiones como análisis de la clasificación, ya que
define una regla o esquema de clasificación que permita predecir la población a la que es más
probable que tenga que pertenecer una nueva observación. Es decir asignar nuevos individuos al
grupo que mejor corresponde en una clasificación ya establecida, construida a partir de individuos
distintos. Por otro lado, la importancia de este método reside en que haciendo un análisis previo
de la discriminación de las variables podemos evitar medir más variables en el campo, analizar
más elementos, etc., y conseguir una correcta clasificación de yacimientos, aguas, etc.

Para ello:

- Analizar/Clasificar/Discriminante
- Seleccionar:
- Variable de agrupación: asignar el grupo al que pertenece y se define el rango del
grupo (ej.: si hay dos grupos, el mínimo es 1 y máximo 2).
- Independientes: insertar las variables independientes.
- Estadísticos: Descriptivos (todas las opciones); Coeficientes de la función (No
tipificados).
- Clasificar: Probabilidades previas (Calcular según tamaños de grupos); Mostrar
(Visualización en SPSS) (Resultados para cada caso + Tabla resumen); Usar
matriz de covarianza (intra-grupos); Gráficos (seleccionar todas las opciones).

Los pasos que tenemos que seguir así como los estadísticos más importantes que hay que evaluar
en el análisis discriminante son:

1. Evaluar si las variables introducidas tienen poder discriminante: el Sig. (p-valor) < 0.05
en la prueba de igualdad de las medias de los grupos.
2. Comparación de grupos.
a. Comparación de la covarianza (prueba de Box): el Sig. (p-valor) < 0.05
b. Comparación de la varianza (lambda de Wilks): el Sig. (p-valor) < 0.05
3. ¿Qué variable tiene más peso en la función discriminante?: coeficientes estandarizados.
4. Función discriminante, F.
5. Estadísticos de clasificaciones: clasifica los nuevos casos.
Ejemplo:

Para clasificar un conjunto de arenas se eligieron dos variables: tamaño medio de grano (f) y el
coeficiente de selección (C). Dichas arenas proceden de playas actuales, cercanas a la costa
(Grupo A) y de la zona de plataforma (Grupo B) (Davis, 2002).

Posteriormente se analizan 4 muestras de arenas:

El objetivo de este ejemplo es encontrar una función (función discriminante) que clasifique a las
arenas analizadas como arenas de costa o de plataforma.

Siguiendo el esquema que anteriormente se ha presentado (haciendo hincapié en los puntos 1, 3,


4 y sobre todo el 5):

1. Evaluar si las variables introducidas tienen o no poder discriminante. Para ello se contrasta la
prueba de igualdad de las medias de los grupos (también se le llama Lambda de Wilks). La
variable introducida tiene poder discriminatorio si el Sig. (p-valor) < 0.05. En este ejemplo tanto
el tamaño medio de grano como el coeficiente de selección tiene un Sig. (p-valor) < 0.05 (ambas
variables tienen poder discriminante).

Esta prueba (Lambda de Wilks) nos indica que las medidas de cada variable son distintas en cada
grupo. Si p-valor (Sig.) < 0.05, entonces las variables son significativas, por lo que las varianzas
son distintas. Por el contrario, si p-valor (Sig.) > 0.05 las variables no son significativas, lo que
se traduce a que las varianzas de los Grupos A y B son iguales, en cuyo caso no tiene sentido
realizar el análisis discriminante.

2. Comparación de grupos. A parir de estas pruebas se puede aplicar el análisis discriminante al


conjunto de datos, ya que hay diferencias entre cada grupo. La prueba de Lambda de Wilks
compara las varianzas entre sí, mientas que la Prueba de Box compara la igualdad de las
covarianzas.

La prueba de Box sobre la igualdad de las matrices de covarianza, como se indica en el pie de la
tabla de resultados, contrasta la hipótesis nula de que las matrices de covarianza poblacionales
son iguales, es decir:

- Prueba de igualdad de las medias de los grupos (Prueba de Box):

Si Sig. (p-valor) < 0.05 > las covarianzas son distintas > aplicable análisis discriminante.

Si Sig. (p-valor) > 0.05 > las covarianzas son iguales > no aplicable análisis discriminante.

En el análisis discriminante es importante (aunque no necesario) que las matrices de covarianza


poblacionales sean distintas.

- Prueba de igualdad de las medias de los grupos (Lambda de Wilks):

Si Sig. (p-valor) < 0.05 > las varianzas son distintas > aplicable análisis discriminante.

Si Sig. (p-valor) > 0.05 > las varianzas son iguales > no es aplicable análisis discriminante.

A partir de esta prueba se puede aplicar el análisis discriminante al conjunto de datos, ya que hay
diferencias entre cada grupo.

Desde el punto de vista práctico, la comparación de grupos (tanto la Prueba de Box como la de
Wilks) solo nos servirá para saber si se puede realizar el análisis discriminante.

3. ¿Qué variables tienen mayor poder discriminatorio?

Para ello hay que estudiar los coeficientes estandarizados de las funciones discriminantes
canónicas. En la presente práctica la variable "coeficiente de selección" es más influyente en la
función discriminante que la variable "tamaño medio de grano".

4. Función discriminante.

Los test anteriores han evaluado de forma conjunta la función discrimante lineal, F, la cual se
define para esta práctica como:

F = A1X1 + A2X2 + A3.

Utilizando los valores obtenidos en la tabla de los coeficientes de las funciones canónicas
discriminantes, podemos construir la función, F, como:
F = 26.99·X1+18.66·X2 - 31.401.

Si el valor de F < 0, entonces, la muestra pertenece al grupo X1; si el valor de F > 0, entonces, la
muestra pertenece al grupo X2. Por ejemplo, si caracterizamos una arena y el valor del tamaño de
grano medio es 0.342 y el coeficiente de selección 1.24, ésta permanecería a una arena de
plataforma, grupo X2 debido a que F = 0.968 > 0.

5. Clasificación de los nuevos casos:

De los estadísticos por casos, se puede destacar la siguiente información:

- Grupo real: grupo al que pertenece cada caso.

- Grupo mayor: indica el grupo pronosticado por el análisis discriminante lineal, destacando si
está mal clasificado con **. Probabilidad de pertenecer al grupo pronosticado según la puntuación
discriminante obtenida.

- Puntaciones discriminantes, que son los valores que toma cada individuo en la función
discriminante lineal.

En el ejemplo las muestras que queremos clasificar se denominan como "desagrupado". Así las
muestras 1, 3 y 4 las clasifica como arenas de playa (A) y la muestra 2 como arenas de plataforma
(B).

You might also like