Professional Documents
Culture Documents
Los textos e imgenes publicados en esta obra estn sujetos excepto que se indique lo contrario a una licencia de
Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 Espaa de Creative Commons. Podis copiarlos, distribuirlos
y transmitirlos pblicamente siempre que citis el autor y la fuente (FUOC. Fundacin para la Universitat Oberta de Catalunya),
no hagis de ellos un uso comercial y ni obra derivada. La licencia completa se puede consultar en http://creativecommons.org/
licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND PID_00197284 Algoritmos
ndice
Introduccin............................................................................................... 5
2. Visualizacin de datos...................................................................... 57
3. Anexo..................................................................................................... 62
3.1. Distancia o similitud ................................................................... 62
3.2. Estadstica y lgebra .................................................................... 68
3.2.1. Estadstica ....................................................................... 68
3.2.2. lgebra ........................................................................... 70
Resumen....................................................................................................... 72
Bibliografa................................................................................................. 73
CC-BY-NC-ND PID_00197284 5 Algoritmos
Introduccin
rbol de decisin
Asociaciones
Regresin
K-NN
Redes neuronales
K-Means
CC-BY-NC-ND PID_00197284 7 Algoritmos
Una de las ventajas de este tipo de clasificacin es que podemos evaluar la bon-
Tipos de aciertos:
Tipos de errores:
Proporciones:
Precisinyrecall
Supongamos que para un cliente sabemos que hace dos temporadas el 80% de
las ventas se concentraron en 10 productos de nuestra cartera.
Para este modelo diremos que su precisin es 5/8, mientras que su recall es
5/10, es decir, tiene una precisin del 62,50% y un recall del 50%.
De modo que podemos decir que la precisin es la parte de las instancias cla-
sificadas que eran correctas, mientras que el recall es la parte de las instancias
correctas que han sido clasificadas.
CC-BY-NC-ND PID_00197284 10 Algoritmos
el aprendizaje por refuerzo consiste en aprender a decidir, ante una situacin determi-
nada, qu accin es la ms adecuada para lograr un objetivo.
Por otro lado, tambin hay un fuerte componente asociativo, puesto que las
acciones seleccionadas se asocian a la situacin concreta en la que fue tomada.
De hecho, como siempre, la realidad es mucho ms compleja que la teora y
en el caso de los algoritmos de aprendizaje reforzado lo que se les exige es que
esta asociacin no se haga de forma individualizada accin a accin, sino que
se haga de forma agrupada.
CC-BY-NC-ND PID_00197284 12 Algoritmos
El funcionamiento es el siguiente:
Destacar que k-NN es muy sensible a la variable k, de modo que valores dis-
tintos nos pueden arrojar resultados tambin muy distintos. Este valor suele
fijarse tras un proceso de pruebas con varias instancias test.
Tirar un dado con 6 caras al aire puede darnos 6 posibles resultados {1, 2,
Tirar una moneda al aire puede darnos 2 posibles resultados {cara, cruz}.
donde es la
Para empezar, calculemos la entropa de todo el juego de datos Ex. Como hay
6 instancias con clase no y 9 instancias con clase s, tendremos que:
Determinemos el valor de las entropas parciales, para cada valor del atributo
edad:
Puesto que de entre las instancias con atributo edad = joven tenemos 3 clases
no y 2 clases s:
Puesto que una vez fijado el valor edad = medio, tenemos 2 clases no y 3 clases
s:
CC-BY-NC-ND PID_00197284 16 Algoritmos
Puesto que una vez fijado el valor edad = mayor, tenemos 4 clases no y 1 clase
s.
1.4.1. Generalidades
Probar el modelo de la figura sera tan simple como partir de una instancia
nueva e ir respondiendo las preguntas desde el nodo principal, hasta llegar a
una hoja donde quedara determinada la clase a la que nuestro modelo asigna
la instancia prueba.
Siguiendo con la pregunta anterior, uno deseara que el modelo resultante tu-
viera dos propiedades, la de ser reducido, puesto que facilita su comprensin,
y la de ser preciso, puesto que perseguimos la prediccin.
De modo que se plantea el reto de, dado un juego de datos, construir el mejor
modelo posible en trminos de tamao y precisin.
En este caso, C4.5 tomar como nodo principal el atributo Tiene casa que ge-
nerar dos particiones, la de Tiene Casa = Verdadero con 6 instancias en clase
s y la de Tiene Casa = Falso que constituir el nuevo juego de datos (parte
sombreada en la siguiente figura) para la siguiente iteracin.
Inconvenientes
Como forma de superar este inconveniente, C4.5 tambin puede utilizar como
criterio de seleccin de atributos, la ratio ganancia. Esta se define como:
Discretizacindeatributoscontinuos
Para atributos con valores continuos, C4.5 lo que hace es discretizarlos en dos
intervalos, ya que se considera suficiente. Para ello, analiza la ganancia del
atributo para cada una de las posibles selecciones de intervalo y aquel intervalo
que ofrece mayor ganancia es el seleccionado.
Elsobreentrenamiento
Este hecho hace que haya una tendencia a generar rboles con muchos nodos
y nodos con muchas hojas. Este tipo de rboles grandes suelen tener:
Las redes neuronales han demostrado ser una buena aproximacin a proble-
mas donde el conocimiento de estos es impreciso o variante en el tiempo. Su
capacidad de aprender convierte a las redes neuronales en algoritmos adapta-
tivos y elaborados a la vez.
es el vector de pesos que iremos ajustando, en funcin del criterio del algo-
ritmo.
Tiposdefuncionesdeactivacin
Elperceptrnsimple
Esta red tan solo consta de una capa de neuronas, en contraposicin al per-
ceptrn multicapa.
Redesenfuncindeltipodepropagacin
Una red de neuronas artificial puede pensarse como un grafo formado por
neuronas organizadas por capas y relacionadas por conexiones que determi-
nan la direccin del grafo. En funcin de esta direccin, podemos clasificar
las redes:
La expresin matemtica que describe una red de neuronas podra ser la si-
guiente:
Elprocesodeaprendizaje
Redesenfuncindelparadigmadeaprendizaje
Redesenfuncindelasreglasdeaprendizaje
Aprendizajesupervisado
Aprendizajenosupervisado
Modeloshbridos
Backpropagation.Redesdepropagacinhaciaatrs.
Trataremos este algoritmo por separado, por ser posiblemente uno de los cla-
sificadores ms potentes que hayan existido hasta el momento. De hecho, en
los ltimos aos se ha posicionado de forma permanente en las mejores posi-
ciones en benchmarking de inteligencia artificial.
Tal y como indica la figura 8, al no conocer las salidas esperadas para las neu-
ronas internas, lo que se hace es propagar el error hacia atrs, desde la salida
de la red hasta el origen de la misma.
Vladimir Vapnik
Con esta frase Vladimir Vapnik daba a entender el porqu de los reconocidos
resultados del mtodo de las mquinas de soporte desarrollado en los aos
noventa fruto de sus trabajos sobre aprendizaje estadstico.
Las SVM son capaces de producir buenos modelos para resolver problemas de
clasificacin binaria, pero tambin para tareas de regresin, de multiclasifica-
cin y de agrupamiento. Estas propiedades han llevado a las SVM a ser consi-
derados los mejores algoritmos para aplicaciones de clasificacin de texto.
Funcioneskernel
CC-BY-NC-ND PID_00197284 27 Algoritmos
Tcnicamente, para garantizar que la funcin kernel es realmente un producto Funcin kernel
escalar en el espacio F, exigiremos que sea simtrica y semi-definida positiva.
Diremos que nuestra funcin
kernel es simtrica si cumple
En la siguiente figura vemos cmo en el espacio de entradas, la funcin que es que k(x,y)=k(y,x) para todo x,y
del espacio X.
capaz de separar puntos de estrellas es una funcin no lineal, sin embargo, en Diremos que nuestra funcin
kernel es semidefinida positiva
el espacio de caractersticas, la funcin que separa puntos de estrellas es lineal. si cumple que k(x,y)>=0 para
todo x,y del espacio X.
Figura 9. SVM Funcin kernel
La gran utilidad de las funciones kernel es que nos permite utilizar algoritmos
lineales como SVM para abordar problemas no lineales. Adems, esto es posi-
ble hacerlo sin necesidad de conocer explcitamente la funcin kernel.
Margendelhiperplano
Parece lgico preguntarse con cul de estas rectas obtenemos una mejor sepa-
racin. Otros algoritmos no se preocupan en absoluto de esta cuestin y selec-
cionan la primera recta que clasifica correctamente todos los casos.
Todas las rectas de la figura clasifican correctamente todos los casos, sin em-
bargo, grficamente parece obvio que la recta con mayor grosor es la ms p-
tima de todas. Recordemos que la recta de separacin se construye en base a
un juego de datos de entrenamiento y que se le exige que para futuros datos
sea tambin capaz de clasificar correctamente.
Bajo estas premisas parece razonable pensar que la mejor recta ser aquella
que est ms alejada de los dos grupos de puntos, dicho de otra forma, ser
aquella recta que defina una frontera ms ancha entre los dos grupos, ya que
de este modo tendr ms margen para clasificar los futuros puntos.
CC-BY-NC-ND PID_00197284 29 Algoritmos
Para una recta dada, definiremos su margen como la menor de las distancias
entre:
Es posible demostrar que este problema no presenta extremos locales. Este he-
cho facilita el procedimiento de bsqueda de la recta que maximice el margen.
Entendemos por extremos de una funcin como los valores ms grandes, mximos, o los
valores ms pequeos, mnimos, que toma la funcin en todo el dominio de la funcin
o en una regin concreta del dominio.
Si los extremos se toman con referencia a todo el dominio de la funcin, diremos que se
trata de extremos globales o absolutos.
Si los extremos se toman con referencia a una regin concreta del dominio de la funcin,
diremos que se trata de extremos locales.
Clasificadorlinealbasadoenproductoescalar
Esto nos ayudar mucho a comprender mejor cmo funciona la funcin signo
en SVM.
Procederemos a calcular los centroides de cada grupo, centroide p para las ins-
tancias de clase +1 y centroide n para las instancias de clase -1.
CC-BY-NC-ND PID_00197284 30 Algoritmos
Tabla 4. Centroides
Centroide
Clase Prod A Prod B Prod C Prod D
Por centroide entendemos
+1 5,00 3,25 1,40 0,20 Centroide p un punto medio, es decir, un
punto que simtricamente es-
tara en el centro.
-1 5,85 2,90 4,15 1,35 Centroide n
Con los centroides definidos, ya podemos construir una funcin signo del
modo siguiente:
Obtencindelhiperplanodeseparacin
De modo que ;
De modo que
Conclusiones
Para aquellos casos en los que la frontera entre clases positivas y clases nega-
tivas no es una funcin lineal (recta o hiperplano) deberemos recurrir a una
funcin kernel que nos transforme un problema no lineal, de separacin en
el espacio X de datos de entrada, en un problema lineal, de separacin en un
espacio de caractersticas.
LimitacionesdelasSVM
Solo funcionan para espacios numricos, de forma que para atributos categ-
ricos ser necesario un proceso previo de conversin de valores categricos a
numricos.
Por ejemplo, una forma de hacerlo sera crear un nuevo atributo para cada
valor categrico, asignndole un valor 1 si el valor aparece y un 0 si el valor
no aparece.
Solo est pensado para separar entre dos clases. Para casos de clasificacin entre
mltiples clases se pueden usar varias estrategias, como la comparacin de uno
contra el resto.
Asimismo, diremos que son de tipo divisivo cuando partiendo de un grupo que
contiene todos los datos, se procede a una divisin progresiva hasta conseguir
tener un grupo para cada dato. En este caso hablaremos de segmentacin.
1.7.2. Dendrogramas
Criteriosdeenlace
Puede ser apropiado para encontrar grupos de forma no elptica, sin embargo,
es muy sensible al ruido en los datos y puede llegar a provocar el efecto cadena.
Este consiste en el hecho de que puede llegar a forzar la unin de dos grupos,
que a priori deberan permanecer bien diferenciados, por el hecho de que estos
compartan algn elemento muy prximo.
No produce el efecto cadena, pero es sensible a los valores outliers, sin embargo,
suele dar mejores resultados que el criterio simple.
Se trata de un criterio que trata de mitigar los inconvenientes de los dos ante-
riores sin acabar de resolverlos por completo.
4) Enlace centroide
La distancia entre dos grupos ser la distancia entre sus dos centroides. Presen-
ta la ventaja de que su coste computacional es muy inferior al de los criterios
anteriores, de modo que est indicado para juegos de datos de gran volumen.
5) Repetir los pasos 3 y 4 hasta que ningn cambio sea capaz de proporcionar
alguna mejora.
El algoritmo k-means
Ejemplok-means
ritmo k-means tomando k=2 y tomando como semillas iniciales los casos 1 y 3.
Particin0
De modo que
De modo que
De modo que
Particin1
Nuestro criterio para valorar si las siguientes particiones son mejores o no ser
el de minimizar la distancia de los casos a sus respectivos centros.
Ahora deberemos cambiar cada caso de clster siempre que el cambio suponga
una mejora en el valor
Como este cambio mejora el valor del criterio S, lo daramos por bueno.
La idea brillante que subyace a esta tcnica es que podemos reducir drstica-
mente el nmero de clculos que requieren los algoritmos aglomerativos co-
mo k-means, introduciendo un proceso previo de generacin de grupos su-
perpuestos (canopies) a partir de una mtrica ms sencilla de calcular (cheapest
metric).
Una vez visto de forma grfica cmo evoluciona el algoritmo, quiz se enten-
der con ms facilidad su enunciado.
Canopy clustering
Marcar todos los puntos contenidos en un cierto umbral, como puntos del mismo
canopy
Ventajaseinconvenientes
Existen varias tcnicas para superar estos problemas. Un ejemplo podra ser el
de utilizar un mtodo de clustering ms eficiente, con el objetivo de conseguir
muchos pequeos clsteres, y posteriormente utilizar solo los centroides de
estos pequeos clsteres para aplicar un algoritmo jerrquico.
Qualgoritmoutilizar?
Es una constante a lo largo del estudio de los distintos algoritmos del mbito
clustering plantearse la siguiente pregunta.
factores principales obtenidos, as como del signo y magnitud de sus correla- Para poder entender el funcio-
ciones, que debern ser interpretadas con respecto al significado del juego de namiento del PCA se requieren
algunas herramientas bsicas
datos. Lo veremos mediante un ejemplo. que nos proporcionan la es-
tadstica y el lgebra. Se reco-
mienda leer los anexos de es-
tadstica y lgebra donde se in-
1.9.1. Mtodo del anlisis de componentes principales troducen definiciones de con-
ceptos bsicos y no complejos,
pero fundamentales para en-
Desarrollaremos el mtodo sobre la base de un ejemplo para facilitar su com- tender PCA.
prensin.
Primerpaso:Sustraerlamedia
Tal y como apreciamos en la tabla 6, nuestro primer paso ser sustraer la media
de cada atributo y calcular la covarianza entre ambos atributos.
Una covarianza positiva ya nos indica que en la mayora de las zonas de venta
ambos productos se encuentran conjuntamente por encima o por debajo de
sus respectivas medias.
CC-BY-NC-ND PID_00197284 44 Algoritmos
Segundopaso:Obtenerlamatrizdecovarianza
Tercerpaso:Vectoresyvalorespropios
Los vectores y los valores propios de la matriz de covarianza son los siguientes:
Cuartopaso:Proyeccindelosdatossobrelosvectoresprincipales
El siguiente paso ser proyectar los datos originales corregidos con la media,
sobre nuestro nuevo eje de coordenadas, formado por nuestros vectores pro-
pios o componentes principales.
-0,8280 -0,1751
1,7776 0,1429
-0,9922 0,3844
-0,2742 0,1304
CC-BY-NC-ND PID_00197284 45 Algoritmos
-1,6758 -0,2095
-0,9129 0,1753
0,0991 -0,3498
1,1446 0,0464
0,4380 0,0178
1,2238 -0,1327
Quintopaso:Interpretacindelosresultados
Con la proyeccin de los datos sobre los nuevos ejes, en realidad lo que esta-
mos haciendo es representar los datos en funcin de los patrones que existen
entre los atributos o variables originales.
Con la proyeccin tenemos representados los puntos (las ventas por zonas de
cada uno de los dos productos) en funcin de la contribucin de las ventas
de cada producto al total de ventas. Hemos pasado de ver datos absolutos a
ver datos relativos.
1.10. Asociaciones
Estudiemos el ejemplo que nos propone Bing Liu en su libro Web Data Mining,
en el que se nos presenta un grupo de transacciones T, que se corresponden
con siete cestas de la compra, realizadas en una tienda.
t2 Bistec, queso
t3 Queso, botas
, donde ,y
Soporte(support)
Soporte
El soporte nos da una idea del grado de cobertura de una regla. En definitiva,
es el porcentaje de transacciones que aglutinan o bien X o bien Y.
Para valores demasiado bajos, nos indica que la regla no va a ser de gran uti-
lidad por su escasa incidencia.
Esperanza(confidence)
Esperanza
CC-BY-NC-ND PID_00197284 48 Algoritmos
Valores demasiado bajos nos indicarn que la regla ser poco fiable.
Funcingeneracindecandidatos
Funcindepoda
La funcin anterior nos habr generado una lista de candidatos. Sobre esta
lista se aplicar un proceso de poda o eliminacin, consistente en exigir que
cualquier subconjunto de (k-1) elementos del candidato de k elementos, deba
haber superado el soporte mnimo establecido.
CC-BY-NC-ND PID_00197284 49 Algoritmos
Funcinseleccindecandidatos
1-tupla Frecuencia
Queso 5
Bistec 4
Pollo 4
Leche 4
Ropa 3
Botas 1 descartada
2-tupla Frecuencia
Bistec, queso 3
Bistec, pollo 3
Pollo, ropa 3
Pollo, leche 4
CC-BY-NC-ND PID_00197284 50 Algoritmos
2-tupla Frecuencia
Ropa, leche 3
La funcin de seleccin de candidatos nos descarta todos los pares con soporte
1/7 o 2/7 < 30%.
3-tupla Frecuencia
(Queso, pollo) con un soporte 2/7 < 30% que provoca la eliminacin, por
poda, de todo el subconjunto de 3 productos.
Generacin de reglas
Para dar un paso ms, generaremos las reglas de asociaciones del siguiente
modo.
Regla 2: pollo, leche ropa con esperanza 3/4 < 80% se descarta
De este modo se define soporte de una regla como el mnimo soporte de entre
los productos que la componen.
Tomando el ejemplo anterior, tenemos que el soporte para el par (bistec, que-
so) = 3/7 > 30%, su hubiramos establecido para el bistec un soporte mnimo
del 60% y para el queso del 70%, a esta regla se le exigira un soporte mnimo
del 60%.
Este modelo es lo que conocemos por regresin. Para entender bien los fun-
damentos de la regresin, empezaremos por desarrollar un ejemplo prctico
de regresin lineal simple.
Regresinlinealsimple
CC-BY-NC-ND PID_00197284 53 Algoritmos
La regresin lineal simple trabaja solo con dos variables, una explicatoria, ha-
bitualmente el eje de las x, y otra variable a predecir, habitualmente el eje y.
Visitas Ventas
x y xx xy yy
La regresin lineal simple encuentra una recta que atraviesa los n puntos del
juego de datos, de tal forma que consigue hacer mnima la suma de las distan-
cias entre los puntos del juego de datos y los puntos equivalentes en la recta
de regresin.
CC-BY-NC-ND PID_00197284 54 Algoritmos
Es posible demostrar que bajo estas premisas los valores de alfa y beta sern:
Esta recta, adems, posee una propiedad interesante, beta, su pendiente, coin-
cide con el coeficiente de correlacin entre ambas variables, corregido por la
Regresinlinealmltiple
Para predecir las ventas por cliente, adems de utilizar el nmero de visitas
que nuestro comercial realiza al cliente en un perodo de tiempo, tambin
podramos haber utilizado variables explicatorias adicionales, como el nmero
de artculos diferentes que el cliente suele comprar de nuestro catlogo.
Otrostiposderegresin
CC-BY-NC-ND PID_00197284 56 Algoritmos
Regresin exponencial .
Regresin cuadrtica .
Linealizacin
Por un lado podemos pensar la regresin logartmica como una regresin li-
neal en la que la variable independiente o explicatoria en lugar de ser x es
log(x).
Por otro lado, utilizando las propiedades de las operaciones con logaritmos,
podramos llegar a convertir una regresin exponencial en lineal.
Causalidad
Es importante tener en cuenta que el hecho de que dos variables estn rela-
cionadas no significa necesariamente que una sea causa de la otra, ya que per-
fectamente puede existir una tercera variable explicatoria que influya tambin
directamente sobre la variable a predecir.
En nuestro ejemplo, donde hemos encontrado una relacin lineal directa en-
tre el nmero de visitas que un comercial hace a sus clientes y la facturacin
obtenida por cliente, no podemos decir que los incrementos de facturacin se
deben exclusivamente al incremento de visitas, puesto que podran tambin
deberse a una tercera variable, como puede ser las acciones comerciales de la
competencia.
Extrapolacin
Otro error comn es el de extrapolar resultados ms all del rango de las varia-
bles explicatorias. Trasladndonos a nuestro ejemplo, no podemos extrapolar
ninguna conclusin para casos ms all de 20 visitas porque perfectamente
podramos provocar la fatiga del cliente y conseguir un descenso de ventas en
lugar de un incremento.
CC-BY-NC-ND PID_00197284 57 Algoritmos
2. Visualizacin de datos
Otros grficos muy utilizados son los grficos de superficie (surface plot), ma-
pas jerarquizados (tree map), grficos de lnea con mltiples variables (parallel
coordinate plot) y dendrogramas (ver figura 12).
Informamos de los rangos de entrada y de clases. Esto nos genera una tabla de fre-
cuencias por clase.
Visualdatadiscovery
CC-BY-NC-ND PID_00197284 59 Algoritmos
Multidimensionalscaling
En nuestro caso, a travs del scree plot vemos claramente como 2 dimensiones
son suficientes para explicar la mayora de la variabilidad de la informacin
en el juego de datos.
A modo de resumen, algunos autores consideran MDS scaling como una alter-
nativa al anlisis de factores, de hecho podramos ver MDS como un comple-
mento visual del anlisis de factores, contribuyendo de este modo a una ma-
yor comprensin grfica de la estructura de los datos.
CC-BY-NC-ND PID_00197284 62 Algoritmos
3. Anexo
1)Distanciaeuclidiana
Inconveniente
CC-BY-NC-ND PID_00197284 63 Algoritmos
Por ejemplo:
Parece claro que cuando calculemos la distancia o similitud entre dos indi-
viduos, pesar injustamente mucho ms la longitud de la cola que la edad.
2)DistanciaestadsticaodeGauss
Para superar la distorsin provocada por las diferentes unidades de medida Distancia estadstica
usadas en las distintas variables estudiadas, tenemos la distancia estadstica,
Debemos este avance al bri-
que simplemente normaliza la variables para situarlas todas bajo la misma llante matemtico alemn,
escala. Carl Friedrich Gauss (1777
1855).
Inconveniente
3)DistanciadeMahalanobis
Relacindelastresdistancias
Desarrollemosunejemplo
Primero observamos que en nuestro juego de datos las dos variables no estn
expresadas en la misma escala, porque de lo contrario tendran varianza 1 y
adems las dos variables no son totalmente independientes, porque si no ten-
dran covarianza 0. Con este juego de datos tenemos la matriz de covarianza
EuclidesnosdiraqueCestmscercadeA:
LadistanciaestadsticatambinnosdiraqueCestmscercadeA:
CC-BY-NC-ND PID_00197284 66 Algoritmos
VeremosqueparaMahalanobisBeselpuntomscercanoaAynoC.
Mahalanobiscomobuendetectordeoutliers
CC-BY-NC-ND PID_00197284 67 Algoritmos
Veremos cmo, segn la distancia euclidiana, los tres puntos son equidistan-
tes, esto es porque esta distancia no tiene en cuenta la densidad de puntos.
CC-BY-NC-ND PID_00197284 68 Algoritmos
Observamos que estos puntos, segn Euclides, son equidistantes tal y como
nos indica nuestra intuicin.
3.2.1. Estadstica
La media .
El siguiente estadstico nos ser til para poder comparar pares de variables
X, Y:
CC-BY-NC-ND PID_00197284 69 Algoritmos
Vistos los conceptos estadsticos que necesitamos, vamos ahora a por los con-
ceptos algebraicos. Dada una matriz M, estudiaremos qu son sus vectores pro-
pios y sus valores propios.
3.2.2. lgebra
Interpretacindelosvectorespropios
Podemos pensar el producto de una matriz por un vector como una trans-
formacin del vector o como una proyeccin del vector v sobre una recta o
sobre un plano. Pues bien, si se cumple significa que el vector v ya
se encuentra en la recta o plano de proyeccin de la matriz.
Propiedadesdelosvectorespropios
Todos los vectores propios de una matriz son perpendiculares entre s. Esta
propiedad es crucial puesto que significa que podemos representar todas
las instancias del juego de datos en funcin de las nuevas coordenadas
formadas por los vectores propios.
Valorespropios(eigenvalues)
Un valor propio mayor indica que su vector propio asociado explica la mayor
parte de la variabilidad de la matriz o juego de datos. Esta propiedad nos per-
mitir ordenar los vectores propios por relevancia y poder determinar si des-
cartamos los vectores propios menos representativos con el objetivo de reducir
la dimensionalidad del juego de datos, perdiendo as, una mnima cantidad
de informacin por ello.
Calcularvectoresyvalorespropios
Excede del mbito de este material didctico profundizar en este tipo de opera-
ciones. Sin embargo, merece la pena comentar que existen herramientas soft-
ware como R o Matlab que disponen de funciones para realizar estos clculos.
Resumen
Bibliografa
McCallum, A.Efficient Clustering of High-Dimensional Data Sets with Application to Reference
Matching.
Nisbert, R.;Elder, J.; Miner, G. (2009). Handbook of Statistical Analysis and Data Mining
Applications. Academic Press.
Hastie, T.; Tibshirani, R.; Friedman, J. (2001). The elements of statistical learning. Nueva
York: Springer.
Hernndez Ovallo, J.; Ramrez Quintana, M. J.; Ferri Ramrez, C. (2004). Introduc-
cin a la minera de datos. Madrid: Pearson Prentice-Hall.
Artculos