Professional Documents
Culture Documents
MiriadaX:IntroduccinalBusinessIntelligence
Acompanhar Sejaoprimeirodos
seusamigosaseguir
espaol portugus
Follow@miriadax
Mi Pgina
Cursos
Universidades e instituciones
(UTC )
Concenos
Salir
Soporte
Syllabus
Foro
Documentacin
Mdulos
Mdulo 1. Introduccin al sistema de
BI
Mdulo 2. Arquitectura de sistemas de
BI
Mdulo 3. Business Analytics:
Clustering
Introduccin al business analytics
Clustering jerrquico
Alumnos
EnelalgoritmodeAnlisisdeComponentesPrincipales:
EnelalgoritmodeAnlisisdeComponentesPrincipales:
a) Los ejes con menor varianza son elegidos como aquellos que minimizan el
error cuadrtico.
b) Se eligen los ejes de proyeccin que minimizan el error cuadrtico de
reconstruccin.
c) Los ejes de proyeccin se corresponden con los primeros vectores propios
de mayor valor propio asociado.
d) Las respuestas b) y c) son correctas.
La respuesta correcta es la d), los vectores propios de mayor valor propio asociado son los elegidos
para implementar la proyeccin (respuesta c) ), y esta proyeccin minimiza el error cuadrtico de
reconstruccin. La primera respuesta slo sera correcta si dijera: ejes con mayor varianza), en lugar
de menor varianza.
ElalgoritmoPCA:
a) Sirve para proyectar los datos a una dimensin superior, donde son
linealmente separables
b) Sirve para proyectar los datos a una dimensin inferior, donde los datos son
linealmente separables.
c) Sirve para proyectar los datos a una dimensin inferior, minimizando el error
de reconstruccin en los datos.
d) Se aplica a problemas que no siguen una distribucin Gaussiana.
EjercicioprcticoenR:AnlisisdeComponentesPrincipales.Enesteejercicioimplementaremos
un ejemplo prctico de Anlisis de Componentes Principales en lenguaje R. Para ello es
imprescindiblehabervisualizadoyentendidolosvideosdeteora,consusejemplosasociados.
Para instalar el lenguage R, podes bajar la ltima versin para vuestro sistema operativo en:
http://www.rproject.org/. Los videos de teora se han realizado mediante un entorno de
programacin llamado RStudio, que es completamente gratuito y podis obtener en:
http://www.rstudio.com/products/rstudio/download/.
Despus de bajar el entorno, podis ejecutar las instrucciones R que os detallamos a
https://www.miriadax.net/web/introduccionalbusinessintelligence/reto?p_p_id=execactivity_WAR_liferaylmsportlet&p_p_lifecycle=1&p_p_state=normal
1/3
07/03/2015
MiriadaX:IntroduccinalBusinessIntelligence
continuacin.Lasprimeraslneasdecdigoson:
#Lecturadelosdatosautilizar
#Base de datos de ejemplo, con atributos numricos sobre clientes de un banco. Se intenta
predecirsiselevaaconcederelcrditoalclienteonocliente
dataBank<read.table("http://archive.ics.uci.edu/ml/machinelearning
databases/statlog/australian/australian.dat",sep="")
#Visualizarunresumendelosdatos
summary(dataBank)
En ellas leemos un conjunto de datos de la UCI Machine Learning Repository. Estos datos
pertenecenalsetStatlogAustralianCreditApproval,ycontieneunconjuntodeatributosdelos
clientesdeunbanco.Lavariableobjetivoconsisteenintentarpredecirsiselevaaconcederun
determinadocrditoaunclienteapartirdelosdatospersonalesydesuscuentas.
Losdatoshansidopreprocesados,convertidosconvenientementeaformatonumricoysehan
eliminadolosvaloresausentes.
Elprimerejercicioconsistirenaveriguarcuntosatributostienennuestrosdatos(enlavariable
dataBank).
Idea:ParaellopodismirarenlaventanaEnvironmentdelentornoRStudio,ousarlafuncin
ncol().
Cuantosatributostienenlosdatosbancariosdelejercicio?
a) 15
b) 20
c) 5
d) 690
La respuesta correcta es la a). La ejecucin: ncol(dataBank) nos devuelve el valor 15.
Aadiremosahoralainstruccin:
print(cumsum(pcasdev)/sum(pcasdev))
Apartirdecuantascomponentesyapreservamosel99%delainformacinpresenteenlosdatos
(varianza)?
a) 10
b) 4
c) 2
d) 5
https://www.miriadax.net/web/introduccionalbusinessintelligence/reto?p_p_id=execactivity_WAR_liferaylmsportlet&p_p_lifecycle=1&p_p_state=normal
2/3
07/03/2015
MiriadaX:IntroduccinalBusinessIntelligence
Las siguientes instrucciones dibujan, en dos dimensiones, los datos proyectados en las dos
primerascomponentes.
#Ejercicio10:Dibujarlasdoscomponentesprincipalesdelosdatos
scores<pca$scores
plot(scores[,1],scores[,2])
#Dibujarlosdatosmedianteunplot2Dymedianteuncolordistintoparacadacomponente
plot(scores[labels==1,1],scores[labels==1,2],col="red")
points(scores[labels==0,1],scores[labels==0,2],col="green")
Apartirdelplotresultante:
a) Se observa que los datos son linealmente separables.
b) Los datos resultantes presentan solapamiento entre las dos clases.
c) No se puede proyectar los datos en un espacio 2D.
d) El grfico resultante explica una mnima parte de la varianza de los datos.
La respuesta correcta es la d). Mirando el grfico se puede ver como los datos estan muy solapados
entre las dos clases, siendo imposible de separar linealmente. El grfico es posible, puesto que
usamos dos valores (invalidando la respuesta c) y adems son las dos componentes que explican el
99% de la varianza (invalidando la respuesta d).
ElalgoritmodeAnlisisdeComponentesPrincipales,es:
a) Un algoritmo de extraccin de caractersticas que minimiza el error
quadrtico de reconstruccin.
b) Un algoritmo de extraccin de caractersticas que minimiza el error de
clasificacin de los datos de test.
c) Un algoritmo de extraccin de caractersticas no lineal que minimiza el error
quadrtico de reconstruccin.
d) Un algoritmo de extraccin de caractersticas no lineal que minimiza el error
de clasificacin de los datos de test.
Realizar de nuevo
anterior
2012-2014 Mirada X
Aviso legal
Siguiente
Poltica de cookies
Poltica de privacidad
https://www.miriadax.net/web/introduccionalbusinessintelligence/reto?p_p_id=execactivity_WAR_liferaylmsportlet&p_p_lifecycle=1&p_p_state=normal
3/3