You are on page 1of 5

"Big Data Analysis"

(Mtodos especiales para bases de datos gigantes)

Descripcin:

En este curso se presentarn tcnicas y modelos


especiales para la manipulacin y la aplicacin de la
Minera de Datos en bases de datos gigantes, para
esto se har uso de paquetes especialmente
diseados en R para el manejo de este tipo de bases
de datos.
Adems se har uso de modelos del Anlisis de Datos
Simblicos debido a que es una herramienta muy
poderosa para poder resumir las bases de datos lo
cual permite ejecutar modelos descriptivos y
predictivos en este tipo datos.

Objetivos:
En este curso el estudiante ser capaz de:
1. Comprender la necesidad de usar paquetes especializados de R para procesar
grandes bases de datos.
2. Aprovechar las ventajas del computador para trabajar con una matemtica ms
experimental en grandes volmenes de datos y lograr as una mejor aproximacin
a lo concreto en matemtica.
3. Estudiar los fundamentos tericos de los mtodos factoriales y de la clasificacin
simblica.
4. Reconocer en el anlisis de datos simblico una herramienta que con frecuencia
se utilizar en la Minera de Datos aplicada.
5. Entender la necesidad de la utilizacin de modelos simblicos para el
descubrimiento de conocimiento en grandes volmenes de datos.
6. Conocer los principales modelos, tcnicas y algoritmos simblicos utilizados para
descubrir el conocimiento en grandes volmenes de datos.

Contenido:
1. "Big Data" no es los mismo que " A lot of Data"
2. Uso de los paquetes de R: RSDA, ff, bigmemory y bigtabulate
3. Introduccin a los datos simblicos
a. Tablas simblicas.
b. Definicin de objeto simblico.
c. De las bases de datos relacionales a los datos simblicos.
4. Estadsticas bsicas sobre datos simblicos
a. Media, varianza, mediana, entre otros.
b. Covarianza, correlacin, entre otros.
5. Mtodos de regresin para datos de tipo intervalo
6. Anlisis en Componentes Principales para datos de tipo intervalo
a. Mtodo de las esquinas
b. Mtodo de los centros
7. Anlisis en Componentes Principales para datos de tipo histograma
8. Anlisis de Correspondencias para datos de tipo conjunto
9. Mutidimensional Scaling para datos de tipo intervalo
a. Mtodos factoriales
b. Mtodos de mayorizacin
10. Clasificacin automtica
a. Medidas de similitud y disimilitud entre objetos simblicos.
b. Clasificacin jerrquica
c. Clasificacin piramidal.
11. rboles de decisin simblicos

Bibliografa:
1. Billard, L. and Diday E. Symbolic data analysis: Conceptual statistics and data
mining. Wiley, New York, 2006.
2. Bock H-H. and Diday E. (eds.) Analysis of Symbolic Data. Exploratory methods for
extracting statistical information from complex data. Springer Verlag, Heidelberg,
425 pages, ISBN 3-540-66619-2, 2000.
3. Cazes P., Chouakria A., Diday E. et Schektman Y. Extension de l'analyse en
composantes principales des donnes de type intervalle. Rev. Statistique
Applique, Vol. XLV Num. 3., pag. 5-24, Francia, 1997.
4. Chouakria A. Extension des mthodes d'analyse factorielle des donnes de type
intervalle. Thse de doctorat, Universit Paris IX Dauphine.
5. Diday E. and Rodrguez, O. (eds.) Workshop on Symbolic Data Analysis. PKDD
Lyon-France, 2000.
6. Groenen P.J.F., Rodrguez O., Winsberg S. and Diday E. IScal: Symbolic
Multidimensional

Scaling

of

Interval

Dissimilarities.

In

COMPUTATIONAL

STATISTICS & DATA ANALYSIS the Official Journal of the International


Association for Statistical Computing, Vol. 51, Nov. 2006.
7. Meneses E. and Rodrguez O. Using symbolic objects to cluster web documents.
15th World Wide Web Conference, 2006.
8. Rodrguez O. Classification et Modles Linaires en Analyse des Donnes
Symboliques. Thse de doctorat, Universit Paris IX Dauphine, France, 2000.
9. Rodrguez O. The Knowledge Mining Suite (KMS). Publicado en ECML/PKDD
2004 The 15th European Conference on Machine Learning (ECML) and the 8th
European Conference on Principles and Practice of Knowledge Discovery in
Databases (PKDD), Pisa Italia, 2004.
10. Rodrguez O., Diday E. and Winsberg S. Generalization of the Principal
Components Analysis to Histogram Data. PKDD2000, Lyon-France, 2000.
11. Rodrguez O., Castillo W., Diday E. and Gonzlez J. Correspondence Factorial
Anlisis for Symbolic MultiValued Variables. Subjected for publication in Journal
of Symbolic Data Analysis, 2003.
12. Rodrguez O. and Pacheco A. Applications of Histogram Principal Components
Analysis. Publicado en ECML/ PKDD 2004 The 15th European Conference on

Machine Learning (ECML) and the 8th European Conference on Principles and
Practice of Knowledge Discovery in Databases (PKDD), Pisa Italia, 2004.