You are on page 1of 74

Caso práctico

Referencias

Diseño de procesos ETL

Carolina Sarmiento

Programa de Ingenierı́a de Sistemas


Facultad de Ingenierı́a
Universidad ECCI

Octubre de 2018

Carolina Sarmiento Diseño ETL


Caso práctico
Referencias

Contenido

1 Caso práctico
Contexto
Diseño con PDI
Estrategia del proceso ETL (1)
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

2 Referencias

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Campos del archivo log

Considerar que se administra una única aplicación que está alojada en un


servidor apache. El archivo log resultante está en combined log format, lo
que significa que los campos que incluye en cada lı́nea del archivo son:

IP: desde la que se accede a un recurso de la aplicación.

RFC 1413: identificador de la máquina en la red (uso interno). Este


valor para aplicaciones web externas suele estar vacı́o.

Usuario remoto: identificador del usuario. Este valor para


aplicaciones web externas suele estar vacı́o.

Fecha: en formato [dd/MMM/yyyy:HH:mm:ss-XXXX].

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Campos del archivo log

Recurso: aquello a lo que se accede.

Resultado: respuesta por parte del servidor que cubre los diferentes
escenarios posibles.

Tiempo: segundos que se tarda en acceder al recurso.

Referente: desde donde se accede al recurso.

User-agent: información del sistema operativo y del navegador que


han sido usados para acceder al recurso.

Para este caso se prescindirá de la información que proporcionan los


campos: RFC 1413, usuario remoto y tiempo.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Situación inicial

El inicio corresponde a seis ficheros con los que se procederá a una carga
inicial del data warehouse:

1 access.log: contiene la información de acceso a la aplicación web.

2 navegador.csv: contiene un listado de navegadores base.

3 protocolo.csv: contiene los protocolos de acceso estándar.

4 resultado.csv: contiene el resultado que puede proporcionar el


servidor a un acceso.

5 so.csv: contiene un listado de sistemas operativos base.

6 Allagents.xml: contiene un listado de robots que frecuentemente


visitan páginas web para indexarlas; este fichero permitirı́a categorizar
las visitas de los robots.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Situación inicial

El inicio corresponde a seis ficheros con los que se procederá a una carga
inicial del data warehouse:

1 access.log: contiene la información de acceso a la aplicación web.

2 navegador.csv: contiene un listado de navegadores base.

3 protocolo.csv: contiene los protocolos de acceso estándar.

4 resultado.csv: contiene el resultado que puede proporcionar el


servidor a un acceso.

5 so.csv: contiene un listado de sistemas operativos base.

6 Allagents.xml: contiene un listado de robots que frecuentemente


visitan páginas web para indexarlas; este fichero permitirı́a categorizar
las visitas de los robots.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Situación inicial

El inicio corresponde a seis ficheros con los que se procederá a una carga
inicial del data warehouse:

1 access.log: contiene la información de acceso a la aplicación web.

2 navegador.csv: contiene un listado de navegadores base.

3 protocolo.csv: contiene los protocolos de acceso estándar.

4 resultado.csv: contiene el resultado que puede proporcionar el


servidor a un acceso.

5 so.csv: contiene un listado de sistemas operativos base.

6 Allagents.xml: contiene un listado de robots que frecuentemente


visitan páginas web para indexarlas; este fichero permitirı́a categorizar
las visitas de los robots.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Situación inicial

El inicio corresponde a seis ficheros con los que se procederá a una carga
inicial del data warehouse:

1 access.log: contiene la información de acceso a la aplicación web.

2 navegador.csv: contiene un listado de navegadores base.

3 protocolo.csv: contiene los protocolos de acceso estándar.

4 resultado.csv: contiene el resultado que puede proporcionar el


servidor a un acceso.

5 so.csv: contiene un listado de sistemas operativos base.

6 Allagents.xml: contiene un listado de robots que frecuentemente


visitan páginas web para indexarlas; este fichero permitirı́a categorizar
las visitas de los robots.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Situación inicial

El inicio corresponde a seis ficheros con los que se procederá a una carga
inicial del data warehouse:

1 access.log: contiene la información de acceso a la aplicación web.

2 navegador.csv: contiene un listado de navegadores base.

3 protocolo.csv: contiene los protocolos de acceso estándar.

4 resultado.csv: contiene el resultado que puede proporcionar el


servidor a un acceso.

5 so.csv: contiene un listado de sistemas operativos base.

6 Allagents.xml: contiene un listado de robots que frecuentemente


visitan páginas web para indexarlas; este fichero permitirı́a categorizar
las visitas de los robots.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Situación inicial

El inicio corresponde a seis ficheros con los que se procederá a una carga
inicial del data warehouse:

1 access.log: contiene la información de acceso a la aplicación web.

2 navegador.csv: contiene un listado de navegadores base.

3 protocolo.csv: contiene los protocolos de acceso estándar.

4 resultado.csv: contiene el resultado que puede proporcionar el


servidor a un acceso.

5 so.csv: contiene un listado de sistemas operativos base.

6 Allagents.xml: contiene un listado de robots que frecuentemente


visitan páginas web para indexarlas; este fichero permitirı́a categorizar
las visitas de los robots.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Situación inicial

Los seis ficheros son creados partiendo de la situación real en la que


normalmente en la carga inicial (la que se realizará en este caso) se
precargan las dimensiones.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Estrategia del proceso ETL

1 Cargar las dimensiones navegador, protocolo, resultado y so a


partir de los ficheros .csv.

2 Complementar las dimensiones restantes a partir de la


información presente en el fichero access.log y alimentar la tabla de
hecho de visitas.

3 Crear un trabajo para lanzar todas las transformaciones de una


manera única.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Notación

Para las transformaciones: TRA ETL INI Nombre de la


dimensión o tabla de hecho a cargar.

Para los trabajos: JOB CARGA INI Nombre de la


dimensión o tabla de hecho a cargar.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Diseño con Pentaho Data Integration


Estructura del proyecto AEW (Análisis de Estadı́sticas Web)

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Diseño con Pentaho Data Integration


Estructura del proyecto AEW (Análisis de Estadı́sticas Web)

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Diseño con Pentaho Data Integration


Ficheros de la carpeta ETL

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Diseño con Pentaho Data Integration


Fuentes de origen

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Estrategia del proceso ETL

1 Cargar las dimensiones navegador, protocolo, resultado y so a


partir de los ficheros .csv.

2 Complementar las dimensiones restantes a partir de la


información presente en el fichero access.log y alimentar la tabla de
hecho de visitas.

3 Crear un trabajo para lanzar todas las transformaciones de una


manera única.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Carga de dimensiones

1 Creación de los procesos ETL (transformaciones) para cada uno de


los ficheros:
1 TRA ETL INI PROTOCOLO
2 TRA ETL INI SO
3 TRA ETL INI RESULTADO
4 TRA ETL INI NAVEGADOR

2 Carga de los ficheros CSV, ya preparados en el formato de la


base de datos, de manera que cargan directamente.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Transformación ETL: TRA ETL INI PROTOCOLO

1 Lectura del fichero CSV.

2 Insertar/actualizar de la base de datos a partir de la información


extraı́da del fichero.

Fuente: [Curto, 2016]

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Transformación ETL: TRA ETL INI PROTOCOLO

Información del fichero protocolos

Fuente: [Curto, 2016]

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar lectura del fichero

Para parametrizar el paso de lectura, se usa el paso text file input


disponible en Input:

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar lectura del fichero


Para parametrizar el paso de lectura, se usa el paso text file input y se
realiza el siguiente proceso:
a. Se define el fichero que es la fuente de origen en la pestaña file.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar lectura del fichero

b. Se define cuál es el separador y cómo está encapsulado el texto en la


pestaña content.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar lectura del fichero

c. Se definen los campos a cargar en la pestaña fields, con ayuda del


botón get fields.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar Insertar/Actualizar

Para parametrizar el paso Insertar/Actualizar, se usa el paso insert/update


disponible en Output:

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar Insertar/Actualizar

d. Se inserta la información mediante el paso insert/update, con los


siguientes parámetros:

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar Insertar/Actualizar

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar Insertar/Actualizar

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar Insertar/Actualizar

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar Insertar/Actualizar

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Parametrizar Insertar/Actualizar

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Carga de dimensiones: navegador, resultado y so

El proceso descrito anteriormente, se realiza de forma equivalente


para las demás dimensiones que se cargan a partir de los ficheros
CSV: navegador, resultado y so.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Estrategia del proceso ETL

1 Cargar las dimensiones navegador, protocolo, resultado y so a


partir de los ficheros .csv.

2 Complementar las dimensiones restantes a partir de la


información presente en el fichero access.log y alimentar la tabla de
hecho de visitas.

3 Crear un trabajo para lanzar todas las transformaciones de una


manera única.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Contenido del fichero log


La información del fichero access.log está en la forma de un log de un
servidor de Apache.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para cargar datos al fichero log


La siguiente transformación permite cargar el resto de las dimensiones y la
tabla de hecho y sus atributos:

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

a. Lectura del fichero log con el que se recuperan los campos que
forman parte del flujo de información usando el paso text file input.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Carga del fichero log

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

Campos del fichero log

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

b. La información que no será usada se descarta mediante el paso


select / rename values (los campos que no se seleccionan desaparecen
del flujo).

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

Selección de campos relevantes

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

c. Se filtra la información de robots para dejar únicamente visitas.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


El paso Dummy es un marcador de posición para fines de prueba.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Filtrado de robots

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

d. La fecha se extrae como una cadena y se borra el carácter sobrante


mediante el paso string cut.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

Cortar cadena

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

e. Se actualiza la dimensión recurso a partir de la información entrante


y se recupera el id recurso mediante el paso combination lookup /
update, que hace una búsqueda o actualiza.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Actualizar dimensión recurso

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

f. Se completan los nulos del campo referente mediante el paso replace


null value.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Tratamiento de los valores nulos

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

g. Se actualiza la dimensión referente a partir de la información


entrante y se recupera el id referente mediante el paso combination
lookup / update.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Actualizar dimensión referente

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

h. A partir de la información en el campo agente usuario, se determina


el navegador y sistema operativo mediante el paso script value modified
javascript.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Determinar navegador y sistema operativo mediante script

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

i. Se determina la fecha mediante el paso script value modified


javascript.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

Determinar fecha mediante script

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

Determinar fecha mediante script

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

j. Se actualiza la fecha y se recupera el id fecha mediante el paso


combination lookup / update.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Actualizar dimensión fecha

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

k. Se recupera id resultado de la base de datos a partir de la


información en el flujo mediante el paso combination lookup / update.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Recuperar id resultado

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

l. Se actualiza la dimensión cliente remoto y se recupera el


id cliente remoto mediante el paso combination lookup / update.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Actualizar dimensión cliente remoto

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

m. Se añade el protocolo y el contador mediante el paso add constant


values.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

Añadir protocolo y visitas como constante

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

n. Se actualiza la dimensión protocolo y se recupera el id protocolo


mediante el paso combination lookup / update.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Actualizar dimensión protocolo

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

ñ. Se quitan del flujo los campos que no son necesarios mediante el
paso select / rename values.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

Filtrar valores relevantes

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS

o. Se inserta la información en la tabla de hecho visitas mediante el


paso table output.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Pasos para la transformación TRA ETL INI VISITAS


Insertar tabla de hecho

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Estrategia del proceso ETL

1 Cargar las dimensiones navegador, protocolo, resultado y so a


partir de los ficheros .csv.

2 Complementar las dimensiones restantes a partir de la


información presente en el fichero access.log y alimentar la tabla de
hecho de visitas.

3 Crear un trabajo para lanzar todas las transformaciones de una


manera única.

Carolina Sarmiento Diseño ETL


Contexto
Diseño con PDI
Caso práctico
Estrategia del proceso ETL (1)
Referencias
Estrategia del proceso ETL (2)
Estrategia del proceso ETL (3)

Trabajo para ejecutar transformaciones

a. Se diseña un trabajo para ejecutar de modo secuencial todas las


transformaciones.

Carolina Sarmiento Diseño ETL


Caso práctico
Referencias

Referencias

Cano, Josep.
Business Intelligence: Competir con Información
Banesto, Fundación Cultural; Escuela Banespyme; ESADE 2007.
Curto, Josep.
Fundamentos de inteligencia de negocio
Universitat Oberta de Catalunya 2016.

Carolina Sarmiento Diseño ETL

You might also like