You are on page 1of 66

Mejores Prcticas de

DataWarehouse con SQL Server


Casos de referencia

Ing. Eduardo Castro, PhD


Speaker Bio

PASS Board of Directors LATAM Advisor Picture Here

PASS Regional Mentor for LATAM


Microsoft SQL Server MVP

ecastrom

edocastro

eduardocastrom

2
Derechos de autor

Este presentacin contiene informacin parcial de las siguientes fuentes

Prcticas reales: la escala del rendimiento MICROSOFT SQL Server 2008 Analysis SERVICIOS EN MICROSOFT ADCENTER

DBI407 Mejor Prcticas para la construccin 1 empresas soluciones de inteligencia empresarial de nivel con el anlisis de Microsoft SQL Server Servicios,
Adn Jorgensen

El diseo escalable y complejo Cubos servicio de anlisis, Denny Lee, Thomas Kejser

http://msdn.microsoft.com/en-us/library/dd758814 (v = SQL.100).aspx

http://technet.microsoft.com/en-us/library/cc966414.aspx

Almacenamiento de datos moderno, Minera y Visualizacin: Core Conceptos por George M. Marakas

Data Warehousing Diez Comn Los errores de Jon C. Choe

3
Data Warehouse: Una arquitectura de varios niveles
Controlar OLAP Server
Otras Metadatos Y
fuentes Integrador

Anlisis
Operacional Extraer
Pregunta
DBs Transformar Servir Informes
Datos
Cargar La minera
Refrescar Almacn
de datos

Data Marts

Fuentes de datos Almacenamiento de Datos OLAP Engine Herramientas de


aplicaciones para usuario

4
Arquitecturas OLAP Server

OLAP relacional (ROLAP)


Utilice relacional o relacional ampliada DBMS para almacenar y gestionar datos de
almacenes y OLAP media de consumo
Incluya optimizacin de DBMS backend, la implementacin de la lgica de navegacin
agregacin y herramientas y servicios adicionales
Mayor escalabilidad
OLAP multidimensional (MOLAP)
Escaso motor de almacenamiento multidimensional basada en arreglos
Indexacin rpida a los datos resumidos previamente calculados
OLAP hbrido (HOLAP) (Por ejemplo, Microsoft SQL Server)
La flexibilidad, por ejemplo, el bajo nivel: relacional de alto nivel: array

5
Uso de almacenamiento de datos

Tres tipos de aplicaciones de almacenamiento de datos


Tratamiento de la informacin
apoya la consulta, el anlisis estadstico bsico, y la presentacin de informes con tablas de
referencias cruzadas, tablas, cuadros y grficos
Procesamiento analtico
anlisis multidimensional de datos de almacenamiento de datos
apoya las operaciones bsicas de OLAP, rebanada-dados, perforacin, pivotantes
La minera de datos
descubrimiento de conocimiento a partir de patrones ocultos
apoya las asociaciones, la construccin de modelos analticos, realizar la clasificacin y
prediccin, y la presentacin de los resultados de minera de datos utilizando herramientas
de visualizacin

6
DW Arquitectura reas Componente Clave

Arquitectura de datos - cada rea en un negocio se basa en diferentes


dimensiones. Donde se cruzan es necesario definir el mismo (el cliente que
compra es el mismo proyecto).

Arquitectura Infraestructura - cuestiones de tamao, la escalabilidad y la


capacidad deben ser diseados y dimensionados.

Arquitectura tcnica - Este es impulsado por el catlogo de metadatos. Los


servicios deben elaborar los parmetros de las tablas.

http://courseware.finntrack.eu/it/data/marakas_dw_ch6.ppt 7
Variedad de datos
Archivos de Hadoop (almacenamiento no relacional)


8
El almacn de datos tradicional

2
Datos en
tiempo
real

1 3
Volumenes de Nuevo datos
datos fuentes y tipos
creciente Las fuentes de datos

9
Inclusin de datos no tradicionales

2
Datos en
tiempo
real

3
1 Nuevo datos
Volumenes de fuentes y tipos
datos
creciente Las fuentes de datos Los datos no relacionales

10
El almacn de datos moderna

Las fuentes de datos Los datos no relacionales

11
Big Data + BI tradicional = Nuevo Enfoque de Anlisis

Hadoop
010101010101010101
NoSQL
1010101010101010
01010101010101
101010101010

Tabular
OLAP Visualizacin
SQL
grandes
cantidades
de datos Polibase

12
Best Practice # 1

Usar un modelo de datos que se ha optimizado para la recuperacin de la


informacin

Modelo tridimensional
Sin normalizar
Enfoque hbrido

13
Best Practice # 2

Disear cuidadosamente la adquisicin de datos y procesos de limpieza para


su DW
Asegurar que los datos se procesan de manera eficiente y precisa
Considere la adquisicin de ETL y herramientas de limpieza de datos
salos bien!

14
Best Practice # 3

Disear una arquitectura de metadatos que permite el intercambio de


metadatos entre los componentes de su DW
Considerar los estndares de metadatos como Metamodelo Cmun de Datos de OMG
(CWM)

15
Disear el bus del Datawarehouse

Determinar qu dimensiones sern compartidos a travs de


mltiples data marts
Conformar las dimensiones compartidas
Producir una suite principal de dimensiones compartidas

Determinar qu hechos sern compartidos a travs de mercados de


datos
Conformar los hechos
Estandarizar las definiciones de los hechos

Ms informacin en http://www.slideshare.net/ecastrom/arquitecura-de-bodega-de-datos del 2013

16
Best Practice # 4

Adoptar un enfoque que consolida los datos en "una sola versin de la


verdad"
Data Warehouse Bus de Kimball
Dimensiones y Hechos

Ms informacin en http://www.slideshare.net/ecastrom/arquitecura-de-bodega-de-datos del 2013

17
Best Practice # 5

Considere la posibilidad de la aplicacin de un ODS slo cuando


los requisitos de recuperacin de informacin estn cerca de la
parte inferior de la pirmide de la abstraccin de datos y / o cuando
hay mltiples fuentes operativas que necesitan ser consideradas

Debe asegurarse que el modelo de datos est integrado, no slo


consolidada
Se puede considerar modelo de datos 3NF
Evite a toda costa un volcado de datos

18
Best Practice # 6

Crear un plan de capacidad para su aplicacin BI y monitorear


cuidadosamente
Considere la posibilidad de futuras demandas adicionales de
rendimiento
Establecer consultas de referencia de rendimiento estndar y ejecutar
regularmente tareas de comparacin de rendimiento
Implementar herramientas de control de capacidad
Construir escalabilidad en su arquitectura
Puede ser necesario para permitir escalar hacia arriba y hacia fuera!

19
El aumento Requisitos de hardware

El uso de SSD
Tamao de bloque
ROLAP

20
DBI407 Mejores prcticas para la construccin 1 empresas soluciones de inteligencia empresarial de nivel con Microsoft SQL Server Analysis Services, Adam Jorgensen
Uso de particionamiento para DW
1 Partition per Day
31 Partitions, 1 Month of Data

Facts Database

Current Day Partition


ALTER PARTITION FUNCTION PerDay ()
SPLIT RANGE(CAST(CONVERT(varchar, GETDATE()+1, 112) AS int))

0 1 2 3 4 5 6 7 8 9 10 11
12 13 14 15 16 17 18 19 20 21 22 23

8 Parallel Partition
Processing Jobs

Cube
Current Day Partition Set
...
WHERE [date] = CAST(CONVERT(varchar, GETDATE(), 112) AS int)
AND [hour] IN (0, 11, 17)

0 11 17 1 14 18 2 5 22 3 12 21

4 13 19 6 15 23 7 9 20 8 10 16

8 Evenly Distributed Partitions per Day


3120 Partitions, 13 Months of Data

21
DBI407 Mejores prcticas para la construccin 1 empresas soluciones de inteligencia empresarial de nivel con Microsoft SQL Server Analysis Services, Adam Jorgensen
Concurrencia mejorar desempeo multiusuario
Escalar Analysis Services: Slo Lectura

22
Disear los cubos servicio de anlisis escalables y complejas, Denny Lee, Thomas Kejser
Estudio de caso - AdCenter

EMC DMX V-Max para manejar la E / S


V-Max son dedicados a la aplicacin
Cientos de discos y ejes dedicados a este proceso
Discos para asegurarse rpido de E / S
Trabaja en estrecha colaboracin con EMC directamente (presente en el EMC
World regularmente)
Pruebas con EMC EFDs (Enterprise Flash Drives)
Equipo de Ingeniera de Sistemas dedicado al proceso de DW
Trabajar en estrecha colaboracin con varios proveedores (EMC, HDS, etc)
Referencias
Acelerar Microsoft adCenter con Microsoft SQL Server 2008 Analysis Services.
PRCTICAS REALES: prestaciones de escalado de Microsoft adCenter con Microsoft SQL Server
2008 Analysis Services de EMC VMAX

23
Cubo adCenter

24
PRCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
EMC Symmetrix VMAX

Cada servidor est conectado a una EMC Symmetrix VMAX a travs de bus
con doble adaptadores

El servidor utiliza un volumen de 3 TB organizado en 80 400 GB 10000 rpm


Fibra Discos de canal en una configuracin duplicada y rayas (RAID 1 + 0).

Cada 24 horas el volumen replica los cambios en un volumen de informes 3 TB


hecho por nueve EFDs 400 GB configurado en una configuracin de paridad
distribuida (RAID 5)

25
PRCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
Carga de datos diaria

Cada trimestre una operacin de ProcessUpdate se utiliza para actualizar


dimensin datos

26
PRCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
Consulta de datos

27
PRCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
Administracin

La actualizacin de datos del cubo multidimensional del servidor de


procesamiento soporta las tareas de carga de datos (carga de datos de los
datos relacionales) y el procesamiento del cubo

28
PRCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
Actualizacin diaria de datos

29
PRCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
Montaje diario por medio de clonar cubos

30
PRCTICAS REALES: prestaciones de escalado de Microsoft SQL Server 2008 Analysis Services de AT MICROSOFT ADCENTER
Centro de Produccin adCenter
adCenter Production Environment

OLAP Standby Server OLAP Processing Server Staging Data Warehouse Data Feeds

Windows Server 2003 x64 SP2 Windows Server 2003 x64 SP2 Windows Server 2003 x64 SP2 Windows Server 2003 x64 SP2
SQL Server Analysis Services SQL Server Analysis Services SQL Server Enterprise Edition SQL Server Integration Services
64GB RAM, 8 Xeon procs (16 cores) 64GB RAM, 8 Xeon procs (16 cores) 32 GB RAM, 8 Xeon procs (16 cores) Network Load Balancing

HBA A HBA B HBA


HBAAA HBA
HBABB HBA
HBAAA HBA
HBABB
HBA A HBA B

Host Bus Adapters: 400 MB/sec each

SAN SAN Storage Area Network


Fabric A Fabric B

Standby OLAP LUN OLAP LUN DW LUN

19200 Max Reads 19200 Max Reads 2560 Max Reads


RAID 1 9600 Max Writes RAID 1 9600 Max Writes RAID 1 2560 Max Writes

180 300GB 10K Drives 180 300GB 10K Drives 32 300GB 10K Drives

31
DBI407 Mejores prcticas para la construccin 1 empresas soluciones de inteligencia empresarial de nivel con Microsoft SQL Server Analysis Services, Adam Jorgensen
ESTUDIO DE CASO: E & D
Xbox Live
Estrategia de Particiones
Uniformemente distribuida, continuo y no se solapan

33
Disear los cubos servicio de anlisis escalables y complejas, Denny Lee, Thomas Kejser
Xbox Live - SSD Performance
3000

2500

2000

Run Tme (seconds)

1500

1000

500

0
Day Week Month Quarter 7 months
Dev SSD 14 29 101 203 506
Dev HDD 14 29 104 610 1191
UAT SAN 9 73 445 1025 2800
V2 Cube, SSD 5 10 15 31 72
V2 Cube, HDD 5 7 30 244 540

Amount of Data

DBI407 Mejores
Disear prcticas
los cubos parade
servicio la anlisis
construccin 1 empresas
escalables soluciones Denny
y complejas, de inteligencia empresarial
Lee, Thomas Kejserde nivel con Microsoft SQL Server Analysis Services, Adam Jorgensen
Concurrencia de consultas

Utilizar SSD para que cada servidor para manejar ms consultas simultneas

35
Disear los cubos servicio de anlisis escalables y complejas, Denny Lee, Thomas Kejser
ESTUDIO DE CASO: YAHOO!
Cubo de 12 TB
Yahoo - Datos Masivos a gran escala
CDF Oracle 10g SSAS Cube Constructor

Archivo1 Particin 1 Particin 1


1.2TB/day
Archivo2 Particin 2 Particin 2
12 TB
Filen
cubo
Particin N Particin N

NAS
50 GB /hr

Servidores de consultas SSAS

HW NLB

DBI407 Mejores prcticas para la construccin 1 empresas soluciones de inteligencia empresarial de nivel con Microsoft SQL Server Analysis Services, Adam Jorgensen
MOLAP conmutacin En Accin

Idea bsica:
Utilizar MOLAP para los datos histricos
Procesar ltimas particiones MOLAP ms a menudo
Latencias tpicas en minutos

Preocupaciones:
Tiempo de procesamiento de las particiones actualizadas
Manejo el bloqueo del proceso cuando necesite actualizar los datos

38
Disear los cubos servicio de anlisis escalables y complejas, Denny Lee, Thomas Kejser
Particiones del cubo

Particiones tanto por el tiempo y regin


Procesamiento completo se puede hacer en Particiones "activas"

39
Disear los cubos servicio de anlisis escalables y complejas, Denny Lee, Thomas Kejser
Cube Flipping

Recall: Bloqueo nivel de servidor necesaria para realizar el proceso


Solucin alternativa:
Dos copias del cubo, por turnos
Intercambiar"entre ellos

Dos maneras de mover


Utilice ASLB de CodePlex
Excel Plug-in

40
41
Disear los cubos servicio de anlisis escalables y complejas, Denny Lee, Thomas Kejser
42
Disear los cubos servicio de anlisis escalables y complejas, Denny Lee, Thomas Kejser
43
Disear los cubos servicio de anlisis escalables y complejas, Denny Lee, Thomas Kejser
Resumiendo

Usted tiene que conseguir el diseo correcto si desea escalar


El particionamiento es absolutamente fundamental
Particin de velocidad de procesamiento
Particin de latencia de los datos (en tiempo real frente a histricos)
Particin de archivos de datos antiguos
Hardware realmente importa para grandes cubos
Dispositivos SSD.
Las pruebas muestran dos CPU core con frecuencia puede soportar
cientos de usuarios
Con cuidado equilibrio IOPS frente memoria, considere parte ms
utilizada del cubo

44
DBI407 Mejores prcticas para la construccin 1 empresas soluciones de inteligencia empresarial de nivel con Microsoft SQL Server Analysis Services, Adam Jorgensen
DW Appliance

Aparatos DW, que consisten en paquetes de soluciones que


proporcionan todo el software y hardware necesario, estn
empezando a ofrecer el precio / rendimiento muy prometedor

45
SQL Server Fast Track Reference Architecture

Fuente: http://www.emc.com/collateral/technical-documentation/h13566-data-warehouse-fast-track-ms-sql-2014.pdf
46
SQL Server Fast Track Reference Architecture

Fuente: http://www.emc.com/collateral/technical-documentation/h13566-data-warehouse-fast-track-ms-sql-2014.pdf
47
SQL Server Fast
Track Reference
Architecture

Fuente: http://www.emc.com/collateral/technical-
documentation/h13566-data-warehouse-fast-track-
ms-sql-2014.pdf
48
Obstculos para un almacn de datos moderna

Mantener la inversin Adquirir Big Data Comprar nuevo nivel Adquirir la inteligencia
legado solucin uno dispositivo de de negocios
hardware

Escalabilidad limitada y Entrenamiento Alta adquisicin y Complejidad y


capacidad de gestionar costos de adopcin
nuevos tipos de datos migracin
49
Introduccin al sistema Microsoft Analytics Platform
Un moderno dispositivo de almacenamiento de datos llave en mano

De datos relacionales y no Cerca de rendimiento en tiempo Precio de appliance de datos


relacionales en un nico real con In-Memory Columnstore ms bajo por terabyte
dispositivo
Capacidad de escalabilidad para Valor a travs de una nica
Hadoop lista para la empresa incluir cada vez mayor de datos solucin

Consultas integradas a travs de La eliminacin del almacn de Valor con opciones de hardware
Hadoop y PDW utilizando T-SQL datos cuellos de botella con MPP flexibles utilizando hardware
SQL Server comercial
La integracin directa con las
herramientas de BI de Microsoft, Concurrencia que ayuda rpida
como Microsoft Excel adopcin
APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato

SQL Server
Parallel Data
warehouse Alto rendimiento y Autenticacin del
sintonizado en el usuario final con
hardware Active Directory
Polibase

Microsoft
HDInsight 100-por ciento de Administrado y Accesible ideas para
Apache Hadoop monitoreado todo el mundo con las
utilizando System herramientas de
Center Microsoft BI
Resumen hardware APS
Una regin es un contenedor lgico Carga en paralelo de HDInsight carga de trabajo
dentro de un appliance depsito de datos

Cada carga de trabajo contiene los


siguientes lmites: Fabric

Aparato
Seguridad
Medida
Prestacin de servicios Hardware
Conexin de islas de datos con polybase
Trayendo soluciones de punto de Hadoop y el almacn de datos junto a los usuarios y TI

Seleccionar Conjunto de
... resultados

Proporciona un nico Modelo de consulta T-SQL


para PDW y Hadoop con ricas caractersticas de T-
SQL, incluyendo joins sin ETL
SQL Server
Microsoft Azure PDW
HDInsight Utiliza el poder del MPP para mejorar el
rendimiento de ejecucin de consultas

Polybase
Hortonworks para Compatible con Windows Azure HDInsight para
Windows y Linux permitir escenarios hbrido de la nube
Cloudera
Microsoft Ofrece la posibilidad de consultar las distribuciones
HDInsight no Microsoft Hadoop, como Hortonworks y
Cloudera
Automatic MapReduce pushdown

Fuente sistemas Analytics / Ad-hoc / Visualizacin

SQL Server
Data Marts

Hadoop / Data Lake MapReduce


SQL Server
T-SQL
Parallel Data
(Cloudera, Hortonworks, Warehouse SQL Server
Reporting Services
HDInsight) Polibase

Microsoft
HDInsight

SQL Server
Analysis Services
APS
Actualizar Da / Hora / Minuto
Concurrencia de datos
Gran rendimiento con cargas de trabajo mixtas
Analytics Platform System
ETL / ELT con SSIS, DQS, MDS Intra-Day CRTAS SMP SQL Server

ERP CRM LOB APPS Linked Table

PDW
Casi en tiempo real Real-Time
ETL / ELT con DWLoader Presentacin de informes y cubos
Almacn de columnas

ROLAP / MOLAP
DirectQuery

Hadoop / Big Data Polibase Polibase SNAC Herramientas de BI

Fast ad hoc HDInsight


Consultas ad hoc
Hardware y software de ingeniera junto

Integrado apoyo Co-dirigido con


con un solo HP, Dell, Quanta
contacto Microsoft y mejores
PDW prcticas

Polybase
Pre-configurado, Liderando el
construido, y rendimiento con
ajustado hardware
HDInsight software y comercial
hardware
Rack #2 Rack #1

InfiniBand
InfiniBand
Ethernet
HDI extension base
Hardware architecture
InfiniBand
InfiniBand
Ethernet
Networking

Ethernet unit Ethernet


Failover node Control node
PDW region HST-01
Failover node

Master node
Failover node HST-02
Compute nodes Compute nodes IB and Ethernet

HDI active scale HSA-01


Economical disk storage unit Economical disk storage
HDInsight region Economical
disk storage
HST-02
Compute nodes Compute nodes

HDI active scale


Economical disk storage
unit Economical disk storage Active Unit Dos nodos adicionales

Compute nodes Compute nodes

Passive Unit HDInsight


HDI extension base
Economical disk storage unit Economical disk storage
PDW region
Failover Node Alta Disponibilidad
SQL Data Warehouse
Data warehouse como servicio
Posee una arquitectura elstica con soporte a grandes cantidades de datos
Capacidad elstica
Soporte para grandes cargas de trabajo, ajustado para ciclo de procesamiento
Se compra tiempo de procesamiento segn las necesidades
Portal de administracin
SQL DW: Basado en SQL DB

Elastic, Petabyte Scale


SQL DW DW Optimized

99.99% uptime SLA,


Geo-restore

Azure Compliance (ISO, HIPAA, EU, etc.)

SQL DB True SQL Server Experience;


Service Tiers Se utilizan las herramientas existentes
Datos no estructurados a travs de Polybase/T-SQL

Cita:
************************

Consulta T- **********************

SQL
*********************

**********************

***********************

servidor Hadoop $ 658.39


SQL

Nombre Fecha de Estad


Nacimient o
Jim Gray 11.13.58
o
Wash
Ann Smith 04.29.76 ingto
YO
n
Unidad de almacenamiento de datos (TCU)
Medida de Basta con comprar el rendimiento de las consultas que necesita, no slo el
Potencia hardware

Cuantificado por objetivos de carga de trabajo: cmo se escanean filas rpidas,


Transparencia
cargado, copian

Servicio de primera DW para ofrecer potencia de computacin bajo demanda,


Bajo demanda
independiente de almacenamiento

Scan 1B filas

100 DWU = 297 seg


400 DWU = 74 seg

Velocidad de xx Fila M / seg 800 DWU = 37 seg


100 DWU lectura 1600 DWU = 19 seg
Cargando Tasa xx K fila / seg
Tabla Copiar xx Fila K / seg
Rate
Almacn de datos SQL Azure

Almacenamiento por separado


y de cmputo

Capacidad elstica

Integrado con Power BI, Azure


Machine Learning, y Azure Data
Factory Escala de salida relacional
almacn de datos
Preguntas?
Thank You for Attending
Follow @pass24hop

Share your thoughts with hashtags


#pass24hop & #sqlpass

You might also like