You are on page 1of 54

Data Warehouse

Professor Edson Emlio Scalabrin


telefone: 0xx41-271-2539 e-mail: scalabrin@ppgia.pucpr.br download: http://www.ppgia.pucpr.br/~scalabrin

Objetivo

Apresentar:
conceitos as caractersticas de um Data Warehouse algumas arquiteturas
Modelos de dados Desenvolvimento do Data Warehouse Povoamento do Data Warehouse Extrao de informaes do Data Warehouse Anlise do uso da tecnologia Data Warehouse
2

Plano

CONCEITOS As Caractersticas de um Data Warehouse Algumas arquiteturas Modelos de dados Desenvolvimento do Data Warehouse Povoamento do Data Warehouse Extrao de informaes do Data Warehouse Anlise do uso da tecnologia Data Warehouse
3

Data Warehouse

Definio I:
uma coleo de dados orientados por assuntos, integrados, variveis no tempo e no volteis, para dar suporte ao processo gerencial de tomada de deciso [ Inmon ]

Data Warehouse

Definio II:
um processo em andamento que aglutina dados de fontes heterogneas, incluindo dados histricos e dados externos para atender s necessidades de consultas estruturadas e ad-hoc, relatrios analticos e de suporte a deciso [Harjinder ]

Data Warehouse

Definio III:
uma coleo de tcnicas e tecnologias que juntas disponibilizam um enfoque pragmtico e sistemtico para tratar com o problema do usurio final de acessar informaes que esto distribudas em vrios sistemas da organizao [ Barquini ]

Dados operacionais vs. Data Warehouse


Caractersticas BD Operacional
Objetivo Uso Unidade de trabalho Nmero de usurios Tipo de usurio Interao do usurio Condies dos dados Volume Histrico Operacional Incluso, alterao, excluso Milhares Operadores Somente pr-definida Dados operacionais Megabytes - gigabytes 60 a 90 dias

Data Warehouse
Informativo OLAP Carga e consulta Centenas Comunidade gerencial Pr-definida e ad-hoc Dados Analticos Gigabytes - terabytes 5 a 10 anos
7

Operaes dirios do negcio Analisar o negcio

Tipo de processamento OLTP

Dados operacionais vs. Data Warehouse


Caractersticas BD Operacional
Granularidade Redundncia Estrutura Manuteno desejada Acesso a registros Atualizao Integridade Nmero de ndices Inteno dos ndices Detalhados No ocorre Esttica Mnima Dezenas Contnua (tempo real) Transao Poucos / simples Localizar um registro

Data Warehouse
Detalhados e resumidos Ocorre Varivel Constante Milhares Peridica (batch) A cada atualizao Muitos / complexos Aperfeioar consultas

Componente de um Data Warehouse


Data Warehouse no o fim, ele um meio que as empresas dispem para analisar informaes podendo utiliz-las para a melhoria dos processos atuais e futuros Qualquer fonte Qualquer Dado Qualquer acesso
Ferramentas de consultas (relatrios) Dados Operacionais Data Warehouse Dados Externos Ferramentas de OLAP

Aplicativos
9

Plano

Conceitos AS CARACTERSTICAS DE UM DATA WAREHOUSE Algumas arquiteturas Modelos de dados Desenvolvimento do Data Warehouse Povoamento do Data Warehouse Extrao de informaes do Data Warehouse Anlise do uso da tecnologia Data Warehouse
10

Data Warehouse Caractersticas


Orientao por assunto Integrao Variao no tempo No volatilidade Localizao Credibilidade dos dados Granularidade Metadados

11

Data Warehouse Caractersticas

Orientao por assunto


Um DW sempre armazena dados importantes sobre temas especficos da empresa e conforme o interesse das pessoas que iro utiliz-lo. Exemplo: Uma empresa pode trabalhar com vendas de produtos alimentcios no varejo e o seu maior interesse ser o perfil de seus compradores, ento o DW ser voltado para as pessoas que compram seus produtos e no para os produtos que ela vende.
12

Data Warehouse Caractersticas

Integrao
Aplicao B Aplicao C Valor atual, 2 anos

(a)

Aplicao A Aplicao B

(b)
Aplicao C

Aplicao A

Incompatibilida de: mesmo elemento, nomes diferentes

Valor atual, 3 meses

Incoerncia: diferentes elementos, mesmo nome

Valor atual, 1 ano

Valor atual, 6 meses


13

Data Warehouse Caractersticas

Integrao de dados
DATA WAREHOUSE sexo: m, f caminho: centmetros

OPERACIONAL Aplicao A: m,f Aplicao B: 1,0 Aplicao C: masculino, feminino Aplicao A: caminho - centmetros Aplicao B: caminho - ps Aplicao C: caminho - jardas Aplicao A: descrio Aplicao B: descrio Aplicao C: descrio Aplicao A: chave char(10) Aplicao B: chave dec fixed(9,2) Aplicao C: chave char(12)

descrio

Chave char(12)

14

Data Warehouse Caractersticas


Integrao de dados
OPERACIONAL
Plano de Sade - Maria Silva - Feminino - 01/12/68 Clinica - Maria Silva - Duas internaes em 2000 - Equipe mdica - Durao mdia das internaes Laboratrio de Exames - Maria Silva - Exames requeridos - Resultados

DATA WAREHOUSE

- Maria Silva - Feminino - Nascida em 01/12/68 - Duas internaes em 2000 - Equipe mdica - Durao mdia das internaes - Exames requeridos - Resultados dos exames - Casada - 2 filhos
15

Data Warehouse Caractersticas


Variao no tempo
Operacional Maria Silva Rua XV, 02 Medicao: X, Y Entrada: 05/11/00 Alta: 10/11/00 Quais so medicamentos ministrados Maria Silva neste momento?
Atmico Maria Silva Rua 24 horas, 12 Medicao: X, Z Entrada: 01/03/98 Alta: 10/03/98 Maria Silva Rua XV, 02 Medicao: X, Y Entrada: 10/11/00 Alta: 10/11/00 Quais foram os medicamentos ministrados Maria Silva nos ltimos 5 anos? Departamental Janeiro 4101 Fevereiro 4209 Maro 4175 Abril 4215 .... .... .... Estamos atendendo mais ou menos pacientes ao longo do tempo? Individual Pacientes desde 1980 tomando o medicamento X e com perodo de internao superior 5 dias Quais so os riscos (tendncias) em relao aos pacientes que foram vitimas de infeo hospitalar?
16

Data Warehouse Caractersticas


No volatilidade
OPERACIONAL
incluir

DATA WAREHOUSE

alterar
acessar excluir carregar acessar excluir incluir alterar
17

Data Warehouse Caractersticas


Localizao
Formas de armazenamento:
nico local (centralizado) por rea de interesse (distribudo) por nvel de detalhes
Dados altamente resumidos

Dados levemente resumidos

Dados detalhados atuais

Dados detalhados antigos

18

Data Warehouse Caractersticas

Credibilidade dos dados


o mais importante para o sucesso de qualquer projeto Discrepncias simples de todo tipo podem causar srios problemas quando se quer extrair dados para suportar decises estratgicas para o negcio das empresas; Dados no dignos de confiana podem resultar em relatrios inteis, que no tem importncia alguma
por exemplo, uma lista de pacientes do sexo masculino e grvidos;

19

Data Warehouse Caractersticas


Granularidade
Baixa possvel responder a praticamente qualquer consulta porm, grande quantidade de recursos computacionais necessria para responder perguntas especficas Alta ocorre uma significativa reduo da possibilidade de utilizao dos dados para atender consultas detalhadas porm, reduz-se muito o espao em disco e o nmero de ndices necessrios
20

Data Warehouse Caractersticas


Exemplo de nveis de granularidade
Baixa

Alta

Prod. A1 B1 A1 A1

Data 13/9/00 14/9/00 16/9/00 16/9/00

Qtda. 10 15 20 90

Valor 100,00 150,00 200,00 890,00

ms/ano Prod. Qtda. Valor 09/00 A1 120 1190,00 09/00 B1 15 150,00

21

Data Warehouse Caractersticas


Metadados
Trs diferentes camadas:
operacionais, centrais do Data Warehouse, nvel do usurio

Trs diferentes componentes:


Mapeamento: descrevem como os dados de sistemas operacionais so transformados antes de entrarem no DW Histrico: descrevem as regras corretas a serem aplicadas nos dados corretos quando as regras de negcio mudam Algoritmos de sumarizao:
mostram a relao entre os diferentes nveis de detalhes dos dados, indicando inclusive que nvel de sumarizao mais adequado para um dado objetivo.
22

Data Warehouse Caractersticas

Fontes de metadados Repositrios de ferramentas CASE Documentao do desenvolvimento dos sistemas operacionais Cdigo fonte dos sistemas operacionais Entrevistas O prprio ambiente do Data Warehouse
informaes tais como freqncia da acesso, em que nvel de agregao, tempo de resposta de cada consulta, etc..
23

Plano

Conceitos As caractersticas de um Data Warehouse ALGUMAS ARQUITETURAS Modelos de dados Desenvolvimento do Data Warehouse Povoamento do Data Warehouse Extrao de informaes do Data Warehouse Anlise do uso da tecnologia Data Warehouse
24

Arquitetura Genrica de um D/W

Camadas de bancos de dados operacionais e fontes externas:


composto pelos dados dos sistemas operacionais das empresas e informaes provenientes de fontes externas que sero integradas para compor o DW.

Camada de acesso a informao:


Envolve o hardware e o software utilizado para obteno de relatrios, planilhas, grficos e consultas. nesta camada que os usurios finais interagem com o DW, utilizando ferramentas de manipulao, anlise e apresentao dos dados, incluindose as ferramentas de data-mining e visualizao.

Camada de acesso aos dados:


Esta camada faz a ligao entre as ferramentas de acesso informao e os bancos de dados operacionais. Esta camada se comunica com diferentes sistemas de bancos de dados, sistemas de arquivos e fontes sob diferentes protocolos de comunicao, o 25 que se chama acesso universal de dados.

Arquitetura Genrica de um D/W

Camada de metadados (Dicionrio de dados):


Metadados so as informaes que descrevem os dados utilizados pela empresa
descries de registros, comandos de criao de tabelas, diagramas Entidade/Relacionamentos (E-R), dados de um dicionrio de dados, etc.

Camada de gerenciamento de processos:


a camada responsvel pelo gerenciamento dos processos que contribuem para manter o DW atualizado e consistente.

Camada de transporte:
Esta camada gerencia o transporte de informaes pelo ambiente de rede. Inclui a coleta de mensagens e transaes e se encarrega de entreg-las em locais e tempos determinados.

Camada do Data Warehouse:


Corresponde aos dados utilizados para obter informaes.
26

Arquitetura Genrica de um D/W

27

Arquitetura 2o. Chaudhuri


Um componente back end: conjunto de aplicaes responsveis por extrair, filtrar, transformar, integrar e carregar os dados de diferentes origens no DW; Um componente front end: conjunto de aplicaes responsveis por disponibilizar aos usurios finais acesso ao DW; Um repositrio para armazenar e gerenciar os metadados do sistema.
Componente front-end Data Warehouse (SGBD)

Componente back-end

Repositrio de metadados Fontes internas

Fontes externas

28

Arquitetura: 2o. Chaudhuri O fluxo de dados


Outflow
Componente front-end

Upflow

Metaflow

Inflow
Repositrio de metadados
Component e back-end

Data Warehouse

Downflow

Fontes internas

Dados antigos

Fontes externas
29

Arquitetura: 2o. Valente


Consultas

Data warehouse

Integrador

Extrator

Extrator

Extrator

Base de dados

Base de dados

Base de dados

30

Modelo de dados ideal

31

Arquitetura de dados
Servidor central

Forma de armazenamento:
nico local (centralizado)
Dados altamente resumidos
Dados levemente resumidos

Dados detalhados atuais

Dados detalhados antigos

32

Arquitetura de dados
Servidor rea Financeira

Forma de armazenamento:
por rea de interesse (distribudo)
Servidor rea Marketing Dados altamente resumidos

Dados levemente resumidos

Dados detalhados atuais

Dados detalhados antigos

33

Arquitetura de dados
Servidor S2 Servidor S1

Forma de armazenamento:
por nvel de detalhes
Dados altamente resumidos
Dados levemente resumidos

Servidor DW

Dados detalhados atuais

Dados detalhados antigos

34

Plano

Conceitos As caractersticas de um Data Warehouse Algumas Arquiteturas MODELO DE DADOS Desenvolvimento do Data Warehouse Povoamento do Data Warehouse Extrao de informaes do Data Warehouse Anlise do uso da tecnologia Data Warehouse
35

Metadados
Definio: (a) metadados so normalmente definidos como dados sobre os dados. (b) metadado uma abstrao dos dados, ou ainda, dados de mais alto nvel que descrevem dados de um nvel inferior. Deve-se

destacar que sem metadados, os dados no tm significado. Exemplo


as descries de registros em um programa de aplicao ou o esquema de um banco de dados descrito em seu catlogo ou ainda as informaes contidas em um dicionrio de dados.
36

Metadados
Camadas

de metadados em um data warehouse:

metadados operacionais:
definem a estrutura dos dados mantidos pelos bancos operacionais, usados pelas aplicaes de produo da empresa;

metadados centrais do data warehouse:


distinguem-se por serem orientados por assunto. Incluem definies de agregados e campos calculados, assim como vises sobre cruzamentos de assuntos.

metadados do nvel do usurio:


mapeam os metadados do data warehouse para conceitos que sejam familiares e adequados aos usurios finais.
37

Metadados

Classificao de metadados:
mapeamento:
descrevem como os dados de bancos operacionais so transformados para chegarem ao data warehouse. Incluem identificao de campos fontes, mapeamentos entre atributos, converses, codificaes, "defaults", etc.;

histrico:
mantm o histrico de mudanas das regras do negcio, pois as regras certas devem ser aplicadas aos dados certos, quando se consideram evolues ao longo do tempo;

miscelnea:
informao de status sobre estgios de desenvolvimento de partes do data warehouse, informaes sobre volume dos dados 38 (para estimativas de tempo e recursos), etc.;

Metadados
Classificao de

metadados:

algoritmos de sumarizao:
mostram a relao entre os diferentes nveis de detalhe dos dados, indicando inclusive que nvel de sumarizao mais adequado para um dado objetivo;

padres de acesso:
mantm informaes sobre freqncia e tipo de acesso aos dados.
39

Plano

Conceitos As caractersticas de um Data Warehouse Algumas Arquiteturas Modelo de dados Esquema: Estrela ou Foco de Neve Povoamento do Data Warehouse Extrao de informaes do Data Warehouse Anlise do uso da tecnologia Data Warehouse
40

Dimenses e bancos de dados relacionais

Esquema Estrela
41

Dimenses e bancos de dados relacionais


Esquema Foco de Neve

42

Multi-dimensional
Banco de dados relacional
MODELO COR VENDAS Van Azul 6 Van Vermelho 5 Van Preta 4 Coupe Azul 3 Coupe Vermelho 5 Coupe Preta 5 Sedan Azul 4 Sedan Vermelho 3 Sedan Preta 2

Matriz bidimensional
MODELO Van Coupe Sedan Azul 6 3 4 Vermelho Preta 5 4 5 5 3 2

Totais consolidados em uma Representao multi-dimensional


MODELO Azul Vermelho Preta Total Van 6 5 4 15 Coupe 3 5 5 13 Sedan 4 3 2 09 Total 13 13 11 37 43

Nveis das dimenses

44

OLAP - On-Line Analytic Processing


Tipo de processo 1:

Slide and dice


Corresponde tcnica de mudar a ordem das dimenses; a mudana de orientao permite ao usurio investigar diferentes inter-relacionamentos entre eles:
Qual o item mais vendido em cada loja? Qual loja vende mais do item 3?
45

OLAP - On-Line Analytic Processing

Tipo de processo 2:
Drill down
O "drill-down" consiste em permitir ao usurio "descer" pelas hierarquias das dimenses:
comum o usurio iniciar pelo nvel resumido (tal como vendas nacionais, por marca) e ento seletivamente obter nveis de detalhe adicionais para seguir e explicar uma observao feita no nvel resumido.

Exemplo
Supondo que o produto da marca M tem o pior retorno de vendas em termos nacionais, o analista pode resolver examinar a venda da marca M regionalmente para ver se o problema est relacionado com a distribuio ou algum outro problema regional.

OBS: so comuns processos de "drill-down" segundo mltiplas hierarquias sobrepostas.

46

Plano

Conceitos As caractersticas de um Data Warehouse Algumas Arquiteturas Modelo de dados Esquema: Estrela ou Foco de Neve Abordagens para o desenvolvimento de um data warehouse Extrao de informaes do Data Warehouse Anlise do uso da tecnologia Data Warehouse
47

Abordagens para o desenvolvimento de um data warehouse


Estratgia evolucionria Aspectos de Modelagem Etapas do desenvolvimento de um data warehouse Relacional vs. multi-dimensional Um ou mais bancos de dados Granularidade Extrao, Limpeza, Transformao e Migrao

Extrao, Transformao e Filtros, Incorporando Modificaes, Derivao e Sumarizao


48

Abordagens para o desenvolvimento de um data warehouse

Estratgia evolucionria
por assunto:
muitas empresas iniciam o processo a partir de uma rea especfica da empresa, que normalmente uma rea carente de informao e cujo trabalho seja relevante para os negcios da empresa, criando os chamados data marts (um data warehouse departamental), para depois ir crescendo aos poucos, seguindo uma estratgia assunto por assunto.

por experimentao:
outra alternativa selecionar um grupo de usurios, prover ferramentas adequadas, construir um prottipo do data warehouse, deixando que os usurios experimentem com pequenas amostras de dados. Somente aps a concordncia do grupo quanto aos requisitos e funcionamento, que o data warehouse ser de fato carregado com dados dos sistemas operacionais da empresa e dados externos.
49

Abordagens para o desenvolvimento de um data warehouse


Aspectos de Modelagem Os requisitos para um data warehouse no podem ser conhecidos at que ele esteja parcialmente carregado e j em uso. Modelagem relacional (normalizada) no apropriada. A alta fragmentao traz uma considervel complexidade formulao de uma consulta por um usurio final

50

Abordagens para o desenvolvimento de um data warehouse

Etapas do desenvolvimento de um data warehouse


a identidade das tabelas de fatos: a granularidade de cada tabela de fatos; as dimenses de cada tabela de fatos; os fatos pr-calculados; os atributos das dimenses; a acompanhamento das mudanas graduais em dimenses; as agregaes, dimenses heterogneas, mini-dimenses e outras decises de projeto fsico; durao histrica do banco de dados; a urgncia com que se d a extrao e carga para o data warehouse.
51

A tabela de fatos e suas dimenses Exemplo

52

Abordagens para o desenvolvimento de um data warehouse


Relacional vs. multi-dimensional


Quando utilizar um ou outro

Um ou mais bancos de dados Granularidade


Qual a implicao de uma granularidade alta? Qual a implicao de uma granularidade fina?

Extrao, Limpeza, Transformao e Migrao


Extrao, Transformao e Filtros, Incorporando Modificaes, Derivao e Sumarizao
53

Exerccio

Tabela tempo: ano, semestre, quadrimestre, trimestre, bimestre, ms, primeira semana, segunda semana, terceira semana, quarta semana, quinta semana, dia do ms, dia da semana, feriado, distncia de um feriado.

54

You might also like