Professional Documents
Culture Documents
Arquitetura OLAP
Professor Marcio Victorino 1
Introduo
Aplicaes do negcio: constituem as aplicaes que do suporte ao dia a dia do negcio da empresa, que garantem a operao da empresa, tambm chamadas de sistemas de produo; Aplicaes sobre o negcio: so as aplicaes que analisam o negcio, ajudando a interpretar o que ocorreu e a decidir sobre estratgias futuras para a empresa - compreendem os Sistemas de Apoio Deciso. Consultas tpicas de um SAD so:
Listar a evoluo das vendas nos ltimos 10 anos; Listar o fornecedor que no teve mais do que 20% de atrasos nas ltimas 100 entregas.
Aplicao C
Aplicao D
Aplicao E
Aplicao A
REL 1
Aplicao B
REL 2
Aplicao C
REL 3
Aplicao D
REL 4
Aplicao E
REL 5
REL 6
Aplicao A
REL 1
Aplicao B
REL 2
Aplicao C
REL 3
Aplicao D
REL 4
Aplicao E
REL 5
REL 6
Aplicao A
SAD 1
Aplicao B
SAD 2
Aplicao C
SAD 3
Aplicao D
SAD 4
Aplicao E
SAD 5
SAD 6
Aplicao A
SAD 1
Aplicao B
SAD 2
Aplicao C
SAD 3
Aplicao D
SAD 4
Aplicao E
SAD 5
SAD 6
Aplicao A
SAD 1
Aplicao B
SAD 2
Aplicao C
SAD 3
Aplicao D
SAD 4
Aplicao E
SAD 5
SAD 6
Aplicao A
SAD 1
Aplicao B
SAD 2
Aplicao C
SAD 3
Aplicao D
SAD 4
Aplicao E
SAD 5
SAD 6
Aplicao A
Aplicao B
Aplicao C
DW DW Conjunto de Dados No Voltil, Conjunto de Dados No Voltil, Aplicao D Organizado por Assuntos, Organizado por Assuntos, Integrado, Integrado, Varia com Passar do Tempo, Varia com Passar do Tempo, Aplicao E Suporte para Processo de Tomada Suporte para Processo de Tomada deDeciso Decisoda daEmpresa Empresa de
DW
10
10
DW
Organizados por Assuntos:
Refere-se ao fato do DW armazenar informaes sobre temas especficos importantes para o negcio da empresa. Exemplos tpicos de temas so: produtos, atividades, contas, clientes, etc. Em contrapartida, o ambiente operacional organizado por aplicaes funcionais.
Integrao:
Esta caracterstica ir definir a representao nica para os dados provenientes dos diversos sistemas que formaro a base de dados do DW. A maior parte do trabalho na construo de um DW est na anlise dos sistemas operacionais e dos dados que eles contm. Como no existem padres de codificao, cada analista pode definir a mesma estrutura de dados de vrias formas, fazendo com que dados que representam a mesma informao sejam representados de diversas maneiras dentro dos sistemas utilizados pela empresa ao longo dos anos.
Variao no Tempo:
Segundo W.H.Inmon todos os dados no DW so precisos em algum instante no tempo, como eles podem estar corretos somente em um determinado momento, dito que esses dados "variam com o tempo".
No Voltil:
Em um DW no existem alteraes de dados, somente a carga inicial e as consultas posteriores. Ele definido assim pois as operaes a nvel de registro em modo on-line como so os sistemas transacionais, exigem um controle e um processamento muito grande, fugindo do objetivo principal do DW.
Professor Marcio Victorino
11
Aplicao A
DM
Aplicao B
Aplicao C
DM DM Coleo de Assuntos de uma rea, Coleo de Assuntos de uma rea, Organizado para Apoio Deciso, Organizado para Apoio Deciso, DM Necessidades de Departamento/ Setor Necessidades de Departamento/ Setor
DW
Aplicao D
Aplicao E
DM
12
12
13
OLTP x OLAP
A caracterstica simples mais distintiva dos aplicativos OLTP (On-line Transaction Processing) que o banco de dados est sendo constantemente atualizado. Como os dados esto mudando constantemente, o sistema no pode ajudar no apoio a decises. De um ponto de vista prtico, OLAP (On-line Analytic Processing) sempre envolve consultas interativas aos dados, seguindo um caminho de anlise atravs de mltiplos passos, como, por exemplo, aprofundar-se sucessivamente por nveis mais baixos de detalhe de um quesito de informao especfico. OLAP envolve capacidades analticas, incluindo a derivao de taxas, varincias, etc., e envolvendo medidas ou dados numricos atravs de muitas dimenses, devendo suportar modelos para previses, anlises estatsticas e de tendncias.
14
Modelagem Dimensional
Modelagem Relacional
15
GEOGRAFIA
Cod_geografia integer Nome Populao Estado Regio varchar(10) integer char(2) char(2)
PRODUTO
Cod_produto integer varchar(10) char(4) char(4)
VENDAS
Cod_produto Cod_tempo Cod_geografia Cod_canal Quantidade Faturamento integer integer integer integer decimal(16,0) decimal(16,2)
TEMPO
Cod_tempo Dia Ms Ano Dia_semana integer integer integer integer char(3)
CANAL
Cod_canal Tipo integer varchar(10)
16
17
Embora aceitvel, a normalizao de dimenses no recomendvel por razes de desempenho e facilidade de uso:
A quantidade de tabelas torna a apresentao do modelo mais complexa. Otimizadores do SGBD tm mais dificuldade com esquema complexo. A economia de espao em disco insignificante em relao ao DW completo. Diminui a habilidade de usurios de navegar na dimenso.
Professor Marcio Victorino 18
DW Procedimentos ETL Conjunto de Dados No Voltil, Organizado por Assuntos, Extrao Integrado, Fontes Externas Transformao Varia com Passar do Tempo, Carga Suporte para Processo de Tomada de Deciso da Empresa
Sistema 1
Procedimentos ETL Procedimentos ETL
Procedimentos ETL
Sistema 2
Procedimentos ETL
Sistema n
Professor Marcio Victorino 19
Dados No Estruturados
Fontes Externas
Ferramentas de Consulta OLAP Procedimentos ETL
Sistema 1
Procedimentos ETL
DW
Procedimentos ETL
Sistema 2
Procedimentos ETL
Sistema n
Professor Marcio Victorino 20
Dados No Estruturados
Sistema 1
Procedimentos ETL Procedimentos ETL
DW
Procedimentos ETL
Sistema 2
Procedimentos ETL
Sistema n
Professor Marcio Victorino 21
Dados No Estruturados
ERP
Os sistemas ERP (Enterprise Resource Planning), tambm chamados no Brasil de Sistemas Integrados de Gesto Empresarial, tm um objetivo fundamental: controlar, integrar e fornecer suporte aos processos de uma organizao operacionais, produtivos, administrativos e comerciais. O ERP integra vrias funes: controles financeiros, contabilidade, folha de pagamento, faturamento, compras, produo, estoque e logstica. Possibilita um fluxo de informaes nico, contnuo e consistente por toda a organizao, o que permite administrar os negcios em uma nica base de dados.
Professor Marcio Victorino
22
ERP
Estratgico
BSC DW Data Marts Sistemas Operacionais
Processos Hardware
Professor Marcio Victorino 23
Ttico Operacional
Pessoas Sofware
ERP
Dificuldades:
difcil para as organizaes entenderem se a forma delas trabalharem se adapta ao padro ERP antes da implementao ter comeado. A razo mais comum pela qual as organizaes fogem dos projetos multimilionrios do ERP porque elas descobrem que o software no suporta algum dos importantes processos dos seus negcios. Nesse caso, s h duas coisas a serem feitas:
mudar o processo para se adaptar ao software, o qual significar mudanas profundas nas formas de se fazer negcio, o que apesar de ser positivo para a produtividade da organizao, mexe em papis de pessoas importantes e com responsabilidades e que apenas poucas organizaes conseguem fazer. ou, mudar o software para que este se adapte ao processo, o que diminuir a velocidade do projeto e provavelmente deturpar o sistema.
Professor Marcio Victorino
24
ERP
Um projeto de ERP um projeto do Negcio e no apenas de TI. A implantao de um ERP requer uma reorganizao na forma como as coisas funcionam internamente na organizao. O mais importante em um projeto de ERP entender porque a Organizaa precisa dele e como a mesma pode utiliz-lo para otimizar seus negcios. Os benefcios podem ser obtidos se a organizaa tiver maturidade para aceitar as mudanas e se adequar a elas.
Professor Marcio Victorino 25
Projeto de um DW
Kimball aponta um conjunto pontos fundamentais no projeto da estrutura de DW (tipo estrela). So os seguintes os chamados pontos de deciso, que constituem definies a serem feitas e correspondem, de fato, a etapas do projeto:
Os processos, e por conseqncia, a identidade das tabelas de fatos; A granularidade de cada tabela de fatos; As dimenses de cada tabela de fatos; Aos fatos, incluindo fatos pr-calculados; Os atributos das dimenses; Como acompanhar mudanas graduais em dimenses; As agregaes, minidimenses e outras decises de projeto fsico; Durao histrica do banco de dados; Urgncia com que se d a extrao e carga para o DW.
Esta metodologia segue a linha top-down, pois comea identificando os grandes processos da empresa.
Professor Marcio Victorino 26
Estratgias de Implementao
Estratgia Evolucionria Inmon:
Histrico de sucesso das aplicaes; Usurio final no ter condies de expressar suas necessidades com clareza antes da primeira interao; A gerncia no se comprometer antes da primeira interao; H necessidade de, rapidamente, obter resultados visveis.
27
Estratgias de Implementao
INMON
Avalia o que o Ambiente Operativo tem a Oferecer Fcil Mapeamento Limitao de Viso
KIMBALL
Orientada s Necessidades do Usurio Final Mapeamento Lento (Identificar Fontes) Viso mais Ampla
28
Povoando um DW
Filtragen,Transformao e Integrao dos Dados Extrados
Conflitos Semnticos e Estruturais:
Diferenas Diferenas Diferenas Diferenas Diferenas de unidades; de preciso; em cdigo ou expresses; de granularidade; de abstrao.
29
Exemplos de Uso
Governo Federal: Aps concluso do DW, considerado estratgico pelo governo federal, o governo planeja implantar um sistema de data minig, para auxiliar na identificao de fraudes . Lobrs: Desenvolveu um DW que est ajudando a empresa a saber com exatido o movimento das vendas de seus mais de 21.500 produtos. Ita: O banco Ita foi um dos pioneiros no uso de DW no Brasil. Seu objetivo na poca da implantao do DW era filtrar suas correspondncias que eram enviadas pra mais de 1 milho de correntistas mas somente 2% se interessavam pelas promoes e novidades. Com a utilizao do DW o ndice de retorno foi para 30% .
Professor Marcio Victorino 30
Modelagem Multidimensional
Tabela de Fatos
Tabela central do projeto dimensional. Armazena medies numricas do negcio. Possui chaves de mltiplas partes. Cada chave uma chave externa para uma tabela de dimenso. Cada uma das medies obtida na interseo de todas as dimenses. Em consultas a tabela de fatos so usados centenas, milhares ou at milhes de registros para a construo da resposta.
Medidas
Aditivas: So as mais freqentes e so obtidas por meio da soma de valores gerados pela seleo de membros das dimenses. Exemplo: lucro lquido; Semi-aditivas: So medidas obtidas a partir da soma de apenas partes de suas dimenses. Exemplo: quantidade em estoque (no faz sentido som-la atravs da dimenso tempo); No-aditivas: So medidas que no podem ser somadas atravs de nenhuma de suas dimenses. O exemplo mais comum desse tipo de medidas so valores percentuais.
Professor Marcio Victorino 31
Modelagem Multidimensional
Dimenso: Representao dos contextos relevantes para a anlise de um fato.
Exemplo:
Fato: Vendas. Dimenses: Clientes, Produtos, Tempo, Locais, ...
32
Modelagem Multidimensional
Membros:
Exemplos:
dimenso Tempo: dia, semana, horrio. dimenso Locais: bairro, cidade, estado.
Hierarquias:
I) TEMPO
ANO TRIMESTRE MES DIA
II) GEOGRAFIA
REGIAO ESTADO
33
Agregados
Normalmente, a modelagem dimensional utilizando o esquema estrela apenas representa os fatos no nvel de granularidade mais baixa (a partir do qual possvel gerar as combinaes ou diferentes perspectivas de anlise). No entanto, torna-se evidente a vantagem (por razes de desempenho) de pr-calcular e armazenar fatos sumrio, contendo agregaes segundo diferentes combinaes de dimenses.
34
Agregados
Produto Marca Categoria Produto
Professor Marcio Victorino
Agregados
Vendas
Categoria
36
Agregados
Tempo de Resposta
37
Agregados
Fatores:
Custo de Criao; Custo de Manuteno; Frequncia de Manuteno; Frequncia de Utilizao; Tempo de Gerao.
vivel
armazenar
todos
os
38
Modelo Dimensional
Visualizao:
Uma viso multidimensional usualmente representada por um cubo. Adequado visualizao de at 3 dimenses. Anlise tridimensional bastante utilizada. Hipercubo: cubo com mais de 3 dimenses.
39
Modelo Dimensional
40
Modelo Dimensional
Funcionalidades:
Roll-up(agregao): os dados so resumidos com generalizao crescente (dia, ms, ano). Drill-down(desmembramento): nveis crescentes de detalhes so revelados (ano, ms, dia). Drill Across (envolve mais de uma tabela Fato): ocorre quando o usurio pula um nvel intermedirio dentro de uma mesma dimenso. Por exemplo: a dimenso tempo composta por ano, semestre, trimestre, ms e dia. O usurio estar executando um Drill Across quando ele passar de ano direto para trimestre ou ms. Drill Through (detalhar at o nvel operacional): ocorre quando o usurio passa de uma informao contida em uma dimenso para uma outra. Por exemplo: Estou na dimenso de tempo e no prximo passo comeo a analisar a informao por regio. Pivot(pivoteamento): rotao do cubo (hipercubo). Slice-and-Dice(fatiar e cortar em cubos): realizar a operao de projeo nas dimenses. Slice: seleciona dados de uma nica dimenso de um cubo OLAP. Dice: extrai um subcubo do cubo original executando uma operao de seleo em duas ou mais dimenses. Por exemplo, podemos querer visualizar os dados relativos apenas ao ms de janeiro de 2010, o que corresponde a efetuar um slice na dimenso tempo;
41
Roll-up
42
Drill-down
43
Pivot
44
Slice-and-Dice
45
46
ROLAP
47
Data Mining
As ferramentas de Minerao de Dados, so especializadas em procurar padres nos dados. Essa busca pode ser efetuada automaticamente pelo sistema ou interativamente com um analista, responsvel pela gerao de hipteses. Diversas ferramentas distintas, como redes neurais, induo de rvores de deciso, sistemas baseados em regras e programas estatsticos, tanto isoladamente quanto em combinao, podem ser ento aplicadas ao problema. Em geral, o processo de busca interativo, de forma que os analistas revem o resultado, formulam um novo conjunto de questes para refinar a busca em um dado aspecto das descobertas, e realimentam o sistema com novos parmetros. Ao final do processo, o sistema de Minerao de Dados gera um relatrio das descobertas, que passa ento a ser interpretado pelos analistas de minerao. Somente aps a interpretao das informaes obtidas encontramos concluses ou regras, este processo conhecido por Knowledge Discovery in Database (KDD) ou descoberta de conhecimento em banco de dados.
Professor Marcio Victorino 48
Data Mining
O processo de Knowledge Discovery in Database (KDD) ou descoberta de conhecimento em banco de dados compreende seis fases:
Seleo de dados. Limpeza de dados. Enriquecimento. Transformao. Minerao. Anlise, assimilao, interpretao, avaliao, divulgao e informaes.
exposio das
Data Mining
Formas de descrever o conhecimento descoberto:
Regras de associao.
Suporte: a porcentagem da populao que satisfaz regra. Confiana: dadas duas regras, antecedente e conseqente, a porcentagem em que a regra conseqente ocorre.
Hierarquias de classificao.
Aprendizado supervisionado (classes predefinidas).
(no
possui
amostra
de
52
53
54
55
56
Concluso
Inmon:
um engano pensar que os enfoques de projeto que funcionaram no passado sero teis na construo do DW. Os requisitos para a criao de um DW no podem ser conhecidos at que ele seja parcialmente povoado e sendo usado pelo analista de SAD. Portanto, ele no pode ser projetado do mesmo modo pelo qual so construdos os sistemas clssicos baseados em requisitos. Por outro lado, tambm constitui um engano pensar que no prever requisitos seja uma boa idia. A realidade se encontra em algum ponto intermedirio.(estratgia evolucionria)
58
Fim
Professor Marcio Victorino 59