You are on page 1of 94

CURSO DE PS-GRADUAO EM BANCO DE DADOS

PROJETO E
IMPLEMENTAO DE
DATAWAREHOUSE

Prof. M.e ORNLIO HINTERHOLZ JUNIOR

BOA VISTA-RR
2015

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

A TOMADA DE DECISO NAS ORGANIZAES


O PROCESSO DECISORIAL

um processo organizacional considerado de grande relevncia para um


gerenciamento eficaz das organizaes.
o poder de escolher, em determinada circunstncia, o caminho mais
adequado para a empresa. Para que um negcio ganhe a vantagem competitiva
necessrio que ele alcance um desempenho superior, e para tanto, a
organizao deve estabelecer uma estratgia adequada, tomando as decises
certas.

ELEMENTOS DO PROCESSO DECISORIAL


Em toda deciso existem, no mnimo, seis elementos, a saber:
1. O tomador da deciso: o indivduo ou grupo de indivduos que faz uma
escolha dentre vrios cursos de ao disponveis.
2. Objetivos: so os objetivos que o tomador de deciso pretende alcanar por
meio de suas aes.
3. O sistema de valores: so os critrios de preferncia que o tomador de deciso
usa para fazer sua escolha.
4. Cursos de ao: so as diferentes sequncias de ao que o tomador de
deciso pode escolher.
5. Estados da natureza: so aspectos do ambiente que envolvem o tomador de
deciso e que afetam sua escolha de cursos de ao. So fatores ambientais
fora do controle do tomador de decises, como as condies de certeza, risco
ou incerteza.
6. Consequncias: representam os efeitos resultantes de um determinado curso
de ao e de um determinado estado da natureza
NIVEIS DE DECISO
Existem trs diferentes reas de deciso na empresa, a saber:
1. Decises estratgicas: relacionadas com as relaes entre a empresa e o
ambiente; guiam e dirigem o comportamento da empresa, principalmente
quando ela expande e altera sua posio produto/mercado. So tomadas no
nvel institucional.
2. Decises administrativas: relacionadas com a estrutura e configurao
organizacional da empresa, com a alocao e distribuio de recursos. So
tomadas no nvel intermedirio.
3. Decises operacionais: relacionadas com a seleo e orientao do nvel
operacional encarregado de realizar a tarefa tcnica.

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

ETAPAS DO PROCESSO DE TOMADA DE DECISO:


As decises so tomadas em resposta a algum problema a ser resolvido, a alguma
necessidade a ser satisfeita ou a algum objetivo a ser alcanado. A deciso envolve um
processo, isto , uma sequncia de passos ou fases que se sucedem. Da o nome
processo decisorial para descrever essa sequncia de fases. Na realidade, o processo
decisorial pode ser descrito em quatro fases essenciais, a saber:
1. Definio e diagnstico do problema. Esta fase envolve a obteno dos
dados e fatos a respeito do problema, suas relaes com o contexto mais
amplo, suas causas, definies e seu diagnstico.
2. Procura de solues alternativas mais promissoras. Esta fase envolve a
busca de cursos alternativos de ao possveis e que se mostrem mais
promissores para a soluo do problema, satisfao da necessidade ou
alcance do objeto.
3. Anlise e comparao dessas alternativas de soluo. a fase na qual as
vrias alternativas de curso de ao so analisadas, ponderadas e
comparadas, no sentido de verificar os custos (tempo, de esforos, de
recursos etc) e os benefcios que possam trazer, bem como consequncias
futuras e provveis quanto sua adoo.
4. Seleo e escolha da melhor alternativa como um plano de ao. A escolha
de uma alternativa de curso de ao implica no abandono dos demais
cursos alternativos. H sempre um processo de seleo e de escolhas
dentre vrias alternativas apresentadas. A racionalidade est implcita nesta
atividade de escolha.
CONDIES DE DECISO
As decises podem ser tomadas dentro de trs condies, a saber:
1. Incerteza: nas condies de deciso sob incerteza, o tomador de deciso tem
pouco ou nenhum conhecimento ou informao para utilizar como base para
atribuir probabilidade a cada estado da natureza ou a cada evento futuro. Em
casos extremos de incerteza no possvel estimar o grau de probabilidade de
que o evento venha ocorrer. a situao tpica com que se defronta o nvel
institucional das empresas, exigindo um planejamento contingencial que
permita alternativas variadas e flexveis.
2. Risco: nas situaes de deciso sob risco, o tomador de deciso tem
informao suficiente para predizer os diferentes estados da natureza. Porm,
a qualidade dessa informao e sua interpretao pelos diversos
administradores podem variar amplamente e cada administrador pode atribuir
diferentes probabilidades conforme sua crena ou intuio, experincia
anterior, opinio etc.
3. Certeza: nas situaes sob certeza, o administrador tem completo
conhecimento das consequncias ou dos resultados das vrias alternativas de
cursos de ao para resolver o problema. a deciso mais fcil de se tomar,
2

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

pois cada alternativa pode ser associada com os resultados que pode produzir.
Mesmo que o administrador no tenha condies de investigar todas as
alternativas disponveis, ele pode escolher a melhor dentre as alternativas
consideradas. Esta uma situao excepcional e no a regra.

TCNICAS DE APOIO TOMADA DE DECISO:


Brainstorming: Auxilia um grupo a imaginar/criar tantas ideias quanto possvel
em torno de um assunto ou problema, de forma criativa. Deve ser utilizada
quando for necessrio conhecer melhor o universo de uma situao, colher
informaes, opinies e sugestes dos participantes, identificando problemas
existentes e encontrando solues criativas para o problema identificado. Pode
ser estruturada ou no estruturada:
o Estruturada: Cada indivduo dever dar uma ideia a cada rodada.
o No-estruturada:
As
ideias
so
dadas
conforme surge nas
mentes dos indivduos.

Matriz de prioridade: Prioriza


alternativas baseadas em
determinados critrios e deve
ser utilizada quando o objetivo
estabelecer uma entre
diversas alternativas por meio
de anlise mais apurada.
rvores de deciso ou diagrama da
rvore: Permite indicar, de forma grfica, e
cronolgica, um caminho a ser seguido em
um processo de deciso, explicitando etapas
a serem cumpridas para alcanar o objetivo
pretendido.

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Mapas Cognitivos: Permite


retratar ideias, sentimentos,
valores, atitudes e seus
interrelacionamentos, de modo
a viabilizar o estudo, e
posterior anlise, utilizando
para tal uma representao
grfica.
Formalmente,
os
mapas cognitivos so definidos
como grafos, em que cada
conceito considerado um n,
e uma relao de influncia
uma ligao entre os ns.

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

EXERCCIO
1) Uma adequada compreenso do tema 'processo decisrio' implica ter como
corretas as seguintes afirmaes, exceto:
a) um problema cuja soluo no dispe de alternativas j est, por si s,
resolvido.
b) um nico problema pode ser percebido de formas diferentes por diferentes
indivduos.
c) o processo racional de tomada de deciso no exclui o uso da subjetividade.
d) mesmo a melhor deciso pode acarretar um resultado desastroso.
e) a tomada de deciso em equipe prefervel tomada de deciso individual.
2) Nas organizaes, as decises rotineiras e as decises causadas por variveis
diversas so denominadas, respectivamente,
a) contnuas e de informaes gerenciais.
b) de apoio a decises e no-estruturadas.
c) estruturadas e de apoio a decises.
d) recorrentes e de informaes gerenciais.
e) estruturadas e no-estruturadas.
3) Na gesto contempornea, o processo de tomada de deciso deve ter como
objetivo
a) apontar, dentre as alternativas satisfatrias, aquela que pode levar ao
resultado desejado.
b) indicar a alternativa realmente tima para levar ao resultado projetado.
c) elaborar cenrios estratgicos que permitam calcular as opes com maior
probabilidade de sucesso.
d) definir as oportunidades e as ameaas existentes no ambiente de negcios.
e) encontrar as alternativas que satisfaam os interesses dos setores mais
importantes da direo.
4) A tomada de deciso um processo atravs do qual se seleciona-se uma ou mais
alternativas de ao para se atingir o objetivo desejado. Em relao ao processo
decisrio, pode-se afirmar que
a) a tomada de deciso inerente essencialmente ao nvel estratgico,
cabendo ao nvel ttico seu desdobramento, e ao nvel operacional, sua
execuo.
b) a identificao e o diagnostico da situao problema ou a da oportunidade
constituem etapas do processo decisrio.
c) a tomada de deciso no nvel estratgico pode ser mais facilmente delegada
do que no nvel operacional.
d) a dificuldade para que as informaes sejam reunidas e organizadas, sendo
mais facilmente modelveis, no existe nas decises no programadas.
e) as decises programadas so apropriadas para um ambiente de baixa
incerteza.
5

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

5) Em um processo decisrio, uma oportunidade diz respeito (s) seguinte(s) fase(s):


a) identificao da situao.
b) diagnstico da situao.
c) desenvolvimento de oportunidades.
d) avaliao de alternativas.
e) seleo e implementao.
6) A deciso tomada corriqueiramente sobre assuntos inditos e no programados
caracteriza-se como uma tomada de deciso
a) de nvel operacional.
b) de nvel ttico.
c) equivocada.
d) sem feedback.
e) de nvel estratgico.
7) A tcnica de gerao de ideias, de modo isolado ou associativo, que possam, por sua
vez, estimular novas ideias com a finalidade de solucionar problemas denominada
a) ciclo PDCA
b) matriz GUT.
c) matriz de Ischikawa (causa e efeito).
d) brainstorming.
e) diagrama de Pareto.

8) No processo de tomada de decises, os administradores devem pesar alternativas,


muitas das quais envolvem acontecimentos futuros difceis de serem previstos. Por
isso, as situaes de tomada de deciso so frequentemente classificadas em um
continuum que vai da certeza (altamente previsvel) turbulncia (altamente
imprevisvel). Conforme sugerido por James A. Stoner e Edward R. Freeman (1992), o
risco refere-se condio para tomada de deciso:
a) na qual os administradores enfrentam situaes externas imprevisveis ou
no tm as informaes necessrias para estabelecer a probabilidade de
determinados eventos.
b) em que os administradores tm informaes precisas, mensurveis e
confiveis sobre os resultados das vrias alternativas que esto sendo
consideradas.
c) em que os administradores conhecem a probabilidade de que uma
determinada alternativa leve a um objetivo ou resultado desejado.
d) que ocorre quando as metas no so claras ou quando o meio ambiente
muda muito rapidamente.
e) na qual os administradores tm informaes insuficientes, porm confiveis,
sobre os resultados daquilo que est sendo levado em considerao no
momento da tomada de decises.
6

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

O USO DE DADOS E INFORMAO NAS ORGANIZAES


A Inteligncia Competitiva
Inteligncia Competitiva (ou Inteligncia Organizacional) a atividade de coletar,
analisar e aplicar, legal e eticamente, informaes relativas s capacidades,
vulnerabilidades e intenes dos concorrentes, ao mesmo tempo monitorando o
ambiente competitivo em geral.
A definio de Zanasi (1998, p. 45) para sistema organizacional inteligente traz a
essncia da Inteligncia Competitiva (IC) ao descrever esse sistema como elemento
essencial para que as empresas possam:
coletar informaes do ambiente externo para entender as foras e fraquezas
dos competidores;
avaliar sua prpria competitividade;
prever as intenes dos competidores e as expectativas dos clientes e prever
aes governamentais.
Informao como Insumo Bsico para as Atividades da Organizao
As organizaes produzem e utilizam dados, informaes e conhecimento de
diferentes naturezas e, utilizam tambm, dados, informaes e conhecimento
produzidos externamente organizao que possibilitam um melhor desempenho no
mercado em que atuam. Dentre eles pode-se citar:
a) Estratgicos: subsidiam a tomada de deciso da alta administrao e
possibilitam aos analistas estratgicos definirem para a organizao, as
diretrizes, as polticas, os programas, as linhas de atuao, as prioridades, os
indicadores de desempenho, os planos e planejamentos, ou seja, os cenrios
futuros, a misso e as metas, a atuao na sociedade e a imagem institucional;
b) Mercado: possibilitam alta administrao, bem como rea comercial
perceber oportunidades de negcios tanto no mercado nacional quanto no
mercado internacional;
c) Financeiros: viabilizam aos profissionais da rea financeira processarem
estudos de custos, lucros, riscos e controles;
d) Comerciais: subsidiam a rea comercial na exportao e/ou importao de
materiais, produtos e servios, bem como subsidiam a rea jurdica em relao
legislao do pas no qual estabelece-se a transao comercial;
e) Estatsticos: subsidiam as reas estratgica, financeira, comercial e de P&D,
identificando em termos percentuais e/ou numricos questes ligadas ao
negcio da organizao como: ndices de exportao, importao, demandas e
restries de mercado, ndices econmicos, poder aquisitivo, PIB, ndice de
desemprego, balana comercial, ndices de investimentos etc.;

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

f) De Gesto: atendem as necessidades dos gerentes e executivos da organizao


no planejamento e gerenciamento de projetos, no gerenciamento de pessoas e
situaes diversas;
g) Tecnolgicos: subsidiam a rea de P&D no desenvolvimento de produtos,
materiais e processos tecnolgicos, bem como monitoram a concorrncia
quanto as inovaes de produtos, materiais e processos;
h) Gerais: disseminados a todas as reas da organizao, possibilitando aos
profissionais uma atualizao constante, como por exemplo: notcias, fatos e
acontecimentos etc.;
i) Cinzentas: de qualquer natureza, para qualquer rea e com qualquer finalidade
de uso, que no so detectados em buscas formais de informao, como por
exemplo: colgio invisvel, memria de pessoas, documentos confidenciais de
difcil acesso, corredores informais eletrnicos (Internet), etc.
As unidades de trabalho que atuam diretamente com a gesto da informao, gesto
do conhecimento ou inteligncia competitiva, trabalham com essas diferentes
naturezas informacionais e as encontram de trs formas diferentes (figura abaixo):

Os
dados,
informaes
e
conhecimento estruturados so
aqueles acessados dentro ou fora
da organizao e podem ser
entendidos como aqueles que
compem bancos e bases de dados
internos e externos, redes de
comunicao
como
Internet,
Intranets, publicaes impressas
etc.
Dados,
informaes
e
conhecimento
estruturveis
basicamente
so
aqueles
produzidos pelos diversos setores
da organizao, porm sem
seleo, tratamento e acesso. Como exemplo pode-se citar: cartes de visita, colgio
invisvel, nota fiscal, atendimento ao consumidor, entre outros.
Dados, informaes e conhecimento no-estruturados so aqueles produzidos
externamente organizao, porm sem filtragem e tratamento. Alguns exemplos:
informaes veiculadas na mdia, mais especificamente TV e rdio, boatos,
acontecimentos sociais e polticos.
A inteligncia competitiva necessita ter o mapeamento e a prospeco de dados,
informaes e conhecimento produzidos internamente e externamente organizao,
8

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

conhecer profundamente as pessoas chave da organizao independentemente de


cargos, assim como as pessoas estratgicas fora da organizao, saber quais
setores/instituies participam dos fluxos informacionais, formais e informais, tanto
no ambiente interno quanto externo organizao, estar sensveis as necessidades
informacionais dos clientes internos e externos, visando elaborar produtos e servios
informacionais de qualidade e direcion-los de forma adequada e, finalmente diminuir
o stress informacional da organizao. Todas essas aes visam, portanto, criar uma
cultura informacional/intelectual na organizao.
Os dados, informaes e conhecimento prospectados sobre empresas, produtos,
mercados, materiais, processos, meio ambiente, tecnologia, pessoas, poltica,
economia, finanas, comrcio etc., tm a finalidade de dar maior segurana s
direes perseguidas pela organizao. Agregar valor fundamental para que o
processo de inteligncia competitiva da organizao, seja efetivo. Por isso, os servios
e produtos devem ser personalizados ao pblico usurio. Uma outra questo
importante para a inteligncia competitiva a validade dos dados, informaes e
conhecimento, isto , realmente eles respondem as perguntas crticas do negcio da
organizao quanto a consistncia e confiabilidade, utilidade e obsolescncia e,
finalmente a confidencialidade exigida.
O processo de inteligncia competitiva organizacional deve seguir sete passos para seu
funcionamento contnuo. So eles:
1. Identificar os "nichos" de inteligncia internos e externos organizao;
2. Prospectar, Acessar e Coletar os dados, informaes e conhecimento
produzidos internamente e externamente organizao;
3. Selecionar e Filtrar os dados, informaes e conhecimento relevantes para as
pessoas e para a organizao;
4. Tratar e Agregar Valor aos dados, informaes e conhecimento mapeados e
filtrados, buscando linguagens de interao usurio / sistema;
5. Armazenar atravs de Tecnologias de Informao os dados, informaes e
conhecimento tratados, buscando qualidade e segurana;
6. Disseminar e transferir os dados, informaes e conhecimento atravs de
servios e produtos de alto valor agregado para o desenvolvimento competitivo
e inteligente das pessoas e da organizao;
7. Criar mecanismos de feedback da gerao de novos dados, informaes e
conhecimento para a retroalimentao do sistema.
O modelo proposto abaixo mostra de forma geral o Processo da Inteligncia
Competitiva que a organizao deve gerenciar para obter competitividade
empresarial. A inteligncia competitiva possibilita o desenvolvimento da organizao
de forma contnua num mercado cada vez mais agressivo.

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Dados, informao e conhecimento, conforme j mencionado anteriormente, so


matrias-primas para o processo de inteligncia competitiva. Atravs dela possvel
estabelecer uma cultura organizacional baseada em informao e conhecimento,
visando maior flexibilidade de atuao no mercado, assim como maior capacidade de
criao e gerao de tecnologia, ou seja, maior competitividade. Inteligncia
competitiva ser o grande diferencial das organizaes para esse novo milnio.

10

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

EXERCCIO
1) A definio:
Capacidade de uma corporao como um todo de reunir informao, inovar, criar
conhecimento e atuar efetivamente baseada no conhecimento que ela gerou
refere-se:
a) ao valor agregado da informao.
b) ao capital intelectual.
c) ao conhecimento ttico.
d) vantagem competitiva.
e) inteligncia organizacional.
2) No processo de desenvolvimento de inteligncia competitiva organizacional, o
responsvel pela coleta de dados e informaes solicitadas, monitoramento do
ambiente, elaborao de entrevistas e manuteno das bases de dados atualizadas o
a) Coletor.
b) Analista.
c) Gerente.
d) Gestor.
e) Mentor.
3) Considere:
Uma das vantagens do KM o bom time-to-market que pode ser conferido ao corpo
executivo das empresas, cuja capacidade de tomada de deciso com rapidez e
eficincia maximizada. Tal resultado pode ser ainda mais positivo quando as
organizaes combinam gesto do conhecimento com o processo de monitoramento
dos ambientes competitivo, concorrencial e organizacional, visando subsidiar o
processo decisrio e o alcance das metas estratgicas de uma empresa.
O trecho grifado no texto pode ser resumido como
a) controle de concorrncia ao acesso dos dados.
b) gerenciamento dos recursos humanos do projeto.
c) processos de monitoramento e controle dos projetos.
d) processo de inteligncia competitiva.
e) gerenciamento do escopo do projeto.

11

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

BUSINESS INTELLIGENCE
Business Intelligence (Inteligncia Empresarial ou Inteligncia de Negcios) a
capacidade de uma empresa para capturar, selecionar, analisar e gerenciar as
informaes relevantes para a gesto do negcio com o objetivo de:
Inovar e criar conhecimento.
Reduzir riscos na tomada de deciso e evitar surpresas.
Direcionar, assertivamente, os planos de negcios e a implementao de aes.
Criar oportunidades de negcios.
Apoiar o desenvolvimento de produtos/servios com uma base de informao
confivel, eficiente e gil.
Monitorar, analisar e prever, eficientemente, as questes relacionadas ao core
business.
Gerar valor aos negcios.
A infra-estrutura de Business Intelligence (BI) compreende: a extrao, data
warehouses, data marts e ferramentas para gerenciamento da informao e anlise de
dados como o data mining.
Entre as definies mais aceitas est a que aponta BI como um termo guarda-chuva
quer se refere a uma variedade de aplicaes usadas para analisar e organizar uma
srie de dados.

Tambm so considerados como sistemas, processos e tecnologias que partem desses


dados e os transformam em um modelo visual que permite anlises sofisticadas das
12

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

tendncias de negcio. Oferecem uma estrutura de buscas efetiva, acessvel e acurada;


com mtricas de negcio e relatrios que permitem aos lideres de negcio se
manterem informados para tomar decises baseados em fatos.
De maneira resumida, BI a habilidade para que a pessoa certa receba a informao
adequada no momento correto para tomar a melhor deciso.
A inteligncia de negcio baseia-se em 4 atividades principais que servem de norte
para o desenvolvimento de qualquer soluo de BI:

Gathering Data: coletar dados de diversas fontes;


Storing Data: organizar esses dados;
Analysing Data: analisar esses dados;
Provinding Access to Data: compartilhar resultados com os executivos mais
importantes da empresa.

A rea de BI est diretamente envolvida com os projetos de implementao de inmeros


sistemas transacionais (ST) em uma empresa:

13

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

ERP - Enterprise Resource Planning


B2B Business to Business
B2C Business to Consumer
CI Competitive Intelligence
KMS Knwonledge Management System
CRM Customer Relationship Management
PRM Partner Relationship Management
EAI Enterprise Application Integration
BSC Balanced Score Card (obs: refere-se a sistemas que apoiam o BSC em
uma empresa)

14

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

EXERCCIO
1) O grande desafio do profissional de TI que gerencia qualquer processo a anlise dos fatos
relacionados funo que exerce em uma organizao. Essa anlise deve ser feita com as
ferramentas e os dados disponveis, permitindo aos executivos e gerentes detectar as
tendncias e tomar as decises com eficincia e eficcia. Devido a essa necessidade, surgiu o
conceito de Business Intelligence - "BI".
Assinale a alternativa que indique duas caractersticas dos atuais sistemas de Business
Intelligence.
a) procurar relaes de causa e efeito / extrair e integrar dados de mltiplas fontes.
b) evitar a utilizao de ferramentas automatizadas / desprezar dados
contextualizados.
c) extrair e integrar dados de mltiplas fontes / evitar a utilizao de ferramentas
automatizadas.
d) desprezar dados contextualizados / trabalhar exclusivamente com fatos reais e no
hipotticos.
e) trabalhar exclusivamente com fatos reais e no hipotticos / procurar relaes de
causa e efeito.
2) Business Intelligence (BI) refere-se ao processo para tomada de decises em uma empresa,
sendo de elevada importncia a existncia de um repositrio prprio para os dados
consolidados e j transformados em "informao real", que pode ser um Data Warehouse ou
um Data Mart. Nesse contexto, duas aplicaes so identificadas: a primeira, que sustenta o
negcio por meio de ferramentas OLTP (On Line Transaction Processing), e a segunda, que
analisa o negcio por meio de ferramentas OLAP (On Line Analytical Processing). Essas
aplicaes tm, como objetivos principais, respectivamente:
a) levantamento e armazenamento de dados/ implementao de testes.
b) controle e registro de transaes/identificao de tendncias.
c) projeto e anlise de sistemas/transformao de processos.
d) pesquisa e teste de software/especificao de requisitos.
e) busca e coleta de informaes/substituio de rotinas.
3) A rea de BI - Business Intelligence est diretamente envolvida com os projetos de
implementao das aplicaes de
a) B2B, B2C e BSC.
b) EAI, B2B e B2C.
c) EAI, CRM e ERP.
d) CI, KMS e BSC.
e) CRM, PRM e ERP.
4) A inteligncia do negcio (eventualmente mais conhecida como Business Intelligence)
I. construda quando a arquitetura de TI especificamente orienta-se para os
interesses ou especialidades do negcio de forma exclusiva.
II. utiliza ferramentas que consolidam, analisam e acessam vastas quantidades de
dados para ajudar os usurios a tomar melhores decises empresariais.
III. utiliza como principais ferramentas os softwares para consulta e relatrios de banco
de dados, ferramentas para anlise multidimensional de dados e o data mining.

15

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

IV. confere s empresas a capacidade de acumular informaes; adquirir


conhecimentos sobre clientes, concorrentes e operaes internas; e mudar o
comportamento de tomada de deciso a fim de alcanar maior lucratividade e outras
metas corporativas.
Est correto o que se afirma em
a) I e II, apenas.
b) I, II e III, apenas.
c) II e IV, apenas.
d) II, III e IV, apenas.
e) I, II, III e IV.

16

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

SISTEMAS DE APOIO DECISO


O Sistema de Apoio Deciso (SAD) um sistema baseado em computadores que
atravs de informaes e modelos especializados ajudam a resolver problemas
organizacionais, sua funo apoiar o processo de tomada de deciso em reas de
planejamento estratgico, controle gerencial e controle operacional, sendo isso o que
o diferencia dos demais tipos de sistemas de informaes.
Sua demanda surgiu diante do crescimento competitivo das organizaes, pois o SAD
desenvolvido atravs de dados histricos e experincias individuais que so
incorporados como informaes teis possibilitando melhores condies para a
tomada de deciso e aumentando as vantagens obtidas pela empresa.
Muitas empresas esto utilizando o SAD para melhorar o processo decisrio. As razes
citadas pelos gerentes so, segundo Turban (2004, p. 374):
Necessidades de informaes novas e mais precisas;
Necessidade de Ter informaes mais rapidamente;
O monitoramento das inmeras operaes de negcios da empresa estava
cada vez mais difcil;
A empresa estava operando em uma economia instvel;
A empresa enfrentava maior concorrncia nos mercados interno e externo;
Os sistemas instalados na empresa no apoiavam adequadamente os
objetivos de maior eficincia, rentabilidade e ingresso em mercados lucrativos;
O departamento de sistemas de informao no conseguia mais atender
diversidade de necessidades imediatas da empresa e de seus executivos e no
havia funes de anlise de negcio embutidas nos sistemas existentes.
Caractersticas
Permitem o armazenamento de grandes volumes de dados e de diferentes
fontes;
Possuem flexibilidade de relatrios e apresentaes;
Possuem orientao grfica e de texto;
Suportam anlise de Drill Down/Up;
Realizam anlises complexas e sofisticadas, utilizando pacotes de software
avanados;
Utilizam modelos analticos;
Permitem anlise e simulao de cenrios (ex: dados os custos atuais de
distribuio qual o transporte que deve ser utilizado?);
Orientado por mtricas de desempenho;
Orientado a processos de negcios;
Apoiado por tecnologias especializadas.
Tipos de sistemas de apoio deciso.
Sistemas de Informao Executiva (EIS)
17

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Sistemas Especialistas (Expert Systems)


Sistemas Artificiais / Redes Neurais

Componentes de sistemas de apoio deciso.


SISTEMA DE GERNCIA DE BANCO
DE DADOS (SGBD)
SISTEMA DE GERNCIA DE BANCO
DE MODELOS (SGBM)
SISTEMA DE GERNCIA DE
INTERFACE

O banco de dados SAD que uma coleo de dados atuais e histricos de uma
variedade de sistemas ou grupos pode ser um pequeno banco de dados em um
computador isolado ou ele pode ser um poderoso data warehouse continuamente
atualizado por dados organizacionais.
O sistema de software pode conter vrias ferramentas OLAP, ferramentas de
datamining ou uma coleo de modelos matemticos ou analticos que podem ser
facilmente acessados pelo usurio do SAD.
A interface do SAD que permite ao usurio interagir com o sistema de software deve
ser simples.
Um modelo de SAD pode ser fsico, matemtico ou verbal, visto que cada SAD
construdo para um propsito, ele poder fazer diferentes colees de modelos
disponveis na organizao dentro da realidade do propsito desejado. Os modelos
mais conhecidos e utilizados so:
Modelos estatsticos;
Modelos de otimizao ou Modelos de previso;
Modelos de biblioteca e
Modelos de anlise de sensibilidade

18

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

EXERCCIO
1) O sistema de apoio a deciso
a) visa obter informaes de todos os nveis a partir de informaes detalhadas
armazenadas nos sistemas de processamento de aes.
b) analisa dados on-line coletados por sistemas de processamento de transio,
para ajudar as pessoas a executar aes operacionais.
c) visa obter informaes de alto nvel a partir de informaes gerenciais
armazenadas nos sistemas de processamento de documentos.
d) analisa dados coletados por sistemas de processamento de inovao, para ajudar
as pessoas a viabilizarem aes de transcries.
e) analisa dados on-line coletados por sistemas de processamento de transao,
para ajudar as pessoas a tomarem decises de negcios.
2) Um sistema de apoio deciso informatizado, no seu modelo bsico, tem quatro
componentes. Assinale qual dos relacionados abaixo NO um desses componentes.
a) Sistema de Gerncia de Metadados em Data Warehouse (SGMD)
b) Sistema de Gerncia de Banco de Modelos (SGBM).
c) Sistema de Gerncia de Banco de Dados (SGBD).
d) Sistema de Gerncia de Interface.
e) Usurio.
3) Sistemas so conjunto de tarefas, controles e programas que interagem de maneira
a obter resultados complementares e tm como objetivo um fim certo e planejado.
Como exemplo, pode-se citar um modelo genrico de tomada de deciso que analisa
um grande nmero de variveis, para que seja possvel o posicionamento a uma
determinada questo. Trata-se de um sistema denominado:
a) Sistema de Informaes Executivas (SIE).
b) Sistema de Apoio Deciso (SAD).
c) Sistema de Informaes Gerenciais (SIG).
d) Automao de Escritrios (AE).
4) Os sistemas de apoio deciso so sistemas que ajudam na anlise de informaes
do negcio. Os Banco de Dados de apoio deciso exibem certas caractersticas
especiais. NO uma caracterstica adicional dos Bancos de Dados de apoio deciso.
a) Em geral, a integridade uma preocupao (supe-se que os dados esto
corretos quando so carregados pela primeira vez e no so atualizados
subsequentemente).
b) As colunas tendem a ser usadas em combinao.
c) As chaves frequentemente incluem um componente temporal.
d) O Banco de Dados tende a estar fortemente indexado.
e) O Banco de Dados envolve frequentemente vrios tipos de redundncia
controlada.

PROJETO DE BI: ETAPAS, EQUIPE E TIPOS DE SOLUO


19

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

ETAPAS DO PROJETO DE BI
O projeto de BI deve ser realizado de forma iterativa, dividindo a tarefa macro em
iteraes com objetivos menos ambiciosos e mais facilmente delimitados.
De uma maneira geral as etapas do projeto de BI organizam-se da mesma forma que
os projetos de engenharia em geral.
Justificativa:
Avaliao
das
necessidades que motivam o projeto.
Planejamento: Planejamento ttico
e estratgico que definem como o
projeto ser cumprido e entregue.
Anlise de negcio: Anlise
detalhada
do
problema
ou
oportunidade de negcio para
entendimento dos requisitos de uma
potencial soluo o produto.
Projeto: Concepo de um produto
que resolva o problema ou aproveite a
oportunidade.
Construo: Desenvolvimento do
produto que trar o retorno sobre o
investimento desejado em um perodo pr-determinado.
Entrega: Implantao ou venda do produto finalizado, mensurao da efetividade
para definir se o retorno sobre o investimento foi alcanado, excedido ou falhou.
ETAPAS DO PROJETO DE DESENVOLVIMENTO ITERATIVO

DETALHAMENTO DAS ETAPAS DO PROJETO DE DESENVOLVIMENTO ITERATIVO


20

CURSO DE PS-GRADUAO EM
BANCO DE DADOS

ANLISE DO NEGCIO

PLANEJAMENTO

JUSTIFICATIVA

Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Oportunidade de Negcio
Problema ou oportunidade de negcio definido e soluo de BI proposta
Justificativa do custo de cada verso do aplicativo de BI e definio clara dos
seus objetivos
Avaliao da Infraestrutura Empresarial
Infraestrutura Tcnica: hardware, software, middleware, SGBDs, sistemas
operacionais, componentes de rede, repositrios de metadados, utilitrios,
etc.
Infraestrutura No Tcnica: padres de metadados, padres de nomenclatura
de dados, modelo de dados empresarial, metodologias, padres de teste,
resolues de disputas, etc.
Planejamento do Projeto
Detalhamento de escopo, equipe, oramento, tecnologia, representantes do
negcio
Acompanhamento prximo do progresso do projeto
Definio dos Requisitos do Projeto
Definio do escopo do projeto.
Definio dos requisitos mnimos de cada iterao.
Anlise de dados
Anlise da qualidade dos dados disponveis nas fontes
Adaptao dos modelos de dados existentes s fontes de dados e requisitos
dos usurios.
Consolidao e conciliao dos dados provenientes de diversas reas da
organizao que muitas vezes se valem de regras de negcio e padres de
modelagem distintos para cada rea.
Prototipagem do Aplicativo
Anlise das verses funcionais do aplicativo
Utilizao de ferramentas de prototipagem rpidas oferecidas pelos principais
frameworks de desenvolvimento ou mesmo de terceiros
Percepo das potencialidades e limites da tecnologia pelas equipe de
negcios
Ajuste dos requisitos de projeto e expectativas
Anlise do Repositrio de Metadados
Definio dos metadados a serem capturados e armazenados
Mapeamento dos metadados de negcio nos metadados da ferramenta de BI
Definio da utilizao de um repositrio comercial ou do desenvolvimento de
um repositrio prprio

21

CURSO DE PS-GRADUAO EM
BANCO DE DADOS

CONSTRUO

PROJETO

Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Projeto do Banco de Dados


Projeto dos esquemas dos bancos de dados em funo dos requisitos de
acesso s informaes
Armazenamento tanto de dados agregados quanto detalhados
Projeto de ETL
Limpeza dos dados coletados
Transformao dos dados coletados para as estruturas de armazenamento de
dados projetadas
Carregamento dos dados tratados nos repositrios
Utilizao de ferramentas especficas para tarefas ETL
Projeto do Repositrio de Metadados
Documentao do metamodelo de dados
Opo pela utilizao de um modelo entidade-relacional ou orientado a
objetos
Implementao de todos os requisitos do metamodelo lgico no projeto
Desenvolvimento de ETL
Desenvolvimento de extenses das ferramentas para lidar com as
caractersticas nicas de cada projeto
Desenvolvimento do Aplicativo
Desenvolvimento de solues robustas para prover acesso aos dados e
ferramentas de anlise a pessoas com pouca ou nenhuma experincia nesse
tipo de tarefa.
Minerao de Dados
Identificao e exposio de informaes escondidas nas caractersticas e
relacionamentos entre os dados.
Identificao de relaes no bvias ou previsveis entre os dados
Desenvolvimento do Repositrio de Metadados
A necessidade do desenvolvimento aplica-se unicamente aos casos onde se
fez a opo por no utilizar uma soluo comercial disponvel
Dada a sua complexidade, em geral, tratado como um projeto com equipe
especfica e desenvolvimento paralelo ao da soluo de BI.

22

CURSO DE PS-GRADUAO EM
BANCO DE DADOS

ENTREGA

Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Implementao
Verificao e teste exaustivo de todos os componentes do aplicativo de BI
Treinamento da equipe de negcios e demais stakeholders
Disponibilizao de helpdesk
Manuteno das bases de dados de BI
Agendamento e execuo das tarefas de ETL
Monitoramento de desempenho
Ajuste das bases fonte
Avaliao da Verso
Houve respeito aos prazos e oramentos?
Como foram solucionadas as disputas?
Quais ajustes foram feitos nos processos?
Avaliao das ferramentas, tecnologias e processos

medida que as pessoas envolvidas com o projeto conhecem mais a soluo de BI,
as potencialidades e limitaes da tecnologia ficam mais claras e os requisitos
impostos por esses usurios podem mudar. importante que a equipe de
desenvolvimento entenda essa situao para no se frustrarem.
importante considerar tambm que nem todos os requisitos dos usurios so
estratgicos nem precisam ser mapeados em estruturas multidimensionais.
Por mais modernas que sejam as ferramentas de ETL, dificilmente todas as
particularidades sero contempladas. Dessa forma, o desenvolvimento de extenses
dos aplicativos torna-se uma tarefa quase obrigatria para a realizao desse tipo de
tarefa de forma adequada.
Uma das tarefas mais importantes no desenvolvimento iterativo a anlise daquilo
que funcionou e daquilo que deve ser melhorado na prxima iterao. O aprendizado
a respeito da metodologia e da forma de trabalho da equipe deve ser contnuo,
adaptando a soluo e a metodologia de desenvolvimento a cada verso lanada.

23

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

EQUIPE DO PROJETO DE BI
A equipe de desenvolvimento do projeto de BI deve possuir habilidades
complementares para alcanar os objetivos com sucesso. Deve-se ter pessoal
especializado especialmente para o desenvolvimento de ETL, do aplicativo e dos
repositrios de dados e metadados.
A equipe dividida em dois grupos fundamentais:
Equipe fundamental (core): auto-organizada com redistribuio de tarefas
entre si bem como auto-anlise do trabalho.
Equipe extendida: participam do projeto sem que ele seja sua principal
atividade. Podem ter um cronograma de atuao junto equipe fundamental
ou participarem de sesses onde sua expertise necessria.
EQUIPE FUNDAMENTAL
Um grupo restrito de 4 ou 5 (nunca mais que 7) participantes ter 100% de sua
disponibilidade alocada no projeto de BI do seu incio at o fim. Esse grupo de
membros permanentes ser responsvel pela liderana do projeto e ter atribuies
como:
Gerente de projeto
Representantes do negcio
Analista do departamento de TI
Tcnico (analista ou programador snior) de TI
H tambm membros permanentes das etapas, que ficam 100% alocados no projeto
durante as etapas nas quais seus conhecimentos so requeridos. Dentre eles
destacam-se:
Desenvolvedor lder do aplicativo: projeta e acompanha o desenvolvimento do
aplicativo de acesso e anlise de dados
Arquiteto de Infraestrutura de BI: estabelece e mantm a infraestrutura
tcnica de BI. Apesar de fazer parte da equipe fundamental, em geral, est
hierarquicamente subordinado ao arquiteto estratgico do time estendido.
Representante do Negcio: participa da modelagem das sesses, definies de
dados, escreve casos de teste, toma decises de negcios, resolve disputas
entre unidades de negcio e aumentam a qualidade dos dados sob controle da
unidade de negcio de BI.

24

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

EQUIPE ESTENDIDA
Os membros da equipe estendida so aqueles que no se dedicam exclusivamente ao
projeto em momento algum do ciclo de desenvolvimento mas so utilizados na
realizao de tarefas especficas no seu desenrolar.
Nesse grupo demos listar:
Administrador de Dados: analisa os dados inter-oganizacionais, cria modelos
lgicos especficos para o projeto, mescla os modelos lgicos de dados com os
modelos lgicos organizacionais.
Especialista em Minerao de Dados: seleciona e executa as tarefas de
minerao de dados
Analista de Qualidade de Dados: avalia a qualidade da fonte de dados e
prepara as especificaes de limpeza para a tarefa de ETL
Administrador de Banco de Dados: projeta, carrega, monitora e faz a sintonia
das bases de dados
Desenvolvedor Lder de ETL: projeta e acompanha os processos de ETL
Desenvolvedor de Aplicativo: codifica os programas de relatrios e
dashboards, escreve consultas e desenvolve os programas de acesso e anlise
de dados
Suporte de BI: mentoring e treinamento da equipe de BI
Patrocinador Empresarial: coloca o projeto de BI em evidncia na empresa e
elimina os entraves dentro da organizao
Desenvolvedor de ETL: codifica programas e configura as ferramentas de ETL
Auditor de TI
Analista de QA: determina os riscos e exposio do projeto de BI devido
perda de controle interno ou fatores externos, o profissional responsvel por
atuar com auditorias internas e externas
Desenvolvedor do Repositrio de Metadados: codifica programas de migrao
de metadados e carregar os repositrios.
Equipe de Servios de Rede: mantm o ambiente de rede.
Equipe Operacional: executa os programas em lote de ETL, sistemas de acesso
e anlise de dados e do repositrio de metadados.
Executivo de Segurana: garantem que os requisitos de segurana estejam
definidos e que as funcionalidades de segurana sejam testadas nas
ferramentas e bases de dados.
Stakeholders: cuidam de responsabilidades especficas no projeto de TI de
acordo com sua funo e habilidades
Arquiteto Estratgico: gerencia a infraestrutura tcnica da organizao
Equipe de Servios Tcnicos: mantm a infraestrutura de hardware e sistemas
operacionais

25

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

TIPOS DE SOLUO DE BI
As aplicaes de BI podem ser
dividias em 7 subgrupos
principais que diferem entre si
pela forma de acesso e exibio
dos dados e pelo tipo de anlise
oferecida.
So elas:
Consulta direta base
Minerao de dados
Relatrios padronizados
Aplicativos Analticos
Dashboards
Scorecards
BI Operacional
A maior parte das ferramentas pode ser acessada atravs de um portal corporativo de
BI enquanto algumas funcionam como aplicaes standalone ou mesmo integrada a
outros sistemas de negcio.
A forma de acesso pode ser dividia entre:
Ad hoc: acesso customizado feito individualmente pelo usurio, destinado a
usurios experientes familiarizados com a construo de consultas e tarefas de
minerao de dados
Push-button: relatrios disponveis a partir da seleo de parmetros prdeterminados ou mesmo com opes padro
Relatrios operacionais: exibem sempre as mesmas informao sem a
possibilidade de o usurio os configurar
A anlise oferecida pelos aplicativos pode ser:
Estratgica: utilizada para a tomada de deciso de alto nvel na empresa, em
geral direcionada a cargos gerenciais e diretoria
Ttica: utilizada na operao ou produo, visa dar suporte s atividades de
rotina da empresa

26

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

EXERCCIO
Considere a Figura abaixo para as questes 1, 2 e 3:

1) Considerando o contexto da soluo de BI do Grupo Montanhs, no segundo


pargrafo, a integrao inicial apenas dos dados financeiros e contbeis vindas de
sistemas legados indica que
a) foi utilizada uma implementao top down. Nesta implementao h um grande
trabalho inicial, envolvendo todas as pessoas da empresa que iro participar do
projeto, o que fora a empresa a definir regras de negcio de forma corporativa
antes de se iniciar o projeto do DW.
b) no foi utilizada a implementao top down, porque o processo se iniciou com a
extrao, transformao e integrao das informaes dos sistemas internos, dados
externos e das fontes operacionais para um ODS.
c) foi utilizada uma implementao bottom up, porque a partir do DW foram
extrados os dados e metadados para os Data Marts departamentais do grupo
empresarial.
d) foi utilizada uma implementao bottom up, que permite que o planejamento e
desenho dos Data Marts possam ser realizados sem esperar pela infraestrutura
corporativa do DW, permitindo um ROI mais rpido.

27

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

e) foi utilizada uma implementao combinada que tem o propsito de integrar a


arquitetura top down com a bottom up, usando diversos modelos de Data Marts,
gerados de uma s vez.
2) Ao grupo Montanhs foi apresentada uma soluo de BI que trouxe diversas
vantagens para o grupo empresarial. O resultado dessa soluo permitiu:
1 - Informao disponvel para gesto
2 - Viso de curvas de comportamento
3 - Agilidade de ferramentas para apoio gesto
4 - Segurana de informaes para deciso
5 - Maior abrangncia de viso de indicadores
6 - Recursos mais abrangentes para anlise de negcios
7 - Necessidades e expectativas atendidas por ferramentas de TI
A soluo apresentada foi
a) um projeto de banco de dados transacional.
b) uma modelagem de banco de dados multidimensional.
c) um projeto de Data Warehouse.
d) um query & report de uma ferramenta OLAP.
e) uma operao ETL.
3) Nos pargrafos 5 e 6, so feitas referncias gerao de relatrios e consulta a
painis. Sobre este tema correto afirmar que
a) os relatrios so gerados automaticamente pelo sistema de BI e os usurios finais
os acessam por meio de painis, que so equipamentos acoplados aos monitores.
b) os painis consolidam informaes gerenciais geradas por ferramentas OLTP, que
acessam o DW para gerar relatrios padronizados.
c) o sistema OLTP recebe dados de ferramentas OLAP para realizar as anlises que
geram os relatrios. Essa carga de dados acontece conforme a necessidade da
empresa. Os painis servem de apoio aos usurios para a tomada de decises
gerenciais.
d) um painel tpico formado por grficos e outros recursos visuais que expandem
os dados apresentados nos relatrios. Os relatrios gerados pelo sistema de BI so
concisos e pouco precisos e os painis mais detalhados e mais complexos, por isso
de uso exclusivo dos altos executivos.
e) os usurios finais tm acesso s ferramentas OLAP para extrair os dados das
bases e construir relatrios capazes de responder s suas questes gerenciais. Os
paineis sumarizam parte das informaes de forma concisa e clara usando recursos
visuais.
4) Os portais corporativos oferecem acesso on-line s informaes e aplicaes das
empresas por meio das tecnologias de Internet, com objetivo de apoiar diretamente o
negcio e ajudar essas empresas a serem mais competitivas. Esses portais
a) devem incluir ferramentas de inteligncia de negcios (Business Inteligence),
gesto de contedo, data warehouse e informaes estratgicas.
28

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

b) devem integrar internet, intranet, extranet e sistemas legados, permitindo assim


o aumento dos nveis de eficincia e de qualidade das relaes nas organizaes
para serem considerados colaborativos.
c) so solues puramente tcnicas, pois dependem das Tecnologias de Informao
e Comunicao (TICs) para impactar os processos de negcio.
d) tm, como um de seus principais apelos, a promessa de fazerem o just in time da
informao: levar a informao certa, para a pessoa certa, na hora certa.
e) necessitam, fundamentalmente, de estabelecer mtricas para avali-los e
acompanhar a sua evoluo, porm, as nicas mtricas realmente teis so as
qualitativas, que avaliam o grau de satisfao do usurio com o portal.

29

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

FUNDAMENTOS DO DESIGN DIMENSIONAL


INTRODUO
A modelagem dimensional a tcnica utilizada para se ter uma viso multidimensional
dos dados e no uma viso simplista, como na modelagem relacional.
Abaixo tem-se dois comparativos do modelo relacional com o modelo dimensional.

TABELAS FATO E DIMENSES


A modelagem dimensional constituda basicamente de dois tipos de tabelas:

Tabelas fatos:
o Contm valores (mtricas)
o E as chaves
o Podem existir vrias no modelo
o Pk=concatenao de Fk das dimenses
o Uso de chaves sequenciais
30

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Tabelas dimenses
o Pontos de entrada
o Hierarquias e nveis de quebra
o Granularidade coerente com fato

FASES DA MODELAGEM DIMENSIONAL


As fases da modelagem dimensional so de extrema importncia para serem
cumpridas em um projeto de BI. As fases podem ser divididas em:
Contato e definio da rea de negcios;
Levantamento das necessidades;
Planejamento do projeto;
Objetivos;
Dificuldades para encontrar as informaes almejadas;
Indicadores estratgicos;
Mtricas iniciais;
Restries de informaes;
Estrutura e tecnologia;
No levantamento das necessidades, deve ser considerado:
Dificuldades e restries
o Indicadores, mtricas e comparativos
o Sempre observar as dimenses e as combinaes
Importante ter o modelo de dados existentes:
MER
Arquivos, dados manuais, planilhas eletrnicas.

31

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

ESTRUTURAS DO MODELO DIMENSIONAL


A estrutura de um modelo dimensional importante no que tange aos seguintes
aspectos:
quantidade de tabelas;
disposio das tabelas;
normalizao ou desnormalizao;
acesso;
desempenho;
hierarquias;
cascateamento das tabelas;
Desnormalizao
Na modelagem do banco de dados relacional aplicamos a normalizao (formas
normais). Contudo, no DW ou Data Marts faz-se necessrio, em alguns casos,
desnormalizar as tabelas. Visa obter o grau de desempenho elevado ao reduzir o
nmero de junes das tabelas. Agilidade na consolidao tambm uma
caracterstica da desnormalizao.
Existem quatro modelos, cada com suas caractersticas, como mostra a figura a seguir:
Star Schema (estrela);
Snowflake (flocos de neve);
Starflake;
Galaxy.

32

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

SCHEMA ESTRELA
o Dimenses desnormalizadas
o Voltado para acessos com mais performance
o Hierarquias achatadas
o Uma tabela fato ao centro e as dimenses ligadas ela.
SCHEMA SNOWFLAKE (flocos de neve)
o Modelo similar a Entidades e Relacionamentos
o Tabelas em cascata
o Normalizado
o Hieraquias mantidas
o Muitas tabelas
o Muitas junes 1 : N
SCHEMA STARFLAKE
o Combinao das duas anteriores
o Dimenses com N x N com outras tabelas
GALAXY SCHEMA
o Vrias fatos
o As dimenses podem estar dispostas de formas diversas
o As fatos no se relacionam

33

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

ARQUITETURA DO DATA WAREHOUSE


INTRODUO
A teoria de banco de dados foi difundida e est disponvel h alguns anos. Nesta teoria
os dados eram armazenados com o propsito maior de realizar operaes
transacionais, sejam em tempo real, sejam em um intervalo de tempo programado.
Mas tambm eram utilizados, em menor frequncia, para a execuo de processos
analticos.
O conceito de Data Warehouse (armazm de dados) surgiu
no incio da dcada de 80 quando os sistemas gerenciadores
de banco de dados (SGBD) apareceram como facilitadores da
computao de dados, e consequentemente, facilitadores da
tomada de deciso. Alguns autores dizem que Inmon o pai
do Data Warehouse, isto pelo fato de Inmon ter observado
que os dados poderiam ser organizados em um ativo
corporativo que o mesmo nomeou de Data Warehouse.

Data Warehouse uma coleo de dados orientada por assuntos, integrada, variante
ao tempo, e no voltil, que tem por objetivo dar suporte aos processos de tomada de
deciso.

Orientado por assunto: a primeira caracterstica do DW que ela orientada


em torno dos grandes assuntos da empresa.
Integrado: os dados encontrados dentro do armazm de dados sero sempre,
sem possibilidades de exceo, integrados.
No voltil: modificaes nos dados j existentes no ocorrem no data
warehouse.
Variante no tempo: os dados no Data Warehouse podem ser apresentados em
tempos determinados.

Tem-se duas estratgias para elaborao de um DW, que so defendida pelos dois
principais autores:
Monoltica - tudo de uma vez (Bill Inmon - DW)
Incremental - passo a passo (Ralph Kimball - Data Marts)
Tambm pode-se pensar em uma convergncia destes dois mundos:
Data Marts com plano de integrao definido para o DW
Integrao evolutiva implementao gradativa

34

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

DATA WAREHOUSE
Os dados disponveis nos Data Warehouses podero ser acessados pelos gerentes,
analistas e usurios finais, possibilitando a realizao de vrias tarefas, tais como
processamento analtico (OLAP) ou inteligncia empresarial (BI business intelligence).
O Data Warehouse - armazm de dados - armazena o acmulo de dados histricos.
Pode conter dados por muitos anos, com tamanho de armazenamento muito grande.
Normalmente depois de completadas as transaes comerciais na aplicao ou no
armazenamento de dados operacionais, elas so transferidas para o warehouse.
Tambm pode-se estabelecer uma periodicidade adequada para esta transferncia dos
dados.
Para o funcionamento da inteligncia empresarial, os dados brutos operacionais,
mantidos nos bancos de dados corporativos, espalhados por vrios sistemas da
organizao e em fontes heterogneas, so colocados (processo de ETL extrao,
transformao e carga) em um Data Warehouse.
Usando ferramentas de inteligncia nos negcios, so feitas consultas, relatrios
diversos, ou quaisquer outras anlises, como grfico e relatrios. Pode ser iniciado
tambm o processo de Data Mining - minerao de dados. (Figura abaixo).

35

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Respond: No Data Mining so fornecidas percepes dos dados corporativos que no


podem ser obtidos com o OLAP.
So feitas descobertas de padres e relacionamentos ocultos em grandes bancos de
dados e inferindo regras a partir deles para prever comportamentos futuros. Tais
modelos e regras so utilizados para guiar o processo de deciso e prever o efeito de
decises.
Os tipos de informaes que so obtidos com o data mining incluem: associaes;
sequncias; classificaes; aglomeraes e prognsticos. (LAUDON; LANDON; 2007).
Esses sistemas podem realizar anlises de alto nvel quanto a padres ou tendncias,
mas tambm podem esmiuar os dados para revelar mais detalhes, se forem
necessrios.
O Data Warehouse (DW) um componente central de uma infraestrutura de Business
intelligence (BI), funciona como um repositrio, ou seja, um armazm de anlise de
informaes numricas estveis e verificveis (Jacobson et al. 2007).

36

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Machado (2004) explica que, de forma geral e como demonstrado na figura abaixo
a estrutura do DW est em evoluo. A evoluo pode ser considerada como uma
resposta complexidade deste ambiente e dificuldade de integrar todos os
componentes. Os sistemas transacionais (OLTP) do o incio a esta construo
incremental.

Observa-se na figura os Data Marts. So pequenos DW que atendem a certas reas


especficas das organizaes.
As vantagens de se trabalhar com Data Marts so:
custo mais baixo
testes facilitados
menor tempo de implantao
GRANULARIDADE, MTRICAS E INDICADORES
O Gro a unidade de medida de um indicador para serem obtidos resultados de
desempenho. Tem o nvel atmico de dados - nas tabela fato e dimenso.
Consideraes que devem ser levadas em conta:
Volumes de dados
Necessidade de informaes para o negcio
Disponibilidade do dado fonte
Algumas possibilidades de granularidade:
Nvel de transaes (Documento da NF)
Nvel de tem de um documento (Item da NF, da OS, do Pedido)
37

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Tempo:
o Nvel dirio
o Nvel semanal
o Nvel mensal, etc

A granularidade da tabela Fato est diretamente relacionada com as granularidades


das tabelas dimenses.
Para implantao eficiente de todos os conceitos do BI, a utilizao de indicadores de
desempenho fundamental como instrumento estratgico para o processo de tomada
de deciso. Os indicadores permitem por meio de anlise e interpretao de dados, a
evidncia de fatos que facilitam o processo.
De acordo com Tavares (2005), as medidas de desempenho podem focalizar o futuro e
no apenas o registro do desempenho passado. O estudo dos indicadores
fundamental para uma projeo futura, com elaborao de tendncias e metas.
Segundo Leme Filho (2004), os indicadores de desempenho tm como principal
objetivo apresentar de forma clara a situao de determinados assuntos de negcios
que a empresa considera como vitais. O autor mostra que, para serem intuitivos, os
indicadores de desempenho devem ser representados atravs de grficos e cores, com
poucas informaes escritas e nmeros.
Sendo assim, a representao visual facilita o entendimento por parte dos gestores da
evoluo e projeo dos resultados obtidos pelas empresas e permite um ganho no
processo de tomada de deciso, alm de fornecer uma interface mais amigvel para o
mesmo.
As mtricas so as medicas colocadas na tabela fato para obteno das anlises. So
ligados granularidade.
Escolher para a tabela Fato os atributos numricos. Os tpicos so:
Quantidade
Valor
Custo do produto
Lucro
Consumo
Etc.

38

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

DIMENSES CONFORMADAS E CHAVES NO MODELO DIMENSIONAL


Assim como a granularidade, o conceito de dimenses conformadas um dos pilares
da modelagem dimensional. Diz respeito s entidades (dimenses) que servem de
perspectivas de anlise para qualquer assunto da organizao. Ou seja, as dimenses
esto em conformidade com os assuntos escolhidos.
Modelar dimenses conformadas significa que seus atributos no so conflitantes com
um ou mais Data Marts ou com o Data Warehouse.
Ex.: se estivermos falando de unidades vendidas (mtrica) de uma loja (dimenso) em
um ms (dimenso), estamos falando do mesmo dado de um produto (dimenso).
A modelagem dimensional tem por meta construir DW com dimenses conformadas e
fatos com granularidade mais prximos possveis.
No intuito de criar maior estabilidade, as chaves no modelo dimensional tem um
princpio diferente do modelo relacional. No relacional utilizamos muito chaves
inteligentes, que carregam significado nas mesmas. J no modelo dimensional, para
dimenses e fatos, utilizamos Surrogate Keys.
Surrogate Key (SK) = chave numrica sequencial.
Sem nenhum sentido embutido, evitando conflito de mudanas de chave;
Contudo, nas tabelas dimenses, mantemos as chaves inteligentes do modelo
relacional para a identificao dos registros.

39

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

EXERCCIO
1) Com relao aos conceitos de modelagem dimensional, assinale a opo correta.
a) Na abordagem utilizada por Kimball, todos os dados de uma empresa so
reunidos em um repositrio central, caracterizado por um projeto dimensional, e
que pode ser consultado diretamente.
b) A abordagem de Inmon consolida todas as informaes de uma empresa em um
repositrio central chamado data warehouse corporativo. Essa abordagem
caracterizada por um projeto na terceira forma normal, no qual os dados so
consultados diretamente por aplicativos de data warehouse.
c) Na abordagem de Kimball, os data marts so adaptados s necessidades e pontos
de vista de um grupo de negcios especfico, suportando a modelagem
dimensional, e so consultados por aplicativos de data warehouse.
d) A abordagem de data marts autnomos tem foco empresarial e atende s
necessidades dentro de uma rea de assunto. Seu desenvolvimento necessita
explorar o uso de elementos de dados comuns em toda a empresa.
e) Se, em um sistema transacional usando-se um esquema estrela, um cliente,
identificado por Codigo_do_cliente 1010, modificar o seu endereo da empresa
sede, ento, para fins analticos, no ser possvel acompanhar a histria de
endereos desse cliente, pois, nessa abordagem, depende-se de Codigo_do_cliente
para identificar uma linha exclusiva na dimenso cliente, de tal forma que no
possvel armazenar vrias verses do cliente.
2) A literatura especializada lista quatro etapas a serem seguidas nos processos de
Modelagem Dimensional no que concerne Data Warehouses e Data Marts. Essas
etapas caracterizam-se pela identificao/especificao:
a) do processo de negcio; da granularidade; das dimenses; das medidas;
b) da granularidade; das dimenses; das medidas; do ETL;
c) das dimenses; das medidas; do modelo fsico da base de dados; do ETL;
d) das dimenses; das medidas; do modelo lgico da base de dados; do ETL;
e) do processo de negcio; das dimenses; das medidas; do modelo lgico da base
de dados.

40

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

TABELAS DIMENSIONAIS E DESIGN DAS DIMENSES


Modelar corretamente o DW ser um diferencial para o BI. As anlises dependem
diretamente de como o DW foi modelado.
FUNDAMENTOS E CONCEITOS
As tabelas dimenso so pontos de entradas da estrutura do DW. A principal funo
reunir os atributos que sero utilizados para qualificar e sumarizar as consultas
analticas. So compostas de atributos textuais.
Dimenses e seus atributos servem tambm como filtros e como cabealho (header)
dos relatrios.
Dimenses tpicas:
o Produto/servio: o que vendo
o Fornecedor: quem vende
o Cliente: quem compra
o Tempo: quando foi feito a compra
o Local: loja, cidade, estado, etc - onde
Abaixo temos uma modelagem Estrela de um DW. Ao centro a tabela foto (f_venda). E
conectado a ela as dimenses (d_vendedor; d_tempo; d_filial; d_produto).

CARACTERSTICAS DAS DIMENSES


As dimenses so criadas para descrever todos os atributos necessrios. Devem ter
atributos descritivos, porm sem campos nulos. Normalmente um DW ou Data Mart
tem entre 4-15 dimenses:
Menos: faltou observao(tempo-espao-tipo)
Mais: dimenses suprfluas ou necessita a diviso do DW

41

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

As dimenses so os descritores das Fatos. Aplica o conceito de SK (surrogate key


chave sequencial) para independncia. No esquecendo de manter, como atributo, a
chave inteligente do BD Relacional.
HIERARQUIAS EM DIMENSES
As dimenses normalmente tem hierarquias, e as hierarquias tem nveis. As dimenses
podem ser relacionadas com mais de uma tabela fato, ou mesmo com mais de uma
dimenso no mesmo DW. O relacionamento entre as dimenses so feitas
dependendo de JOINS, o que compromete a performance das consultas analticas.
As operaes de hierarquias so roll-up (aumenta o nvel de agregao) e drill-down
(diminui o nvel de agregao). Estas operaes so normalmente realizadas segundo
as hierarquias (1:N) das Dimenses, mas no necessariamente, Ex:
Tempo: dia semana quinzena ms trimestre ano
Produto: produto sub categoria categoria departamento
Fornecedor: fornecedor cidade regio
EquipeDeVenda: equipe regio
DIMENSES COMPARTILHADAS
As dimenses podem ser compartilhadas entre vrios projetos de DW ou Data Marts.
fundamental para a integrao, pois ser o ponto de conexo entre as Fatos.

Observar sempre a granularidade necessria para as dimenses:


o Tempo ano-semestre-trimestre-ms-dia
o Cliente tipo de cliente-cliente
o Geografia pas-regio-estado-cidade-loja

DIMENSES TPICAS E SEUS ATRIBUTOS


Sempre (ou na maioria dos casos) a dimenso TEMPO estar presente nos DW. Os
servidores tratam a dimenso tempo como especial:
Podem ser obtidas diretamente de uma fonte simples: campo data de uma
tabela
Podem ser obtidas de uma tabela fonte: dimenso tempo bem projetada com
dia, feriados, tags de fim de semana, etc
Normalmente define-se tempo como uma dimenso a ser compartilhada com todos os
Data Marts.
Tabela dimenso TEMPO padro:
o Chave SK surrogage key (PK)
o Campo de data (chave inteligente do BD relacional)
o Dia-semana
o Nmero-do-dia-ms
42

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

o Nmero-dia-geral (corrido no ano - 01 a 365)


o nmero-semana-ano (01 a 52)
o Ms
o Trimestre
o Perodo fiscal
Estes atributos so apenas sugestivos para a tabela dimenso
depender do levantamento das necessidades da organizao.
Tabela dimenso CLIENTE padro:
o Chave SK (Pk)
o Chave inteligente do BD relacional
o Prenome e meio-nome
o Sobrenome
o Sexo
o Profisso
o Data nascimento
o Etc.
Estes atributos so apenas sugestivos para a tabela dimenso
depender da necessidade da organizao.
Algumas dicas quanto aos atributos:
o Escolher com cuidado os campos;
o Campos candidatos a remoo:
Campos usados por poucos usurios
Campos que no tenham valor de negcio
Campos de dimenses degeneradas, como
ordem/pedidos, caso a granularidade seja o
entidades

Tempo, pois

Cliente, pois

nmero de
item dessas

43

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

EXERCCIO
1) Um dos modelos mais utilizados na modelagem de data warehouses o modelo
dimensional, sobre o qual correto afirmar que
a) o nmero mnimo de tabelas dimenso em um modelo dimensional 2.
b) cada modelo dimensional contm, pelo menos, 2 tabelas fato
c) as tabelas dimenso contm atributos que visam descrever caractersticas de
cada dimenso.
d) cada tabela fato no pode conter mais do que 10 atributos.
e) a cardinalidade do relacionamento entre tabelas dimenso e tabelas fato de 1
para 1.

44

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

TABELAS FATO
CONCEITOS
tabela dominante (principal) em um modelo de DW - podem existir vrias no mesmo
DW. Fica rodeada pelas tabelas Dimenso. O armazenamento de valores das medidas
e o volume de dados histricos muito grande.
Para as PKs usa chaves SK (surrogate key numrico, sequencial, sem significado), e
a convergncia das FKs das Dimenses.
As tabelas Fato so compostas basicamente pelas chaves (atributos qualitativos das
tabelas Dimenso) e pelas mtricas (atributos quantitativos).
MTRICAS E GRANULARIDADE
Escolher para a tabela Fato os atributos numricos. Tpicos:
Quantidade
Valor
Custo do produto
Lucro
Consumo
Etc.
Decidir a granularidade pensando nas dimenses. Ex: Hora ou Dia?
As dimenses devero estar em conformidade (servir de perspectivas para as anlises).
Ex: De acordo com a escolha (Hora ou Dia), dados das dimenses devero estar
preparados.
FATOS E SEUS DADOS
Manter conformidade/coerncia tambm entre fatos e as medidas/valores, com o
mesmo sentido, frmulas de clculos, etc. Lembre-se, porm: as tabelas Fatos so
gigantescas (alto volume) e isso requer compromissos na escolha de seus campos.
Compromisso entre performance e armazenamento.
Campos candidatos a remoo:
Campos usados por poucos usurios
Campos que no tenham valor de negcio
Campos potencialmente derivados (conceito de elementos virtuais)
Ex: valor total (valor unitrio * quantidade do item)
45

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

DADOS HETEROGNEOS NA TABELA FATO


Exemplo: Produtos heterogneos na indstria financeira - Conta corrente, seguro,
emprstimo, poupana, habitao, etc.
Diferentes fatos e dados para cada linha de negcio. Dimenses comuns (clientes,
agncias, tempo)

Estratgia:
o Mltiplas tabelas fato e dados especficos
o Dimenses nicas e conformes

46

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

CUBOS
OLAP x OLTP
OLAP: On-line Analytical Processing - Processamento analtico on-line. Refere-se ao
conjunto de processos para criao, gerncia e manipulao de dados multimensionais
para anlise e visualizao pelo usurio em busca de uma maior compreenso destes
dados. usual a expresso ferramenta OLAP, referindo-se aos sistemas com estas
funcionalidades e que so, juntamente com o SGBD, a base do ambiente de DW.
OLTP: On-line Transaction Processing
Dados orientados a transaes (T)
Ambiente com alta taxa de transaes
Dados so atualizados
Dados relacionais
OLAP: On-line Analytical Processing
Dados orientados a anlise (A) de informao
Ambiente de baixa taxa de transaes
Dados so consultados
Dados so atualizados em perodos de tempo
Dados dimensionais
CONCEITOS DE CUBOS
Cubos so estruturas dinmicas para gerar os relatrios OLAP. Podem ter vrias
dimenses: tempo, regio, produto, etc. Nossa viso consegue perceber at trs
dimenses no Cubo, mas podem ter mais. Cubos diferem de relatrios tradicionais
(Transacionais) que so estticos.
So estruturas de dados que forma um subconjunto de um banco de dados grande
(DW). Podem ser manipulados e visualizados por inmeros ngulos e diferentes nveis
de agregao, onde possvel, atravs de suas dimenses (faces ou eixos), analisar
uma determinada situao.
Um cubo criado tendo em mente o tipo de consulta que um gerente de projeto
deseja fazer. Ao projetar um cubo importante levar em conta as provveis consultas
que podero ser feitas. O projeto de um cubo deve priorizar a escolha e a organizao
das dimenses que podem influenciar nas medidas relacionadas para a tomada de
deciso.
DW e Data Marts so compostos de N cubos, porm o cubo implementado
separadamente. Cada cubo uma viso dimensional de dados formado por:
Uma tabela fato e N tabelas dimenses;
47

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

Pode ter mais de uma tabela fato, mas nunca interligadas as dimenses que
as interligam;

Cubos como viso dimensional podem ser materializados/implementados em:


Consultas OLAP
Forma fsica de tabelas relacionais vistas como estruturas dimensionais
Tem-se ainda que operaes especiais permitem decompor um cubo de N dimenses
em sub-cubos de at 3 dimenses.
O CUBO
Abaixo uma imagem caracterstica do Cubo. Neste caso, est indicando (um cubo
branco) as vendas (mtricas) na localizao RJ (eixo Z), do produto Bavria (eixo Y) no
tempo T4 (eixo X).

SLICE X DICE
Seleo e projeo do cubo de dados
Slice (fatia): seleo / projeo com variao de valores (fatia) de uma ou mais
dimenses.
o Exemplo: as vendas da regio Norte, no ano 2011, de todos os Produtos
Dice (dados): seleo / projeo de valores fixos em todas as dimenses.
o Exemplo: as vendas da regio Norte, no ano 2011, do Produto X

48

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

CONSTRUO DO DW
AS FASES PARA CONSTRUO DE UM DW
importante enumerar as fases de um projeto para construo de um DW:
1.
2.
3.
4.
5.

Contato e definio da rea de negcios;


Levantamento das necessidades;
Modelagem do DW;
Definio sobre a estrutura - estrutura (Star, Snowflake, etc.)
Definio da granularidade
5.1. Menor mais espao;
5.2. Maior menos espao;
6. Mtricas;
7. Definio das dimenses e seus atributos;
8. Definio das chaves;
9. Relacionamentos das tabelas dimenso;
10. Tabelas Fatos
11. Cubos
As fases que seguem so a implementao em uma ferramenta de BI.
A CONSTRUO DE UM DW
Vamos partir de um modelo relacional para mostrar a construo de um DW.
Abaixo temos um modelo clssico de um sistema de vendas (DER), com seis tabelas. A
empresa tem filiais que possui vendedores. Estes realizam as vendas com seus
respectivos itens. Os itens possuem produtos que esto ligados categorias dos
produtos.

49

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

No levantamento das necessidades decidiu-se pela performance do DW e o modelo


estrela foi escolhido.
Os gestores indicaram:
os atributos que desejavam visualizar no DW;
as mtricas (quantidade da venda e valor da venda).
De posse destas informaes colhidas junto aos gestores, comeou-se a elaborar o
DW. As chaves surrogate key (SK) foram fortemente modeladas e as chaves
inteligentes do DER foram preservadas.
Observa-se no modelo do DW abaixo, modelado a partir do DER anterior:
escolha da estrutura Star (estrela);
as chaves das dimenses so SK, como id-vendedor da tabela dimenso
d_vendedor;
presena das chaves inteligentes, como cod_vendedor da dimenso
d_vendedor;
atributos qualificadores, como nome_vendedor da tabela d_vendedor;
presena da tabela tempo, padro em um DW: d_tempo;
desnormalizao realizada na tabela d_produto em funo do modelo estrela;
formao da chave primria composta da tabela fato (f_venda) a partir das
chaves das tabelas Dimenso, todas SK: id_vendedor + id_filial + id_produto +
id_tempo
presena de mais um campo (cod_venda) para compor a chave primria
composta da Fato f_venda: este campo torna-se necessrio na medida que
que, se composio da chave for apenas dos 4 campos (id_vendedor + id_filial
+ id_produto + id_tempo), haver Key Violation na chave primria. Portanto, o
cod_venda preservar a unicidade da chave primria da tabela Fato.
Presena na tabela fato das mtricas: que_venda_prod e valor_venda_prod.

50

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

ERROS COMUNS A SEREM EVITADOS NA MODELAGEM DIMENSIONAL E


CONSIDERAES FINAIS

Aceitar a premissa de que os responsveis pelos sistemas transacionais da


organizao so muito importantes e ocupados para gastar tempo com a
equipe da modelagem dimensional.
Projetar o modelo dimensional baseado em um relatrio especfico.
No conversar com os usurios de negcio.
No definir uma equipe que preserve o conhecimento aps o trmino do
projeto.
No obter patrocinadores fortes.
Os objetivos no so diretos com os negcios da organizao.
No desenvolver uma forma eficiente de comunicar bem o projeto.
Definir uma metodologia que no seja prtica e interativa, com entregas em
tempo razovel.
Colocar atributos de texto usados para restries e agrupamento numa tabela
de fatos.
Limitar atributos em dimenses para economizar espao.
Ignorar a necessidade de cuidar de mudanas em atributos de dimenses.
Resolver todos os problemas de desempenho de consultas adicionando mais
hardware.
Usar chaves operacionais ou inteligentes para junes de tabelas de
dimenso com tabela de fatos.

51

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

EXERCCIO
1) Um depsito de dados utilizado para armazenar, de forma consolidada,
informaes relativas s atividades de uma organizao em bancos de dados.
Nesse contexto, o datawarehouse possibilita a anlise de grandes volumes de
dados, coletados dos sistemas transicionais, permitindo uma melhor anlise de
eventos passados, oferecendo suporte s tomadas de decises presentes e
deciso de eventos futuros.
Com relao ao datawarehouse, analise as afirmativas a seguir.
I. Caracterizase pela volatilidade dos dados, facilitando a realizao de frequentes
atualizaes dos mesmos.
II.
Aplicaes OLAP destinamse anlise e manipulao de dados do
datawarehouse sob mltiplas perspectivas.
III. ETL so ferramentas que realizam a extrao de dados de diversos sistemas,
a transformao desses dados conforme regras de negcios e a carga dos
mesmos em um datawarehouse.
Assinale:
a) se somente a afirmativa I estiver correta.
b) se somente a afirmativa II estiver correta.
c) se somente a afirmativa III estiver correta.
d) se somente as afirmativas I e II estiverem corretas.
e) se somente as afirmativas II e III estiverem corretas.
2) A tecnologia de Data Warehouse oferece suporte s ferramentas OLAP, que
apresentam vises multidimensionais de dados permitindo a anlise das operaes de
negcio para facilitar a tomada de decises. Estas ferramentas suportam algumas
operaes de maneira a dar aos analistas o poder de observar os dados de vrias
maneiras em nveis diferentes. Considere duas destas operaes mostradas nas figuras
abaixo.

52

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

As operaes mostradas na Figura 1 e na Figura 2, respectivamente, so


a) drill-down e ROLAP.
b) rotao e drill-down.
c) ROLAP e drill-through.
d) rotao e roll-up.
e) roll-up e rotao.
3) Em relao aos DWs (Data warehouses), assinale a alternativa correta.
a) So orientados a objetos.
b) No variam com o tempo.
c) So volteis.
d) Evitam o uso de gerenciadores de bancos de dados tradicionais, reduzindo
custos, mas podem causar impactos significativos nos sistemas operacionais.
e) Seus dados no podem ser alterados, mas podem ser excludos.
4) A arquitetura de data warehouse de trs camadas contm as seguintes camadas:
a) Primeira camada: sistema operacional com os dados e o software para
aquisio.
Segunda camada: especificao de dados.
Terceira camada: servidor de monitoramento e cliente.
b) Primeira camada: sistema aplicativo.
Segunda camada: data warehouse.
Terceira camada: clientes preferenciais.
c) Primeira camada: sistema operacional com arquiteturas diferenciadas.
Segunda camada: data center.
Terceira camada: servidor de aplicao e cliente.
53

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

d) Primeira camada: sistema operacional com os dados e o software para


aquisio.
Segunda camada: data warehouse.
Terceira camada: servidor de aplicao e cliente.
e) Primeira camada: sistema aplicativo com os dados e o software para aquisio.
Segunda camada: data warehouse.
Terceira camada: relatrios e telas de operao.
5) Data warehouses so:
a) otimizados para o processamento de transaes.
b) multidimensionais.
c) atualizados em tempo real.
d) materializados por demanda.
e) snteses de bancos de dados subjacentes.

54

CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR

PROJETO E IMPLEMENTAO DE DATAWAREHOUSE

ALGUMAS REFERNCIAS

ADAMSON, Christopher. Star Schema: The Complete Reference. McGraw Hill,


2010.
BARBIERI, Carlos. BI - Business Intelligence - Modelagem & Tecnologia. So
Paulo: Axcel Books, 2002.
BARBIERI, Carlos. Bi2 - Business Intelligence - Modelagem e Qualidade. Rio de
Janeiro: Editora Campus Elsevier, 2011.
INMON, W. H. Building the Data Warehouse. Wiley, 3a ed. 2002.
JACOBSON, Reed; MISNER, Stacia; CONSULTING, Hitachi. Microsoft SQL Server
2005 Analysis Services passo a passo. Porto Alegre, Bookman, 2007.
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete
Guide to
Dimension Modeling (2nd Edition). John Wiley & Sons, 2002.
LAUDON, K. C.; LAUDON J. P. Sistemas de informao gerenciais:
administrando a empresa digital. 7. ed. So Paulo: Prentice Hall, 2007.
LEME FILHO, Trajano. Business Intelligence no Microsoft Excel. Rio de Janeiro:
Axcel Books do Brasil, 2004.
MACHADO, Filipe Nery Rodrigues. Tecnologia e projeto de Data Werehose:
uma viso multidimensional. So Paulo: rica, 2004.
TAVARES, Mauro Calixta. Gesto Estratgica. So Paulo: Atlas, 2005.
TURBAN, Efraim; RAINER JR, R. K.; POTTER, E. P. Administrao de tecnologia
da informao: teoria e prtica. 3.ed. Rio de Janeiro: Elsevier, 2005.

55

EXERCCIOS PRTICOS

Exerccio 1 Criando a transformao Hello World


1 Crie uma pasta chamada pdi_labs no seu computador.
2 Abra o Spoon.
3 A partir do menu principal escolha Arquivo -> Nova Transformao. Ser mostrada
a transformao Transformation 1 na rea de trabalho.
Obs.: Caso deseje, utilize as teclas de atalho CTRL-N
4 Do lado direito da tela mostrada a rvore de steps. Clique na opo Design e
Expanda a opo Input.
5 Arraste e solte o cone do step Generate Rows para a rea de trabalho da
transformao.

6 D um duplo-clique para abrir o step e digite os dados abaixo e clique OK em


seguida:
Nome do step: Gera 10 mensagens
Em Fields:
o Nome: mensagem
o Tipo: String
o Valor: Hello World!

Obs.: Voc tambm pode abrir o step para edio clicando com o boto direito e
escolhendo a opo Editar Step.
7 Na rvore de steps, expanda a opo Flow e arraste e solte o cone do step Dummy
para a rea de trabalho da transformao.
8 Vamos criar um hop para ligar os dois steps. Clique com o boto direito no step
Generate Rows, segure a tecla Shift e arraste o cursor do mouse para o step Dummy.

9 Vamos adicionar uma nota transformao. Clique com o boto direito em


qualquer parte da rea de trabalho da transformao e escolha a opo Nova Nota.
Digite o texto da nota.

10 Salve a transformao na pasta pdi_labs com o nome hello_world. Ser gerado


um arquivo XML com extenso .ktr.
11 Podemos rodar uma prvia da transformao, antes de sua execuo real. Clique
com o boto direito no step Dummy e escolha a opo Preview.
Obs.: Voc poder rodar a previso da transformao clicando no step desejado e, em
seguida, clicando no cone Preview da barra de opes.

12 Aps carregar a janela de dilogo de Preview, clique no boto Quick Launch para
visualizar o resultado da transformao.

13 O que foi feito nessa transformao? O step Generate Rows simplesmente gera
vrias linhas de registros, de acordo com os parmetros informados. Experimente
editar o step para acrescentar outros campos e mudar o tamanho do conjunto de
registros gerados. O step Dummy apenas recebe os registros gerados e no faz nada.
14 Um pequeno detalhe: ns no executamos a transformao, apenas visualizamos
uma prvia de sua execuo. Para executar a transformao clique no boto Run e
aps abrir a janela de dilogo clique no boto Launch.

15 O resultado real da execuo aparece na aba do log. As mtricas de execuo


aparecem na aba da janela do log. O nvel de detalhe do log de execuo pode ser
configurado na tela anterior.
Obs.: na execuo de grandes volumes de dados recomenda-se deixar o nvel do log
como Basic.

Exerccio 2 Criando a transformao Hello World Fulano


1 Vamos expandir a transformao do exerccio anterior para obter dados de uma
fonte, fazer uma pequena transformao nos dados e armazenar o resultado em um
arquivo texto. Crie um arquivo texto com os dados abaixo:
Fulano
Sicrano
Beltrano
Salve o arquivo na pasta pdi_labs com o nome fulano.txt.
2 Crie uma nova transformao e salve-a com o nome de hello_world_fulano.ktr. O
objetivo dessa transformao ler o arquivo texto acima, adicionar a frase Hello
World e uma sequncia para cada frase criada. Ao final, todas as frases criadas sero
gravadas em um arquivo texto.
3 Adicione um step Text file input da opo Input. Edite o step com as seguintes
informaes:
- na aba File, campo File or directory, clique no no boto Navegar para localizar o
arquivo fulano.txt. Em seguida, clique no boto Add para colocar o arquivo na lista.

- Na aba Content, desmarque a opo Header. Se voc no fizer isso, o Spoon


entender que a primeira linha do arquivo texto um cabealho com o nome de um
ou mais campos.
- Na aba Fields, digite o nome do campo (nome) e o seu tipo (String). Clique OK.

4 Adicione um step Add constants, do tipo Transform. Edite o step com as seguintes
informaes nos campos Nome, Tipo e valor:
- Nome: mensagem; Tipo: String; Valor=Hello World
- Nome: exclamao; Tipo: String; Valor=!
-Nome: espao; Tipo: String; Valor= (espao em branco)

5 Crie um hop ligando os dois steps.

6 Ainda nos steps do tipo Transform, adicione um Add Sequence. Em seguida, crie um
hop ligando o Add constants ao Add sequence. Edite esse step para ver os seus
parmetros (no vamos alter-los para esse exerccio).
7 Entre nas opes de steps do tipo Output e adicione um step Text file output. Em
seguida, crie um hop ligando o step Add sequence a Text file output. Edite as
configuraes do step:

- Na aba File, digite o caminho de um arquivo de texto com o nome resultado (o step
adiciona por default a extenso .txt) no campo Filename.

- Na aba Content, limpe o contedo do campo Separator (caso contrrio, o step


colocar um separador na sada do arquivo) e desmarque a opo Header.
- Na aba Fields, clique no boto Obtm campos. Se tudo foi feito corretamente at
agora, sero mostrados os campos de acordo com a figura abaixo. Observe que os
campos foram gerados pelos steps anteriores.

Queremos que seja gravada no arquivo a mensagem <valuename>


<mensagem><espao> <nome><exclamacao>. Para que isso ocorra devemos
modificar a ordem dos campos. Clique com o boto direito em cima do campo
valuename e escolha a opo move up. Repita a operao at que o campo valuename
seja o primeiro da lista. Repita a operao com os demais campos. A figura abaixo
mostra a disposio final dos campos.

8 Salve a transformao e execute em seguida. O resultado gerado um arquivo


texto com as seguintes linhas:

1 Hello World Fulano!


2 Hello World Sicrano!
3 Hello World Beltrano!
Exerccio 3 Criando uma conexo com um banco de dados.
1- Nos exerccios anteriores mostramos como obter dados a partir de uma fonte de
dados baseada em arquivos texto. Para os exerccios futuros precisaremos extrair,
transformar e carregar dados em tabelas de um banco. Para facilitar o processo de
aprendizagem, vamos utilizar o SGBD open source Apache Derby. Faa o download
da ltima verso atravs da url
http://db.apache.org/derby/derby_downloads.html.
2- Descompacte o arquivo em uma pasta no seu computador. Em seguida, copie o
arquivo /lib/derby.jar para a pasta /JDBC/libext de sua instalao do PDI.
3- Abra o Spoon e carregue a transformao do exerccio anterior. Em seguida, clique
no boto View na barra lateral. Expanda a aba Conexes.
4- Com o boto direito, clique em cima da opo Conexes e escolha Novo.
5- Na aba General, digite os seguintes parmetros:
- Connection type: Generic database
- Access: Native (JDBC)
- Custom Connection Url: jdbc:derby:<path_do_banco>/<banco>;create=true
- Custom Driver Class Name: org.apache.derby.jdbc.EmbeddedDriver

6 Clique no boto Test para verificar se a conexo com o banco est OK. Em seguida,
retire o texto ;create=true da Url de conexo (caso contrrio, as tabelas sero
apagadas e criadas a cada inicializao da conexo). Clique em OK.
6- Podemos tornar a conexo visvel para todas as transformaes e Jobs de nossa
instalao do PDI. Para isso, clique com o boto direito em cima da conexo criada
e escolha a opo Share. Note que o texto da conexo est em negrito agora.

7- O banco criado est vazio, sem nenhuma tabela. Mais adiante vamos utilizar essa e
outras conexes para a modelagem dimensional e a execuo do processo de ETL.
Exerccio 4 Extraindo dados de um arquivo texto, realizando uma transformao e
carregando o resultado em um arquivo texto.
1 Para realizar esse exerccio voc precisar de dois arquivos armazenados na pasta
Bases: capes.xls e ies.csv. O primeiro contm informaes sobre a avaliao dos
programas de Ps-Graduo das Instituies de Ensino Superior (IES) do pas. O
segundo arquivo uma tabela de lookup contendo o cdigo e a sigla das IESs. Vamos
mostrar a extrao de dados a partir de dois arquivos (Excel e CSV), uma pequena
transformao e o carregamento dos dados em um arquivo texto. Abra a planilha e
veja que o campo ies possui a sigla da instituio. Queremos gravar em um arquivo
texto parte dos dados da planilha e o cdigo da instituio no lugar de sua sigla.
Para iniciar, abra o Spoon e crie uma nova transformao.
2 Abra a categoria Input e adicione os steps Excel Input e CSV file input. Em seguida,
expanda a categoria Lookup e adicione o step Stream lookup. Da categoria Transform,
adicione o step Select values. Da categoria Output, adicione o step Text file output. Por
fim, crie os hops para conectar os steps, de acordo com a figura abaixo.

3 Edite o step Excel input com os seguintes parmetros:


Aba Files
o File or directory: localize o arquivo capes.xls com o boto Navegar. Em
seguida, clique em Add para adicionar o arquivo ao grid. Para ter
certeza que o arquivo foi localizado, clique no boto Show filename(s).
Aba Sheets
o Clique no boto Get sheetname e escolha a planilha desejada. Se o
nome da planilha no aparecer na lista, reveja os parmetros da aba
Files.
Aba Content
o Certifique-se que o campo Header esteja marcado (vamos precisar dele
na prxima aba).
o Esse arquivo foi gravado no Linux! Mude o campo Encoding para UTF-8.
Aba Fields
o Clique no boto Get fields from header now e veja todos os campos
disponveis no arquivo.
o D uma olhada nos dados que sero extrados do arquivo, clicando no
boto Preview rows. Clique Ok e salve a transformao.
4 Edite o step CSV file input com os seguintes parmetros:
Filename: localize o arquivo ies.csv com o boto Navegar.
Delimiter: ; (ponto-e-vrgula)
Desmarque a opo Lazy conversion.
Clique no boto Obtm campos e veja os campos que sero lidos.
Clique no boto Preview para visualizar uma amostra dos dados.
o Na grade com os campos, diminua o tamanho do campo idIES para 1
(propriedade Length). Rode novamente o preview.
o Retire o smbolo da moeda (R$) da propriedade Currency.

5 Antes de editar o step Stream lookup, d uma olhada no fluxo de registros de


entrada. Clique com o boto direito em cima do step e escolha a opo Mostra campos
de entrada. Devero ser exibidos 41 campos (39 da planilha e 2 do arquivo texto).
6 Edite o step Stream lookup com os seguintes parmetros:
Lookup step: escolha o step CSV file input.
Clique nos botes Get fields e Get lookup fields. As grades de campos devero
ter a configurao da figura abaixo.

Na grade de cima, remova todos os campos, deixando apenas o campo ies. Em


Lookup Field escolha o campo sigla_IES.
Na grade de baixo, remova o campo sigla_IES. No campo idIES, digite o valor
id_instituicao na propriedade New name. As grades devero ter a configurao
abaixo. Salve a transformao.

Na rea de trabalho, clique com o boto direito em cima do step Stream lookup
e escolha a opo Mostra campos de sada. Observe que temos agora 40
campos (o ltimo o campo que denota o id da instituio).

7 Suponha que no precisamos de todos os campos vindos da planilha. Alm disso,


queremos modificar o nome dos campos que sero carregados ao final do processo de
transformao. Edite o step Select values com os seguintes parmetros:
Aba Meta-data
o Fieldname: escolha o campo area digite id_area na propriedade Rename
to e escolha Integer na propriedade Type.
o Repita a operao com o campo codigo_programa, com o nome
id_programa. A grade dever ter a configurao abaixo.

Aba Remove
o Clique no boto Get fields to remove e exclua os seguintes campos:
area, codigo_programa, ies, nome_programa, inicio_mestrado,
inicio_doutorado, conceito_recomendado e id_instituicao.
A lista de campos que queremos excluir dever ter a
configurao abaixo.

Salve a transformao e veja os campos de sada do step, clicando com o boto direito
em cima dele.
8 Vamos editar o step Text file output com os seguintes parmetros:
Aba File
o Filename: <path>\resultado
Aba Fields
o Clique no boto Obtm campos e veja os campos que sero gravados.
Alteraes de formato, tamanho, etc. podero ser feitas diretamente na
grade.
o Clique no boto Minimal width e veja que o step fornece um formato
padro para os campos.
9 - Salve a transformao. Na rea de trabalho, clique com o boto direito em cima do
step Text file output e escolha a opo Preview. Na janela de dilogo, marque a opo

Text file output, conforme a figura abaixo. Se tudo foi configurado corretamente, ser
mostrada uma amostra dos dados que sero gravados.

10 Execute a transformao e veja o arquivo gerado. O que fizemos nessa


transformao?
Mostramos como extrair dados de dois arquivos com formatos diferentes (.xls e
.csv).
Fizemos duas transformaes nos dados extrados: trocamos o nome da IES por
seu cdigo e retiramos os campos que no queramos gravar. Alm disso,
alteramos os metadados de dois campos.
Carregamos o resultado da transformao em um arquivo texto.
Exerccio 5 Extraindo dados de um conjunto de arquivos
1 Para esse exerccio vamos utilizar as planilhas armazenadas na pasta
/pdi_labs/base/planilhas. Crie uma nova transformao e copie/cole os steps e hops
da transformao do exerccio anterior.
2 Edite o step Excel input. Na grade de arquivos selecionados da aba Files, marque o
arquivo capes.xls e clique no boto Delete.
3 Acesse a pasta planilhas e adicione todos os arquivos na grade usando o boto Add
(Ok...no precisa adicionar todos. So 45 arquivos ). Verifique se o step carregou os
arquivos clicando no boto Show filename(s).

4 Na aba Sheets exclua a planilha do exerccio anterior e clique em Get sheetname(s)


para pesquisar pelas planilhas de todos os arquivos selecionados no passo anterior.
Escolha a planilha plan1.
5 - Na aba Content certifique-se que o campo Header esteja marcado e que o Encoding
do arquivo seja UTF-8 ou ISO-8859-1 (experimente colocar outra codificao e veja o
que ir ocorrer).
6 Na aba Fields clique no boto Get fields from header now, lembrando-se de limpar
a lista de campos do exerccio anterior (confirme na janela de dilogo). Salve a
transformao e execute-a. Veja o resultado do arquivo gerado pela transformao.
Exerccio 6 Extraindo dados de um conjunto de arquivos, usando expresses
regulares.
1 A soluo adotada no exerccio anterior pode ser refeita para evitar a incluso de
cada arquivo manualmente (imagine uma aplicao real com milhares de arquivos).
Abra a transformao do exerccio anterior e edite o step Excel input.
2 Na aba Files, exclua todos os arquivos da grade Selected files. No campo File ou
directory digite o caminho para a pasta onde as planilhas esto armazenadas (ex.:
E:\pdi_labs\bases\planilhas\). Adicione o caminho lista de arquivos clicando no
boto Add.
3 No campo Selected files, digite a seguinte expresso na propriedade Wildcard:
.*\.xls

4 Para garantir que os arquivos sero lidos usando a expresso regular, clique no
boto Show filename(s) e veja a lista de arquivos que sero lidos. Salve a
transformao e execute-a, observando o arquivo gerado.
Exerccio 7 Selecionando, alterando campos e gerando a sada em uma planilha.
1 Vamos melhorar o cabealho do arquivo gerado. Abra o exerccio anterior e edite o
step Select values. Remova todos os campos selecionados nas abas Remove e Metadata.
2 Na aba Select & Alter digite os nomes dos campos, de acordo com a figura abaixo.
Salve a transformao e veja os campos de sada do step.

3 Clique no step File text output e apague-o. Da categoria Output, crie um step do
tipo Excel output. Crie um hop ligando os steps Select values e Excel output.
4 Edite o step Excel output com os seguintes parmetros:
Aba File
o Filename: o caminho e nome da planilha gerada.
Aba Fields
o Clique nos botes Obtm campos e Minimal Width
(opcional) Aba Content
o Explore as opes da aba (Split, sheet name, protect, templates)
5 Salve a transformao e veja a sua execuo.

Exerccio 8 Obtendo informaes do sistema.


1 Vamos acrescentar uma informao correspondente data e hora em que o
registro foi gravado no arquivo. Abra a transformao do exerccio anterior e crie um
step Get system info da categoria Input. Coloque esse step entre o Select values e o
Excel output. Crie os hops ligando os steps, de acordo com a figura abaixo.

2 Edite o step Get system info com os seguintes parmetros:

3 Edite o step Excel output, com as seguintes alteraes:


Na aba Fields, clique no boto Obtm campos, e verifique se o campo
data_hora_atualizacao ser exibido.

4 Salve a transformao e execute-a. Veja o arquivo gerado.


Exerccio 9 Aplicando formatos para datas e nmeros.
1 Voc deve ter notado que os registros gravados nos arquivos dos exerccios no
possuem uma formatao adequada. Antes de colocar os formatos corretos devemos
escolher qual step dever formatar os valores. Por uma questo de coeso, os steps
mais adequados so aqueles relacionados s atividades de transformao. Vamos
editar o step Select values para aplicar os formatos.
2 No step Select values, marque todas as linhas da aba Select & alter, recorte e cole
na aba Meta-data. Complete as propriedades com os valores abaixo.

3 Edite o step Excel output, abrindo a aba Fields. No campo data_hora_atualizacao


digite o seguinte formato: dd/MM/yyyy HH:mm:ss
Se existir, limpe o formato dos demais campos.
4 Salve a transformao, execute-a e observe o arquivo gerado.
Exerccio 10 Extraindo uma lista com dados de pases de um arquivo XML.
1- Para esse exerccio vamos utilizar o arquivo countries.xml que encontra-se na pasta
/pdi_labs/bases/xml. Abra o arquivo e observe a sua estrutura.
2- Crie uma nova transformao e adicione os steps Get data from XML e Excel
output. Crie um hop ligando os steps.

3- Edite o step Get data from XML, com os seguintes parmetros:


Aba File
o File or directory: encontre o arquivo countries.xml e adicione lista.
Aba Content
o Clique no boto Get Xpath nodes e selecione /world/country/language
Aba Fields
o Preencha a grade de acordo com a figura abaixo.

4- Clique em Preview rows para visualizar uma prvia dos dados extrados.

5- Salve a transformao e edite o Step Excel output para gravar o resultado em uma
planilha.
6- Rode a transformao e veja os dados dos pases em formato de planilha.

Exerccio 11 Calculando valores de novos campos


1 Para executar esse exerccio, localize o arquivo notas-fulano.txt na pasta Bases do
material do curso. Esse arquivo descreve as notas de 3 alunos. Queremos converter as
notas da escala de 0 a 10 para uma escala de 0 a 5 e calcular a mdia para cada aluno.
2 Crie uma nova transformao e adicione um step Text file input. Edite o step e
informe a localizao do arquivo, conforme mostrado nos exerccios anteriores. Na aba
Fields, clique em Obtm campos para recuperar os cabealhos dos campos e faa um
preview dos dados.

3 Adicione um step Select values. Crie um hop ligando o Text file input ao Select
values. Edite esse ltimo step com os parmetros mostrados na figura abaixo. Esse
step necessrio para formatar os dados lidos no arquivo.

4 Da categoria Transform, crie um step do tipo Calculator. Crie um hop ligando o


Select values a esse novo step. Edite o step de acordo com a figura abaixo.

O que fizemos aqui? Basicamente, definimos um fator de converso das notas


(fator_divisao). Depois, dividimos as quatro notas pelo fator, criando quatro novos
campos (nota_1_nova, ...). Em seguida, utilizamos quatro campos auxiliares para fazer
o somatrio das notas (numero_notas, aux1, aux2 e total). Por fim, calculamos a mdia
e armazenamos o resultado em um novo campo (media). Faa um preview na
transformao e voc dever ver os novos campos.

5 Crie um novo step Select values e hop ligando o Calculator ao novo step. Selecione
e altere os campos que sero enviados para o step de carregamento, de acordo com a
figura abaixo.

6 Crie um step Dummy apenas para visualizar os dados em modo de preview (se
preferir, salve o resultado em um arquivo texto ou planilha). O preview dos dados
dever ser semelhante ao da figura abaixo. Salve a transformao.

Exerccio 12 Calculando valores dos campos verso com step Formula.


1 Vamos explorar uma nova forma de converter as notas e calcular as mdias do
exemplo anterior. Abra a transformao salva anteriormente e exclua o step
Calculator.
2 Na categoria Scripting, crie um novo step do tipo Formula e posicione-o no lugar
ocupado pelo Calculator. Recrie os hops que foram excludos quando voc apagou o
Calculator.
3- Edite o step Formula. Em New Field, adicione um campo chamado nota1. Clique na
clula da coluna Formula, ao lado do campo que voc acabou de criar. Ser exibida
uma janela de dilogo (despreze a mensagem de erro). Na parte superior da janela,
digite [nota_1]/20. Clique em Ok e volte para a grade de incluso dos campos.

4 Repita o processo para os demais campos, de acordo com a figura abaixo.

5 Crie um quinto campo chamado media e digite


average([nota_1];[nota_2];[nota_3];[nota_4])/20.

frmula

6 Edite o segundo step Select values para selecionar os campos que sero
armazenados, conforme a figura abaixo. Teste a transformao em preview. Salve a
transformao.

Exerccio 13 Criando agregaes em grupos de linhas.


1 Abra a transformao do exerccio anterior. Crie um step Value Mapper, da
categoria Transform e ligue o ltimo Select values com ele. Em seguida, crie um step
Group by, da categoria Statistics.

2 Altere o segundo Select values, na aba Meta-data, para arredondar o valor do


campo media.

3 Edite o step Value Mapper, com os seguintes parmetros da figura abaixo:

Faa um preview dos dados e veja se o step mapeou o valor arredondado da mdia
para um conceito, variando entre A e E.

4 Edite o step Group by de acordo com a figura abaixo.

Esse step ir agregar as linhas a partir campo conceito e exibir o nmero de


ocorrncias de cada agrupamento (fique vontade para testar outras funes de
agregao desse step). Salve a transformao e testa-a no preview.

Exerccio 14 Filtrando linhas de um dataset


1 Abra a transformao anterior e crie um step do tipo Filter rows, da categoria Flow.
Crie um segundo step Dummy e crie os hops de acordo com a figura abaixo.

2 Edite o step Filter rows, com os parmetros da figura abaixo.

3 Salve a transformao e faa um preview em cada step Dummy da transformao.


Note que o fluxo enviado para cada step varia de acordo com a condio informada no
Filter rows.

Exerccio 15 Exemplo de cpia do stream do dataset


1 Abra uma nova transformao e crie um step Excel input. Acesse o arquivo
areas.xls, disponvel na pasta bases do material do curso. Obtenha a planilha (aba
Sheets) e recupere os campos (aba Fields, com o boto Get fields...). D um preview
para visualizar os dados carregados.

2 Crie dois steps do tipo Dummy e dois hops, saindo simultaneamente do step Excel
input e conectados com cada Dummy, de acordo com a figura abaixo.

Ao aparecer a janela de dilogo, responda que voc quer realizar uma cpia.

3 Execute a transformao e observe a quantidade de registros lidos por cada step


Dummy.

Exerccio 16 Exemplo de distribuio do stream do dataset


1 Abra a transformao do exerccio anterior, clique com o boto direito em cima do
step Excel input e escolha a opo Movimento dos dados -> Distribui os dados para os
prximos steps.

2 Execute a transformao e veja o nmero de registros lidos por cada step Dummy.

Exerccio 17 Exemplo de distribuio do stream usando o step Switch/Case.


1 Abra a transformao do exerccio anterior e acrescente um step Switch/Case, da
categoria Flow e um terceiro step Dummy, conforme a figura abaixo.

2 Edite o step Switch/case, de acordo com as configuraes abaixo.

3 Salve a transformao e execute-a, observando a quantidade de registros lidos por


cada step Dummy. Caso queira conferir os registros que foram lidos em cada step
Dummy, faa um preview e observe como o step Switch/Case realizou o filtro baseado
no valor do campo cod_area.

Exerccio 18 Fazendo converses no rowset.


1 Para realizar esse exerccio, precisaremos do arquivo movies.txt, localizado na
pasta bases do material distribudo. Abra uma nova transformao e crie um step Text
File input. Acesse o arquivo movies.txt, adicione lista de arquivos selecionados. Na
aba Contents coloque : (dois pontos) como separador. Desmarque as opes Header e
No empty rows. Na aba Fields, crie dois campos: caracteristica e descricao. Obtenha
uma preview dos dados e veja os valores carregados.

Note que as caractersticas variam em quantidade para cada filme.


2 Nesse exerccio, vamos utilizar alguns steps voltados para auxiliar o trabalho do
projetista. Inicialmente, vamos criar um step do tipo Modified Javascript value, da
categoria Scripting. Esse step permite a criao de campos atravs de linhas de cdigo
em Javascript. Queremos criar uma coluna Film, no dataset lido do arquivo texto. Ligue
o Text Input file a esse step com um hop e edite-o, de acordo com os parmetros
abaixo.

Esse cdigo cria um campo Film e preenche o seu valor com o nome do filme. D um
preview no step e verifique se o campo ser preenchido corretamente.

3 Em seguida, crie um step do tipo Filter rows. Nosso objetivo agora filtrar todas as
linhas que esto com o campo descricao nulo. Edite esse step com a seguinte
condio:

4 O prximo passo fazer a converso dos dados de linhas para colunas. Para isso,
vamos criar um step do tipo Row denormalizer, da categoria Transform. Edite esse
step de acordo com a figura abaixo.

A partir do campo filme, a linhas com o contedo Ano, Gnero, Diretor e Atores so
convertidas em colunas, com o valor do campo descrio. D um preview na
transformao e veja os valores convertidos.

5 O ltimo passo preencher as colunas com valores vazios com a string n/a. Para
isso, vamos criar um step do tipo If field value is null, da categoria Utility. Edite o step
de acordo com os parmetros abaixo.

Salve a transformao e execute o seu preview. O resultado dever ser semelhante ao


da figura abaixo.

Exerccio 19 Validando dados do rowset.


1 Para esse exerccio vamos utilizar o arquivo capes.xls, localizado na pasta bases do
material do curso. Crie um step Excel input e leia o arquivo, conforme mostrado nos
exerccios anteriores.
2 Em seguida, vamos criar um step para validar os campos do dataset lido. Queremos
impedir que um determinado campo nulo seja repassado para os steps de
carregamento. Crie um step do tipo Data Validator, da categoria Validation. Edite o
step e clique no boto New validation. D um nome para a validao e edite os seus
campos, de acordo com os parmetros abaixo:
Marque o campo Report all erros, not only first.
Em Name of field to validate, escolha o campo Escore_3.
No bloco Data, desmarque a opo Null allowed?
Salve a transformao e execute-a. Verifique que a transformao ir parar quando o
primeiro valor nulo do campo Escore_3 for encontrado.

Exerccio 20 Criando as tabelas de um banco de dados


1 Para esse exerccio, vamos utilizar o arquivo scripts-js.sql, localizados na pasta
script do material do curso. Esses scripts criam as tabelas que armazenam os dados de
uma loja online de vendas de jogos. Antes de iniciar, verifique se a conexo
pdi_labs_con (criada no Exerccio 3) est disponvel. Acesse a aba View e expanda a
rvore de conexes. Edite a conexo e pressione o boto Test.

2 Crie uma nova transformao e adicione um step do tipo Execute SQL script, da
categoria Scripting. Edite o step, escolhendo a conexo pdi_labs_con no campo
Connection. Em seguida, abra o arquivo scripts-js.sql em um editor de texto, copie e
cole o seu contedo no campo SQLscript to execute. Salve a transformao e execute.

3 Vamos confirmar se as tabelas foram realmente criadas. Na opo View, expanda a


rvore de conexes e clique com o boto direito em cima da conexo pdi_labs_con,
escolhendo a opo Explorar. Caso as tabelas tenham sido criadas corretamente, voc
poder ver a lista expandindo a opo Tables.

A base de dados do exemplo possui 9 tabelas, de acordo com uma breve descrio de
suas caractersticas abaixo:
Tabela
manufacturers

Descrio
Informaes sobre os fabricantes dos produtos

products

countries

Produtos que esto venda na loja, como jogos,


quebra-cabea, acessrios, etc.
Contm informaes sobre as modalidades de
compra (fsica, por telefone, pela internet, etc.)
Contm informaes sobre as modalidades de
pagamento (dinheiro, carto, cheque)
Uma lista de pases

cities

Uma lista de cidades

customers

Os clientes cadastrados na loja

buy_methods
payment_methods

Invoices/invoices_detail Cabealho e detalhe das informaes de faturas

Exerccio 21 Carregando as tabelas atravs de transformaes


1 Vamos agora carregar os dados nas tabelas do banco a partir de um conjunto de
arquivos localizados na pasta /bases/banco do material distribudo. Os arquivos que
voc dever usar esto listados abaixo:
BUY_METHODS.csv
CITIES.csv
COUNTRIES.csv
CUSTOMERS.xls
INVOICES.xls
INVOICES_DETAIL.xls
MANUFACTURERS.xml
PAYMENT_METHODS.xml
PRODUCTS.xml
2 Crie uma nova transformao e adicione vrios steps para ler cada arquivo de
entrada. Voc ter que criar 3 Text File input, 3 Excel input e 3 Get data from XML.
Conforme mostrado nos exerccios anteriores, para cada step de entrada, localize o
arquivo e adicione-o lista de arquivos selecionados. Configure o contedo na aba
Content e obtenha os campos na aba Fields.
3 Em seguida, crie 9 steps do tipo Table output, que iro armazenar os dados nas
tabelas criadas no exerccio anterior.

4 Edite cada Table output da seguinte forma:


Connection: escolha pdi_labs_con.
Target table: uma das tabelas criadas no execcio anterior. Clique no boto
Navegar para escolher uma tabela da conexo. (ex.: BUY_METHODS)
Aba Database Fields:
o Clique no boto Enter Field mapping e escolha os mapeamentos
adequados

Salve a transformao e repita esse passo para cada step Table output.
5 Para verificar se as tabelas foram realmente carregadas, clique na opo View,
expanda a rvore de conexes e clique com o boto direito em cima da conexo
pdi_labs_con, escolhendo a opo Explorar. Escolha uma tabela e clique na opo
Preview First 100 rows of <nome_da_tabela>.

You might also like