You are on page 1of 14

Por que os dados são importantes para as organizações?

As empresas produzem muita informação que vão anualmente acumulando, e esse


volume cresce de forma exponencial, se começarmos a relacionar essas informações, a
quantidade produzida chega a valores inimagináveis e, claro, impossíveis de manipular
diretamente pela mente humana. e como, com a popularização e a consequente redução
de preço das tecnologias para armazenamento, basta simplesmente juntar todas as
informações sobre as empresas e guardá-las de qualquer forma, sem planejamento.
Porquê usar dados é um processo difícil para as Organizações?
Porque, normalmente as organizações lutam com onde colocar e como gerenciar o uso de
dados, e a, adição de análises poderosas apenas adiciona outro item à pilha SW que
precisa ser gerenciada. As organizações precisam ser claras sobre onde estão as
capacidades - e quem é responsável pelo sucesso, ou seja, aplicação de todas as variedades
de uso de dados.
Existem inúmeras alternativas e não há modelo de referência, mas muitas organizações
estão indo para a rota de Auto-atendimento e não conseguem atender às necessidades de
dados, mais elas, precisam entender bem o que funcionará para elas.

Data Mining
Data Mining consiste em um processo analítico projetado para explorar grandes
quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas
científicas), na busca de padrões consistentes e/ou relacionamentos sistemáticos entre
variáveis e, então, validá-los aplicando os padrões detetados a novos subconjuntos de
dados. O processo consiste basicamente em 3 etapas: exploração, construção de modelo
ou definição do padrão e validação/verificação.
Big Data
conjuntos de dados extremamente amplos e que, por este motivo, necessitam de
ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda
e qualquer informação nestes meios possa ser encontrada, analisada e aproveitada em
tempo hábil.
Data Science
Data Science é a extração de conhecimento para tomada de decisão empresarial através
de uma grande gama de dados, seja em Big Data ou em um banco de dados tradicional.
Portanto, os cientistas de dados são os profissionais responsáveis por extrair insights dos
dados para auxiliar a tomada de decisão nas organizações.

O que é Business Intelligence?


É o processo de transformar dados em informação e através da descoberta, ou seja,
transformar informação em conhecimento. Ela também pode ser pode ser definido como
um conjunto de técnicas utilizadas para extrair inteligência a partir de dados sobre um
determinado negocio. Tem como objetivo converter o volume de dados em informações
relevantes ao negocio, através de relatórios analíticos.
Differences Between Classic Business Intelligence vs New Business Intelligence
(Business Analytics or DataScience)
BI Tradicional demanda um trabalho muito “agressivo” na arquitetura dos dados, com
isso os projetos são um pouco mais longos, com uma dependência exagerada do seu time
de Tecnologia da Informação e o fator principal que sempre excluía empresas menores,
o investimento alto, pois é necessário para sustentar toda essa estrutura.
ODS (Operational Data Store) Ou, simplesmente, dados operacionais. São os dados
armazenados em bancos de dados, modelados de forma relacional, através dos sistemas
transacionais, por exemplo um sistema de PDV (Ponto de Venda) registra os produtos em
uma tabela do ODS. Também é possível encontrar dados não estruturados, como planilhas
Excel e arquivos de texto.
BI Novo Como o próprio nome sugere é o Autosserviço do Business Intelligence, ou seja,
você é o responsável por criar seus dashboards, utilizando seus próprios dados, sem a
dependência do seu time de informática ou a contratação de consultoria. Aqui temos uma
agilidade extremamente maior, isso quer dizer que é possível criar um dashboard, com
informações que geram conhecimento, em minutos, além do investimento ser baixíssimo
e dependendo da sua necessidade é ZERO.
Estrutura das BI
Momento atual
DM (Data Mart) É um ambiente dentro do banco de dados, modelado de forma
multidimensional, muito mais consolidado e separado por assuntos micro, o objetivo é
que cada DM possua informações de um mesmo interesse de forma mais detalhada, por
exemplo: DW Financeiro terão somente informações financeiras de todos os setores da
Empresa e a partir deste DW, teríamos o DM Marketing, onde conteria apenas
informações financeiras relacionadas ao marketing. Teríamos também o DM Comercial,
contendo apenas informações financeiras da área comercial.

DW (Data Warehouse) É um ambiente dentro do banco de dados, modelado de forma


multidimensional, consolidado e separado por assuntos macro, o objetivo é que cada DW
possua informações de um mesmo interesse, por exemplo: DW Financeiro terão somente
informações financeiras de todos os setores da Empresa.
As 4 propriedades do Data Warehouse
Requisitos gerais de data warehouse
Separation: O processamento analítico e de transações deve ser mantido o mais distante
possível.
Scalability: HW e SW devem ser fáceis de atualizar como o volume de dados e o número
de requisitos do usuário aumentar.
Extensibility: deve ser possível hospedar novas aplicações e tecnologias sem reprojetar
o todo sistema.
Security: Monitorar acessos é essencial por causa dos dados estratégicos armazenados
no DW.
Administerability: Administração Simples.
Os sistemas de Business Intelligence podem ter diversas aplicações diferentes que
são:
• Data Mining
• Query Report

Os SGBDM (Sistemas de Gerenciamento de Banco de Dados Multidimensionais)


são ferramentas que pré-processam as agregações de dados, deixando informações
prontas de todos os cruzamentos possíveis, a fim de que seja dada resposta
instantânea à consulta do usuário. Da mesma forma que temos diversas
tecnologias de SGDBRs, temos diversos SGDBMs como o SQL Analysis
Services, IBM Cognos, SAS etc.

Cubos Os cubos são alternativas para os bancos de dados relacionais, ou ainda


dimensionais, como chamamos o DW. São banco de dados multidimensionais que
suportam análises dinâmicas e consultas extremamente complexas com baixo
tempo de resposta.

São Ferramentas de consultas utilizadas para extrair informações do Data


Warehouse, elas podem ser de 3 formas:
Etas ferramentas permitem ao usuário final elaborar seus próprios relatórios a partir de
áreas previamente configuradas pelos administradores: Business Area – Oracle Discover,
Universos – Business Objects, Frameworks – Cognos.
• Budgeting and Forecasting
São ferramentas utilizadas para o controle de orçamentos e previsão de vendas,
também conhecidas como ferramentas de planejamento, geralmente dividias em
2 partes:
1. Uma voltada para a montagem do orçamento e planejamento.
2. A outra voltada para o acompanhamento do realizado.
• BPM’s/CPM’s/EPM’s
Business Performance Management
Corporate Performance Management
Enterprise Performance Management
Todos são conjunto de Analises reponsaveis por monitorar como a empresa está se
comportando em relação a alguns indicadores.
• What-if’s ou ferramentas de Simulação

Data Lake é um termo que surgiu nesta década para descrever um componente
importante do pipeline de análise de dados no mundo do Big Data. A ideia é ter uma única
loja para todos os dados brutos que alguém em uma organização possa precisar analisar.
Geralmente, as pessoas usam o Hadoop para trabalhar nos dados do lago, mas o conceito
é mais amplo do que apenas o Hadoop.
Explain the main differences between OLTP Databases and NoSQL Databases. In
particular, refer to Transactions, ACIDITY and normalisation issues in both. Give
simple use cases where one could be more appropriate than the other?
What is OLTP?
O OLTP (Online Transactional Processing) é uma categoria de processamento de dados
focada em tarefas orientadas para transações. O OLTP normalmente envolve inserir,
atualizar e / ou excluir pequenas quantidades de dados em um banco de dados. OLTP lida
principalmente com um grande número de transações para um grande número de usuários.
Exemplos de transações de OLTP
• Banco on-line
• Comprando um livro online
• Reserva de um bilhete de avião
• Enviando uma mensagem de texto
• Entrada de pedido
• Telemarketers que entram em resultados de pesquisas por telefone
• Equipe do call center visualizando e atualizando os detalhes dos clientes
As transações OLTP são geralmente muito específicas na tarefa que realizam e
geralmente envolvem um único registro ou uma pequena seleção de registros. O OLAP
costuma ser usado para fornecer análises de dados que foram capturados por meio de um
aplicativo OLTP. Portanto, embora o OLTP e o OLAP geralmente trabalhem com os
mesmos conjuntos de dados, eles possuem características diferentes.
Aplicativos OLTP geralmente possuem as seguintes características:
• Transações que envolvem pequenas quantidades de dados
• Acesso indexado aos dados
• Um grande número de usuários
• Consultas e atualizações frequentes
• Tempos de resposta rápidos
Conformidade com ACID
Para manter a integridade dos dados, os bancos de dados OLTP precisam estar em
conformidade com o ACID. ACID refere-se a um conjunto padrão de propriedades que
garantem que as transações do banco de dados sejam processadas de maneira confiável.
Ele garante que as transações sejam precisas, consistentes, isoladas e duráveis.
No mundo dos bancos de dados, uma transação é uma sequência de operações realizadas
como uma única unidade lógica de trabalho. Uma transação só pode ser bem-sucedida se
toda a sequência for bem sucedida. Em outras palavras, se qualquer parte da transação
falhar, toda a transação falhará. Isso garante que seu dinheiro não desapareça no ar quando
você transferi-lo para outra conta. Se o dinheiro sair da sua conta, mas não conseguir
entrar na conta do destinatário, toda a transação falhará e o dinheiro permanecerá na sua
conta.
What is Normalization?
A normalização é o processo de organizar um banco de dados para reduzir a redundância
e melhorar a integridade dos dados. A normalização também simplifica o design do banco
de dados para que ele atinja a estrutura ideal composta de elementos atômicos (ou seja,
elementos que não podem ser divididos em partes menores).
Ao normalizar um banco de dados, você organiza os dados em tabelas e colunas. Você
garante que cada tabela contenha apenas dados relacionados. Se os dados não estiverem
diretamente relacionados, você criará uma nova tabela para esses dados.
Exemplo de um banco de dados normalizado
Ao projetar um banco de dados relacional, normalmente os dados são normalizados antes
que eles criem um esquema. O esquema do banco de dados determina a organização e a
estrutura do banco de dados - basicamente como os dados serão armazenados.

Esse esquema separa os dados em três tabelas diferentes. Cada tabela é bastante específica
nos dados que ela armazena: há uma tabela para álbuns, uma para artistas e outra que
contém dados específicos do gênero. No entanto, como o modelo relacional nos permite
criar um relacionamento entre essas tabelas, ainda podemos descobrir quais álbuns
pertencem a qual artista e em qual gênero eles pertencem.
Levels of Normalization
Os níveis de normalização estão listados abaixo, em ordem de intensidade (com UNF
sendo o mais fraco):
• UNF (formulário não normalizado)
Um banco de dados está em UNF se não foi normalizado.
• 1NF (primeira forma normal)
Uma relação (tabela) está em 1NF se (e somente se) o domínio de cada atributo
contiver apenas valores atômicos (indivisíveis) e o valor de cada atributo contiver
apenas um único valor desse domínio.
• 2NF (segunda forma normal)
Uma relação está em 2NF se estiver em 1NF e cada atributo não primo da relação
depender da totalidade de cada chave candidata.
• 3NF (terceira forma normal)
Uma relação está em 3NF se estiver em 2NF e cada atributo não primo da relação
é dependente não-transitivamente de cada chave da relação.
• EKNF (formulário normal da chave elementar)
EKNF é um aprimoramento sutil no 3NF. Uma relação está no EKNF, se e
somente se, todas as suas dependências funcionais elementares começam em
chaves inteiras ou terminam em atributos-chave elementares.
• BCNF (Forma Normal de Boyce-Codd)
O BCNF é um aprimoramento sutil no 3NF. Uma relação está na forma normal
de Boyce – Codd se, e somente se, para cada uma de suas dependências X → Y,
pelo menos uma das seguintes condições se aplica:
X → Y é uma dependência funcional trivial (Y ⊆ X)
X é uma superchave para o esquema R
• 4NF (quarta forma normal)
Uma relação está em 4NF se, e somente se, para cada uma de suas dependências
multivaluadas não triviais X ↠ Y, X é uma superchave - isto é, X é uma chave
candidata ou um superconjunto dela.
• ETNF (Forma Normal Tupla Essencial)
Um esquema de relação está no ETNF se, e somente se, estiver no formulário
normal do Boyce-Codd e algum componente de cada dependência de junção
explicitamente declarada do esquema for uma superchave.
• 5NF (quinta forma normal)
Uma relação está em 5NF se e somente se toda dependência de junção não-trivial
nessa tabela estiver implícita nas chaves candidatas.
• 6NF (sexta forma normal)
Uma relação está em 6NF se e somente se toda dependência de junção da relação
é trivial - onde uma dependência de junção é trivial se e somente se um de seus
componentes for igual ao cabeçalho pertinente em sua totalidade.
• DKNF (formulário normal de chave de domínio)
Uma relação está em DKNF quando cada restrição na relação é uma conseqüência
lógica da definição de chaves e domínios, e a imposição de restrições e condições
de chave e domínio faz com que todas as restrições sejam atendidas. Assim, evita
todas as anomalias não temporais.
Aqui estão alguns motivos comuns pelos quais você pode desnormalizar um
banco de dados:
• A maioria das consultas usadas com frequência requer acesso ao conjunto
completo de dados associados.
• A maioria dos aplicativos executa varreduras de tabela ao ingressar em tabelas.
• A complexidade computacional de colunas derivadas requer tabelas temporárias
ou consultas excessivamente complexas.
• Você pode implementar restrições que não poderiam ser implementadas
(dependendo do DBMS).
NoSQL Database usado para descrever esquemas de armazenamento de dados não-
relacionais e sem esquemas. NoSQL é um termo guarda-chuva, que engloba uma série de
tecnologias diferentes que não são necessariamente semelhantes, mas que possuem uma
característica definidora do NoSQL: elas não são de natureza relacional.
Sendo preciso ou não o termo NoSQL, as várias tecnologias NoSQL são bem-vindas e
necessárias na paisagem de dados de hoje, especialmente por conta do Big Data. Key-
value stores, document stores, graph databases e outros paradigmas de armazenamento
de dados não-relacionais permitem velocidade, flexibilidade e escalabilidade ao
armazenar e acessar dados não estruturados.
Mecanismos de banco de dados NoSQL:
1. MongoDB
O MongoDB é um document store e o atual líder no segmento de banco de dados NoSQL.
Como é o requisito para os engines NoSQL, o MongoDB não usa um esquema relacional,
em vez disso, usa “documentos” semelhantes ao formato JSON (Java Script Object
Notation), para armazenar dados. O documento é semelhante a um registro, com campos
e valores. O MongoDB suporta esquemas dinâmicos, é um software livre e de código
aberto.
O MongoDB também fornece os recursos necessários para um ambiente de produção:
balanceamento de carga, replicação, indexação, consulta e pode atuar como um sistema
de arquivos (com balanceamento de carga e tolerância a falhas).
OLAP(Online Analytical Processing)
O processamento analítico online (Online Analytical Processing, OLAP) é uma
tecnologia utilizada para organizar bases de dados empresariais extensas e suportar
business intelligence. As bases de dados OLAP são divididas num ou mais cubos, e cada
cubo é organizado e estruturado por um administrador do cubo de forma a ajustar-se à
forma que utilizada para obter e analisar dados, para que seja mais fácil criar e utilizar os
relatórios de Tabela Dinâmica e de Gráfico Dinâmica de que necessita.
As bases de dados OLAP (Online Analytical Processing) facilitam as consultas de
business intelligence. O processamento OLAP consiste numa tecnologia de bases de
dados optimizada para consultas e relatórios em vez de processar transacções. Os dados
de origem OLAP são as bases de dados OLTP (Online Transactional Processing )
geralmente armazenadas em armazéns de dados. Os dados OLAP derivam destes dados
históricos e estão agregados em estruturas que permitem análises sofisticadas. Os dados
OLAP são organizados hierarquicamente e armazenados em cubos em vez de tabelas.
Trata-se de uma tecnologia sofisticada que utiliza estruturas multidimensionais para
fornecer um acesso rápido aos dados para análise. Este tipo de organização facilita a
apresentação de resumos de alto nível por um relatório de Tabela Dinâmica ou de Gráfico
Dinâmico (como os totais de vendas de uma região ou país) e também a apresentação dos
detalhes dos locais onde as vendas são particularmente fortes ou fracas.
As bases de dados OLAP contêm dois tipos de dados: medidas, que consistem em dados
numéricos, quantidades e médias utilizadas para tomar decisões empresariais informadas;
e dimensões, que consistem em categorias utilizadas para organizar essas medidas. As
bases de dados OLAP ajudam a organizar dados por vários níveis de detalhes, utilizando
as mesmas categorias que já conhece para analisar os dados.
As secções seguintes descrevem cada componente mais detalhadamente:
Cubo Uma estrutura de dados que agrega as medidas pelos níveis e hierarquias de cada
uma das dimensões que pretende analisar. Os cubos combinam várias dimensões (como
hora, geografia e linhas de produtos) com dados resumidos (como os números de vendas
ou de registos). Os cubos não são "cubos" no sentido estritamente matemático porque não
têm necessariamente lados iguais. No entanto, são uma metáfora apropriada a um
conceito complexo.
Medida Um conjunto de valores num cubo, baseados numa coluna da tabela de factos
do cubo que são, geralmente, valores numéricos. As medidas consistem nos valores
centrais no cubo, que são pré-processados, agregados e analisados. Os exemplos mais
comuns incluem vendas, lucros, receitas e custos.
Membro Um item numa hierarquia que representa uma ou mais ocorrências de dados.
Pode ser um membro exclusivos ou repetidos. Por exemplo, 2007 e 2008 representam
membros únicos do nível de ano de uma dimensão de tempo, Considerando que Janeiro
representa membros não únicos no nível de mês, uma vez que podem existir mais do que
um Janeiro na dimensão tempo se contiver dados de mais do que um ano.
Membro calculado Um membro de uma dimensão cujo valor é calculado durante a
execução utilizando uma expressão. Os valores de membro calculado poderão derivar de
valores de outros membros. Por exemplo, um membro calculado, Lucro, pode ser
determinado subtraindo o valor do membro, Custos, do valor do membro , Vendas.
Dimensão Um conjunto de uma ou mais hierarquias de nível organizadas num cubo
que os utilizadores compreendem e utilizam como a base da análise de dados. Por
exemplo, uma dimensão geográfica poderá incluir níveis para País/Região,
Distrito/Província e Cidade; ou uma dimensão temporal poderá incluir uma hierarquia
com níveis para ano, trimestre, mês e dia. Num relatório de Tabela Dinâmica ou de
Gráfico Dinâmico, cada hierarquia transforma-se num conjunto de campos que poderá
expandir e fechar para ver níveis superiores ou inferiores.
Hierarquia Uma estrutura em árvore lógica que organiza os membros de uma
dimensão, de forma a que cada membro tenha um membro ascendente e zero ou mais
membros descendentes. Um membro descendente consiste no nível inferior seguinte
numa hierarquia directamente relacionada com o membro actual. Por exemplo, numa
hierarquia de Tempo que contenha os níveis Trimestre, Mês e Dia, Janeiro é um membro
descendente do 1º Trimestre. Um membro ascendente consiste no nível superior seguinte
numa hierarquia directamente relacionada com o membro actual. O valor ascendente
consiste geralmente numa consolidação dos valores de todos os respectivos descendentes.
Por exemplo, numa hierarquia de Tempo que contenha os níveis Trimestre, Mês e Dia, o
1º Trimestre é um membro descendente de Janeiro.
Nível Numa hierarquia, os dados podem ser organizados em níveis de detalhe
superiores e inferiores, como, por exemplo, níveis de Ano, Trimestre, Mês e Dia numa
hierarquia de Tempo.

You might also like