Uma vez que demos nossos primeiros passos no B.I vimos os conceitos de tabela fato, dimensão e modelo star-schema, vamos entender sobre a arquitetura interna que compõe e origina o D.W.
Esta arquitetura é baseada no processo de ETL onde cada fase do processo de ETL originam uma etapa do B.I.
Por exemplo: o E na primeira etapa nos identifica e extrai dados de diversas fontes unificando um único local
O processo de ETL é bem crítico para o projeto e formação do D.W e é aqui que os dados são carregados no banco. Então, muita atenção aqui pois os dados inconsistentes no D.W podem no mínimo comprometer o projeto com retrabalho e atraso e em casos mais severas cancelar o projeto como um todo.
FONTES DE DADOS
As fontes de dados costumam ser dispersas e pulverizadas em cada setor, geralmente são gerados por ERP, CRM, planilhas e até mesmo o banco de dados que processa as transações da empresa.
Um dos principais fatores para reunir os dados de diversas fontes em um único ponto é para evitar a falta e falha no compartilhamento e dificuldade de se tornar decisão uma vez que estas fontes pulverizadas não possuem e nem sempre trocam informações entre si.
A arquitetura pode ser dividida em quatro grandes blocos:
- Fontes de dados;
- Sistemas de ETL
- OLAP;
- Área de apresentação.
Na foto abaixo, temos uma estrutura de B.I
PROCESSO DE ETL
A sigla ETL consiste em extrair, transformar e carregar todos os dados mais de diversas fontes tratando, eliminando qualquer inconsistência e criar o D.W para armazenar estes dados brutos, mas consistentes para serem consumidos e gerar valor.
EXTRAÇÃO
É o início do projeto como um todo utilizando uma ferramenta de ETL podemos conectar as diversas fontes espalhadas, pegar os dados necessários e então tratar em uma área de ‘staging’ ou pré-D.W.
Alguns preferem jogar os dados direto para o D.W outros preferem utilizar uma área de statging. Não existe uma situação correta, fica a cargo da necessidade e gosto de cada um. O que tem que se atentar é ao fato dos dados serem limpos e consistentes com total aderência ao negócio.
TRANSFORMAÇÃO
Após identificação e união das fontes de dados em um único local, passamos para etapa de limpeza e transformação dos dados brutos em dados valiosos.
Nesta etapa é onde ocorre a agregação de valor ao nosso ‘produto’. A etapa de transformação é o refino para extrair informações valiosas e o objetivo aqui é garantir a qualidade máxima dos dados para enviar às tabelas fato e dimensão.
NOTA: Alguns ambientes e desenvolvedores de ETL podem se perguntar se seria interessante armazenar os dados limpos após a fase de transformação em um ambiente normalizado na 3ºFN e depois desnormalizar para um modelo dimensional e a resposta é não. Este procedimento não é recomendado.
Como as ferramentas de ETL são desenhadas para processos sequenciais acabam não performando bem nesse tipo de ambiente e além disso, esta dupla carga no banco pode ser custoso em questão de performance e recursos de hardware.
Quando o projeto de B.I iniciar foque na modelagem dimensional e tenha em mente que estamos criando um banco para análises e não para transações relacionais.
CARGA
A etapa de carga é a parte final do projeto quando todo o processo de ETL está finalizado e pronto para alimentar o D.W e as tabelas fato e dimensão. Depois deste ponto, podemos criar cubos OLAP, Data Marts e consumir estes dados com softwares de relatório e visualização de dados.
Esta também pode ser chamada de etapa de apresentação, visto que, temos os dados prontos e apresentáveis para a alta gestão da organização. Neste ambiente de OLAP e e cubos, temos toda uma estrutura otimizada para executar queries de agregação que seriam custosas para o banco mas que aqui, podem apresentar uma performance mais elevada.
Uma boa prática para está etapa é deixa os dados o mais granulado possível para facilitar inclusive processos futuros de data mining e exploração de dados que estão armazenados, agregando ainda mais valor.
Exemplo de uma estrturua OLAP para análises de dados.
CAMADA DE APRESENTAÇÃO
A área de apresentação é a camada final onde os dados depois de organizados e agrupados passam a ser disponibilizados para consumo e criação de insights, desenvolvimento de métricas e KPIs.
Neste ambiente temos toda uma estrutura que nos permite observar o histórico da organização, como ela tá evoluindo e que decisões tomar a partir do que esta sendo observado nos dashboards.
Exemplo de um dashboard genérico.
CONSIDERAÇÕES
Deste modo temos uma visão clara das etapa e fases que compõem um projeto de B.I e criação de um D.W, assim como, suas fontes de dados, suas etapas de ETL e por fim, a visualização dos dados organizados em dashboard.
Percebemos que a etapa crucial é a de ETL com foco voltado para fase de transformação onde ocorre a agregação de valor aos dados dando sentido ao projeto.
Tenham em mente que o B.I deve ser sempre alinhado com as necessidades de negócio e que não se trata de tecnologia ou melhor software, mas sim sobre resolver um problema e agregar resultado para a organização.
Espero que gostem e saúde!