Quando extraímos dados das fontes, diversas ou não, quase nunca sabemos o que vamos enfrentar e quais dificuldades teremos para padronizar estes.
Por via de regras o processo de ETL é o mais demorado dentro de um projeto de B.I e o que mais consome recurso e um erro aqui, pode comprometer toda uma análise lá na frente; Dados sujos entram, dados sujos saem.
Então, termos um perfil nem que seja básico, das fontes que iremos trabalhar é fundamental e extremamente benéfico além de adiantar quais desafios poderemos encontrar nessas fontes. E é sobre a obtenção desse perfil nas fontes de dados que este post irá começar a tratar.
DATA PROFILING
O Data profiling é uma ferramenta externa ao Pentaho que executa um raio-x de uma determinada fonte retornando diversos tipos de informação e como os dados estão distribuídos naquela fonte. Esta etapa de obtenção de perfil de dados deve ser feita antes mesmo da limpeza em si, o ideal é que seja entre a extração e a transformação.
A software consegue entregar boas análises das colunas de forma individual, ou em grupos e pode mostrar diversos gaps de dados que precisarão ser trabalhados para que estes entreguem o maior valor possível.
Por ser um ponto importante na etapa de ETL, irei mostrar neste primeiro post, como instalar a ferramenta e iniciar sua utilização dentro do Pentaho.
INSTALANDO.
O primeiro ponto é realizar o download do software clicando aqui. Ao entrar no site, um contador iniciará e ao final, o download será automaticamente iniciado.
Ao concluir o download, copie este arquivo e cole na sua pasta do Pentaho.

No meu caso, já extrai do arquivo .rar e colei a pasta inteira no diretório onde o Pentaho está localizado.
Ainda nesta pasta, vá na pasta LIB do Pentaho e copie este arquivo com esse nome “commons-vfs2-2.3” que estará lá.

Agora ao copiar este arquivo, vá para pasta LIB do Data cleaner e cole este arquivo lá renomeando ele para: “commons-vfs2-2.3.old”.

Feito esse primeiro procedimento, vamos para o Marketplace do Pentaho baixar a extensão do programa.

No Marketplace, procure por esse plug-in e instale na sua máquina.

Ao terminar de instalar, reinicie o Pentaho para que ele reconheça o plug-in adicionado.
Quando o Pentaho carregar, vá na aba Tools e veja que o novo plug-in está lá, adicionado. Ao identificar, clique em configurar, há mais uma configuração antes de finalizar o procedimento.

A análise é fora da ferramenta, mas é possível criar um arquivo e puxar para o Pentaho e salvar em um DW para dashboards futuros.
Ao clicar em configuration, essa janela irá se abrir, pedindo o diretório do seu arquivo baixado da extensão. Aquele primeiro download.

Clique em ok e finalize o procedimento.
Se seguiu todos os passos corretamente, esta janela irá se abrir, indicando que o plug-in foi devidamente instalado. Imagem resumida.

Após, basta clicar em Build new job, escolher o arquivo fonte que deseja analisar e conhecer a ferramenta. Divirta-se!!!
CONCLUSÃO
Como este foi um post introdução ensinando apenas a instalar o complemento, não entrarei em mais detalhes sobre o uso da ferramenta neste post.
Em posts futuros irei explorar mais a ferramenta e analisar as capacidades e que tipo de valor podemos agregar nas nossas entregas.
Ainda não consegui criar uma conexão direta com o banco de dados, e nem sei se é recomendado, mas não consegui.
Uma dica importante é: quando extraírem dados das suas fontes utilizando o Pentaho, criem fonte CSV, a análise é mais assertiva dentro do Data cleaner.
O pouco que conheci da ferramenta gostei bastante e, estou animado para trazer novos posts sobre o uso dela!
Espero que tenham gostado, saúde!
Assine!