Fala galera, como estão!?

Voltando ao foco sobre o assunto ETL, como podemos lembrar do último post, mostrei como criar uma conexão com o banco e guardar essas informações em variáveis dentro da  ferramenta Pentaho.

Continuando o assunto, vamos explorar algumas funções para continuar nosso aprendizado e mais, entender o que a ferramenta é capaz  de entregar como solução para os usuários.

CHECKSUM

A função que iremos descobrir é a função chamada checksum. Esta função consegue atribuir à uma determinada linha um valor único baseado em um determinado algoritmo escolhido dentro da ferramenta. 

Alguns algoritmos permitem escolhas no formato do data type do algoritmo, podendo ser:

  • String;
  • Hexadecimal;
  • Binary

Agora, vamos ver como essa função pode ser utilizada.

Primeiro passo é adicionar o step Generate Rows. Este step irá gerar algumas linhas para teste.

Em vermelho no campo name estão os nomes das colunas e em preto as linhas que irão para cada coluna.

Em azul estamos informado a quantidade de linhas que queremos inserir.

Após configurar o generate rows, adicione o step checksum ligando-o ao anterior.

Abaixo, a tela de configuração do checksum. 

Em type configuramos o tipo de algoritmo que iremos utilizar para criar a unicidade do campo escolhido.

No campo result type é onde escolhemos o data type que será utilizado pelo algoritmo e em result field o nome que o Pentaho irá atribuir a nova coluna gerada na transformação.

Quando for escolher a coluna no campo Field, marque apenas uma. Não há necessidade de termos as duas no checksum. 

Depois de configurar o checksum, adicione o último step chamado write to log. Este step é apenas para escrevermos as linhas que geramos no primeiro para visualizarmos a transformação ocorrendo.

Não esqueça de criar a ligação com o passo anterior.

Após a conclusão da pequena transformação criada, clique em run ou F9. O Pentaho pedirá para salvar a transformação, salve e execute.

Outra opção que pode ser feita é simplesmente clicar preview this transformation. Quando clicar ali, uma janela irá aparecer para escolher qual step deseja visualizar com mais cuidado. Escolha o write to log e clique em ok.

Abaixo, o resultado do preview. Como as linhas são exatamente iguais, o valor de validação atribuído pelo Pentaho é o mesmo.

Assim, finalizo este pequeno tutorial sobre o checksum. Esta função do Pentaho pode ser muito útil quando queremos criar um processo de Slowly Changing Dimension mas não temos uma chave que seja imutável em uma determinada coluna.

Criando essa coluna única ao final do processo de transformação, garantimos a boa implementação do SCD, independente do tipo!

OLÁ!

Se chegou até aqui e gostou do pequeno tutorial, deixe seu like compartilhe. Ajude o blog a alcançar mais pessoas!

Caso queira receber em primeira mão esse tipo de conteúdo, se inscreva abaixo:

SIGA NAS REDES SOCIAIS!

Espero que tenham gostado, saúde! Volte Sempre!