Olá galera, como estão!?

Fechando a série de posts sobre data profiling e suas utilidades para um projeto robusto de B.I, este último post vai tratar sobre a distribuição de dados que foram extraídos da fonte original.

Como disse, no post anterior, analisamos padrões que foram encontrados nas fontes. Aqui, vamos entender como eles se distribuem e de antemão afirmo que é muito útil para um pré-insight do negócio!

ANÁLISE 

Como o próprio título sugere, a análise de distribuição é uma forma de mostrar como os dados estão distribuídos pelas colunas e linhas.

Toda essa distribuição e análise é sustentada por uma contagem distinta de cada valor encontrado e após, agrupado para retornar um valor final.

Por exemplo, na nossa primeira análise, conseguimos identificar que existem alguns valores da chave primária que se repetiram. O que seria motivo de investigação para entender como isso aconteceu.

NOTA: o gráfico de rosca quem fez foi o software!!! 

Essa duplicação pode ter sido oriunda da query, de algum erro de registro no banco, de alguma quebra de restrição, falha no software que escreve no banco, enfim! Tudo isso apenas analisando a distribuição das chaves na coluna.

Outra percepção pré concebida pela distribuição, seria entender em quais regiões temos a maior concentração de clientes.

E poderíamos quebrar isso mostrando as outras distribuições que o software entrega quando finaliza o job, ao executarem em suas casas e ambientes.

Se observarem,  a query que extraiu esses dados foi baseada em uma hierarquia de um macro para o micro, logo, toda a análise segue uma ordem, o que facilitaria a percepção.

Continente > País > Região > Estado > Cidade.

Vejam, comecei com o gráfico de região e fiz o que se chama de drill-down para o estado; poderíamos descer para outros aspectos ainda menores, como por exemplo, o endereço Ainda que não seja o escopo aqui, apenas para dar uma ideia.

Outro dado distribuído interessante é sobre as datas de primeira compra.

De forma resumida, aqui estão algumas informações que foram retornadas.

Por ser data, acredito que não tenha sido possível gerar um gráfico sobre o que está sendo exibido

Outro aspecto muito positivo que podemos destacar na análise distributiva é que ela é muito mais assertiva e capta maiores informações do que a que vimos no post anterior, que tratava dos padrões.

Este exemplo fica claro quando voltamos a analisar, por exemplo, os ganhos anuais dos clientes.

Veja na comparação dos dois gráficos, que o segundo é bem mais detalhado e entrega mais informações que o primeiro.

Gráfico analisando padrões.

Gráfico com análise de distribuição.

Há bem mais informação e informação segmentada, com um nível de detalhamento melhor.

E se quiserem relacionar os ganhos anuais, com as compras e a quantidade de carros que o cliente possui!

MEMORANDO

E antes de finalizar, volto a chamar a atenção para os valores que foram convertidos. Não irei repetir aqui os seus gráficos ou coisas do tipo, mas alertar para possíveis erros.

Como no início da série, lá na estruturação do job, eu adicionei uma task que convertia as colunas BirthDate e DateofFirstPurchase para data, elas acabaram retornando valores errados e do dia que o job foi criado, o que descarta qualquer análise.

Então, a princípio, não utilizem a conversão. Tentarei mais a frente analisar como isso pode ser resolvido, caso seja possível.

Sendo assim, continuem trabalhando com o formato padrão que o Datacleaner utiliza quando um arquivo csv e não convertam nenhum valor, tanto para datas quanto para numéricos.

CONCLUSÃO

Este foi o último post sobre essa série a respeito do data profiling e gostei muito de explorar as possibilidades deste universo.

Por não conhecer a capacidade que se tinha e o que ela pode ajudar a entregar, fiquei bastante surpreso com a quantidade de pré-análises que podem ser feitas quando estamos criando esse perfil.

Ainda faltam preencher alguns gaps sobre esse assunto –  principalmente no que tange a conversão; se é que é possível e válido também. Achei que a entrega no formato string foi bem completa.

Também fico devendo conexão direta com o banco de dados, não fiz nem comentei nada a respeito ainda. Até tentei quando comecei mas, acabei seguindo adiante para entregar o conteúdo e fiquei de rever novamente, em outro momento.

Esse foi um post mais curto pois quis priorizar apenas os insights mais importantes. Não sei se farei das outras dimensões, digo, outros posts sobre isso para elas, acho que ficaria repetitivo e muito longo. Pelo menos, as bases foram lançadas!

Agora irei analisar o que as outras dimensões podem agregar, e explorar um pouco mais o data profiling!

Espero que tenham gostado da série, saúde!!!

Link para download do job, aqui!

Link para download da fonte caso não tenha, aqui!