Fala galera!

Continuação direta e reta do post anterior e agora, vamos para as análises retornadas pela extensão do data cleaner!

Não vou entrar em muitos detalhes sobre todo o processo, basta acessar o post anterior para entender como chegamos até aqui!

Então, sem mais enrolação, bora ver o que extraímos desta fonte!

ANÁLISE DE DATA –  CASO ESPECÍFICO

Como irei por ordem, a primeira análise será sobre as datas. E aqui, já podemos perceber que houve um certo erro de configuração. Não quis remover para que tenham ciência do que pode acontecer.

Prestem atenção nas caixas vermelhas, irei avançar e logo volto para explicar o motivo do ‘erro’.

Se clicarem na seta verde, ele abre o detalhamento das linhas, mostrando desta forma resumida.

O mesmo acontece se clicar no gráfico.

Outra evidência do erro na análise de data.

E o que de fato aconteceu?!

Bem, tudo começou na fonte! Quando decidimos a fonte que iríamos buscar, e analisar, importamos o csv; até ai, ok.

O problema é que quando o csv é lido pelo datacleaner, a coluna data é uma string e não uma data. Como utilizamos o convert data, temos que por um valor padrão para possíveis nulls. E aqui mora o problema.

Como coloquei now na configuração, ele pegou a hora exata que o job foi executado e aplicou para todas as linhas, pois por algum motivo, ele entendeu que todas eram nulas.

Assim sendo, vamos avançar para as próximas análises.

ANALISANDO AS COLUNAS – PROFILER

Abaixo, a análise da coluna customerid com o step number analyzer. Como podemos observar, ele nos retorna uma análise até que robusta, com boas informações.

Claro, precisamos saber filtrar o que nos agrega dentro do contexto, por ser uma coluna de checagem da chave primária, somente as quatro primeiras linhas nos agregam. Agora, se fosse um outro tipo, seria bem interessante esse retorno.

Se clicar no ícone circulado em roxo, verá como se aplica o desvio padrão das pks na coluna! 

Nossa próxima análise será nos dados incompletos, que foram gerados pela completeness analyzer. Aqui, temos aquela regra que aplicamos onde só é considerado quando “todos os campos são incompletos”

Esse aqui é um resultado resumido. Não entendi bem o que esse step faz, achei a configuração meio confusa. 

Irei avaliar melhor para entender bem ele. Mas acredito que, como alguns campos não estavam com todos os dados disponíveis, isto é, com nulls em suas linhas, ele capturou esses registros e retornou.

Passando a para o próximo estágio, vamos entender como funciona o pattern finder.

Esses são os padrões que o step encontrou quando analisou a coluna.

Cada linha representa um formato de nome, como podemos ver, e se clicarmos para ver os detalhes (seta verde), veremos todos os dados nomes de clientes que atendem a esse formato.

O mesmo irá se aplicar para LastName. Para não ficar repetitivo, não irei postar aqui. E se clicarem no gráfico, verão a distribuição. 

Não se espantem, como os outros valores são irrisórios, seus dados não chegam a plotar no gráfico.

Nesta análise de padrão, quis mostrar como fica quando temos um gráfico e apenas dois valores, para números de telefone. Perceba que grande parte possui campo para DDD e DDI.

Até o momento as análises foram meio monótonas, eu também achei e entendo!

No entanto, podem ficar tranquilos, agora começa a ficar interessante!! Dentro da própria ferramenta e da própria análise de padrões, já conseguimos ter insights para o negócio e mostrar o valor do processo de profiler de dados.

Veja neste profiler criado para a coluna StateName.

Conseguimos uma visão macro e gráfica dos clientes mostrando quais estados eles estão mais concentrados, em quais a empresa possui menos clientes, etc.

Daqui, já somos capazes de elaborar as investigações básicas no data warehouse para entender motivos como:

  • Por que em um determinado estado temos mais clientes?
  • Por que a aceitação dos produtos é menor em clientes de outro estado?
  • Por que temos vendas empatadas em certos estados e tão díspares em outros? O que agrada aqueles clientes que não agrada os outros clientes?
  • Será que o estado que vende mais, representa a maior fatia no faturamento?!
  • Que ações podemos elaborar para aumentar nossa estratégia de vendas em determinado estado e mais, vale o investimento!?

Perguntas como estas já podem ser elaboradas para o D.W responder no futuro. Mostrando isso, podemos dizer que o profiler pode sim, agregar valor e auxiliar o negócio em seus objetivos.

Outra análise que pode ser muito importante e tem bastante a agregar já na fase preliminar dos dados é entender o volume de compras do início do ano/ano fiscal até o “dia atual”. 

Por exemplo, analisando o perfil da coluna TotalpurchaseYTD teríamos uma visão preliminar do movimento de compras feito pelos clientes.

O gráfico por exemplo, indica que a empresa está vendendo bem até o momento, mas que já tá na hora de abrir o olho e começar a entender o motivo das vendas estarem caindo.

Claro que isso não significa lucro ou prejuízo, mas que podemos considerar como uma forma de entender a saúde das vendas dos produtos, isso podemos.

Outro tipo de análise que gostaria de chamar atenção e que pode vir a ser útil num futuro, é o ganho anual dos clientes. YearlyIncome. 

Só com o perfil da nossa fonte, já temos uma noção de como é distribuído a renda dos nossos clientes.

Como podemos ver, a grande maioria estaria no que chamamos de classe média, onde os ganhos iriam de 25 – 50k por ano.

E por fim, para complementar a análise anterior e se quiser correlacionar com o que foi obtido, podemos analisar o ganho anual com o grau de escolaridade dos clientes. Uma espécie de censo empresarial!!

Como a tabela education traz esse tipo de informação, teríamos bons insights sobre o perfil do cliente, ganho, comportamento, escolaridade e etc.

Esse tipo de informação ainda é capaz de ajudar o marketing da empresa a se comunicar e criar propagandas específicas e que atingisse em cheio o público alvo com uma linguagem apropriada e acessível!

Ninguém merece marketing empáfio e enfadonho.

A última análise que quero mostrar a respeito deste assunto neste post se trata da visão geral que a extensão promove

Esta é a task do string analyzer que criamos para o job e ela informa basicamente todas as características que a fonte possui, no que tange ao escopo de análise de string.

A imagem ficará um pouco grande, mas é para não cortar e ficar difícil de entender.

Estas são as análises que o datacleaner realiza na sua fonte, contando até quais linhas possuem registros com algum tipo de acentuação – Diacritic chars. 

E se por um acaso clicar no ícone do gráfico, ele retorna  o gráfico daquela análise por coluna.

Como este, por exemplo, que retorna a quantidade máxima de caracteres que cada coluna tem.

Como podemos ver, o string analyzer retorna um panorama completo da fonte ao qual estamos utilizando.

Talvez seja por isso que todas as colunas sejam tratadas como string, facilita o processo e este ocorre  de forma mais assertiva.

CONCLUSÃO

Este foi mais um post mostrando os benefícios de se realizar um data profiler em suas fontes.

Mostrei que é possível realizar análises de dados junto na pré-fase do projeto e mais, ter uma visão macro, ainda que incipiente, da saúde da empresa.

Neste post, a maioria das análises foram sobre os padrões de string e para concluir este assunto, para o próximo trarei a distribuição dos dados gravados feito pelo próprio software.

Mais uma vez, se forem realizar esse processo, tenham cuidado em converter para o formato data, pelo menos aqui, ele não se comportou da forma que se esperava e acabou comprometendo um pouco as análises.

Espero que tenham gostado, saúde!