Desenvolvida pelos mesmos criadores do Pentaho, o Apache Hop é uma nova ferramenta de ETL que tem o objetivo de ajudar na integração das fontes de dados de qualquer área de negócio.

Com uma interface gráfica bem completa e uma variedade grande de conectores, inclusive com os provedores de serviço em nuvem, a ferramenta vem como a nova opção open-source para o mercado de ETL low-code.

Desse modo, resolvi explorar as possibilidades da ferramenta, entender seu funcionamento e documentar no blog as descobertas.

INSTALAÇÃO

Por ser do mesmo grupo que trabalhou no Pentaho, seu processo de instalação é bem similar e simples.

O primeiro passo é fazer o download do arquivo nesse site aqui. Se for utilizar a versão do Linux, aconselho a baixar o arquivo .zip e não o tar.

Dê o unzip utilizando o comando: sudo unzip apache-hop-client-2.0.0.zip.

Página de download do Apache Hop
Versão de instalação do Java.

Ao terminar o download do arquivo, descompacte em um diretório qualquer do seu computador, se possível, um de fácil acesso e dedicado.

Como a maioria dos programas open-source, você precisará do Java instalado. Para tal, acesse aqui.

Versão de instalação do Java.

Segundo a própria documentação do Apache Hop, a ferramenta funciona melhor com o Java JDK 11, que você pode baixar aqui.

Página de download do JDK 11
Página de download do JDK 11.

Escolha o que se adequa melhor e faça o download do arquivo. Ao final, basta instalar a versão do Java na sua máquina.

Se deseja ter múltiplas versões do Java no seu computador, siga este tutorial.

Ao terminar, abra o CMD do Windows, e veja  se a versão está correta digitando.

Conferindo a versão do Java instalada.
Conferindo a versão do Java instalada.

Esta foi a primeira parte da instalação, agora, vamos atribuir as variáveis de ambiente para o funcionamento do Apache Hop.

Para a primeira opção, do Users Variable, quando for criar a variável do Java, utilize esse caminho aqui: “ %JAVA_HOME%\bin “.

As variáveis de sistema servem como “apontamento” da aplicação para os arquivos necessários do Java. Como elas utilizam a variável JAVA_HOME, é necessário a configuração.

Criação das variáveis de ambiente no S.O do Windows.
Criação das variáveis de ambiente no S.O do Windows.

Ao finalizar a configuração, vá ao diretório, clique com o botão direito no arquivo e clique em editar.

Edição do batch de execução do Apache Hop.
Edição do batch de execução do Apache Hop.

Edite o set HOP_OPTIONS=-Xmx para atribuir a quantidade de memória que o HOP pode utilizar do seu pc.

Configuração de memória do Apache Hop.
Configuração de memória do Apache Hop.

Execute o arquivo batch e espere inicializar. Abaixo, a tela principal do Software e as duas opções de operação: Pipeline e Workflow.

Para quem tem familiaridade com o Pentaho, o Pipeline é a transformação e o Workflow, a configuração dos jobs que rodavam as transformações.

Tela inicial do Apache Hop.
Tela inicial do Apache Hop.

Agora, é explorar a ferramenta e aprender a criar transformações e fluxos de integração para qualquer ambiente.

EXTRA: INTEGRAÇÃO COM O SQL SERVER

Como ele não possui integração nativa com o SQL Server, é preciso algumas pequenas configurações para utilizar o banco de dados como fonte.

Para isso, siga os seguintes passos:

  • Baixe o driver JDBC no site da Microsoft. O link é este aqui.
  • Descompacte os arquivos e cole na pasta lib do Apache Hop no diretório que “instalou”.
Adição dos arquivos JDBC do SQL Server - Apache Hop.
Adição dos arquivos JDBC do SQL Server – Apache Hop.
  • Vá na pasta libswt\win64 e cole o seguinte arquivo:
Adição do autenticador do SQL Server na pasta libwt - Apache Hop.
Adição do autenticador do SQL Server na pasta libwt – Apache Hop.
  • Por último, vá ao diretório de instalação do Java na sua máquina e em cada pasta encontrada, você precisará adicionar os seguintes arquivos:
Pastas no diretório do Java para adição dos arquivos do SQL Server.
Pastas no diretório do Java para adição dos arquivos do SQL Server.
  1. Pasta lib: 
Adição dos autenticadores do SQL Server na pasta LIB.
Adição dos autenticadores do SQL Server na pasta LIB.
  1. Pasta Bin:
Adição dos autenticadores do SQL Server na pasta BIN.

Estes arquivos são os autenticadores que o Apache Hop precisará para conectar ao banco. Como disse, cole ambos nas pastas citadas do seu diretório escolhido na instalação.

Para validar se a configuração deu certo e se o Apache Hop consegue se conectar com o SQL Server, faça o seguinte teste.

Configuração da conexão do SQL Server com Apache Hop.
Configuração de conexão do SQL Server com Apache Hop.

Passe as configurações do seu banco de dados e clique em Test e veja se a ferramenta irá se conectar com o SQL Server. Clique em OK  e pronto, fim da configuração.

Teste de conexão SQL Server com Apache Hop.
Teste de conexão SQL Server com Apache Hop.

CONCLUSÃO

Este é o primeiro artigo sobre o Apache Hop e quis mostrar o básico, apenas a instalação e configuração da ferramenta e conexão com o banco. 

Se for utilizar outras fontes de dados, digo, bancos relacionais, basta seguir o mesmo passo. Isso claro, se não houver configuração nativa.

O processo de instalação é bem simples de seguir e espero que obtenham sucesso.

Quanto a ferramenta, iniciarei hoje o aprendizado e espero poder agregar bastante com a comunidade e com os leitores do blog!

Até a próxima.

Olá!

Se chegou até aqui e curtiu esse artigo, deixe seu like. Me ajude a alcançar mais pessoas!

Compartilhe esse artigo e ajude mais pessoas que possam ter a mesma dúvida!

Se quer ficar atualizado dos artigos, se inscreva na newsletter abaixo:

Obrigado!