StreamSets – Adicionando conectores JDBC

Após a instalação do StreamSets (streamsets-datacollector-2.7.1.0-all-rpms.tgz) no CentOS-7, siga os segintes passos. Parar serviço:

service sdc stop

Acessar:

cd /opt/streamsets-datacollector/libexec

Alterar o arquivo:

vim sdc-env.sh

Inserir a linha (Diretório de drives JDBC):

export STREAMSETS_LIBRARIES_EXTRA_DIR=/opt/streamsets-datacollector/streamsets-libs-extras

Alterar segurança do Java:

cd /opt/streamsets-datacollector/libexec
vim sdc-env.sh

setar a variavel SDC_SECURITY_MANAGER_ENABLED para false

Criar os seguintes diretórios e mover os JAR’s para o diretório ‘lib’

cd /opt/streamsets-datacollector/streamsets-libs-extras
mkdir streamsets-datacollector-jdbc-lib
cd streamsets-datacollector-jdbc-lib
mkdir lib

MOVER OS JAR’s para o diretório lib acima.
Dica: Você pode adicionar mais de um conector JDBC no diretório lib.
<PATH>/streamsets-datacollector-jdbc-lib/lib
Não se esqueça que os jar`s devem estar apenas no sub-diretório lib.

Criar o diretório de libs JMS:

cd /opt/streamsets-datacollector/streamsets-libs-extras
mkdir streamsets-datacollector-jms-lib
cd streamsets-datacollector-jms-lib
mkdir lib

Iniciar o serviço:

service sdc start

Espero que essa dica possa ter lhe ajudado.

Até mais!

 

Publicado em Big Data

Aumentando a performance do Table Output com Vertica

hp-vertica

Olá,

Gostaria de compartilhar duas dicas bem úteis para quem deseja obter uma melhor performance com o Vertica 8.

A primeira delas é aumentar o tamanho do campo “Commit size“. Na imagem a seguir, estou utilizando o valor 10000:

table_output_vertica

 

A segunda dica é inserir um parâmetro de conexão chamado DirectBatchInsert e definir o valor true. Edite sua conexão e adicione o parâmetro no menu Options:

table_output_vertica_options

 

Espero que as dicas acima possam lhe ajudar.

Referências:

my.vertica.docs

Loading data WOS and ROS

PDF Pentaho Data Integration Vertica best practices

Publicado em PDI, Vertica

Update cache Mondrian, Saiku and CDA of Pentaho 5

Hello dear reader,

I recently wrote a post on how to update the  cache Pentaho 4.x.

Objective of the article:
Update the cache Mondrian, Saiku and CDA at the end of a load of ETL.

Update Cache Pentaho 5 CE

Update Cache Pentaho 5.0.1-stable Community Edition

This article will show you how to update the cache Pentaho 5.0.1-stable.

I used the following tools:

  • PDI 5.0.1
  • Pentaho BI Server CE-5.0.1-stable

To download the routine that updates the cache Pentaho, visit the link: update-cache-pentaho-5.0.1-stable

I hope this article shall be useful.

Good luck.

Marcado com: , , , ,
Publicado em PDI, Pentaho

Habilitar segurança nos cubos OLAP mondrian Pentaho 4.8

olap-cubo

Olá caro leitor, vou demostrar em alguns passos como inserir segurança no acesso aos cubos OLAP do Pentaho 4.8.

Observação: A partir da versão 5.x do BI-Server, não é mais necessário alterar o arquivo xml. Esse artigo é somente para versão 4.x do BI-Server.

Em que este artigo é útil?

Imagine o seguinte cenário: Quando o gestor de RH acessa o BI-Server, o mesmo deve ter apenas acesso as informações que são pertinentes ao seu departamento. Esse tutorial irá demostrar como habilitar a segurança nos cubos OLAP que fora publicados no BI-Server. Você pode implementar essa solução da maneira que lhe for conveniente, cada empresa, terá uma política de acesso as informações.

Para iniciar, devemos acessar o arquivo pentahoObjects.spring.xml que está localizado em:

cd [Diretório do pentaho]/biserver-ce/pentaho-solutions/system/

Edite o arquivo:

vim pentahoObjects.spring.xml

Remova o seguinte comentário:

<!--
Disabled by default in 3.5.2. In trunk, this should be enabled.
<bean id="Mondrian-UserRoleMapper"
 name="Mondrian-One-To-One-UserRoleMapper"
 class="org.pentaho.platform.plugin.action.mondrian.mapper.MondrianOneToOneUserRoleListMapper"
 scope="singleton" />
-->

Para:

<!--
Disabled by default in 3.5.2. In trunk, this should be enabled.
-->
<bean id="Mondrian-UserRoleMapper"
 name="Mondrian-One-To-One-UserRoleMapper"
 class="org.pentaho.platform.plugin.action.mondrian.mapper.MondrianOneToOneUserRoleListMapper"
 scope="singleton" />

Agora reinicie o BI-Server para que essa alteração tenha efeito.

O último passo é editar seu cubo pela ferramenta Pentaho Schema WorkBench adicionando o componente Role, segue uma imagem ilustrando o componente:

pentaho-psw

 

Através do PAC (Pentaho Administration Console), você pode criar as Roles(Papéis de usuário que preferir), em seguida, pode editar os seus cubos OLAP adicionando as devidas permissões.

Referências: Pentaho Info Center

Abraço a todos, espero que essa dica seja útil.

 

Publicado em Pentaho

Pentaho 4.8 inicializando como serviço no CentOS 6.2

centos-logo

Olá amigo leitor. Neste artigo vou descrever o passo a passo de como colocar o pentaho 4.8 CE como serviço no Linux CentOS 6.2.

Em que cenário esse artigo é útil? Para quando o servidor de BI for reiniciado, o serviço do pentaho suba automaticamente.

Acesse o servidor dia linha de comando e crie o seguinte arquivo:

vim /etc/init.d/pentaho.sh

Insira o seguinte conteúdo no arquivo que acabou de criar (informe o caminho do pentaho):

### BEGIN INIT INFO
# Provides: start-pentaho stop-pentaho
# Required-Start: networking mysql
# Required-Stop: mysql
# Default-Start: 2 3 4 5
# Default-Stop: 0 1 6
# Description: Pentaho BI Platform
### END INIT INFO
export JAVA_HOME="/usr/java/jdk1.7.0_21"

start(){
if [ "$1" == "adm" ];then
echo "Iniciando aplicacao administration-console"
cd /opt/pentaho/administration-console
./start-pac.sh > /tmp/pentaho_console.out 2>&1 &

else
echo "Iniciando aplicacao biserver"
cd /opt/pentaho/biserver-ce
./start-pentaho.sh > /tmp/pentaho.out 2>&1
fi

echo "ok"

}

stop(){
echo "recebi: $1"

if [ "$1" == "adm" ];then
echo "Finalizando aplicacao administration-console"
cd /opt/pentaho/administration-console
./stop-pac.sh
else
echo "Finalizando aplicacao biserver"
cd /opt/pentaho/biserver-ce
./stop-pentaho.sh
fi

echo "ok"
}

case "$1" in
start)
 start $2
 ;;
stop)
 stop $2
 ;;
*)
printf "\nUsage: $0 \n
start | stop : Inicia ou finaliza a aplicacao biserver\n
start adm | stop adm : Inicia ou finaliza o administration console\n\n"
 ;;
esac
exit 0

Salve o arquivo que acabou de criar:

:wq!

Dar permissão de execução no arquivo criado:

chmod a+x /etc/init.d/pentaho.sh

Para finalizar, adicionar o arquivo na lista de programas que iniciam automaticamente com o SO.

cd /etc/init.d
chkconfig --add pentaho.sh

Referencias:

Guia de sobrevivência Linux
Guia para Ubuntu
Guia para CentOS

Obrigado, espero que possa ajudar.

Marcado com: , ,
Publicado em Pentaho

Novidades do Pentaho Business Analytics 5

gamer-slide12

Confira os novos recursos e novidades do Pentaho Business Analytics 5.

Link da apresentação em slides

Marcado com: , ,
Publicado em Pentaho

Update cache Mondrian, Saiku and CDA

update

Have you come across the scenario where the end of a load of ETL was necessary to update the cache of the BI-Server? Great! For this tutorial I created this, and with the help of Fernando Maia managed to solve this issue.

Basically, each transformation project updates the following caches:

  • Mondrian
  • Saiku
  • CDA

Ps. Created with PDI 4.4.0 (Pentaho Data Integration).

You can download the project in GitHub 

Hope you can help. good luck.

Marcado com: , , , , , ,
Publicado em PDI

Trabalhando com repositório de arquivos no PDI

repositorio-daniel-rabelo

Recentemente trabalhei em um projeto com o Caio Souza (Professor Coruja) e ele me deu algumas dicas bem legais de como trabalhar com repositório de arquivos no PDI (Pentaho Data Integration).
Esse post irá mostrar passo a passo como criar um repositório local de arquivos utilizando o PDI e também como trabalhar com variáveis de ambiente de forma que o projeto que será desenvolvido possa ser executado na máquina de outro desenvolvedor ou no servidor de BI.

Ao término deste tutorial, você irá aprender:

  • Trabalhar com repositório de arquivos no PDI
  • Configurar variáveis de ambiente

Ok, vamos a prática. Nosso projeto irá extrair os usuários de uma tabela no PostgreSql e exportar para o Excel.

Ambiente de desenvolvimento utilizado:

  • Linux Ubuntu 12.04 64bits
  • PostgreSQL 8
  • PDI (Pentaho Data Integration) 4.4.0
Passo 1 – Criando o repositório

Vamos iniciar o projeto. Execute o PDI, irá abrir uma janela de repositórios:
repositorio-PDI

Clique em adicionar (ícone com sinal de +) novo repositório, em seguida selecione a segunda opção Kettle file repository… e clique em ok:
2

Crie um diretório chamado projeto-usuario  Em seguida, selecione o diretório criado clicando no botão Navega…
Informe o ID e Name do repositório: proj_usuario
Veja como ficou minha configuração:
3

Clique em ok. Selecione o repositório criado e clique em ok novamente:
repo-proj

Passo 2 – Criando uma conexão com o banco

Vamos criar uma conexão com o banco de dados postgre. Clique no menu superior:
Tools > Repositórios > Explorar repositórios
Ou
Ctrl+E

Clique na aba Connections e adicione uma nova conexão.
Selecione o banco de dados postgre em Connection Type, e preencha os parâmetros de conexão:
5

Após preencher os parâmetros de conexão, faça um teste clicando no botão Test:
6

Clique em ok e em seguida clique no botão Close para fechar a janela de repositório.

Foi criado o arquivo postgreSql.kdb na raiz do diretório do projeto, esse arquivo contém os parâmetros da conexão que criamos.
No diretório /home/SEU-USUARIO/.kettle/ foi criado um arquivo repositories.xml, esse arquivo contém as informações sobre onde o seu repositório está localizado.

Agora feche o PDI. (Esse passo é importante, pois iremos definir uma variável de ambiente, por isso o PDI deve ser fechado).

Passo 3 – Criando os diretórios do projeto

Vamos criar dois diretórios em: /…./projeto-usuario

Acesse seu diretório projeto-usuario via terminal:
7

Crie dois diretórios. Um chamado etls e outro chamado exportacao:
8

Passo 4 – Criando a tabela de usuarios

Acesse seu banco de dados utilizando um client SQL de sua preferência, eu utilizei o pgAdmin III

Comando para criar a tabela de usuários:

CREATE TABLE usuario (
   id_usuario SERIAL NOT NULL PRIMARY KEY,
   nome VARCHAR(20) NOT NULL);

Inserir os usuários de sua preferência, comando:

insert into usuario (id_usuario, nome) values (1,'Daniel Rabelo');
insert into usuario (id_usuario, nome) values (2,'Isabel Nascimento');
insert into usuario (id_usuario, nome) values (3,'Cloves Alves')
insert into usuario (id_usuario, nome) values (4,'Pedro Genuino');
Passo 5 – Configurando a variável de ambiente

Acesse o arquivo kettle.properties no seguinte diretório:
/home/SEU-USUARIO/.kettle

Abra esse arquivo com um editor de sua preferência e adicione a seguinte linha:
PATH_BI=/home/daniel/projeto-usuario

Exemplo:
9

 

 

Configuração do PATH_BI para Windows
#DIRETORIO DE DESENVOLVIMENTO
PATH_BI=C\:\\Trab\\desenv\\projeto-usuario

OBS: Não se esqueça de inserir o caminho correto, no exemplo acima,  adicionei o caminho de minha máquina do “projeto-usuario”

Salve o arquivo kettle.properties e feche o editor.

Passo 6 – Criando uma transformação para exportar os usuários

Acesse o PDI, selecione o repositório proj_usuario e clique em OK.

Clique em File > Novo > Transformação (Ctrl+N)

Salve a transformação com as seguintes características:
Nome da transformação: transf_usuario
Diretório: selecione a pasta etls

Exemplo:
10

Na aba Design (Lado esquerdo), clique e arraste o componente Table input para o lado direito.
Agora clique no componente Microsoft Excel Output e arraste para o lado direito.

Pressione a tecla Shift, Selecione o componente Table input e mova o hop até o componente Microsoft Excel Output.
Exemplo:
11

Dê um duplo clique no componente Table input, e preencha os seguintes valores:
Connection: Selecione a conexão que criamos, postgreSql

SQL:

SELECT
id_usuario,nome
FROM
public.usuario

Exemplo:

12

Para fazer um teste, clique no botão Preview. Clique em ok para salvar as mudanças.

Agora dê um duplo clique no componente Microsoft Excel Output, preencha os seguintes valores:
Na aba File, no campo filename, insira o seguinte valor:
${PATH_BI}/exportacao/usuarios
Exemplo:
13

Na Aba Fields, clique no botão Obtem campos.
Exemplo:
14

Clique em ok e salve a transformação.

Pronto, agora podemos executar nossa transformação e ver o resultado.

Clique no botão Run (ícone de play) para executar a transformação, ou F9.
Será exibida uma janela onde nossa variável PATH_BI é exibida:
15

Clique no botão Launch. Essa transformação será executada bem rápido porque existem poucos dados.
Se tudo ocorrer bem, os dois componentes terão um ícone de Check, indicando que a execução foi executada com sucesso:
16

Acesse seu diretório /home/SEU-USUARIO/projeto-usuario/exportacao e veja o arquivo chamado usuarios.xls
Dados do arquivo:
17

Sucesso 🙂 !!!

Dessa forma você pode compartilhar o projeto com outras pessoas, bastando apenas alterar o caminho do parâmetro PATH_BI do arquivo kettle.properties inserindo o caminho do projeto.

Fiz o commit deste projeto no GitHub, você pode fazer o download Aqui

Espero que possa ajudar, abraços e boa sorte.

Marcado com: , , , , ,
Publicado em PDI

Componente Mail Pentaho Data Integration

logo-pdi

Neste tutorial vamos aprender a utilizar o componente Mail do PDI (Pentaho Data Integration).

Em que situação esse post será útil ? R: Quando quiser ser notificado quando desenvolver um job, seja para notificar um erro, ou até mesmo uma notificação de sucesso.

Inicie o PDI, crie um novo job clicando em FILE > NOVO > JOB (Ou Ctrl+Alt+N).

Salve o job com o nome: Send-Mail em um diretório de sua preferência.

Ao lado esquerdo, clique no ícone general, selecione o componente START e arraste para o lado direito.

start

Em seguida, faça o mesmo com o componente Mail, arraste o componente para o lado direito:

mail

Pressione a tecla Shift, clique em cima do componente START e direcione o hop até o componente Mail:

hop-start

Para terminar a primeira parte de seleção de componentes, selecione o último componente SUCCESS.

success

Precione novamente a tecla Shift, clique no componente Mail e direcione o hop até o componente SUCCESS:

success-job

Pronto, até esse momento temos os componentes necessários para o nosso tutoria de configuração do componente Mail.

Dê um duplo clique no componente mail, e insira as seguintes configurações na aba Addresses:

sender-mail

Aba Server:

server

Aba EMail Message:

message

Aba Attached Files (Opcional, permite que adicione anexo no envio do EMail):

attached

Clique em OK.

Salve as alterações.

Tudo pronto ! Vamos executar o job. Clique em Run This Job e em seguida no botão Launch:

run-job

Se você tiver inserido seu endereço de EMail no campo de destinatário na Aba Addresses do componente Mail, irá receber um email semelhante a este:

ok

Boa sorte ! Até o próximo post.

Marcado com: , , ,
Publicado em PDI

Pentaho InfoCenter

PentahoInfoCenter

O portal Pentaho InfoCenter reúne uma série de documentações técnicas sobre as ferramentas utilizadas no projeto Pentaho, veja a lista de documentações que são abordadas:

  • Guias do Usuário
  • Tutoriais passo a passo
  • Guias de instalação e atualização
  • Guias de administração
  • Guias para o desenvolvedor
  • Documentação de novos lançamentos

Link do portal: http://infocenter.pentaho.com

Publicado em Pentaho
Categorias
Estatísticas do Site
  • 30.809 hits

Digite seu endereço de email para acompanhar esse blog e receber notificações de novos posts por email.

Junte-se a 140 outros assinantes