| « Pentaho/Kettle - schrittweise | Java Swing + Browser + Flash + Mediaplayer + ... » |
Datenintegration mit Pentaho (Kettle)
Wie führt man Informationen zusammen, die in verschiedenen Strukturen und Formaten abgelegt sind? Eine Datenbank hier, haufenweise Exceldateien dort und dann noch ein paar CSV-Daten oben drauf. Gewünscht: Ein Datenabgleich mit Filterung, das Ergebnis bitte als Tabelle per E-Mail, und das am besten wöchentlich automatisch.
Kann man programmieren. Aber in zwei Wochen ändert sich vielleicht die Datenstruktur, der Ablageort von Importdateien oder die E-Mail-Adresse des Empfängers. Dafür jedes mal das Programm anpassen, neu kompilieren und ausliefern? Muss nicht sein. Man nehme… Pentaho.
Fortsetzung:
Um einen Eindruck der Leistungsfähigkeit dieses Open Source Tools zu bekommen, muss man es ausprobiert haben. Also los:
- Download bei Sourceforge: Am besten ein komplettes Paket “Pentaho Data Integration / Kettle-x.x.x.exe” als Installationsversion.
- Installation.
Nach Programmstart: Einrichtung des Repositories. Damit ist eine Datenbank gemeint, in der alle Jobs und Datentransformationen gespeichert werden. Welche Datenbanken hier alle möglich sind, kann man in der mitgelieferten Dokumentation “Spoon_3_0_0_User_Guide.pdf” unter “5.9 Database Usage Grid” nachlesen. Ich habe mich für eine MySQL-Datenbank entschieden. Dazu habe ich zunächst lokal eine neue Datenbank in MySQL angelegt.
In Kettle klickt man dann im “Welcome"-Dialog auf “New” und im nächsten Dialog gleich nochmal auf “New". Die Einstellungen sehen dann z.B. so aus:
Mit “Test” kann man sich davon überzeugen, dass die gewählte Datenbank erreichbar ist.- Ganz wichtig: die Datenbankstruktur muss nun noch eingerichtet werden. Dazu klickt man im Dialog “Repository Information” auf “Create or Upgrade".
- Im “Welcome"-Dialog kann man sich nun mit Login “admin” und Password “admin” anmelden.
1 Kommentar
Vielen Dank :-)
Karsten Frölich