Talk
This talk is the public defense of the master's thesis by Mehmet-Sefa Usta.
Speaker
Mehmet-Sefa Usta (University of Koblenz-Landau)
Title
Erweiterung eines RDBMS für ein optimiertes Daten-Lade-Format
Host
Software Languages Team
Room
D 238
Campus Koblenz
Date
12 November 2012
Time
3.00 pm (st)
Abstract
Große Unternehmen und Organisationen mu ̈ssen sich mit umfangrei- chen Datenmengen befassen. Dabei ist die zeitnahe Auswertung der Daten- mengen ein wichtiger Aspekt. IBM bietet auf Grund dieser Anforderungen neue Systeme fu ̈r Gescha ̈ftsanalytik an.
Der IBM DB2 Analytics Accelerator fu ̈r z/OS (IDAA) stellt ein solches System dar. Er bindet die Netezza-Data-Warehouse-Appliance in das IBM zEnterprise Mainframe-System ein und zwar in die DB2 fu ̈r z/OS. Da- durch entsteht eine Verschmelzung von Online-Transaktionsverarbeitungs- Systemen mit der Analytik durch OLAP (Online Analytical Processing) in einer einzigen Plattform fu ̈r schnell durchfu ̈hrbare Business-Intelligence- Aufgaben, insbesondere ermo ̈glicht es, schnelle Antwortzeiten bei kom- plexen Suchanfragen auf große Datenmengen, wobei sich die Appliance direkt mit der IBM DB2 fu ̈r z/OS Datenbank auf dem zEnterprise-196- Großrechner (oder z114) verbindet. Der IBM DB2 Analytics Accelerator ermo ̈glicht es, sehr große Datenmengen zu durchsuchen und die beno ̈tigten Informationen fu ̈r Entscheidungen in kurzer Zeit zu berechnen.
Die aktuelle Implementierung vom IDAA sieht vor, die auf IBM DB2 fu ̈r z/OS vorliegenden Daten u ̈ber einen Konvertierungsprozess in das Data- Warehouse aufzuspielen. Die dabei entstehende ho ̈here CPU-Auslastung und die durch die Konvertierung verlorene Zeit, verzo ̈gern das Laden der Daten in die Netezza-Data-Warehouse-Appliance. Daher ist zu gewa ̈hr- leisten, dass die zeitkritischen ETL-Prozesse (Extract, Transform, Load), mo ̈glichst Ressourcen sparend und hochperformant arbeiten aber gleichzei- tig robust und korrekt implementiert sind. Der Schritt des Konvertierens (Transform) ist dabei besonders in Augenschein zu nehmen, da dieser im Bezug auf Performance den gro ̈ßten Anteil tra ̈gt.
Der in dieser Arbeit vorgestellte neue Lo ̈sungsentwurf la ̈sst den Kon- vertierungsprozess aus und la ̈dt die Daten ohne Umweg in die Netezza- Data-Warehouse-Appliance.
Im Verlauf dieser Arbeit wird zuna ̈chst ein U ̈berblick der verwende- ten Systeme und Komponenten gegeben, bevor die Implementierung, ins- besondere die Lade-Komponente, analysiert wird. Der neue Ansatz der Lade-Komponente wird vorgestellt, wobei die neue Implementierung erst zu Laufzeit den vorhandenen Code in Maschinencode umsetzt, kompiliert und ausfu ̈hrt (Just-In-Time-Kompilierung), um einen schnelleren Durch- satz zu erzielen. Abschließend wird der neue Ansatz gegen die vorherige Implementierung evaluiert und die verbesserte Performance durch Messun- gen nachgewiesen.