Dieses ist der erste grobe Versuch, eine Struktur in dieses Thema zu bekommen, ist weder vollständig noch aus anderen Perspektiven durchdacht.
Ich will einmal der Frage nachgehen, was ein Data Warehouse ist, genauer gesagt ein SAP Data Warehouse. Nicht aus der Sicht eines Theoretikers mit Informatikerschein, sondern aus der Sicht eines Supporters, der zum einen der buckeligen Verwandschaft einschl. Neffen und Nichten irgendwie klarmachen muss, was er da gemacht hat und was daran das besondere ist und zum zweiten, einmal für sich hinterfragen muss, was daran angeblich so kompliziert ist.
Was ist ein Data Warehouse
Model Auslieferungslager
Ein Lager hat verschiedene Aufgaben, um seine Funktion erfüllen zu können. Die Güter, die für eine zukünftige Nutzung bereitgehalten werden sollen, müssen zunächst einmal beschafft werden. Hierzu ist es notwendig diese extern zu Bestellen, Abzurufen, bei Anlieferung auszupacken, für die spätere Auslieferung einzulagern. Liegen sie bereit, können sie vom Nutzer abgerufen werden. So ein Lager hat also vier Seiten, die ich zunächst betrachten will:
Lagerverwaltung
- Überwachung des Lagerbestandes
- Bedarfsgerehte Warenbeschaffung
- Steuerung der Beschaffungsprozesse
- Instandhaltung des Lagers und seiner Prozesse
- Anpassen des Warenbestandes an die Anforderungen der Nutzung
Data Warehouse
Definition von W. H. Inmon aus dem Jahr 1996. Andere Bezeichnungen: Information Warehouse.
Merkmale:
- Subjektorientierung
- Integration
- Zeitabhängig
- Persistent
Subjektorientierung
Integration
Zeitabhängigkeit
Persistenz
Verwaltung Data Warehouse
- Überwachung des Systems und Monitoring des Datenbestandes
- Beladung und Beladungssteuerung
- Anpassung des Warehouses an die Erfordernisse der Nutzung (Change Management)
Ein Data Warehouse ist also nichts weiter als ein Datenspeicher, sprich Datenbank, in der strukturierte Daten gesammelt und gespeichert werden um sie einer Nutzung zuzuführen. Daraus folgen mehrere Eigenschaften, die auf den ersten Blick nicht so ersichtlich ist:
- In einem Data Warehouse werden Daten nicht verändert, es erfolgt lediglich eine Anpassung an den Nutzungsbedarf. Die Kisten sind also durchaus dumm.
- Die Lagerung orientiert sich an den Bedürfnissen der Nutzung, hier gilt eine schelle Abfrage. Die Systeme (OLAP = Online analytic Prozessor) sind etsprechen aufgebaut.
- Die Beschaffungsseite ist die Welt der ETL-Prozesse: Extraktion, Transformation, Laden.
- Die Nutzung kann unterschiedlich sein: Weitergabe in ander System oder Analyse / Reporting über verschiedene Tools.
Warum Data Warehousing?
Informationsbedarf innerhalb eines Unternehmens
Enterprise Data Warehouse (EDW)
Ein EDW ermöglicht eine Datenanalyse über mehrere Quellen hinweg.
Reicht von einer Analyse auf Operativer Ebene bis hin zu Key Figures für die Geschäftsleitung. Datengestütze Entscheidungen
Daten können für die Revision herangezogen werden
Operational Data Store
Beispiele: Messreihen, Trackingdaten
Single Point of Truth
Ein Datenbestand kann sich aus unterschiedlichen Datenquellen zusammensetzten.
Abfrageorientierte IT – Umgebung
Laufzeit der Reports / Analysen
Der SAP Baukasten
Der Baukasten hat sich mit Einführung HANA grundlegend geändert. Ursache liegt
- im Aufbau der Datenbank, welche die Verringerung der Datenmenge bei der Abfrage implementiert hat und
- Universellerer Aufbau der Datenelemente
Anforderungen:
- Datenkonsistenz
Konventionelle Welt | HANA – Welt | |
---|---|---|
Persistent Layer | InfoObjects | InfoObjects |
InfoProvider DataStore-Object HybridProvider Persistance Staging Area (PSA) Tabellen | DataStore – Object advanced | |
Virtual Layer | MultiProvider InfoSet | CompositProvider |
TransientProvider VirtualProvider | Operational Data Store (ODS) View | |
Datenbeschaffung | Quellsysteme | Quellsystem |
DataSource | DataSource | |
Datenfluss | Infopackage Übertragungsregeln Fortschreibung Transformation | Transformation |
InfoSource | InfoSource | |
Übertragungsregeln Fortschreibung | Datentransferprozess |