Es geht um die Zeitverzögerung zwischen Transaktion auf der Quelle und der Bereitstellung der Daten für dfie Verwendung. Bei einem Data Warehouse handelt es sich um Kopien der Daten. Zumindest im SAP-Umfeld müssen die Daten vom Warehouse abgeholt werden, wie ist hier irrelevant. Die Daten werden nicht von einer Transaktion getriggert an das Warehouse weitergegeben. Über einen ETL-Prozess werden die Daten aus der Quelle geladen und innerhalb des Data Warehouses verbucht (Staging). Problem ist die Ladefrequenz. Grade in der Vergangenheit, als die Leistungsfähigkeit der Systeme eine deutlich geringere Performance hatte wurden Beladungen in die Nacht, außerhalb der Arbeitszeit verlegt. Die Aktualität der Daten konnte so stunden oder tagelang hinterherhängen.
Bei den Daten innerhalb eines Data Warehouse handelt es sich um Kopien der Originaldaten der Quellsysteme. Beim Kopieren (ETL-Prozess und Staging) können viele Probleme auftreten. Daten können nicht oder mehrfach verbucht werden. Daten können inkompatibel sein und können im DW nicht verbucht werden. Daten werden nicht extrahiert, weil der ETL-Algorithmus fehlerhaft ist. Für Auswertungen muss sichergestellt werden, dass die Daten des DW dem der Quellen entsprechen. Dieses ist umso wichtiger, wenn diese für die Rechnungslegung oder ein Audit dienen.
Bei einer Greenfield-Installation kein Thema, eher wenn Systeme „organisch“ Wachsen, wie es bei Fusionen oft der Fall ist. Unterste Ebene der Integration ist die technische Ebene. Wie sind die Datenfelder überhaupt definiert, wie werden Zustände gekennzeichnet. Alle DBMS lassen geben den Entwicklern eine Bandbreite von Optionen in die Hand. In einer homogenen Umgebung wie SAP sie anbietet, ist dieses Problem relativ gering.
Nächste Ebene ist die der semantischen Definition. Wie sind die Daten überhaupt definiert. Ich bin damit einmal auf die Nase gefallen, ein Begriff aus dem Bereich Analgen wurde lokal etwas anders gehandhabt als ich es von meinem SAP-Sprech gewohnt war. Dazu kommt, das Software wie SAP IS-U customizebar ist, ein und derselbe Vorgang in unterschiedlichen Systemen anders auf der Datenbank abgebildet werden können.
Schwierigste Ebene bei der Integration ist die oberste Ebene, die der abgeleiteten Merkmale. Im Bereich SAP IS-U / Utilities gibt es die Möglichkeit Fakten zu Anlagen, Tarifen oder Tariftypen frei zu definieren. Da können Welten aufeinandertreffen.
Datenwarenhäuser können sehr anspruchsvoll in Sachen Hardware sein. Sie sind wie Privatfahrzeuge: Stehen die meiste Zeit rum, kosten und müssen dann für Abfragen zum Teil zeitkritische Aufgaben bewältigen.