Was ist ein Data Warehouse?

Allgemeine Definition

Ich bleibe bei der Frage zunächst bei der Wikipedia und sehe mir einmal an, was mir dort geboten wird:

Ein Data Warehouse ist eine physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt, um Analysen zu ermöglichen

Andreas Bauer, Holger Günzel: Data-Warehouse-Systeme: Architektur, Entwicklung, Anwendung. dpunkt, 2013, ISBN 3-89864-785-4

A data warehouse is a copy of transaction data specifically structured for querying and reporting

Ralph Kimball, Mary Ross: The Data Warehouse Toolkit. The Complete Guide to Dimensional Modeling. Wiley, ISBN 0-471-20024-7

Ein Data Warehouse ist ein physischer Datenbestand, der eine integrierte Sicht auf die zugrundeliegenden Datenquellen ermöglicht

Thomas Zeh: Data Warehousing als Organisationskonzept des Datenmanagements. Eine kritische Betrachtung der Data-Warehouse-Definition von Inmon. In: Informatik – Forschung und Entwicklung. 18, Nr. 1, 2003 

Die Erklärung des Begriffes „Data Warehouse“ ist sehr allgemein und besagt im Kern:

  • Es handelt sich um eine Form der Datenorganisation
  • Es handelt sich um eine Datenbank
  • Es werden kopierte Daten aus verschiedenen Datenquellen zusammengeführt (Kopie)
  • Die Datenbank ist für Analyse- / Reportingprozesse optimiert
  • Aus dem Begriff Datenbank lässt sich ableiten, dass es sich um strukturierte Daten handelt

Versuch einer eigenen Definition von Data Warehouse

Die im Internet und Literatur gefunden Definitionen sind sehr allgemein. Als Rentner mit fachlichen Hintergrund kann ich mir durchaus Vorstellen, was sich dahinter verbirgt. Problem: Wie erkläre ich das einer unbedarften Person? OK, es wird nur die wenigsten interessieren, aber …

Ich will mich damit auf einem eigenen Wege dem Thema nähern. Ich halte mich nicht für besserm schlauer und klüger als andere, aber ich benötige ein Thema, um nach der Zeit des Ruhestandes wieder geistig in Gang zu kommen.

Ein Basic: Der Begriff Data Warehouse besteht aus zwei Komponenten:

  • Data = Daten, Plural von Datum
  • Warehouse = Lager, Warenlager, Magazin, Lagergebäude, Abholmarkt, Großmarkt, Lagerhalle.

Daten

Daten stellen durch Beobachtung, Missung, statistische Erhebung oder andere Wege gewonnene [Zahlen]Werte und Angaben dar, Informationen Der Begriff gibt ansich keine Information darüber, wie diese Daten vermerkt werden. Dieses kann auf Papier oder auch auf einen Datenträger digital erfolgen. Um im Kontext meines Themas zu bleigen: Es geht ausschließlich um digital gespeicherte Daten.

Eigenschaften digitaler Daten

  • Digitale Daten können verlustfrei kopiert werden.
  • Digitale Daten werden üblicherweise in Dateien gepeichert.
  • Zusammenhängende digitale Daten werden üblicherweise zu einem Datensatz zusammengefasst.
  • Digitale Daten können kombiniert werden, wenn überschneidende Kriterien vorhanden ist
  • Digitale Daten haben kein Sterbedatum
  • Digitale Daten beschreiben etwas

Transaktionale vs. Analytische Daten

Eine Transaktion ist ein Vorgang, bzw. dessen Beschreibung. Die Silbe „Trans“ bedeutet soviel wie hindurch, quer durch, hinüber, jenseits, über … hinaus. Deutet also auf eine Struktur oberhalb einer einzelnen Handlung hin. Eine Aktion ist eine Handlung, Tat. Der Begriff deutet also auf eine Zusammenfassung mehrerer Handlungen zu einem Vorgang hin.

Der Begriff sagt nichts darüber aus, welcher Art dieser Vorgang ist. Es kann sich sowohl um einen Verkauf innerhalb eines Supermarktes als auch um einen Kommissionierungsvorgang in einem Lager oder einen technischen Vorgang handeln. Eine Transaktion kann sowohl einen als auch mehrere Einzelschritte umfassen. Beispiel Einkauf in einem Supermarkt: Trolly beschaffen, Waren aus den Regalen sammeln, an der Kasse anstellen, Waren auf das Band legen, Waren scannen, bezahlen, Waren zurück in den Trolly, Supermarkt verlassen.

Transaktionale Daten beziehen sich immer auf Vorgänge.

Bei der Analyse von Daten spielen andere Punkte eine Rolle. Meist sind die Abläufe einzelner Transaktionen irrelevant, der Fokus liegt auf den Eigenschaften der Transaktionen: Wann und wo hat die Transaktion stattgefunden? Welche Waren sind betroffen? Welcher Vertriebsweg?

Analytische Daten beziehen sich auf Eigenschaften von Transaktonen.


Warehouse

Ich will jetzt nicht mit Wissen glänzen, das ich nicht habe. Einblick in die Materie besteht in dem Minijob, den ich derzeit als Kommisionierer bei einem Versender habe. Der Job zwingt mich, meinen von zu viel Sitzen geplagten Körper in Gang zu halten. Aus meiner beruflichen Sicht mit über 4 Jahrzehnten in der Elektrizitätswirtschaft spielen Materiallager nur eine untergeordnette Rolle. Strom wird (derzeit) nicht im industriellen Maßstab gespeichert. Lager gibt es durchaus, Zweck dieser Lager liegt allerdings in der Sicherstellung des Betriebs der Anlagen (Wartungsmaterial, Spezialersatzteile und ähnliches). Ich habe deshalb einmal in den Untiefen der Betriebswirtschaftsleere nachgesehen, welchde Funktonen von Lagern dort existieren:

  • Bereitstellung von Gütern ist eine recht allgemeine Beschreibung für die Lagerfunktion.
  • Veredelung von Güter wie die Trockung von Holz oder die Reifung von Spirituosen.
  • Größendegression um Industriechargen auf handelsmengen zu reduzieren.
  • Darbietung von Gütern, vom Showroom für Edele Stoffe bis hin zum Verkaufsraum eines Supermarktes bzw. Diskounters.
  • Spekulation mit Gütern, dabei werden Güter eingelagert um später einen höheren Preis zu erziehlen.
  • Sicherung der Versorgung um einen reibungslosen Ablauf der betrieblichen Fuktion zu gewärleisten. Um jetzt in der Elektrizitätsversogung zu bleiben: Hierzu gehören auch Spezialersatzteile für Kraftwerke und Transformatoren, deren Ersatzbeschaffung Monate, wenn nicht auch Jahre dauern würden.

Beschaffungsvorgang

Lagerorganisation

Ich nehme mir zunächst einmal die Lager vor, die ich aus eigener Erfahrung kenne. Diese bestehen aus mehreren Bereichen mit unterschiedlicher Funktion:

Das Lager unterteilt sich grob in zwei Bereiche, die organisatorisch voneinander getrennt sind:

  • Beschaffung
  • Auslieferung

Beschaffung

Der Wareneingang in meinem Lagermodell ist objektorientiert. Im Zentrum des Interesses stehen die Waren. Sie werden entsprechend ihrer Spezifikation bei einem Hersteller weltweit bestellt bestellt und bei Abruf oder Bestellung von diesem geliefert. Der Weg, über den die Güter transportiert werden ist individuell, meist wird der überwiegende Teil der Strecke im Container per Schiff erfolgen. Die direkte Anlieferung erfolgt jedoch standardmäßig mittels LKW durch einen Spediteur über die Straße.

Wareneingang

Der Wareneingang ist die Schnittstelle zum Transportsystem desSpediteurs. In den mir bekannten Fällen wird per LKW angeliefert. Der Wareneingang besteht aus einer Anzahl von standardisierten Ladebuchten, an die das Speditionsfahrzeug heranfahren kann um dort direkt entladen zu werden. Es ist so möglich, die benötigten Waren weltweit zu beschaffen.

Warenannahme

Lieferungen müssen bei der Annahme am Wareneingang erfasst und auf ihre Vollständigkeit und das Vorhandensein von Fehlern überprüft werden. (Qualitätskontrolle). Transportverpackungen müssen entfernt werden. Erst danach kann die Ware in das Lager gebracht und dort eingelagert werden. Die Ware wird vom Warenwirtschaftssystem erfasst, so dass diese später im Warenfluss innerhalb des Lagers abgerufen werden kann.

Vorratslager

Es können nicht auf Dauer die momentan abgerufenen Daten angeliefert werden. Effektiv werden Lieferungen erst bei einer Optimalen Nutzung des Lieferweges. Ein Vorratslager sorgt für die Pufferung um einerseits eine optimale Beschaffung zu organisieren und auf der anderen Seite einen kontinuierlichen Abgriff für die Auslieferung zu ermöglichen.


Lieferung

Organisatorisches Ziel ist es, die Materialanforderungen des Bestellers optimal zu erfüllen. Es steht damit das Subjekt „Kunde“ in der Perspektive. Schnittstelle zum Vorratslager sind Hochstapler, welche die Paletten aus dem Vorratslager in das Kommissionierungslager verbringen.

Lager für Kommisionierung

Die Lager, die ich kenne bestehen aus zwei Zonen: Eine für die Einlagerung der Gebinde, die noch nicht benötigt werden, eine zweite, die im Bedarfsfall aus dem Gebindelager gefüllt wird, aus der die Warenentnahme stattfindet. Die Unterteilung ist +/- organisatorisch.

Bei dem Lager für die Kommissionierung steht der eigentliche Vorgang des Zusammenstellens der Materialanforderung im Vordergrund. Die Waren werden griffbereit an eindeutig identifizierbaren Lagerplätzen aufbewahrt.

Gefüllt werden die Lagerplätze aus dem Vorratslager mittels Hochstaplers. Die Verpackung wird geöffnet, so das die Kommissionierer zugriff haben. Spezielle Güter, die sehr viel Abrufen werden bereits vor dem Verbringen an den Lagerort mit ihrer Versandverpackung versehen, um den Versandprozess zu Beschleunigen. Der Organisatorische Freiraum ist im Lager größer als beim Versand.

Kommisionierung

Die Kommisionierung umfasst das Zusammenstellen und Aufbereiten der angeforderten Artikeln eines Auftrag. Für die Komissionierung wird ein Lagerauftrag erstellt, der Material, Menge und Lagerort enthält. Der Kommisionierer sucht entsprechend den Vorgaben die gewünschen Artikel auf einem Wagen oder direkt in einen Karton zusammen. Die Waren werden ev. entsprechend den Wünschen des Anforderers aufbereitet oder gereinigt.

Abgeschlossene Lageraufträge werden an den Versand übergeben.

Versand

Die Waren werden überprüft und verpackt.

Die Waren werden entsprechend im ERP-System erfasst, Änderungen der Lagerbestände werden entsprechend verbucht. Das Packet wird beim Versandunternehmen gemeldet. Packete eines Versenders werden auf Containern zusammengestellt um eine schnelle übergabe bei der Abhohlung zu ermöglichen.

Warenausgang

Ein LKW des Versandunternehmens übernimmt die Waren an einer Ladebucht. Die Container und die darin enthaltenen Pakete werden an den Spediteur übergeben.

(Sorry, wenn ich jetzt mangels echter Fachkenntnis nicht umbedingt die korrekten Fachbegriffe benutze)


Eigenschaften

  • In einem Lager finden keine Änderungen an den Waren statt. Es wird mit den Gütern nicht aber an gearbeitet
  • Das Lager passt eine optimierte Beschaffung durch einen Warenbestand an den Bedarf des Kunden an.
  • Der Inhalt eines Lagers orientiert sich an den Anforderungen des Kunden, egal ob dieses eine dritte Partei ist oder sich um die eigene Produktion handelt (Subjektorientierung)
  • Die Warenlagerung orientiert sich an der Art der Güter.

Data Warehouse

Ein Date Warehouse stellt nichts weiter dar, als ein zweckorientiertes Lager digitaler Daten.

Klassische Literatur zu dem Thema umfasst einige Bereiche nicht: Datamining, Konservenintelligenz


Abgrenzung Operational DataStore (ODS)

Ich will einmal aus meiner Sicht als ausgemusterter Rentner eine Abgenzung zum Operational DataStore, kurz ODS, versuchen. Technisch gesehen sind beide eigentlich identisch. Vieleicht kann man ein ODS auch als Spezialfall eines Data Warehouses bezeichnen, die Abgrenzung ist irgendwo nicht sehr scharf. Der Unterschied ergibt sich aus dem Grund der Datenvorhaltung, bei einem ODS stehen technische Prozesse im Vordergrund. Um einmal in Keller meiner Erfahrung zu suchen:

  • Das EDM innerhalb von SAP Utilities hat einen technischen Hintergrund (Rechnungserstellung, Netzabrechnungen, Strombeschaffung, Meldungen).
  • Bei meinen Bewerbungsversuchen bin ich darauf gestoßen dass DHL wahrscheinlich für das Tracking seiner Lieferungen ebenfalls ein ODS-System verwendet. Ohne viel Phantasie zu verbrachen lässt sich das auch auf den Bezos Laufburschenschaft übertragen.

Inhalt dieser ODS sind entsprechend transaktionale Detaildaten, wo hingegend bei Data Warehouses eine analytische Sicht den Kern des Interesses bilden dürfte. Bedeutet: Es sind nicht alle Details zur Analyse erforderlich.

ODS und DW sind technisch vergleichbar, sammeln Daten aus verschiedenen Quellen. Der Aufbau eines ODS ist aber häufig einfacher, da nur spezifischee Transaktionsdaten gesammelt werden. Z. B. EDM, Trackingdaten.


Zusammenfassung

  • Bei einem Data Warehouse handelt es sich um eine Sammlung struckturierter Daten
  • Ein Data Warehouse erfüllt einen Informationsbedarf, dieser kann einen betriebswirtschaftlichen aber auch einen technischen Hintergrund haben.
  • In einem Data Warehouse können Daten angereichert und ergänzt werden, die Ursprungsinformation wird nicht geändert.

Sinn eines Data Warehouses

Ein Data Warehouse bedeutet einen nicht unerheblichen Aufwand. Es muss zusätzliche Hardware beschafft werden, für die Software müssen entsprechende Lizenzen vorhanden sein und ein entsprechendes Warehouse kostet Manpower für Entwicklung, Wartung und Betrieb. Also warum das Ganze?

Am Markt operierende, größere Unternehmen werden nicht nach dem Bauchgefühl oder der Nase des CEO geführt. Ohne jetzt auf ein großes Wissen in BWL zurückgreifen zu können: Entscheidungsgrundlagen müssen ausgearbeitet werden, wichtigster Gesichtspunkt dürfte im Bereich des aktuellen Status des Geschäfts liegen. Das reicht vom Produktcontrolling bis hin zur Kassenlage. Ich komme selbst aus dem Bereich Controlling, habe die ersten 20 Jahre dort verbracht. Allerdings weist die Elektrizitätswirtschaft der damaligen Zeit einige Besonderheiten auf, die teilweise heute noch vorhanden sind:

  • Es bestand ein Gebietsmonopol, was an Produkten abgesetzt worden ist war eher eine technische Frage
  • Der Strompreis musste von der Aufsichtsbehörde genehmigt werden, es bestand also kein Druck durch den Markt
  • Elektrizität ist nicht Lagerfähig, besitzt keinen Zwischenhandel, der etwas einlager kann.

die auch als Rechtfertigung gegenüber den Eigentümern standhalten müssen.

Perspektivwechsel, andere Sicht als auf einem transaktionalen System

Reduktion der Datenmenge

Aufbau von Zeitreihen

Unternehmen sind häufig in unterschiedliche, rechtlich eigenständige Unternehmensteile mit eigener Rechnungslegung und eigener Datenverarbeitung gegliedert. Diese Gliederung kann sowohl vertikal über Regionalgesellschaften erfolgen als auch horizontal z. B. durch Ausgliederung eigenständiger Vertriebswege. Jedes dieser Unternehmensteile ist zunächst sein eigener operativer Kosmos. Um dieses Dilemma zu beheben kann ein Data Warehouse Daten global zusammenführen und eine globale Datenbasis für analytische Fragestellungen schaffen.

Der Aspekt SPoT reicht von der Integration der Daten bis hin zur analogen Darstellung der Prozesse.

Ich weiß nicht, ob die Integration von Daten nicht einen eigenen Punkt darstellt. Hierunter fallen sowohl die einheitliche Darstellung von Angaben (Bsp. Geschlecht als m/f/d, männich – weiblich, 0 – 1) als auch die verwendeten metrischen Systeme (imperial, metrisch) darunter. In einer einheitlichen Systemumgebung solle dieses eine untergeordnette Rolle spielen, da hier meist einheitliche Grundlagen vorhanden sind.

Wichtiger ist die Harmonisierung von Werten und Prozessen. Dazu fällt mir zunächst das Währungsproblem ein. Die Transaktionale Währung kann von der Reportingwährung abweichen. Wie sieht es mit dem verwendeten metrischen System aus, im Mexikanisch – Kanadischem Grenzgebiet werden Imperiale Werte verwendet, im zivilisiertem Teil des Planeten herrscht das Metrische System vor.

Zusammenführung von Daten aus mehreren Quellen

All in One – Lösungen sind ab einer Unternehmensgröße nicht mehr möglich. Kann ich einen Handwerksbetrieb noch über eine Software-Suite abwickeln, wird das bei größenen Unternehmen kritisch. Da können Unternehmensteile rechtlich abgetrennt werden. Sei es, weil die räumliche Ausbreitung dieses erfordert, z. B. durch unterschiedliche Rechnungslegung. Sei es weil bestimmte Geschäftsformen, z. B. Online vs. klassicher Handel, eigene Strategien am Markt benötigen. Ist hier nicht Thema, sondern Ausgangslage für ein DW.

Integration und Harmonisierung

Kein Thema bei einem Greenfield Unternehmen. Alles Jungfräulich, alles kann geplant und für jedes Systen gelten gleiche Definitionen. Problematisch wird es, wenn Konzerne zusammengekauft werden. Hier treffen oft unterschiedliche Philosopien aufeinander, Vorgänge werden unterschiedlich im System abgebildet. Die Elektrizitätsversorgung ist eine Branche mit hoher Regulierung, die eine Software-Suite wie das SAP IS-U, heute SAP Utilities ermöglicht. Aber selbst hier sind unterschiedliche Abbildungen der Prozesse möglich, die bei einer Fusion zu Problemen führen können.

Das interesse innerhalb von ERP – Systemen erstreckt sich üblicherweise auf den aktuellen Geschäftsprozess und die Rechnungslegung. Eventuell noch auf die Planung. Es gibt in diesem Bereich Aufbewahrungsfristen, die aber nicht zwingend beinhalten, dass diese Daten auch permanent online sind (Archivierung).

Für ein Reporting werden aber desöfteren Zeitreihen auch auf historische Daten benötigt. Sei es zur Anlyse, sei es zur Selbstdarstellung. Data Warehouses ermöglichen es, historische Daten unabhängig vom operativen Geschäft vorzuhalten.


Probleme

Es geht um die Zeitverzögerung zwischen Transaktion auf der Quelle und der Bereitstellung der Daten für dfie Verwendung. Bei einem Data Warehouse handelt es sich um Kopien der Daten. Zumindest im SAP-Umfeld müssen die Daten vom Warehouse abgeholt werden, wie ist hier irrelevant. Die Daten werden nicht von einer Transaktion getriggert an das Warehouse weitergegeben. Über einen ETL-Prozess werden die Daten aus der Quelle geladen und innerhalb des Data Warehouses verbucht (Staging). Problem ist die Ladefrequenz. Grade in der Vergangenheit, als die Leistungsfähigkeit der Systeme eine deutlich geringere Performance hatte wurden Beladungen in die Nacht, außerhalb der Arbeitszeit verlegt. Die Aktualität der Daten konnte so stunden oder tagelang hinterherhängen.

Bei den Daten innerhalb eines Data Warehouse handelt es sich um Kopien der Originaldaten der Quellsysteme. Beim Kopieren (ETL-Prozess und Staging) können viele Probleme auftreten. Daten können nicht oder mehrfach verbucht werden. Daten können inkompatibel sein und können im DW nicht verbucht werden. Daten werden nicht extrahiert, weil der ETL-Algorithmus fehlerhaft ist. Für Auswertungen muss sichergestellt werden, dass die Daten des DW dem der Quellen entsprechen. Dieses ist umso wichtiger, wenn diese für die Rechnungslegung oder ein Audit dienen.

Bei einer Greenfield-Installation kein Thema, eher wenn Systeme „organisch“ Wachsen, wie es bei Fusionen oft der Fall ist. Unterste Ebene der Integration ist die technische Ebene. Wie sind die Datenfelder überhaupt definiert, wie werden Zustände gekennzeichnet. Alle DBMS lassen geben den Entwicklern eine Bandbreite von Optionen in die Hand. In einer homogenen Umgebung wie SAP sie anbietet, ist dieses Problem relativ gering.

Nächste Ebene ist die der semantischen Definition. Wie sind die Daten überhaupt definiert. Ich bin damit einmal auf die Nase gefallen, ein Begriff aus dem Bereich Analgen wurde lokal etwas anders gehandhabt als ich es von meinem SAP-Sprech gewohnt war. Dazu kommt, das Software wie SAP IS-U customizebar ist, ein und derselbe Vorgang in unterschiedlichen Systemen anders auf der Datenbank abgebildet werden können.

Schwierigste Ebene bei der Integration ist die oberste Ebene, die der abgeleiteten Merkmale. Im Bereich SAP IS-U / Utilities gibt es die Möglichkeit Fakten zu Anlagen, Tarifen oder Tariftypen frei zu definieren. Da können Welten aufeinandertreffen.

Datenwarenhäuser können sehr anspruchsvoll in Sachen Hardware sein. Sie sind wie Privatfahrzeuge: Stehen die meiste Zeit rum, kosten und müssen dann für Abfragen zum Teil zeitkritische Aufgaben bewältigen.


Realisierung

Einem Data Warehouse ist es egal in welchen Entwicklungsframework es aufgebaut worden ist.

Ein Data Mart ist ein für einen bestimmten Zweck vorgehaltener Datenbestand innerhalb eines DW, Subjektorientiert nach den Anforderungen der Benutzer

Sternschema


Abgrenzung Data Lake

Art der DatenStrukturierte DatenStrukturierte und unstrukutierte Daten
SpeicherformatTabellenDiverse
DatenmodellBei der Modellierung (Schema on Write)Beim Auslesen (Schema on Read)
FlexibilitätGeringe bei neuen DatenquellenSehr hohe Flexibilität bei neuen Datenquellen, da das Schema erst beim Lesen definiert werden muss
Wartungrobust, einfache PflegeHoher Pflegeaufwand
ZielrichtungGeschäftsanalyse, KPIData Mining, Machine Learning

Close Menu
error: Content is protected !!