-
0.05 MB
-
0.09 MB
-
0.33 MB
Keine Kommunikationsobjekte vorhanden.
| Startseite | My Site | Center |
| News | Dokumente | Videos | Produkte | Jobs | Events |
| Personen | Organisationen |
| Fragen | Antworten | Hinweise | Empfehlungen |
| Themenspecials | Virtual Roundtables |
Lassen Sie uns Ihre Kompetenzen & Netzwerke zusammenführen - einfach und effektiv mit der Competence Site. So können wir
Gemeinsam im Netzwerk Lösungen zu Ihren Themen und Branchen finden - kostenfrei und interaktiv
Gemeinsam mit Ihren Netzwerken für Ihre Kompetenzen bei über 1,6 Millionen Nutzern werben - hochwertig und nachhaltig
Keine Kommunikationsobjekte vorhanden.
005 Inhalt Seite Vorwort ..............................................................................................9 Die Autoren ......................................................................................11 Einleitung .........................................................................................13 I. Theorie I.1 Datenqualität ...................................................................................18 I.1.1 Daten .................................................................................18 I.1.2 Qualität..............................................................................19 I.1.3 Datenqualität ....................................................................21 I.1.4 Datenqualitätsmanagement .............................................25 I.1.5 Zusammenfassung ............................................................30 I.2 Ursachen und Ausprägungen schlechter Datenqualität ................31 I.2.1 Geschäftstreiber ................................................................31 I.2.2 Ausprägungen schlechter Datenqualität .........................34 I.2.3 Ursachen schlechter Datenqualität ..................................36 I.2.4 Beispiel: Finanzdienstleister .............................................41 I.2.5 Zusammenfassung ............................................................43 I.3 Auswirkungen schlechter Datenqualität ........................................44 I.3.1 Datenqualitätskosten ........................................................44 I.3.2 Gesetzliche Anforderungen ..............................................48 I.3.3 Zusammenfassung ............................................................51 I.4 Organisation ....................................................................................52 I.4.1 Aufbauorganisation ..........................................................52 I.4.2 Ablauforganisation ...........................................................59 I.4.3 Empfehlungen ...................................................................62 I.5 Referenzarchitektur für Business-Intelligence-Anwendungen......63 I.5.1 Referenzarchitektur für Business-Intelligence-Anwendungen...............................63 I.5.2 Problemstellen und Lösungsansätze hinsichtlich der Datenqualität ..............................................................67 I.5.3 Architektur für Datenqualitätsmanagement ...................71 I.5.4 Serviceorientierte Architektur..........................................73 I.5.5 Master Data Management ................................................74 006 Inhalt Seite I.6 Kennzahlen zur Messung der Datenqualität ..................................79 I.6.1 Anwendungsmöglichkeiten von Kennzahlen ..................80 I.6.2 Messpunkte für Datenqualität .........................................82 I.6.3 DQ-Metriken ....................................................................85 I.6.4 Beispiele für Kennzahlen je Datenqualitätskriterium .....87 I.6.5 Kennzahlenbaum ..............................................................89 I.6.6 DQ-Assessment.................................................................90 I.6.7 DQ-Planung ......................................................................93 I.6.8 DQ-Projekte ......................................................................94 I.6.9 Kennzahlenformular.........................................................94 I.6.10 Zusammenfassung ............................................................95 II. Technische Umsetzung Einleitung .........................................................................................98 II.1 Verbesserung der Datenqualität im Quellsystem .........................101 II.1.1 Korrektur fehlerhafter Daten .........................................101 II.1.2 Vorbeugung vor neuen Datenqualitätsproblemen .......101 II.1.3 Empfehlungen ................................................................106 II.2 Data Profiling .................................................................................108 II.2.1 Data-Profiling-Prozess ...................................................109 II.2.2 Zusammensetzung des Data-Profiling-Teams ..............111 II.2.3 Data-Profiling-Verfahren ...............................................112 II.2.4 Empfehlungen .................................................................145 II.3 Erfolgreiche Datenvalidierung und -filterung..............................147 II.3.1 Validierung auf vier Ebenen...........................................147 II.3.2 Filterung fehlerhafter Daten...........................................147 II.3.3 Validierung bei Extraktion oder Laden .........................151 II.3.4 Arten der Datenvalidierung ...........................................153 II.3.5 Erstellung der Validierungsregeln und Speicherung der Ergebnisse ...........................................155 II.3.6 Empfehlungen .................................................................156 II.4 Standardisierung und Bereinigung ...............................................157 II.4.1 Standardisierung vor der Bereinigung...........................157 II.4.2 Datenbereinigung ...........................................................159 II.4.3 Standardisierung und Bereinigung im ETL-Prozess.....179 II.4.4 Verfahren für nicht zu bereinigende Daten ...................180 II.4.5 Empfehlungen .................................................................181 II.5 Datenanreicherung ........................................................................182 II.5.1 Wirtschaftsinformationen ..............................................182 II.5.2 Geografische Informationen ..........................................184 Inhalt 007 Seite II.5.3 Soziodemografische Informationen ..............................185 II.5.4 Haushaltsbildung ............................................................186 II.5.5 Standards zur Klassifizierung von Waren und Dienstleistungen .............................................................187 II.5.6 Branchen-Klassifizierung ...............................................190 II.5.7 Empfehlungen .................................................................192 II.6 Verbesserung der Datenqualität in der Bereitstellung und Präsentation............................................................................194 II.6.1 Bereitstellung der Daten .................................................194 II.6.2 Präsentation der Information ........................................195 II.6.3 Empfehlungen .................................................................207 II.7 Metadaten Management................................................................208 II.7.1 Metadaten: Begriff und Strukturierung ........................208 II.7.2 Metadaten-Architekturen ...............................................210 II.7.3 Erstellung von Metadaten ..............................................214 II.7.4 Nutzung von Metadaten.................................................216 II.7.3 Empfehlungen .................................................................218 II.8 Data Quality Monitoring ..............................................................219 II.8.1 DQ-Messung und -Analyse ............................................219 II.8.2 Methoden ........................................................................221 II.8.3 Visualisierung..................................................................223 II.8.4 Benachrichtigung und Aktionen....................................226 II.8.5 Verantwortlichkeiten ......................................................
Datenqualitaet_Einleitung.pdf013 I. Einleitung Nach Schätzungen1 verursacht schlechte Datenqualität in Unternehmen Verluste in Höhe von bis zu 25 Prozent des operativen Gewinns. Aufgrund der zunehmenden Integration von IT in die Geschäftsprozesse der Unternehmen sowie der Anforderungen hinsichtlich Com- pliance nimmt die Bedeutung von Datenqualität nochmals erheblich zu. Die Hoffnung vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einführung von Stan- dardsoftware für Enterprise Resource Planning (ERP), Customer Relationship Management (CRM), Supply Chain Management (SCM) u. a. schwindet und macht endlich Platz für wirk- same Maßnahmen. Im Mittelpunkt dieses Buches steht die Vermittlung langjähriger Erfahrungen aus BI-Pro- jekten mit Datenqualitätsmanagement-Aktivitäten bei Unternehmen unterschiedlicher Bran- chen. Neben der anwender- und praxisorientierten Darstellung der verschiedenen Bereiche von Datenqualitätsmanagement (DQM) werden die Best Practices und Lessons Learned dar- gestellt, sodass der Leser eigene Projekte in diesem Umfeld erfolgreich durchführen kann. Generell werden Daten über eine Benutzerschnittstelle erfasst oder durch Geschäftslogik von IT-Systemen erzeugt. Meistens fließen die Daten weiter in andere IT-Systeme und werden dabei transformiert. Ein Datenfluss kann viele Stationen haben. Das Data Warehouse ist häu- fig nur die „Endstation“ solcher Datenflüsse. Werden fehlerhafte Daten nicht erkannt und behandelt, führen sie im Verlauf des Datenflusses zu Folgefehlern, die sich leicht zu größeren Problemen aufschaukeln können. Es liegt also auf der Hand, ein Datenqualitätsmanagement möglichst frühzeitig im Datenfluss anzusetzen. Nachhaltiges Datenqualitätsmanagement ist daher idealerweise eine unternehmensweite Aktivität, die gegebenenfalls vom BI-Vorhaben angestoßen werden muss. In den meisten Unternehmen kommen fehlerhafte Daten erst im Data Warehouse ans Licht. Das liegt daran, dass dort alle Daten in Gänze und verdichtet betrachtet werden, während beim Datenzugriff durch operative Systeme nur einige Felder in dem einen oder anderen Datensatz zutage treten. Schlechte Datenqualität lässt sich im Data Warehouse nicht ver- bergen. Allerdings ist es oft genau diese schlechte Datenqualität, welche die Akzeptanz der BI-Anwendung durch den Endanwender in den Fachbereichen verhindert und häufig direkt zum Misserfolg des mit dem Data Warehouse verbundenen Vorhabens führt. Wer will schon wichtige geschäftliche Entscheidungen auf fehlerhafte Daten stützen? Da lässt es sich noch besser aus dem Bauch heraus entscheiden. Dieses Buch hat nicht den Anspruch eines unternehmensweiten Datenqualitätsmanagements, sondern fokussiert auf den Bereich Business Intelligence, wo der Schmerz mit fehlerhaften Daten am größten ist. Unter Business Intelligence (BI) wird ein integrierter, unternehmens- spezifischer, IT-basierter Gesamtansatz zur Unterstützung betrieblicher Entscheidungen verstanden. „Business Intelligence ist der Prozess, der Daten in Informationen und weiter in Wissen umwandelt.“ 2 Unternehmensentscheidungen und Prognosen stützen sich auf dieses Wissen und führen zu geschäftlichem Mehrwert. Business Intelligence kommt sowohl zur Unterstützung strategischer Entscheidungen als auch im operativen Bereich zum Einsatz. 1 Vgl. Crosby 1979, S. 15; Juran 1988, S. 1. 2 Definition von Howard Dresner, Gartner 1989. 014 Einleitung Business Intelligence umfasst ein breites Spektrum an Anwendungen und Technologien und ist der Oberbegriff für Data Warehousing, Data Mining, Online Analytical Processing und Analytische Anwendungen. Im weiteren Sinne umfasst Business Intelligence auch die Er- schließung unstrukturierter Daten mittels Content- und Dokumenten-Management. Letzt- genannte Bereiche sind jedoch nicht Gegenstand dieses Buches. Betrachtet wird lediglich die Business Intelligence im engeren Sinn, also auf strukturierte Daten bezogen. Endanwender der Fachbereiche Business Intelligence Portal Reporting, Analyse, Data Mining Knowledge-Management Content-, Dokumenten- Data Warehouse Management Strukturierte Daten Unstrukturierte Daten ▲ Abb. E.1: Grobe Architektur für Business Intelligence Das Data Warehouse ist eine konsolidierte Datenhaltung zur Unterstützung von Reporting und Analyse. „Ein Data Warehouse ist eine themenorientierte, integrierte, chronologisierte und per- sistente Sammlung von Daten, um das Management bei seinen Entscheidungsprozessen zu unterstützen.“ 3 Das Buch gliedert sich in drei Teile. Im ersten Teil wird beschrieben, was Datenqualitäts- management ausmacht. Der zweite Teil befasst sich mit der Umsetzung und stellt insbeson- dere technische Hilfsmittel dar. Im dritten Teil wird erklärt, wie man Verfahren, Methoden, Organisation und Werkzeuge des Datenqualitätsmanagements in der Praxis einsetzt. Zu Beginn des ersten Teils werden die wesentlichen Begriffe im Zusammenhang mit Daten- qualitätsmanagement definiert. In Kapitel 2 wird erklärt, woran sich schlechte Datenqua- lität festmacht und wo die Ursachen dafür liegen. Im 3. Kapitel wird dargelegt, warum es sich lohnt, ein Datenqualitätsmanagement aufzusetzen. Im 4. Kapitel werden die organisa- torischen Belange in Bezug auf die Datenqualität ausführlich geschildert. Die Architektur 3 Vgl. Inmon 1996. Einleitung 015 für Business-Intelligence-Anwendungen wird unter dem Blickwinkel der Datenqualität in Kapitel 5 betrachtet. Das 6. Kapitel beschreibt, wie sich Datenqualität messen lässt. Im zweiten Teil des Buches werden wichtige Prinzipien der technischen Umsetzung des Datenqualitätsmanagements beschrieben. Dabei werden die Werkzeuge zur Unterstützung des Datenqualitätsmanagements betrachtet, angefangen beim Metadaten-Management über Data Profiling, die Validierung, Bereinigung und Anreicherung von Daten bis hin zur fort- laufenden Überwachung der Datenqualität. Anschließend wird auf die Integration der Werk- zeuge in die Anwendungslandschaft der jeweiligen IT-Umgebung eingegangen. Am Ende dieses Buchteils werden Kriterien zur Produktauswahl aufgeführt. Der dritte und letzte Teil des Buches bildet Datenqualitätsmanagement auf das Vorgehen in BI-Projekten ab. Dabei werden die einzelnen Phasen eines BI-Projekts von der Vorstudie über Spezifikation, Design und Umsetzung bis zum Betrieb im Unternehmen betrachtet. Für jede Projektphase werden die jeweils einzusetzenden Elemente des Datenqualitätsmanagements benannt, die im zweiten Teil des Buches beschrieben wurden. Somit bietet der dritte Buchteil für Projektverantwortliche eine unverzichtbare Hilfestellung zur erfolgreichen Durchfüh- rung von Projekten.
Datenqualitaet_Leseprobe.pdf108 Technische Umsetzung II.2 Data Profiling Dieses Kapitel zeigt, wie man mit Data Profiling erfolgreich die Datenqualität verbessern kann. Es werden die einzelnen Data-Profiling-Verfahren vorgestellt. Viele praktische Beispiele zeigen, wie man diese richtig einsetzt, die Ergebnisse verwendet und typische Stolperfallen umgeht. Außerdem werden Tipps gegeben, wie man das Data-Profiling-Team richtig zusam- menstellt. Data Profiling ist ein weitgehend automatisierter Prozess zur Analyse vorhandener Daten- bestände. Verschiedene Analysetechniken liefern Informationen über Inhalt, Strukturen und Qualität der Daten. Durch das Data Profiling (siehe Abbildung II.2.1) werden in erster Linie die existierenden Metadaten an den vorhandenen Echtdaten validiert und neue Metadaten gefunden. Zusätz- lich erhält man Informationen über bestehende Datenqualitätsprobleme, die verursachenden Daten und die Datenqualität der analysierten Daten. Dabei werden keine Qualitätsprobleme in den Daten behoben, sondern nur die zugehörigen Metadaten korrigiert. Wer sein Projekt realistisch planen möchte, benötigt verlässliche Aussagen über die Qualität der Daten aus den Quellsystemen. Dementsprechend ist das Data Profiling möglichst früh einzusetzen. Nur so ist man vor unliebsamen Überraschungen sicher, die den Aufwand stark vergrößern und den Projekt-Endtermin weit nach hinten verschieben können. Man sollte sich grundsätzlich niemals auf die Qualitätsaussagen anderer verlassen, da diese häufig auf Wunschdenken oder Unkenntnis beruhen. In welchen Projektphasen das Data Profiling wie eingesetzt werden sollte, wird in Teil III dieses Buches detailliert beschrieben. Es lohnt sich, für das Data Profiling entsprechende Werkzeuge (siehe Kapitel II.9) einzusetzen, die den Ressourcenaufwand erheblich reduzieren. Insbesondere bei wiederholter Anwendung ist der Aufwand wesentlich geringer als bei manuellen Verfahren. Zudem lassen sich die ge- wonnenen Ergebnisse schnell und einfach an anderen Stellen wie dem Monitoring während der ETL-Prozesse oder dem Datenqualitäts-Reporting (siehe Kapitel II.8) verwenden. Vorher Data-Profiling Nachher Metadaten Metadaten (richtig / falsch) (richtig) Daten (richtig / falsch) Daten (richtig / falsch) Infos zu falschen Daten Die Korrektur der Daten erfolgt erst in nachfolgenden Prozessen. ▲ Abb. II.2.1: Aufgaben des Data Profiling Data Profiling 109 II.2.1 Data-Profiling-Prozess Der Ablauf einer Data-Profiling-Analyse ist ein iterativer Prozess (siehe Abbildung II.2.2), der in folgenden vier Einzelschritten abläuft: 1. Daten integrieren, 2. integrierte Daten analysieren, 3. Ergebnisse darstellen und 4. fachlich bewerten. › Extraktion 1 › Attributseigenschaften Integration › Transformation › Beziehungen › Anreicherung Analyse › Statistiken › Bereitstellung › Datenregeln (einfach bis 4 Data komplex) Profiling ›… 2 Bewer- tung › Semantische Bewertung Ergebnis- › Tabellen-/Spaltenname der Ergebnisse darstellung › Verletzte Regeln 3 › Liste invalider Werte + Häufigkeit in % › Tabellen-/RowID der invaliden Werte › Anzahl überprüfter Rows ›… ▲ Abb. II.2.2: Der iterative Data-Profiling-Prozess Schritt 1: Integration der Daten Zuerst extrahiert das Projekt-Team die Daten für die Data-Profiling-Analyse aus den Quell- systemen. Kopiert das Team diese Daten zunächst in einen eigenen Staging-Bereich für das Data Profiling, hat das mehrere Vorteile. Erstens wird die zusätzliche Last auf den Quellsystemen vermieden. Da der Data-Profiling- Prozess große Datenbestände analysiert, ist der Bedarf an Rechnerressourcen sehr hoch. Eine Entkopplung verhindert, dass diese unnötig stark belastet werden und sich die operativen/ dispositiven Prozesse verlangsamen. Zweitens wird so die Analyse von Änderungen in den Quellsystemen entkoppelt. Data Profi- ling ist ein iterativer Prozess. Die einzelnen Schritte können sehr lange dauern. Während der Dauer dieses Prozesses ändern sich die Daten in den Quellsystemen ständig. Deshalb können die Wiederholungen nicht auf einem konstanten Datenbestand durchgeführt werden, was die Ergebnisse verfälscht. Nur wenn der Datenbestand während des gesamten Prozesses konstant bleibt, sind die Ergebnisse reproduzierbar. Drittens wird die Laufzeit des Data-Profiling-Prozesses kürzer. Für das Data Profiling werden typischerweise Daten aus verschiedenen Systemen über technische, geografische und System- 110 Technische Umsetzung grenzen hinweg analysiert. Dadurch können sich die Laufzeiten des Data-Profiling-Prozesses bei einem direkten Zugriff stark erhöhen, insbesondere bei schmalbandigen Netzwerkverbin- dungen. Bei Verbindungsabbrüchen muss der gesamte Analyseschritt wiederholt werden. Um bessere Ergebnisse zu erzielen, werden die Daten vor der Data-Profiling-Analyse noch weiter aufbereitet. Beispielsweise werden als Freitextfelder definierte Attribute mit zusam- mengesetztem Inhalt aufgespalten („Parsing“): So trennt man Name = „Dr. Friedrich Müller in Titel = „Dr.“, Vorname = „Friedrich“, Nachname = „Müller“. Außerdem entfernt man für die Analyse nicht benötigte Attribute und fügt Referenzdatenbestände (z. B. für Adressdaten) hinzu. Besitzen die zu analysierenden Daten referenzielle Beziehungen zu anderen, nicht in die Analyse einbezogenen Daten, sollte man diese Beziehungen auflösen und die Schlüssel- werte durch die „richtigen“ Werte ersetzen. Alternativ werden die verbundenen Daten auch zusätzlich mit in die Analyse einbezogen. Die so aufbereiteten Daten stellt man anschließend für die Analyse bereit. Schritt 2: Analyse der integrierten Daten Sind die Daten bereitgestellt, werden sie mit Hilfe der verschiedenen Verfahren des Data Pro- filing analysiert. Obwohl dies weitestgehend automatisch mit Hilfe eines Werkzeugs passiert, muss der Data-Profiling-Analyst interagieren. So muss er die geeigneten Analyseverfahren auswählen und konfigurieren. Eine Übersicht der vorhandenen Verfahren und weitere Infor- mationen dazu enthält Abschnitt II.2.3. Wie der gesamte Prozess ist auch dieser Analyseschritt hochgradig iterativ. Der Analyst wählt ein geeignetes Verfahren, analysiert damit die Daten und begutachtet die Ergebnisse. Darin identifiziert er erste Auffälligkeiten und weitere Fragen, denen er dann nachgeht. Dazu wech- selt er in der Regel mehrfach die Verfahren, bis sich am Schluss die Erkenntnisse verfestigt haben. Für diese Aufgabe ist detektivischer Spürsinn gefragt. Schritt 3: Darstellung der Ergebnisse Ergebnisse, offene Fragen und Vermutungen bereitet er in geeigneter Form auf und bespricht sie im Nachgang mit dem Business-Analysten. In der Praxis hat sich gezeigt, dass der Busi- ness-Analyst diese nur richtig und vollständig bewerten kann, wenn sie verständlich und nicht zu IT-lastig dargestellt sind. Meist fehlen dem Business-Analysten die notwendigen IT-Kenntnisse, um mit den Begriffen „Referenzielle Integrität“, „Eindeutigkeit“ etc. etwas an- fangen zu können. Deshalb ist es erfolgversprechender, bei der Darstellung der Ergebnisse für den Fachexperten verständliche Begriffe zu verwenden. Beispiel: Versuche, dem Business-Analysten zu erklären, dass „in der Tabelle BESTELLUN- GEN 3,2 Prozent Waisen ohne Vater in der Tabelle KUNDEN existieren“, scheitern. Zielfüh- render sind die Fragen: Warum sind 3,2 Prozent aller Bestellungen keinem Kunden zuzuord- nen? Wohin sind diese Bestellungen geliefert worden und wer hat die Rechnung bekommen? Außerdem ist es hilfreich, die entsprechenden Datensätze dem meist überraschten Business- Analysten gleich mit zu präsentieren. Denn in vielen Fällen kann der Fachexperte erst anhand der zugehörigen Datensätze die mögliche Ursache identifizieren. Wer die Reporting-Funktionalitäten des verwendeten Werkzeugs benutzt, kann den Aufwand für die aufbereitete Darstellung meist deutlich reduzieren. Viele Werkzeuge verfügen bereits Data Profiling 111 heute über ein umfangreiches Berichtswesen, das zu den üblichen tabellarischen häufig auch grafische Darstellungen bietet. Außerdem ermöglichen sie den direkten Zugriff und die Dar- stellung der betroffenen Datensätze. Schritt 4: Fachliche Bewertung der Ergebnisse Nachdem der Daten-Analyst dem Business-Analysten die Ergebnisse verständlich präsentiert hat, führt dieser eine fachliche Bewertung durch. Diese geschieht in der Praxis in mehre- ren Workshops.












