Data-Profiling

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 5. Oktober 2019 um 23:27 Uhr durch imported>BrunoBoehmler(292800) (Änderung 192510846 von 188.98.71.77 rückgängig gemacht; Wikilink sinnvoll, wenn Artikel vorhanden).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Data-Profiling bezeichnet den weitgehend automatisierten Prozess zur Analyse vorhandener Datenbestände (z. B. in einer Datenbank) durch unterschiedliche Analysetechniken. Durch das Data Profiling werden die existierenden Metadaten zu den Echtdaten validiert und neue Metadaten identifiziert. Zusätzlich werden bestehende Datenqualitätsprobleme validiert, die verursachenden Daten identifiziert und die Informationsqualität der analysierten Daten gemessen. Durch das Data Profiling werden keine Qualitätsprobleme in den Daten behoben, sondern nur die zugehörigen Metadaten korrigiert.

Der Data-Profiling-Prozess

Die Data-Profiling-Analyse ist ein iterativer Prozess, der in folgenden vier Einzelschritten (vgl. Apel et al. 2010, S. 110) abläuft:

  1. Daten integrieren,
  2. integrierte Daten analysieren,
  3. Ergebnisse darstellen und
  4. fachlich bewerten.

Data-Profiling-Verfahren

Die verschiedenen Data-Profiling-Verfahren lassen sich in Attribut-, Datensatz- und Tabellen-Analyse einteilen. Bei der Attribut-Analyse werden alle Werte in einer Tabellen-Spalte (= Attribut) sowie die Eigenschaften der Attribute einer Tabelle untersucht, in der Datensatz-Analyse alle Datensätze einer Tabelle und in der Tabellen-Analyse alle Beziehungen zwischen verschiedenen Tabellen. Für jede dieser drei Analysearten existieren viele unterschiedliche Data-Profiling-Verfahren.

Literatur

  • Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi. Datenqualität erfolgreich steuern. 2. Aufl. 2010, Hanser Fachbuch, ISBN 978-3-446-42501-9.