Dark Data

aus Wikipedia, der freien Enzyklopädie

Als Dark Data bezeichnet man Daten, die zwar von Informationssystemen erfasst und gespeichert, aber nicht verwendet werden. Bei großen Datenmengen (Big Data) können viele Daten entstehen, die nicht alle analysiert, betrachtet oder benutzt werden und so kommt es dazu, dass man sich der Existenz der Daten nicht mehr bewusst ist.[1]

Gründe für Dark Data

Für die Entstehung von Dark Data bzw. die Entscheidung, Dark Data zuzulassen, gibt es unterschiedliche Gründe. Diese können beispielsweise sein:

  • sämtliche Daten sollen gesichert und archiviert werden, ohne dabei zu beachten, wie oft diese benutzt werden
  • rechtliche und sicherheitstechnische Gründe (z. B. Pflicht, bestimmte Daten nicht zu löschen)
  • überflüssige oder fehlerhafte Daten sind entstanden und geraten in den Hintergrund
  • Daten sind an andere Daten gebunden, werden aber selbst nicht genutzt
  • Daten sind nicht auffindbar, versteckt, beschädigt oder verschlüsselt und werden deswegen ignoriert
  • Daten sollen für spätere Analysen aufbewahrt werden und deswegen noch nicht weiter beachtet (Zeitaufschiebung oder Warten auf bessere Technologien)
  • veraltete Daten und Datenreste (Daten, die nicht an die Zeit angepasst sind werden als irrelevant eingestuft und vergessen bzw. ignoriert)
  • Speicher werden größer und damit auch mehr beansprucht und Daten lassen sich besser komprimieren
  • Mangel bei der Suche, Klassifikation, Sortierung und Kategorisierung von Daten
  • hoher Kosten- und Zeitaufwand bei der Auswertung

Bedeutung und Ausblick

Nach Schätzungen von IBM werden ungefähr 90 % der Daten, die durch Sensoren und Analog-Digital-Umsetzer erzeugt werden, niemals genutzt.[2] Die meisten Unternehmen analysieren zudem durchschnittlich nur 1 % der Daten.[3] Dies liegt bei Unternehmen meist an der hohen Menge an Daten, die nicht mehr zu bewältigen ist und deren Bearbeitung sehr kostenintensiv wäre. Das deckt sich mit einer 2020 von Splunk durchgeführten Studie zum Datenzeitalter[4], in der 66 % der Führungskräfte berichten, dass mindestens die Hälfte der Daten in ihren Unternehmen Dark Data sind, was laut Splunk einem Anstieg von 10 % im Vergleich zum Vorjahr darstellt[5][6]. Bei Computer Weekly gaben 60 % der befragten Organisationen an, zu glauben, dass ihre Business-Intelligence-Systeme unzureichend seien. 65 % sagten außerdem, dass das Content-Management sehr unorganisiert ablaufe.[7] Zudem gaben bei der New York Times 90 % der Datenzentren an, dass 90 % ihres Energieverbrauches verschwendet wird und damit eine höhere Belastung für die Umwelt und Mehrkosten durch Dark Data entstünden.[8] Daher versuchen viele Unternehmen, Dark Data mit Künstlicher Intelligenz auszuwerten. Ein bekanntes Beispiel ist Watson von IBM.[9] Werden wichtige Daten erst zu spät erkannt, kann das für Unternehmen schlimme Folgen haben.[10] Zudem ist es schwer zu beurteilen, wie mit sensiblen Daten umzugehen ist, die übertragen bzw. weitergereicht werden sollen, aber noch nicht analysiert worden sind oder was bei Datendiebstahl mit den Daten passiert.

Nach Meinung einiger Unternehmen können die heute nicht genutzten Daten allerdings in Zukunft für einzelne Anwendungen bzw. Analysen wichtig sein.[1]

Einzelnachweise

  1. a b Dark Data. In: ITwissen.info. DATACOM Buchverlag GmbH, abgerufen am 14. Oktober 2019.
  2. Digging up dark data: What puts IBM at the forefront of insight economy | #IBMinsight – SiliconANGLE. In: SiliconANGLE. 30. Oktober 2015 (Online [abgerufen am 1. Februar 2018]).
  3. The big data challenge of transformation for the manufacturing. Abgerufen am 1. Februar 2018 (englisch).
  4. Splunk veröffentlicht Studie zum Datenzeitalter. Abgerufen am 1. Dezember 2020.
  5. Datenzeitalter. Abgerufen am 1. Dezember 2020 (deutsch).
  6. Splunk-Studie: Deutsche Unternehmen bei Big-Data gut gerüstet? – speicherguide.de. Abgerufen am 1. Dezember 2020.
  7. Dark data could halt big data’s path to success. In: ComputerWeekly.com. (Online [abgerufen am 1. Februar 2018]).
  8. James Glanz: Data Centers Waste Vast Amounts of Energy, Belying Industry Image. In: The New York Times. 22. September 2012, ISSN 0362-4331 (Online [abgerufen am 1. Februar 2018]).
  9. IBM Cognitive Colloquium Spotlights Uncovering Dark Data – InformationWeek. In: InformationWeek. (Online [abgerufen am 1. Februar 2018]).
  10. Deriving Value from Data Before It Goes Dark – insideBIGDATA. In: insideBIGDATA. 12. Oktober 2015 (Online [abgerufen am 1. Februar 2018]).